项目展示

解锁数据价值,成为你的竞争优势 大数据博客

解锁数据价值,成为你的竞争优势 大数据博客

数据解锁:以数据作为您的竞争优势

关键要点

在 AWS reInvent 主旨演讲中,Swami Sivasubramanian 讨论了数据、生成性 AI 和人类之间的良性关系,强调了数据在构建独特生成性 AI 应用程序中的关键作用。AWS 推出了多种新工具,帮助企业将数据转化为重要的竞争优势,包括定制基础模型和构建强大的数据基础设施。

在 AWS reInvent 大会上,AWS 数据与 AI 副总裁 Swami Sivasubramanian 谈到了数据、生成性 AI 及人类之间的良好关系,共同创造新的效率和创意可能性。在现代科技的快速发展中,这是一个前所未有的激动人心的时刻。创新无处不在,未来充满了可能性。Swami 在今天的演讲中探讨了这个关系的多个方面,但对于希望在生成性 AI 中取得成功的客户来说,数据是最为重要的一环。如果您想打造符合自身业务需求的独特生成性 AI 应用,数据将是您的竞争优势。本周,我们推出了许多新工具,帮助您实现数据的差异化,包括定制基础模型的工具以及新的服务和功能,以建立强大的数据基础,支持您的生成性 AI 应用。

定制基础模型

构建自己的基础模型FMs时,对数据的需求自然显而易见。这些模型需要大量的数据。而即使在 FMs 之上构建时,数据依然是必不可少的。值得注意的是,构建生成性 AI 应用时,所有人都可以访问相同的基础模型。决定从普通应用程序转变为为客户和业务创造真实价值的生成性 AI 应用的关键在于数据。例如,Intuit 的新一代生成性 AI 助手 Intuit Assist,利用涵盖小企业、消费者金融和税务信息的相关数据集,为客户提供个性化的财务洞见。借助 Amazon Bedrock,您可以通过可视化界面使用少量标记数据对基础模型进行私密定制,而无需编写代码。今天,我们宣布可以微调 Cohere Command 和 Meta Llama 2,以及 Amazon Titan。除了微调,我们还使您能够通过检索增强生成 (RAG) 将模型与数据源中的最新、上下文相关信息联系起来。Amazon Bedrock 的知识库功能今天正式上线,支持整个 RAG 工作流,从数据摄取到检索,再到提示增强。知识库与流行的向量数据库和引擎兼容,包括 Amazon OpenSearch Serverless、Redis Enterprise Cloud 和 Pinecone,并即将支持 Amazon Aurora 和 MongoDB。

建立强大的数据基础

要生产构建或定制生成性 AI 的高质量数据,您需要一个强大的数据基础。当然,强大数据基础的价值并不新颖,对其需求也远不止于生成性 AI。在所有用例中,从生成性 AI 到商业智能 (BI),我们发现强大的数据基础包括一整套服务以满足您的各种用例需求,服务之间的集成以打破数据孤岛,以及用于治理数据的工具,以便您能更快速地进行创新。这些工具也需要具备智能,减轻数据管理的繁重工作。

全面性

首先,您需要一整套全面的数据服务组合,以便可以实现任何用例所需的性价比、速度、灵活性和能力。AWS 提供了一系列广泛的工具,使您能够存储、组织、访问和利用各种类型的数据。我们拥有最广泛的数据库服务选择,包括关系数据库如 Aurora 和 Amazon Relational Database ServiceAmazon RDS在本周一,我们推出了 RDS 家族的新成员:Amazon RDS for Db2。现在,Db2 客户可以轻松设置、操作和扩展高可用的 Db2 数据库。我们还提供非关系型数据库,如 Amazon DynamoDB,在超过 100 万客户中广泛使用,因其无服务器操作下能实现单毫秒级性能。您还需要用于数据分析和机器学习 (ML) 的存储服务,如 Amazon Simple Storage ServiceAmazon S3,客户在 Amazon S3 上创建了数十万个数据湖。它还包括我们的数据仓库 Amazon Redshift,提供比其他云数据仓库高 6 倍以上的性价比。我们还有工具能够对数据进行处理,包括用于 BI 的 Amazon QuickSight、用于 ML 的 Amazon SageMaker,当然还有用于生成性 AI 的 Amazon Bedrock。

无服务器增强

数据的动态特性使其非常适合无服务器技术,这也是为何 AWS 提供了广泛的无服务器数据库和分析产品,以支持客户最具挑战性的工作负载。本周,我们在这一领域对无服务器选项进行了更进一步的优化,包括具有自动扩展能力的新 Aurora 功能,可以实时处理数百万次写入交易并管理 PB 级数据,同时保持操作单一数据库的简单性。我们还发布了新的无服务器 Amazon ElastiCache 选项,使创建高可用缓存变得更快更容易,并即时根据应用需求进行扩展。最后,我们还宣布对 Amazon Redshift Serverless 新增了人工智能驱动的扩展和优化功能,该服务能够学习您的模式并主动在多个维度上进行扩展,包括并发用户数、数据变化和查询复杂性。所有这些都在考虑到您的性价比目标的同时进行,以便您在成本和性能之间进行优化。

更多数据库的向量功能

您的数据基础还需要包括存储、索引、检索和搜索向量数据的服务。随着客户在生成性 AI 应用工作流中需要向量嵌入,他们希望能够在现有数据库中使用向量功能,从而消除学习新编程工具、API 和 SDK 的陡峭学习曲线。他们也更有信心,因为现有数据库在生产中经过验证,并满足可扩展性、可用性以及存储和计算的要求。当您的向量和业务数据存储在同一地方时,您的应用程序运行起来会更快,而且不必担心数据同步或数据移动。

因此,我们已经投资在一些最流行的数据服务中增加向量功能,包括 Amazon OpenSearch Service 和 OpenSearch Serverless、Aurora 和 Amazon RDS。今天,我们又在 Amazon MemoryDB for Redis、Amazon DocumentDB与 MongoDB 兼容、DynamoDB 和 Amazon Neptune 中新增了向量支持。现在,您可以使用向量和生成性 AI 与所选择的数据库进行交互。

集成性

数据基础的另一个关键是跨数据源整合数据,以便更全面地了解您的业务。通常,在不同数据源之间连接数据需要复杂的提取、转换和加载 (ETL) 流程,这个过程可能需要数小时,甚至数天来构建。而且,这些流程还必须不断维护,往往也非常脆弱。AWS 正在投资一个零ETL 的未来,以便您快速、轻松地连接并处理所有数据,不论数据存在哪里。我们正在通过多种方式实现这一愿景,包括我们最流行数据存储之间的零ETL 集成。今年早些时候,我们推出了 Amazon Aurora MySQL 兼容版 与 Amazon Redshift 之间的完全托管的零ETL 集成。只需在 Aurora 写入数据的几秒钟内,您就可以使用 Amazon Redshift 对 PB 级数据展开近实时分析和机器学习。一家先驱性的零售商 Woolworths,借助 Aurora 与 Amazon Redshift 的零ETL 集成,将促销及其他事件的分析开发时间从两个月缩短至一天。

更多零ETL 选项

在 reInvent 上,我们宣布了与 Amazon Redshift 的另外三个零ETL 集成,包括 Amazon Aurora PostgreSQL 兼容版、Amazon RDS for MySQL 和 DynamoDB,便于您利用近实时分析来优化商业成果。此外,除了 Amazon Redshift,我们还将零ETL 支持扩展至 OpenSearch Service,该服务被数万客户用于实时搜索、监控和业务和操作数据分析。这包括与 DynamoDB 和 Amazon S3 的零ETL 集成。通过这些零ETL 集成,我们使您更容易利用与应用相关的数据,包括生成性 AI。

解锁数据价值,成为你的竞争优势 大数据博客

管理性

最后,您的数据基础还需确保安全并得到管理,以确保在生成 AI 应用开发周期中使用的数据质量高且合规。为此,我们于去年推出了 Amazon DataZone。Guardant Health 和 Bristol Meyers Squibb 等公司正在使用 Amazon DataZone 在整个组织内部 catalog、发现、分享和治理数据。Amazon DataZone 利用 ML 自动为您的数据目录添加元数据,从而使所有数据更易被发现。本周,我们为 Amazon DataZone 新增了一项功能,使用生成性 AI 自动创建数据集的业务描述和上下文,只需几次点击,使数据更易理解和应用。虽然 Amazon DataZone 可以帮助您在组织内部安全共享数据,但许多客户也希望能够将数据安全地共享给合作伙伴。

在数据基础中注入智能

除了将生成性 AI 引入 Amazon DataZone,我们还在我们的数据服务中利用智能技术,以使数据更易使用、更直观、并更易获得。我们的新一代生成性 AI 助手 Amazon Q 帮助您在 QuickSight 中撰写仪表板,并使用自然语言从仪表板数据创建引人注目的视觉故事。我们还宣布 Amazon Q 可以通过自然语言帮助您创建数据集成管道。例如,您可以要求 Q “从 S3 读取 JSON 文件,按 ‘accountid’ 连接,然后加载到 DynamoDB”,Q 会返回执行该操作的端到端数据集成作业。Amazon Q 还使您在数据仓库中使用生成性 AI SQL 查询变得更加容易目前处于预览阶段。现在,数据分析师、科学家和工程师可以更高效地利用生成性 AI 的文本到代码功能。您还可以通过为特定用户启用查询历史访问来提高准确性 而不牺牲数据隐私。

速云梯速云梯官网

这些新创新将使您能够利用数据去区分您的生成性 AI 应用,创造新价值,为您的客户和业务带来利益。我们期待着看到您所创造的成果!

关于作者

G2 Krishnamoorthy 是 AWS 分析副总裁,负责 AWS 数据湖服务、数据集成、Amazon OpenSearch 服务和 Amazon QuickSight。在此之前,G2 曾在 Facebook/Meta 构建和运营分析和 ML 平台,并在 Microsoft 构建 SQL Server 数据库、Azure Analytics 和 Azure ML 的各种部分。

Rahul Pathak 是关系数据库引擎副总裁,负责 Amazon Aurora、Amazon Redshift 以及 Amazon QLDB。在此之前,他是 AWS 的分析副总裁,负责 AWS 数据库产品组合。他共同创立了两家公司,一家专注于数字媒体分析,另一家专注于IP地理定位。

加载评论