存储、数据与AI:新时代的价值流
全文概览
企业应用的开发范式正经历根本性变革,传统以用户界面交互为核心的应用模式,逐渐被数据驱动的“数字孪生”取代——应用程序的逻辑不再由人工编码决定,而是通过分析实时数据流、预测趋势并自主决策。这一变革催生了“数据平台”这一新型基础设施,它整合存储、计算、治理与AI能力,成为企业构建下一代应用的基石。
本文聚焦数据平台的核心定义与技术架构,对比Snowflake、Databricks等头部厂商的战略差异,揭示其如何通过开放存储格式、统一治理策略和语义层抽象,推动企业从“代码编程”转向“数据编程”。随着AI模型深度融入应用逻辑,数据平台的能力将直接决定企业能否在自动化决策、实时响应和跨系统协同中占据先机。
阅读收获
- 架构理解:掌握数据平台的四层服务架构(存储、DBMS、访问、治理)及其技术选型逻辑。
- 厂商对比:清晰区分Snowflake与Databricks在治理策略、分析工具链和语义层的差异化路径。
- 趋势洞察:预见数据平台如何通过AI/ML、LLM和语义层重构企业应用开发范式。
What is a data platform?
ANALYSIS by George Gilbert[1]
以下是对数据平台的高层次定义,旨在为该领域的讨论提供框架,并帮助比较不同供应商及其在该领域的定位。由于技术发展日新月异,这一定义本身也是一个动态目标。此外,不同供应商对平台的定义也各有不同。如果只能记住一个段落,我建议关注战略定位部分。
战略定位
数据平台是构建企业应用的新型开发工具(图1)。数据反映了企业的运作方式,并记录其历史与当前状态。借助人工智能,数据还能预测企业的未来状态。越来越多地,应用程序的驱动因素是运营数据的变化,而非人类与用户界面的交互。此外,随着越来越多的应用逻辑被体现在AI模型中,企业的数据实际上通过“编程”AI模型(在训练阶段),在设计阶段就决定了应用程序的逻辑。
因此,数据平台供应商将掌控关键任务型企业应用的构建方式。最终,数据平台的能力将直接决定这些企业应用的核心能力。
图1:基于数据平台构建的应用程序新兴架构
平台级服务:新型基础设施层
平台服务取代了传统操作系统在抽象底层硬件中的角色。在传统平台中,硬件抽象将计算、网络和存储等底层细节隐藏在调度、内存管理、持久化存储等应用程序编程接口(API)之下。
相比之下,数据平台通过描述现实世界行为和运行的数据来实现抽象。因此相关服务包括以可访问格式存储数据、访问和更新数据的数据库、用于通用程序访问的API,以及控制访问的治理服务。本节以Snowflake和Databricks为例,展示领先厂商中最受欢迎的数据平台。其他主要数据平台则来自超大规模厂商。
我们定义平台服务包含以下四个组件:
- 存储格式:所有人都认同开放存储格式的价值——至少在分析型数据领域。无论是Iceberg(Snowflake及其生态)、Delta Tables(Databricks、Apache Spark和微软)、Hudi,还是三者结合(Databricks统一格式),开放格式意味着工具生态系统可以读写数据。生态系统访问至关重要,因为某些工具(如数据科学工具链)通常无法直接与SQL数据库管理系统(DBMS)交互。数据本身具有低层次技术定义,因此可视为“字符串”,而非对应用程序和终端用户有意义的高层次“事物”。
- 数据库管理系统(DBMS):数据平台的初始用例是将原始操作数据转化为可供商业智能仪表盘访问或供数据科学家训练AI/机器学习模型的管道。Snowflake在仪表盘方面表现强劲,因其交互式响应能力。Databricks正通过Databricks SQL(比Snowflake晚五年成熟)迎头赶上,但试图通过基于历史查询性能数据训练机器学习模型来缩小性能差距,从而实现更优实时优化。Snowflake正利用其领先优势重新定义数据管理。其DBMS支持从交易开始的多种数据模型扩展,包括向量、图、流式传输等。核心理念是客户可在单一共享服务中管理全部数据资产,消除数据孤岛。客户和独立软件供应商可在Snowflake上构建数据驱动应用,将分析结果直接应用于业务流程。而在Databricks,用户需将分析结果嵌入外部应用以辅助或自动化决策。这一区别在两家公司最近的会议中并未得到充分强调。
- 湖仓/SDK访问:非SQL API允许任何工具或服务访问数据。Spark拥有独立引擎和DataFrame API用于数据访问,该引擎在批量数据准备管道中成本更低、效率更高。Fivetran和dbt labs通过在Snowflake上运行这些管道定义了现代数据栈。出于成本考虑,许多客户和合作伙伴计划将此类工作负载迁移到AWS EMR或Databricks Spark等更廉价的批量引擎。基于Python的数据工程和数据科学工作负载最初运行在这些服务上,但Snowflake的Snowpark现已原生支持DBMS内的此类任务。
- 治理:在存储层,治理主要涉及权限管理,即定义谁可访问哪些数据。每个数据存储通常拥有自身数据的权限。Snowflake的核心差异化在于,只要数据保留在其平台内,即可统一应用治理策略。Databricks则通过Unity目录在异构数据资产中设置权限,涵盖Snowflake、Redshift和BigQuery等。迁出Snowflake管道的客户可能被Unity的异构治理能力吸引。
应用级服务
基于现实世界数据的应用需响应或预测事件。为此,应用需要分析能力来辅助或自动化决策,人类仅偶尔介入。应用还需额外服务:语义层将现实世界“事物”映射为数据库管理的“字符串”,追踪事物关联的治理服务,以及整合所有流程的工作流。目前Snowflake和Databricks在主要数据平台中拥有最成熟的应用级服务。
- 分析:自动化业务流程导致企业应用形成数据孤岛,各自拥有独立数据。当分析驱动决策或自动化成为核心时,端到端数据集成变得必要。但分析需覆盖完整能力谱系(图2)。理想情况下,开发者应能在应用中调用任何类型的分析工具。
- 管道:将原始数据工程化为共享、可复用、标准化格式是分析的基础。客户使用Fivetran、dbt等产品构建这类准备管道。
- BI仪表盘:分析工程师随后构建包含指标和维度的商业智能仪表盘。
- 预测与规范性AI/ML:数据科学家基于标注训练数据构建AI/ML模型。
- 生成式AI(GenAI):当前生成式AI以大型语言模型(LLM)形式存在,这些模型在海量数据集上预训练,仅需少量数据即可适配多数任务。终端用户常无需微调即可直接提示LLM。早期工作负载聚焦信息合成,未来将演进为代理模式,代表终端用户或应用执行任务。Databricks通过扩展现有数据科学和MLOps工具,并收购MosaicML,使开发者能基于Delta Lake精炼的数据训练、微调和提示自有模型。其会议展示出比微软与OpenAI合作更有效地凝聚数据科学社区能量。Snowflake则押注NVIDIA的Nemo LLM工具,试图在AI工具竞赛中追赶Databricks。
- 决策落地:任何分析结果均可通过更新操作型应用的形式辅助或自动化操作。在Databricks,开发者需连接外部应用;而Snowflake允许开发者在其多模型DBMS上构建完全数据驱动的运营应用。
图2:数据平台需要同时具备BI和AI/ML能力。Databricks和Snowflake最初各具优势,但都在试图提供全面的功能。
- 治理:Databricks的Unity不仅统一管理湖仓存储中的表访问权限,还能整合异构数据资产中的所有分析数据和权限策略,包括Snowflake、AWS Redshift、GCP BigQuery等。Unity追踪仪表盘和AI模型的全生命周期,甚至追溯其底层数据血缘,从而支持长期决策审计。这一策略使Databricks将数据库管理系统(DBMS)成熟度的相对劣势转化为治理异构数据资产的优势。相比之下,Snowflake似乎将数据治理(除权限管理外)交由合作伙伴负责。
- 语义:在这一层,治理旨在将数据“字符串”(如行、列组成的表格)转化为对应用程序有意义的“实体”。目前这些“实体”是仪表盘或AI模型,未来可能演变为类似Uber的乘客、司机、费用估算和预计到达时间等业务对象。通过LakehouseIQ,Databricks进一步隐藏了数据的技术细节,使业务用户乃至开发者能够借助大语言模型(LLMs)作为协作者或代理,在整个数据资产中构建应用。LakehouseIQ利用LLM通过分析仪表盘、查询、AI/ML模型等元数据,推断数据资产的语义含义,从而理解各组织的“实体”定义。长期来看,LakehouseIQ有望成为强大的语义层。其路径似乎与Palantir和EnterpriseWeb的方案趋同,即在现有遗留应用之上构建面向新应用开发的语义层。目前Databricks在这一领域明显领先于Snowflake。Snowflake借助Neeva收购的技术实现了自然语言查询,但尚未公开披露面向开发者语义层的具体计划。
- 工作流:未来的工作流功能需简化动态生成业务流程的复杂性。管理现实世界中人员、流程和实体的应用程序必须响应多种事件,开发者无法手动编码所有可能性。因此,策略需实时生成特定工作流。目前,Databricks和Snowflake主要将工作流用于批处理数据管道的管理。
数据平台作为未来应用平台
传统应用通常基于计算、网络和存储基础设施构建。未来,应用将编程现实世界。以数据驱动的数字孪生(代表现实世界中的人、地点、物体和活动)将成为核心平台。这解释了为何厂商和客户都在竞相推进相关技术。
总体而言,我们判断,来自现实世界实体的分布式数据特性,加上实时行动需求,将进一步考验现有数据平台。未来将涌现多种解决方案应对数据挑战,这些方案可能从传统数据管理视角(如Snowflake)、数据科学视角(如Databricks)或基础设施优势(如云/基础设施即服务、计算与存储供应商)切入。
唯一不变的是,数据平台的能力正在快速演进。每种方案都将争夺主导地位,各有利弊。最终,数据应用将使主流企业以全新方式“编程”现实世界并管理业务,正如优步通过其开创性应用所实现的变革。
原文标题:What is a data platform?
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-31,如有侵权请联系 cloudcommunity@tencent 删除服务工具模型数据存储
发布评论