面向大模型时代的云存储架构
4 月 20 日,由和腾讯云架构师技术同盟和腾讯云 TVP 联合主办的「AI 时代,程序员只剩架构师——腾讯云架构师技术沙龙」在北京召开。本次沙龙汇聚行业顶尖架构师,多角度深入解析 AI 时代架构设计的技术发展、落地应用,共同探寻 AI 时代架构师的进阶路径。沙龙活动中腾讯云存储研发总监严俊明分享了《面向大模型时代的云存储架构》的主题演讲。
腾讯云存储研发总监 严俊明
过去,传统存储提供标准化的接口和存储类型来让业务适配,AI 多样化的场景对存储提出更为复杂的要求,未来存储架构将朝着“场景定义存储”的新范式演进。
据 OpenAI 研究显示,大模型的智能程度与算力、参数规模呈正相关。训练大模型所需的基础设施已达万卡级别,参数从亿级跃升至万亿级,大模型为存储带来巨大的机遇与挑战。在大模型采集、清洗、训练、推理、“智”理等环节,对存储基础设施提出规模、性能、稳定等多维度的要求。 其中,核心矛盾是大模型的海量数据需求和极致性能需求之间的矛盾。对此,严俊明表示,“大模型对存储的要求是既要、又要,既要海量低成本的存储引擎,同时又要很高的性能要求,然而企业实践的过程中,这两者往往很难兼顾。”
腾讯云尝试做了一些创新技术探索:构建统一的对象存储底座,加速数据流转,降低企业因为数据流转带来的边际成本;在对象存储 COS 上构建存储加速层,来提高原始数据清洗流程的效率,使数据处理更高效;在数据生产阶段,提供多元化数据处理能力,通过数据服务做到更智能的数据治理,实现更弹性、更高效、更智能的效果。
在数据采集阶段,腾讯云提供数据迁移平台进行稳定、高可靠的传输服务,在 26 个物理区部署存储服务,支持TB级别的公网技术带宽,通过 3200 个全球加速节点来满足企业在训练模型阶段所需要数据的采集性能效率。在存储阶段,基于自研对象存储 YottaStore,单集群为 100EB 级别,具备多 AZ 容灾能力,持久性达 12 个 9。在数据清洗阶段,自研 GooseFS 三级加速体系,提升数据使用效率。模型训练阶段,自研 GooseFS-X 高性能存储,提升大模型预训练效率;在分发阶段,通过 GooseFS AZ 加速器来提升大模型分发效率。
此外,腾讯云还提供一站式安全解决方案来保障数据内容安全。例如针对 AIGC 生成的内容,一站式审核是否符合安全合规标准。腾讯云采用自研的数据水印技术,对数据进行知识版权。腾讯云推出跨模态检索工具 MetaInsight,做到跨模态的数据检索,如以文搜图、以图搜图、文搜视频等。
严俊明表示,传统存储是提供一些接口和存储类型,让业务来适配存储接口。然而这样的存储方式无法满足 AI 时代各类场景需求,因此未来技术发展可能会朝着“场景定义存储”方向来演进。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-29,如有侵权请联系 cloudcommunity@tencent 删除云存储存储架构模型数据
发布评论