DeepSeek发布新模型,不是R2,而是Prover
就在刚刚,Deepseek在huggingface发了新模型,既不是R2,也不是V4!
而是倒退版本、从来没有听过的DeepSeek-Prover-V2-671B模型,新的专家模型!
DeepSeek-Prover-V2-671B是基于DeepSeek-V3架构的一个专门用于数学证明的大型语言模型,具有以下特点:
- 模型规模巨大:参数量约为671B(6710亿参数),这从模型分片数量(163个)和每个分片大小(约4.3GB)可以看出
- 使用了DeepSeek-V3的架构:采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层
- 专为数学定理证明优化:从名称"Prover"(证明者)可以看出,这是一个专注于数学推理和定理证明的专业模型
- 支持超长上下文:最大位置嵌入达163840,使其能处理复杂的数学证明
- 采用FP8量化:通过量化技术减小模型大小,提高推理效率
config.json:
这是模型的核心配置文件,定义了DeepSeek-V3/Prover-V2的架构参数
- 包含模型结构参数:671B参数的超大模型,有61层,7168维隐藏层,128个注意力头
- 采用MoE架构:包含256个路由专家,每个token路由到8个专家
- 最大位置嵌入长度为163840,采用YaRN缩放策略,支持超长上下文
- 量化配置:使用FP8量化(e4m3格式),提高推理效率
configuration_deepseek.py:
这是模型配置类的Python实现,定义了DeepseekV3Config类
- 详细解释了各个配置参数的含义,如vocab_size(词表大小)、hidden_size(隐藏层维度)等
- 提供了配置类的初始化方法,设置默认参数值
- 继承自Hugging Face的PretrainedConfig类,支持与Transformer库的集成
DeepSeek-Prover-V2-671B应该是DeepSeek最新发布的针对数学证明领域的顶级模型,相比通用语言模型,它在数学推理、形式证明、定理验证等方面应该有更强的能力。
这种专业化大模型代表了当前AI研究的一个重要方向:为特定领域开发超大规模的专家模型。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-30,如有侵权请联系 cloudcommunity@tencent 删除DeepSeek量化模型配置数学
发布评论