断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型
3月26日深夜,谷歌正式发布了全新思考模型——Gemini 2.5 Pro。此前业界广泛流传的代号"Nebula"神秘模型(现已确认就是Gemini 2.5 Pro)终于揭开面纱。该模型一经面世,便登顶LMSYS Arena榜单,稳居断层第一的位置。
谷歌CEO桑达尔·皮查伊("劈柴哥")亲自为其站台,称其为"谷歌有史以来最智能的AI模型"。从实测效果来看,这句话确实不是营销炒作。
横扫榜单,断层领先
Gemini 2.5 Pro是一个推理模型,能够在响应之前先进行思考推理,从而提高性能和准确性。
Gemini 2.5 Pro具有强大的推理和代码能力,在一系列需要高级推理的基准测试中遥遥领先。它就像是一个真正的"六边形战士",几乎没有明显的短板。
推理能力
在推理能力上,Gemini 2.5 Pro在被誉为"人类给AI的最后一场考试"的Humanity's Last Exam基准测试中表现出色,单凭模型自身能力(未借助外部工具)便达到了18.8%的准确率,展现了其强大的原生推理能力。
编码能力
在编码能力上,Gemini 2.5 Pro在Gemini 2.0的基础上实现了质的飞跃。Gemini 2.5 Pro擅长创建视觉精美的Web应用和智能体代码应用,同时在代码转换与编辑方面也能力出众。
在智能体代码评估的行业标准 SWE-Bench Verified 中,Gemini 2.5 Pro配置的自定义智能体得分为63.8%。
多模态能力
与其他推理模型不同,Gemini 2.5 Pro保持了Gemini系列的核心优势——原生多模态能力和超长上下文窗口。
它支持100万token的上下文长度(谷歌称即将推出200万token),能够处理海量复杂信息,包括文本、音频、图像、视频,甚至完整的代码存储库。
发布评论