断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型

3月26日深夜,谷歌正式发布了全新思考模型——Gemini 2.5 Pro。此前业界广泛流传的代号"Nebula"神秘模型(现已确认就是Gemini 2.5 Pro)终于揭开面纱。该模型一经面世,便登顶LMSYS Arena榜单,稳居断层第一的位置。

谷歌CEO桑达尔·皮查伊("劈柴哥")亲自为其站台,称其为"谷歌有史以来最智能的AI模型"。从实测效果来看,这句话确实不是营销炒作。

横扫榜单,断层领先

Gemini 2.5 Pro是一个推理模型,能够在响应之前先进行思考推理,从而提高性能和准确性。

Gemini 2.5 Pro具有强大的推理和代码能力,在一系列需要高级推理的基准测试中遥遥领先。它就像是一个真正的"六边形战士",几乎没有明显的短板。

推理能力

在推理能力上,Gemini 2.5 Pro在被誉为"人类给AI的最后一场考试"的Humanity's Last Exam基准测试中表现出色,单凭模型自身能力(未借助外部工具)便达到了18.8%的准确率,展现了其强大的原生推理能力。

编码能力

在编码能力上,Gemini 2.5 Pro在Gemini 2.0的基础上实现了质的飞跃。Gemini 2.5 Pro擅长创建视觉精美的Web应用和智能体代码应用,同时在代码转换与编辑方面也能力出众。

在智能体代码评估的行业标准 SWE-Bench Verified 中,Gemini 2.5 Pro配置的自定义智能体得分为63.8%。

多模态能力

与其他推理模型不同,Gemini 2.5 Pro保持了Gemini系列的核心优势——原生多模态能力和超长上下文窗口

它支持100万token的上下文长度(谷歌称即将推出200万token),能够处理海量复杂信息,包括文本、音频、图像、视频,甚至完整的代码存储库。

网友实测

生成贪吃蛇游戏代码

创建3D汽车模拟器

生成国际象棋游戏

制作分层三角形动画

将图像转化为3D打印对象

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-28,如有侵权请联系 cloudcommunity@tencent 删除游戏编码测试模型音频