Google Gemini 2.5 Pro在AI“ IQ”战斗中的编码图和Mensa测试 – 币界网

Google最近推出了Gemini 2.5 Pro在编码排行榜上排名第一,击败了Claude WebDev竞技场 – 类似于 LLM竞技场 ,但专门针对衡量AI模型在编码方面的良好方式。这项成就是在G

Google最近推出了Gemini 2.5 Pro在编码排行榜上排名第一,击败了Claude WebDev竞技场 – 类似于 LLM竞技场 ,但专门针对衡量AI模型在编码方面的良好方式。这项成就是在Google推动将其旗舰AI模型定位为编码和推理任务领导者的领导者的情况下实现的。

今年早些时候发行Gemini 2.5 Pro 排名第一 在几个类别中,包括编码,样式控制和创意写作。模型庞大的上下文窗口 – 一百万个代币扩展到 两百万 很快 – 允许它处理大型代码库和复杂项目,这些项目甚至会扼杀最接近的竞争对手。对于上下文,诸如Chatgpt和Claude 3.7十四行诗之类的强大模型只能处理多达128K代币。

双子座在所有AI模型中也具有最高的“智商”。 Trackingai通过正式化 mensa测试 ,使用Mensa挪威的口头问题来创建一种比较AI模型的标准化方法。

Gemini 2.5 Pro在这些测试中的得分高于竞争对手,即使使用培训数据中未公开可用的定制问题。

在离线测试中,智商得分为115,新的双子座列为“ 明亮的头脑 ”,平均人类智能得分约为85至114分。但是,AI具有智商需要打开包装的概念。AI系统没有像人类这样的智能商,因此最好将基准测试视为对推理基准的表现的隐喻。

对于专门为AI设计的基准,Gemini 2.5 Pro在AIME 2025数学测试中得分为86.7%,GPQA科学评估的得分为84.0%。在人类上一次考试(HLE)上,创建了一种避免测试饱和问题的新基准,Gemini 2.5得分18.8%,击败了Openai O3 Mini(14%)和Claude 3.7 Sonnet(8.9%),这在性能提升方面非常出色。

现在可以免费提供Gemini 2.5 Pro的新版本(具有速率限制)。 Google先前将此版本描述为“ 2.5 Pro的实验版”,这是其旨在通过响应推理而不是简单地生成文本的“思维模型”家庭的一部分。

尽管没有赢得每个基准,双子座有 引起了开发人员的注意 具有多功能性。该模型可以通过单个提示,构建交互式Web应用程序,无尽的跑步游戏和视觉模拟创建复杂的应用程序,而无需详细的说明。

我们测试了该模型,要求它修复损坏的HTML5代码。它生成了将近1000行代码,从而在质量和对全套说明的理解方面击败了克劳德3.7十四行诗(以前的领导者)。

对于工作开发商而言,Gemini 2.5 Pro Input的价格为每百万个代币和产出的价格为每百万个代币150美元,将其定位为某些竞争对手的便宜替代品,同时仍然提供令人印象深刻的功能。

AI模型在其高级计划中最多可处理30,000行代码,使其适用于企业级项目。它的多模式能力 – 使用文本,代码, 声音的 , 图像 , 和 视频 – 其他以编码为中心的模型无法匹配的ADD灵活性。

微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈

发布者:币下载 转转请注明出处:https://www.binancememe.com/328450.html

(0)
今日快讯的头像今日快讯
上一篇 2025年9月25日 上午9:44
下一篇 2025年9月25日 上午9:45

相关推荐

联系我们

QQ:11825395

邮件:admin@binancememe.com

联系微信
联系微信
客服QQ:905995598