Google Gemini 2.5 Pro在AI“ IQ”战斗中的编码图和Mensa测试

Google Gemini 2.5 Pro在AI“ IQ”战斗中的编码图和Mensa测试 - 币界网

Google最近推出了Gemini 2.5 Pro在编码排行榜上排名第一，击败了Claude WebDev竞技场 - 类似于 LLM竞技场，但专门针对衡量AI模型在编码方面的良好方式。这项成就是在Google推动将其旗舰AI模型定位为编码和推理任务领导者的领导者的情况下实现的。

今年早些时候发行Gemini 2.5 Pro 排名第一在几个类别中，包括编码，样式控制和创意写作。模型庞大的上下文窗口 - 一百万个代币扩展到两百万很快 - 允许它处理大型代码库和复杂项目，这些项目甚至会扼杀最接近的竞争对手。对于上下文，诸如Chatgpt和Claude 3.7十四行诗之类的强大模型只能处理多达128K代币。

双子座在所有AI模型中也具有最高的“智商”。 Trackingai通过正式化 mensa测试，使用Mensa挪威的口头问题来创建一种比较AI模型的标准化方法。

Gemini 2.5 Pro在这些测试中的得分高于竞争对手，即使使用培训数据中未公开可用的定制问题。

在离线测试中，智商得分为115，新的双子座列为“ 明亮的头脑 ”，平均人类智能得分约为85至114分。但是，AI具有智商需要打开包装的概念。AI系统没有像人类这样的智能商，因此最好将基准测试视为对推理基准的表现的隐喻。

对于专门为AI设计的基准，Gemini 2.5 Pro在AIME 2025数学测试中得分为86.7％，GPQA科学评估的得分为84.0％。在人类上一次考试（HLE）上，创建了一种避免测试饱和问题的新基准，Gemini 2.5得分18.8％，击败了Openai O3 Mini（14％）和Claude 3.7 Sonnet（8.9％），这在性能提升方面非常出色。

现在可以免费提供Gemini 2.5 Pro的新版本（具有速率限制）。 Google先前将此版本描述为“ 2.5 Pro的实验版”，这是其旨在通过响应推理而不是简单地生成文本的“思维模型”家庭的一部分。

尽管没有赢得每个基准，双子座有引起了开发人员的注意具有多功能性。该模型可以通过单个提示，构建交互式Web应用程序，无尽的跑步游戏和视觉模拟创建复杂的应用程序，而无需详细的说明。

我们测试了该模型，要求它修复损坏的HTML5代码。它生成了将近1000行代码，从而在质量和对全套说明的理解方面击败了克劳德3.7十四行诗（以前的领导者）。

对于工作开发商而言，Gemini 2.5 Pro Input的价格为每百万个代币和产出的价格为每百万个代币150美元，将其定位为某些竞争对手的便宜替代品，同时仍然提供令人印象深刻的功能。

AI模型在其高级计划中最多可处理30,000行代码，使其适用于企业级项目。它的多模式能力 - 使用文本，代码，声音的 , 图像，和视频 - 其他以编码为中心的模型无法匹配的ADD灵活性。

微信里点“发现”，扫一下二维码便可将本篇文章分享至朋友圈

发布者：币下载转转请注明出处：https://www.binancememe.com/328450.html

Google Gemini 2.5 Pro在AI“ IQ”战斗中的编码图和Mensa测试 - 币界网

联系我们

QQ：11825395

Google Gemini 2.5 Pro在AI“ IQ”战斗中的编码图和Mensa测试 - 币界网

相关推荐

密码鱼在过去几个月里一直在努力工作:详细 - 币界网

杀 比特币跌破64500、以太坊重挫7％险失守3200美元 超6.2万人爆仓 - 币界网

在加密货币市场持续崩溃的情况下，Solana有可能出现150美元的回调波 - 币界网

GEGG：Memecoins的下一个进化允许投资者像SHIB&DOGE一样使用社交网络，但拥有新的人工智能社交评分系统扭曲 - 币界网

SOL用户活动创历史新高，专家们看到了新突破的潜力！Solana创纪录的用户激增激发了人们的希望：今天的加密新闻 - 币界网

联系我们

QQ：11825395

杀比特币跌破64500、以太坊重挫7％险失守3200美元超6.2万人爆仓 - 币界网