Ai2发布Molmo:一种与科技巨头竞争的新型开源人工智能 – 币界网

人工智能爱好者们,高兴吧:有一个新的多模式、大型学习模型可供您使用。 总部位于西雅图的非营利人工智能研究机构艾伦人工智能研究所(Ai2)刚刚推出 莫尔莫 ,一系列多模式人工智能模型,有望与Openai

人工智能爱好者们,高兴吧:有一个新的多模式、大型学习模型可供您使用。

总部位于西雅图的非营利人工智能研究机构艾伦人工智能研究所(Ai2)刚刚推出 莫尔莫 ,一系列多模式人工智能模型,有望与Openai和Anthropic等主要科技公司基于视觉的专有产品相媲美。

多模态是指处理不同数据类型的能力,包括文本、图像、音频、视频,甚至感官信息。

周二,Molmo在没有所有主要人工智能模型的大张旗鼓的情况下首次亮相,但拥有任何最先进的视觉模型的所有花里胡哨。

该系统在解释视觉数据方面表现出了非凡的熟练程度,从日常物品到复杂的图表和杂乱的白板。

在视频演示中,Ai2展示了Molmo创建能够执行个性化任务的AI代理的能力,例如订购食物和将手写数据组织成正确格式的代码。

Ai2的研究员Matt Deitke在一份声明中表示:“该模型通过指出元素,为人工智能与世界互动引入了一种方式,从而突破了人工智能发展的界限。其性能是由一个非常高质量的精心策划的数据集驱动的,该数据集教人工智能通过文本理解图像。”

该系统在近100万张图片的精心策划的数据集上进行了训练,这只是竞争对手通常使用的数十亿张图片的一小部分。根据该模型的研究论文,这种方法虽然很小,但降低了计算要求,减少了人工智能响应中的错误。

Ai2的高级研究总监Ani Kembhavi解释了这一策略背后的基本原理:“我们专注于在更小1000倍的规模上使用极其高质量的数据,Kembhawi说。”这产生了与最好的专有系统一样有效的模型,但误差更小,训练时间更快。”

Molmo系列包括几种不同尺寸的型号。MolmoE-1B是具有10亿个活动参数(总共70亿个)的专家模型的混合物。

Molmo-7B-O是最开放的70亿参数模型。与此同时,Molmo-7B-D是一个示范模型。在该系列中,Molmo-72B代表了该系列中最先进的型号。

初步评估表明,即使是较小的70亿参数模型,其性能也与更重要的专有替代品相当。这种效率使Molmo能够接触到更广泛的开发人员和研究人员,从而可能加速该领域的创新。

Molmo的开发涉及新的数据收集方法。该团队使用了来自人类注释者的基于语音的图像描述,从而产生了更丰富、更详细的字幕。他们还结合了2D指向数据,增强了模型执行计数和对象识别等任务的能力。

Molmo的释放是分阶段的。最初,Ai2提供了一个演示、推理代码、 研究论文 在arXiv上,选择模型权重。在接下来的两个月里,该研究所计划发布更多组件,包括更全面的技术报告版本、训练中使用的数据集系列、额外的模型权重和检查点,以及训练和评估代码。

通过公开Molmo的代码、数据和模型权重,Ai2旨在促进开放式人工智能研究和创新。这种方法与许多领先的人工智能系统的封闭性形成鲜明对比,可以加速该领域的进展。

测试模型

解密 测试了该模型,结果相当不错,优于Llava(开源社区的标准多模态LLM),并在视觉任务中与ChatGPT和Reka相匹配。

聊天机器人,现在 公开可用, 可以免费使用。界面是粉红色的,但它与典型的人工智能聊天机器人非常相似:一个带有以前交互的侧面板、一个主屏幕和一个位于下部的文本框。

然而,该模型主要是为与视觉相关的任务而设计的,至少在最初的版本中是这样。无法进行纯文本输入;用户必须上传图像才能启动交互。

欢迎屏幕上预先提示的图像+文本示例可能会为您提供有关此模型如何工作的线索。例如,不可能触发一个简单的问题,比如“为什么美国不喜欢普京?”,但提示一张弗拉基米尔·普京的照片,就可以向模型提出这个具体问题,因为互动是基于图像和文本的混合。

这是我们的第一次比较。在展示弗拉基米尔·普京的照片时,莫尔莫解释说,由于历史紧张局势、地缘政治竞争和人权问题等不同因素,美国和普京之间的关系紧张。

我们让Molmo与当今最好的模型进行了测试。出于空间原因,我们使用每个模型一个任务来大致了解Molmo的可比性。

捕捉幽默、细微差别和主观因素

该模型擅长理解照片中的微妙元素,包括幽默和不寻常的特征。我们的测试表明,它能够熟练掌握这些更主观的方面。例如,当看到人工智能生成的普京和金正恩分享啤酒的图像,并被问及为什么人们觉得这很有趣时,莫尔莫正确地将这张图像识别为荒谬的,并且是为了娱乐目的而创建的。

莫尔莫说:“考虑到图片的质量很低,而且毫无意义,难怪你的朋友在你的WhatsApp群中嘲笑它。这不是一张严肃或有意义的图片,而是一个执行不力的笑话或模因,很可能会带来娱乐或嘲弄。”。

ChatGPT的解释是:“你的朋友也可能在这种荒谬的情况下找到幽默,因为人们不会把这两个人联系在一起。”

理解图表和图形中的数据

该模型还展示了对图表解释的熟练程度,表现与Reka相当。我们展示了一张图表,比较了相似家族中不同模型的ELO得分,并提出了三个问题:确定最佳的整体模型,计算不同模型家族的数量,以及评估名称不完整的特定模型的质量。

这些都是一些棘手的问题。

Molmo准确地将“Flux Iprol”确定为性能最佳的型号,而Reka则错误地将其命名为“Flux[Ibrol]”

然而,Reka在第二项任务中更好地分辨出了细微差别,正确地将相似的模型分组到家族中,并提供了7个不同模型家族的准确答案。相比之下,Molmo单独计算了每个模型。

对于第三项任务,Molmo提供了更细致和直接的回应,承认SD3是一个强大的模型,并指出它是家族中最好的,同时提到了其他选择。Reka的回复“图像中没有明确提及SD3”在技术上是准确的,但缺乏洞察力,特别是考虑到它能够将不同的SD3版本组合成一个系列。

图片描述

该模型擅长描述图像元素和识别文本。我们将其能力与克劳德3.5十四行诗进行了比较,要求两者描述威廉·桑德斯先生在美国参议院证词的框架截图中的所有元素。

这两个模型都表现得很好,尽管克劳德犯了更多的描述性错误。例如,它颠倒了左右两侧元素的描述,把一个女人误认为是一个年轻的男人。

判决

总的来说,对于需要熟练视觉模型的用户来说,Molmo是一个有价值的工具。它目前与Reka竞争良好,但在某些领域表现优于Reka。

虽然Claude提供了更多的通用性和功能,但它施加了Molmo没有的日常交互限制,使其成为高级用户的更好选择。

ChatGPT避免了此类限制,但需要付费的ChatGPT Plus订阅才能访问其视觉功能。

微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈

发布者:币下载 转转请注明出处:https://www.binancememe.com/349153.html

(0)
今日快讯的头像今日快讯
上一篇 2025年10月23日 上午2:27
下一篇 2025年10月23日 上午2:31

相关推荐

联系我们

QQ:11825395

邮件:admin@binancememe.com

联系微信
联系微信
客服QQ:905995598