Ai2发布Molmo：一种与科技巨头竞争的新型开源人工智能

人工智能爱好者们，高兴吧：有一个新的多模式、大型学习模型可供您使用。

总部位于西雅图的非营利人工智能研究机构艾伦人工智能研究所（Ai2）刚刚推出莫尔莫，一系列多模式人工智能模型，有望与Openai和Anthropic等主要科技公司基于视觉的专有产品相媲美。

多模态是指处理不同数据类型的能力，包括文本、图像、音频、视频，甚至感官信息。

周二，Molmo在没有所有主要人工智能模型的大张旗鼓的情况下首次亮相，但拥有任何最先进的视觉模型的所有花里胡哨。

该系统在解释视觉数据方面表现出了非凡的熟练程度，从日常物品到复杂的图表和杂乱的白板。

在视频演示中，Ai2展示了Molmo创建能够执行个性化任务的AI代理的能力，例如订购食物和将手写数据组织成正确格式的代码。

Ai2的研究员Matt Deitke在一份声明中表示：“该模型通过指出元素，为人工智能与世界互动引入了一种方式，从而突破了人工智能发展的界限。其性能是由一个非常高质量的精心策划的数据集驱动的，该数据集教人工智能通过文本理解图像。”

该系统在近100万张图片的精心策划的数据集上进行了训练，这只是竞争对手通常使用的数十亿张图片的一小部分。根据该模型的研究论文，这种方法虽然很小，但降低了计算要求，减少了人工智能响应中的错误。

Ai2的高级研究总监Ani Kembhavi解释了这一策略背后的基本原理：“我们专注于在更小1000倍的规模上使用极其高质量的数据，Kembhawi说。”这产生了与最好的专有系统一样有效的模型，但误差更小，训练时间更快。"

Molmo系列包括几种不同尺寸的型号。MolmoE-1B是具有10亿个活动参数（总共70亿个）的专家模型的混合物。

Molmo-7B-O是最开放的70亿参数模型。与此同时，Molmo-7B-D是一个示范模型。在该系列中，Molmo-72B代表了该系列中最先进的型号。

初步评估表明，即使是较小的70亿参数模型，其性能也与更重要的专有替代品相当。这种效率使Molmo能够接触到更广泛的开发人员和研究人员，从而可能加速该领域的创新。

Molmo的开发涉及新的数据收集方法。该团队使用了来自人类注释者的基于语音的图像描述，从而产生了更丰富、更详细的字幕。他们还结合了2D指向数据，增强了模型执行计数和对象识别等任务的能力。

Molmo的释放是分阶段的。最初，Ai2提供了一个演示、推理代码、研究论文在arXiv上，选择模型权重。在接下来的两个月里，该研究所计划发布更多组件，包括更全面的技术报告版本、训练中使用的数据集系列、额外的模型权重和检查点，以及训练和评估代码。

通过公开Molmo的代码、数据和模型权重，Ai2旨在促进开放式人工智能研究和创新。这种方法与许多领先的人工智能系统的封闭性形成鲜明对比，可以加速该领域的进展。

测试模型

解密测试了该模型，结果相当不错，优于Llava（开源社区的标准多模态LLM），并在视觉任务中与ChatGPT和Reka相匹配。

聊天机器人，现在公开可用，可以免费使用。界面是粉红色的，但它与典型的人工智能聊天机器人非常相似：一个带有以前交互的侧面板、一个主屏幕和一个位于下部的文本框。

然而，该模型主要是为与视觉相关的任务而设计的，至少在最初的版本中是这样。无法进行纯文本输入；用户必须上传图像才能启动交互。

欢迎屏幕上预先提示的图像+文本示例可能会为您提供有关此模型如何工作的线索。例如，不可能触发一个简单的问题，比如“为什么美国不喜欢普京？”，但提示一张弗拉基米尔·普京的照片，就可以向模型提出这个具体问题，因为互动是基于图像和文本的混合。

这是我们的第一次比较。在展示弗拉基米尔·普京的照片时，莫尔莫解释说，由于历史紧张局势、地缘政治竞争和人权问题等不同因素，美国和普京之间的关系紧张。

我们让Molmo与当今最好的模型进行了测试。出于空间原因，我们使用每个模型一个任务来大致了解Molmo的可比性。

捕捉幽默、细微差别和主观因素

该模型擅长理解照片中的微妙元素，包括幽默和不寻常的特征。我们的测试表明，它能够熟练掌握这些更主观的方面。例如，当看到人工智能生成的普京和金正恩分享啤酒的图像，并被问及为什么人们觉得这很有趣时，莫尔莫正确地将这张图像识别为荒谬的，并且是为了娱乐目的而创建的。

莫尔莫说：“考虑到图片的质量很低，而且毫无意义，难怪你的朋友在你的WhatsApp群中嘲笑它。这不是一张严肃或有意义的图片，而是一个执行不力的笑话或模因，很可能会带来娱乐或嘲弄。”。

ChatGPT的解释是：“你的朋友也可能在这种荒谬的情况下找到幽默，因为人们不会把这两个人联系在一起。”

理解图表和图形中的数据

该模型还展示了对图表解释的熟练程度，表现与Reka相当。我们展示了一张图表，比较了相似家族中不同模型的ELO得分，并提出了三个问题：确定最佳的整体模型，计算不同模型家族的数量，以及评估名称不完整的特定模型的质量。

这些都是一些棘手的问题。

Molmo准确地将“Flux Iprol”确定为性能最佳的型号，而Reka则错误地将其命名为“Flux[Ibrol]”

然而，Reka在第二项任务中更好地分辨出了细微差别，正确地将相似的模型分组到家族中，并提供了7个不同模型家族的准确答案。相比之下，Molmo单独计算了每个模型。

对于第三项任务，Molmo提供了更细致和直接的回应，承认SD3是一个强大的模型，并指出它是家族中最好的，同时提到了其他选择。Reka的回复“图像中没有明确提及SD3”在技术上是准确的，但缺乏洞察力，特别是考虑到它能够将不同的SD3版本组合成一个系列。

图片描述

该模型擅长描述图像元素和识别文本。我们将其能力与克劳德3.5十四行诗进行了比较，要求两者描述威廉·桑德斯先生在美国参议院证词的框架截图中的所有元素。

这两个模型都表现得很好，尽管克劳德犯了更多的描述性错误。例如，它颠倒了左右两侧元素的描述，把一个女人误认为是一个年轻的男人。

判决

总的来说，对于需要熟练视觉模型的用户来说，Molmo是一个有价值的工具。它目前与Reka竞争良好，但在某些领域表现优于Reka。

虽然Claude提供了更多的通用性和功能，但它施加了Molmo没有的日常交互限制，使其成为高级用户的更好选择。

ChatGPT避免了此类限制，但需要付费的ChatGPT Plus订阅才能访问其视觉功能。

微信里点“发现”，扫一下二维码便可将本篇文章分享至朋友圈

发布者：币下载转转请注明出处：https://www.binancememe.com/349153.html

Ai2发布Molmo：一种与科技巨头竞争的新型开源人工智能 - 币界网

测试模型

判决

联系我们

QQ：11825395

Ai2发布Molmo：一种与科技巨头竞争的新型开源人工智能 - 币界网

测试模型

判决

相关推荐

密码鱼在过去几个月里一直在努力工作:详细 - 币界网

杀 比特币跌破64500、以太坊重挫7％险失守3200美元 超6.2万人爆仓 - 币界网

在加密货币市场持续崩溃的情况下，Solana有可能出现150美元的回调波 - 币界网

GEGG：Memecoins的下一个进化允许投资者像SHIB&DOGE一样使用社交网络，但拥有新的人工智能社交评分系统扭曲 - 币界网

SOL用户活动创历史新高，专家们看到了新突破的潜力！Solana创纪录的用户激增激发了人们的希望：今天的加密新闻 - 币界网

联系我们

QQ：11825395

杀比特币跌破64500、以太坊重挫7％险失守3200美元超6.2万人爆仓 - 币界网