Meta发布开源Llama 3.2:AI可以看到并适合你的口袋

对于开源人工智能来说，这是美好的一周。

周三，Meta宣布升级到其最先进的大型语言模型Llama 3.2，它不仅会说话，还会看到。

更有趣的是，一些版本可以在不损失质量的情况下挤进你的智能手机，这意味着你可能有私人的本地人工智能交互、应用程序和定制，而无需将数据发送到第三方服务器。

周三揭幕 Meta Connec t、 Llama 3.2有四种口味，每种口味都有不同的潘趣酒。重量级竞争者– 11B 以及 90B 参数模型——通过文本和图像处理能力来锻炼肌肉。

它们可以处理复杂的任务，如分析图表、为图像添加字幕，甚至根据自然语言描述精确定位图片中的对象。

Llama 3.2与艾伦研究所的Molmo在同一周抵达声称是在合成基准测试中最好的开源多模态视觉LLM，在我们的测试中表现与GPT-4o、Claude 3.5 Sonnet和Reka Core相当。

扎克伯格的公司还推出了两款新的轻量级冠军：一对 1B 以及 3B 为效率、速度和不需要太多计算的有限但重复的任务而设计的参数模型。

这些小型模型是多语言文本大师，具有“工具调用”的诀窍，这意味着它们可以更好地与编程工具集成。尽管它们的尺寸很小，但它们拥有令人印象深刻的128K令牌上下文窗口——与GPT4o和其他强大的模型相同——这使它们成为设备上摘要、指令遵循和重写任务的理想选择。

Meta的工程团队完成了一些严肃的数字体操来实现这一目标。首先，他们使用结构化修剪来修剪大型模型中不必要的数据，然后采用知识蒸馏——将知识从大型模型转移到小型模型——来挤压额外的智能。

其结果是，一系列紧凑型车型在重量级别上超越了竞争对手，在各种基准测试中击败了包括谷歌的Gemma 2 2.6亿和微软的Phi-2 2.7亿在内的车型。

Meta也在努力推动设备上的人工智能。他们与硬件巨头高通、联发科和Arm建立了联盟，以确保Llama 3.2从一开始就与移动芯片兼容。云计算巨头也没有被排除在外——AWS、谷歌云、微软Azure和其他许多公司都在其平台上提供对新模型的即时访问。

在引擎盖下，Llama 3.2的视觉能力来自巧妙的架构调整。Meta的工程师在现有的语言模型中加入了适配器权重，在预训练的图像编码器和文本处理核心之间架起了一座桥梁。

换句话说，该模型的视觉能力不会以牺牲其文本处理能力为代价，因此与Llama 3.1相比，用户可以期待类似或更好的文本结果。

Llama 3.2版本是开源的——至少按照Meta的标准 .Meta正在提供模型供下载 Llama.com ；以及拥抱的脸，以及通过其广泛的合作伙伴生态系统。

那些有兴趣在云端运行它的人可以使用他们自己的谷歌Collab笔记本电脑或使用 Groq 对于基于文本的交互，在不到3秒内生成近5000个令牌。

骑骆驼

我们对Llama 3.2进行了测试，快速测试了它在各种任务中的能力。

在基于文本的交互中，该模型的性能与其前身相当。然而，它的编码能力产生了喜忧参半的结果。

在Groq的平台上测试时，Llama 3.2成功地为流行游戏和简单程序生成了代码。然而，当被要求为我们设计的自定义游戏创建功能代码时，较小的70B型号却出现了问题。然而，更强大的90B效率更高，第一次尝试就生成了一个功能游戏。

您可以看到Llama-3.2生成的完整代码以及我们测试的所有其他模型点击此链接 .

识别图像中的风格和主观元素

Llama 3.2擅长识别图像中的主观元素。当被问及未来派赛博朋克风格的图像是否符合蒸汽朋克美学时，该模型准确地识别了这种风格及其元素。它提供了一个令人满意的解释，指出由于缺乏与蒸汽朋克相关的关键元素，这张照片与蒸汽朋克不符。

图表分析（和SD图像识别）

图表分析是Llama 3.2的另一个强项，尽管它确实需要高分辨率图像才能达到最佳性能。当我们输入一个包含图表的屏幕截图时——Molmo或Reka等其他模型可以解释的图表——Llama的视觉能力就会衰退。该模特道歉，解释说由于图像质量问题，它无法正确阅读信件。

图像识别中的文本

虽然Llama 3.2在我们的图表中难以处理小文本，但在阅读大图像中的文本时表现完美。我们向它展示了一张介绍一个人的演示幻灯片，模型成功地理解了背景，区分了姓名和工作角色，没有任何错误。

判决

总的来说，Llama 3.2比上一代有了很大的改进，是开源人工智能行业的一大亮点。它的优势在于图像解释和大型文本识别，还有一些潜在的改进领域，特别是在处理低质量图像和处理复杂的自定义编码任务方面。

设备兼容性的承诺也有利于私人和本地人工智能任务的未来，是对Gemini Nano和苹果专有型号等封闭产品的有力制衡。

编辑：；奎特纳；以及；塞巴斯蒂安·辛克莱

微信里点“发现”，扫一下二维码便可将本篇文章分享至朋友圈

发布者：币下载转转请注明出处：https://www.binancememe.com/348935.html