对于开源人工智能来说,这是美好的一周。
周三,Meta宣布升级到其最先进的大型语言模型Llama 3.2,它不仅会说话,还会看到。
更有趣的是,一些版本可以在不损失质量的情况下挤进你的智能手机,这意味着你可能有私人的本地人工智能交互、应用程序和定制,而无需将数据发送到第三方服务器。
周三揭幕 Meta Connec t、 Llama 3.2有四种口味,每种口味都有不同的潘趣酒。重量级竞争者– 11B 以及 90B 参数模型——通过文本和图像处理能力来锻炼肌肉。
它们可以处理复杂的任务,如分析图表、为图像添加字幕,甚至根据自然语言描述精确定位图片中的对象。
Llama 3.2与艾伦研究所的Molmo在同一周抵达 声称是 在合成基准测试中最好的开源多模态视觉LLM,在我们的测试中表现与GPT-4o、Claude 3.5 Sonnet和Reka Core相当。
扎克伯格的公司还推出了两款新的轻量级冠军:一对 1B 以及 3B 为效率、速度和不需要太多计算的有限但重复的任务而设计的参数模型。
这些小型模型是多语言文本大师,具有“工具调用”的诀窍,这意味着它们可以更好地与编程工具集成。尽管它们的尺寸很小,但它们拥有令人印象深刻的128K令牌上下文窗口——与GPT4o和其他强大的模型相同——这使它们成为设备上摘要、指令遵循和重写任务的理想选择。
Meta的工程团队完成了一些严肃的数字体操来实现这一目标。首先,他们使用结构化修剪来修剪大型模型中不必要的数据,然后采用知识蒸馏——将知识从大型模型转移到小型模型——来挤压额外的智能。
其结果是,一系列紧凑型车型在重量级别上超越了竞争对手,在各种基准测试中击败了包括谷歌的Gemma 2 2.6亿和微软的Phi-2 2.7亿在内的车型。
Meta也在努力推动设备上的人工智能。他们与硬件巨头高通、联发科和Arm建立了联盟,以确保Llama 3.2从一开始就与移动芯片兼容。云计算巨头也没有被排除在外——AWS、谷歌云、微软Azure和其他许多公司都在其平台上提供对新模型的即时访问。
在引擎盖下,Llama 3.2的视觉能力来自巧妙的架构调整。Meta的工程师在现有的语言模型中加入了适配器权重,在预训练的图像编码器和文本处理核心之间架起了一座桥梁。
换句话说,该模型的视觉能力不会以牺牲其文本处理能力为代价,因此与Llama 3.1相比,用户可以期待类似或更好的文本结果。
Llama 3.2版本是开源的——至少 按照Meta的标准 .Meta正在提供模型供下载 Llama.com ;以及 拥抱的脸 ,以及通过其广泛的合作伙伴生态系统。
那些有兴趣在云端运行它的人可以使用他们自己的谷歌Collab笔记本电脑或使用 Groq 对于基于文本的交互,在不到3秒内生成近5000个令牌。
骑骆驼
我们对Llama 3.2进行了测试,快速测试了它在各种任务中的能力。
在基于文本的交互中,该模型的性能与其前身相当。然而,它的编码能力产生了喜忧参半的结果。
在Groq的平台上测试时,Llama 3.2成功地为流行游戏和简单程序生成了代码。然而,当被要求为我们设计的自定义游戏创建功能代码时,较小的70B型号却出现了问题。然而,更强大的90B效率更高,第一次尝试就生成了一个功能游戏。
您可以看到Llama-3.2生成的完整代码以及我们测试的所有其他模型 点击此链接 .
识别图像中的风格和主观元素
Llama 3.2擅长识别图像中的主观元素。当被问及未来派赛博朋克风格的图像是否符合蒸汽朋克美学时,该模型准确地识别了这种风格及其元素。它提供了一个令人满意的解释,指出由于缺乏与蒸汽朋克相关的关键元素,这张照片与蒸汽朋克不符。
图表分析(和SD图像识别)
图表分析是Llama 3.2的另一个强项,尽管它确实需要高分辨率图像才能达到最佳性能。当我们输入一个包含图表的屏幕截图时——Molmo或Reka等其他模型可以解释的图表——Llama的视觉能力就会衰退。该模特道歉,解释说由于图像质量问题,它无法正确阅读信件。
图像识别中的文本
虽然Llama 3.2在我们的图表中难以处理小文本,但在阅读大图像中的文本时表现完美。我们向它展示了一张介绍一个人的演示幻灯片,模型成功地理解了背景,区分了姓名和工作角色,没有任何错误。
判决
总的来说,Llama 3.2比上一代有了很大的改进,是开源人工智能行业的一大亮点。它的优势在于图像解释和大型文本识别,还有一些潜在的改进领域,特别是在处理低质量图像和处理复杂的自定义编码任务方面。
设备兼容性的承诺也有利于私人和本地人工智能任务的未来,是对Gemini Nano和苹果专有型号等封闭产品的有力制衡。
编辑:; 奎特纳 ;以及; 塞巴斯蒂安·辛克莱
微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈
发布者:币下载 转转请注明出处:https://www.binancememe.com/348935.html