开源AI图像生成器之王的头衔有一个新的竞争者:Auraflow。上周由生成媒体公司Fal AI发布的Auraflow凭借其标准Apache 2.0许可证获得了越来越多的关注,与Stability AI用于发布Stable Diffusion 3(SD3)的限制性许可相比,这感觉就像一股新鲜空气。
支持者认为,开源项目可以快速加快竞争行业的开发周期,因为它使开发人员摆脱了许可和其他法律限制。在没有许可费的情况下,社区经常围绕有能力的开源项目形成,开发人员可以调整、修改、培训甚至从他们的工作中获利。
FAL AI在一篇博客文章中表示:“我们很高兴向您展示我们Auraflow模型系列的第一个版本,这是最大但完全开源的基于流的生成模型,能够生成文本到图像。”。这家总部位于旧金山的公司于2021年由分别在Coinbase和亚马逊工作的Burkay Gur和Gorkem Yurtsevenginers共同创立,该公司警告称,开源人工智能正处于危险之中。”他们说:“有些人甚至大胆地宣布开源人工智能已经死了。”别那么快!”
在四周多的密集计算时间里,Auraflow接受了严格的训练,包括对不同大小、分辨率(256×256、512×512和1024×1024)和纵横比(方形图像、风景、肖像等)的图像进行预训练。结果如何?GenEval得分为0.64,使用类似于DALL-E 3的快速增强管道后,得分提高到0.703。
换句话说,当使用合成基准测试时,该模型提供了高质量的结果。然而,尽管Auraflow很好,但它仍然只是一个测试版,因为Fal认为它是0.1版,而不是稳定版。
不过,该模型是VRAM吞噬者。它需要一个具有大约12GB VRAM的强大GPU来运行其fp16版本——Stable Diffusion 3仅在6GB VRAM上运行良好,仅供参考。然而,该公司声称正在开发一种更易于管理的模型。Fal AI表示:“对于计算能力有限的消费级GPU卡来说,较小的型号或MoE可能更高效,因此请密切关注这款型号的迷你版,它仍然强大,但运行速度要快得多。”。
Auraflow可以在Huggingface上下载,也可以在ComfyUI中运行,ComfyUI管理器中也有一个自定义节点。
Auraflow代表了SD3的强大替代品,但它足够好吗?我们比较了两种基本模型,并测试了它们在各种艺术风格和提示下的表现。当我们分享我们的观察结果时,你可以判断谁最有可能赢得世界各地人工智能艺术家的心。
艺术风格和创造力
提示:“一幅宁静湖面上日落的详细画作,天空充满了橙色、粉色和紫色的色调,一个延伸到水中的木码头,一个人坐在码头尽头,手里拿着鱼竿,周围是高大的草和野花,整体风格是印象派的,笔触大胆,色彩鲜艳。”
听觉流:
SD3介质:
胜者:平局。Auraflow更接近印象派风格,但SD3更为详细和结构化。
现实主义
提示:“一张高分辨率的夜间繁华城市街道照片,霓虹灯照亮了现场,人们沿着人行道行走,汽车驶过,一个卖热狗的街头小贩,湿漉漉的人行道上的灯光反射,整体风格非常逼真,注重细节和照明,霓虹灯上写着‘解密’。”
听觉流:
SD3介质:
获胜者:SD3 Medium提供了一个更详细、更逼真的图像,使其成为这个提示的更好模型。
插图
提示:“一只巨大的蜘蛛在丛林中追逐一个女人的手绘插图,极其可怕、痛苦、黑暗和令人毛骨悚然的风景,恐怖,模拟摄影影响的暗示,素描。”
听觉流:
SD3介质:
获胜者:SD3 Medium提供了一个更可怕、更详细的插图,使其成为这个提示的更好模型。
迅速遵守
提示:“一个超现实的数字艺术作品,描绘了一个漂浮在天空中的岛屿,岛上覆盖着郁郁葱葱的植被,瀑布倾泻到下面的云层中,岛中心有一座小城堡,连接其他漂浮岛屿的光桥,天空中满是五颜六色的热气球和神话般的生物,整体风格梦幻般,有梦幻元素和发光效果。”
听觉流:
SD3介质:
获胜者:Auraflow捕获了提示中的所有元素,使其成为该提示的更好模型。
空间意识
提示:“一只狗站在电视上,屏幕上显示着‘解密’这个词。左边是一个穿着西装的女人,手里拿着一枚硬币,右边是一个机器人站在急救箱上。整体风景超现实。”
听觉流:
SD3介质:
获胜者:平局。SD3 Medium提供了更好的清晰度,使其成为此提示的更好模型。Auraflow也提供了这一代人的所有元素,并在空间理解方面表现出了良好的理解水平。
动漫和漫画
提示:“一位女忍者在日本古代与一位强大的武士作战,动漫、漫画,非常详细、丰富多彩、充满活力。”
听觉流:
SD3介质:
获胜者:SD3 Medium提供了更详细和动态的描述,使其成为此提示的更好模型。两者都缺乏迅速遵守的关键要素。
结论
Auraflow擅长捕捉印象派、奇幻和异想天开的风格,而SD3 Medium更擅长提供细节、超现实和动态的场景。
这两个弱点都可以通过微调来调整,这就是法律战胜技术的地方。Auraflow的Apache 2.0开源许可证使其对微调者具有吸引力,允许在许可条款下免费使用、复制和分发,这与SD3不同,SD3在这方面更具限制性。因此,开始使用Auraflow可能更容易。但在此之前,这只是一个尚未实现的战略优势。
然而,Auraflow需要大量的VRAM才能运行,一些报告显示高达35 GB,远高于SD3,SD3只需要6 GB的VRAM。作为参考,亚马逊上24GB RTX 4090的价格高达1700美元,而能够运行SD3的6GB RTX3050的价格不到200美元。这是SD3目前相对于Auraflow的明显优势。
考虑到这一点,SD3 Medium目前是比较中更好的型号,由于其较低的硬件要求和可比的质量结果,服务于更广泛的用户群。
尽管如此,Auraflow仍展现出巨大的潜力。如果将来开发一个修剪(更小)或量化(更不精确)的版本来降低其硬件需求,Auraflow可能会成为一个强有力的竞争者,并可能通过其稳定扩散模型挑战Stability长期以来的主导地位。
微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈
发布者:币下载 转转请注明出处:https://www.binancememe.com/359763.html