绿色检查
链接复制到剪贴板

xAI 推出与 FLUX.1 集成的 Grok 2.0

了解来自 Elon Musk 的 xAI 的 Grok 2.0 及其与 FLUX.1 的集成。探索功能、基准、模型比较以及如何试用等详细信息。

8 月 14 日,埃隆-马斯克(Elon Musk)的人工智能公司 xAI 宣布在 X(前 Twitter)上发布 Grok 2.0,这是一款集成了黑森林实验室(Black Forest Labs)图像生成模型 FLUX.1 的聊天机器人。FLUX.1 是一种先进的模型,能够创建高度逼真的图像,包括那些可能被视为敏感或有潜在误导性的图像

许多流行的图像生成器会阻止或过滤某些类型的内容,如暴力、露骨或欺骗性图像,而 FLUX.1 则不同,它的限制较少。一些人认为这是自由表达的胜利,另一些人则对其先进的功能印象深刻。不过,也有人担心这种强大技术的道德影响和潜在滥用问题。让我们深入探讨 Grok 2.0 带来了什么、FLUX.1 的独特之处,以及如何亲自尝试这些创新工具。

了解 FLUX.1:人工智能图像生成器

FLUX.1 是黑森林实验室于 2024 年 8 月 1 日推出的一款先进的开源人工智能图像生成器。Black Forest Labs 是一家初创公司,由Stability AI 前工程师创办,他们因开发广泛使用的稳定扩散模型而闻名。FLUX.1 的设计目标是与 MidJourney 和 DALL-E 3 等老牌厂商直接竞争,并将人工智能生成图像的质量和灵活性提升到一个新的水平。例如,FLUX.1 能很好地处理许多模型难以处理的棘手细节,如生成逼真的人手或标志上可读的文字。

黑森林实验室(Black Forest Labs)提供三种不同的 FLUX.1 版本,可用于不同的应用。下面我们就来详细了解一下这些变体:

  • FLUX.1 [pro]:旗舰机型用于商业用途,旨在提供最高质量的输出。
  • FLUX.1 [开发]:非商业用途的开放式版本。它是研究和开发的理想工具。
  • FLUX.1 [schnell]:Apache 2.0 许可下的速度优化模型,非常适合需要快速生成图像的个人项目和本地开发。
图 1.了解 FLUX.1 的变化

FLUX.1 如何工作?

FLUX.1 采用混合模型架构,结合了变压器和扩散技术,模型大小为 120 亿个参数(神经网络的可调部分,帮助它从数据中学习)。变压器是一种神经网络,它可以通过识别数据中的模式和关系来理解文本和图像等序列。扩散模型的工作原理是,从随机噪音开始,逐步细化,直到形成清晰的图像。通过结合这两种方法,FLUX.1 可以利用这两种架构的优势,生成与所给文本提示相匹配的高质量图像。 

FLUX.1 还使用了旋转位置嵌入和流匹配等先进技术。旋转位置嵌入可以帮助模型理解文本和图像中元素的顺序和位置,从而确保所有内容都是有意义的。流匹配是生成模型中使用的一种技术,可使从随机噪音中创建图像的过程更加流畅、高效。

以 FLUX.1 为基准

将 FLUX.1 与 MidJourney v6.0、DALL-E 3 (HD) 和 SD3-Ultra 等其他流行型号相比,FLUX.1 在人工智能图像生成方面树立了新的标杆。FLUX.1 在图像质量、如何很好地按照提示进行操作、输出的多样性以及对不同尺寸和宽高比的支持等关键领域都表现出色。FLUX.1 [pro] 和 [dev] 模型的突出特点是能生成与用户需求非常吻合的高质量图像,而且这些模型在提供清晰、准确的结果方面往往优于其他模型。另一方面,FLUX.1 [schnell] 是快速生成图像的最先进模型之一,其性能优于 MidJourney 等更复杂的模型。

图 2.Midjourney v6 与 FLUX.1 的对比[pro]

Grok 2.0:埃隆-马斯克 xAI 的最新进展

Grok 2.0 是埃隆-马斯克的人工智能公司 xAI 开发的最新大型语言模型。Grok 2.0 于 2024 年 8 月发布,X 平台(原 Twitter)上的 X Premium 和 Premium+ 用户均可使用。此外,它还将很快通过企业 API 提供给开发者和企业。

图 3.Grok 2.0 解释流行语的示例。

Grok 2.0 基于转换器架构,与旧版本 Grok 1.5 相比,它更善于遵循指令、推理问题和提供准确信息。该聊天机器人已与其他领先的人工智能模型进行了测试,结果令人印象深刻。在涉及研究生水平的科学问题、常识和复杂数学问题的基准测试中,Grok 2.0 的表现优于 GPT-4 Turbo、Claude 3.5 Sonnet 和 Llama 3 405B 等流行模型。Grok 2.0 还擅长完成需要视觉理解的任务,并在视觉数学推理和基于文档的问题解答中取得了高分。

Grok 2.0 与 FLUX.1 之间的联系

FLUX.1 已集成到 Grok 2.0 中,实现了文本和图像生成的无缝结合。如今,将不同的技术结合起来以改进功能和用户体验的做法非常普遍,但这种特殊的整合却受到了广泛关注。 

一方面,FLUX.1 的整合为 Grok 2.0 增添了 "趣味 "元素,受到了一些人的称赞。用户可以尝试生成有创意的图片,有时甚至是前卫的图片--而其他人工智能工具会对这些图片加以限制或严格审核。例如,用户在 X 上分享了描绘公众人物在不恰当或有争议的情况下的图片,声称这支持了言论自由的理念。

另一方面,批评者认为,FLUX.1 缺乏明确的道德准则,可能会导致严重的道德和社会问题,如错误信息和深度伪造。一些人担心,在最具影响力的社交媒体平台上结合强大的、未经审查的文本和图像生成功能,可能会加剧虚假信息的传播。

Grok 2.0 及其无限制方法

这不仅仅是图像生成的问题。Grok 2.0 本身比我们最近熟悉的其他人工智能工具(如ChatGPT )更受限制。这种不受限制的特性使得该模型能够以某些人认为令人兴奋、另一些人则认为令人不安的方式突破界限。

例如,据观察,Grok 2.0 生成的文本内容很容易被解读为虚假或误导性新闻。最近的一次事件是,Grok 2.0 编造了一则虚假新闻,称 NBA 球员克莱-汤普森(Klay Thompson )正在 "疯狂扔砖头"。该人工智能聊天机器人误解了篮球术语 "扔砖头",而 "扔砖头 "仅指投篮不中。相反,Grok 2.0 从字面上理解,编造了汤普森用砖头进行破坏的故事。这个帖子很快在 X 上得到了传播,一些用户甚至添加了假冒的受害者账号来助长这种错误信息。

图 4.Grok 2 撰写的关于 X 的帖子。

尽管有这些担忧,一些用户还是对 Grok 2.0 的 "言论自由 "立场表示赞赏。他们认为,与严格控制的人工智能模型相比,Grok 2.0 允许更开放的对话和创作自由。他们认为,Grok 2.0 与他们所认为的过于谨慎、"觉醒 "的人工智能相反,后者限制了对敏感话题的讨论。对这些用户来说,Grok 2.0 提供了一个感觉较少受社会规范约束的平台。

亲自试用 FLUX.1 和 Grok 2.0

试用 FLUX.1 和 Grok 2.0 有几种不同的选择。FLUX.1 可通过Hugging Face 、Replicate 和 Fal.ai 等人工智能平台直接访问。同时,Grok 2.0 仅面向 X Premium 和 Premium+ 用户。

主要收获

FLUX.1 和 Grok 2.0 突破了人工智能的界限,引发了富有洞察力的对话。FLUX.1 能够生成高度精细和逼真的图片,为人工智能生成图像设定了新标准。Grok 2.0 正在利用 FLUX.1 增强其功能,而不仅仅是基于文本的互动。一方面,爱好者们对这些工具提供的创作自由和无限制的探索感到兴奋。另一方,批评者则对错误信息、深度伪造的风险,以及在 X 这样一个有影响力的平台上这种不受监管的功能所带来的道德影响发出了警告。随着 FLUX.1 和 Grok 2.0 的发展,它们正处于一场关于数字时代的自由、创造力和责任的辩论的中心,这场辩论很可能将在未来数年内影响人工智能的未来。

要了解有关Ultralytics 的更多信息,请查看我们的GitHub 存储库,加入我们的社区,探索我们在医疗保健制造业等行业的最新人工智能解决方案!🚀

Facebook 徽标Twitter 徽标LinkedIn 徽标复制链接符号

在此类别中阅读更多内容

让我们共同打造人工智能的未来

开始您的未来机器学习之旅