Grok 2.0 中的 FLUX.1 AI 图像基因：未经审查？Ultralytics

8 月 14 日，Elon Musk 的 AI 公司 xAI 在 X（前身为 Twitter）上宣布发布 Grok 2.0，这是一个与 Black Forest Labs 的图像生成模型 FLUX.1 集成的聊天机器人。FLUX.1 是一种先进的模型，能够创建高度逼真的图像，包括可能被视为敏感或具有潜在误导性的图像。

与许多阻止或过滤某些类型内容（如暴力、露骨或欺骗性图像）的流行的图像生成器不同，FLUX.1 的限制较少。有些人认为这是自由表达的胜利，而另一些人则对其先进的功能印象深刻。然而，人们也对这种强大技术的伦理影响和潜在滥用表示担忧。让我们深入了解 Grok 2.0 带来了什么，是什么让 FLUX.1 脱颖而出，以及您如何亲自尝试这些创新工具。

了解 FLUX.1：AI 图像生成器

FLUX.1 是黑森林实验室于 2024 年 8 月 1 日推出的一款先进的开源人工智能图像生成器。Black Forest Labs 是一家初创公司，由前Stability AI 工程师创办，他们因开发广泛使用的Stable Diffusion 模型而闻名。FLUX.1 的设计目标是与 MidJourney 和 DALL-E 3 等老牌厂商直接竞争，并将人工智能生成图像的质量和灵活性提升到一个新的水平。例如，FLUX.1 能很好地处理许多模型难以处理的棘手细节，如生成逼真的人手或标志上可读的文字。

Black Forest Labs 提供了三种不同的 FLUX.1 变体，可用于不同的应用。以下是这些变体的详细介绍：

FLUX.1 [pro]：旗舰模型，用于商业用途，旨在提供最高质量的输出。
‍
FLUX.1 [dev]：一个开放权重版本，可用于非商业用途。它是研究和开发的理想选择。
‍
FLUX.1 [schnell]：一个在 Apache 2.0 许可下进行速度优化的模型，非常适合需要快速图像生成的个人项目和本地开发。

__wf_reserved_inherit — 图 1. 了解 FLUX.1 的变体

FLUX.1 是如何工作的？

FLUX.1 采用混合模型架构，结合了transformer 和扩散技术，模型大小为 120 亿个参数（神经网络的可调部分，帮助它从数据中学习）。变压器是一种神经网络，它可以通过识别数据中的模式和关系来理解文本和图像等序列。扩散模型的工作原理是，从随机噪音开始，逐步细化，直到形成清晰的图像。通过结合这两种方法，FLUX.1 可以利用这两种架构的优势，生成与所给文本提示相匹配的高质量图像。

FLUX.1 还使用了诸如旋转位置嵌入和流匹配等先进技术。旋转位置嵌入帮助模型理解文本和图像中元素的顺序和位置，以确保所有内容在整体上都有意义。流匹配是一种在生成模型中使用的技术，使从随机噪声创建图像的过程更加平滑和高效。

FLUX.1 的基准测试

在将 FLUX.1 与其他流行的模型（如 MidJourney v6.0、DALL·E 3 (HD) 和 SD3-Ultra）进行比较时，FLUX.1 在 AI 图像生成方面树立了新的基准。它在图像质量、提示遵循度、输出多样性以及对不同尺寸和宽高比的支持等关键领域表现出色。FLUX.1 [pro] 和 [dev] 模型以生成与用户需求高度匹配的高质量图像而著称，并且这些模型在提供清晰准确的结果方面通常优于其他模型。另一方面，FLUX.1 [schnell] 是用于快速图像生成的最先进模型之一，并且性能优于 MidJourney 等更复杂的模型。

Grok 2.0：来自埃隆·马斯克的 xAI 的最新成果

Grok 2.0 是埃隆·马斯克的 AI 公司 xAI 开发的最新大型语言模型。Grok 2.0 于 2024 年 8 月发布，X Premium 和 Premium+ 用户可以在 X 平台（前身为 Twitter）上使用。此外，它很快将通过企业 API 提供给开发人员和企业。

Grok 2.0 建立在transformer 架构上，与旧版本 Grok 1.5 相比，它更善于遵循指令、推理问题并提供准确的信息。该聊天机器人已与其他领先的人工智能模型进行了测试，结果令人印象深刻。在涉及研究生水平的科学问题、常识和复杂数学问题的基准测试中，Grok 2.0 的表现优于 GPT-4 Turbo、Claude 3.5 Sonnet 和 Llama 3 405B 等流行模型。Grok 2.0 还擅长完成需要视觉理解的任务，并在视觉数学推理和基于文档的问题解答中取得了高分。

Grok 2.0 和 FLUX.1 之间的联系

FLUX.1 已集成到 Grok 2.0 中，以提供文本和图像生成的无缝结合。虽然如今结合不同的技术来提高功能和用户体验很常见，但这种特殊的集成受到了很多关注。

一方面，FLUX.1 的集成因其为 Grok 2.0 增加了一种“乐趣”元素而受到一些人的称赞。用户可以尝试生成有创意且有时前卫的图像——这些图像会受到其他 AI 工具的限制或严格审核。例如，用户在 X 上分享了描绘公众人物处于不适当或有争议情况的图像，声称它支持言论自由的理念。

另一方面，批评人士认为，FLUX.1 缺乏明确的道德准则可能会导致严重的道德和社会问题，例如虚假信息和深度伪造。一些人担心，在一个最具影响力的社交媒体平台上结合强大的、未经审查的文本和图像生成可能会加剧虚假信息的传播。

Grok 2.0 及其不受限制的方法

这不仅仅是图像生成的问题。Grok 2.0 本身比我们最近熟悉的其他人工智能工具（如ChatGPT）更受限制。这种不受限制的特性使得该模型可以以一些让人兴奋、另一些则让人烦恼的方式突破界限。

例如，已经观察到 Grok 2.0 生成的文本内容很容易被解释为虚假或误导性新闻。最近发生的一起事件涉及 Grok 2.0 编造关于 NBA 球员克莱·汤普森 якобы 的虚假故事， якобы 他正在进行“砖头破坏狂潮”。AI 聊天机器人误解了篮球术语“throwing bricks”，该术语仅指投篮不中。相反，Grok 2.0 从字面上理解了它，并编造了一个关于汤普森用真正的砖头实施破坏行为的故事。该帖子迅速在 X 上走红，一些用户甚至添加了虚假的受害者帐户来助长虚假信息。

尽管存在这些担忧，但一些用户欣赏 Grok 2.0 的“言论自由”立场。他们认为，与受到严格审核的 AI 模型相比，它允许进行更开放的对话和创作自由。他们将 Grok 2.0 视为对他们认为过于谨慎的“觉醒”AI的反击，后者限制了对敏感话题的讨论。对于这些用户来说，Grok 2.0 提供了一个感觉不那么受社会规范约束的平台。

亲自试用 FLUX.1 和 Grok 2.0

试用 FLUX.1 和 Grok 2.0 有几种不同的选择。FLUX.1 可以通过Hugging Face、Replicate 和 Fal.ai 等人工智能平台直接访问。同时，Grok 2.0 仅对 X Premium 和 Premium+ 用户开放。

主要要点

FLUX.1 和 Grok 2.0 正在推动 AI 的边界并引发深刻的对话。FLUX.1 凭借其生成高度详细和逼真图片的能力，在 AI 生成图像方面树立了新标准。Grok 2.0 正在使用 FLUX.1 来增强其能力，使其超越了纯粹的基于文本的交互。一方面，爱好者们对这些工具提供的创作自由和未经审查的探索感到兴奋。另一方面，批评人士正在对虚假信息、深度伪造以及在这种不受监管的能力在像 X 这样有影响力的平台上的伦理影响发出警报。随着 FLUX.1 和 Grok 2.0 的发展，它们正处于关于数字时代的自由、创造力和责任的辩论中心——这场辩论可能会在未来几年塑造 AI 的未来。

要了解有关Ultralytics 的更多信息，请查看我们的GitHub 存储库，加入我们的社区，探索我们在医疗保健和制造业等行业的最新人工智能解决方案！🚀

xAI 推出与 FLUX.1 集成的 Grok 2.0

了解 FLUX.1：AI 图像生成器

FLUX.1 是如何工作的？

FLUX.1 的基准测试

Grok 2.0：来自埃隆·马斯克的 xAI 的最新成果

Grok 2.0 和 FLUX.1 之间的联系

Grok 2.0 及其不受限制的方法

亲自试用 FLUX.1 和 Grok 2.0

主要要点

阅读更多此类别的内容

12个基于计算机视觉的航拍影像应用场景

医疗诊断用视觉人工智能工具

从数据到决策：运用视觉人工智能制定企业战略

让我们一起构建人工智能的未来！