AI 图像生成时代：技巧、功能与对比

图像生成 AI 的新时代：惊人的力量及其内部运作机制

自 2024 年左右大型语言模型 (LLM) 开始进入主流视野以来，图像生成 AI 也经历了快速进化。就在几年前， AI 生成的图像还带有明显的不自然感，经常错误地呈现人类肢体并显示乱码文本。今天，情况已完全不同。AI 已经跨越了“恐怖谷”，在几秒钟内就能制作出逼真的纹理和精细的插图，而这在以前需要艺术家们画上几周的时间。

随着 OpenAI 的 DALL-E 3、谷歌的 Gemini 以及基于 Discord 的 Midjourney 等云服务的兴起，任何人都可以使用提示词生成专业级的视觉效果。然而，在这些云服务的背后，一个引起创作者和工程师极大兴趣的主要趋势是向使用开源权重（open-weight）模型的“本地环境”转移。

本地图像生成 AI 的回归：为什么要在家里运行？

通过 ChatGPT 或 Gemini 生成图像非常方便，只需一部智能手机即可。然而，高级用户在云平台上会面临一些限制。严格的内容过滤器有时会阻止合法的艺术表达。此外，每月的订阅费用、使用限制以及提示词和生成数据被存储用于模型训练的隐私担忧，都带来了挑战。

在您自己的 PC 上本地运行 AI 提供了极大的自由和优势。首先，它具有极高的性价比。一旦您投资了一台配有高性能 GPU 的 PC，生成成千上万张图像就只需要支付电费。这带来了运行多次迭代（抽卡）以找到完美图像 draw 时的自由度，而无需担心额外费用。

其次，它提供了可定制性。像 LoRA（低秩适应）这样的技术允许用户针对特定的风格、角色或服装设计训练 AI，以普通云模型无法实现的方式扩展创作者独特的艺术声音。

第三，它提供了绝对 carbon 的隐私保护。离线运行可以让敏感的商业设计和个人创作完全置于您的控制之下。由于这些好处，创作者们继续追求本地图像生成。

在这里，我们提供了提示词技巧，并通过并排示例对比了著名的 Stable Diffusion 3.5 和 Flux 2。

从扩散模型到流匹配的进化

让我们简要提及一下技术方面。传统的图像 AI 依赖于“潜扩散模型 (Latent Diffusion Models)”，该模型通过逆转添加噪声的过程来生成图像。Stable Diffusion 1.5 和 SDXL 推广了这种方法。

然而，新的 Flux 模型使用的是“流匹配 (Flow Matching)”。这种方法在数学上更直接地定义了从噪声到图像的过渡，以比传统扩散更少的步骤实现了更高的质量。此外，该模型使用了 Transformer 架构——这与 ChatGPT 等 LLM 的底层结构相同。这使得它能够精确地计算像素关系，赋予了 Flux 遵循复杂提示词的卓越能力。

Flux 2：高一致性与架构创新

Flux 是由 Black Forest Labs 开发的，该团队由此前领导 Stable Diffusion 的核心工程师组成。该模型从头开始重构，立即给 AI 社区留下了深刻印象，许多人注意到它的质量可与 Midjourney 媲美甚至超越。

Flux 的主要特点是其拥有 120 亿参数的巨大体量，这使它能够像人类阅读一样理解提示词中的词语关系。这极大地提高了对提示词的遵循度。

它还在旧版 AI 模型难以处理的领域（例如正确呈现手、脚和关节）提供了极高的一致性。它的文本渲染是另一个重大升级；它能够准确地写出特定的词汇，同时匹配字体的风格，这使得它在徽标和包装设计原型中非常有用。

Stable Diffusion 3.5：社区支持与多功能性

作为回应，Stable Diffusion 3.5 (SD3.5) 代表了 Stability AI 的下一次迭代。在收到关于 SD3 初始版本的反馈后，“3.5”系列进行了更新以提供改进的性能。

SD3.5 的优势在于其多种模型大小和已建立的社区生态系统。Stability AI 没有发布单一的大型模型，而是发布了三个版本以适应不同的硬件规格：260 亿参数的“Large”、针对较低 VRAM 进行优化的“Medium”模型，以及旨在实现快速生成的“Large-Turbo”。

在视觉上，虽然 Flux 专注于精确的写实，但 SD3.5 倾向于有机的、绘画般的纹理，精美地捕捉了光线、镜头眩光和富有表现力的面孔。它还能很好地与 ControlNet（用于姿态控制）和 IP-Adapter（用于图像参考）等社区工具集成，使其易于融入专业的工作流中。

撰写提示词的快速技巧

虽然 Stable Diffusion 有 77 个 Token 的限制，而 Flux 没有，但撰写提示词的几个核心原则对两者都适用：

AI 能够处理的信息密度是有限的。即使支持长提示词，添加过多的词汇也会稀释对主要主体的关注。我们建议使用英语专注于最重要的元素（使用中文或日语通常会降低输出质量）。
使用清晰的措辞，使用逗号和换行。避免重复同义词以保持提示词的专注度。

注意：同样的提示词很少会生成两次完全相同的图像。图像生成涉及一定程度的随机性。生成多个版本并选择最好的一个，通常比仅仅专注于调整提示词更有效。

测试案例：夜幕森林中骑行的女骑士

让我们使用一个旨在挑战 AI 的复杂测试提示词来对比这两个模型：

"female knight riding a horse through a midnight forest, full body action pose, the forest opens into a clearing, an illuminated ancient castle in the distance, an eerie glowing moon in the sky, several wolves running beside the horse, wet ground and puddles, moon reflection in the puddles, cinematic fantasy scene, moody lighting, high detail, no text, no letters"

该提示词包含多个复杂元素：女骑士、马、森林、城堡、月亮、狼和带倒影的水洼。一个关键的测试是 AI 是否能渲染出在马身边奔跑的狼以及湿地上水洼中的月亮倒影。

【Flux 2 测试结果】

我们测试了 Flux 2 的轻量级“4b”版本和完整“9b”版本。

■ Flux 2 [4b 模型]

尽管其参数量较小，但 4b 模型在均衡的构图中安排了提示词的各个元素。水洼的渲染非常出色，准确地捕捉到了月亮的倒影。骑士盔甲的金属光泽干净利落，狼群在自然距离内并排在马的身边奔跑。这种在紧凑模型中实现的高水平细节突出了流匹配的优势。

■ Flux 2 [9b 模型]

9b 模型显著提升了分辨率，捕捉到了单棵树木、马的肌肉以及骑士头发的飘动。忧郁的灯光渲染得非常漂亮，在月光和周围的森林之间形成了强烈的对比。远处的城堡具有逼真的石头纹理，动态的构图赋予了场景一种运动感。

【Stable Diffusion 3.5 测试结果】

接下来，我们对比了 Stable Diffusion 3.5 的三个版本。

■ SD 3.5 Medium

Medium 模型以其生成速度脱颖而出。它的视觉风格略带绘画感，非常适合奇幻主题。虽然狼群被稍微简化了，但整体的调色板和光线都非常华丽。该模型非常适合快速探索创意，并在配备 8GB VRAM 的中端 PC 上流畅运行。

■ SD 3.5 Large

Large 模型提供了可与 Flux 9b 媲美的详细渲染。它擅长营造氛围，捕捉了薄雾笼罩的森林空气和远处城堡的朦胧感。骑士的盔甲具有复杂的设计，为创作者在此基础上进行构建提供了一张出色的基础图像。

■ SD 3.5 Large-Turbo

Large-Turbo 模型专为高速生成而设计。与牺牲质量的旧款快速模型不同，Large-Turbo 保持了高细节，与标准 Large 模型非常接近。这使创作者能够在头脑风暴期间快速迭代，在几秒钟内生成高质量的图像。

分析：诠释奇幻图案

“女骑士”是一个经典的奇幻原型。AI 综合了其学到的盔甲和马匹数据，将它们置于午夜森林的光影中。这里的一个关键成就是对物理特性的模拟——月光如何从金属盔甲上反射并投射到湿地上。

Flux 的准确性表明，图像 AI 正在进化为理解 3D 空间的渲染引擎。另一方面，SD3.5 的绘画方法有效地捕捉了情绪和艺术品质。这突出了 Flux 的精准与 SD3.5 富有表现力的风格之间的对比。

AI 将取代还是增强创造力？

使用这些模型表明，AI 并非简单地取代人类工作，而是作为一种加速想象力的工具。以往要将复杂的奇幻场景视觉化，需要多年的绘画练习和昂贵的设备。现在，凭借清晰的提示词，任何人都可以将他们的想法变为现实。

在本地运行图像生成感觉就像是一种数字炼金术——在深夜输入提示词，看着新的世界在屏幕上成型。它以极低的能源成本提供了深切的创作满足感。我们正进入一个视觉表达人人皆可触及的时代。

结论：选择合适的工具

两种模型都具有独特的优势。

如果您需要高精度、紧密遵循详细提示词以及干净的文本渲染，Flux 是理想的选择。它非常适合设计工作和精细插图。

如果您更喜欢尝试社区创建的 LoRA、追求绘画风格并希望进行定制设计，Stable Diffusion 3.5 是完美的合作伙伴。它的多功能性和社区支持为创意项目提供了广泛的选择。

归根结底，价值不仅在于工具，还在于您选择用它来表达什么。我们邀请您探索 Flux 和 SD3.5 的功能，将您的创意变为现实。

【来源】