Midjourney 图生提示词：一项结构化分析

对 Midjourney 图生提示词的结构化、研究式分析：为什么手动提示词会失败，以及参考图引导的提取如何改善结果。

摘要

本文考察 Midjourney 图生提示词 —— 即从参考图像中推导出结构化文本提示词，以在 Midjourney 文本生成图像系统中再现目标美学的做法。我们将从业者面临的核心障碍归结为一种描述鸿沟：即用户对图像的视觉理解与其将该理解编码为 Midjourney 所偏好的专业描述性语言的能力之间的落差。我们刻画了 Midjourney 异常敏感的语言特征，对手动撰写提示词的常见失败模式进行分类，并提出一套可缓解描述鸿沟的五阶段提取与优化流程。我们进一步提出提示词结构的九要素分类法，并讨论其诊断性应用。本分析面向设计师、计算艺术家、营销人员及商业图像从业者。我们通篇强调，参考图引导的提取是一种辅助性而非自主性方法：从业者的核验与调整仍然必不可少。

关键词：Midjourney 图生提示词、参考图引导提示、视觉语言模型、提示词分类法、文本生成图像

1. 引言

在文本生成图像系统中再现某种特定的视觉美学，是一项反复出现且并不简单的任务。从业者往往手握一张参考图像，其中呈现出所期望的光照、构图与风格处理的配置，却发现反复的手动提示始终无法收敛到可与之媲美的结果。这种失败常被错误地归咎于生成模型。我们则认为，它源于一种描述鸿沟：从业者在视觉上理解了参考图，却无法用模型所要求的描述性语域将该理解表达出来。

Midjourney 图生提示词直接应对这一鸿沟。该方法不要求从业者独自撰写专业的描述性语言，而是借助视觉模型生成参考图像的初始结构化描述，再由从业者对其进行核验并针对 Midjourney 系统加以调整。本文将该方法形式化，将其置于 Midjourney 特有的语言敏感性背景下考察，并提供一套用于诊断和构建有效提示词的分类法。目标读者包括在生产环境中使用 Midjourney 的设计师、AI 艺术家、营销人员及商业图像从业者。提取步骤的一个公开可用实现是 Avriro 图生提示词工具，在此作为该通用方法的一个实例被引用。

2. 背景：Midjourney 提示词的独特性

一种常见但错误的假设认为，提示词的惯例可以在各文本生成图像系统之间统一通用。而实际上，Midjourney 表现出与其他生成器不同的敏感性，有效的提示词构建取决于对这些敏感性的考量。下面我们逐一列举其主要特征。

2.1 风格权重。Midjourney 对风格描述词（如 cinematic、editorial、matte painting）反应强烈。此类词汇所施加的影响与其长度不成比例，且往往比对象层面的名词更能决定输出的整体特征。

2.2 构图。取景描述词（如 rule of thirds、centered、wide shot）支配着图像的空间组织。省略它们，就等于把构图决策交给了模型。

2.3 相机设定。角度与镜头描述词（如 low angle、overhead、macro）会显著改变所感知的真实感与意图性。这类描述词虽影响很大，却常被经验不足的从业者省略。

2.4 光照。光照描述词（如 soft window light、chiaroscuro、high-key）承载了图像相当大比例的氛围，是所感知制作质量的主要决定因素。

2.5 材质与色彩。材质描述词（如 frosted glass、raw linen）与色调描述词（如 muted earth tones）分别支配表面真实感与色彩一致性。

2.6 宽高比。--ar 参数构成一项硬性构图约束。其语法与允许取值在 Midjourney 官方文档中有所规定 [1]。

2.7 艺术参照。对艺术流派、媒介与时代的参照能高效地锚定某种美学。我们注意到，Midjourney 关于参照在世艺术家的政策随时间有所变化；因此我们建议以流派与媒介而非当代个人来锚定 [1]。

综合来看，其含义是：Midjourney 偏好具体、结构化且具备视觉素养的语言 —— 而这恰恰是未受过摄影、电影摄影或设计正规训练的从业者难以独自生成的语域。

3. 问题陈述：手动提示词的失败模式

我们将手动撰写提示词的失败模式归为五类。该分类具有诊断性：每一种失败都对应提示词中一处可恢复的缺陷。

F1 —— 欠约束（泛化）。提示词提供的约束不足（如 a product photo of a candle），产生一个平均化、缺乏辨识度的输出。

F2 —— 遗漏所观察到的细节。从业者在参考图中感知到某些属性（如定向光照、浅景深），却未将其编码进提示词，从而把确定性意图转化为随机性结果。

F3 —— 缺失或错误的风格词。在缺乏风格描述词时，模型会套用一种默认美学，而这可能与参考图相去甚远。

F4 —— 构图设定薄弱。若无取景或相机描述词，空间组织便被交给模型，往往产生平淡或裁剪别扭的结果。

F5 —— 缺失相机信息。鉴于角度与镜头描述词对所感知质量的强烈贡献，省略它们被认定为一种高影响的失败。

贯穿 F1–F5 的共同特征是：从业者的视觉理解超出了其描述性编码能力。该缺陷在于语言而非感知，这正是采用辅助性提取方法的动因。

4. 方法：参考图引导的提取流程

我们提出一套五阶段流程，通过以辅助性初稿替代无辅助的独立撰写来缓解描述鸿沟。

Stage 1 —— 参考图选择。选取一张能清晰展现目标风格、光照与构图的参考图像。输入质量决定提取质量；低质量或杂乱的参考图会削弱所得描述。

Stage 2 —— 提取。将参考图提交给图生提示词系统，系统返回一段结构化描述（通常涵盖主体、场景、风格、光照，以及在许多实现中的相机与情绪属性）。这构成初稿，并提供第 3 节中所指出缺失的专业词汇。

Stage 3 —— 批判性核验。将所提取的描述与参考图对照，以识别（a）源图中并不存在的幻觉属性，以及（b）源图中存在却被遗漏的属性。这一阶段至关重要；已知视觉语言模型会引入这两类误差（第 8 节）。

Stage 4 —— 适配至目标语域。将核验后的描述转换为 Midjourney 所偏好的语法：简洁的、以逗号分隔的短语，把显著元素前置，并按文档将技术参数（如 --ar）附加于末 [1]。

Stage 5 —— 生成与受控迭代。生成一个输出，将其与参考图对照，每次迭代仅修改一个变量。单变量修改能隔离每个描述词的效果，并支持对描述词空间的渐进式学习。

该流程的有效性并非源于自动化本身，而是源于以编辑任务替代撰写任务。修订一份专家级初稿在认知上比从头撰写更为轻松，而反复接触所提取的词汇会带来附带的学习效果。关于将图像转换为 AI 提示词这一提取阶段的独立详述，可参见配套文章。

Midjourney 参考图引导提示词提取与优化五阶段流程示意图 — 图 1。五阶段流程：参考图选择、提取、核验、适配与受控迭代。

5. 示例案例

以下案例为示例性构造，旨在演示该流程的推理逻辑。它们并非实证试验，也不作任何定量性能主张。

Case A —— 商业产品图。设想一张参考图：一只哑光陶瓷器皿置于亚麻表面上，沐浴在柔和的定向窗光下，从略高于视平线的位置以浅景深拍摄。一个具代表性的欠约束提示词（F1）是 ceramic mug on a table。一个经适配的提取结果为：matte cream ceramic mug on raw linen surface, soft directional window light from the left, gentle shadows, shallow depth of field, slightly high angle, minimal editorial product photography, warm neutral palette --ar 4:5。适配后的形式补充了基线所缺失的材质、光照方向、相机与风格描述词，把欠约束的意图转化为明确约束。

Case B —— 暗调人像。对于一张呈现单一硬主光与明显阴影的参考图，一个欠约束的提示词是 portrait of a woman, dramatic。一个经适配的提取结果为：close-up portrait, single hard key light, deep chiaroscuro shadows, dark neutral background, film grain, cinematic color grade, low angle, 85mm lens feel --ar 2:3。描述词 chiaroscuro 与 single hard key light 编码了基线所省略的光照逻辑（F5、F3）。

Case C —— 商业目录用平铺图。对于铺陈在柔彩底面上的俯拍排布，一个欠约束的提示词是 skincare products flat lay。一个经适配的提取结果为：overhead flat lay of skincare products, soft pastel background, even diffused lighting, clean negative space, pastel color palette, minimal commercial styling, crisp focus --ar 1:1。描述词 even diffused lighting 应对了欠约束平铺提示词特有的阴影瑕疵（F2）。

在各案例中，经适配的提示词与其基线的主要差异在于材质、光照、相机与风格描述词的存在 —— 这与第 3 节的失败分类法相一致。

欠约束的 Midjourney 提示词及其结果与结构化提示词及其改进结果的对比 — 图 2。欠约束提示词与结构化提示词及其各自的典型输出。

6. 提示词结构分类法

我们提出，一个有效的 Midjourney 提示词可分解为九个要素。该分类法兼具构建与诊断用途：它既指导撰写，又能定位表现不佳的提示词中的缺陷。

主体 —— 所描绘的主要实体。
环境 —— 场景或背景。
光照 —— 照明的方向、质感与情绪。
相机 —— 角度与镜头特性。
构图 —— 画面的空间组织。
材质 —— 表面与纹理属性。
情绪 —— 所意图的情感基调。
风格 —— 美学或媒介参照。
参数 —— 技术标记（如 --ar），依据文档 [1]。

并非每个要素对某一给定提示词都是必需的；该分类法的价值在于要求对每个要素作出有意识的取舍决定。用于诊断时，可逐要素审查一个表现不佳的提示词；经验上，最常被省略的高影响要素是光照、相机与风格（参见第 2、3 节）。

将 Midjourney 提示词分解为九个结构要素的示意图：主体、环境、光照、相机、构图、材质、情绪、风格与参数 — 图 3。Midjourney 提示词结构的九要素分类法。

7. 推荐做法

以下做法由前述分析得出。

采用高质量参考图。输入质量限定提取质量；提取前应先隔离杂乱的主体，为此可使用背景移除工具。
前置显著描述词。鉴于 Midjourney 的位置权重，应把主体与风格放在靠前的位置。
在所有提示词中指定相机角度。这一高影响要素常被省略（F5）。
显式指定光照。光照是情绪与所感知质量的主要决定因素。
优先采用简洁的、以逗号分隔的措辞，而非冗长的散文。
有意识地设定宽高比，通过 --ar 而非接受默认值。
核验并编辑每一份提取的初稿，以剔除幻觉属性（Stage 3）。
每次迭代仅改变一个描述词，以隔离效果（Stage 5）。
以流派与媒介锚定风格，而非在世个人，与当前指南一致 [1]。
维护一个提示词库，以便通过结构复用支持一个系列内的风格一致性。

8. 讨论：局限与误差来源

该方法是辅助性而非自主性的，若干局限值得明确陈述。

8.1 提取误差。视觉语言模型可能引入幻觉属性或省略已有属性。这是流程中的主要误差来源，也是必设的核验阶段（Stage 3）的动因。从业者不应将所提取的描述视为绝对真值。

8.2 语域不匹配。所提取的描述往往以自然语言描述的形式表达，而非 Midjourney 的逗号分隔语域。未经适配（Stage 4）的直接转移通常会产生次优结果。

8.3 可复现性。Midjourney 在设计上引入了随机变化。对提示词的结构复用能产生风格一致性，但不会产生完全相同的输出；对参考图的精确复现并非可达成的目标，视觉等效才是恰当的目标。

8.4 版本依赖性。描述性词汇（光照、相机、风格、材质）在很大程度上与版本无关，而技术参数则遵循当前 Midjourney 的语法，应对照文档加以核验 [1]。

8.5 残留的从业者负担。该方法减轻但并未消除从业者的角色。核验、适配以及意图的提供仍然必要，并构成创意判断的所在。

9. 常见问题

Midjourney 图生提示词是如何工作的？
将一张参考图像提交给基于视觉的系统，系统返回一段结构化文本描述；从业者在生成前对该描述进行核验并适配为 Midjourney 的语法。

能否精确复现一张参考图像？
不能。由于模型固有的随机性，可达成的目标是风格、光照与构图上的视觉等效，而非像素级复现（第 8.3 节）。

是否有必要编辑所提取的提示词？
有必要。核验与适配是必设阶段（Stage 3–4）；未经编辑的直接转移是一种有据可查的失败模式（第 8.2 节）。

为什么提示词的某些部分会被模型忽略？
通常是因为提示词过度约束，或显著描述词被放置得过于靠后；前置与精简可解决这一问题。

哪些要素最具影响力？
光照、相机与风格表现出最高的影响力，也是最常被省略的（第 2–3 节）。

该方法是否仅对新手有用？
并非如此。经验丰富的从业者也会为提高效率以及在图像系列间保持风格一致性而使用它。

该方法能否支持品牌一致性？
能。从符合品牌调性的参考图中提取，再进行结构复用，可促进一个系列内的一致性（做法 10）。

固定的提示词是否会产生固定的输出？
不会；随机变化依然存在。结构复用产生的是风格一致性而非完全相同的一致性。

该方法是否兼容当前的 Midjourney 版本？
描述性词汇在很大程度上与版本无关；仅技术参数依赖版本（第 8.4 节）。

这与 Midjourney 原生的图像提示有何不同？
原生图像提示将参考图融合进一次生成，却不产生可编辑的文本；本方法产出一段可编辑、可审视的描述，同时支持控制与附带学习。

10. 结论

我们将 Midjourney 图生提示词刻画为一种缓解视觉理解与描述性编码之间描述鸿沟的方法。该方法借助一个辅助性提取阶段，以编辑任务替代撰写任务，其有效性取决于从业者随后的核验与适配。我们提供了一套失败分类法（第 3 节）、一套五阶段流程（第 4 节），以及一套具诊断性应用的九要素结构分类法（第 6 节）。

就工具选择而言，其适宜性取决于用例。对于与相邻操作 —— 主体隔离、产品刊登生成与虚拟试穿 —— 相集成的商业与产品图像，Avriro 图生提示词工具颇为适合。对于跨异构参考图的广泛风格实验，通用视觉语言模型或许更佳；相关的对比性论述见于我们对最佳图生提示词生成器的分析。我们并不主张任何单一工具具有普遍优越性；恰当的判据是对指定用例的适配度。

11. 参考文献

仅引用可核实的一手来源。不作任何实证研究的主张。

[1] Midjourney. Midjourney Documentation. https://docs.midjourney.com/

[2] OpenAI. Vision — API Documentation. https://platform.openai.com/docs/guides/vision

[3] Anthropic. Vision — Claude Documentation. https://docs.anthropic.com/en/docs/build-with-claude/vision

[4] Google. Google AI for Developers. https://ai.google.dev/

[5] Black Forest Labs. Flux Documentation. https://docs.bfl.ai/