这是一篇理论攻略,所以这里的内容将不仅适用于ComfyUI之类,也适应于SD webUI,以及外部的ChatGPT、Nano Banana、豆包等其他AI绘画应用。我将主要使用ComfyUI,主力模型是Qwen-image和Flux1 Krea dev,至于ComfyUI及相关模型的基本应用,不放在这个系列里。
提示词架构总的来说就是怎样描述出你想要的画面。
---
但是首先,让我们提一个问题:
什么是“美”和“美感”?
根据柏拉图的说法,在类似天国一样不可触及的“完美国度”中,每样事物(包括你我)都有一个完美的范本。(反过来说,现实世界中不可能存在“完美”。)
你我所认为的凡间“美”的事物,只不过是在忽略了我们注意不到(或下意识忽视)的瑕疵之后,其绝大部分刚好符合我们心中对那个完美范本记忆的映象,会引起我们对那个完美国度的怀念,仅此而已。
这样说有点玄,但可以有更现实的解释:
当你看到一个画面,它能勾起你曾经的某个美好回忆或者符合你的某个美好幻想,让你感觉似曾相识,甚至可能勾起你五感的刺激,甚至心理上的共鸣,我们就称其为“美”。
“美”和“美感”并不是一回事。
大家公认的“美”,可能更多包含了人类生理上或共识上的认同,比如协调感、变化感、匀衡感、统一感、矛盾感……色调搭配是不是舒适、人物五官是否协调、穿戴搭配是否有创意、表情是否生动……这些造就了我们公认的对“美”的定义。
但每个人的“美感”又可能不同,同一样东西可能不同人的感受不同。生命和大自然有其美感,死亡和灾难也可能有其美感(要么你为啥爱看暴力或灾难片?),当然还有颓废美感(摇滚)、变态美感(你懂的)或其他。
我的一个美术老师对我说过:美就是统一与变化。我觉得可以扩充一下:美就是统一与矛盾的协调旋律。
为什么说这么多?我们要优化提示词,本质目的就是要指导AI既要符合大众共识的“美”、又要符合你或观众的“美感”。
AI“眼"中的世界
AI是没有物理眼睛的,它对世界外观的理解来自于海量的图片训练数据,并且只能用算法去理解这些数据。所以AI的理解与人脑的理解区别,有点像早先的模拟图像到数码图像的转换,甚至跨度要更大、区别要更细密。
在AI对绘画的理解里,有个潜空间(latent)的概念,这个潜空间是一个多维空间,里面有几十几百甚至可能成千上万个矢量维度。

这些维度是什么呢?很难用人类能理解的语言去描述,但是用简化的类比大致可以这样说:
比如颜色的色相可以矢量化成一个色轴,类似于我们常见的彩虹色。
比如光线的明暗可以矢量化成0-255(或者更细密)的亮度轴。
比如角色的年龄从幼到老、从高到矮、从胖到瘦都可以是不同的维度。
比如风格从抽象到卡通到写实照片,也能理解成风格维度。
甚至可以加入一个稳定/扰乱维度,用其随机位置控制输出内容的不同(种子)
当AI输出一张图片,我们可以理解中它在这个超空间中通过参数坐标及算法找到了一个各维度的交点,这个交点就是这张图片本身,它表现了上述N个参数的集合。
如果这个交点刚好与你的“美感”相切合,你就会认为这张图是“美”的,反之就会觉得有哪里不对劲。
人脑的潜空间
人脑的想象和审美也可以理解成同样的潜空间,或者说AI的潜空间是人脑潜空间(可意识到部分的)的超集。
但由于我们无法像AI一样精确控制自己的具象思维(除非终身训练的天才画家才能接近),所以可以说人脑的潜空间里面只是一些混沌离散且模糊的坐标点。
那么当优化提示词时,你需要做的就是把你人脑潜空间里那个混沌坐标提取出来,用文字描述成AI潜空间里,用矢量维度和算法能聚焦和表达的交点。
长远来讲,你可能甚至要反向揣测和估摸AI可能会怎样理解和表达某些概念,但这就需要长期摸索和训练了。
你可能会觉得,文字会有信息损失和表达局限。这是自然的,但不要紧,AI的强大能力之一就是预测和完善,你没表达全的部分参数,AI会用预测值和随机值给你补全。
同时,因为观众脑内坐标也是模糊的,所以这个坐标只要在大致上能和观众脑内潜空间的混沌坐标能产生共鸣就行了。
如何把握这个模糊的“度”并尽可能多产生“共鸣”,就是绘画提示词工程里最重要的部分。
完整表达你的意图
AI不是你肚子里的蛔虫,所以你想要的一定要说出来,你不想要的也要避免或否定。否则其他的部分只能靠AI揣测和随机补全,其结果可能不符合你的要求也是理所当然的事情,怪不得AI。
想象有一个公式,或者有一个程序,它有一百个参数,而你只填写了其中一个,其他的使用随机值,那么出来的结果能达到你的预期吗?
我们固然不可能描述所有细节,填完所有的矢量参数,但把脏活累活交给AI去做之前,至少要把你想要的(或不想要的)明确地传达给AI才行。
要做好这一点,可能需要长期的摸索、参考别人的作品、与AI磨合、学习更多美学、观察更多的细节、幻想更多场景等。
但要做到生成的图片基本“可看”并不难,其实就像写小说差不多,你要描绘一个人物角色,或者铺设一个场景,就必须专注描写你能想到的所有细节,用足够的篇幅去完善文字,尽可能让读者理解你脑中的那个幻想。
所以提示词架构的第一步,你只要能够完整表达意图就可以了。
提示词架构实例
下面让我们画个美女(以下主要使用Qwen-image)。
首先,你不能只说“画一个女人”,AI会画成这样:


你要“美女”自然至少要说上“美”。
当然你可以只说“画一个美女”,然而虽然能保证基本漂亮,但AI画出来是这样:

还不错不是么?至少比上面的好些,但不太能满足我们的要求,她可能并不是我们在提出需求前设想的那个样子,至少远远不能满足我的“美感”。
让我们来正式搭建这个提示词:
长得像日本明星的女孩,年轻活力,皮肤白晳红润,黑色长直发

如果没有特殊要求,你并不需要特别说明“双眼皮”、“卧蚕”、“皓齿红唇”、“年龄20岁上下”。这些属于传统的“美”,现代的绘画模型都可以默认地从“像日本明星的女孩”中预测到了你喜欢“东方式美感”和特征及年龄等需求,从而理解并为你填充参数。
那么什么是你为了更多“美感”而需要去完善的呢?让我们接着扩展:
长得像日本明星的女孩,年轻活力,皮肤白晳红润,黑色长直发,**有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材**

现在的结果,严格来说不能说比上一张“更美”,但可以说“更符合我的美感”。
符不符合你的美感我不知道,毕竟美感每个人是不同的,我们只能适应一部分人的美感。
那么再进一步:
长得像日本明星的女孩,年轻活力,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材,**表情温柔生动,微笑地看着观众,眼中透出一抹淡淡的忧伤。**

【小技巧】我在这个“统一”的美中增加了一点“矛盾”,让它多了一点忧伤感。当然不一定非得忧伤,可以是爱意、倔强、憎恨等任何你想要的词。总之在统一中增加矛盾,就会产生更多的情感变量,更容易让人产生“心理共鸣”,让画面更“生动”(虽然这张图中AI处理得有点过)。
接下来,由于我不太喜欢这个阴郁的调调、俯视的视角和半截马路牙子的背景:
长得像日本明星的女孩,年轻活力,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材,表情温柔生动,微笑地看着观众,眼中透出一抹淡淡的忧伤。**背景是虚化的现代都市,阳光洒在她的脸上。**
AI自动调整了视角以符合都市背景,阳光也冲淡了忧郁的调调,但是你可以注意到眼中“淡淡的忧伤”仍然存在,而且不像之前那么矫情了。

最后,我们增加照片风格的描述,以保证在其他模型上也能稳定输出,同时给画面再增加一点氛围:
长得像日本明星的年轻女孩,活力偶像,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材,表情温柔生动,微笑地看着观众,眼中透出一抹淡淡的忧伤。背景是虚化的现代都市,阳光洒在她的脸上。**专业杂志封面人像摄影师的杰作,高清照片。**


提示词工程里还有很多“小技巧”但这里先不提,由于AI模型本身就默认理解为照片,而我只加了一句简单的照片风格说明,我们可以看到画面的主体没怎么变,但是人物的动作更加自然了。
这样,【人物特征+场景+色彩光线+风格】,一个最基本的提示词架构就搭好了。
现在让我们把这段提示翻译成英语(大部分非国产模型还是更认英文),喂给其他模型:
A young girl who resembles a Japanese celebrity, a vibrant and charming idol, with fair and rosy skin, long, straight black hair, expressive large eyes, wearing a stylish white dress, a graceful figure, a gentle and lively expression, smiling at the audience with a hint of melancholy in her eyes. The background is a blurred cityscape, with sunlight softly illuminating her face. A masterpiece by a professional magazine cover portrait photographer; high-resolution photo.
Flux1 Krea dev


Flux dev 全量


Stable Diffustion 3.5


不同模型的风格略有不同,有些模型表达还是不够自然,但我们已经基本上保证了画面丰富度和美感。
下一篇中让我们试着再进一步优化提示。
相关链接:
Refly画布