主题
为什么还要学 ComfyUI
现在最稀缺的,不是“能生成”,而是“能控制,能复现,能串成流程”。
这两年,图片和视频生成产品已经强到一个有点尴尬的阶段。
一方面,它们真的很好用。你在 Midjourney 里输一句 prompt,在即梦里传一张图,在可灵里点几下镜头运动,几分钟就能拿到一段像样的结果。OpenAI 在 2024-12-09 公开 Sora 时,已经把它描述成一个能做 text-to-video、image animation 和 video extension 的统一视频模型。Sora System Card
但另一方面,你一旦想把它变成稳定工作流,问题就马上来了。
你会发现,App 很擅长让你“先爽一下”,却不一定擅长让你“稳定产出 30 次”。同样一套需求,今天能跑通,明天未必。你想保住角色一致性,想精确改局部,想把几步操作串起来,再把一次成功复用给下一个项目,事情就不再像点按钮那么轻松。
这就是我想写这个系列的原因。
这个系列不是教你背节点名。它想先讲清一个更基础的问题:为什么在一堆现成生成产品已经很好用的情况下,ComfyUI 这种工作流工具反而更值得学了。
如果你之前看过我写的《豆包 P 图的背后》,这里其实正好可以接上。
那篇文章讲的是:豆包 P 图、即梦这类产品为什么会强,也为什么会偶尔“不听话”。对普通人来说,这种不听话很多时候是可以接受的。你想随手改一张图,换个背景,试试风格。只要最后有一张能发朋友圈、能做封面的图,任务基本就完成了。
但商用不是这么算的。
商用场景里,“偶尔不听话”往往就已经不合格了。你不是要一张看着不错的图,而是要一批风格一致的图。不是今天碰巧做成一次,而是下周继续能跑。不是只有你自己会调,而是换个人接手也别散架。
这时候,豆包 P 图这类产品的问题就会暴露出来:它们适合快速试想法,却不够严肃,也不够稳定。很多关键环节都藏在黑盒里。局部控制不够细,流程难复用,结果也不容易精确复现。
也正因为这样,现成 App 和工作流工具并不是替代关系。前者更像一个轻便入口,后者才更接近真正的生产环境。你真想把生成模型变成生产力,最后大概率都得走向工作流。
现在的问题不是“能不能生成”
如果把时间拨回 2022-08-24,Stable Diffusion 第一次公开发布时,最稀缺的还是“普通人也能生成像样图片”这件事。Stability AI
今天这个问题已经基本被解决了。
文生图不再稀奇。图生图不再稀奇。连视频生成也不再停留在演示片阶段。Google 在 2025-05-20 的 I/O 官方博客里介绍 Flow 和 Veo 2 时,重点已经不是“我们也能生视频”,而是镜头语言、场景一致性、参考图驱动和创作者控制。Google Blog
这说明行业的瓶颈已经悄悄换了位置。
过去卡在“有没有生成能力”。 现在卡在“生成能力能不能被组织起来”。
你做一次 demo,不难。 你想把它变成稳定生产力,就难多了。
文生图、图生图、视频生成,其实是一条能力链
很多人会把它们看成三个赛道。
文生图是一种工具。 图生图是一种工具。 视频生成又是另一种工具。
这个理解很自然,但不够底层。
这里会突然冒出几篇论文名,但你先不用记名字。你只需要先抓住它们共同在说明的一件事:这些能力不是东一块西一块拼出来的,它们背后有一条连续演化的主链路。
如果回到第一性原理,它们更像同一条链路的不同入口。扩散模型最经典的表述来自 Ho 等人在 2020-06-19 发布的 去噪扩散概率模型(Denoising Diffusion Probabilistic Models,DDPM)论文:训练时逐步加噪,生成时反向去噪。DDPM
到了 2021-12-20 的 潜在扩散模型(Latent Diffusion Model)之后,生成开始主要发生在 latent 空间里,而不是直接在像素空间里。这件事把成本打了下来,也把 Stable Diffusion 这一代产品真正推向了大规模使用。Latent Diffusion
再往后看,图生图和图像编辑也不是另一套神秘原理。SDEdit 在 2021-08-02 给出的思路很直接:先把已有图像加噪,再在条件约束下去噪回来。SDEdit
视频也是同一方向的延长线。Stable Video Diffusion 在 2023-11-24 公开时,走的就是“先做强图像模型,再扩到视频”的路线。Stable Video Diffusion
把这些东西连起来看,你会得到一个很重要的判断:
文生图、图生图、局部编辑、视频生成,并不是一堆散装功能。它们是同一类生成系统,在不同约束和不同时间尺度上的展开。
这件事一旦看明白,你就不会再把工具学得很碎。
真正稀缺的是控制能力
模型会生成,不等于你能稳定使用它。
这句话听着像废话,但其实正好打在问题中心。
如果你只是为了“来一张赛博朋克海报”,直接用现成 App 当然更省事。可一旦你要做连续产出,控制就开始压过灵感。
你会需要这些东西:
- 固定角色,不要每次长得不一样
- 固定构图,只改局部细节
- 固定风格,让一组图看起来像同一个项目
- 固定镜头逻辑,让一段视频不是随机漂移
- 固定流程,让同事也能复用你的方法
这些要求,和“再给我一张更好看的图”不是同一个层级。
Google 在 2025-05-20 介绍 Flow 时,重点就放在用自然语言描述镜头、编辑镜头和管理片段上。Google Blog OpenAI 在 Sora 系统卡里,也把 image animation、video extension、storyboard 这类模式放进了同一套接口里。Sora System Card
你会发现,大模型厂商自己也很清楚,下一轮竞争不是“谁先把视频放出来”,而是谁能把结果变得更可控。
说白了,控制才是生产力的门槛。
ComfyUI 的意义,不是节点很多
很多人第一次打开 ComfyUI,第一反应都是一样的:这玩意怎么像电路板。
这反应很正常。
如果你把 ComfyUI 理解成“一个更复杂的生图界面”,它确实不讨喜。现成产品都在想办法藏住复杂度,它却反过来,把复杂度摊开给你看。
但这恰好是它有价值的地方。
ComfyUI 官方的介绍很直接:它是一个用图形化节点工作流来生成图像、视频、音频和 3D 内容的应用。ComfyUI Introduction
这个描述里最重要的词不是 image,也不是 video。
是 workflow。
节点不是为了显得专业。它的意义,是把原本包在黑盒里的过程拆出来。
哪一步负责把 prompt 编码成条件。 哪一步负责把图片压进 latent。 哪一步负责采样。 哪一步负责放大、修脸、补细节、转视频。
一旦这些步骤被拆出来,事情就变了。
你不再只是“调一个模型”。 你开始真正拥有一条流程。
这条流程可以复用,可以替换部件,可以加控制,可以保存,可以分享,也可以自动化。
对普通使用者来说,这就是 ComfyUI 最值钱的地方。它把“会点一个 App”变成“能搭一条生产链”。
模型越强,ComfyUI 反而越重要
一种很常见的想法是:以后模型越来越强,工具会越来越傻瓜,ComfyUI 这种东西迟早会被淘汰。
我不这么看。
我反而觉得,模型越强,像 ComfyUI 这样的工作流层越重要。
原因不复杂。
第一,模型能力越强,单次输出越容易让人惊艳,但生产环节并不因此自动解决。你还是要做一致性、局部控制、版本管理、素材复用、多人协作。
第二,未来不会只有一个模型。ComfyUI 官方文档已经把 OpenAI、Google、Kling、Runway、Luma 这类外部模型接入列成 partner nodes 和 API nodes 的一部分。ComfyUI API Nodes
这意味着它的角色正在变化。
它不只是“本地跑 Stable Diffusion 的图形界面”。 它越来越像一个多模型时代的编排层。
第三,越强的模型,越值得被拆进流程,而不是只停留在单次聊天框里。一个能生成好图的模型很厉害。一个能被接入、串联、缓存、复用、批处理的模型,才更接近真正的生产力工具。
这里面当然有我的判断,不是官方结论。
但至少从今天的趋势看,我认为 ComfyUI 不会因为模型变强而失去意义。它更可能从“发烧友工具”慢慢变成“模型能力调度器”。
这个系列到底想帮你解决什么
这个系列不会一上来就丢给你一堆工作流截图。
那样很快,但不扎实。
我更想先做两件事。
第一,先把图片和视频生成的第一性原理讲清楚。文生图、图生图、局部编辑、视频生成,到底共享哪条主链路,差别又分别落在哪。
第二,再把 ComfyUI 放回它真正的位置。不是把它当成“更难的 UI”,而是把它当成一层可以把模型能力组织起来的工作流系统。
这样后面你再学节点,才不会像在背魔法咒语。
你会知道自己到底在接什么,为什么接,换一个模型以后哪些地方会变,哪些地方其实不变。
这才是从“会用”走向“能做事”的分界线。