为什么还要学 ComfyUI

现在最稀缺的，不是“能生成”，而是“能控制，能复现，能串成流程”。

这两年，图片和视频生成产品已经强到一个有点尴尬的阶段。

一方面，它们真的很好用。你在 Midjourney 里输一句 prompt，在即梦里传一张图，在可灵里点几下镜头运动，几分钟就能拿到一段像样的结果。OpenAI 在 2024-12-09 公开 Sora 时，已经把它描述成一个能做 text-to-video、image animation 和 video extension 的统一视频模型。Sora System Card

但另一方面，你一旦想把它变成稳定工作流，问题就马上来了。

你会发现，App 很擅长让你“先爽一下”，却不一定擅长让你“稳定产出 30 次”。同样一套需求，今天能跑通，明天未必。你想保住角色一致性，想精确改局部，想把几步操作串起来，再把一次成功复用给下一个项目，事情就不再像点按钮那么轻松。

这就是我想写这个系列的原因。

这个系列不是教你背节点名。它想先讲清一个更基础的问题：为什么在一堆现成生成产品已经很好用的情况下，ComfyUI 这种工作流工具反而更值得学了。

如果你之前看过我写的《豆包 P 图的背后》，这里其实正好可以接上。

那篇文章讲的是：豆包 P 图、即梦这类产品为什么会强，也为什么会偶尔“不听话”。对普通人来说，这种不听话很多时候是可以接受的。你想随手改一张图，换个背景，试试风格。只要最后有一张能发朋友圈、能做封面的图，任务基本就完成了。

但商用不是这么算的。

商用场景里，“偶尔不听话”往往就已经不合格了。你不是要一张看着不错的图，而是要一批风格一致的图。不是今天碰巧做成一次，而是下周继续能跑。不是只有你自己会调，而是换个人接手也别散架。

这时候，豆包 P 图这类产品的问题就会暴露出来：它们适合快速试想法，却不够严肃，也不够稳定。很多关键环节都藏在黑盒里。局部控制不够细，流程难复用，结果也不容易精确复现。

也正因为这样，现成 App 和工作流工具并不是替代关系。前者更像一个轻便入口，后者才更接近真正的生产环境。你真想把生成模型变成生产力，最后大概率都得走向工作流。

现在的问题不是“能不能生成”

如果把时间拨回 2022-08-24，Stable Diffusion 第一次公开发布时，最稀缺的还是“普通人也能生成像样图片”这件事。Stability AI

今天这个问题已经基本被解决了。

文生图不再稀奇。图生图不再稀奇。连视频生成也不再停留在演示片阶段。Google 在 2025-05-20 的 I/O 官方博客里介绍 Flow 和 Veo 2 时，重点已经不是“我们也能生视频”，而是镜头语言、场景一致性、参考图驱动和创作者控制。Google Blog

这说明行业的瓶颈已经悄悄换了位置。

过去卡在“有没有生成能力”。现在卡在“生成能力能不能被组织起来”。

你做一次 demo，不难。你想把它变成稳定生产力，就难多了。

文生图、图生图、视频生成，其实是一条能力链

很多人会把它们看成三个赛道。

文生图是一种工具。图生图是一种工具。视频生成又是另一种工具。

这个理解很自然，但不够底层。

这里会突然冒出几篇论文名，但你先不用记名字。你只需要先抓住它们共同在说明的一件事：这些能力不是东一块西一块拼出来的，它们背后有一条连续演化的主链路。

如果回到第一性原理，它们更像同一条链路的不同入口。扩散模型最经典的表述来自 Ho 等人在 2020-06-19 发布的 去噪扩散概率模型（Denoising Diffusion Probabilistic Models，DDPM）论文：训练时逐步加噪，生成时反向去噪。DDPM

到了 2021-12-20 的 潜在扩散模型（Latent Diffusion Model）之后，生成开始主要发生在 latent 空间里，而不是直接在像素空间里。这件事把成本打了下来，也把 Stable Diffusion 这一代产品真正推向了大规模使用。Latent Diffusion

再往后看，图生图和图像编辑也不是另一套神秘原理。SDEdit 在 2021-08-02 给出的思路很直接：先把已有图像加噪，再在条件约束下去噪回来。SDEdit

视频也是同一方向的延长线。Stable Video Diffusion 在 2023-11-24 公开时，走的就是“先做强图像模型，再扩到视频”的路线。Stable Video Diffusion

把这些东西连起来看，你会得到一个很重要的判断：

文生图、图生图、局部编辑、视频生成，并不是一堆散装功能。它们是同一类生成系统，在不同约束和不同时间尺度上的展开。

这件事一旦看明白，你就不会再把工具学得很碎。

真正稀缺的是控制能力

模型会生成，不等于你能稳定使用它。

这句话听着像废话，但其实正好打在问题中心。

如果你只是为了“来一张赛博朋克海报”，直接用现成 App 当然更省事。可一旦你要做连续产出，控制就开始压过灵感。

你会需要这些东西：

固定角色，不要每次长得不一样
固定构图，只改局部细节
固定风格，让一组图看起来像同一个项目
固定镜头逻辑，让一段视频不是随机漂移
固定流程，让同事也能复用你的方法

这些要求，和“再给我一张更好看的图”不是同一个层级。

Google 在 2025-05-20 介绍 Flow 时，重点就放在用自然语言描述镜头、编辑镜头和管理片段上。Google Blog OpenAI 在 Sora 系统卡里，也把 image animation、video extension、storyboard 这类模式放进了同一套接口里。Sora System Card

你会发现，大模型厂商自己也很清楚，下一轮竞争不是“谁先把视频放出来”，而是谁能把结果变得更可控。

说白了，控制才是生产力的门槛。

ComfyUI 的意义，不是节点很多

很多人第一次打开 ComfyUI，第一反应都是一样的：这玩意怎么像电路板。

这反应很正常。

如果你把 ComfyUI 理解成“一个更复杂的生图界面”，它确实不讨喜。现成产品都在想办法藏住复杂度，它却反过来，把复杂度摊开给你看。

但这恰好是它有价值的地方。

ComfyUI 官方的介绍很直接：它是一个用图形化节点工作流来生成图像、视频、音频和 3D 内容的应用。ComfyUI Introduction

这个描述里最重要的词不是 image，也不是 video。

是 workflow。

节点不是为了显得专业。它的意义，是把原本包在黑盒里的过程拆出来。

哪一步负责把 prompt 编码成条件。哪一步负责把图片压进 latent。哪一步负责采样。哪一步负责放大、修脸、补细节、转视频。

一旦这些步骤被拆出来，事情就变了。

你不再只是“调一个模型”。你开始真正拥有一条流程。

这条流程可以复用，可以替换部件，可以加控制，可以保存，可以分享，也可以自动化。

对普通使用者来说，这就是 ComfyUI 最值钱的地方。它把“会点一个 App”变成“能搭一条生产链”。

模型越强，ComfyUI 反而越重要

一种很常见的想法是：以后模型越来越强，工具会越来越傻瓜，ComfyUI 这种东西迟早会被淘汰。

我不这么看。

我反而觉得，模型越强，像 ComfyUI 这样的工作流层越重要。

原因不复杂。

第一，模型能力越强，单次输出越容易让人惊艳，但生产环节并不因此自动解决。你还是要做一致性、局部控制、版本管理、素材复用、多人协作。

第二，未来不会只有一个模型。ComfyUI 官方文档已经把 OpenAI、Google、Kling、Runway、Luma 这类外部模型接入列成 partner nodes 和 API nodes 的一部分。ComfyUI API Nodes

这意味着它的角色正在变化。

它不只是“本地跑 Stable Diffusion 的图形界面”。它越来越像一个多模型时代的编排层。

第三，越强的模型，越值得被拆进流程，而不是只停留在单次聊天框里。一个能生成好图的模型很厉害。一个能被接入、串联、缓存、复用、批处理的模型，才更接近真正的生产力工具。

这里面当然有我的判断，不是官方结论。

但至少从今天的趋势看，我认为 ComfyUI 不会因为模型变强而失去意义。它更可能从“发烧友工具”慢慢变成“模型能力调度器”。

这个系列到底想帮你解决什么

这个系列不会一上来就丢给你一堆工作流截图。

那样很快，但不扎实。

我更想先做两件事。

第一，先把图片和视频生成的第一性原理讲清楚。文生图、图生图、局部编辑、视频生成，到底共享哪条主链路，差别又分别落在哪。

第二，再把 ComfyUI 放回它真正的位置。不是把它当成“更难的 UI”，而是把它当成一层可以把模型能力组织起来的工作流系统。

这样后面你再学节点，才不会像在背魔法咒语。

你会知道自己到底在接什么，为什么接，换一个模型以后哪些地方会变，哪些地方其实不变。

这才是从“会用”走向“能做事”的分界线。

为什么还要学 ComfyUI ​

现在的问题不是“能不能生成” ​

文生图、图生图、视频生成，其实是一条能力链 ​

真正稀缺的是控制能力 ​

ComfyUI 的意义，不是节点很多 ​

模型越强，ComfyUI 反而越重要 ​

这个系列到底想帮你解决什么 ​