llldmxy-Portfolio

前言

lab-note

新年快乐

2026-02-17

祝各位新春快乐，马年行大运，大吉大利，龙马精神，财源广进，身体健康，万事如意！

重点作品

lab-note

ComfyUI-SpotEdit-Dev

本插件是对于潜空间遮罩SpotEdit算法的实现，现已开源至 https://github.com/llldmxy99/ComfyUI-SpotEdit-Dev

normal

超级替换

此处展示的超级替换工作流，其“超级”之处在于高度的一致性、灵活性、自动化，实现真正的定制化的商用级流式输出。

#QwenEdit2509

normal

ComfyUI-WorkFlow-DRM

本插件实现了对工作流节点的离线加密保护与授权，详见 https://github.com/llldmxy99/ComfyUI-WorkFlow-DRM

图片生成/编辑

lab-note

生图展示区说明

由于强大的图片编辑模型的开源，许多借助复杂的生图技术才能实现的效果，被编辑模型大量替代，因此比较普通和过时技术不一定展示。

normal

摄影人像

#Z-Image#文生图

normal

商品详情图

大体量模型将LLM作为TextEncoder可以使得文字、图片排版通过混合注意力机制实现快速精准的匹配，结合Prompt设计可以实现快速海报设计。

#NanoBanana#文生图

normal

Inpaint-Controlnet生图

#Controlnet

normal

家装渲染效果图

2026-03-15

lab-note

一致性与灵活性之争

在商用场景中，一致性是可用与不可用的关键分水岭。而灵活性与创造力是我们使用AI的关键，但是大范围的像素变动与一致性往往不可兼得。

lab-note

像素偏移

像素偏移是局部重绘时的一个非常常见的问题。但是解法比较一致，因此并不会每一张展示的图片都进行如此处理。

lab-note

编辑区展示说明

2026-02-07

因为编辑模型的特殊性，以下展示卡片中的效果不一定是最终结果，有一些展示是展示可实现的场景以及具体实现中的某个中间态，而非最终效果。

normal

服装提取白底图

服装或物品提取白底图在电商领域存在较为广泛的应用，这也是在很多编辑场景中保持一致性的一种技巧性做法。

#QwenEdit2509

visual

穿衣换衣

结合服装白底图进行服装替换，在模特固定的情况下，对已有图片或视频进行替换，可以实现低成本服装展示。

#QwenEdit2509

visual

换头换脸

换头换脸是AI生图历程中的硬刚需，是真实人物辨识度和一致性最重要的实现追求。此处展示的并不是最终效果。

#QwenEdit2509

normal

姿势参考(背景自适应)

姿势参考同样是AI控制里的硬刚需，此处展示的姿势参考是基于上述操作后利用“低歧义”实现姿势参考和一致性的关键步骤。

#QwenEdit2509

normal

姿势参考(背景控制)

此处展示的结果图为一次性生成，并非背景融合而成，而是通过输入图控制达到一次生成的效果，增大了可控性和一致性。

visual

背景提取

此处展示的是简单的背景提取的实现。

#QwenEdit2509

visual

背景融合

此处展示的是将一致性完好的的人物重新结合背景进行溶图的简单步骤。

#QwenEdit2509

normal

超级替换

此处展示的超级替换工作流，其“超级”之处在于高度的一致性、灵活性、自动化，实现真正的定制化的商用级流式输出。

#QwenEdit2509

visual

高清放大效果展示(非编辑模型)

此处展示的高清图尺寸为4096*4096，但是使用模型并非编辑模型，仅作为连续性创作优化流程展示。下图展示因页面尺寸限制，效果也许没有那么明显。

normal

高清放大(编辑模型)

此处展示的高清放大流程并没有增大图片像素尺寸，高清放大前后都是1024*1024的图。该过程主要是通过采样降噪的方式，进行“去模糊”的处理。

#Klein

normal

摄影角度更改

visual

文字修改

visual

抽象化设计

visual

模型产品图

visual

动漫转真实

normal

画风迁移

2026-01-17

视频生成

lab-note

生成与转绘

生成是从0到1设计，转绘是工程化实现。生成控制的难度要远大于转绘，所以有时候素材复用与转绘也是一种出效果的捷径。

video

迁移替换(对齐)

进行首帧对齐+背景替换的Animate操作，也是经典的消除歧义、保持一致性、降低色差和局部崩坏的一个有效手段。效果比直接替换好得多得多。

#Wan2.2#人物替换#动作迁移

video

动作参考生成

#Wan2.1#动作迁移

video

数字人（对口型）

#数字人

video

画风转绘

#Wan2.1#画风转绘

功能模型

lab-note

功能模型是自动化的关键

比起各平台提供的闭源模型服务，开源生态的许多模型并不会被提供服务，但这是AI的关键优势。ComfyUI与本地部署模型的优势可以在此显现。

visual

SeedVR2高清放大

利用专业放大模型将像素空间从25万像素放大64倍到一千六百万像素，约莫64倍后的效果。因页面限制效果展示也许不明显，放大查看效果更佳。

#Upscale

video

SDpose语义非人骨骼

SDpose姿势骨骼获取模型通过语义+目标检测模型+骨骼检测模型，实现效果超越Openpose、DWpose等常见pose模型。甚至可以兼容捕捉动物骨骼。

#Pose

video

GroundingDINO+SAM2指示遮罩

小体量的遮罩获取模型只能根据指示进行遮罩获取。因此十分依赖于指示的输入，包括points、bbox、yolo等手段的辅助。但是小体量依然是个优势。

#Mask

video

Sec-4B遮罩追踪

Sec比起SAM2，是更专业的视频遮罩模型，其对于动作连贯性、遮挡重捕、镜头切换捕捉，都有着更好的表现，且提供更丰富的捕捉接口。

#Mask

video

SAM3语义遮罩分割

SAM3是更新一代的遮罩捕捉模型，有着内置的语义输入模块，配合指示模型，保持着良好良好的动态捕捉的同时，拥有语义遮罩分割的功能。

#Mask

video

Qwen3-VL视频理解

Qwen3-VL算是第一批开源的可用性高的VLM模型，补齐了许多需要视觉理解视频的场景。Qwen3也算是本地部署模型的可用性的开端。

#Prompt

workflow

Florence2提示词反推

Florence是比较老牌但是可用性比较高的图片反推模型，在现有简单场景中依然是作为重要的工作流衔接模块存在。

#Prompt

音频生成

lab-note

模型选择

TTS领域是AI领域发展的最早的领域之一。可以选择的模型众多，有些模型过时了，有些模型术业专攻。因此，要针对场景进行选择。

audio

音色定制（控制）

音色定制可以设计角色年龄、状态、情绪、语气等多方面进行定制，配合音色克隆和语义情绪控制，在有声书领域有长足应用前景。

audio

音色克隆

音色克隆是最为常用的对于已知的音色进行再利用的做法，但是如果原音质量差，情绪波动大，则也是容易产生不好的效果。

audio

方言生成

方言生成目前存在一个较大的局限性，目前只有普通话派生语系可以达到较好的效果。而粤语闽南语等，因为数据标定问题，仍存在较大局限。

video

音效生成

使用Hunyuan-Foley进行音效生成，对于大场面音效以及单一节律音效有非常好的效果。但是并不适合需要极致压点的精准音效生成。

心得与思考

lab-note

ComfyUI优势

ComfyUI是AIGC领域的集大成开源开发平台，最大的优势是灵活、前沿和开源。能熟练使用ComfyUI，则默认懂得WebUI和其他闭源模型平台。

lab-note

工程化

AI模型的发展将长期处于“上下文空间有限”和“巧妇难为无米之炊”的情况。通过工程化的手段予AI以更好的生成环境，是挖掘AI潜力的关键。

lab-note

自动化

AI不是革技术的命，而是人类本身。人类的参与度决定了AI流程的效率下限，因此，减少人工的参与环节才是AI提效的关键。

lab-note

需求拆解与定制化

AI可以极大的提升各个环节的效率，但是如何进行需求拆解，同时根据每个需求方的特殊习惯和解法习惯，进行定制化方案，是AI提效的关键。

lab-note

闭源模型与开源模型

互联网上对于开源和闭源模型的争论像是“非黑即白”的选边站队一般。但是在生产过程中，我们往往需要根据模型特性和优点进行选择利用。

lab-note

模型理解和调参

“调参”的概念源于模型训练和推理优化过程中的测试和经验，AI会因为数据集、强化方式以及拟合程度的不同，展现完全不同的“性格”。

lab-note

“歧义”消除与收敛速度

AI模型本质是个概率模型，它根据我们的需求，在矩阵空间内进行计算，最后收敛到我们想要的结果，这与我们真人的理解实际上没什么两样。

lab-note

模型能力与发展方向

无论是个人还是公司，保持15°夹角将是AI时代的生存之道。若站在AI能力的发展线上则会被吞噬，若远离AI则无法吃上AI红利，也会被淘汰。

lab-note

开源社区的意义

开源是一项技术最快普及和发展的手段，学习、借鉴、抄袭、倒卖、商业化、二创等都会使得技术普及和进步速度飞快。

The Inverted Pyramid Philosophy

1. Visual Impact: First impressions matter. I prioritize high-fidelity visuals that demonstrate the raw capability of generative AI.

2. Commercial Value: Art must solve problems. My workflows are designed for consistency, scalability, and real-world application.

3. Technical Depth: Beneath the surface lies rigorous engineering. From custom nodes to hardware optimization, I document the science behind the art.

GENERATIVE ARCHITECTURE