
解决主体一致性了!FLUX.1 Kontext 深度测评+案例实操教程
5 月 29 日,黑森林实验室发布了 FLUX.1 Kontext,目标是通过一个统一的框架处理多种图像任务,解决现有模型在多轮编辑中的一些关键痛点。 先说结论:可以解决一些,但解决得还不够,但如果继续优化完善,未来还是可以对工作效率有帮助...
5 月 29 日,黑森林实验室发布了 FLUX.1 Kontext,目标是通过一个统一的框架处理多种图像任务,解决现有模型在多轮编辑中的一些关键痛点。 先说结论:可以解决一些,但解决得还不够,但如果继续优化完善,未来还是可以对工作效率有帮助...
先说结论:可以解决一些,但解决得还不够,但如果继续优化完善,未来还是可以对工作效率有帮助的。
官方介绍与我的个人感受:
总的来说,它现在可以直接修改主体和细节,可以将图片变成其他风格,可以将这种风格作为参考应用在生图中,可以替换背景不改变主体,可以修改文本内容但是保持文字风格一致(目前只支持英文),可以将前面我列举的功能结合起来使用。并且它能保持很好的一致性和很强的风格迁移能力。
我们可以在这里免费体验(外国网站),有赠送 200 积分: https://playground.bfl.ai/image/edit
或者在 ComfyUI 中使用: https://www.comfy.org/zh-cn/
然后在其他的一些平台也可以使用:KreaAI、Freepik、Lightricks、OpenArt 和 LeonardoAI 平台都支持 FLUX.1 Kontext [max] 和 FLUX.1 Kontext [pro]了。
官方提示建议:将 [物体] 改变为 [新状态],保持 [保留内容] 不变
改变汽车的颜色,人物主体还还是不错的,不过直接把虚化模糊的车都变清晰了怎么回事:
Character remain unchanged, the cars in the background remain unchanged, change the car‘s color to red.
角色保持不变,背景中的汽车保持不变,将汽车的颜色改为红色。
这里我修改了人物手中的物体和文字部分,可以看到首先一致性保持得不错,然后字体也是完全还原了原始字体,可惜目前不支持汉语。
Replace the toothbrush in the hand of the main character on the left with a microphone, making the character look like they are singing. Change the text content to "Singing, louder, more noise."
将左侧主角手中的牙刷替换为麦克风,让角色看起来像在唱歌。将文字内容改为"唱歌,更大声,更多噪音。"
这里我将一个卡通盲盒 IP 的角度让它进行修改,注意看整体的细节,无论是面部、珍珠数量细节,海底背景,泡泡,甚至左上角的 AI 标志都很好地保持了原样没有改变。最后更换发色也非常和谐,除了发色其他地方基本没有改变。
1.原图
2.Keep the background unchanged, the character is sideways facing the audience.保持背景不变,角色侧向观众
3.Maintain the background as is; the character is facing away from the audience.
保持背景不变;角色背对观众。
4.Maintain the background as is;The mermaid's hair changes to red.
保持背景不变;美人鱼的头发变成红色。
一致性保持得好可以做的就比较多了,比如帮你去掉不喜欢的同事:
Maintain all other characters and scenes unchanged, remove the man in the center, and replace him with a bonsai.保留所有其他角色和场景不变,移除中间的男人,将其替换为一盆盆栽。
如果你不喜欢人,可以帮你全都去掉(假期游客照有救了),再替换个热情似火的背景。
Remove all passerby from the background, change the background to a volcanic crater.
从背景中移除所有路人,将背景更改为火山口。
官方提示建议:转换为 [特定风格],同时保持 [构图/角色/其他] 不变
首先试一下将一张图片迁移为其他风格。在这方面我个人认为细节上还是稍稍不如 4o 的,但是也还不错。
Transform the style into a watercolor style, cute, keeping the characters and background unchanged.将风格转换为水彩风格,可爱,保持角色和背景不变。
Change the style to Japanese Ghibli style, keeping the characters and environment unchanged.将风格改为日本吉卜力风格,保持角色和环境不变。
Change the style to cartoon 3D clay texture style, keeping the characters and environment unchanged.将风格改为卡通 3D 粘土质感风格,保持角色和环境不变。
Convert the style to a 16-bit mosaic pixel style, keeping the main character and background unchanged.将风格转换为 16 位马赛克像素风格,保持主角和背景不变。
或者我给一张指定风格的照片,Kontext 参考风格,迁移风格,生成其他场景。一致性细节真的很好,比如我第一张图肩膀上有奇怪的肩带,这个人物身上的带子在延展其他图片的时候依然存在哈哈哈:
- 原图
- 保持原始画面风格,清晨的江南小巷,刚被雨水冲刷过。一个纸鸢缠绕在电线杆上,屋檐下挂着一个竹篮,巷尾的茶馆刚刚开门,温暖的灯光从里面洒出。
- 保持原始画面风格,一位穿着深绿色旗袍的女子撑着伞走进雨中的小巷,脸上带着淡淡的思索表情。她穿过灰砖和瓦屋顶,雨滴轻轻地拍打着她的伞,路旁的灯笼随风轻轻摇曳。
- 保持原始画面风格,镜头拉近到屋檐的一角,那里有一只小鸟,给小鸟一个特写镜头。
- 保持原始画面风格,她经过一家裁缝店,橱窗里挂着未完成的布料。一只猫在门旁的踏板上打盹,而店内,一位老人专注地缝制着,每一针都一丝不苟。
- 保持原始画面风格,镜头拉近,给左下角睡着的猫一个特写镜头。「镜头拉近这个效果很好用,后续可以在首尾帧或者连续镜头中使用。」
- 保持原始画面风格,她在老街尽头的一家邮局前停下,从包里取出一封旧信。背景是潮湿的格子窗和一个斑驳的门牌;信封的边缘有些破损。
- 保持原始画面不变,环境变成夜晚。
或者为角色图延展相同风格的环境图(下方上面这张是 Midjourney y 生成的,我个人感觉美学和质感上 Kontext 比起来还是稍微有一些差距的):
Using this style, depict a glowing meadow on the ocean floor, filled with soft sea anemones and dreamlike bubbles rising through spirals of light. The ground is dotted with ancient stone rings and smooth white pebbles that pulse faintly with color. In the background, and a school of silver fish forms a perfect spiral as it swims by, leaving behind a trail of glittering particles.
使用这种风格,描绘海底发光的草地,充满柔软的海葵和梦幻般的气泡,通过螺旋光线上升。地面点缀着古老的石环和光滑的白色鹅卵石,微弱地闪烁着色彩。在背景中,一群银鱼游过时形成完美的螺旋,留下闪闪发光的粒子轨迹。
官方提示建议:将背景改为 [新背景],保持主题在完全相同的位置和姿态
原本只想做背景替换,但是感觉有点无趣,就把人物一致性一起放里面测试了,每次可以改动,但是不能改动太多,调整次数也不能太多,到后面面部整体细节会有影响。
- 原图
- (参考图 1)Keep the face completely unchanged. Position the subject for a passport-style headshot. Use a plain light grey or white background, even frontal lighting, and neutral facial expression. Hair neatly arranged, no shadows. Center the face in the frame.
- (参考图 1)Keep the facial features and expression unchanged. The person is not looking at the camera, a full profile shot.
- (参考图 1)1️⃣Keep the facial features and expression unchanged. Place the subject beside a colorful supermarket shelf, under bright fluorescent lighting. Use a wide-angle lens with a slight distortion. Capture a side profile with sharp detail, maintaining a lifestyle and candid feel. 2️⃣The character setting and background remain unchanged, The person is facing the camera and laughing.(这里跑了2次,有一个过渡,人物-人物在超市-人物在超市,带笑表情。一次跑出来的效果可能不理想,遇到相同要求可以参考这个)
- (参考图 4)The character setting and background remain unchanged, The person Holding a bottle of cola up to the camera.
- (参考图 3)Preserve facial structure. The subject Wearing a grey T-shirt and jeans.sits indoors near a large café window. Shoot from outside through the glass, capturing the reflection layered over the face. Use a soft-focus depth and warm interior lighting. Composition is intimate and poetic.
- (参考图 6)Preserve facial structure.The character is playing the guitar, her gaze is lowered towards the guitar, leaving the back of her head for the audience, and the camera zooms in.
- (参考图 6)Preserve facial structure. at night,The girl is holding a birthday cake in her hand, looking towards the camera, with an extreme close-up, focusing on her facial expression, which is happy and relaxed.
- (参考图 3)Keep the face completely consistent. The character has short hair, using standard passport photo front-facing half-body composition, with a pure gray or pure white background, even lighting without shadows, natural and upright facial expression, neat hair, and centered facial alignment.
(这段内容太多了就不翻译了,大家需要可以自行翻译)
- 原图
- (参考图 1)The characters maintain the same facial features and hairstyle, with a sweet smile indicative of being in love.角色保持相同的面部特征和发型,带着陷入恋爱中的甜蜜微笑。(这里直接给我加了个女孩哈哈哈)
- (参考图 1)The background changes to a Tokyo night scene, and the character is wearing a white T-shirt.背景改为东京夜景,角色穿着白色 T 恤。
- (参考图 5)The character has a clean face and laughs out loud at the camera.角色面部干净,对着镜头大笑。
- (参考图 6)Maintain the background unchanged, the character turns around, leaving a back view.保持背景不变,角色转身,留下背影。
- (参考图 6)Maintain the background unchanged, the character rides on a motorcycle, wearing a pink motorcycle helmet with a cute Carrot sticker on it.保持背景不变,角色骑着摩托车,戴着一顶带有可爱胡萝卜贴纸的粉色摩托车头盔。
再比如大家比较熟悉的老演员毛毛小狗的快乐一天,这次色调和材质都对上了,也没有发黄(没错,我在阴阳 4o):
- 原图
- (参考图 1)Keep the background unchanged, the character is facing away from the camera.保持背景不变,角色背对镜头。
- (参考图 1)Maintain the setting of the main character Shiba Inu.The Shiba Inu raised its right paw to put on sunglasses for itself.保持主角柴犬的设定。柴犬抬起右爪为自己戴上墨镜。
- (参考图 3)Maintain the setting of the main character Shiba Inu.The Shiba Inu is sitting in the car driving.保持主角柴犬的设定。柴犬坐在车里开车。
- (参考图 1)Keep the character and material settings the same, but replace the background with a cyberpunk-themed bar. The character raises a mint-colored cocktail in their hand.保持角色和材质设定不变,但将背景替换为赛博朋克主题的酒吧。角色手中举着一杯薄荷色的鸡尾酒。
- (参考图 5)Keep the character and material settings the same, The Shiba Inu was drinking, A huge red panda was added on the right, the red panda and the Shiba Inu have the same character style, and the red panda is drinking orange juice.保持角色和材质设定不变,柴犬在喝酒,右侧添加一只巨大的小熊猫,小熊猫和柴犬具有相同的角色风格,小熊猫在喝橙汁。
官方提示建议:将 '[原文]' 替换为 '[新文]',保持相同的字体样式
保持相同字体样式它是做得很好的,但是考虑它只能延伸英语的,这里就不做过多展开了,大家可以看看效果,字体样式确实保持得很好。
Replace "fief" with "Irene." Keep the same font style.
将 "fief" 替换为"Irene."保持相同的字体样式
Keep the font style unchanged, replace "Redefine Your Weekend" with "Procrastinate Professionally";
Replace "Break away from toxic work culture and embrace two days of conscious rest and recharge." with "Call it 'self-directed learning' while rewatching cat videos and Googling 'how can focus.'"
保持字体样式不变,将“Redefine Your Weekend(重新定义你的周末)”替换为“Procrastinate Professionally(专业拖延)”; 将“Break away from toxic work culture and embrace two days of conscious rest and recharge.(摆脱有害的工作文化,拥抱两天有意识的休息与充电。)”替换为“Call it 'self-directed learning' while rewatching cat videos and Googling 'how can focus.'(把反复看猫咪视频和搜索“如何集中注意力”称为“自我主导学习”。)”。
1. 产品换背景
然后还想补充一点例如产品和 IP 方面的。比如,假设我有个可乐素材(仅供学习交流,内容与品牌无关)可以做一些背景和文字的改变。但是目前似乎做不了风格过于明显和突出的,如果这样做就会被频繁报错,说改动幅度太大:
- 原图
- A vintage American diner scene from the 1950s, with checkered black and white floor tiles, shiny red leather booths, and a glowing neon sign reading "Cold Drinks" in the background. Sunlight streams in through large glass windows, creating reflections on the glass Coca-Cola bottle standing on a glossy chrome counter. The unopened bottle is covered with condensation droplets, and next to it lies a bottle opener and a red-and-white napkin. Warm ambient lighting adds a nostalgic and inviting atmosphere. 1950 年代的美式复古餐厅场景,黑白格子地板砖,闪亮的红色皮革卡座,背景中有一个发光的霓虹灯牌写着"Cold Drinks"。阳光透过大玻璃窗洒进来,在放置于光亮镀铬柜台上的玻璃可口可乐瓶上形成反射。这瓶未开封的瓶子表面布满凝结的水珠,旁边放着一个开瓶器和一张红白相间的餐巾纸。温暖的环境光线营造出怀旧而诱人的氛围。
- Keep the drink bottle unchanged. The bottle stands on cracked earth, while floating islands drift slowly in the sky above. 保持饮料瓶不变。瓶子立在龟裂的土地上,而浮空岛屿在上方的天空中缓缓漂移。
- The subject remains unchanged, the text style remains unchanged, and the text is modified to "Cool Irene". 主体保持不变,文字样式保持不变,文字修改为"Cool Irene".
2. 局部细节
或者当我有一张人物着装照片,可以直接让 Kontext 提取出服装为平铺效果,也可以在平铺效果的基础上再将镜头拉更近体现织物细节。
- 原图
- (参考图 1)no people, extract only the coat over a white background, product photography style.无人物,仅提取外套置于白色背景上,产品摄影风格
- (参考图 2)show me an extreme closeup of the fabric 给我展示布料的极近特写
3. 三视图
IP 方面,可以让它直接输出三视图(这里的三视图是一次性成功的):
- 原图
- (参考图 1)The character remains the same; girl stands Standing on the floor.against a backdrop of pink plaid, with a display of tableware behind him.角色保持不变;女孩站在地板上,背景是粉色格子布,身后展示着餐具。这张图有个过渡图,去掉了底座,也损失了一些细节,比如围裙上的草莓纹理细看是有点不一样的。
- Output front view, side view, rear view. 输出正视图、侧视图、后视图。这里输出图的比例为设置为了 4:1,设置 3:1 也可以,但是也不会是非常规矩的三个正方形,比较随机。
4. 多图参考
目前比较难直接多图参考,但是有个妙计,先把需要的多图拼起来。谢谢@AI 炼丹师忠忠教我的技巧哈哈。
比如下面图一是原图(两张图的拼图),图二是输出图。但是这招目前出现问题的几率比较大。
Keep the scene from the above image unchanged and insert the character from the below image into the scene of the above image.
保持上图的场景不变,让下图的人物出现在上图的场景中。
网址(有 200 积分免费额度可体验): https://playground.bfl.ai/image/edit
生成功能:这个和一般工具的生成功能基本是一样的。这里不展开讲了。
编辑功能:
Batch Size 批处理大小
Safety Tolerance 安全容错
Prompt Upsampling 提示上采样
Output Format 输出格式
点击小箭头图标发送,稍等一会儿就可以看到输出的图片:
ImageImageImage可以看到皮肤细节和整体色调稍微有所改变(可能是为了适应环境),但是人物整体和面部细节保持得非常好,和环境融合也很自然。
填充功能:
选择要填充的位置,然后在下方描述填充位置的元素:
扩图功能:
比如上传一张图,调整这张图的大小,然后在下方可以加入对扩展部分的描述。
使用需要购买 API,支持微信支付和支付宝支付。在设置中可以找到积分余额和充值渠道。
然后简单看看工作流:
aspect_ratio(宽高比)
上面的参数最简单易懂的方式就是打开以后只调整图片比例,其他全部保持不变。
另外,jpeg 格式的图片可能会无法预览(我是 Mac 版本,不确定其他版本会不会也无法预览),比如即梦的下载图片上传进去就不可以预览,但是可以工作。png 和 jpg 可以预览。
以及,Freepik 我之前体验了下,只找到生图的区域,没找到编辑的,如果有朋友知道的可以评论区留言我们一起交流下。其他平台我目前还没有体验,后续如果有效果更好工作流更科学的平台我再推荐给大家。
关于 FLUX.1 Kontext 的 pro 与 max 版本怎么选:
FLUX.1 Kontext [pro]:速度更快,质量细节略逊于 max 版,单张 0.04 美金(Comfy UI 客户端价格),性价比更高。
FLUX.1 Kontext [max]:耗时更长,图片质量更好,图像保真度和细节表现力更优秀,单张 0.08 美金(Comfy UI 客户端价格)。
此外他们还有开发了一个开放权重版本,FLUX.1 Kontext [dev],是一个轻量级的 12B 扩散 Transformer,适合定制且与之前的 FLUX.1 [dev]推理代码兼容。这个是以私人测试版的形式开放 FLUX.1 Kontext [dev],用于研究和安全测试。如果感兴趣,可以联系 kontext-dev@blackforestlabs.ai
总的来说,目前存在的问题与不足如下,在黑森林实验室的论文中也提到了目前模型的局限性:
实测后,目前发现存在的问题不足有:目前大部分可使用它的平台无法参考多图像,无法使用知名 IP(这个也不算问题,但是拿知名 IP 玩梗是不太行了哈哈),无法改变过多元素,动作过大会报错,表情情绪不够强烈,实际上在修改后还是有微小细节的调整(比如细微角度或者镜头远近等)。
建议:如果要你的目的是既要改变场景又要改变角色动作,可以先跑一次换一个部分,然后再换另一部分,比如先换场景再换动作。另外,提示词不要太长,修改的地方多了就容易报错。如果原图比较规规矩矩,就可能比较难做出视觉冲击比较大的修改。
下面是官方给出的提示词输出建议(这里翻译成中文版了):
### 1. 基本修改 - 简洁直接:`"将汽车颜色改为红色"` - 保持风格:`"改为白天场景,同时保持画面的同一风格"` ### 2. 风格迁移 **原则:** - 明确命名风格:`"转换为包豪斯艺术风格"` - 描述特征:`"转换为有可见笔触的油画,厚重的油漆质感"` - 保持构图:`"改为包豪斯风格,同时保持原始构图不变"` ### 3. 角色一致性 **框架:** - 具体描述:`"短发黑发的女人"` 而不是 "她" - 保持特征:`"同时保持相同的面部特征、发型和表情"` - 步骤修改:先改变背景,然后是动作 ### 4. 文本编辑 - 使用引号:`"将 '快乐' 替换为 'BFL'"` - 保持格式:`"替换文本,同时保持相同的字体样式"` ## 常见问题解决方案 ### 角色变化过大 ❌ 错误:`"将人物变成维京人"` ✅ 正确:`"改变服装为维京战士,同时保持面部特征不变"` ### 构图位置变化 ❌ 错误:`"把他放在海滩上"` ✅ 正确:`"改变背景为海滩,同时保持人物在完全相同的位置、比例和姿态"` ### 风格应用不准确 ❌ 错误:`"使其成为素描"` ✅ 正确:`"转换为铅笔素描,具有自然的石墨线条、交叉阴影和可见的纸张质感"` ## 核心原则 1.**具体明确** - 使用精确的描述,避免模糊的术语 2.**逐步编辑** - 将复杂的修改分解成多个简单的步骤 3.**明确保留** - 说明应保持不变的内容 4.**动词选择** - 使用 "改变"、"替换" 而不是 "转换" ## 最佳实践模板 **物体修改:** `"将 [物体] 改变为 [新状态],保持 [保留内容] 不变"` **风格迁移:** `"转换为 [特定风格],同时保持 [构图/角色/其他] 不变"` **背景替换:** `"将背景改为 [新背景],保持主题在完全相同的位置和姿态"` **文本编辑:** `"将 '[原文]' 替换为 '[新文]',保持相同的字体样式"` > **记住:** 越具体越好。Kontext 在理解详细指令和保持一致性方面表现卓越。
前面特别多记不住,那就记得三点:
- 提示词的核心:输入哪些不要变,哪些要变。
- 一次变不了太多,每次改变一部分。
- 提示词使用英语。(我尝试的是 ComfyUI 的客户端,大家如果有使用中文有同样效果的平台可以在下方留言告诉我,感谢!)
最后附上论文原地址,有感兴趣的朋友可以看一看:https://cdn.sanity.io/files/gsvmb6gz/production/880b072208997108f87e5d2729d8a8be481310b5.pdf
Adobe 宣布推出 Photoshop 安卓应用。该应用此前于 2 月份首次登陆 iPhone,而 Android 用户则被告知要等到 2025 年底。目前,Photoshop 测试版已于 Google Play 商店上线,测试期间所有用户均可免费使用。查看详情
OpenAI 昨日宣布对 ChatGPT 进行重大更新,包括向 macOS 用户推出 ChatGPT 会议记录模式,可以转录任何会议、头脑风暴或语音笔记,并快速提取要点然后转化为新的内容。另外一个重要功能就是 ChatGPT 正式支持 MCP 协议,例如,直接连接 Github、SharePoint、Gmail、Dropbox、Box、Outlook 等常用工具,实现跨平台数据整合、搜索和推理。简单来说,OpenAI 希望把 ChatGPT 打造成智能协作平台。
随着人工智能对高质量数据需求的激增,高效的网页数据抓取工具成为AI开发者的核心需求。Firecrawl 推出一项突破性功能——全新/search API,通过一次 API 调用即可实现网页搜索与内容抓取,输出 AI 友好的数据格式。这一功能的发布标志着 Firecrawl 在 AI 驱动的网页数据处理领域迈出了重要一步。地址
AI 初创公司 Manus 近日宣布推出其全新的「文生视频」 功能,旨在为用户提供通过简单文本指令生成视频的便捷体验。该功能目前已经面向 Basic、Plus 和 Pro 会员用户开放抢先体验。Manus 在社交媒体平台 X 上表示,用户只需输入文本命令,其智能系统便能在几分钟内将这些指令转换成结构清晰、故事连贯的视频,展示了其在 AI 视频生成领域的强大能力。
OpenAI 宣布升级其编程工具 Codex,除了向 ChatGPT Plus 用户开放之外,还新增联网能力,让 Codex 在执行任务时访问互联网(附带安全限制)。这意味着无需开发者手动配置,工具能自动安装基础依赖项、运行代码检查(Linting)和测试,甚至执行需要访问测试服务器的脚本。OpenAI 还降低了编程工具 Codex 的使用门槛。此前该工具仅限于 Enterprise、Team 和 Pro 订阅用户,如今每月支付 20 美元的 ChatGPT Plus 用户也能使用这一工具,创建编程环境并将任务委托给 AI。
最新评论
您好,这是一条评论。若需要审核、编辑或删除评论,请访问仪表盘的评论界面。评论者头像来自 Gravatar。