微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 Step1X-Edit:突破性图像编辑框架,让AI轻松实现你的创意

Step1X-Edit:突破性图像编辑框架,让AI轻松实现你的创意

2025-04-27 11:07
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-04-27 11:07 科技行者

日前,来自StepFun团队的研究人员发布了一项重要突破——Step1X-Edit,这是一个开源通用图像编辑框架,能够以媲美GPT-4o和Gemini2 Flash等闭源模型的表现水平,满足用户多样化的图像编辑需求。这项研究于2025年4月24日发表在arXiv预印本平台,论文编号为2504.17761v1,有兴趣的读者可以通过GitHub(https://github.com/stepfun-ai/Step1X-Edit)访问项目代码和完整论文。

一、为什么Step1X-Edit如此重要?

想象一下,你有一张自己特别喜欢的照片,但照片中有些地方不太完美——也许背景有些单调,或者你希望将照片中的猫咪变成一只狗,又或者你想改变照片的整体风格。过去,这些编辑工作需要你具备专业的Photoshop技能,或者花费大量时间手动修改。

近年来,人工智能的发展使得通过简单的文字指令就能编辑图像成为可能。比如,你只需要输入"将照片背景改成海滩"或"把照片中的猫换成狗"这样的指令,AI就能帮你完成这些复杂的编辑任务。像GPT-4o和Gemini2 Flash这样的大型模型已经展示了令人印象深刻的图像编辑能力,但这些都是闭源的商业模型,研究人员无法了解其内部工作原理,也无法进行二次开发。

这就是Step1X-Edit项目的意义所在——它是一个完全开源的图像编辑框架,性能接近顶级商业模型,并且任何人都可以访问、使用和改进它。正如研究人员所说:"我们的目标是缩小开源和闭源编辑系统之间的性能差距,同时推动实用和用户导向的编辑评估边界。"

二、像厨师一样精准创作——Step1X-Edit如何工作?

如果将图像编辑比作烹饪美食,那么传统的图像编辑工具就像是给你提供了各种原材料和厨具,但你需要自己掌握复杂的烹饪技巧。而Step1X-Edit则像是一位能听懂你需求的私人厨师,你只需告诉他"我想要一道不太辣的泰式咖喱",他就能根据你的指令精准地制作出符合你期望的美食。

Step1X-Edit主要由三个核心组件构成:多模态大语言模型(MLLM)、连接器模块和基于Transformer的扩散模型(DiT)。这三个组件协同工作,就像厨师团队中的不同角色。

首先,当你提供一张参考图像和编辑指令(比如"移除图片中的男孩")时,多模态大语言模型(如Qwen-VL)会充当"主厨"的角色。它负责理解你的指令,分析图像内容,捕捉指令和图像之间的语义关系。这就像主厨理解客人的需求,并决定需要哪些食材和烹饪方法。

接下来,连接器模块作为"副厨",将主厨的理解转化为具体的烹饪步骤。它重组语言模型输出的特征,形成更紧凑的文本特征表示,并生成全局视觉引导向量。这就像副厨根据主厨的指示,准备好所有需要的食材和调料。

最后,基于Transformer的扩散模型(DiT)担任"烹饪执行者"的角色,它接收前两个组件提供的条件信息,通过扩散过程生成最终的编辑图像。这就像厨师根据准备好的食材和配方,将所有元素完美地结合在一起,烹制出最终的美食。

整个系统在训练过程中采用联合学习设置,同时优化连接器和DiT组件。研究团队使用了他们内部预训练的Qwen和DiT文本到图像模型的权重进行初始化,这有助于更好的收敛和性能转移。这就像厨师团队在正式营业前进行的综合训练,确保每个人都能完美配合,共同创造出色的料理。

三、制作一流美食需要优质食材——Step1X-Edit的数据构建

就像一流厨师需要最新鲜的食材才能做出美味佳肴一样,高质量的AI模型也需要大量优质数据进行训练。Step1X-Edit团队深知这一点,他们指出:"虽然研究人员已经开源了像AnyEdit和OmniEdit这样的编辑数据集,但我们认为这些数据集的质量和多样性还不足以获得与GPT-4o等闭源算法相当的性能。"

为了解决这个问题,研究团队设计了一个复杂的数据生成管道,能够生成高质量的图像编辑训练数据。他们首先通过网络爬取了多样化的图像编辑示例,然后将图像编辑问题系统地分类为11个不同类别,包括:

主体添加与移除:比如"在图像中添加一只猫"或"移除图像中的建筑物"
主体替换与背景变更:如"将图像中的狗换成猫"或"将背景改为山脉"
颜色变更与材质修改:如"将红色T恤改为蓝色"或"将木制家具改为金属风格"
运动变化:如"让照片中的人挥手"
人像美化:如"美化照片中人物的皮肤"
风格转换:如"将照片转换为吉卜力动画风格"
文本修改:如"更改图像中的标志文字"
色调转换:如"让照片看起来像是在黄昏拍摄的"

这些类别覆盖了用户在实际使用中可能需要的大多数编辑操作。通过这个精心设计的数据生成流程,研究团队成功生成了超过2000万个指令-图像对。经过多模态大语言模型和人工标注者的严格筛选,他们最终保留了超过100万个高质量的三元组(包含源图像、编辑指令和目标图像)。

这使得Step1X-Edit数据集在规模上超过了所有现有的编辑数据集。即使在严格筛选后(筛选比例为20:1),Step1X-Edit-HQ子集的绝对规模仍与其他数据集相当。

为了确保数据的高质量和多样性,研究团队为每个子任务设计了专门的处理流程。例如,对于"主体添加与移除"任务,他们使用Florence-2进行语义多粒度、空间层次和注释类型多样化的标注,然后应用SAM-2进行分割,并使用ObjectRemovalAlpha进行图像修复。编辑指令则通过Step-1o模型和GPT-4o的组合生成,并经过人工审核以确保数据有效性。

四、评价一流厨师需要专业标准——GEdit-Bench评测基准

一流餐厅通常会接受专业美食评论家的评价,以证明自己的实力。同样,为了评估图像编辑模型的性能,研究团队创建了一个名为GEdit(Genuine Edit)-Bench的新基准。与之前的评测基准不同,GEdit-Bench的主要动机是收集真实世界中的用户编辑实例,以评估现有编辑算法如何满足实际编辑需求。

研究团队从互联网(如Reddit)收集了超过1000个用户编辑实例,手动将这些编辑指令分类为11个不同类别。为了确保基准的多样性,他们过滤了目的相似的编辑指令。最终,他们获得了606个测试样本,其参考图像均来自真实世界场景,这使得该基准更加真实可靠。

为了保护隐私,研究团队为所有用户上传的图像实施了全面的去识别协议。对于每个原始图像,他们使用多面反向图像搜索策略,跨多个公共搜索引擎进行搜索,以识别与原始图像在视觉上相似且语义一致的公开可访问的替代图像。这种方法不仅确保了基准数据集的伦理完整性,还保留了准确和有意义评估图像编辑模型所需的基本特征。

使用GEdit-Bench,研究团队评估了各种图像编辑算法,包括最先进的开源解决方案(如Instruct-Pix2Pix、MagicBrush、AnyEdit和OmniGen)以及专有算法(如GPT-4o、Doubao和Gemini2 Flash)。评估采用三个指标:SQ(语义一致性)、PQ(感知质量)和O(总体得分)。SQ评估编辑结果与给定编辑指令的符合程度,得分范围为0到10。PQ评估图像的自然度和伪影的存在,也使用0到10的评分范围。总体得分基于这些评估计算。

为了全面评估模型在不同语言上的能力,基准中的每张图像都配有一条英语指令和一条中文指令。对于英语指令(GEdit-Bench-EN),评估了所有闭源和开源模型。对于中文指令(GEdit-Bench-CN),只测试了支持中文提示的模型,即闭源系统。

五、Step1X-Edit:开源模型中的翘楚

经过GEdit-Bench的评估,Step1X-Edit展现出了突破性的能力,在11个不同的评估维度上全面超越了开源对手。当与闭源模型相比时,它超过了Gemini2 Flash,甚至在风格变化和颜色变更等维度上胜过了GPT-4o。

具体来说,Step1X-Edit在语义一致性(SC)、感知质量(PQ)和整体得分(O)上都取得了出色的表现。它显著优于现有的开源模型如OmniGen,并与闭源模型如Gemini2 Flash和Doubao取得了可比的结果。更令人印象深刻的是,Step1X-Edit在处理GEdit-Bench-CN基准中的中文编辑指令时表现出稳定的性能,甚至超过了Gemini2和Doubao。

为了进一步评估图像编辑结果的主观质量,研究团队还进行了一项全面的用户偏好研究。他们招募了55名参与者,评估四种算法的输出——Gemini2 Flash、Doubao、GPT-4o和Step1X-Edit。每位参与者都被展示一系列测试图像,并被要求对四种方法生成的编辑结果进行排名。这种评估在模糊和主观的环境中进行,以最小化偏见并确保公平。

参与者使用五级质量量表对输出进行评分,从最差到极好。为了便于与VIEScores等定量评估指标进行一致比较,研究团队将这些定性评级映射为数值分数:最差=2,差=4,一般=6,好=8,极好=10。对于每个编辑任务,他们计算所有参与者的平均偏好得分,然后通过对所有编辑任务的得分取平均值来总结每种方法的整体表现。

结果显示,Step1X-Edit在用户研究中也取得了可观的表现,进一步证明了其作为开源图像编辑模型的卓越能力和潜力。

六、Step1X-Edit能做什么?实例展示

让我们通过一些具体例子来直观了解Step1X-Edit的能力:

当用户提供指令"将照片中的校车替换为卡车"时,Step1X-Edit能够精准地识别图像中的校车,并将其替换为保持原始场景一致性的卡车,而不影响图像的其他部分。

当用户要求"移除照片中的停止标志"时,Step1X-Edit不仅能够识别并移除停止标志,还能智能地填充背景,使编辑后的图像看起来自然而连贯。

对于更复杂的指令,如"将图像转换为吉卜力风格",Step1X-Edit能够捕捉吉卜力动画的独特艺术风格,并将其应用到整个图像,同时保留原始图像的主要内容和布局。

这些例子展示了Step1X-Edit在各种编辑任务中的多功能性和精确性,从简单的对象替换到复杂的风格转换,都能表现出色。

七、未来展望:开源推动创新

归根结底,Step1X-Edit项目代表了图像编辑领域的一个重要里程碑。通过开源这一强大的图像编辑模型,研究团队不仅缩小了开源和闭源编辑系统之间的性能差距,还为进一步研究和创新提供了宝贵的资源。

Step1X-Edit的三大贡献——开源模型、高质量数据生成管道和真实世界评测基准——共同构成了一个完整的生态系统,将推动图像编辑技术向前发展。这种开放的方法确保了研究人员和开发者能够深入了解模型的工作原理,进行改进和定制,并将其应用于各种实际场景。

随着越来越多的用户接触和使用Step1X-Edit,我们可以期待看到更多创新的图像编辑应用出现。从个人创意项目到商业应用,Step1X-Edit为各种用途提供了强大而灵活的工具。

如果你对图像编辑感兴趣,无论是作为研究人员、开发者还是普通用户,都可以通过GitHub(https://github.com/stepfun-ai/Step1X-Edit)访问Step1X-Edit项目,探索其代码和文档,甚至为其发展做出贡献。这就是开源的魅力——它不仅是一个成品,更是一个不断成长和进化的生态系统,由社区共同塑造和推动。

分享至
0赞

好文章,需要你的鼓励

推荐文章
  • 奖励设计:让AI学会智能使用工具的关键
    2025-04-23 17:39

    奖励设计:让AI学会智能使用工具的关键

    想象一下,你有一个非常聪明的朋友,他知道很多知识,但每当需要使用计算器、搜索引擎或查询最新天气时,却变得像个笨手笨脚的孩子。这正是当前大语言模型(简称LLMs,如ChatGPT这类AI系统)面临的尴尬处境。

  • ToolRL:奖励设计是工具学习所需的全部
    2025-04-23 17:34

    ToolRL:奖励设计是工具学习所需的全部

    想象一下,你拥有一个聪明的助手,它知道很多知识,但在面对需要使用计算器、搜索引擎或查询最新信息时却显得笨手笨脚。这正是当前大语言模型(LLMs)面临的困境。虽然这些模型已经通过监督微调(SFT)学会了使用工具的基本能力,但它们常常在面对复杂或不熟悉的场景时表现不佳。

  • X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御
    2025-04-23 14:08

    X-Teaming:使用自适应多智能体进行多轮越狱攻击和防御

    想象你正在和一个智能助手聊天。如果你直接要求它提供有害信息,它很可能会礼貌拒绝。但如果你通过一系列看似无害的对话,逐步引导它走向你的真实目标呢?这就是当前AI安全领域面临的一个严峻挑战——多轮对话中的安全漏洞。

  • "思考操纵":用外部思考让大型推理模型更高效
    2025-04-22 16:43

    "思考操纵":用外部思考让大型推理模型更高效

    想象你在使用一个非常聪明的AI助手完成一项复杂任务,比如解决一道数学难题。你可能注意到这个助手会花很长时间"思考",一步一步写下大量推理过程,最后才给出答案。虽然这种详细的思考过程确实帮助AI做出了更准确的判断,但同时也带来了一个明显的问题:它太"啰嗦"了,消耗了大量的计算资源和时间。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-