导航：首页 > 科技资讯 >

深圳大学和特拉维夫大学最新成果，AI 编辑人脸终于告别 P 一处而毁全图

发表于：2026-07-15 作者：创始人

编辑最后更新 2026年07月15日，"Attention is all you need！"这句名言又在新的领域得到了印证。来自深圳大学和特拉维夫大学的最新成果，通过在 GAN 中引入注意力机制，成功解决了编辑人脸时会产生的一些"手抖"

"Attention is all you need！"这句名言又在新的领域得到了印证。来自深圳大学和特拉维夫大学的最新成果，通过在 GAN 中引入注意力机制，成功解决了编辑人脸时会产生的一些"手抖"问题：

比如改变人的发型时把背景弄乱；

加胡子时影响到头发、甚至整张脸都不太像是同一个人了：

这个有了注意力机制的新模型，修改图像时清清爽爽，完全不会对目标区域之外产生任何影响。

具体怎么实现？

引入注意力图

此模型名叫 FEAT （Face Editing with Attention），它是在 StyleGAN 生成器的基础上，引入注意力机制。

具体来说就是利用 StyleGAN2 的潜空间进行人脸编辑。其映射器（Mapper）建立在之前的方法之上，通过学习潜空间的偏置（offset）来修改图像。

为了只对目标区域进行修改，FEAT 在此引入了注意图（attention map），将源潜码获得的特征与移位潜码的特征进行融合。

为了指导编辑，模型还引入了 CLIP，它可以用文本学习偏移量并生成注意图。FEAT 的具体流程如下：

首先，给定一张具有 n 个特征的图像。如上图所示，浅蓝色代表特征，黄色部分标记通道数量。然后在文字提示的指导下，为所有能预测相应偏置（offset）的样式代码（style code）生成映射器。

这个映射器通过潜码加偏置（w_j+ Δ_j）修改，生成映射图像。再接着，用注意力模块生成的 attention map 将原始图像和映射图像的第 i 层特征进行融合，生成我们要的编辑效果。

其中，注意力模块的架构如下：左侧是用于特征提取的 StyleGAN2 生成器，右为用于制作注意图的 Attention Network。

在实验对比环节中，研究人员首先将 FEAT 与最近提出的两种基于文本的操作模型进行比较：TediGAN 和 StyleCLIP。其中 TediGAN 将图像和文本都编码到 StyleGAN 潜空间中，StyleCLIP 则实现了三种将 CLIP 与 StyleGAN 相结合的技术。

可以看到，FEAT 实现了对面部的精确控制，没有对目标区域以外的地方产生任何影响。而 TediGAN 不仅没有对发型改变成功，还把肤色变暗了（第一行最右）。在第二组对表情的改变中，又把性别给改了（第二行最右）。

StyleCLIP 整体效果比 TediGAN 好很多，但代价是变得凌乱的背景（上两张图中的第三列，每张效果的背景都受到了影响）。接着将 FEAT 与 InterFaceGAN 和 StyleFlow 进行比较。

其中 InterfaceGAN 在 GAN 潜空间中执行线性操作，而 StyleFlow 则在潜空间中提取非线性编辑路径。结果如下：

这是一组加胡子的编辑，可以看到 InterfaceGAN 和 StyleFlow 在此操作之余对头发和眉毛做了细微改动。除此之外，这两种方法还需要标记数据进行监督，不能像 FEAT 一样进行零样本操作。

在定量实验中，FEAT 也展现出了它的优越性。在五个属性的编辑结果中，FEAT 比 TediGAN 和 StyleCLIP 在视觉质量（FID 得分）和特征保留（CS 和 ED 得分）方面表现更佳。

一作侯贤旭来自深圳大学。

他本科和硕士毕业于中国矿业大学地理学和地质学专业，博士毕业于诺丁汉大学计算机科学专业，主要研究方向为计算机视觉和深度学习。

通讯作者为沈琳琳，深圳大学模式识别与智能系统专业硕士生导师，目前研究方向为人脸 / 指纹 / 掌纹等生物特征识别、医学图象处理、模式识别系统。他本硕毕业于上海交大应用电子专业，博士也毕业于诺丁汉大学。其谷歌学术引用次数已达 7936 次。

论文地址：

https://arxiv.org/abs/2202.02713

2022-05-06 00:28:47