导航：首页 > 科技资讯 >

训练 CV 模型新思路来了：用 NLP 大火的 Prompt 替代微调，性能全面提升

发表于：2026-06-23 作者：创始人

编辑最后更新 2026年06月23日，Prompt tuning，作为 NLP 领域中的一个"新宠"，甚至曾被学者誉为 NLP 预训练新范式。那么，它能否借鉴到 CV 领域并产生同样的成绩呢？现在，来自康奈尔大学和 Meta AI 等机构

Prompt tuning，作为 NLP 领域中的一个"新宠"，甚至曾被学者誉为 NLP 预训练新范式。那么，它能否借鉴到 CV 领域并产生同样的成绩呢？

现在，来自康奈尔大学和 Meta AI 等机构，通过 Prompt 来调整基于 Transformer 的视觉模型，结果发现：完全可以！

比起全面微调，Prompt 性能提升显著。无论模型的规模和训练数据怎么变，24 种情况中有 20 种都完全胜出。

与此同时，它还能大幅降低每项任务所需的存储成本。

只使用不到 1% 的模型参数

大家一贯使用的全面微调（full fine-tuning），需要为每个下游任务存储和部署单独的主干参数副本，成本太高，尤其是现在基于 Transformer 的模型越来越大，已经超过 CNN 架构。

所谓 Prompt，最初指的是在输入文本中预编语言指令，以便预培训的语言模型后续可以直接理解各种下游任务。它曾让 GPT-3 即使在少样本或零样本的情况下表现出很强的泛化能力。

最近一些成果则表明，Prompt 与完全微调的性能相当，参数存储量还减少了 1000 倍。NLP 中的高超性能让不少人开始在 CV 领域中探索 Prompt 的魔力，不过都只局限于跨模态任务中文本编码器的输入。

在本文中，作者将他们所提出的 Visual Prompt Tuning 方法，简称为 VPT。这是首次有人将 Prompt 应用到视觉模型主干（backbone），并做出成果。具体来说，比起全面微调，VPT 受最新大型 NLP 模型调整方法的启发，只在输入空间中引入少量可特定某任务训练的参数（不到模型参数的 1%），同时在训练下游任务期间冻结（freeze）预训练模型的主干。

在实操中，这些附加参数只用预先加入到每个 Transformer 层的输入序列中，并在微调期间与线性 head 一起学习。

他们一共探索出两种变体：

VPT-Deep 变体为 Transformer 编码器每层的输入预先设置一组可学习的参数；

VPT-Shallow 变体则仅将提示参数插入第一层的输入。

两者在下游任务的训练过程中，只有特定于任务的提示和线性头的参数会更新，而整个 Transformer 编码器被冻结。

接下来，是骡子是马？拉出来溜溜～