导航：首页 > 科技资讯 >

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

发表于：2026-07-22 作者：创始人

编辑最后更新 2026年07月22日，1 月 16 日消息，目标检测种类多达 20000+ 种的 AI，你见过吗？不仅准确"揪出"每个物体所在的位置，分类效果非常准确：插画版赛博恐龙也没问题：甚至还能检测杂志封面甚至漫画中的物体！这也是把

1 月 16 日消息，目标检测种类多达 20000+ 种的 AI，你见过吗？不仅准确"揪出"每个物体所在的位置，分类效果非常准确：

插画版赛博恐龙也没问题：

甚至还能检测杂志封面甚至漫画中的物体！

这也是把目标检测给玩出花来了，据作者表示模型在长尾问题等细节上的处理非常好，像狮子和狐狸这种少样本也能准确识别：

这项研究来自 Meta AI 和得克萨斯大学奥斯汀分校，一作是著名目标检测框架 CenterNet 的作者、复旦校友 Xingyi Zhou。

一起来看看。

可识别"跨次元"物体

这篇论文提出了一种新的名为 Detic 的方法，用来解决目标检测无法用到图像级标签（给一整张图打标签，标注里面有什么物体）的问题。

此前的目标检测方法，通常是一个检测框里一个物体：

这种方法有一个问题，就是没办法利用整个图像级标签，只能用单个物体的图片进行训练。

也有一些研究想出了一种新方法，搞个弱监督学习，试图让 AI 自己学会将图像级的标签，去对应锚定框里面有什么物体，但实际上这种方法的效果也不太好。

Detic 的方法是采用目标检测数据（a）和图像标签数据（b）对 Detic 进行混合训练。

其中，在用目标检测数据训练 Detic 时，同时对图像分类模块 W 和目标检测模块 B 进行训练，但只用标签数据对图像分类模块 W 进行训练。

训练的数据集采用的是 ImageNet，事实证明模型在训练后无需微调，就能很好地适应到 LVIS 等数据集，相对之前的一些模型都达到了不错的效果：

论文表示，Detic 能分类的图片类型也是多种多样，从真实照片到赛博恐龙插画这样的"跨次元"作品都能识别：

这立刻吸引了不少网友来玩。

在线 Demo 可玩

有网友用梵高的世界名画试了试。

放大一点来看，艺术加工后的椅子、人和桌子也能被识别：

还有用二次元的龙猫进行识别的，除了龙猫本身被错认成猫头鹰以外，其他的雨伞和靴子都认得不错：

我们也随便用一个钟表柜的照片试了试，在线 Demo 的检测时间稍微有点久，大约需要 6 分钟左右，但效果还不错：

细看的话还是能发现一些瑕疵，例如把部分手表误认成转速计、以及怀表和时钟，以及也有一两块手表没有被检测出来。

不过，即使在二次元和插画中，这个 AI 能识别的物体，至少也需要在真实世界出现过。

例如，超出 20000 个分类的物体，如喷火龙和皮卡丘，就不在 AI 的监测范围内了，全部被认成了猴子（狗头）：

将这些二次元角色也加入 AI 训练数据集中，不知能否取得同样的检测效果。

作者介绍

▲ 这张照片是"女朋友拍的"

论文一作 Xingyi Zhou，目前在德克萨斯大学奥斯汀分校读博，本科就读于复旦大学计算机系，之前也是 CenterNet 论文的第一作者，项目在 GitHub 上目前已经收获 6.1k Star。

Rohit Girdhar、Armand Joulin 和 Ishan Misra，Meta AI 的研究科学家，主要研究方向是机器学习和计算机视觉，此前 Armand Joulin 曾经在李飞飞的实验室进行博士后工作。

Philipp Krähenbühl，得克萨斯大学奥斯汀分校助理教授，Xingyi Zhou 的导师，研究方向是计算机视觉、机器学习和计算机图形学。

感兴趣的小伙伴，赶紧试试你想玩的漫画、或是杂志插画吧~

Demo 地址：点击打开

论文地址：点击打开

参考链接：一、二

2022-05-06 15:59:07

很赞哦！

检测物体目标训练数据图像方法标签效果论文分类研究作者插画问题模型不错分校模块照片云南精品咖啡产地咖啡网挂耳咖啡的正确冲泡方法咖啡豆种类防弹咖啡摩卡壶煮咖啡优缺点咖啡豆排行榜前十名中国咖啡网澳瑞白澳白咖啡花魁咖啡瑰夏咖啡云南咖啡咖啡豆咖啡网耶加雪菲精品咖啡豆咖啡手磨咖啡手冲咖啡和咖啡机区别花魁咖啡瑰夏咖啡云南咖啡咖啡豆咖啡网耶加雪菲精品咖啡豆咖啡手磨咖啡手冲咖啡和咖啡机区别

DH3G游戏资讯网

DH3G游戏资讯网

“跨次元”目标检测模型 hold 住各种画风，还能识别漫画中物品

可识别"跨次元"物体

在线 Demo 可玩

作者介绍

漫威剧集《月光骑士》先导预告片发布，今年上线 Disney+

三星 Galaxy S22+ 渲染图、部分参数曝光：重 195g，45W 快充

相关文章