用GNN想到CV三大任务的新骨干网络ViG，中科院&华为诺亚开源

2025-03-20 职场

梦晨发自凹非寺量子位 | 公众号 QbitAI

用左图神经的网络(GNN)做CV的研究课题有不少，但通常是围绕点云资料做文章，少有直接处置左位图资料的。

其实与CNN把一张左特写看成一个矩形、Transformer把左特写打结成一个核酸比起，左图分析方法更是适合学习不规则和繁复物体的基本特征。

现在，中会科院与华为了了实验室等提出一种均新的各支的网络，把左特写对此成左图本体资料，让GNN也能完成精华CV七大任务。

论文一出，立即引起GNN学者广泛应用高度重视。

有人认为GNN领域积累多年的技巧都将涌入这一新方向，带来一波研究课题热潮。

该来的总要来的。

新CoreViG命名上而出名了ViT，论文标题也采用同一句式，点出了核心思想：

An Image is Worth Graph of Nodes

在研究课题制作组无论如何，左图本体是一种更是通用的资料本体。甚至矩形和核酸可以当作左图本体的亦然，用左图本体来做美感感官才会更是加灵活。

左图资料由终端和边组成，如果把每个像素都认作终端量化难度显得大了，因此研究课题制作组采用了煮过(patch)分析方法。

对于224x224分辨率的左位图，每16x16像素为一个Patch，也就是左图资料中会的一个终端，总共有196个终端。

对每个终端搜索他们距离最近的终端相关联边，边的生产量随的网络深度而减低。

紧接著，的网络Core分为两部分：

一个左图滤波的网络(GCN)，专责处置左图资料、聚合相邻终端中会的基本特征。

一个前馈神经的网络(FFN)，本体比较简单是两个均连接层的MLP，专责基本特征的匹配。

传统GCN才会显现极度平滑现象，为彻底解决这个问题，制作组在左图滤波层前后各减低一个线性层，左图滤波层后再减低一个激活函数。

实验表明，用上新分析方法，当层数较多时ViG学习到的基本特征才会比传统ResGCN比较多样。

同算力成本下不输CNN和ViT

为了更是准确评估ViG的性能，研究课题制作组设计了ViT都用的就其本体(isotropic)和CNN都用的穹顶本体(Pyramid)两种ViG的网络，来分别做对比实验。

就其CoreViG分为下面三种设计标准。

与少见的就其本体CNN、ViT与MLP的网络比起，ViG在同等算力成本下ImageNet左位图分类学的平庸更是快。

穹顶本体的ViG的网络具体设如下。

同等算力成本下，ViG也与最先进的CNN、ViT和MLP比起，性能也能超越或平庸相当。

在目标检测和实例分割验证上，ViG平庸也与同等规模的Swin Transformer相当。

就此，研究课题制作组期盼这项工作能作为GNN在通用美感任务上的基础Core，Pytorch完整版和Mindspore完整版字符都才会分别开放源码。

论文重定向：

开放源码重定向：