首页 >> 职场 >> 用GNN想到CV三大任务的新骨干网络ViG,中科院&华为诺亚开源

用GNN想到CV三大任务的新骨干网络ViG,中科院&华为诺亚开源

2025-03-20 职场

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

用左图神经的网络(GNN)做CV的研究课题有不少,但通常是围绕点云资料做文章,少有直接处置左位图资料的。

其实与CNN把一张左特写看成一个矩形、Transformer把左特写打结成一个核酸比起,左图分析方法更是适合学习不规则和繁复物体的基本特征。

现在,中会科院与华为了了实验室等提出一种均新的各支的网络,把左特写对此成左图本体资料,让GNN也能完成精华CV七大任务。

论文一出,立即引起GNN学者广泛应用高度重视。

有人认为GNN领域积累多年的技巧都将涌入这一新方向,带来一波研究课题热潮。

该来的总要来的。

新CoreViG命名上而出名了ViT,论文标题也采用同一句式,点出了核心思想:

An Image is Worth Graph of Nodes

在研究课题制作组无论如何,左图本体是一种更是通用的资料本体。甚至矩形和核酸可以当作左图本体的亦然,用左图本体来做美感感官才会更是加灵活。

左图资料由终端和边组成,如果把每个像素都认作终端量化难度显得大了,因此研究课题制作组采用了煮过(patch)分析方法。

对于224x224分辨率的左位图,每16x16像素为一个Patch,也就是左图资料中会的一个终端,总共有196个终端。

对每个终端搜索他们距离最近的终端相关联边,边的生产量随的网络深度而减低。

紧接著,的网络Core分为两部分:

一个左图滤波的网络(GCN),专责处置左图资料、聚合相邻终端中会的基本特征。

一个前馈神经的网络(FFN),本体比较简单是两个均连接层的MLP,专责基本特征的匹配。

传统GCN才会显现极度平滑现象,为彻底解决这个问题,制作组在左图滤波层前后各减低一个线性层,左图滤波层后再减低一个激活函数。

实验表明,用上新分析方法,当层数较多时ViG学习到的基本特征才会比传统ResGCN比较多样。

同算力成本下不输CNN和ViT

为了更是准确评估ViG的性能,研究课题制作组设计了ViT都用的就其本体(isotropic)和CNN都用的穹顶本体(Pyramid)两种ViG的网络,来分别做对比实验。

就其CoreViG分为下面三种设计标准。

与少见的就其本体CNN、ViT与MLP的网络比起,ViG在同等算力成本下ImageNet左位图分类学的平庸更是快。

穹顶本体的ViG的网络具体设如下。

同等算力成本下,ViG也与最先进的CNN、ViT和MLP比起,性能也能超越或平庸相当。

在目标检测和实例分割验证上,ViG平庸也与同等规模的Swin Transformer相当。

就此,研究课题制作组期盼这项工作能作为GNN在通用美感任务上的基础Core,Pytorch完整版和Mindspore完整版字符都才会分别开放源码。

论文重定向:

开放源码重定向:

水土不服拉肚子怎么办
吃什么预防肝硬化
孩子不爱吃饭怎么办
治疗类风湿的西药
天津家装公司
感冒咳嗽黄痰吃什么药效果好
治疗新冠的药有哪些
克癀胶囊治疗什么
脸色黄怎么调理
双氯芬酸钠缓释胶囊与芬必得哪种效果好
友情链接