1. 解耦学习和遗忘机制的神经网络压缩方法 2021年10月,清华大学脑与认知科学研究院丁贵广团队在计算机视觉领域国际顶级会议 ICCV发表了一篇题为“ResRep: Lossless CNN Pruning via Decoupling Remembering and Forgetting”的文章,提出了一种简单高效、性能优越的神经网络压缩(剪枝)方法,显著超越现有其他方法。 神经科学研究表明,动物脑中的记忆和遗忘是两个相对独立的过程,由不同的化学物质和机制控制。现有的模型剪枝方法往往通过在训练过程中加入特殊的正则项来实现剪枝,在这一过程中“记忆”(保持精度不降低)和“遗忘”(剪掉某些结构)是耦合的,因而效果不佳。本文提出在剪枝过程中解耦“记忆”和“遗忘”,额外构造特殊结构来承载剪枝造成的负面影响,取得了显著超过其他方法的压缩效果。在常用的标准ResNet-50模型上,这一方法可以在超过50%压缩率的前提下实现精度完全不降低。 2. 深度极简卷积神经网络通用模型与结构重参数化 2021年6月,清华大学脑与认知科学研究院丁贵广团队在计算机视觉领域国际顶级会议 CVPR发表了一篇题为“RepVGG: Making VGG-Style ConvNets Great Again”的文章,提出了一种极简、高效、对定制人工智能芯片非常友好的卷积网络通用模型(RepVGG)。 现有实用卷积神经网络架构(如ResNet、RegNet)多为多分支架构,结构复杂,并行度低,速度慢,内存利用率低。虽然经典的单路架构(如VGG-16)具有结构简单、并行度高、速度快、内存利用率高的特点,但是性能(精度)显著低于多分支架构,所以不实用。本文提出一种推理时单路径的卷积神经网络(称为RepVGG)和一种“结构重参数化”方法。这一方法可以将训练时的多分支架构与推理时的单路架构解耦:训练时的模型有多条分支,但在训练完成后将其通过结构重参数化方法等价转换为单分支的推理时模型。这一方法使得单路架构卷积神经网络性能比多分支网络更好或相当,又同时具有推理时结构简单、并行度高、速度快、内存利用率高的特点。 (原文链接https://it.sohu.com/a/525206879_121119002)