偷拍自拍 12%计较量就能忘形原模子，Adobe、罗切斯特大学等提YOPO剪枝技能

发布日期：2024-11-29 12:53 点击次数：158

AIxiv专栏是机器之心发布学术、技能本色的栏目。当年数年，机器之心AIxiv专栏接管报谈了2000多篇本色，隐蔽行家各大高校与企业的顶级实践室，有用促进了学术交流与传播。如若您有优秀的责任念念要共享偷拍自拍，接待投稿或者干系报谈。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本篇论文的中枢作家包括罗切斯特大学的博士洽商生张泽良，提醒磨真金不怕火徐辰良副陶冶，以及来自Adobe的洽商员赵文天，万锟和李宇哲。

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模子的 SOTA 晋升到了新高度，但巨大的计较支出截至了其在好多场景下的应用。近日，Adobe 研发团队调处罗切斯特大学系统性得洽商了主流多模态大模子在参数和计较方法层面的冗余，并提倡了名为 YOPO（You Only Prune Once）的一系列剪枝决议。实践收尾标明 LLaVA-1.5 只需保留 12% 的计较量即可获取与原始模子同等的性能，而况实践团队还考据了这些计较冗余在 Qwen2-VL 和 InternVL-2.0 通常渊博存在。这为高效处理密集视觉 token 提供了新旅途。

当今代码、模子和表情偷拍自拍主页均已放出。

论文：Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See论文引诱：https://arxiv.org/abs/2410.06169开源代码 & 模子：https://github.com/ZhangAIPI/YOPO_MLLM_Pruning/tree/main?tab=readme-ov-file

布景先容

近期多项洽商标明，跟着模子领域和输入图像分辨率的增多，多模态大模子的身手也随之晋升。但是，使用更大的模子或引入更多视觉 tokens 会带来显耀的计较包袱。大部分多模态大模子视觉 token 数目在几百到几千不等，时时弘远于文本 token 的数目。这种巨大的不屈衡带来了一个要害挑战：模子的计较资本跟着总输入 token 的数目的往常而增多，从而截至了多模态大模子的可彭胀性。尽管近期一些责任提倡了对视觉 token 作念削减的惩办决议，如 FastV，SparseVLM， Pyramid-drop 等，但这类表情不成幸免得在判断削减哪些视觉 token 时引入了罕见的计较量。为此洽商团队提倡了在不引入罕见计较量的前提下对模子参数和计较方法进行更高效剪枝，并在多个 benchmark 上终显明 SOTA。

表情

在应用了此剪枝决议后，模子的计较复杂度由和视觉 token 数目的二次方成正比降为了和其数目成正比。

2 非活跃戒备力头剪枝：洽商团队以 LLaVA-1.5 动作洽商对象，赶快考取了 100 个视觉问答样本，可视化了视觉 token 的不同戒备力头的权重，实践发现纯粹有一半数目的戒备力头齐莫得被激活。由此可见这部分戒备力头的关联计较通常存在大齐冗余并不错被剪枝。

3 礼聘性层丢弃：洽商团队通过可视化 LLaVA-1.5 不同层的视觉 token 跨模态戒备力权重发现，大权重鸠集在前 20 层，在第 20 层到 40 层之间权重接近于 0。

这项收尾标明靠后的 20 层的视觉计较存在大齐冗余。这一不雅察启发了洽商团队在靠后的层中径直跳过所有这个词与视觉关联的计较，从而减少计较支出。具体来说，关于层 l>L−N，视觉戒备力和跨模态戒备力计较齐被不详，使得戒备力计较不错简化如下：

4 在 FFN 中进行疏淡视觉投影：通过剪枝大部分视觉戒备力计较，模子的视觉示意变得高度疏淡。为了有用愚弄这种疏淡性，洽商团队提倡在每个 transformer 模块内的 FFN 荫藏层中赶快丢弃 p% 的神经元。

实践收尾

洽商团队在宽绰常见基准上评估了他们提倡的表情在剪枝 LLaVA-1.5-7B 和 LLaVA-1.5-13B 模子中的后果。由表中得知，在换取的计较预算（即换取的 FLOPs）下，团队提倡的剪枝表情在四个样本较多的基准测试上一致性得取得了最好收尾，分袂在 GQA、VQAv2、POPE 和 MMB 上比第二优表情平均进步 3.7%、1.1%、2.2% 和 0.45%。

为了展示此种表情在剪枝视觉计较冗余方面的可彭胀性，团队在两个最大的基准测试 VQAv2 和 GQA 上，以不同的剪枝粒度，将他们提倡的计策与 token 剪枝代表性责任 PyramidDrop 和 FastV 进行比较。不错不雅察到，跟着视觉计较的 FLOPs 减少，剪枝模子的性能也随之下落。具体来说，关于使用 FastV 剪枝的模子，将 FLOPs 从 75% 减少到 19% 导致在两个基准测试上的平均性能从 71.35% 降至 66.63%。比拟之下，团队提倡的表情并未径直剪枝 token，而是针对参数和计较方法层面的冗余计较进行剪枝，从而仅导致 0.5% 的性能下落。

为了进一步印证文中不雅察到的大齐视觉计较冗余是渊博存在的，团队将该表情应用于其他模子包括 Qwen2-VL-7B 和 InternVL-2.0 4B/8B/26B。团队在 GQA 和 POPE 基准上评估了性能，并调节剪枝粒度以在保捏原始模子性能的同期尽量减少 FLOPs。如图所示，即使在未微调的情况下，以相宜比例剪枝这些模子的视觉计较也不会影响其性能。此外，更大的模子概略顺应更高的剪枝比例，这从不同模子领域下对 InternVL-2.0 的剪枝收尾中得到了考据。

为什么不径直同期剪枝视觉和文本的参数？洽商团队专注于减少视觉 token 计较中的冗余，从而裁减其支出，同期保留文本 token 的计较。为了探讨文本 token 是否也存在雷同的冗余，团队进行了一个实践，分袂对仅视觉 token 和视觉与文本 token 同期剪枝 20 个戒备力头。在未进行微调的情况下，仅剪枝视觉 token 在 VQAv2、GQA、SQA 和 TextVQA 上的平均性能为 67.1%，而同期剪枝视觉和文本 token 的性能则大幅下落至 4.3%。这标明在现时多模态大模子中，视觉计较中的冗余显耀高于文本计较中的冗余。

对 token 剪枝和计较方法剪枝的效用分析。洽商团队对不同输入视觉 token 数目下各表情的效用进行了比较。收尾标明，与基于 token 剪枝的表情比拟，从计较方法层面惩办视觉计较冗余问题在处理较长视觉序列时具有更大的效用上风。这种表情有用缓解了处理大齐视觉 token 所带来的计较支出高潮问题，展现了其在处理视觉序列方面的可彭胀性。

归来

洽商团队针对剪枝多模态大模子以终了高效计较的挑战进行了洽商。与文本不同，视觉信息具有高度疏淡性和冗余性。以往的洽商主要鸠集在减少视觉 token 数目；而本篇责任则分析了参数和计较方法中的冗余性。团队提倡的计策包括：邻域感知的视觉戒备力、非活跃视觉戒备力头的剪枝、FFN 中的疏淡视觉投影以及礼聘性层丢弃。这些表情将 LLaVA-1.5 的计较支出减少了 88%，同期大幅保留了其性能。针对 Qwen2-VL-7B 和 InternVL-2.0 4B/8B/26B 的罕见实践进一步说明，视觉计较冗余在多模态大模子中渊博存在。

偷拍 自拍 12%计较量就能忘形原模子，Adobe、罗切斯特大学等提YOPO剪枝技能

偷拍自拍 12%计较量就能忘形原模子，Adobe、罗切斯特大学等提YOPO剪枝技能