谷歌提出视觉记忆方法，让大模型训练数据更灵活

目前，多数大模型一旦经过预训练，其内部结构便难以改变，就像把知识刻在石头一样。如果你想对模型的数据进行更新，就需要对整个模型重新训练，消耗大量时间和AI算力。

为了解决这一难题，谷歌DeepMind的研究人员提出了创新视觉记忆技术，其核心是将深度学习模型的表示能力与数据库的灵活性相结合，可以灵活地添加或删除数据。简单来说，和人类的视觉记忆差不多，既能不断学习新的知识，又能对已有的知识进行更新和调整。

构建视觉记忆的过程主要有两个步骤：首先建立视觉记忆，然后利用快速最近邻检索进行分类。视觉记忆本质上是一个存储了图像及其对应标签的数据库，其中每张图片都被映射到一个高维嵌入空间。

当接收到一个新的查询图像时，系统会计算其与内存中所有图像之间的距离，并返回最接近的几个邻居作为候选答案。接下来，通过对这些候选答案进行加权投票来确定最终分类结果。

在构建视觉记忆的第一步中，从一个图像数据集中提取（图像，标签）对，并使用一个固定的预训练图像编码器来提取特征映射。这些特征映射和对应的标签对被存储在一个数据库中，形成了用于分类的视觉记忆。这种方法的一个关键优势在于，它不需要在添加信息到视觉记忆时进行额外的训练，可以快速地将新的知识整合到模型中，而不需要重新训练整个神经网络。

特征提取是构建视觉记忆的关键环节之一。在这个过程中，使用DinoV2、CLIP预训练的图像编码器将图像映射到一个特征空间中，其中相似的图像在特征空间中的距离也相近。通过这种方式，可以为每个图像生成一个特征向量，这个向量捕捉了图像的关键信息，并为后续的相似性搜索提供了基础。

一旦有了这些特征向量，我们就可以构建一个数据库，其中包含了图像的特征向量和对应的标签。这个数据库就是我们的视觉记忆，它存储了模型所“知道”的所有信息。当需要对一个新的查询图像进行分类时，系统会提取该图像的特征向量，并在视觉记忆中寻找与之最相似的图像。

在视觉记忆建立之后，下一步就是利用这个记忆进行快速的最近邻搜索，以辅助图像分类。给定一个查询图像，系统首先提取其特征向量，然后在视觉记忆中搜索与之最相似的特征向量。这些相似的特征向量被称为“邻居”，按照与查询图像的距离进行排序。最近的邻居被认为是与查询图像最相似的图像，因此在分类决策中具有最高的权重。

例如，如果我们想让模型识别新的物体类别数据，可以简单地将这些新类别的图像特征向量和标签添加到视觉记忆中，模型就能够在不重新训练的情况下，立即使用这些新信息进行分类决策。

除了能灵活添加数据之外，还能快速删除特定数据，主要通过机器反学习来实现。机器反学习可以通过简单地从数据库中删除对应的（图像，标签）对来实现。这样，当模型再次进行分类决策时，这些被删除的数据就不会被考虑在内。

例如，如果我们发现某个数据样本包含有偏见或不准确的信息，我们可以将其从视觉记忆中删除，以确保模型的决策不受这些数据的影响。

为了进一步优化视觉记忆，研究人员还引入了“记忆剪枝”方法，通过识别并移除或降低低质量样本的影响来实现优化。

记忆剪枝的过程涉及到对视觉记忆中的每个样本进行评估，以确定它们对分类决策的贡献。这可以通过分析样本在训练集上的表现来实现，例如，通过计算样本在分类决策中导致错误的次数。那些导致错误次数较多的样本可能被认为是低质量的，因此可以被移除或降低权重。

论文地址：https:///pdf/2408.08172

本文素材来源谷歌，如有侵权请联系删除

END

#artContent h1{font-size:16px;font-weight: 400;}#artContent p img{float:none !important;}#artContent table{width:100% !important;}

微精选

谷歌提出视觉记忆方法，让大模型训练数据更灵活

发表回复取消回复

标签云

最近文章

分类

微精选

谷歌提出视觉记忆方法，让大模型训练数据更灵活

微信扫一扫：分享

相关文章

发表回复 取消回复

发表回复取消回复