成本直降！南大与旷视研究院联手破解视觉大模型对齐难题无需人类或GPT-4打标签 -pc6资讯

您的位置：首页 → 精文荟萃 → 软件行情 → 成本直降！南大与旷视研究院联手破解视觉大模型对齐难题无需人类或GPT-4打标签

成本直降！南大与旷视研究院联手破解视觉大模型对齐难题无需人类或GPT-4打标签 时间：2024/6/24 12:31:47来源：www.pc6.com作者：路西蓝我要评论(0)

南京大学与旷视研究院的研究人员们携手，为视觉大模型带来了一场革命。他们推出的无监督范式——SeVa，成功解决了视觉语言模型的偏好对齐问题，而且整个过程无需人类或GPT-4的参与，大大降低了对齐成本。

这项技术的核心在于自动化构造偏好数据的pipeline，通过对比偏好对齐前后的模型输出，可以明显看出变化。研究人员们发现，即使是微小的图像增广，也可能让VLM对同一问题产生不同的回答。因此，他们将原始图像的回答作为正样本，增广后的图像回答作为负样本，用于训练。

SeVa的实验结果令人瞩目。仅使用8k构造的无监督数据，就显著提升了VLM的指令遵循能力，降低了幻觉，并在多模态等benchmark上取得了明显提升。更重要的是，这种方法简单易行，成本低廉，不需要任何人类或GPT-4的标注。

在多个benchmark上的测试结果表明，SeVa在提升视觉模型的人类偏好对齐方面具有显著优势。特别是在GPT-4评估的MMVet和LLaVA-bench上，SeVa的表现尤为突出。此外，SeVa还能产生更长、更详细的回答，且每次回答的一致性更高，对不同temperature的扰动具有更强的鲁棒性。

这项研究不仅为视觉大模型的对齐问题提供了一种有效的解决方案，也为AI领域的发展开辟了新的可能性。随着SeVa的开源，我们可以预见，未来将有更多的研究者和开发者利用这一范式，推动AI技术的进一步发展。在这个充满无限可能的时代，让我们共同期待AI技术带来的更多惊喜。

相关视频

没有数据

文章评论

查看所有0条评论>>

热门文章 《王者荣耀》S36新赛季

成本直降！南大与旷视研究院联手破解视觉大模型对齐难题 无需人类或GPT-4打标签

成本直降！南大与旷视研究院联手破解视觉大模型对齐难题无需人类或GPT-4打标签