您的位置:首页资讯系统工具 → Meta 提出新型可扩展记忆层,提升语言模型知识储备、减少幻觉现象

Meta 提出新型可扩展记忆层,提升语言模型知识储备、减少幻觉现象

时间:2025/1/8 13:52:47来源:www.pc6.com作者:xy我要评论(0)

随着企业越来越多地应用大型语言模型(LLMs),如何提升模型的知识准确性并减少幻觉现象,成为了一项重要挑战。Meta AI 的研究人员在一篇新论文中提出了 “可扩展记忆层”,或许能够为这一问题提供解决方案。

Meta,元宇宙,Facebook

可扩展记忆层的核心思想是在不增加推理时计算资源的情况下,向 LLMs 中添加更多参数,从而提升其学习能力。这种架构适用于需要储存大量事实知识但又希望保持推理速度的应用场景。

传统的语言模型使用 “密集层” 来编码大量信息。在密集层中,所有参数在推理时几乎都是同时激活的,能够学习复杂的函数,但这需要额外的计算和能量资源。而对于简单的事实知识,使用具有关联记忆架构的简单层会更加高效和易于理解,这就是记忆层的作用。记忆层通过简单的稀疏激活和键值查找机制来编码和检索知识。尽管稀疏层在内存占用上高于密集层,但其同时仅使用少量参数,从而提高了计算效率。

虽然记忆层已经存在多年,但在现代深度学习架构中却鲜有应用,主要是因为它们并未针对当前硬件加速器进行优化。当前前沿的 LLMs 通常采用某种形式的 “专家混合” 架构,这与记忆层有相似之处。专家混合模型由多个专门化的小型专家组件构成,通过路由机制在推理时激活特定的专家。

为了克服记忆层在计算上轻便但内存占用大的挑战,Meta 的研究人员提出了若干改进措施,使其能够在大规模应用中实现可行性。他们为记忆层配置了并行化,能够在多个 GPU 上存储数百万个键值对,同时不会减慢模型的运行速度。此外,他们还为处理高内存带宽操作开发了特定的 CUDA 内核,并实现了参数共享机制,允许多个记忆层共享一组内存参数。

通过对 Llama 模型的修改,将一个或多个密集层替换为共享记忆层,研究人员对记忆增强模型进行了测试。他们的研究发现,记忆模型在多个任务中表现优异,特别是在需要事实知识的任务上,性能明显超过密集基线,甚至能与使用2到4倍计算资源的模型竞争。


相关视频

    没有数据

相关阅读 用大模型吃瓜更智能了!阿里通义实验室提出新时间线总结框架,全​LG 推出新 AI 服务,助力家庭、车载和办公日常生活字节跳动海外上线短剧App Melolo:可免费看短剧Timekettle推出Babel OS:实现实时多语言交流 重新定义AI同声传译Avataar 推出全新 AI 视频生成工具,助力产品宣传sunbet注册下载方法和评测汇总2024sunbet注册体验金下载方法和评测汇总2024sunbet足球下载方法和评测汇总2024

文章评论
发表评论

热门文章 Meta 提出新型可扩展记英伟达 CEO:我们的AI京东回应App内支持支付鸿蒙版微信正式上架:

最新文章 Meta 提出新型可扩展记英伟达 CEO:我们的AI Avataar 推出全新 AI 视频生成工具,助力产3个月DAU增长2.8倍,这款AI图片App避免了“穿越40年周期,联想找到AI时代密钥全网都在扒的DeepSeek团队,是清北应届生撑

人气排行 八门神器教程,图文传授怎么使用图文教程:R-Studio万能通用数据恢复方法UEFI+GTP模式下使用GHO文件安装WIN7或WIN8图MHDD4.6使用方法图解DirectX修复工具无法打开 DirectX修复工具分区助手怎么扩大c盘?分区助手调整c盘大小教pqmagic 9.0中文使用教程图解按键精灵如何找图 按键精灵找图教程