您的位置:首页资讯硬件报道 → IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

时间:2025/2/9 13:55:16来源:www.pc6.com作者:不详我要评论(0)

随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。

image.png

Granite-Vision-3.1-2B 能够从各种视觉格式中提取内容,包括表格、图表和图示。该模型基于精心挑选的数据集进行训练,数据来源包括公共和合成源,能够处理多种文档相关的任务。作为 Granite 大型语言模型的改进版,它将图像和文本两种模态进行了整合,从而提升了模型的解读能力,适用于多种实际应用场景。

该模型由三个关键组件组成:首先是视觉编码器,它使用 SigLIP 高效处理和编码视觉数据;其次是视觉语言连接器,这是一个带有 GELU 激活函数的双层多层感知器(MLP),旨在连接视觉信息与文本信息;最后是大型语言模型,基于 Granite-3.1-2B-Instruct,具备128k 的上下文长度,可以处理复杂和庞大的输入。

在训练过程中,Granite-Vision-3.1-2B 借鉴了 LlaVA,并结合了多层编码器的特性,以及在 AnyRes 中更密集的网格分辨率。这些改进增强了模型理解详细视觉内容的能力,使其能够更准确地执行视觉文档任务,例如分析表格和图表、进行光学字符识别(OCR)以及回答基于文档的查询。

评估结果显示,Granite-Vision-3.1-2B 在多个基准测试中表现优秀,尤其在文档理解方面。在 ChartQA 基准测试中,该模型的得分达到0.86,超越了其他参数在1B-4B 范围内的模型。在 TextVQA 基准测试中,得分为0.76,展现出在解析和回答图像中嵌入的文本信息方面的强大能力。这些成果凸显了该模型在企业应用中对精确视觉和文本数据处理的潜力。

IBM 的 Granite-Vision-3.1-2B 代表了视觉语言模型的一次重要进步,提供了一个均衡的视觉文档理解方案。其架构和训练方法使其能够高效地解析和分析复杂的视觉和文本数据。由于其对变换器和 vLLM 的原生支持,该模型可以适应多种用例,并能在诸如 Colab T4等云环境中部署,为研究人员和专业人士提供了一种增强 AI 驱动文档处理能力的实用工具。


相关视频

    没有数据

相关阅读 Krea ai 发布支持 Deepseek R1 驱动的 Krea chat功能最终幻想7:重生》PC版1.001补丁发布:大小为274.3G甜品卡来了!曝RTX 5060 Ti将于3月发布刚刚,OpenAI发布o3-mini,可免费使用、3大推理模式OpenAI透露明天发布满血版o3Mistral、AI2 发布新的开源 LLMs:更小,更便宜余承东称将引发全国人民抢购!华为重磅新品3月发布:或是全新折叠阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏

文章评论
发表评论

热门文章 ​阿联酋与法国联约会软件Tinder转向AI360无偿为DeepSeek提供智胜装备!七彩虹多款

最新文章 IBM发布视觉语言模型G​Meta 涉嫌非法 用DeepSeek“赚钱”网课泛滥 专家:普通用户李飞飞:人工智能政策应基于科学,而非科幻​阿联酋与法国联手打造欧洲最大AI园区割韭菜?博主卖Deepseek付费课4天赚20万

人气排行 CPU天梯图2021年5月最新版 CPU性能排行天梯显卡天梯图2021年5月最新版 显卡排行榜天梯蓝牙5.1和5.0有什么区别 蓝牙5.1规范一览主板天梯图2019最新版 2019年9月主板性能天小米手环支持什么手机 小米手环支持其他手机高通骁龙cpu排行天梯图2019 高通骁龙处理器天猫精灵怎么用 阿里天猫精灵使用体验cpu风扇怎么拆下来