时间:2024/4/22 13:03:24来源:www.pc6.com作者:学臣我要评论(0)
4月22日 消息:在图表解析领域,由于样式、数值、文本等的多样性,存在着重大挑战。即使是拥有数十亿参数的先进大型视觉 - 语言模型(LVLMs)也难以令人满意地处理此类任务。
为了解决这一问题,研究团队提出了一种可靠的工具 OneChart,专门用于图表的结构提取。它捕获了图表标题、来源和对齐的数值数据等重要组成部分,并将它们输出为 Python 字典格式,可以有效地促进下游图表推理任务。
为了增强文本输出中的数值部分,研究团队引入了一个辅助标记以及一个额外的解码器。这个辅助标记允许后续的文本标记通过因果关注来捕获增强的数值特征。此外,借助一个辅助标记,他们设计了一个可靠的检查机制,在推断过程中通过提供生成内容的自一致性距离来确保输出的可信度。
此外,研究团队还提出了一个大规模的图表转换为字典的基准测试。这些图表涵盖了广泛的主题和类型,并包括英语和中文内容。实验证明,尽管只有2亿 参数,OneChart 在结构提取方面实现了最先进的性能。在缺乏数值标注的图表中,与次优方法相比,其平均精度(AP)提高了19.1% ~29.4%。作为图表解析代理,它还为下游的 ChartQA 基准测试带来了11.2% 的准确率增益,对于 LLaVA-1.6和 LLaVA-1.5分别提高了32.6% 和11.2%。
在传统的图表问答基准测试中,通常局限于从图表中查询小的、孤立的信息片段,例如单个数值,这可能无法有效地衡量模型提取和理解图表中呈现的全部数据的能力。相比之下,OneChart 旨在建立一个以结构提取(SE)任务为中心的基准测试,直接评估模型将图表图像转换为结构化 Python 字典表示的准确性。它包括五个数据集部分,其中一个是 ChartY-zh(2,048个样本),其他是 ChartQA-SE(1,509个样本)、PlotQA-SE(33,657个样本)、ChartX-SE(2,360个样本)、ChartY-en(4,000个样本)。
研究团队提出的 OneChart 在图表结构提取方面取得了令人瞩目的成绩,为解决图表解析中的挑战提供了新的思路和方法。
相关视频
相关阅读 长城大敌再临!比亚迪首款新能源皮卡命名“BYD SHARK ”59net必赢下载方法和评测汇总官翻Steam Deck半价出售三星承认One UI 6.1快速面板存在BUG,未来发布更新修复Ksport体在线登录下载方法和评测汇总大疆Avata2无人机震撼登场,Lexar存储产品荣登官方推荐英特尔全新神经拟态系统Hala Point,有望降低AI应用能耗,推进实下一站:武汉!Lexar雷克沙2024高校电竞挑战赛广州赛区圆满结束
热门文章 滴滴和优步合并了吗 优思源黑体:改变锤子手机发布会看点预TK域名免费注册及解析
最新文章
OneChart:仅2亿参数,OpenAI 在印度开始招聘
2024年一季度全球PC出货量增长3%,AI预计将“动态排版”技术Dynamic Typography 可将文Krea AI将推视频生成功能 界面更加简洁美观雷克沙全新产品阵容亮相NAB展,助力创作者开
人气排行 2020年放假安排时间表全年图 2020年法定节假2021年放假安排时间表全年图 2021年法定节假微信公众号怎么申请 微信公众号申请要钱吗zune怎么用?zune使用攻略!2014台式机装机配置推荐snmp协议在windows下的安装与配置微信朋友圈三天可见怎么破解 朋友圈仅展示三2016猴年邮票多少钱一套 2016猴年邮票价格表
查看所有0条评论>>