您的位置:首页资讯软件新闻 → AI可以帮你做作业、写小说……但却栽在了“看时间”上!

AI可以帮你做作业、写小说……但却栽在了“看时间”上!

时间:2025/3/17 11:30:08来源:www.pc6.com作者:佚名我要评论(0)

3月17日 消息:如今,人工智能能够生成栩栩如生的图像、写小说、帮你完成家庭作业,甚至还能预测蛋白质结构。然而,一项新的研究却表明,它在一项非常基础的任务上常常栽跟头 —— 看时间。

爱丁堡大学的研究人员测试了七款知名的多模态大言模型的“识时”能力 —— 让它们根据不同的时钟或日历图像回答与时间相关问题。

他们的研究将于 4 月正式发表,不过,目前已经在科研共享平台 arXiv 上发布了,该研究表明,这些大型语言模型在这种基础任务上“变成智障”了。

研究人员在研究中写道:“从视觉输入中解读时间并进行推理的能力,对于许多现实世界的应用至关重要 —— 从事件安排到自动驾驶系统等领域皆是如此。尽管多模态大语言模型(MLLMs)取得了进展,但大多数研究工作都集中在目标检测、图像描述或场景理解等方面,对时间推理的探索仍不够充分。”

本次测试的对象包括 OpenAI 的 GPT-4o 和 GPT-o1、谷歌 DeepMind 的 Gemini 2.0、Anthropic 的 Claude 3.5 Sonnet、Meta 的 Llama 3.2-11B-Vision-Instruct、阿里的 Qwen2-VL7B-Instruct、以及 ModelBest 的 MiniCPM-V-2.6。研究人员向这些模型输入了不同的模拟时钟图片(这些图片中的时钟或带有罗马数字、或有不同的表盘颜色,有些则没有指针)、以及十年来的日历图片等。

AI chatGPT 人工智能

向这些大模型上传时钟图片的同时,还会提出问题:上传图片中的时钟显示的时间是多少?而对于日历的图片,研究人员则会提出一些简单的问题,比如:元旦是星期几?以及一些较难的问题,诸如:一年中的第 153 天是哪一天?

“读取模拟时钟的时间和理解日历涉及到复杂的认知步骤”,研究人员解释说,“这需要进行精细的视觉识别(例如,时钟指针的位置、日期单元格的布局),以及不简单的数值推理(例如,计算日期偏移量)”

总而言之,这些AI模型的表现很不理想 —— 它们正确读取模拟时钟时间的概率不到 25%。研究人员表示,无论是带有罗马数字和风格化指针的时钟,还是没有指针的时装,它们的表现都不甚理想。

在最终的测试结果中,谷歌的Gemini 2.0 在时钟测试中表现最 好,而 GPT-o1 在日历任务上准确率为 80% —— 比竞争对手都要好。这也意味着, 即使最出色的AI大模型,错误率也高达 20%。

这项研究的共同作者、爱丁堡大学信息学院的博士生 Rohit Saxena 在一份学校声明中表示:“大多数人从小就会看时间和日历。我们的研究结果凸显了 AI 在执行对人类来说相当基础的技能方面存在的显著差距。如果要将 AI 系统成功集成到对时间敏感的现实世界应用中,比如日程安排、自动化和辅助技术等领域,就必须解决这些不足。”

所以,AI 或许能够帮你完成家庭作业,但别指望它能按时完成任务,至少现在还是这样。


相关阅读 可灵AI上线DeepSeek灵感版:用户能轻松生成专业化提示词AI机器人成骚扰电话“帮凶”!工信部连夜部署查处3·15晚会曝光问成本5000块的AI短剧,正在破土!AirPods或推出实时翻译功能:苹果预计今年晚些时候发布OpenAI最新15页报告:DeepSeek缩小,中美AI竞争差距从思考,到行动:由Manus爆火谈AI Agent网民利用AI生成明星“澳门赌博输10亿”谣言被拘留竞逐AI Agent时代

文章评论
发表评论

热门文章 华为首款半开放悦彰耳百度史上最好!文心大啄木鸟再回应被315点名支持麒麟990、龙芯3A6

最新文章 与辉同行退一赔三 东方AI可以帮你做作业、写 华为首款半开放悦彰耳机!华为FreeBuds 6宣成本5000块的AI短剧,正在破土!百度史上最好!文心大模型4.5/X1正式发布:RTX 50缺货乱象:装机商自曝被割韭菜、玩家

人气排行 2020年放假安排时间表全年图 2020年法定节假2021年放假安排时间表全年图 2021年法定节假微信公众号怎么申请 微信公众号申请要钱吗zune怎么用?zune使用攻略!2014台式机装机配置推荐微信朋友圈三天可见怎么破解 朋友圈仅展示三snmp协议在windows下的安装与配置2016猴年邮票多少钱一套 2016猴年邮票价格表