您的位置:首页精文荟萃网络评测 → 现在的大模型榜单,真就没一个可信的。

现在的大模型榜单,真就没一个可信的。

时间:2024/9/10 12:11:36来源:www.pc6.com作者:xy我要评论(0)

现在的大模型榜单上,真的都是水分。

全是作弊的考生,真的。

上周,AI圈有个很炸裂的大模型发布,在全网引起了山呼海啸,一众从业者和媒体尊称它为开源新王。

就是Reflection70B。

图片

在每项基准测试上都超过了 GPT-4o,还只用70B的参数,就击败了405B的Llama3.1,模型中还有一个叫「Reflection-Tuning」的技术,能让模型能够在最终回复之前,先识别自己有没有错误,如果有,纠正以后再回答。

图片

其实这个东西当时我就很存疑,因为在我的理解里,这玩意,就是个CoT,就是个纯Prompt,一个Prompt把70B模型直接带的螺旋升天?

你这玩意,真要是能做到,奥特曼就真的直接原地给你磕头了。。。

最关键的是,还有一个很离谱的点,这个模型就两个人做,而且,从一拍即合、到找数据集、到模型微调完成并正式发布,一共就花了3周。

这效率,这速度,直接卷的螺旋升天,国内大厂速度没卷到这个地步...

于是我就观望了几天。

直到昨天,发现这模型底都快被人扒掉了。

模型结果造假,提供给开发者的API,还是造假。

先是跑分评测上面,这是他们老板Matt自己发出来的跑分结果,勇夺第一

图片

看这个结果,你就说屌不屌吧,拳打Claude3.5,脚踢GPT-4o,还把Gemini1.5Pro和Llama3.1405B给摁在地上摩擦。

你很难想象这只是一个两个人花三周训的70B的模型能干出来的事。

直到7号,Artificial Analysis用他们自己的标准评测集跑了一通,发现这事不对啊,你这么多项评测集都登顶了,你应该很牛逼才对啊,这得分什么情况???

图片

他们是这么说的:

图片

“哥们,我们测完了咋感觉你比Llama3.170B更拉了呢?老实说,你是不是在骗兄弟们。”

Matt看到了以后,开始说卧槽不对劲啊,我们内部是好的啊,怎么你们测试结果这么烂?

图片

花了好半天,Matt终于说,哦是Hugging Face 权重出现了问题,我也不知道咋回事,你们等一等。

说完还不忘凡尔赛一下,说:

图片

翻译一下就是:我们是在太太太太火啦,你们再等等啊,乖

直到今天凌晨,最骚的事情来了,Matt说,我们终于解决了问题,开放了新的API。

图片

他们提供了一个私有接口,说这个才是Reflection70B完全体。

大家一测,卧槽,果然牛逼,牛逼炸了。

真的好像比GPT4o还有那些大厂的模型强哎。

就差点直接给Reflection70B开香槟了。

2个人,3周时间,创了AI行业的奇迹。

但是大家香槟刚开一半,就被生生的摁回去了。

大家发现,这个所谓的“Reflection70B”的API,怎么跟Claude3.5回复的东西,一模一样。。。


相关视频

    没有数据

相关阅读 OpenAI官宣ChatGPT用户破2亿,新模型比GPT-4强100倍!2024外滩大会:WDTA发布大模型供应链安全领域的国际标准现在哪个app可以玩德州手机在线安装下载方法和评测汇总2024现在哪个app可以玩德州手机和评测汇总2024微软用AI Agent生成2500万对高质量数据,极大提升大模型性能!现在哪个app可以玩德州手机和评测汇总2024检哈扑克牌的大小顺序图解和评测汇总2024腾讯推出新一代大模型“混元Turbo”,性能大幅提升,定价低 50%

文章评论
发表评论

热门文章 现在的大模型榜单,真父亲带娃骑行摔倒遭碾被打伤男子称将起诉逆女星曾黎自曝家中有15

最新文章 现在的大模型榜单,真一岁幼童学走路摔了一 月饼卖不动了 有代工厂做3休1:小型工厂订单女生离家3月暴瘦50斤父母满眼心疼:190多斤父亲带娃骑行摔倒遭碾压身亡 司机被捕家属愿当打假网红被打假

人气排行 pdf在线解密、解锁工具推荐win7黑屏怎么办 win7黑屏补丁ATM刷脸取款怎么使用 ATM刷脸取款步骤介绍谁最强大?百度与Google搜索功能比拼四款主流即时通讯软件2003新版评测Win7损伤笔记本电池寿命?如何查询是否被百度k绝地大反攻:邮箱防垃圾邮件功能评测