天天速讯:GPT-4满分通过MIT本科数学考试?它“作弊”了
本文来自微信公众号:大数据文摘(ID:BigDataDigest),作者:Caleb,原文标题:《GPT-4满分通过MIT本科数学考试!却遭同门质疑“作弊”,数据集本身就有问题》,题图来自:《梅根》
这两天,相信大家都被GPT-4满分轻松拿下MIT本科数学考试的事儿给刷屏了。
给不知情的小伙伴们说一下,这次的测试是MIT、波士顿大学和康奈尔大学的研究团队共同根据MIT所有获得学位所需的数学、电气工程和计算机科学课程整理出4550个问题。
(资料图)
参与测试的AI模型有GPT-3.5、GPT-4、StableVicuna-13B、LLaMA-30B和LLaMA-60B。结果嘛,可想而知,GPT-4满分通过,但GPT-3.5却只做对了三分之一。
论文链接:https://huggingface.co/papers/2306.08997
这样的结果自然也是吸引到了众多网友的讨论,在网友们的一众惊呼声中,三位同样来自MIT的学生却发现了其中端倪。
揭开“网骗”GPT-4的面纱
在6月16日发现这篇论文后,三人决定深入挖掘一下。但是一小时内,他们对论文的方法论产生了怀疑。不到两个小时,他们意识到,数据集本身是有问题的。
论文中写到,研究人员“在没有图像和有解决方案”的问题中随机选择了288个问题的测试集。这个数据集(不包括用于微调开源LLM的训练集)也随着论文的发布被开源到了GitHub上,以及用于生成报告测试性能代码。
然而,Drori教授却删除了这个项目。
他们目前针对此发布了该测试集的注释副本:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit#gid=1598949010
三人也表示,他们确信这个文件代表了论文中分析的测试集,因为评估代码中所有数据的文件路径都指向它,没有提供任何修改其内容的代码,而且在最初发布的GitHub仓库中也是可用的。此外,该文件也满足论文中规定的所有模式要求。
这些证据似乎非常有力地支持了一个主张,那就是:这个文件有可能被换成了一个用于测试的不同文件。如果是这样的话,证明责任在于作者公开发布这个数据和用它做的所有分析。
于是,他们开始检查各个数据点。
很快就发现,数据集中至少有10个问题是无法用提供的信息解决的,也就是说,根本不可能出现满分的情况。除此之外,还有几个问题在这个给出的背景下根本就不是有效的问题,这样的题目至少占了4%。
除了问题本身存在争议外,他们还发现,在所检查的288个问题中,有14个是重复的,在这些情况下,问题串之间的唯一区别是极小的字符级噪音,或者完全相同。
鉴于此,GPT-4能够获得满分不得不令人怀疑。得出这样的结果要么是在某个阶段将解决方案泄露到了提示中,要么是问题没有被正确评分。
这也促使他们进一步调查。最终发现,其实两边都占了。
它在演示一种更高级的“作弊”
在这里,还需要简单解释一下论文中提到的“小样本示例”(few-shot examples)。简而言之,研究人员对OpenAI嵌入的数据集内的类似问题进行余弦相似度搜索,并将这些问题和解决方案作为额外的背景纳入模型的提示,以帮助模型解决问题。这本身没什么问题,只要给出的例子和问题存在足够大的差异,以便不暴露不公平信息。
但是在随机扫描已发布的测试数据集时,他们注意到一些奇怪的事情。许多提供给模型的小样本示例几乎与问题本身一字不差,这种重叠情况可以用柱状图来表示:
也就是说,模型得到的是问题的答案或与问题非常相似的问题。通常情况下,这来自于很多有类似背景的问题被反复提问。
在他们看来,为了正确评估GPT的解题能力,“多部分问题”(multi-part questions)的其他部分应该被完全排除在某一问题的小样本示例外。事实上,他们还发现,这些多部分问题的解决方案往往直接提到或给出模型被要求解决的另一部分问题的解决方案。
而在评分上,根据开源的打分机制中,他们也发现了一些问题。
比如流程是如何处理分级的。事实上,研究人员是利用GPT-4来打分的,包括原始问题、解决方案,和GPT自己的答案,作为分级提示的参数。
在其他技术领域,GPT更有可能出现隐性误解,这种自动评分也就更有可能出现自我安慰的结果。
此外,虽然prompt级联是最近许多GPT论文中常见的技术,但这里有大量数据泄露的可能性。每一级不仅提供基于基础事实的二元信息,而且还在prompt,直到达到正确答案。
虽然这些创建的prompt没有看到实际的解决方案,但重新prompt正确答案直到达到正确答案的二进制反馈是足够的,尤其是在占测试集16%的多选题中,无限地尝试保证了正确的答案。
这就好比有人拿着答题纸告诉学生他们是否得到了正确的答案,直到他们得到答案。
在戳破这层假象后,他们在数据集上完成了零样本GPT-4的运行,对数据的前30%进行了手动评分,结果与原论文可以说是“天壤之别”。
语言模型还不能被当作产生基础真理的神谕
最后,三人表示,他们目前提出的问题只是几个小时的审查中发现的最明显的问题,后期随着更多人更仔细的审查,会发现更多的漏洞。
他们也鼓励读者下载数据集,自己检查,毕竟只有通过了同行评估,才能得到最终肯定。
同时,他们也写到,他们对数据分析方法的完整性的观察是令人担忧的。这篇论文道出了最近人工智能研究的一个更大趋势:随着该领域的进展越来越快,研究时间线似乎在缩短,这其中就不可避免地存在走捷径的行为。
一个特别令人担忧的趋势,是使用像GPT-4这样基于语言的模型来评估另一个模型的准确性的技术。虽然它是一个有用的工具,但结论绝不应该被夸大,也不应该被当作真理。
最近有论文就写到,如果没有准确的真实信息,GPT-4的验证并不可靠。至少,应该选择一个随机的数据集子集,将GPT-4的性能与人类的对应物进行比较。语言模型还不能被当作产生基础真理的神谕。
此外,在使用数据之前,无论是用于训练、推理、基准测试还是其他方面,重新评估每一个数据点并进行基本的理智检查是极其重要的。鉴于有关数据集的规模较小,简单的人工验证很容易在工作范围内完成。
有网友在推特上打趣地说:“这是LLM和作者推荐必吃的甜点,如果你赶时间,让GPT-4预测以下哪种味道最好。”
看来,关于GPT的相关研究和衍生风波,都还会持续再刮一阵子。
参考资料:https://flower-nutria-41d.notion.site/No-GPT4-can-t-ace-MIT-b27e6796ab5a48368127a98216c76864#c49f4b29e01745de9bf1ffdf2170b067
本文来自微信公众号:大数据文摘(ID:BigDataDigest),作者:Caleb
标签:
天天速讯:GPT-4满分通过MIT本科数学考试?它“作弊”了
2023-06-19
迪士尼业务收入下滑严重,首席财务官麦卡锡宣布离职
2023-06-19
每日动态!我的小孩在校外被殴打,我气不过冲上去打了那个小孩两巴掌,现在小孩家长报警了
2023-06-19
东莞公布环卫企业信用评价结果!8家企业拟获“差评”
2023-06-19
世界热头条丨中国平安“港币-人民币双柜台”正式启用 股份代号:82318.HK
2023-06-19
荣获成都市一等奖!大邑县北街小学科学教师勇创佳绩 天天微速讯
2023-06-19
浣熊帮帮忙番外txt(浣熊帮帮忙txt)_当前看点
2023-06-19
摇心愿过了时间还能领奖励吗 摇心愿摇到一个还能再摇吗
2023-06-19
2023年中国工控机(IPC)行业市场前景展望
2023-06-19
当前要闻:人民网评:点亮网络文明之光
2023-06-19
迪士尼业务收入下滑严重,首席财务官麦卡锡宣布离职
每日动态!我的小孩在校外被殴打,我气不过冲上去打了那个小孩两巴掌,现在小孩家长报警了
东莞公布环卫企业信用评价结果!8家企业拟获“差评”
世界热头条丨中国平安“港币-人民币双柜台”正式启用 股份代号:82318.HK
荣获成都市一等奖!大邑县北街小学科学教师勇创佳绩 天天微速讯
浣熊帮帮忙番外txt(浣熊帮帮忙txt)_当前看点
摇心愿过了时间还能领奖励吗 摇心愿摇到一个还能再摇吗
2023年中国工控机(IPC)行业市场前景展望
当前要闻:人民网评:点亮网络文明之光
宠粉!文班亚马在一件马刺1号球衣上为球迷签名-世界观速讯
环球速讯:cad如何打印黑白图纸_cad怎么打印黑白图纸
《奇迹暖暖》奇妙博物馆天琴座答题答案攻略
拒绝过度包装 制止舌尖浪费 市场监管部门开展端午节前检查
去哪儿飞机票查询网(已买飞机票查询)
柏林站:中国金花王欣瑜战胜美国选手,两连胜挺进正赛
每日速看!竞聘岗位演讲稿开头和结尾_竞聘岗位演讲稿
追求实用和性价比就选紧凑型MPV,瑞风M3 PLUS智联版入手不亏
绿色的寓意象征意义_绿色代表的寓意_全球最资讯
当前聚焦:车险买哪几种险就够了_车险介绍
广宇发展:融资净买入361.98万元,融资余额5.11亿元(06-16) 环球最新
全球关注:促消费加力、“小而美”破圈……“618”购物节盘点
Scotto:独行侠有意格兰特-威廉姆斯与哈里森-巴恩斯
“618”遇上节日消费 线上购物凸显新亮点|世界时快讯
【天天速看料】新疆“网红公路”结束“冬眠” 今日全线通车
要闻速递:岳麓峰会的“神级预言”,在长沙成真了!
【世界独家】通信公司配送员竟用客户信息多开手机卡出售牟利,被判刑并“从业禁止”三年
萱萱广场舞圣洁与你同在背面教学百度 萱萱广场舞 环球要闻
22499元!ROG枪神X电竞游戏主机开售:13代酷睿i9处理器+RTX4080|环球短讯
中科创达:魔方Rubik大模型已与车厂客户合作|环球热门
- 高端化、智能化、绿色化不断深入 我国高技术制造业持续快速增长
- 酥咔特膳减肥是真是假-酥咔
- 西瓜视频电脑版下载_泥土的清香西瓜视频 全球独家
- 手机qq邮箱下载的文件在哪里找到(手机qq邮箱下载的文件在手机哪个文件夹) 焦点速看
- 小型家用储水压力罐安装视频(农村压力罐安装示意图)-世界短讯
- 总投资14.5亿元 南方电网南方能源大数据中心落地贵安新区
- 中国新能源汽车最大的问题,是个个车企往中高档车跑,没有搞好“国民车” 全球时快讯
- 【环球聚看点】奇妙“父子”组合!儿子跑太快,父亲只能带着朋友孩子冲线
- 焦点速递!车载空间正成为网络文艺新的传播场景
- 信用卡的钱还不上怎么办?信用卡逾期了利息高不高? 环球聚焦
- 全球聚焦:华为张顺茂:共建工业智能体 推进工业新四化
- 【速看料】27支龙舟队雨中竞渡 2023年中国龙舟公开赛(荆州站)开幕
- 天天热文:大人湿疹图片_成人湿疹怎么治疗
- NBA顶流!哈登下家引热议,76人力争续约,或为总冠军殊死一搏
- tgv官网(tgv) 环球时讯
- 凶神宜忌是什么意思(凶神宜忌是什么意思死气)
- 环球速读:巴西南部龙卷风灾害死亡人数升至5人
- 回暖信号?多位知名基金经理最新官宣
- 我们来了第三季阵容名单(我们来了第三季)
- 焦点快报!鼠标滚轮上下滚动不灵_鼠标滚轮上下不灵敏
- 驾驶证换证时间前后多少天有效_驾驶证换证时间前后多少天 环球新动态
- 是鼠是鸭真相大白,相关方该担何责? 头条焦点
- 百事通!夏天,你永远可以相信“阔腿裤”,4种搭配组合,又美又飒!
- 每年投资超20亿元!马克龙最新宣布!提及这两家公司
- 京东战略携手森海塞尔消费电子产品业务,共推重磅新品
- 指鼠为鸭,责任人要担什么法律责任?|说·法_每日快播
- 世界最资讯丨魏牌“大六座”蓝山抢镜大湾区车展
- 东芝2.5英寸黑色甲壳虫USB3.01.5TB|观速讯
- 小米10pro如何读取u盘
- 今日观点!商务部王受文:将推出自贸试验区和全国范围内的跨境服务贸易负面清单
- 墙面选择什么装修材料_如何选择好的墙面装修材料
- 中期检查表模版 中期检查表怎么填
- 环球信息:清运时间提早了6个多小时,他们说“值得”!
- 微软翻译如何打开照相机 微软翻译拍照翻译方法
- 梅西80秒破门+踢满全场!阿根廷工体热身2-0澳大利亚 最快进球-要闻速递
- 新疆伊犁香精产业谋升级:国内外专家齐聚“闻香识产业” 全球观天下
- 乐陶陶
- 第十五届海峡论坛大会在厦门举行
- 全球微速讯:T3出行崔大勇回应网约车饱和:2023年行业增速将超15%
- 当前观察:【影之诗F】对本期官方综艺节目里出现的监督采访环节进行简单听译
- 春夜喜雨的诗意简短(春夜喜雨的诗意赏析)
- 全球速读:U17国足亚洲杯首战打平,杨晨点赞队员精神面貌
- 趣味运动会中get消防小技能
- 淘宝投诉了怎么撤销_淘宝投诉怎么撤销
- 海贼王豆豆(海贼王土豆)
- 星途和捷途,一个负责貌美如花,一个负责赚钱养家!
- 工作流技术网(工作流技术) 独家
- 学籍辅号啥意思_学籍辅号是不是就是学籍号
- 20只兔子_20z
- 看重中国市场长期潜力 ——访嘉吉公司亚太区总裁安博泰_当前速读
