GPT-3、ChatGPT和GPT-4，一起做脑筋急转弯-当前视讯

发布日期：2023-06-27 20:56:56 来源：虎嗅网

本文来自微信公众号：夕小瑶科技说（ID：xixiaoyaoQAQ），作者：python，题图来自：《梅根》

一个烙饼煎一面一分钟，两个烙饼煎两面几分钟？

(相关资料图)

让你来回答，是不是一不小心就掉到沟里了？如果让大语言模型来做这种脑筋急转弯会怎样呢？研究发现，模型越大，回答就越可能掉到沟里，即使是拥有千亿参数的大模型也不能幸免。但是ChatGPT却能很好回答这些问题。让我们一起来看看吧。

论文题目: Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language Models—and Disappeared in GPT-4

论文链接: https://arxiv.org/pdf/2306.07622.pdf

脑筋急转弯

作者采用了CRT（Cognitive Reflection Test）数据作为脑筋急转弯的测试数据。该数据在心理学领域，广泛地被用于衡量人类的思维习惯，判断是否习惯于直觉思维。

脑筋急转弯数据示例

如上图所示，作者探索了3种CRT数据和1种语言逻辑陷阱。例如：

CRT-1：苹果和梨花了1块1，苹果比梨贵1块，问梨花了多少钱？直觉答案：0.1块 = 1.1-1，正确答案：0.05块。

CRT-2：5个人种5棵树花5分钟，10个人种10棵树花多少分钟？直觉答案：10分钟，正确答案：5分钟。

CRT-3：培养皿中的细菌每分钟扩增一倍面积，48分钟可以填满，问填满一半要多久？直觉答案：24分钟，正确答案：47分钟。

语言逻辑陷阱：刚上小学的小红去参加高考，她会考几科？直觉答案6科，正确答案：小学生不参加高考。

模型表现

模型表现如下图所示，可以看到模型较小时（从117M GPT-1 到2.7B GPT-Neo），随着模型增大，模型回答正确答案（绿色）和直觉答案（红色）的比例在提高，回答无关答案（黄色）的比例在下降。

但随着模型进一步增大（从2.7B GPT-Neo 到 175B GPT-3），无关答案比例进一步下降，直觉答案比例进一步上升，正确答案比例却不升反降。包括BLOOM、LLAMA、GPT-3在内的大语言模型明显掉入脑筋急转弯的陷阱。即使是经过指令调整与RLHF的text davinci-002/003也未能幸免。

不同模型表现对比

而在上图中，经过指令调整的ChatGPT与GPT-4，一下子正确答案的比例就高了许多。究竟是什么魔法使得ChatGPT的脑筋会转弯呢？我们不得而知。

下图具体对比了GPT-3（text davinci-003，左）、ChatGPT（中），GPT-4（右）在几类不同的脑筋急转弯的表现，可以更加凸显上述现象。

不同脑筋急转弯类型上的模型表现对比

如果改换输入形式会怎样？下图上为问答的形式，和上面的实验相同。下图中、下分别为多选、续写的形式。可以看到，修改提问形式之后，正确率略有上升，但整体差别不大。

下图显示，通过少监督展示学习，GPT-3的正确率会有所上升。但即使展示到40个左右的样本，准确率和无监督的ChatGPT相比仍有差距，更不用说GPT-4了。

结论

这篇论文针对很有意思的一类问题（脑筋急转弯），发现了大语言模型的一个很有意思的现象。作者也尝试了多种方法，但无论是改变提问形式还是增加监督数据，GPT-3（text davinci-003）在脑筋急转弯上的表现仍然难以达到ChatGPT的水平。究竟ChatGPT使用了怎样的魔法让模型的脑筋会转弯呢？

本文来自微信公众号：夕小瑶科技说（ID：xixiaoyaoQAQ），作者：python

标签：

上一篇:全球消息！交警手势大全图片及解释（交警手势大全） 下一篇:全球消息！交警手势大全图片及解释（交警手势大全）

GPT-3、ChatGPT和GPT-4，一起做脑筋急转弯-当前视讯

微信扫一扫：分享

GPT-3、ChatGPT和GPT-4，一起做脑筋急转弯-当前视讯

GPT-4一骑绝尘

报道：江西南昌对1000个以上物业小区进行监督检查

为建立健全物业服务管理监督机制，推动物业服务更加规范有序，近日，江

关注“6·26”国际禁毒日丨禁毒民警杜宇：愿为禁绝毒品隐姓埋名，舍生忘死

川观新闻记者伍力戴着眼镜，相貌斯文，第一眼看到成都市公安局禁毒支队

全球速递！rpc服务器不可用怎么解决? rpc服务器不可用怎么办？

打开“运行”窗口，可以按“Win+R”以快速打开“运行”窗口，输入“ser

世界微资讯！新音站_关于新音站简介

1、新音站（朝鲜文：신음역；新音驿）曾经为韩国铁路庆全线上的一座临

水果拼盘的接法?

1、准备材料要想学会荷花的水果拼盘怎么做，准备材料就是其中的第一步

购房合同中甲方违约怎么办？

1、甲方因不能提供本合同约定的房屋而解除合同的，应支付乙方本合同月

全球消息！交警手势大全图片及解释（交警手势大全）

1、停车信号：交警左臂向前上方伸直，手掌向前；右臂沿着裤子的中间缝

2022~2023年河北省养老金调整方案新消息和河北养老金计算公式方法（全文）_天天新资讯

2023年养老金调整迎来好消息！2023年退休人员养老金已进行调整，并且下

【全球速看料】吐鲁番：葡萄架下百业兴

吐鲁番：葡萄架下百业兴

逆水寒手游预约奖励在哪领取 公测官方预约奖励领取方法分享[多图]

逆水寒手游预约奖励在哪领取公测官方预约奖励领取方法分享,逆水寒手游

环球焦点！IMF俄罗斯执行董事：美国一手造成全球“去美元化”

俄罗斯驻国际货币基金组织（IMF）执行董事阿列克谢·莫任接受俄罗斯媒

【环球快播报】乌拉斯台口岸前沿区建设项目顺利通过交工验收

中国昌吉网讯（记者刘辉、通讯员俞博泷报道）近日，乌拉斯台口岸前沿区

红烧鸡翅中家常做法王刚?|环球即时

1 先把食材准备好。准备适量的鸡翅，油，盐，料酒，花椒油，一块姜，一

两当好风景 徐徐入画来——两当县全域旅游发展纪实

孟夏时节，走进两当大地，从山环水绕的园林小城，到移步换景的美丽乡村

胡锡进称自己已开一个股票账户 股民：要在3000点半山腰陪伴散户一起站岗？李大霄的强力竞争对手来了！_每日快看

对此，有股民表示很好奇，胡锡进到底会投入多少钱。不过话说回来，老胡

福特董事长坦言美国无法与中国电动汽车竞争|速讯

中国电动汽车市场不仅已经成为全球发展最成熟、完善的市场之一，还在汽

当前通讯！记者：巴黎还未收到皇马任何报价，仍坚持姆巴佩要么续约要么出售

直播吧6月27日讯据科贝电台记者PedroMorata报道，目前巴黎还未收到皇马

第20届完美百城千店万人献血活动迁安举办

近日，由唐山迁安市血站和完美河北分公司共同举办的第二十届完美百城千

马斯克获得2023年度世界航天最高奖 环球热资讯

国际宇航联合会官网近日公布，SpaceX公司创始人埃隆·马斯克获得2023年

“回到中国是一种巨大的愉悦和惊喜”时隔四年 这场经济盛会重归线下_环球速看料

“回到中国是一种巨大的愉悦和惊喜”时隔四年这场经济盛会重归线下---

gensee多媒体播放器怎么更新 gensee多媒体播放器

1、从你的现象看，可以肯定是软故障，建议按照以下来试试：1 声音播放

调查报告：中国公众普遍具备较强环境行为意愿 世界快报

中新网6月27日电题：调查报告：中国公众普遍具备较强环境行为意愿中新

柳钢股份：6月26日融资买入16.62万元，融资融券余额6991.47万元 世界观焦点

6月26日，柳钢股份（601003）融资买入16 62万元，融资偿还49 24万元，

湖北省改名不太成功的7个市县以及改名最成功的两个市县都是谁

竟陵县后来还被作为郡治传承下来，在此后至今的1500年里按说将竟陵这个

高温天气刺激电力需求 电力板块昨逆市上涨逾2%

科创板股上半年业绩提前看 4股净利润增逾50%_热闻

72岁仍干劲十足！TVB男星自豪36岁女友年轻美貌！称要看紧点 世界播报

当前消息！一律所发布“拒聘川大学生”通告后删除，川大回应

全球观速讯丨如果买15万级大五座家用SUV，为什么首选长安UNI-K？

兰州住房公积金管理中心结息期间暂停业务办理 当前热点

【世界报资讯】怎么办理去香港的签证？都需要什么资料？

传南京晓庄学院党委副书记杨某与他人妻子长期保持不正当男女关系

今日热讯：王三毛：创作过程是与自己“战斗”

关注：砸自己的脚？美国最新调查：新冠病毒不是人为泄露的

焦点快看：山东齐河：种好高质量发展“高产田”

工信部已认定“专精特新”中小企业超8万家 将实施“专精特新”中小企业上市培育工程 全球观点

路由器上mac地址是什么意思（无线路由器的MAC地址是什么意思）

srclient.dll丢失（srclient dll）

世荣兆业收到原董事长梁家荣密切关系人刘亚非的反诉诉状 今日播报

这家航司将飞行员工资提高了40%

3999元起！vivo X90s手机发布：换装天玑9200+、支持Wi-Fi 7 热点聚焦

【天天报资讯】开源中国获7.75亿元B+轮战略融资，天际资本领投

战火与永恒怎么攻城 战火与永恒实用进攻方法分享

世界互联网大会尼山对话举行 周鸿祎称用360智脑可复刻“孔子”助文旅推广 全球头条

男孩负气“离家出走” 开平警方解心结助其回家

斯通抄底本-西蒙斯！火箭、篮网酝酿1换4交易，小波特价值大涨？

天天热议:中国武夷：与坦桑尼亚公路局签约5.1亿元公路项目

《计算机上传图纸小步骤_送给领导的小礼物话术》：如何利用电脑快速上传绘图，让你成为团队里的技术达人！

每日视讯：三岁可以吃肉松酥吗?

人民币对美元汇率跌破7.2关口，何时才能重回“7”以下？-焦点

金辉控股（09993.HK）：6月26日南向资金增持1.3万股|每日热文

当前速读：个人贷款350000还不上要怎样办

逆水寒手游预约奖励在哪领取公测官方预约奖励领取方法分享[多图]

两当好风景徐徐入画来——两当县全域旅游发展纪实

胡锡进称自己已开一个股票账户股民：要在3000点半山腰陪伴散户一起站岗？李大霄的强力竞争对手来了！_每日快看

马斯克获得2023年度世界航天最高奖环球热资讯

“回到中国是一种巨大的愉悦和惊喜”时隔四年这场经济盛会重归线下_环球速看料

调查报告：中国公众普遍具备较强环境行为意愿世界快报

柳钢股份：6月26日融资买入16.62万元，融资融券余额6991.47万元世界观焦点

高温天气刺激电力需求电力板块昨逆市上涨逾2%

72岁仍干劲十足！TVB男星自豪36岁女友年轻美貌！称要看紧点世界播报

兰州住房公积金管理中心结息期间暂停业务办理当前热点

工信部已认定“专精特新”中小企业超8万家将实施“专精特新”中小企业上市培育工程全球观点

世荣兆业收到原董事长梁家荣密切关系人刘亚非的反诉诉状今日播报

战火与永恒怎么攻城战火与永恒实用进攻方法分享

世界互联网大会尼山对话举行周鸿祎称用360智脑可复刻“孔子”助文旅推广全球头条

香港首富李嘉诚：住30亿别墅，安保每年花10亿，94岁仍满头黑发世界播资讯

金陵药业(000919.SZ)特定股东福州投资公司共减持191.63万股减持期满焦点热文

全球速递！多地开展禁毒宣传活动提高大众识毒、防毒、拒毒能力

在陪伴中快乐成长在游戏中插上创造力的翅膀

成人高考毕业证可以考乡村医生吗_成人高考毕业证有用吗世界聚看点

车主自己训练常用路线五菱『记忆行车』解析

逐梦人生新起点，随申服务相伴启航来“随申办”解锁高校毕业生便利服务