世界要闻：算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

2023-06-06 12:02:24 来源：个人图书馆-天承办公室

新智元报道

(资料图)

编辑：LRS

【新智元导读】语言模型终于会乘除法了！

大规模语言模型虽然在各大自然语言处理任务上都展现了优越的性能，不过算术类题目仍然是一大难关，即便是当下最强的GPT-4也很难处理基础运算的问题。

最近，来自新加坡国立大学的研究人员提出了一个专供算术的模型山羊Goat，在LLaMA模型基础上微调后，实现了显著优于GPT-4的算术能力。

论文链接：/pdf/2305.14201.pdf

通过对合成的算术数据集进行微调，Goat在BIG-bench算术子任务上实现了最先进的性能，

Goat仅通过监督微调就可以在大数加减运算上实现近乎完美的准确率，超越了之前所有的预训练语言模型，如Bloom、OPT、GPT-NeoX等，其中零样本的Goat-7B所达到的精度甚至超过了少样本学习后的PaLM-540

研究人员将Goat的卓越性能归功于LLaMA对数字的一致性分词技术。

为了解决更有挑战性的任务，如大数乘法和除法，研究人员还提出了一种方法，根据算术的可学习性对任务进行分类，然后利用基本的算术原理将不可学习的任务（如多位数乘法和除法）分解为一系列可学习的任务。

通过全面的实验验证后，文中提出的分解步骤可以有效地提升算术性能。

并且Goat-7 B可以在24 GB VRAM GPU上使用LoRA高效训练，其他研究人员可以非常容易地重复该实验，模型、数据集和生成数据集的python脚本即将开源。

会算数的语言模型

语言模型

LLaMA是一组开源的预训练语言模型，使用公开可用的数据集在数万亿个token上进行训练后得到，并在多个基准测试上实现了最先进的性能。

先前的研究结果表明，分词（tokenization）对LLM的算术能力很重要，不过常用的分词技术无法很好地表示数字，比如位数过多的数字可能会被切分。

LLaMA选择将数字切分为多个token，确保数字表示的一致性，研究人员认为，实验结果中表现出的非凡算术能力主要归功于LLaMA对数字的一致性分词。

在实验中，其他微调后的语言模型，如Bloom、OPT、GPT-NeoX和Pythia，无法与LLaMA的算术能力相匹配。

算术任务的可学习性（Learnability of Arithmetic Tasks）

之前有研究人员对使用中间监督解决复合任务（composite task）进行了理论分析，结果表明这种任务是不可学习的，但可以分解为多项式数量的简单子任务。

也就是说，不可学习的复合问题可以通过使用中间监督或逐步思维链（CoT）来学习。

在此分析基础上，研究人员首先对可学习和不可学习任务进行实验分类。

在算术计算的背景下，可学习任务通常是指那些可以成功训练模型以直接生成答案的任务，从而在预定义数量的训练epochs内实现足够高的精度。

不可学习的任务是那些即使经过广泛训练，模型也难以正确学习和生成直接答案的任务。

虽然任务可学习性变化背后的确切原因尚不完全清楚，但可以假设这与基本模式的复杂性和完成任务所需的工作记忆大小有关。

研究人员通过在简化的合成环境中专门针对每个任务微调模型来实验检查这些任务的可学习性。

可学习的和不可学习的任务

任务分类的结果也与人类的感知相同，通过实践，人类可以在脑海中计算两个大数字的加法和减法，无需手算的情况下，可以直接从左（最高有效数字）到右（最低有效数字）写下最终的数字答案。

不过心算解决大数乘法和除法是一项具有挑战性的任务。

还可以观察到，上述对任务的分类结果与GPT-4的性能也一致，特别是GPT-4擅长为大数加法和减法生成直接答案，当涉及到多位乘法和除法任务时，准确性会显著下降。

像GPT-4这样强大的模型无法直接解决不可学习的任务，也可能表明，即使经过广泛的训练，为这些任务生成直接答案也是极具挑战性的。

值得注意的是，对于LLaMA来说是可学习的任务可能不一定对于其他LLM来说是可学的。

此外，并非所有被归类为不可学习的任务对模型来说都是完全不可能学习到的。

例如，两位数乘两位数被认为是一项不可学习的任务，但如果训练集中包含所有可能的2位数乘法枚举数据的话，模型仍然可以通过过拟合训练集来直接生成答案。

不过整个过程需要近10个epoch才能达到90%左右的准确率。

而通过在最终答案之前插入文中提出的CoT，该模型可以在1个epoch的训练后就可以在两位数乘法中实现相当不错的精度，也与之前的研究结论一致，即中间监督的存在有助于学习过程。

加法与减法

这两个算术操作是可学习的，仅通过有监督微调，模型就表现出了准确生成直接数字答案的非凡能力。

尽管模型只是在非常有限的加法数据子集上进行了训练，但从模型在未见过的测试集上实现了近乎完美的准确率上可以看出来，模型成功地捕获了算术运算的基本模式，并且无需使用CoT

乘法

研究人员通过实验验证了n位数乘1位数的乘法是可学习的，而多位数乘法则无法学习。

为了克服这个问题，研究人员选择在生成答案之前对LLM进行微调以生成CoT，将多位数乘法分解为5个可学习的子任务：

1. 抽取（extraction），从自然语言指令中抽取算术表达式

2. 拆分（split），将两者中较小的数拆分为place值

3. 展开（expansion），基于分配性展开求和

4. 乘积（product），同时计算每个乘积

5. 逐项相加（adding term by term），将前两项相加，复制其余项，得到最终和

其中每个任务都是可学习的。

除法

类似地，可以通过实验观察到n位数除以1位数是可以学习的，而多位数除法是不可学习的。

研究人员利用改进慢除法的递推方程，设计了一个全新的思维链提示。

主要思想是从被除数中减去除数的倍数，直到余数小于除数。

数据集

文章中设计的实验为两个正整数的加法和减法，每个正整数最多包含16位数字，并且减法运算的结果可能是负数。

为了限制生成的最大序列长度，乘法的结果为12位以内的正整数；两个正整数的除法中，被除数小于12位，商值6位数以内。

研究人员使用Python脚本合成了一个数据集，生成了大约100万个问答对，答案包含提出的CoT以及最终的数字输出，所有数字都是随机生成的，可以保证重复实例的概率非常低，不过小数字可能会被多次采样。

微调

为了使该模型能够基于指令解决算术问题，并促进自然语言问答，研究人员使用ChatGPT生成了数百个指令模板。

在指令调整过程中，从训练集中为每个算术输入随机选择一个模板，并微调LLaMA-7B，类似于Alpaca中使用的方法。

Goat-7B可以在24GB VRAM GPU上使用LoRA进行微调，在A100 GPU上仅花费大约1.5小时即可完成10万样本的微调，并实现近乎完美的精度。

实验结果

比较Goat和GPT-4在大量乘法和除法方面的性能似乎不公平，因为GPT-4会直接生成答案，而Goat则依赖于设计的思维链，所以在GPT-4评估时还在每个提示的结尾加入「Solve it step by step」

不过可以观察到，虽然GPT-4在某些情况下，长乘法和除法的中间步骤错了，但最终答案仍然是正确的，也就意味着GPT-4并没有利用思维链的中间监督来提高最终输出。

最终从GPT-4的解决方案中确定了以下3个常见错误：

1. 对应数字的对齐

2. 重复数字

3. n位数乘以1位数的中间结果错误

从实验结果中可以看插到，GPT-4在8D+8D和16D+16D任务上表现相当好，但在大多数16D+8D任务上的计算结果都是错误的，尽管直观上来看，16D+8D应该比16D+16D相对容易。

虽然造成这种情况的确切原因尚不清楚，但一个可能的因素可能是GPT-4不一致的数字分词过程，使得两个数字之间很难对齐.

参考资料：

/papers/2305.14201

世界要闻：算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

新智元报道(资料图)

【新智元导读】语言模型终于会乘除法了！

会算数的语言模型

实验结果

深圳：2023全市安排土整资金200亿元 计划安排新建土整项目36个

深圳：2023全市安排土整资金200亿元 计划安排新建土整项目36个

世界要闻：算数能力接近满分！新加坡国立大学发布Goat，仅用70亿参数秒杀GPT-4，起步支持16位数乘除法

深圳：2023全市安排土整资金200亿元 计划安排新建土整项目36个

湖南师大国际化师资再扩容：两名外籍高水平人才接连全职加盟

【世界热闻】民航局局长宋志勇会见国际民航组织秘书长萨拉萨尔

“电力指数”折射经济转型升级加快-讯息

天天速读：玉林里社区居民楼里的杂物有了好去处

电子驻车和手刹的区别视频_电子驻车和手刹的区别_焦点热闻

全球观点：云南西双版纳：4米长蟒蛇误闯派出所 消防员助民警捕获

【全球快播报】房企们退市之后，还剩什么？

深南电A：获悉深圳市2023年度土地整备计划

美国在馅饼下面挖了陷阱；出卖国家主权，莫迪是不会干的 当前看点

值得买：6月2日公司高管隋国栋减持公司股份合计5.2万股 世界即时看

2023江苏苏州市卫生健康系统长期招聘博士研究生专业技术人才考核成绩及进入体检人员名单公示|天天新资讯

世界热推荐：说一说中国古代最有权势的女人

绿联发布 T6 降噪蓝牙耳机：30 小时续航、蓝牙 5.3，售价 279 元

最新消息：调研安装空调 沧州职业技术学院提出增容变压器

焦点日报：高考期间 衡水天气晴到多云为主

血栓“惹祸”双目几近失明 眼科专家提醒：警惕不明原因的视力下降|观热点

国货“芯”潮 超值好价 京东618联合品牌放价 2TB SSD低至499元 世界今热点

讯息：盖伦怎么打蒙多（盖伦怎么打诺手）

现在一说金融市场放开，就一堆连最基本经济学都不懂的人出来唱反调 天天微头条

全球报道:武汉市副市长王清华接受审查调查

中国工程院院士邬贺铨：业界需要拓展5.5G-天天快资讯

环球百事通！山西汾酒：2023年营收力争同比增长20%左右

世界新资讯：全新宝马5系，和3系一样运动，和7系一样高级

甘南生态保护与建设取得重大成效：黄河径流量较10年前增加18.7％

四川创立信息科技有限责任公司_四川创立-天天看点

资讯推荐:一周热门项目动态: 0528-0603

长春中医药大学2023年硕士第一批次调剂部分学科考生成绩公示（一）

数学教学学习心得体会-每日热闻

浙文影业6月5日盘中涨停

公告速递：广发成长领航一年持有混合基金暂停机构投资者大额申购业务|天天播资讯

协和帮扶十三载 | 专家驻草原 百姓有“医”靠 环球时快讯

高考期间怎么吃？按时三餐很重要 精选

董圩村_关于董圩村的简介

盘点火影中以生命为代价的六大忍术，其中有两个都是为了救人！

：江淮瑞风M3怎么样及2018款博越怎么样

每日精选：申请书模板小学生_申请书模板

灵山县丰塘镇六颜小学志愿服务队_关于灵山县丰塘镇六颜小学志愿服务队介绍|当前热讯

杏鲍菇怎么做好吃（杏鲍菇怎么做） 看热讯

王者体谈丨世联赛第一站四战全胜，这是东京奥运后最好的中国女排_世界看点

【世界新要闻】更美好的事第五季（关于更美好的事第五季介绍）

焦点速看：eps电源货源_eps电源

超前止水带是什么意思_超前止水带_天天报资讯

天天速递！《奔跑吧11》在亚运场馆“开赛”

俄罗斯州长格拉德科夫称别尔哥罗德州持续遭袭 多人伤亡

全球最新：日本为何错失数字经济？

异地恋双人联机小游戏_双人联机小游戏

市场新主线：债务上限延后，美国发债潮要来了，“吸干”万亿流动性？_当前快播

反对餐饮浪费需标准先行 环球速看

天天观热点：运动减压迎高考，把握好这几点

会议标题中暨的前后两者是什么关系（会议中的暨是什么意思）|今日看点

全球微资讯！永州市行政审批服务局来蓝山调研指导优化营商环境工作

环球快消息！晚邮报：米兰老板下周将面见马尔蒂尼，谈论其未来以及转会问题

全球热文：公报显示2022年全国大气环境质量继续改善

【世界新视野】哈尔滨宠物美容师地址_哈尔滨宠物美容

环球微资讯！荧光绿英文_荧光绿

图穷匕见的故事视频_图穷匕见的故事

贵阳护理职业学院宿舍怎么样（贵阳护理职业学院宿舍）|天天热点评

回执编号查询 回执

多孩家庭购买改善型住房可否有贷款利率优惠、二胎家庭首付标准可否调整为“只认房”？央行上海总部回应

企业被收购拒付工资，法院为15名工人讨薪_当前速递

每日动态!和太阳“牵手”｜盐碱滩涂借光生“绿”

2021祝福祖国强大的句话图片_2021祝福祖国强大的句话

太极印怎么结_太极印

焦点讯息：体现主人翁意识的名言警句_如何体现主人翁意识

英语被动语态例句 英语被动语态 环球微头条

中国国际经济交流中心副理事长朱民：建议适时调整绿色金融融资结构 每日短讯

今日热讯：冻河豚肉的怎么烹饪?

织金县兴荣煤矿_兴荣村 贵州毕节织金县兴荣村 天天聚看点

搭载1.5TD发动机 吉利星瑞扶摇版将于6月18日上市 热点

3日唐山迁安部分普方坯资源涨30至3420含税出厂 全球热闻

环球通讯！李迅雷：破解地方债困局，需要中央政府投入“启动资金”

新智元报道

(资料图)

深圳：2023全市安排土整资金200亿元计划安排新建土整项目36个

深圳：2023全市安排土整资金200亿元计划安排新建土整项目36个

深圳：2023全市安排土整资金200亿元计划安排新建土整项目36个

全球观点：云南西双版纳：4米长蟒蛇误闯派出所消防员助民警捕获

美国在馅饼下面挖了陷阱；出卖国家主权，莫迪是不会干的当前看点

值得买：6月2日公司高管隋国栋减持公司股份合计5.2万股世界即时看

最新消息：调研安装空调沧州职业技术学院提出增容变压器

焦点日报：高考期间衡水天气晴到多云为主

血栓“惹祸”双目几近失明眼科专家提醒：警惕不明原因的视力下降|观热点

国货“芯”潮超值好价京东618联合品牌放价 2TB SSD低至499元世界今热点

现在一说金融市场放开，就一堆连最基本经济学都不懂的人出来唱反调天天微头条

协和帮扶十三载 | 专家驻草原百姓有“医”靠环球时快讯

高考期间怎么吃？按时三餐很重要精选

杏鲍菇怎么做好吃（杏鲍菇怎么做）看热讯

俄罗斯州长格拉德科夫称别尔哥罗德州持续遭袭多人伤亡

反对餐饮浪费需标准先行环球速看

回执编号查询回执

英语被动语态例句英语被动语态环球微头条

中国国际经济交流中心副理事长朱民：建议适时调整绿色金融融资结构每日短讯

织金县兴荣煤矿_兴荣村贵州毕节织金县兴荣村天天聚看点

搭载1.5TD发动机吉利星瑞扶摇版将于6月18日上市热点

3日唐山迁安部分普方坯资源涨30至3420含税出厂全球热闻

接神十五航天员回家空中分队搜索救援演练效果如何？

当前动态:乐坪街道开展“读时代新篇润廉洁初心”诵读活动

海绵城市透水铺装做法海绵城市透水铺装_每日速讯

《名侦探柯南》最新杂志封面引争议，网友怒喷青山刚昌不尊重女性观焦点

"大戏看北京"6月资讯：六一看大戏，端午赴会馆传统艺术之约即时看

速讯：波普：还需要再赢三场无论如何都要为之拼尽全力

今日热议：《温柔壳》于中国电影资料馆放映王沐尹昉在创作中感知世界

全球关注！苹果跨时代新品将见分晓高增长的混合现实概念股出炉