关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻13512人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用市场越广带来的优质数据也会越高,这样其实是能够实现双飞轮的运转,从而加速AIGC领域的成长。”黄民烈接着说道。
2月20日晚,MOSS发布至公开平台(https://moss.fastnlp.top/),邀公众参与内测。当晚,社交媒体上出现截图,显示该平台“服务器流量过载,请明天上午重试”。随后,该平台官网发布一则公告,解释称“计算资源不足以支持如此大的访问量”,“给大家造成非常不好的体验和第一印象”,并致以真诚的歉意。

复旦MOSS团队回应体验“非常不好”:距离ChatGPT还有很长的路。


在公告中,MOSS研究团队称,“MOSS只是想在百亿规模参数上探索和验证ChatGPT的技术路线,并且实现各种对话能力。”
那么AI对话技术发展到今天经过了哪些关键节点,当下的“技术路线”又是什么?
黄民烈解答道,回顾早期聊天机器人的对话,大部分都是基于规则的,第二代在技术上混合了一些规则和机器学习的方法。到了第三代,就是以Transformer为基本架构的大模型作为技术底座,实际上还是在一个新的神经网络架构下,结合大量的数据和算力优化去做到的,所以技术上有了显著的一些进步。由于对话本身就是在语言处理中最重要也是最难的任务,也就是最近一两年,才因为大模型的发展使得聊天机器人在性能上有接近人类的表现。
复旦大学计算机科学技术学院教授邱锡鹏此前在接受澎湃新闻采访时表示,“GPT-3的In-context learning是一个我觉得有变革性的范式。不再需要调参,给一些提示,就可以去做任务了。这个目前虽然说质量并没有调参的好,但也能达到一个不错的效果,这个会让大模型看起来更加智能。”
什么是In-context learning(上下文学习)?“以前的方式是基于模型参数调整的,比如说要识别猫,然后看模型能不能检测到猫的位置。如果标的不对,再通过误差反过来去调整参数,使得预测和正确位置对应起来。上下文学习则是圈出来猫的位置,然后再给它一张另外的图片,问它猫在哪里?它就能够正确圈出来。这个任务它之前没有见过,但是通过这样的方式就学会了。”邱锡鹏讲解道。
调参极耗费人力和时间成本,尤其是GPT-3这样的超大模型。碳同化系统Carbontracker估计,训练GPT-3一次所需的电量与丹麦126户家庭每年使用的电量相同。而In-context learning可以让一个未经进一步调参的预训练大模型,通过给其恰当的demonstration(示例)学会完成目标任务。
黄民烈也提到上下文理解技术。“ChatGPT最大的特点是通用任务助理,也就是在一个模型之内可以完成如此之多的开放任务,同时它在生成任务、上下文理解、安全伦理方面也有相当好的表现。”总结而言,黄民烈认为,这里面的技术突破是一个技术、工程、数据的综合性工程创新,是一个长期积累从量变到质变的过程。比如从GPT-3到代码,到加instruct,到RL,以及数据和模型之间的飞轮,造成了这些质变。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

与大14岁男友结婚且双喜临门?黄心颖晒照吐心声

高能E蓓子 浏览 9067

大理网红稻田被游客踩出坑,人数众多工作人员拦不住

趣看热点 浏览 19967

俄学者:今年参与阅兵坦克不太多 现在不是庆祝的时候

上观新闻 浏览 88444

开年第一瓜!知名男星被曝欠钱不还,劈腿打人

不八卦会死星人 浏览 6929

湖南卫视《快乐大本营》停播一期,播出电影《袁隆平》缅怀袁老

趣看热点 浏览 21787

东吴证券陈李:物价是2024年国内经济回升的最大动力和股市两类结构性机会

Wind万得 浏览 7025

68岁老人救起落水祖孙后溺亡:水中托举孩子直到他获救

潇湘晨报 浏览 64972

以色列宣布对“费城走廊”实现“完全作战控制”

新华社 浏览 5290

现货比特币ETF上市交易,比特币涨约7%后一度转跌,灰度成交量爆表

华尔街见闻官方 浏览 6927

瑞信被"5折"收购 压力来到美国这家银行!

每日经济新闻 浏览 13545

拜登将在波兰发表俄乌冲突一周年讲话 为乌打气

澎湃新闻 浏览 30217

林有慧曝与萧敬腾相恋细节 谈生子计划

扒虾侃娱 浏览 8821

从9月伤缺至今 TA:伯恩茅斯中场亚当斯本周可能进入球队大名单

直播吧 浏览 6448

Shams:雄鹿球员对里弗斯有信心 他们乐观认为选里弗斯是升级

直播吧 浏览 6861

除了小米SU7,自主纯电中型/中大型轿车还有这几款!

汽车消费网 浏览 6791

效率超博斯!李盈莹对轰女排超巨不落下风,赛后谦虚:她是我榜样

我爱英超 浏览 9910

中国游客机场遭刁难索贿 马来西亚旅游部长"闯关救人"

金羊网 浏览 62048

任正非称教育不能太实用主义:应该让学生“胡思乱想”

Tech星球 浏览 13719

中国博主称涂鸦日本靖国神社石柱 外交部回应

澎湃新闻 浏览 35043

我,天权,让东方甄选掉粉70万,老俞让我提前复播

态℃ 浏览 7124

全球交付25万架!百年飞机制造商深耕中国20余年,已成立两家合资公司

时代财经 浏览 13465
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1