ChatGPT爆火,国内研发进展如何?
◎本报记者 刘园园
这段时间,一款名叫ChatGPT的人工智能聊天系统就像平地起春雷,突然刷爆网络。
“从目前普遍的对话感受来看,ChatGPT的最大亮点就在于其优秀的意图识别与语言理解能力,这令人意识到人工智能的交互能力已经实现了跨越式进展。”易观智慧院高级分析师陈晨评价。
有问必答,侃侃应对。这种神奇的人机互动体验,勾起人们绞尽脑汁向ChatGPT提问的热情,并为其带来惊人的用户量:该系统在两个多月前由美国人工智能研究公司OpenAI推出,今年1月便已达到1亿月活跃用户,用户增长速度堪称史无前例。
这款产品大受欢迎,其重要幕后功臣是被业内称为预训练模型的技术。面对ChatGPT的爆火,国内科技机构和企业纷纷“亮剑”。据最新消息,中国版ChatGPT将于下个月与公众见面。
参数规模从几百万狂飙至几千亿
“目前,预训练技术是人工智能研究的重要突破口。”阿里研究院未来技术中心负责人苏中解读,传统的研究方法中,标注成本一直是阻碍人工智能算法推向更大数据集合的障碍,而预训练技术不依赖数据标注,就可以训练出一个大规模深度学习模型。
科技日报记者了解到,由于不需要数据标注,预训练模型往往可以使用更大的数据集,因而可以选择更大的模型规模——这就催生了预训练大模型。
“与以往的人工神经网络相比,预训练大模型最大的不同在于它规模足够大,深度学习网络的层数多、连接多、参数多。”IDEA研究院(粤港澳大湾区数字经济研究院)认知计算与自然语言研究中心讲席科学家张家兴接受记者采访时介绍,2012年前后的深度学习网络只有几百万参数;2018年前后主流的预训练模型达到1亿参数;目前被证明非常有效的大规模预训练模型已有几千亿参数,短短几年时间提升了几千倍。
量变引起质变。苏中分析,在对预训练模型各种不同的技术评测中,算法性能展示了一个规律:数据规模越大、预训练模型参数越多,算法输出精度往往也越高。
除了规模大以外,张家兴谈到,目前的预训练大模型由于采用了新的结构模型,非常适合并行训练。同时,在训练方式上,人工神经网络的预训练任务类似“解题”,比如把一句话的某个词或前半句去掉,让预训练模型利用海量大数据对句子进行恢复,这样训练下去,预训练模型的“解题”能力就会越来越好。而且,在大语言模型的基础上,引入指令学习,可以远超模型微调带来的收益。在此基础上,人类的反馈可以帮助模型更好地理解人类意图和接收信息,人机对话也就越来越流畅。
“ChatGPT在底层数据、核心技术、用户体验等各方面都可以说是里程碑式的人工智能产品。”旷视研究院基础科研负责人张祥雨表示,ChatGPT的核心技术是人工智能语言大模型,其关键是如何让人工智能模型具备逻辑推理能力,以及如何让人工智能学习全互联网的知识。这些ChatGPT基本都做到了,因此在决策和知识环节有了很大的突破。
国内多家科技机构已布局相关领域
据外媒报道,多家国外科技巨头正重金投入预训练模型和人工智能生成内容(AIGC)赛道。记者了解到,国内已有不少科技机构和企业布局相关领域。
张家兴告诉记者,IDEA研究院认知计算与自然语言研究中心在此方向上布局已久,该中心拥有国内最大的开源模型体系——封神榜,已开源的98个模型正在全力支持中国AIGC的发展,探索研发适配各个领域的个性化可定制模型,支持全部自然语言处理(NLP)任务。
“很高兴能在深度学习高速发展的第十年节点上,看到AIGC和ChatGPT的出现,今天所有这些自然语言处理任务正在被统一到ChatGPT模式下,我们也正在整合之前的模型和技术,推出我们的类ChatGPT模型。”张家兴说。
记者从百度获悉,百度已投入开发类似ChatGPT的相关技术,该项目名字确定为文心一言,英文名ERNIE Bot,3月份完成内测后面向公众开放。目前,文心一言在做上线前的冲刺。
“ChatGPT主要涉及自然语言处理相关技术,属于认知智能领域的应用之一,科大讯飞在该方向的技术和应用方面具备长期深厚的积累。”2月8日晚,科大讯飞在投资者互动平台回应称,公司已面向认知智能领域陆续开源了6大类、超过40个通用领域的系列中文预训练语言模型,并于去年12月启动生成式预训练大模型任务攻关,人工智能学习机将成为该项技术率先落地的产品,今年5月将进行产品级发布。
此外,360公司2月7日在投资者互动平台表示,该公司也计划尽快推出类ChatGPT技术的原型版产品。“AIGC技术除了在搜索引擎的应用之外,还可以辅助数字安全能力的提升。”360公司称。
(本报记者操秀英、刘艳对此文亦有贡献)
(责任编辑:欧云海)