新技术要素构成了智能文本处理技术应用的崭新形态
(文/吴秀悦)自然语言处理(Natural Language Processing,NLP)技术是计算机技术和人工智能技术的一个重要的交叉研究方向。其目的是使得计算机不仅可以理解人类的语言,而且可以完成特定的任务。自然语言处理技术使得电子设备具备了理解和处理人类语言和文字的能力,极大提高了人类的工作效率。自然语言处理的核心任务之一是文本分类,该任务一直以来备受学术界以及工业界的青睐。文本分类任务是根据文本的内容,将文本分配到特定的类别中。除此之外,互联网上也有许多的新闻、小说、邮件等类型的文本信息,如何利用智能设备快速的浏览、过滤并准确的获取这些信息从而实现文档归类显得尤其重要。
一直以来,人们研究的热点投放在基于神经网络的深度学习技术上。比如,2001年Bengio等人提出神经网络语言模型,并得到了重要的副产物词向量(Word Embedding)。2013年,Mikolov等人发布了Word2vec词向量工具,该工具可以轻松地在数亿大小的文本数据集上,学习到词的表示向量。该工作对自然语言处理技术的发展具有里程碑式的意义。随着深度学习技术的不断进步和GPU(Graph Processing Unit)计算各方面特别是存储、计算等能力的不断提高,人们开始利用计算机模拟超大规模人工神经网络,同时随着研究的不断深入,自然语言处理领域的各项任务取得了更瞩目的成果。
中国的自然语言处理技术的研究在许许多多的研究人员的不懈努力下,取得了令人瞩目的成就,尤其在自然语言处理领域理论、应用等研究中,曾在具有全球影响力的数字技术服务领导企业iSoftStone担任主任工程师的梅术铭(Shuming MEI),是智能文本处理(Intelligent Text Processing)专家,他于2021年首次在行业提出了长短时记忆网络(Long Short-Term Memory,LSTM)模型,该模型可以利用主题语义信息对文本序列数据建模得到精确的文本表示从而提高模型的分类效果,解决了长期困扰自然语言处理技术领域的梯度弥散和长期依赖的问题。梅术铭现担任Yilanda(深圳)网络科技有限公司主任工程师兼高级后端研发工程师,他针对化验单中医疗术语描述形式不统一的问题,设计了一个用于医学术语标准化匹配的模型MR-BERT(BERT with Multiple Recall)。该模型先使用标准词查询、历史查询、信息增强查询和直接查询四种查询方式进行多路召回,然后基于BERT构建个数预测和候选标准词匹配模型输出最终的标准化结果。该方法在中国健康信息处理会议(CHIP)测评三临床术语标准化任务数据集上取得该项测评排名前1%的成绩,证实该算法模型在相关任务上的有效性。
2022年11月,梅术铭公布了具有自主知识产权的Supertext智能文本系统V1.0(登记号:2022SR1467317)是自然语言处理在智慧文档分析审阅场景的有效解决方案,梅术铭研发了强大的预训练模型,实现内容密集、篇幅长、非结构化文档的分析和审阅。梅术铭在研发Supertext过程中使用了他提出的LSTM模型,并在这个基础上,进一步提出了基于LSTM的TS-LSTM分本分类算法,将主题信息向量加入到TS-LSTM网络中,该模型使用词向量网络获取词间的互相依赖关系,利用局部注意力网络(Word-Attention Network,WAN)获取短语间的依赖信息,然后利用交叉注意力网络聚合这些信息得到新的文本向量,最后将文本向量映射为类别,应用结果显示该网络收敛速度较快且分类效果较好。Supertext目前已被广泛适用各种合同、文件、文章、等审核场景,其智能的关键词/要素/实体等抽取、多版本文档比对、智能纠错,以及个性化风险识别,结合RPA自动化操作,极大提高企业文档处理的效率,且准确率高达97.89%,远超行业平均水平的87.73%。
谈及以智能文本处理为代表的自然语言处理技术发展前景,梅术铭以国内大模型的发展成果为例进行了说明,他认为,国内的大模型在智能文本处理方面已达到国际领先水平,甚至有些模型已经实现了超越。以大数据、云计算、人工智能等为代表的新技术与数智化劳动者、海量数据、算力等新要素紧密结合,构成了智能文本处理技术应用的崭新形态。
(审核:欧云海)