举报查询 登录 | 注册
  1. 首页
  2. 资讯要闻
  3. 人工智能语料库技术是什么?来看科普!

人工智能语料库技术是什么?来看科普!

发布时间:2020-12-28 09:31 分享到:

国际传播人工智能翻译语料库是指基于互联网平台,运用以神经机器翻译技术为基础的人工智能翻译技术,对国际传播等相关领域的语料进行数据化处理和加工,建立系统对外传播党政文献,领导人著作、讲话及外宣图书,期刊及网络新闻等宣传内容为主的语料数据库,并在此基础上建立国际传播综合人工智能语料库。

国内外人工智能、语料库技术发展现状

经过 60 多年的演进,特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同驱动下,人工智能加速发展,呈现出人机协同、深度学习、跨界融合、群智开放、自主操控等新特征,推动经济社会各领域从数字化、网络化向智能化加速跃升。

作为人工智能重要相关学科,自然语言处理技术(NLP)是研究人与计算机交互的语言问题的一门学科,只有当计算机具备了自然语言的处理能力,才可称其为真正的人工智能。

20 世纪 90 年代以来,中国的自然语言处理技术进入快速发展时期,一系列商品化的系统推向市场,新的研究内容、新的应用领域也在不断探索中。

相关研究均从语音和文本两方面进行,基础性研究主要集中在语言学、数学、计算机科学等领域,比如消除歧义、语法形式化、计算语言学理论基础以及语言资源库等;应用性研究主要集中在一些需要应用自然语言处理技术的领域中,比如信息检索、文本分类、自动文摘、机器翻译等。

目前,词法、句法、语义分析等基础理论的研究和语言资源库的建设依然是研究的重点,这一类别的项目几乎占据项目总数的“半壁江山”。

人工智能技术研究领域的机器翻译类研究是近年来的热点,而自然语言理解以及术语数据库、键盘输入、音字转换等其他类别的研究相对较少。从长远看,机器翻译是自然语言处理领域中一个相当重要的部分,直到现在,国内对高质量机器翻译系统仍然有相当大的需求。

人工智能促进语言服务发展过程中,作为覆盖范围及应用领域日益广泛的语料库,在提高翻译教学质量、培养优秀译员及促进计算机辅助翻译中发挥着重要作用。双语和多语语料库按照语料的组织形式,还可以分为平行(对齐)语料库和比较语料库。前者的语料构成译文关系,多用于机器翻译、双语词典编撰等应用领域;后者将表述同样内容的不同语言文本收集在一起,多用于语言对比研究。

目前已经积累的语料库包括:葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库的多语言平行语料数据、短消息服务(SMS)语料等。

语料库有三个基本特征:一是语料库中存放的是在语言的实际使用中真实出现过的语言材料,因此例句库通常不应算作语料库;二是语料库是承载语言知识的基础资源,但并不等于语言知识;三是真实语料需要经过加工(分析和处理),才能成为有用的资源。目前,国际和国内已有大量建成的语料库。

英国和美国的语料库建设走在世界前列,如 BNC 英国国家语料库、美国当代英语语料库。我国外语语料库建设多集中于外语口译、教学等领域,语种以英语居多,比如中国学习者英语语料库及中国英语学习者口语语料库等,实施单位多为如高校科研机构等,针对国际传播的专项人工智能语料库建设仍为空白。

人工智能语料库解决、国际传播两个主要矛盾

1、翻译及多语报道人力不足制约国际传播发展

经调研,从 2013 年起,我国整体翻译业务的“中译外”业务量比例开始显著高于“外译中”业务量,同年党中央提出“一带一路”倡议,极大地拓展了向国际社会展示自己和对外交流的资源和实力。

然而翻译人才,尤其是“中译外”人才严重匮乏,其中“一带一路”沿线国家小语种人才缺口较大等问题严重制约中国特色政治话语体系的全面外译以及我国国际话语权地位的提升。

“一带一路”沿线国家所使用的官方语言及主要民族语言有 60 余种,2013 年“一带一路”倡议提出时,我国高校外语专业招生语种只覆盖了其中 20 种,而且 11 个小语种人数不超过 100 人,其中 8 个语种在 50 人以内。

截至目前,我国尚未有高校开设的语种有 18 种,仅有一所高校开设的语言有 20 种,而且已开设的一些语种也存在人才储备不足的情况。在国际传播方面,我国懂新闻、懂传播技术同时又精通外语的“三通”复合型语言服务人才更加稀缺。与此同时,可有效弥补多语、小语种人才紧缺的人工智能翻译软件应用仍缺乏专业性,且翻译质量精准度较低。

我国日益提高的国际话语权建设需求与翻译和多语报道人才培养不平衡不充分矛盾突出,因此,亟须建设大量纳入优秀“中译外”精准语料的数据库,解放国际传播翻译写作人力,为国际传播能力建设解决束缚生产力发展的瓶颈性障碍,促进我国国际话语权综合地位提升,推动中华优秀传统文化创造性转化、创新性发展。

2、人工智能机器翻译推广受语料库瓶颈阻碍

现有的人工智能机器翻译虽然发展迅速,甚至可以在某些程度帮助提高效率,但由于缺少国际传播领域专业语料,模块训练无法正常实施,产生的成果无法为外宣工作服务。据调查,目前国内对外开放的语料库以高校研究为主,提供给广大外宣工作者使用的精准语料库资源严重不足。

作为机器翻译发展重要基础的外语语料库建设成为人工智能机器翻译推广的瓶颈问题。但值得一提的是,目前国际传播专项语料库建设虽具备基础语料,但仍有大量的语料资源散落,亟须整理整合。这些陈旧性历史资料为数不少,有些已经处于濒危状态,亟待保护性整理开发。

随着自然语言处理、知识库等人工智能技术在新闻传播领域的应用实践,国外媒体纷纷尝试使用机器写稿等先进技术。

《纽约时报》数字部门开发了机器人编辑Blossomblot,每天推送 300 篇文章,每篇文章的平均阅读量是普通文章的 38 倍,此外,《纽约时报》还会在财报季、运动比赛报道的时候使用机器人来写稿;路透社也在发表机器撰写的文章,该系统负责人在一次盲测中,认为机器撰写的作品比人类作品更具可读性。

国际传播基于人工智能语料库技术实现跨越式发展,将有利于我国进一步树立国际话语权优势。

一是语料库技术能在战争、疫情条件下,实现冗余信息过滤和有效信息抓取,提高采访、写作效率;二是可对国际受众做行为分析和兴趣等全息画像,深层了解受众,实现精准投放;三是语料库技术能为外宣稿件做综合管理统计和分析规划,研究数据可辅助制定优化战略。

国际传播翻译语料库建设四大途径

国际传播人工智能语料库将立足于各大外事、外宣单位 70 多年来多媒体对外说明中国的多语资源,一期建设预计完成涉及 12 个外语语种,包含5000 万条语料,数据类型从词、句对、语篇到文章、期刊和书籍的优质语料数据库。

依据国际传播工作需要,在不包含中文对照的多语比较语料库中,将按照语言使用国家行政区域划分为东亚、中亚、西亚,非洲,南美、北美,东欧、西欧及大洋洲等。

语料库建设可采用人工智能检索技术,包含小到词典功能,大到语句、语篇的关联,可以分政治经济、外交军事、人文社科、科学技术和文化娱乐等类型检索搜集语篇摘要、文章和书籍,系统还将初步涉及人工智能完成稿件写作的基础功能,完成机器模仿人脑思维翻译和写作对外传播稿件等功能设计。

1、语料库建设须做好前期准备

首先,语料库建设将开发使用语料库分析统计软件,该软件应具有索引、词表生成、主题词计算、搭配和词族提取等多种功能,这为本项目的开展提供强大的技术支持。

其次,语料库建设以阅读大量专业文献资料为基础,并借鉴权威语料库建设经验。将语料类别依据是否有中文对照可区分为平行语料库及比较语料库,前者可多以中国外文局、中国日报、中国国际广播电台等历史数据为主,涉及外文出版社、《今日中国》及《人民中国》中外文对照语料;后者多以《北京周报》、新华社对外部、《求是》(英文版)、《环球时报》等外文语料为主。

2、语料库架构及功能设计和语料加工

国际传播人工智能语料库可通过多种方式进行文本采集,如大量分析真实历史语言数据、利用网络现有语料资源等。

语料库可涉及多种题材,如政治、经济及文化术语和科技专利翻译相关名词等,涉及语料库题材、规模、样本的大小、切分标注标准等;此外还应充分考虑到语料代表性、平衡性、一致性、标签集、描述元语言等诸多要素。

3、通过中央机关和国家外事外宣部门历史资料广泛收集语料

首先,在语料库的大体结构设计完成后,查询并收集关于“一带一路”各种国际传播的多类型相关语料的研究。

以“一带一路”为例,可以归纳的高频主题名词有合作、一带、一路、国家、丝绸之路、愿景、开放、贸易、发展、互联、互利共赢、投资、亚洲、文化、机制、地区、21 世纪、合作、基础设施等。

同时,“一带一路”倡议中主题高频形容词及副词有“互相的、经济的、共同地、地区的、国际的、跨边界的、海上的、文化的、多边的”,这些词语在情态上具有很强的评价功能,它们在强调相互合作重要性的基础上进一步强调了构建命运、经济和责任共同体的重要性以及建设海上丝绸之路和多边文化交流的必要性。

其次,语料库还将时刻关注中央机关及国家外事外宣部门主要国际传播活动最新动向,不断收集有关词、固定搭配以及句子等。为了提高翻译质量,语料库在收录大量词、句的同时还将深入挖掘其文化内涵并将这些词、句进行有机整合。

4、语料库后期维护及扩容发展

语料库建成后,需不断进行日常维护和升级以适应新的软硬件和用户需求的改变。国际传播相关的语料库会随着各类活动的开展而不断更新,以确保其代表性、时效性。

语料库后期发展可与多国成熟语料库展开横向多元合作,扩大语料来源和基础,实现国际合作共享,促进文化共通;可与国外语料库建设开发者互相学习研讨,促进合作共赢;可与对象国高校和政府文化部门等语料库潜在使用消费者展开更多交流合作。

(来源:网络传播杂志