基于释义基元词的中英跨语言词汇表征学习方法及***
技术领域
本发明具体涉及基于释义基元词的中英跨语言词汇表征学习方法及***。
背景技术
词嵌入表示是指利用分布式向量来表示词的语义信息。通过将自然语言中的词汇映射成低维、稠密的向量,使词处于同一个向量空间中,由此引入“距离”的概念对词汇间的语义相似性进行测量,有助于获得语义信息更为充分表达的向量表示。目前各种基于深度学习的自然语言处理多以词嵌入表示为基础。
对于辞书释义核心词的研究,国际上已经有了不少的成果。比如由韦斯特等所编《英语教学词典》(第4版)选用了1409个词,用来解释24000个词项;《朗曼当代英语词典》选用了2000个词,用来解释56000个词项,其中还包含了用例用词。
20世纪末以来,关于元语言及其分支释义元语言的研究逐渐成为热点。国内对于释义核心词的研究也取得了不少成就。张津、黄昌宁于1996年率先筛选出了3857条“定义原语”;李葆嘉在《语义语法学理论和元语言***研究》中提出了“释义元语言***”概念;苏新春在《汉语释义元语言研究》中提取出释义元语言4000条;安华林在《现代汉语释义元语言研究》中提取现代汉语词典释义元语言“词元”近3000个。
跨语言词嵌入(Cross-lingual Word Embeddings,CWE)是词嵌入领域的一个分支,目的是将两种甚至多种语言的词汇以向量形式表示在同一个向量空间中,从而能够直接通过向量计算来描述不同语言词汇之间的关系,为跨语言信息处理提供良好表示形式,在近一段时间受到广泛关注。Klementiev等人最早提出跨语言词嵌入问题。近几年许多学者针对该问题开展研究,第一类方法是采用新的学习框架学习跨语言映射知识,如基于自动编码器、典型相关性分析等。第二类方法通过语料变换和洗牌,将跨语言词向量问题转变为普通词向量问题。在应用方面,跨语言词嵌入被应用于机器翻译、双语词典抽取、句法分析等任务,均取得良好的效果。
目前,获得的跨语言词嵌入对于语义信息的表达仍有较大的误差,并不能精确的表达词语的语义信息。
发明内容
本发明要解决的技术问题在于,针对上述目前表征学习技术精度不高、不能精确的表达词语的语义信息的不足,提供基于释义基元词的中英跨语言词汇表征学习方法及***解决上述问题。
基于释义基元词的中英跨语言词汇表征学习方法,包括:
步骤1、输入预设中文词典,获取预设汉语词典中所有词汇所对应的中文释义基元词;
步骤2、对步骤1获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
步骤3、对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
步骤4、将步骤1获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;
步骤5、通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入。
进一步的,步骤3中根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个词语义信息的每个中文释义基元词的具体权重的具体方法是:根据每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义相似度和词语结构相似度,得到每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
进一步的,步骤5中根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重的具体方法是:根据每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义相似度和词语结构相似度,得到每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
基于释义基元词的中英跨语言词汇表征学习***,包括:
输入模块:用于输入预设中文词典,获取预设汉语词典中所有词汇所对应的中文释义基元词;
中文覆盖模块:用于对输入模块获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
中文学习模块:用于对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
英文覆盖模块:用于将输入模块获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;
英文学习模块:用于通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入。
进一步的,中文学习模块中根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个词语义信息的每个释义基元词的具体权重的具体方法是:根据每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义相似度和词语结构相似度,得到每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
进一步的,英文学习模块中根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个释义基元词的具体权重的具体方法是:根据每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义相似度和词语结构相似度,得到每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
本方法在训练双语词嵌入时首次加入词典作为外部知识,提升词嵌入的语义表达信息,帮助将中文和英文词语映射到同一个语义空间中;还有在利用中文词典作为外部知识时,提出利用词典中的汉语释义基元词作为学习词典知识的方法。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明的基于释义基元词的中英跨语言词汇表征学习方法流程图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
基于释义基元词的中英跨语言词汇表征学习方法,如图1所示,包括以下五个步骤:
步骤1、抽取中文释义基元词:对预设中文词典中的所有释义(指中文词典中解释所有词语的定义语句)进行分解,利用张津,黄昌宁《从单语词典中获取定义原语的一种方法》中的方法,将中文词汇(指的是中文词典中出现过的所有字词,其中包括中文词典中被解释的词语和只在解释语句中出现的字词)根据词语之间的释义关系投影到一个有向图中(若词语A的释义中包含词语B,则在有向图中有一条由A指向B的边),抽取出基本释义(指用少而精炼的词语解释一个词语的语句)所使用的字、词的集合,即中文释义基元词。
步骤2、获取释义基元词的向量化表示:对抽取出的中文释义基元词进行向量化表示,利用word2vec工具在中文语料集(指大规模的中文语言实例,格式为语句段落)中学习释义基元词的词嵌入,并结合释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用这些释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合。
步骤3、学习所有中文词汇的词嵌入:对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的释义基元词。并且通过比较每一个中文词语与其对应的语义信息的释义基元词的上下文语义相似度(指词语之间的向量空间距离)和词语结构相似度(指两个中文词语的笔画字形结构的相似程度),计算出组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入表示,以获得更为精准的向量表示。
根据每一个中文词语与其对应的语义信息的释义基元词,得到组成每一个词语义信息的每个释义基元词的具体权重的具体实施例如下:“安眠”对应的释义基元词有“安稳”和“沉睡”,通过步骤2得到的三个词语的向量表示,计算“安眠”分别与“安稳”和“沉睡”的向量表示之间的欧式距离或者余弦距离,据此可以得到“安眠”与“安稳”“沉睡”之间的语义相似度,并以此计算“安稳”“沉睡”两词对“安眠”的上下文语义贡献A、B。其中,“安眠”可以按笔画拆分为“宀、女、目、民”,同理“安稳”“沉睡”也可拆分为对应的笔画序列,通过比较“安眠”分别与“安稳”“沉睡”的笔画序列的重合度,可以得到“安眠”与“安稳”“沉睡”之间的词语结构相似度,并以此计算“安稳”“沉睡”两词对“安眠”的词语结构贡献a、b。通过控制上下文语义与词语结构的贡献比,最终确定每个释义基元词的权重,如“安眠”的释义基元词“安稳”的权重可以表示为(αA+βa),“沉睡”的权重可以表示为(αB+βb),其中,α和β分别表示释义基元词的上下文语义和词语结构的贡献权重,且(α+β=1)。
步骤4、获得对应的英文释义基元词:利用获得的中文释义基元词,将上述步骤获得中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,其向量表示与对应的中文释义基元词相对应,用这些释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合。
步骤5、学习所有英文词汇的词嵌入:与中文词汇的词嵌入学习方法类似,通过预设英文词典中每一个英语词语和对应的释义语句(指英文词典中解释词语的定义语句)来获取组成每一个英文词语的语义信息的释义基元词,其中所有词汇均对应于其原型。并且通过比较每一个英文词语与其对应的语义信息的释义基元词的上下文语义相似度(指词语之间的向量空间距离),计算出组成每一个词语义信息的每个释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入表示,以获得更为精准的向量表示。
在汉语词典中,对于词语的解释使用了一组更为基本的汉语词汇集合,称之为汉语词典中的释义基元词。从汉语电子词典中,设计算法抽取基本释义所使用的字、词的集合,找出其中的释义基元词,将其作为解释其他汉语词汇的一组“基”,汉语词汇中的所有字、词均可映射为这组“基”的描述性表示。将这些释义基元词在语义空间中进行向量化表示,则汉语词汇中的所有字、词均可投影到该语义空间中。而该词的释义基元词表征向量可以以一定的权重比与该词的上下文语义表征向量结合生成更为精准的语义表征向量。同时如上文所述,不同语言的释义基元词虽有不同,但却是相互对应的,在语义上是等价的。因此可以同样将英语中的词汇也用这组“基向量”来表示,至此,虽然汉语与英语虽然属于不同的语言,但是却通过这种方法可以投影到同一个语义空间中,从而建立统一的语义表示空间。通过上述方法得到的语义表征向量可以为我们提供更为精准的语义关系,甚至通过这种方法能够更为轻松的实现不同语言之间的语义关联计算。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。