CN114595688B - 融合词簇约束的汉越跨语言词嵌入方法 - Google Patents

融合词簇约束的汉越跨语言词嵌入方法 Download PDF

Info

Publication number
CN114595688B
CN114595688B CN202210014277.4A CN202210014277A CN114595688B CN 114595688 B CN114595688 B CN 114595688B CN 202210014277 A CN202210014277 A CN 202210014277A CN 114595688 B CN114595688 B CN 114595688B
Authority
CN
China
Prior art keywords
word
chinese
words
cluster
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210014277.4A
Other languages
English (en)
Other versions
CN114595688A (zh
Inventor
余正涛
武照渊
黄于欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210014277.4A priority Critical patent/CN114595688B/zh
Publication of CN114595688A publication Critical patent/CN114595688A/zh
Application granted granted Critical
Publication of CN114595688B publication Critical patent/CN114595688B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及融合词簇约束的汉越跨语言词嵌入方法。本发明首先对汉越单语语料进行预处理并用于训练汉越单语词嵌入;然后利用在线词典和开源词库构建汉越双语词典及词簇词典,并将词与词簇两种粒度的对齐信息融入映射矩阵的训练过程中;最后通过跨语言映射框架得到汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近。本发明使用不同类型的关联关系抽取汉越双语词典中的词簇对齐信息,使映射矩阵学习到多粒度的映射关系,以提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下双语空间对齐效果不佳的问题。实验结果表明,该模型在汉越词典归纳任务@1和@5上的对齐准确率相比VecMap模型提升了2.2个百分点。

Description

融合词簇约束的汉越跨语言词嵌入方法
技术领域
本发明涉及融合词簇约束的汉越跨语言词嵌入方法,属于自然语言处理技术领域。
背景技术
跨语言词嵌入将不同语言具有相同含义的词映射至同一空间中对齐,是跨语言文本分类、跨语言情感分析、机器翻译、跨语言实体链接等任务的基础,具有重要的应用价值。
汉越跨语言词嵌入是面向低资源语言的双语词嵌入任务,目前低资源跨语言词嵌入方法主要包括无监督、半监督和有监督三类。无监督方法利用不同语言单语嵌入空间的相似性,无需标注数据即可学***行词对作为监督信号来解决映射矩阵在迭代训练过程中初始化阶段的不足,另一种则是将无监督模型学习到的嵌入空间相似性同有监督模型相结合来提升对齐效果。已有的半监督与无监督方法在相近语言上取得了不错的效果,例如英语-西班牙语由于词根、构词方式上具有相似性,两者词嵌入空间包含大量的共现词与同构词(如“possible”与“posible”),仅凭少量标注数据就能实现较好的对齐。然而,词源学上差异较大的语言通常单语嵌入空间之间的相似性也较低,对于汉越这种差异较大的语言,无监督和半监督的方法对齐效果不佳。当前,通过双语词典学习映射矩阵的有监督方法可以有效提升远距离语言上的对齐效果,其关键步骤是学习单语嵌入空间之间的映射关系。传统有监督模型通常使用双语词典中的词对齐信息学习映射矩阵,但汉越作为低资源语言对缺乏大规模的双语词典,导致学习到的映射矩阵在双语词典外的非标注词上泛化性较弱,无法准确对齐双语空间。
发明内容
本发明提供了一种融合词簇约束的汉越跨语言词嵌入方法,以用于解决汉越低资源环境下,由于缺乏大规模的双语词典导致学习到的映射矩阵在词典外非标注词上泛化性较弱,无法准确对齐双语词嵌入空间的问题。
本发明的技术方案是:融合词簇约束的汉越跨语言词嵌入方法,所述方法的具体步骤如下:
Step1、获取汉越单语词嵌入;
Step2、基于开源词库和在线词典,使用同主题词对和高频词对两种数据构建汉越双语词典,并基于不同类型的关联关系从词典中抽取对齐词簇,构建词簇词典;
Step3、将双语词典与词簇词典中的词对齐信息和词簇对齐信息融入映射矩阵的训练过程中,分别为汉语与越南语学习到的两个单独的正交映射矩阵;
Step4、将学习到的映射矩阵融入跨语言映射框架获取汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近,利用空间余弦相似度为词典外未经标注的汉语或越南语单词查找对应的翻译词。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、去除汉越单语新闻语料中的数字、特殊字符和标点符号;
Step1.2、将越南语语料中的大写字母转换为小写字母;
Step1.3、对语料进行分词操作,汉语语料使用jieba工具进行分词,越南语语料使用Vncorenlp工具进行分词,并去除分词后长度小于20的句子;
Step1.4、将预处理好的汉越单语语料输入到单语词嵌入模型中获取汉越单语词嵌入空间X∈Rn×d,Y∈Rm×d;其中,n为训练得到的汉语词嵌入个数,m为越南语词嵌入个数,d代表词嵌入维度。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、基于多语公开数据集CLDR获取同主题对齐词对,其中包含月份、数字、颜色常用主题词的对齐词对;
Step2.2、构建停用词表,剔除汉语高频词中的助词、介词和语气词,并对剩余高频词进行人工筛选,去除特有名词及噪声词;
Step2.3、使用在线词典人工标注相应的越南语翻译,并剔除不包含在汉越单语词嵌入文件中的OOV词对;共完成构建5500对高质量的汉越双语词对,并从中随机抽取500对作为测试词典Test,剩余5000对作为汉越双语词典Seed;此外,通过汉越双语词典,分别得到词典对应的汉语与越南语词嵌入矩阵X′,Y′∈Rv×d;其中,v为词典大小,d代表词嵌入维度,X′={X1′,X2′,……,Xi′,……,Xv′},Y′={Y1′,Y2′,……,Yi′,……,Yv′},Xi′与Yi′分别代表双语词典第i条词对所对应的汉、越单语词嵌入;
Step2.4、查找汉越双语词典中越南语翻译相同的词对,构建为一个初始的对齐词簇;然后,使用开源词库查找初始词簇在词典中的近义词对或同类词对用于扩充对齐词簇,构建为近义对齐词簇或同类对齐词簇,词典中的同主题词对作为一种封闭词类本身具有一定的弱相关性,能构建为同主题对齐词簇;近义词簇、同类词簇、同主题词簇三种类型的对齐词簇共同构成词簇词典Seed_Cls。
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、为了更好地将词簇对齐信息融入映射矩阵的训练过程中,通过平均操作将词簇对齐进一步转换为簇心对齐;设现有词簇对齐信息{X1′,X2′,……Xs′|Y1′,Y2′,……Yt′},其中s代表汉语词簇中的词嵌入个数,t代表越南语词簇中的词嵌入个数,所对应的簇心嵌入矩阵
Figure BDA0003459299260000031
Figure BDA0003459299260000032
的构建过程如下所示:
Figure BDA0003459299260000033
Figure BDA0003459299260000034
Figure BDA0003459299260000035
CX,CY∈Rl×d分别代表词簇对齐数据中汉语与越南语的簇心嵌入矩阵,l代表词簇对齐数据的规模,d代表词嵌入维度;
Step3.2、簇心嵌入与词典中的词嵌入维度相同,因此词对齐数据同词簇对齐数据能直接融合为训练数据D3,应用到映射矩阵的训练中;
Figure BDA0003459299260000036
分别代表训练数据D3中融合词对齐与词簇对齐数据后的汉语与越南语嵌入矩阵,其中,
Figure BDA0003459299260000037
词典对应的汉语与越南语词嵌入矩阵X′,Y′∈Rv×d;其中,v为词典大小,d代表词嵌入维度;
Step3.3、通过最小化词嵌入与簇心嵌入之间欧氏距离的平方和求解,模型在词对齐与词簇对齐数据上的联合损失函数如公式3所示:
Figure BDA0003459299260000038
Xi′与Yi′分别代表双语词典第i条词对所对应的汉、越单语词嵌入;因为两个损失中的映射矩阵是共享的,因此,通过训练数据D3将损失函数进一步简化为如下公式:
Figure BDA0003459299260000041
Step3.4、当汉语与越南语学***方和等价于最大化点积,如公式5所示:
Figure BDA0003459299260000042
Tr(·)为迹运算,代表矩阵主对角线上所有元素之和,最优正交解为WX=U,WY=V,其中
Figure BDA0003459299260000043
Figure BDA0003459299260000044
的SVD解。
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1、使用汉语与越南语的单语词嵌入空间X,Y作为输入,将融合词簇对齐信息学习到的汉语与越南语学习到的两个单独的正交映射矩阵WX与WY融入跨语言映射框架VecMap中,经过归一化、白化、正交映射、去白化、重赋权重五个步骤得到汉语与越南语的共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近;
Step4.2、基于获得的汉越共享词嵌入空间,对于词典外任何一个未经标注的汉语或越南语单词,均能根据空间余弦相似度来查找该词在共享空间中对应的翻译词,设
Figure BDA0003459299260000045
Figure BDA0003459299260000046
分别为汉语与越南语单词,
Figure BDA0003459299260000047
分别为两个单词在共享空间中对应的汉语与越南语词嵌入,两词余弦相似度的计算过程如公式(6)所示,其中||·||2代表2-范数;
Figure BDA0003459299260000048
以汉语单词作为检索词,经过计算选取与其余弦相似度最高的越南语单词作为候选词,构建汉越对齐词对以实现汉越跨语言词嵌入;
以越南语单词作为检索词,经过计算选取与其余弦相似度最高的汉语单词作为候选词,构建汉越对齐词对以实现汉越跨语言词嵌入。
本发明的有益效果是:
1、汉语不同于其他语言,词频最高的词往往是一些助词、介词或单个文字,例如“的”、“在”、“了”等。这些词并不具备具体的含义,很难使映射矩阵捕捉到较为精确的映射关系。相较于仅凭词频构建的传统双语词典,基于本发明所述流程构建的汉越双语词典的质量更好,可以有效提升映射矩阵的映射准确性。
2、通过将不同类型的词簇对齐信息融入映射矩阵的训练过程中,使映射矩阵能够学习到不同粒度的映射关系,提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下双语空间对齐效果不佳的问题。
3、词簇一定程度上反映了对齐空间的结构信息,融合词簇粒度的映射关系可以提升不同语言中相近词的对齐准确性,使词典归纳任务中候选词同检索词的语义相关性更强。
附图说明
图1为本发明提出的融合词簇约束的汉越跨语言词嵌入方法的流程图;
图2为本发明提出的融合词簇约束的汉越跨语言词嵌入方法的具体结构示意图;
图3为本发明提出的融合词簇约束的汉越跨语言词嵌入方法中对齐词簇的构建流程图;
具体实施方式
实施例1:如图1-图3所示,融合词簇约束的汉越跨语言词嵌入方法,所述方法的具体步骤如下:
Step1、使用汉语与越南语的大规模开源新闻数据集brightmart与binhvq作为单语训练语料,获取汉越单语词嵌入;
Step1.1、去除汉越单语新闻语料中的数字、特殊字符和标点符号;
Step1.2、将越南语语料中的大写字母转换为小写字母;
Step1.3、对语料进行分词操作,汉语语料使用jieba工具进行分词,越南语语料使用Vncorenlp工具进行分词,并去除分词后长度小于20的句子;
Step1.4、将预处理好的汉越单语语料输入到单语词嵌入模型中获取汉越单语词嵌入空间X∈Rn×d,Y∈Rm×d;其中,n为训练得到的汉语词嵌入个数,m为越南语词嵌入个数,d代表词嵌入维度。
Step2、基于开源词库和在线词典,使用同主题词对和高频词对两种数据构建汉越双语词典,并基于不同类型的关联关系从词典中抽取对齐词簇,构建词簇词典;
Step2.1、基于多语公开数据集CLDR(Unicode Common Locale Data Repository)获取同主题对齐词对,其中包含月份、数字、颜色常用主题词的对齐词对;数据格式如表1所示:
表1 同主题对齐词对
Figure BDA0003459299260000061
Step2.2、构建停用词表,剔除汉语高频词中的助词、介词和语气词,并对剩余高频词进行人工筛选,去除特有名词(人名、地名)及噪声词;
Step2.3、使用在线词典人工标注相应的越南语翻译,并剔除不包含在汉越单语词嵌入文件中的OOV(out of vocabulary)词对;共完成构建5500对高质量的汉越双语词对,并从中随机抽取500对作为测试词典Test,剩余5000对作为汉越双语词典Seed;此外,通过汉越双语词典,分别得到词典对应的汉语与越南语词嵌入矩阵X′,Y′∈Rv×d;其中,v为词典大小,d代表词嵌入维度,X′={X1′,X2′,……,Xi′,……,Xv′},Y′={Y1′,Y2′,……,Yi′,……,Yv′},Xi′与Yi′分别代表双语词典第i条词对所对应的汉、越单语词嵌入;
Step2.4、词典中的词簇对齐数据主要利用近义词和同类词两种关系进行构建,构建流程如图3中(a)、(b)所示。查找汉越双语词典中越南语翻译相同的词对,构建为一个初始的对齐词簇;然后,使用开源词库查找初始词簇在词典中的近义词对或同类词对用于扩充对齐词簇,构建为近义对齐词簇或同类对齐词簇,词典中的同主题词对作为一种封闭词类本身具有一定的弱相关性,能构建为同主题对齐词簇,如图3中(c)所示;近义词簇、同类词簇、同主题词簇三种类型的对齐词簇共同构成词簇词典Seed_Cls,各词典规模如表2所示:
表2 为词典规模
Figure BDA0003459299260000062
Step3、将双语词典与词簇词典中的词对齐信息和词簇对齐信息融入映射矩阵的训练过程中,分别为汉语与越南语学习到的两个单独的正交映射矩阵;
Step3.1、为了更好地将词簇对齐信息融入映射矩阵的训练过程中,通过平均操作将词簇对齐进一步转换为簇心对齐;设现有词簇对齐信息{X1′,X2′,……Xs′|Y1′,Y2′,……Yt′},其中s代表汉语词簇中的词嵌入个数,t代表越南语词簇中的词嵌入个数,所对应的簇心嵌入矩阵
Figure BDA0003459299260000071
Figure BDA0003459299260000072
的构建过程如下所示:
Figure BDA0003459299260000073
Figure BDA0003459299260000074
Figure BDA0003459299260000075
CX,CY∈Rl×d分别代表词簇对齐数据中汉语与越南语的簇心嵌入矩阵,l代表词簇对齐数据的规模,d代表词嵌入维度;
Step3.2、簇心嵌入与词典中的词嵌入维度相同,因此词对齐数据同词簇对齐数据能直接融合为训练数据D3,应用到映射矩阵的训练中;
Figure BDA0003459299260000076
分别代表训练数据D3中融合词对齐与词簇对齐数据后的汉语与越南语嵌入矩阵,其中,
Figure BDA0003459299260000077
词典对应的汉语与越南语词嵌入矩阵X′,Y′∈Rv×d;其中,v为词典大小,d代表词嵌入维度;
Step3.3、依据训练数据D3中的对齐关系,词典中对应的汉语与越南语词嵌入经过映射后应尽可能相似。同理,词簇对齐数据中的汉语与越南语簇心嵌入经过映射后也应尽可能相似。这一问题可以通过最小化词嵌入与簇心嵌入之间欧氏距离的平方和求解,模型在词对齐与词簇对齐数据上的联合损失函数如公式3所示:
Figure BDA0003459299260000078
Xi′与Yi′分别代表双语词典第i条词对所对应的汉、越单语词嵌入;因为两个损失中的映射矩阵是共享的,因此,通过训练数据D3将损失函数进一步简化为如下公式:
Figure BDA0003459299260000079
Step3.4、当汉语与越南语学***方和等价于最大化点积,如公式5所示:
Figure BDA0003459299260000081
Tr(·)为迹运算,代表矩阵主对角线上所有元素之和,最优正交解为WX=U,WY=V,其中
Figure BDA0003459299260000082
Figure BDA0003459299260000083
的SVD解。
Step4、将学习到的映射矩阵融入跨语言映射框架获取汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近,利用空间余弦相似度为词典外未经标注的汉语或越南语单词查找对应的翻译词。
Step4.1、使用汉语与越南语的单语词嵌入空间X,Y作为输入,将融合词簇对齐信息学习到的汉语与越南语学习到的两个单独的正交映射矩阵WX与WY融入Artetxe等人提出的跨语言映射框架VecMap中,经过归一化、白化、正交映射、去白化、重赋权重五个步骤得到汉语与越南语的共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近;
Step4.2、基于获得的汉越共享词嵌入空间,对于词典外任何一个未经标注的汉语或越南语单词,均能根据空间余弦相似度来查找该词在共享空间中对应的翻译词,设
Figure BDA0003459299260000084
Figure BDA0003459299260000085
分别为汉语与越南语单词,
Figure BDA0003459299260000086
分别为两个单词在共享空间中对应的汉语与越南语词嵌入,两词余弦相似度的计算过程如公式(6)所示,其中||·||2代表2-范数;
Figure BDA0003459299260000087
以汉语单词作为检索词,经过计算选取与其余弦相似度最高的越南语单词作为候选词,构建汉越对齐词对以实现汉越跨语言词嵌入;
以越南语单词作为检索词,经过计算选取与其余弦相似度最高的汉语单词作为候选词,构建汉越对齐词对以实现汉越跨语言词嵌入。
为了说明本发明的有效性,设置了三组对比实验及一组实例分析。第一组实验验证模型在汉语到越南语词典归纳任务上对齐准确性的提升,第二组实验验证模型在越南语到汉语反向词典归纳任务上对齐准确性的提升,第三组实验验证模型在汉越低资源环境下的有效性,最后一组实例分析用于解释模型在对齐过程中的具体提升效果。
汉语与越南语的单语词嵌入训练采用相同的参数设置,均使用Word2Vec模型中的CBOW(Continuous bag-of-words)模型进行训练,词嵌入维度为300维,词窗大小设置为10,最低词频为50,迭代次数为5轮。跨语言映射中,汉语与越南语的单语词嵌入及簇心嵌入维度均为300维,训练得到的映射矩阵WX与WY的大小为300×300维。VecMap跨语言映射框架中的归一化步骤使用长度归一化(unit)和中心化(center)作为预处理,执行顺序为[unit,center,unit],输出的汉越共享词嵌入空间中的嵌入维度为300维。
为更好地与现有工作进行比较,本发明采用词典归纳任务上通用的评价指标,以词汇对齐的准确率P@N(选取N个候选词时的对齐准确率)作为衡量模型效果的标准,具体计算过程如公式7所示:
Figure BDA0003459299260000091
其中,T代表测试词典的规模,C(wi)代表模型依据余弦相似度为单词wi检索到的N个候选词集合,若集合中包含正确的翻译词则取1,否则取0。
(1)汉语到越南语词典归纳任务上对齐准确性提升验证
为验证融合词簇对齐方法的有效性,模型同三个有监督模型和一个无监督模型进行了对比,基线模型设置如下:
1)Multi_w2v模型:mikolov等人基于线性回归思想提出的跨语言Word2Vec模型,使用随机梯度下降最小化双语词典词对间的均方误差(mean squared error,MSE)来学习映射矩阵。
2)Orthogonal模型:Artetxe等人在mikolov等人工作的基础上提出的正交映射模型,引入了长度归一化与中心化处理,并为映射矩阵添加正交约束。
3)VecMap模型:Artetxe等人提出的双向正交映射模型,分别为源语言和目标语言训练单独的正交映射矩阵,并将两种语言的词嵌入映射至同一共享空间。
4)Muse模型:Conneau等人基于无监督思想,利用单语嵌入空间之间的相似性,使用对抗的方式学习映射矩阵。
所有模型使用相同数据集进行训练与测试,参数设置同各文献保持一致,并在汉语到越南语的正向词典归纳任务上进行了对比,实验结果如表3所示。
表3 汉越正向词典归纳任务实验结果
Figure BDA0003459299260000092
Figure BDA0003459299260000101
分析表3的实验数据可知,融合词簇对齐约束的方法可以有效提升汉越低资源场景下跨语言词嵌入的对齐准确率,模型效果明显优于其他传统方法。由于汉越语言差异性大,词嵌入空间相似度低,Muse无监督模型在实验中的表现明显弱于其他有监督基线模型。而在有监督模型的对比中,基于线性回归方法实现的Multi_w2v模型在@1和@5任务上的效果优于单向正交映射模型Orthogonal,但表现不如基于双向正交映射的VecMap模型。本发明方法对应的模型ClsMap相较于表现最好的基线模型,在@1和@5任务上的对齐准确率提升了2.2%。实验充分证明在训练过程中融合词簇对齐约束的方法可以有效提升汉越低资源场景下映射矩阵在非标注词上的泛化性、提高汉越双语空间的对齐准确率。
(2)越南语到汉语反向词典归纳任务上对齐准确性提升验证
为验证融合词簇对齐的方法在反向词典归纳任务上的表现,本发明将训练集与测试集中的语言进行了置换,以越南语作为源语言,汉语作为目标语言进行了测试,实验结果如表4所示。
分析表4可知,在以越南语作为检索词的反向词典归纳任务中,本发明方法在@5任务上的对齐准确率达到了54.76%,相比VecMap模型与Orthogonal模型提升了1.48%,取得了最好效果。而在@1任务上,无监督方法取得了最好效果,但除Multi_w2v模型外,有监督模型与无监督模型在@1任务上的差异并没有汉越正向词典归纳任务中那样明显。推测这是由于双语词典是以汉语为源语言进行构建所致,这一问题在初始词簇的构建中就有所体现,词典中包含许多越南语相同的词对,证明汉语相较于越南语的标注更为精确。因此,用于训练的汉越双语词典在反向词典归纳任务中并不具备优势。ClsMap模型虽然在@1任务上的表现一般,但在多候选词的@5任务上依然取得了最好效果,证明融合词簇对齐约束的方法在越南语到汉语的反向词典归纳任务中仍具有一定的提升效果。
表4 汉越反向词典归纳任务实验结果
Figure BDA0003459299260000102
Figure BDA0003459299260000111
(3)验证模型在汉越低资源环境下的有效性
为验证本发明方法在低资源场景下的有效性,模型在不同规模的汉越双语词典上进行了对比实验。词典以2000词作为最低规模,并逐次扩展500词。模型在不同词典规模下的实验结果如表5所示,其中,词簇词典规模代表从双语词典中提取出的对齐词簇数量。
表5 本发明模型在不同词典规模下的对齐准确率
Figure BDA0003459299260000112
通过对比表5与表3可知,在汉语到越南语的正向词典归纳任务(Zh→Vi)中,融合词簇对齐约束的方法仅使用2000词就超越了大部分基线模型在5000词上的实验效果。当词典规模达到3500词时,模型在@1和@5任务上的效果超越了所有基线模型。随着词典规模的增长,在4000-5000词时,模型在@5任务上的效果逐步趋于稳定,但在@1任务上的效果有略微下降,推测这是由于词典扩展过程中引入了更多近义词所导致,例如“好看,
Figure BDA0003459299260000113
”与“漂亮,xinh”。这种近义词对在共享词嵌入空间中的距离较近,容易使映射出现偏差,导致模型在单个候选词任务上的效果下降。但随着数据规模的扩展,模型效果再次提升。在越南语到汉语的反向词典归纳任务(Vi→Zh)中,随着词典规模的扩大,模型在@1和@5任务上的效果稳步提升,波动并不明显,并在5000词规模时取得了最好效果。
实验证明,融合词簇对齐约束的方法可以有效提升跨语言词嵌入模型在有限数据下的对齐效果,缓解汉越低资源任务中由于缺乏大规模双语词典导致映射矩阵对齐效果不佳的问题。
(4)实例分析
为直观反映融合词簇约束方法对模型映射准确性的影响,本发明选取了两个汉越词典归纳任务中的实例进行了对比说明。
表6 汉越词典归纳任务实例
Figure BDA0003459299260000121
表6为基线模型VecMap与本发明模型ClsMap在汉越词典归纳任务中的两个实例,模型分别输出五个与检索词余弦相似度最高的越南语单词作为候选词,候选词下面为对应的汉语翻译。表中的对齐词簇代表词簇词典中是否包含同检索词相关的对齐词簇,例如实例1中以非标注词“礼拜五”作为检索词,同时词簇词典中也含有表示“星期”的同主题对齐词簇。通过分析实例1可知,在@5任务上,本发明模型中的正确翻译词“thú_sáu”在相似度排序上相比基线模型前移了一位,效果更好。此外,基线模型的第一候选词为“thú”,对应汉语为“东西”,同检索词的语义相关性较低,而ClsMap模型中的前三位候选词同检索词的语义相关性更高。实例2则体现了当词簇词典中无相关词簇对齐信息时,模型在非标注词上的性能。通过对比表中数据可知,以非标注词“情感”作为检索词时,基线模型在@1任务上的对齐并不准确,而本发明方法在@1任务上实现了精确对齐,同时候选词的相似度排序同检索词的语义相关性更强。实例2充分证明融合词簇对齐约束的方法可以将词簇词典中学习到的空间结构特征迁移到其他未标注词簇上,使具有相近含义的词经过映射后距离更近,提升双语空间对齐的准确性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.融合词簇约束的汉越跨语言词嵌入方法,其特征在于:所述方法的具体步骤如下:
Step1、获取汉越单语词嵌入;
Step2、基于开源词库和在线词典,使用同主题词对和高频词对两种数据构建汉越双语词典,并基于不同类型的关联关系从词典中抽取对齐词簇,构建词簇词典;
Step3、将双语词典与词簇词典中的词对齐信息和词簇对齐信息融入映射矩阵的训练过程中,分别为汉语与越南语学习到的两个单独的正交映射矩阵;
Step4、将学习到的映射矩阵融入跨语言映射框架获取汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近,利用空间余弦相似度为词典外未经标注的汉语或越南语单词查找对应的翻译词;
所述Step2的具体步骤为:
Step2.1、基于多语公开数据集CLDR获取同主题对齐词对,其中包含月份、数字、颜色常用主题词的对齐词对;
Step2.2、构建停用词表,剔除汉语高频词中的助词、介词和语气词,并对剩余高频词进行人工筛选,去除特有名词及噪声词;
Step2.3、使用在线词典人工标注相应的越南语翻译,并剔除不包含在汉越单语词嵌入文件中的OOV词对;共完成构建5500对高质量的汉越双语词对,并从中随机抽取500对作为测试词典Test,剩余5000对作为汉越双语词典Seed;此外,通过汉越双语词典,分别得到词典对应的汉语与越南语词嵌入矩阵X′,Y′∈Rv×d;其中,v为词典大小,d代表词嵌入维度,X′={X′1,X′2,……,X′i,……,X′v},Y′={Y1′,Y2′,……,Yi′,……,Y′v},X′i与Yi′分别代表双语词典第i条词对所对应的汉、越单语词嵌入;
Step2.4、查找汉越双语词典中越南语翻译相同的词对,构建为一个初始的对齐词簇;然后,使用开源词库查找初始词簇在词典中的近义词对或同类词对用于扩充对齐词簇,构建为近义对齐词簇或同类对齐词簇,词典中的同主题词对作为一种封闭词类本身具有一定的弱相关性,能构建为同主题对齐词簇;近义词簇、同类词簇、同主题词簇三种类型的对齐词簇共同构成词簇词典Seed_Cls。
2.根据权利要求1所述的融合词簇约束的汉越跨语言词嵌入方法,其特征在于:所述Step1的具体步骤为:
Step1.1、去除汉越单语新闻语料中的数字、特殊字符和标点符号;
Step1.2、将越南语语料中的大写字母转换为小写字母;
Step1.3、对语料进行分词操作,汉语语料使用jieba工具进行分词,越南语语料使用Vncorenlp工具进行分词,并去除分词后长度小于20的句子;
Step1.4、将预处理好的汉越单语语料输入到单语词嵌入模型中获取汉越单语词嵌入空间X∈Rn×d,Y∈Rm×d;其中,n为训练得到的汉语词嵌入个数,m为越南语词嵌入个数,d代表词嵌入维度。
3.根据权利要求1所述的融合词簇约束的汉越跨语言词嵌入方法,其特征在于:所述Step3的具体步骤为:
Step3.1、为了更好地将词簇对齐信息融入映射矩阵的训练过程中,通过平均操作将词簇对齐进一步转换为簇心对齐;设现有词簇对齐信息{X′1,X′2,……X′s|Y1′,Y2′,……Yt′},其中s代表汉语词簇中的词嵌入个数,t代表越南语词簇中的词嵌入个数,所对应的簇心嵌入矩阵
Figure FDA0003924197960000021
Figure FDA0003924197960000022
的构建过程如下所示:
Figure FDA0003924197960000023
Figure FDA0003924197960000024
Figure FDA0003924197960000025
分别代表词簇对齐数据中汉语与越南语的簇心嵌入矩阵,l代表词簇对齐数据的规模,d代表词嵌入维度;
Step3.2、簇心嵌入与词典中的词嵌入维度相同,因此词对齐数据同词簇对齐数据能直接融合为训练数据D3,应用到映射矩阵的训练中;
Figure FDA0003924197960000026
分别代表训练数据D3中融合词对齐与词簇对齐数据后的汉语与越南语嵌入矩阵,其中,
Figure FDA0003924197960000027
词典对应的汉语与越南语词嵌入矩阵X′,Y′∈Rv×d;其中,v为词典大小,d代表词嵌入维度;
Step3.3、通过最小化词嵌入与簇心嵌入之间欧氏距离的平方和求解,模型在词对齐与词簇对齐数据上的联合损失函数如公式3所示:
Figure FDA0003924197960000031
X′i与Yi′分别代表双语词典第i条词对所对应的汉、越单语词嵌入;因为两个损失中的映射矩阵是共享的,因此,通过训练数据D3将损失函数进一步简化为如下公式:
Figure FDA0003924197960000032
Step3.4、当汉语与越南语学***方和等价于最大化点积,如公式5所示:
Figure FDA0003924197960000033
Tr(·)为迹运算,代表矩阵主对角线上所有元素之和,最优正交解为WX=U,WY=V,其中
Figure FDA0003924197960000034
Figure FDA0003924197960000035
的SVD解。
4.根据权利要求1所述的融合词簇约束的汉越跨语言词嵌入方法,其特征在于:所述Step4的具体步骤为:
Step4.1、使用汉语与越南语的单语词嵌入空间X,Y作为输入,将融合词簇对齐信息学习到的汉语与越南语学习到的两个单独的正交映射矩阵WX与WY融入跨语言映射框架VecMap中,经过归一化、白化、正交映射、去白化、重赋权重五个步骤得到汉语与越南语的共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近;
Step4.2、基于获得的汉越共享词嵌入空间,对于词典外任何一个未经标注的汉语或越南语单词,均能根据空间余弦相似度来查找该词在共享空间中对应的翻译词,设
Figure FDA0003924197960000036
Figure FDA0003924197960000037
分别为汉语与越南语单词,
Figure FDA0003924197960000038
分别为两个单词在共享空间中对应的汉语与越南语词嵌入,两词余弦相似度的计算过程如公式(6)所示,其中||·||2代表2-范数;
Figure FDA0003924197960000039
以汉语单词作为检索词,经过计算选取与其余弦相似度最高的越南语单词作为候选词,构建汉越对齐词对以实现汉越跨语言词嵌入;
以越南语单词作为检索词,经过计算选取与其余弦相似度最高的汉语单词作为候选词,构建汉越对齐词对以实现汉越跨语言词嵌入。
CN202210014277.4A 2022-01-06 2022-01-06 融合词簇约束的汉越跨语言词嵌入方法 Active CN114595688B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210014277.4A CN114595688B (zh) 2022-01-06 2022-01-06 融合词簇约束的汉越跨语言词嵌入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210014277.4A CN114595688B (zh) 2022-01-06 2022-01-06 融合词簇约束的汉越跨语言词嵌入方法

Publications (2)

Publication Number Publication Date
CN114595688A CN114595688A (zh) 2022-06-07
CN114595688B true CN114595688B (zh) 2023-03-10

Family

ID=81803984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210014277.4A Active CN114595688B (zh) 2022-01-06 2022-01-06 融合词簇约束的汉越跨语言词嵌入方法

Country Status (1)

Country Link
CN (1) CN114595688B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753557A (zh) * 2020-02-17 2020-10-09 昆明理工大学 融合emd最小化双语词典的汉-越无监督神经机器翻译方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112765977A (zh) * 2021-01-11 2021-05-07 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731901B2 (en) * 2009-12-02 2014-05-20 Content Savvy, Inc. Context aware back-transliteration and translation of names and common phrases using web resources
CN106372053B (zh) * 2015-07-22 2020-04-28 华为技术有限公司 句法分析的方法和装置
CN111310480B (zh) * 2020-01-20 2021-12-28 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN112257453B (zh) * 2020-09-23 2022-02-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法
CN112507732A (zh) * 2020-11-05 2021-03-16 昆明理工大学 融入双语词典的无监督汉-越神经机器翻译方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753557A (zh) * 2020-02-17 2020-10-09 昆明理工大学 融合emd最小化双语词典的汉-越无监督神经机器翻译方法
CN112287695A (zh) * 2020-09-18 2021-01-29 昆明理工大学 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN112765977A (zh) * 2021-01-11 2021-05-07 百果园技术(新加坡)有限公司 一种基于跨语言数据增强的分词方法及装置
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"融合词簇约束的汉越跨语言词嵌入";武照渊 等;《计算机工程》;20220226(第2期);全文 *

Also Published As

Publication number Publication date
CN114595688A (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
Ljubešić et al. New inflectional lexicons and training corpora for improved morphosyntactic annotation of Croatian and Serbian
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN112541343B (zh) 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN110276069B (zh) 一种中国盲文错误自动检测方法、***及存储介质
CN112580373B (zh) 一种高质量蒙汉无监督神经机器翻译方法
King Practical Natural Language Processing for Low-Resource Languages.
CN113743133A (zh) 融合词粒度概率映射信息的汉越跨语言摘要方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
Atef et al. AQAD: 17,000+ arabic questions for machine comprehension of text
CN114595688B (zh) 融合词簇约束的汉越跨语言词嵌入方法
El-Kahlout et al. Translating between morphologically rich languages: An Arabic-to-Turkish machine translation system
CN114996438B (zh) 一种多策略强化学习的汉越跨语言摘要生成方法
Yue et al. Translationese and interlanguage in inverse translation: A case study
Hull Software tools to support the construction of bilingual terminology lexicons
CN113569560A (zh) 一种汉语二语作文自动评分方法
CN111597827A (zh) 一种提高机器翻译准确度的方法及其装置
Maksymenko et al. Improving the machine translation model in specific domains for the ukrainian language
Bircher Toulouse and Cahors are French Cities, but Ti* louse and Caa. Qrs as well
CN115688904B (zh) 一种基于名词译文提示的翻译模型构建方法
Callison-Burch Active learning for statistical machine translation
Namboodiri et al. On using classical poetry structure for Indian language post-processing
CN116702898B (zh) 一种基于知识表示学习的文言文知识迁移方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant