CN110956043A - 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质 - Google Patents

基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质 Download PDF

Info

Publication number
CN110956043A
CN110956043A CN201911303575.XA CN201911303575A CN110956043A CN 110956043 A CN110956043 A CN 110956043A CN 201911303575 A CN201911303575 A CN 201911303575A CN 110956043 A CN110956043 A CN 110956043A
Authority
CN
China
Prior art keywords
alias
word embedding
vocabulary
normalization
embedding vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911303575.XA
Other languages
English (en)
Inventor
赵强利
蒋艳凰
李�根
张少伟
雷鹏
余硕军
万斌
贺依依
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genetalks Bio Tech Changsha Co ltd
Original Assignee
Genetalks Bio Tech Changsha Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genetalks Bio Tech Changsha Co ltd filed Critical Genetalks Bio Tech Changsha Co ltd
Priority to CN201911303575.XA priority Critical patent/CN110956043A/zh
Publication of CN110956043A publication Critical patent/CN110956043A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质,本发明领域专业词汇词嵌入向量训练方法的实施步骤包括:获取领域专业词汇的正规名称及其别名,建立别名表;对训练文献进行别名标准化;使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本发明能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。

Description

基于别名标准化的领域专业词汇词嵌入向量训练方法、*** 及介质
技术领域
本发明涉及自然语言处理技术,具体涉及一种基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质。
背景技术
在自然语言处理中,命名实体识别(Named Entity Recognition,简称NER)能够从专业文献中自动获取特定领域的命名实体,是构建领域基础数据库的一种重要方法。以生物医学领域为例,PubMed文献库提供了近3000万篇的论文摘要和500万篇论文全文,是生物医学领域文本挖掘的重要数据来源。从这些文献中自动获取基因、变异、疾病、药物等实体及其相互间的关系,能够为生物医学领域构建完善的基础数据库。
目前基于深度学习的自然语言理解技术是命名实体识别的重要方法,这种方法需要以文献中单词的词嵌入向量作为深度学习算法的输入。在传统word2vec词嵌入向量的学习中,学习获得的词嵌入向量的准确度与该单词在训练文献中出现的频次密切相关,在训练文献中出现次数越多的单词,经过训练得到的该单词的词嵌入向量越能准确地表述这一单词的词性、语义等信息。实验测试表明,对于在训练文献中出现次数少于10次的单词,获得的词嵌入向量准确度很低,这些低质量的词嵌入向量会大大降低命名实体识别的准确度。
对于诸如生物医学等专业应用领域,通常都存在大量的专业词汇,由于每篇文献讨论的主题都互不相同,每个含义的专业词汇在训练文献中出现的次数都很少。而在获取领域专业知识时,这些词汇常常就是文本挖掘需要识别的命名实体。在实际应用中我们发现,在专业领域内,经常是多种不同的词汇表示同一含义,有的是口语化的词汇,有的是书面术语词汇,有的是不同地域使用不同词汇,这种别名现象进一步降低了专业词汇在文献中出现的次数,导致这些专业词汇的词向量表示不准确。专业词汇的词向量学习不准确,词嵌入向量就无法准确反映出单词的词义及其在句子中的词性、语义等信息,后续基于深度学习的命名实体识别也无法获得准确的识别结果。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质,本发明能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于别名标准化的领域专业词汇词嵌入向量训练方法,实施步骤包括:
1)获取领域专业词汇的正规名称及其别名,建立别名表;
2)对训练文献进行别名标准化;
3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量。
4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
可选地,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。
可选地,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括正规名称和与该正规名称具有相同含义的所有别名的列表。
可选地,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。
可选地,步骤3)中的词嵌入向量计算工具为word2vec。
此外,本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练***,包括:
映射输入程序单元,用于输入领域专业词汇的正规名称及其别名;
别名标准化程序单元,用于对训练文献进行别名标准化;
词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到所有单词的词嵌入向量。
此外,本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练***,包括计算机设备,该计算机设备被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。
此外,本发明还提供一种基于别名标准化的领域专业词汇词嵌入向量训练***,包括计算机设备,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
和现有技术相比,本发明具有下述优点:领域专业词汇通常有多个别名,由于表示同一含义的专业词汇在文献中以各种不同的别名形式存在,使得该含义的正规名和别名在文献中出现次数都很低,从而导致获得的词嵌入向量准确度很低,这些低质量的词嵌入向量会大大降低命名实体识别的准确度。本发明构建对应的正规名和别名,然后将文献中出现的所有别名均替换成对应的正规名,最后再对标准化后的文献进行词嵌入的学习,通过上述的别名标准化操作,能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。
附图说明
图1为本发明实施例方法的基本流程示意图。
具体实施方式
如图1所示,本实施例基于别名标准化的领域专业词汇词嵌入向量训练方法的实施步骤包括:1)输入领域专业词汇的正规名称及其别名,建立别名表;2)对训练文献进行别名标准化;3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本实施例基于别名标准化的领域专业词汇词嵌入向量训练方法通过构建对应的正规名和别名,然后将文献中出现的所有别名均替换成对应的正规名,最后再对标准化后的文献进行词嵌入的学习,通过上述的别名标准化操作,能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。
本实施例中,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。
本实施例中,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括正规名称和与该正规名称具有相同含义的所有别名的列表。
本实施例中,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。
本实施例中,步骤3)中的词嵌入向量计算工具为word2vec。
此外,本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练***,包括:
映射输入程序单元,用于获取领域专业词汇的正规名称及其别名,建立别名表;
别名标准化程序单元,用于对训练文献进行别名标准化;
词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
别名词嵌入向量修改程序单元,用于将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
此外,本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练***,包括计算机设备,该计算机设备被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。
此外,本实施例还提供一种基于别名标准化的领域专业词汇词嵌入向量训练***,包括计算机设备,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于实施步骤包括:
1)获取领域专业词汇的正规名称及其别名,建立别名表;
2)对训练文献进行别名标准化;
3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
2.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。
3.根据权利要求2所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括一个正规名称和与该正规名称具有相同含义的所有别名的列表。
4.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。
5.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤3)中的词嵌入向量计算工具为word2vec。
6.一种基于别名标准化的领域专业词汇词嵌入向量训练***,其特征在于包括:
映射输入程序单元,用于获取领域专业词汇的正规名称及其别名,建立别名表;
别名标准化程序单元,用于对训练文献进行别名标准化;
词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
别名词嵌入向量修改程序单元,用于将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。
7.一种基于别名标准化的领域专业词汇词嵌入向量训练***,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。
8.一种基于别名标准化的领域专业词汇词嵌入向量训练***,包括计算机设备,其特征在于,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~5中任意一项所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。
CN201911303575.XA 2019-12-17 2019-12-17 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质 Pending CN110956043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911303575.XA CN110956043A (zh) 2019-12-17 2019-12-17 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911303575.XA CN110956043A (zh) 2019-12-17 2019-12-17 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质

Publications (1)

Publication Number Publication Date
CN110956043A true CN110956043A (zh) 2020-04-03

Family

ID=69982219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911303575.XA Pending CN110956043A (zh) 2019-12-17 2019-12-17 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质

Country Status (1)

Country Link
CN (1) CN110956043A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459918A (zh) * 2020-04-26 2020-07-28 上海烜翊科技有限公司 一种基于元数据库的体系建模命名方法
CN111984776A (zh) * 2020-08-20 2020-11-24 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN108763205A (zh) * 2018-05-21 2018-11-06 阿里巴巴集团控股有限公司 一种品牌别名识别方法、装置及电子设备
CN108922633A (zh) * 2018-06-22 2018-11-30 北京海德康健信息科技有限公司 一种疾病名称标准化规范方法及规范***
CN109949938A (zh) * 2017-12-20 2019-06-28 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN109961259A (zh) * 2019-03-28 2019-07-02 上海中通吉网络技术有限公司 地址标准化处理方法和设备
CN110008300A (zh) * 2019-04-11 2019-07-12 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021553A (zh) * 2017-09-30 2018-05-11 北京颐圣智能科技有限公司 疾病术语的词处理方法、装置及计算机设备
CN109949938A (zh) * 2017-12-20 2019-06-28 北京亚信数据有限公司 用于将医疗非标准名称标准化的方法及装置
CN108763205A (zh) * 2018-05-21 2018-11-06 阿里巴巴集团控股有限公司 一种品牌别名识别方法、装置及电子设备
CN108922633A (zh) * 2018-06-22 2018-11-30 北京海德康健信息科技有限公司 一种疾病名称标准化规范方法及规范***
CN109961259A (zh) * 2019-03-28 2019-07-02 上海中通吉网络技术有限公司 地址标准化处理方法和设备
CN110008300A (zh) * 2019-04-11 2019-07-12 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
中国地名研究所编: "南极地名论文集", 北京:中国社会出版社, pages: 159 - 160 *
冯国明;张晓冬;刘素辉;: "基于自主学习的专业领域文本DBLC分词模型", no. 05, pages 44 - 51 *
张翔 等: "Character-level Convolution Networks for Text Classification", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS. MASSACHUSETTS: MIT PRESS, pages 649 - 657 *
张翔 等: "基于文本分类的字符级卷积网络", pages 649 - 657 *
陈铁明;金成强;吕明琪;朱添田;: "基于样本增强的网络恶意流量智能检测方法", 通信学报, vol. 41, no. 06, pages 132 - 142 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459918A (zh) * 2020-04-26 2020-07-28 上海烜翊科技有限公司 一种基于元数据库的体系建模命名方法
CN111984776A (zh) * 2020-08-20 2020-11-24 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法
CN111984776B (zh) * 2020-08-20 2023-08-11 中国农业科学院农业信息研究所 一种基于词向量模型的机构名称规范方法

Similar Documents

Publication Publication Date Title
CN108121700B (zh) 一种关键词提取方法、装置及电子设备
WO2021042503A1 (zh) 信息分类抽取方法、装置、计算机设备和存储介质
US10755048B2 (en) Artificial intelligence based method and apparatus for segmenting sentence
CN109408824B (zh) 用于生成信息的方法和装置
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
TW202020691A (zh) 特徵詞的確定方法、裝置和伺服器
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN109446521B (zh) 命名实体识别方法、装置、电子设备、机器可读存储介质
CN112001188A (zh) 基于向量化语义规则快速实现nl2sql的方法和装置
CN111274797A (zh) 用于终端的意图识别方法、装置、设备及存储介质
CN112287680B (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
GB2555207A (en) System and method for identifying passages in electronic documents
CN110750977A (zh) 一种文本相似度计算方法及***
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN113449489B (zh) 标点符号标注方法、装置、计算机设备和存储介质
US11327971B2 (en) Assertion-based question answering
CN108170708B (zh) 一种车辆实体识别方法、电子设备、存储介质、***
CN111881297A (zh) 语音识别文本的校正方法及装置
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、***及介质
CN109871544B (zh) 基于中文病历的实体识别方法、装置、设备及存储介质
CN115525757A (zh) 合同摘要的生成方法和装置、合同关键信息提取模型的训练方法
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN112818096A (zh) 对话生成方法及其装置
CN114842982B (zh) 一种面向医疗信息***的知识表达方法、装置及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination