CN111950303B - 医疗文本翻译方法、装置及存储介质 - Google Patents
医疗文本翻译方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111950303B CN111950303B CN202011115345.3A CN202011115345A CN111950303B CN 111950303 B CN111950303 B CN 111950303B CN 202011115345 A CN202011115345 A CN 202011115345A CN 111950303 B CN111950303 B CN 111950303B
- Authority
- CN
- China
- Prior art keywords
- word
- medical
- translated
- feature vector
- medical text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 246
- 238000012545 processing Methods 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 15
- 208000005718 Stomach Neoplasms Diseases 0.000 description 10
- 206010017758 gastric cancer Diseases 0.000 description 9
- 201000011549 stomach cancer Diseases 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 210000000981 epithelium Anatomy 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及医疗科技领域,具体公开了一种医疗文本翻译方法、装置及存储介质。该方法包括:获取待翻译医疗文本;将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;获取与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;根据所述第二特征向量,对所述待翻译医疗文本进行翻译。本申请实施例有利于提高医疗文本翻译的准确率。
Description
技术领域
本申请涉及文本识别技术领域,具体涉及一种医疗文本翻译方法、装置及存储介质。
背景技术
机器翻译经历了很长的一段时间,从统计语言模型到深度学习模型有了很大进步,目前翻译的进步主要体现在通用的翻译领域,比如,对日常用语的翻译。但是,在医疗文本翻译方面进步缓慢。主要是因为医疗领域上存在大量的专有名词和医学术语,导致,在医学文献翻译以及与医学文献相关的语句上的翻译还存在很大缺陷,经常出现翻译错误的情况,对于这种情况需要人工调整。
因此,现有对医疗文本的翻译精度低,用户体验差。
发明内容
本申请实施例提供了一种医疗文本翻译方法、装置及存储介质。通过结合医学知识图谱,提高医疗文本翻译的准确率。
第一方面,本申请实施例提供一种医疗文本翻译方法,包括:
获取待翻译医疗文本;
将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;
获取与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;
将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;
根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
第二方面,本申请实施例提供一种医疗文本翻译装置,包括:
获取单元,用于获取待翻译医疗文本;
处理单元,用于将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;
所述获取单元,还用于获取与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;
所述处理单元,还用于将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;
所述处理单元,还用于根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
第三方面,本申请实施例提供一种医疗文本翻译装置,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,在待翻译医疗文本进行翻译的过程中,融合了该待翻译医疗文本对应的医学知识图谱,可以使第二特征向量中融合有与该待翻译文本对应的先验知识,进而提高翻译的准确,尤其是提高了对医学专用术语或医学专有名词翻译的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种医疗文本翻译方法的流程示意图;
图2为本申请实施例提供的一种神经网络的示意图;
图3为本申请实施例提供的一种自注意力机制的示意图;
图4为本申请实施例提供的一种神经网络训练方法的流程示意图;
图5为本申请实施例提供的一种医疗文本翻译装置的结构示意图;
图6为本申请实施例提供的一种医疗文本翻译装置的功能单元组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了便于理解本申请的技术方案,对本申请涉及的相关术语进行解释说明。
医学知识图谱:是由医学实体,与该医学实体对应的描述(即对该医学实体的解释说明)以及与该医学实体对应的医疗方案所组成。比如,胃癌医学知识图谱包括胃癌医学的医学实体“胃癌”,其对应的描述为“胃癌是起源于胃黏膜上皮的恶性肿瘤”,其对应的医疗方案包括:胃癌的差异性、胃癌症状、胃癌的扩散和转移途径,等等。
参阅图1,图1为本申请实施例提供的一种医疗文本翻译方法的流程示意图。该方法应用于医疗文本翻译装置。该方法包括以下步骤:
101:医疗文本翻译装置获取待翻译医疗文本。
可选的,该待翻译医疗文本可以是用户在该医疗文本翻译装置的信息输入域中输入的。
102:医疗文本翻译装置将所述待翻译医疗文本进行语义特征提取,得到第一特征向量。
示例性的,对每个待翻译文本中的每个单词进行嵌入处理,得到与每个单词对应的词向量。其中,本申请中所提到的单词在中文中就是一个完整的字,在英文中就是一个完整的单词,后面涉及的单词均与此类似,不再叙述。
对每个单词进行词嵌入处理可以通过热编码(one-hot)实现。比如,可以根据每个单词在该待翻译医疗文本中的位置进行编码。比如,待翻译文本为“I am a student”,对每个单词进行one-hot编码可得到单词“I”对应的词向量为(1,0,0,0),单词“am”对应的词向量为(0,1,0,0),单词“a”对应的词向量为(0,0,1,0),单词“student”对应的词向量为(0,0,0,1)。
然后,根据每个单词对应的词向量进行语义特征提取,得到该第一特征向量。其中,进行语义特征提取可以通过语义特征提取网络实现,该语义特征提取网络是预先训练好的,后面叙述对该语义特征提取网络的训练过程,在此不做过多描述。
在本申请的一个实施方式中,该语义特征提取网络的数量可以为一个或多个,在该语义特征提取网络的数量为多个的情况下,需要将上一个语义特征提取网络的输出结果作为下一个语义特征提取网络的输入数据。示例性的,每个语义特征提取网络可以为长短期记忆网络或者循环神经网络的,等等。
本申请中以语义特征提取网络的数量为一个举例说明。
如图2所示,将每个单词对应的词向量输入到该语义特征提取网络,对该待翻译文本进行语义特征提取,得到该第一特征向量。
在本申请的一个实施方式中,该语义特征提取网络中还包含有注意力模块。因此,通过该注意力模块对每个单词对应的词向量进行加权处理,得到每个单词对应的目标词向量。
示例性的,如图3所示,对单词A对应的词向量进行编码,得到与该单词A对应的关键值向量、查询向量以及价值向量,所述单词A为所述待翻译医疗文本中的任意一个单词;然后,确定该单词A对应的查询向量与每个单词对应的关键值向量之间的相似度,并将相似度作为单词A与每个单词之间的权重;根据单词A与每个单词之间的权重,对每个单词对应的价值向量进行加权处理,得到单词A对应的目标词向量。
示例性的,每个单词对应的查询向量可以通过公式(1)表示:
示例性的,每个单词对应的关键值向量可以通过公式(2)表示:
示例性的,每个单词对应的价值向量可以通过公式(3)表示:
然后,确定单词A的查询向量与每个单词对应的关键值向量之间的相似度,得到该单词A与每个单词之间的权重,示例性的,单词A与每个单词之间的权重可通过公式(4)表示:
最后,根据该单词A与每个单词之间的权重,对每个单词对应的价值向量进行加权处理,得到该单词A对应的第四特征向量。
示例性的,单词A对应的第四特征向量可通过公式(5)表示:
可以看出,根据自注意力机制,可以将前后单词对当前单词的影响融合到该当前单词对应的目标词向量中,而不是孤立的识别每个单词,即融合了该当前单词所在的上下文信息,可提高翻译准确率。
103:医疗文本翻译装置获取与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱。
示例性的,可以先对医疗领域的所有医学知识图谱进行向量化,得到每个医学知识图谱对应的第三特征向量。由于医学知识图谱本质是由多个医疗文本组成的关系。因此,也可以通过类似词嵌入的方法分别对医学知识图谱中包含的每个医疗文本进行向量化,然后,再把多个医疗文本对应的多个个词向量进行拼接,得到每个医学图谱对应的第三特征向量。
进一步地,确定每个医学知识图谱对应的第一实体词,根据该第一实体词为每个医学知识图谱对应的第三特征向量打上标签,比如,该第一实体词为胃癌,则为该第三特征向量打上“胃癌”的标签;然后,确定该待翻译文本中的第二实体词,根据该第二实体词确定第二实体标签;最后,将该第二实体标签与每个第三特征向量对应的第一实体标签一一比对,得到与该第二实体标签匹配的第一实体标签,将该匹配的第一实体标签对应的第三特征向量作为与该待翻译医疗文本对应的目标特征向量。
示例性的,还可以根据每个医学知识图谱中的第一实体词,对医疗领域中的所有医学知识图谱添加第一实体标签,即识别每个医学知识图谱的第一实体词,根据该第一实体词为每个医学知识图谱添加第一实体标签;然后,确定与该待翻译文本对应的第二实体标签,即识别该待翻译文本中的第二实体词,根据该第二实体词确定该待翻译文本对应的第二实体标签;最后,确定与该第二实体标签匹配的第一实体标签,并将该匹配的第一实体标签对应的医学知识图谱作为目标医学知识图谱;对该目标医学知识图谱进行向量化,得到与该待翻译医疗文本对应的目标特征向量。
本申请中以先确定目标医学知识图谱,然后对目标医学知识图谱进行向量化为为例进行说明。
示例性的,如图2所示,可以通过图谱转换网络对医学知识图谱进行向量化,得到目标特征向量,其中,该图谱转换网络可以为deepwalk网络或者transE网络,等等。本申请不对图谱转换网络的类型进行限定。
应理解,对医学知识图谱或者待翻译文本进行实体词识别,可以通过神经网络执行,也可以通过字典匹配实现,本申请对实体词的识别方式不进行限定。其中,该神经网络可以为卷积神经网络、循环神经网络、长短期记忆网络,bert模型,等等。
104:医疗文本翻译装置将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量。
示例性的,将该第一特征向量与该目标特征向量进行横向拼接,得到第二特征向量。比如,第一特征向量为(0,0,0,……,1),目标特征向量为(1,0,0……,1),则将第一特征向量和第二特征向量进行拼接,得到第三特征向量为(0,0,0,……,1,1,0,0……,1)。
105:医疗文本翻译装置根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
示例性的,如图2所示,可将该第三特征向量输入到解码网络进行解码,得到该待翻译文本对应的翻译结果。
其中,使用特征向量进行翻译可以通过现有的解码网络(Decoder)实现。
具体的,该解码网络包括多个堆栈层。将该第三特征向量先输入到该多个堆栈层中的第一个堆栈层,得到第三特征向量落入字典库中的每个单词的概率,根据落入每个单词的概率确定第一个堆栈层的翻译结果,即将概率最大所对应的单词作为第一个堆栈层的翻译结果;然后,将第一个堆栈层的翻译结果以及该第三特征向量输入到第二个堆栈层继续进行翻译,翻译出第一个单词和第二个单词;依次类推,直至最后一个堆栈层输出该待翻译文本对应的翻译结果。
示例性的,如图2所示,可通过第一堆栈层翻译出第一单词“我”;然后,通过第二个堆栈层翻译出第一单词“我”和第二单词“患”;依次类推,直至最后一个堆栈层翻译出“我患有三种末期胃癌”。
可以看出,在本申请实施例中,在待翻译医疗文本进行翻译的过程中,融合了该待翻译医疗文本对应的医学知识图谱,可以使第二特征向量中融合有与该待翻译文本对应的先验知识,进而提高翻译的准确,尤其是提高了对医学专用术语或医学专有名词翻译的准确率。
在一些可能的实施方式中,所述待翻译医疗文本包括中文医疗文本或英文医疗文本,且在所述待翻译医疗文本为中文医疗文本的情况下,所述医学知识图谱为中文医学知识图谱,在所述待翻译医疗文本为英文医疗文本的情况下,所述医学知识图谱为英文医学知识图谱。
应理解,上述待翻译医疗文本的语言类型不应对本申请构成限定。在实际应用中,该待翻译医疗文本可以为任意一种语言的医疗文本,且该医学知识图谱为与该语言类型对应的医学知识图谱。
在一些可能的实施方式中,在将所述待翻译医疗文本进行语义特征提取,得到第一特征向量之前,所述方法还包括:
获取所述待翻译医疗文本中的垂类关键词以及与所述垂类关键词对应的第三实体词;
根据所述垂类关键词,对所述第三实体词进行标准化,得到第四实体词;
使用所述第四实体词替换待翻译文本中的所述第三实体词,得到新的待翻译医疗文本,使用所述新的待医疗翻译文本进行翻译。
示例性的,可对该垂类关键词中的每个单词进行词嵌入处理,得到该垂类关键词中的每个单词对应的词向量;然后,根据该垂类关键词中的每个单词对应的词向量进行语义特征提取,得到用于表征该垂类关键词的语义特征的第三特征向量;对该第三实体词进行词嵌入处理,得到该第三实体词中的每个单词对应的词向量;然后,根据自注意机制,对该第三特征向量以及该第三实体词中的每个单词对应的词向量进行处理,得到该第三实体词中的每个单词对应的目标词向量,即计算该第三特征向量与该第三实体词中的每个单词对应的词向量之间的相似度,并将该相似度作为该第三特征向量与该每个单词之间的权重,然后,将每个单词对应的权重与该单词对应的词向量进行点乘运算,得到与每个单词对应的目标词向量;根据该第三实体词中的每个单词对应的目标词向量进行语义特征提取,得到用于表征该第三实体词的第四特征向量;最后,根据该第四特征向量,确定落入各个标准化实体词的概率,将概率最大对应的标准化关键词作为该第四实体词。
其中,标准化关键词是预先对医疗领域的各种疾病对应的实体词进行标准化后的关键词。该标准化关键词与疾病之间的关系是清楚无误,且一一对应的。
可以理解,如果该垂类关键词或者第三实体词为英文单词,则对该垂类关键词进行词嵌入处理,就是对该垂类关键词或者第三实体词为英文单词中的每个字符进行词嵌入处理,得到每个字符对应的字符向量。
可以看出,在本实施方式中,先对实体词进行标准化处理,即使用户输入的待翻译文本中的实体词是错误的,也可以转化为对应的标准化关键词,由于标准化关键词是清楚无误的,避免了由于用户输入错误带来的翻译错误问题。而且,在标准化的过程中,加入了自注意力机制,考虑第三实体词与该垂类关键词之间的匹配度,进而可以放大该第三实体词中属于医疗领域的单词的作用,弱化该第三实体词中不属于医疗领域的单词的作用,可提高标准化的准确度。
在本申请的一个实施方式中,本申请的医疗文本翻译方法还可以应用到智慧医疗领域。比如,医生可以通过该医疗文本翻译方法快速、准确的,得到翻译结果,从而可以使用该翻译结果进行资料查询或者病历查询,进而可以有效的辅助医生的诊断过程,推动医疗科技的发展。
参阅图4,图4为本申请实施例提供的一种神经网络训练方法的流程示意图。该方法包括以下步骤:
401:获取训练文本。
其中,该训练文本是已标注好的真实翻译结果的训练文本,即该训练文本包括有训练标签。
402:将所述训练文本输入到所述神经网络,得到对所述训练文本的翻译结果。
示例性的,可通过该神经网络对该训练文本进行语义特征提取,得到该训练文本对应的特征向量;同样,对该训练文本对应的医学知识图谱进行向量化,得到与该训练样本对应的目标特征向量;将该目标特征向量与该特征向量进行拼接,并使用拼接后的向量进行翻译。
403:根据所述训练文本的翻译结果以及训练标签,调整所述神经网络的网络参数,以对所述神经网络进行训练。
即根据该翻译结果与该训练标签之间的差异,确定第一损失;根据该第一损失以及梯度下降法更新该神经网络的网络参数。
示例性的,第一损失可以通过公式(6)表示:
参阅图5,图5为本申请实施例提供的一种医疗文本翻译装置的结构示意图。如图5所示,医疗文本翻译装置500包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:
获取待翻译医疗文本;
将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;
获取与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;
将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;
根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
在一些可能的实施方式中,在获取与所述待翻译医疗文本对应的目标特征向量方面,上述程序具体用于执行以下步骤的指令:
医疗领域中的所有医学知识图谱进行向量化,得到每个医学知识图谱对应的第三特征向量,并根据每个医学知识图谱中的第一实体词,为每个医学知识图谱对应的第三特征向量添加第一实体标签;
根据所述待翻译文本中的第二实体词,确定与所述待翻译文对应的第二实体标签;
确定与所述第二实体标签匹配的第一实体标签,并将所述匹配的第一实体标签对应的第三特征向量作为与所述待翻译医疗文本对应的目标特征向量。
在一些可能的实施方式中,在获取与所述待翻译医疗文本对应的目标特征向量方面,上述程序具体用于执行以下步骤的指令:
根据每个医学知识图谱中的第一实体词,对医疗领域中的所有医学知识图谱添加第一实体标签;
根据所述待翻译文本中的第二实体词,确定与所述待翻译文对应的第二实体标签;
确定与所述第二实体标签匹配的第一实体标签,并将与所述匹配的第一实体标签对应的医学知识图谱作为目标医学知识图谱;
对所述目标医学知识图谱进行向量化,得到与所述待翻译医疗文本对应的目标特征向量。
在一些可能的实施方式中,在将所述待翻译医疗文本进行语义特征提取,得到第一特征向量方面,上述程序具体用于执行以下步骤的指令:
对所述待翻译医疗文本中的每个单词进行词嵌入处理,得到与每个单词对应的词向量;
根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量。
在一些可能的实施方式中,在根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量之前,上述程序还用于执行以下步骤的指令:
根据自注意力机制以及每个单词对应的词向量,确定每个单词对应的目标词向量;
在根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量方面,上述程序具体用于执行以下步骤的指令:根据每个单词对应的目标词向量进行语义特征提取,得到所述第一特征向量。
在一些可能的实施方式中,在根据自注意力机制以及每个单词对应的词向量,确定每个单词对应的目标特征向量方面,上述程序具体用于执行以下步骤的指令:
对单词A对应的词向量进行编码,得到与所述单词A对应的关键值向量、查询向量以及价值向量,所述单词A为所述待翻译医疗文本中的任意一个单词;
确定所述单词A对应的查询向量与每个单词对应的关键值向量之间的相似度,并将所述相似度作为所述单词A与每个单词之间的权重;
根据所述单词A与每个单词之间的权重,对每个单词对应的价值向量进行加权处理,得到所述单词A对应的目标词向量。
在一些可能的实施方式中,所述待翻译医疗文本包括中文医疗文本或英文医疗文本,且在所述待翻译医疗文本为中文医疗文本的情况下,所述医学知识图谱为中文医学知识图谱,在所述待翻译医疗文本为英文医疗文本的情况下,所述医学知识图谱为英文医学知识图谱。
参阅图6,图6本申请实施例提供的一种医疗文本翻译装置的功能单元组成框图。医疗文本翻译装置600包括:获取单元601和处理单元602,其中:
获取单元601,用于获取待翻译医疗文本;
处理单元602,用于将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;
获取单元601,还用于获取与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;
处理单元602,还用于将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;
处理单元602,还用于根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
在一些可能的实施方式中,在获取与所述待翻译医疗文本对应的目标特征向量方面,获取单元601,具体用于:
医疗领域中的所有医学知识图谱进行向量化,得到每个医学知识图谱对应的第三特征向量,并根据每个医学知识图谱中的第一实体词,为每个医学知识图谱对应的第三特征向量添加第一实体标签;
根据所述待翻译文本中的第二实体词,确定与所述待翻译文对应的第二实体标签;
确定与所述第二实体标签匹配的第一实体标签,并将所述匹配的第一实体标签对应的第三特征向量作为与所述待翻译医疗文本对应的目标特征向量。
在一些可能的实施方式中,在获取与所述待翻译医疗文本对应的目标特征向量方面,获取单元601,具体用于:
根据每个医学知识图谱中的第一实体词,对医疗领域中的所有医学知识图谱添加第一实体标签;
根据所述待翻译文本中的第二实体词,确定与所述待翻译文对应的第二实体标签;
确定与所述第二实体标签匹配的第一实体标签,并将与所述匹配的第一实体标签对应的医学知识图谱作为目标医学知识图谱;
对所述目标医学知识图谱进行向量化,得到与所述待翻译医疗文本对应的目标特征向量。
在一些可能的实施方式中,在将所述待翻译医疗文本进行语义特征提取,得到第一特征向量方面,处理单元602,具体用于:
对所述待翻译医疗文本中的每个单词进行词嵌入处理,得到与每个单词对应的词向量;
根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量。
在一些可能的实施方式中,在根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量之前,处理单元602,还用于:根据自注意力机制以及每个单词对应的词向量,确定每个单词对应的目标词向量;
在根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量方面,处理单元602,具体用于:根据每个单词对应的目标词向量进行语义特征提取,得到所述第一特征向量。
在一些可能的实施方式中,在根据自注意力机制以及每个单词对应的词向量,确定每个单词对应的目标特征向量方面,处理单元602,具体用于:
对单词A对应的词向量进行编码,得到与所述单词A对应的关键值向量、查询向量以及价值向量,所述单词A为所述待翻译医疗文本中的任意一个单词;
确定所述单词A对应的查询向量与每个单词对应的关键值向量之间的相似度,并将所述相似度作为所述单词A与每个单词之间的权重;
根据所述单词A与每个单词之间的权重,对每个单词对应的价值向量进行加权处理,得到所述单词A对应的目标词向量。
在一些可能的实施方式中,所述待翻译医疗文本包括中文医疗文本或英文医疗文本,且在所述待翻译医疗文本为中文医疗文本的情况下,所述医学知识图谱为中文医学知识图谱,在所述待翻译医疗文本为英文医疗文本的情况下,所述医学知识图谱为英文医学知识图谱。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种医疗文本翻译方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种医疗文本翻译方法的部分或全部步骤。
应理解,本申请中的医疗文本翻译装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices,简称:MID)或穿戴式设备等。上述医疗文本翻译装置仅是举例,而非穷举,包含但不限于上述医疗文本翻译装置。在实际应用中,上述医疗文本翻译装置还可以包括:智能车载终端、计算机设备等等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种医疗文本翻译方法,其特征在于,包括:
获取待翻译医疗文本;
将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;
获取与所述待翻译医疗文本对应的目标特征向量,具体包括:对医疗领域中的所有医学知识图谱进行向量化,得到每个医学知识图谱对应的第三特征向量,并根据每个医学知识图谱中的第一实体词,为每个医学知识图谱对应的第三特征向量添加第一实体标签;根据所述待翻译医疗文本中的第二实体词,确定与所述待翻译医疗文本对应的第二实体标签;确定与所述第二实体标签匹配的第一实体标签,并将所述匹配的第一实体标签对应的第三特征向量作为与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;
将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;
根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
2.一种医疗文本翻译方法,其特征在于,包括:
获取待翻译医疗文本;
将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;
获取与所述待翻译医疗文本对应的目标特征向量,具体包括:根据每个医学知识图谱中的第一实体词,对医疗领域中的所有医学知识图谱添加第一实体标签;根据所述待翻译医疗文本中的第二实体词,确定与所述待翻译医疗文本对应的第二实体标签;确定与所述第二实体标签匹配的第一实体标签,并将与所述匹配的第一实体标签对应的医学知识图谱作为目标医学知识图谱;对所述目标医学知识图谱进行向量化,得到与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;
将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;
根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述待翻译医疗文本进行语义特征提取,得到第一特征向量,包括:
对所述待翻译医疗文本中的每个单词进行词嵌入处理,得到与每个单词对应的词向量;
根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量。
4.根据权利要求3所述的方法,其特征在于,在根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量之前,所述方法还包括:
根据自注意力机制以及每个单词对应的词向量,确定每个单词对应的目标词向量;
所述根据每个单词对应的词向量进行语义特征提取,得到所述第一特征向量,包括:
根据每个单词对应的目标词向量进行语义特征提取,得到所述第一特征向量。
5.根据权利要求4所述的方法,其特征在于,所述根据自注意力机制以及每个单词对应的词向量,确定每个单词对应的目标特征向量,包括:
对单词A对应的词向量进行编码,得到与所述单词A对应的关键值向量、查询向量以及价值向量,所述单词A为所述待翻译医疗文本中的任意一个单词;
确定所述单词A对应的查询向量与每个单词对应的关键值向量之间的相似度,并将所述相似度作为所述单词A与每个单词之间的权重;
根据所述单词A与每个单词之间的权重,对每个单词对应的价值向量进行加权处理,得到所述单词A对应的目标词向量。
6.根据权利要求1或2所述的方法,其特征在于,
所述待翻译医疗文本包括中文医疗文本或英文医疗文本,且在所述待翻译医疗文本为中文医疗文本的情况下,所述医学知识图谱为中文医学知识图谱,在所述待翻译医疗文本为英文医疗文本的情况下,所述医学知识图谱为英文医学知识图谱。
7.一种医疗文本翻译装置,其特征在于,包括:
获取单元,用于获取待翻译医疗文本;
处理单元,用于将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;
所述获取单元,还用于获取与所述待翻译医疗文本对应的目标特征向量,具体用于:对医疗领域中的所有医学知识图谱进行向量化,得到每个医学知识图谱对应的第三特征向量,并根据每个医学知识图谱中的第一实体词,为每个医学知识图谱对应的第三特征向量添加第一实体标签;根据所述待翻译医疗文本中的第二实体词,确定与所述待翻译医疗文本对应的第二实体标签;确定与所述第二实体标签匹配的第一实体标签,并将所述匹配的第一实体标签对应的第三特征向量作为与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;
所述处理单元,还用于将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;
所述处理单元,还用于根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
8.一种医疗文本翻译装置,其特征在于,包括:
获取单元,用于获取待翻译医疗文本;
处理单元,用于将所述待翻译医疗文本进行语义特征提取,得到第一特征向量;
所述获取单元,还用于获取与所述待翻译医疗文本对应的目标特征向量,具体用于:根据每个医学知识图谱中的第一实体词,对医疗领域中的所有医学知识图谱添加第一实体标签;根据所述待翻译医疗文本中的第二实体词,确定与所述待翻译医疗文本对应的第二实体标签;确定与所述第二实体标签匹配的第一实体标签,并将与所述匹配的第一实体标签对应的医学知识图谱作为目标医学知识图谱;对所述目标医学知识图谱进行向量化,得到与所述待翻译医疗文本对应的目标特征向量,所述目标特征向量用于表征与所述待翻译医疗文本对应的医学知识图谱;
所述处理单元,还用于将所述第一特征向量与所述目标特征向量进行拼接,得到第二特征向量;
所述处理单元,还用于根据所述第二特征向量,对所述待翻译医疗文本进行翻译。
9.一种医疗文本翻译装置,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-6任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011115345.3A CN111950303B (zh) | 2020-10-19 | 2020-10-19 | 医疗文本翻译方法、装置及存储介质 |
PCT/CN2020/132476 WO2021179693A1 (zh) | 2020-10-19 | 2020-11-27 | 医疗文本翻译方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011115345.3A CN111950303B (zh) | 2020-10-19 | 2020-10-19 | 医疗文本翻译方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950303A CN111950303A (zh) | 2020-11-17 |
CN111950303B true CN111950303B (zh) | 2021-01-08 |
Family
ID=73357037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011115345.3A Active CN111950303B (zh) | 2020-10-19 | 2020-10-19 | 医疗文本翻译方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111950303B (zh) |
WO (1) | WO2021179693A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950303B (zh) * | 2020-10-19 | 2021-01-08 | 平安科技(深圳)有限公司 | 医疗文本翻译方法、装置及存储介质 |
CN114004228A (zh) * | 2021-10-28 | 2022-02-01 | 泰康保险集团股份有限公司 | 医疗文本数据的标准化处理方法及装置 |
CN114168751B (zh) * | 2021-12-06 | 2024-07-09 | 厦门大学 | 一种基于医学知识概念图的医学文本标签识别方法及*** |
CN114582494B (zh) * | 2022-03-03 | 2022-11-15 | 数坤(北京)网络科技股份有限公司 | 诊断结果分析方法、装置、存储介质及电子设备 |
CN117332282B (zh) * | 2023-11-29 | 2024-03-08 | 之江实验室 | 一种基于知识图谱的事件匹配的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170686A (zh) * | 2017-12-29 | 2018-06-15 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN108228574A (zh) * | 2017-12-07 | 2018-06-29 | 科大讯飞股份有限公司 | 文本翻译处理方法及装置 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN111488462A (zh) * | 2020-04-02 | 2020-08-04 | ***通信集团江苏有限公司 | 基于知识图谱的推荐方法、装置、设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565318B2 (en) * | 2017-04-14 | 2020-02-18 | Salesforce.Com, Inc. | Neural machine translation with latent tree attention |
CN109558597B (zh) * | 2018-12-17 | 2022-05-24 | 北京百度网讯科技有限公司 | 文本翻译方法及装置、设备及存储介质 |
CN109740168B (zh) * | 2019-01-09 | 2020-10-13 | 北京邮电大学 | 一种基于中医药知识图谱和注意力机制的中医典籍古文翻译方法 |
CN110046252B (zh) * | 2019-03-29 | 2021-07-30 | 北京工业大学 | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 |
CN110502621B (zh) * | 2019-07-03 | 2023-06-13 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
CN110727806B (zh) * | 2019-12-17 | 2020-08-11 | 北京百度网讯科技有限公司 | 基于自然语言和知识图谱的文本处理方法及装置 |
CN111191464A (zh) * | 2020-01-17 | 2020-05-22 | 珠海横琴极盛科技有限公司 | 基于组合距离的语义相似度计算方法 |
CN111723570B (zh) * | 2020-06-09 | 2023-04-28 | 平安科技(深圳)有限公司 | 药品知识图谱的构建方法、装置和计算机设备 |
CN111950303B (zh) * | 2020-10-19 | 2021-01-08 | 平安科技(深圳)有限公司 | 医疗文本翻译方法、装置及存储介质 |
-
2020
- 2020-10-19 CN CN202011115345.3A patent/CN111950303B/zh active Active
- 2020-11-27 WO PCT/CN2020/132476 patent/WO2021179693A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228574A (zh) * | 2017-12-07 | 2018-06-29 | 科大讯飞股份有限公司 | 文本翻译处理方法及装置 |
CN108170686A (zh) * | 2017-12-29 | 2018-06-15 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN110334219A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 基于注意力机制融入文本语义特征的知识图谱表示学习方法 |
CN111488462A (zh) * | 2020-04-02 | 2020-08-04 | ***通信集团江苏有限公司 | 基于知识图谱的推荐方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021179693A1 (zh) | 2021-09-16 |
CN111950303A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950303B (zh) | 医疗文本翻译方法、装置及存储介质 | |
CN112242187B (zh) | 基于知识图谱表征学习的医疗方案推荐***及方法 | |
KR102401942B1 (ko) | 번역품질 평가 방법 및 장치 | |
CN110705206B (zh) | 一种文本信息的处理方法及相关装置 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN111488742B (zh) | 用于翻译的方法和装置 | |
CN111967261B (zh) | 癌症分期信息处理方法、装置及存储介质 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN112270184A (zh) | 自然语言处理方法、装置及存储介质 | |
CN112364664A (zh) | 意图识别模型的训练及意图识别方法、装置、存储介质 | |
CN116050352A (zh) | 文本编码方法和装置、计算机设备及存储介质 | |
CN112836515A (zh) | 文本分析方法、推荐方法、装置、电子设备及存储介质 | |
CN113536784A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN113591493B (zh) | 翻译模型的训练方法及翻译模型的装置 | |
CN113066510B (zh) | 一种元音弱读检测方法及装置 | |
CN112287217B (zh) | 医学文献检索方法、装置、电子设备及存储介质 | |
CN115115432A (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN114155957A (zh) | 文本确定方法、装置、存储介质及电子设备 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN112016281A (zh) | 错误医疗文本的生成方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |