CN112270184A - 自然语言处理方法、装置及存储介质 - Google Patents

自然语言处理方法、装置及存储介质 Download PDF

Info

Publication number
CN112270184A
CN112270184A CN202011152152.5A CN202011152152A CN112270184A CN 112270184 A CN112270184 A CN 112270184A CN 202011152152 A CN202011152152 A CN 202011152152A CN 112270184 A CN112270184 A CN 112270184A
Authority
CN
China
Prior art keywords
word
text
network model
medical
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011152152.5A
Other languages
English (en)
Other versions
CN112270184B (zh
Inventor
朱威
李恬静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011152152.5A priority Critical patent/CN112270184B/zh
Publication of CN112270184A publication Critical patent/CN112270184A/zh
Application granted granted Critical
Publication of CN112270184B publication Critical patent/CN112270184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及医疗科技技术领域,具体公开了一种自然语言处理方法、装置及存储介质。该方法包括:获取文本样本;对所述文本样本进行分词,得到至少一个词语;从预先构造的语义知识库中获取所述至少一个词语中每个词语对应的词素,并将所述每个词语对应的词素作为所述每个词语中的每个单词的监督标签;将所述文本样本输入网络模型,得到所述文本样本中每个单词的第一词素;根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型;使用所述预训练网络模型进行自然语言处理。本申请有利于提高自然语言处理的精度。

Description

自然语言处理方法、装置及存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种自然语言处理方法、装置及存储介质。
背景技术
随着人工智能技术的长足发展,在自然语言处理领域已经取得了较好的处理效果,给人们生活带来了极大的便利。比如,使用训练好的语言处理模型,对用户在对话框中输入的文本进行纠错,从而正确的表达出用户的意图,再如,在人机对话中,比如siri语音,通过训练好的语言处理对用户的口语进行理解,进而执行用户的意图。
虽然,现有训练出的不同的语言处理模型能够执行不同的自然语言处理任务,但是在训练的过程中仅仅依赖语言的字面语义进行训练,未能挖掘出语言的潜在语义,导致自然语言处理过程中的处理精度比较低。
发明内容
本申请实施例提供了一种自然语言处理方法、装置及存储介质。通过融入每个词语的词素信息,可挖掘语言的潜在语义,提高自然语言的处理进度。
第一方面,本申请实施例提供一种自然语言处理方法,包括:
获取文本样本;
对所述文本样本进行分词,得到至少一个词语;
从预先构造的语义知识库中获取所述至少一个词语中每个词语对应的词素,并将所述每个词语对应的词素作为所述每个词语中的每个单词的监督标签;
将所述文本样本输入网络模型,得到所述文本样本中每个单词的第一词素;
根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型;
使用所述预训练网络模型进行自然语言处理。
第二方面,本申请实施例提供一种自然语言处理装置,包括:
获取单元,用于获取文本样本;
处理单元,用于对所述文本样本进行分词,得到至少一个词语;
所述处理单元,还用于从预先构造的语义知识库中获取所述至少一个词语中每个词语对应的词素,并将所述每个词语对应的词素作为所述每个词语中的每个单词的监督标签;
所述处理单元,还用于将所述文本样本输入网络模型,得到所述文本样本中每个单词的第一词素;
所述处理单元,还用于根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型;
所述处理单元,还用于使用所述预训练网络模型进行自然语言处理。
第三方面,本申请实施例提供一种自然语言处理装置,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如第一方面所述的方法中的步骤的指令。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序使得计算机执行如第一方面所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在对网络模型进行预训练的过程中,需要对齐每个单词的词素信息,即使用每个单词的隐含语义进行模型训练。这样在对网络模型经过多次迭代之后,得到的预训练网络模型在后续进行自然语言处理的过程,对每个单词编码得到的词向量中会包含有该单词对应的词素信息(隐含语义信息),从而使该词向量包含有更多的语义信息,进而提高自然语言处理的精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种自然语言处理方法的流程示意图;
图2为本申请实施例提供的一种网络模型的结构示意图;
图3为本申请实施例提供的一种构造文本样本方法的流程示意图;
图4为本申请实施例提供的一种医疗文本纠错的示意图;
图5为本申请实施例提供的一种自然语言处理装置结构示意图;
图6为本申请实施例提供的一种自然语言处理装置的功能单元组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
参阅图1,图1为本申请实施例提供的一种自然语言处理方法的流程示意图。该方法应用于自然语言处理装置。该方法包括以下步骤内容:
101:自然语言处理装置获取文本样本。
其中,该文本样本是预先构造好的,后面详细叙述对该文本样本的构造过程,在此不做过多描述。
102:自然语言处理装置对所述文本样本进行分词,得到至少一个词语。
示例性的,可通过已有的分词网络对该文本样本进行分词,比如,可以循环网络、长短期记忆网络,等等。分词过程为现有技术,不再叙述。
103:自然语言处理装置从预先构造的语义知识库中获取所述至少一个词语中每个词语对应的词素,并将所述每个词语对应的词素作为所述每个词语中的每个单词的监督标签。
示例性的,该语义知识库为预先构造出的各个词语的词素组成的知识库。因此,可将该文本样本中的至少一个词语的每个词语分别与该语义知识库进行字典匹配,得到该文本样本中每个词语对应的词素,并将每个词语对应的词素作为每个单词的监督标签,进而得到该文本样本中每个单词对应的监督标签。
104:自然语言处理装置将所述文本样本输入网络模型,得到所述文本样本中每个单词的第一词素。
示例性的,将所述文本样本输入网络模型,对该文本样本中的至少一个词语中的每个词语进行编码,比如词嵌入,得到每个词语对应的词向量;然后,根据每个词语对应的词向量进行词素预测,得到每个词语对应的第一词素,并将每个词语对应的第一词素,作为每个词语中的每个单词对应的词素,进而得到该文本样本中每个单词的第一词素。
105:自然语言处理装置根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型。
示例性的,根据每个单词对应的监督标签以及第一词素,确定每个单词的第一损失,比如,可以将每个单词的监督标签以及第一词素之间的欧氏距离作为该第一损失;然后,根据每个单词的第一损失以及梯度下降法调整该网络模型的网络参数。比如,确定每个单词的交叉熵损失,得到每个单词对应的第一损失,然后,将该文本样本中所有单词的第一损失的平均值作为目标损失,根据该目标损失以及梯度下降法调整该网络模型的网络参数,直至该网络模型收敛,得到预训练网络模型。
示例性的,目标损失可以通过公式(1)表示:
Figure BDA0002740626030000041
其中,Lm为目标损失,Cross_Entropy为交叉熵损失,N为文本样本中单词的数量,且N为大于等于1的整数,θi为第i个单词的监督标签,
Figure BDA0002740626030000051
为第i个单词的第一词素。
106:自然语言处理装置使用所述预训练网络模型进行自然语言处理。
示例性的,可使用该预训练网络模型进行文本纠错、意图识别、口语理解、人机交互,等等。
可以看出,在对网络模型进行预训练的过程中,需要对齐每个单词的词素信息,即使用每个单词的隐含语义进行模型训练。这样在对网络模型经过多次迭代之后,得到的预训练网络模型在后续进行自然语言处理的过程,对每个单词编码得到的词向量中会包含有该单词对应的词素信息(隐含语义信息),从而使该词向量包含有更多的语义信息,进而提高自然语言处理的精度。
在本申请的一个实施方式中,本申请的自然语言处理方法可以应用到智慧医疗领域。比如,可以对预训练模型进行微调,在医生搜索历史病例的情况下,可使用微调后的网络模型对医生输入的医疗文本进行纠错,从而可以保证医生输入的医疗文本是正确的,可以准确的搜索出历史病例,为医生当前的诊断提供病例参考,提高医生的诊断效率,进而推动医疗科技的发展。
下面结合网络模型的结构示意图举例说明上述对网络模型进行训练,得到预训练网络模型的过程。
如图2所示,该网络模型包括嵌入层、编码层和分类层,该编码层可以为Albert编码器。
对文本样本进行分词,得到至少一个词语[X1,X2,X3,……,Xn],并在语义知识库中匹配该至少一个词语中每个词语对应的词素,并将每个词语对应的词素作为该词语中的每个单词的监督标签;
然后,通过嵌入层对每个词语进行词嵌入处理,得到每个词语的词向量;再通过编码层对每个词语的词向量进行编码处理,得到每个词语的目标特征向量,比如,可以通过注意力机制对词语的词向量进行融合处理;最后,通过分类层以及每个词语的目标特征向量对每个词语进行分类预测,得到每个词语对应的第一词素,并将每个词语对应的第一词素作为该词语中每个单词的第一词素;最后,根据每个单词的第一词素以及监督标签,得到损失;根据该损失以及梯度下降法调整该网络模型的网络参数,直至模型收敛,得到预训练网络模型。
参阅图3,图3为本申请实施例提供的一种构造文本样本方法的流程示意图。该方法包括以下步骤内容:
301:获取第一文本序列。
其中,该第一文本序列为原始文本序列。
302:对所述第一文本序列中的目标词语进行替换,得到至少一个第二文本序列。
其中,该目标词语可以为该第一文本序列中除停用词、实体词、垂类关键词之外的其他词语。比如,第一文本序列“我想吃药,二甲双胍片”,则可以对该第一文本序列中的“想”,替换为“欲”、或者“要”,等等。通过替换目标词语不会改变第一文本序列的意图,但是会改变第一文本序列的表述方式,这样可以将第一文本序列扩充为多个意图相同的第二文本序列,得到与一个意图对应的多个丰富的语料,从而实现在不同的表述方式中,网络模型都能够识别出部分词语的词素,比如,第一文本序列中未变动的词语,进而提高网络模型的泛化能力。
303:对所述至少一个第二文本序列中的每个第二文本序列的实体进行替换,得到所述每个第二文本序列对应的至少一个第三文本序列。
示例性的,可确定该至少一个第二文本序列中的每个第二文本序列的实体,其中,确定每个第二文本序列的实体可通过循环神经网络、长短期记忆网络实现,不再叙述;然后,获取与每个第二文本序列的实体对应的至少一个候选实体,其中,该至少一个候选实体中每个候选实体的实体类型与每个第二文本序列的实体的实体类型相同。最后,使用该至少一个候选实体中的每个实体对该第二文本序列中的实体进行替换,得到与每个第二文本序列对应的至少一个第三文本序列。
应理解,对每个第二文本序列中的实体进行替换,主要是扩充每个实体领域中的文本样本的丰富性,从而在使用这样的文本样本对网络模型进行训练后,可以编码出每个领域的各个实体的词素,进而提高网络模型的泛化能力。
304:将所述每个第二文本序列对应的至少一个第三文本序列中的每个第三文本序列作为所述训练文本。
下面举例说明该预训练网络的应用场景。
场景1:使用预训练网络模型进行医疗文本纠错的场景。
示例性的,可先获取医疗文本;使用该医疗文本对预训练网络模型进行微调(fine-tuning);使用该微调后的网络模型,对该待纠错医疗文本进行纠错。
示例性的,可从医疗数据库中读取的医疗文本,并将该医疗文本作为正确的医疗文本,即监督标签;然后,从该医疗文本中随机选出第一词语作为待替换词语,并从词典库中获取与该第一词语对应的候选词语,该候选词语是与该第一词语对应的易错的词语,比如,该第一词语的形近词、音近词,等等;然后,使用该候选词语待该医疗文本中的第一词语进行替换,得到训练样本;最后,将该训练样本输入到该预训练网络,得到纠错结果,根据该纠错结果以及该医疗文本(监督标签)得到损失;使用该损失以及梯度下降法对该预训练网络进行微调。则微调完成之后,可以使用微调后的网络模型对待纠错医疗文本进行纠错。
示例性的,如图4所示,确定该待纠错医疗文本中的实体,比如,可通过循环神经网络RNN或者长短期记忆网络LSTM识别该待纠错医疗文本中的实体;然后,从预先构造的医疗知识图谱库中获取与该实体对应的医疗知识图谱,并将该医疗知识图谱进行编码,得到图谱向量;对该待纠错医疗文本中每个词语进行编码,得到每个词语对应的词向量,并将每个单词的词向量与该图谱向量进行拼接,得到每个词语对应的目标特征向量;根据每个词语对应的目标特征向量,对该待纠错医疗文本进行纠错,得到纠错后的医疗文本。
示例性的,可根据每个词语对应的目标特征向量确定每个词语对应的评分,将评分小于阈值的词语作为待纠错词语;然后,从字典库中获取与该待纠错词语对应的至少一个候选词语;最后,确定该至少一个候选词语中每个候选词语的评分,使用评分最大的候选词语替换该待纠错词语,得到纠错后的医疗文本,其中,确定每个候选词语的评分,与确定该待纠错医疗文本中的每个词语的评分类似,比如,依次使用每个候选词语对该待纠错词语进行替换,得到替换后的医疗文本,通过替换后的医疗文本得到每个候选词语的评分,不再叙述。
可以看出,由于该微调后的网络模型在对待纠错文本中的每个词语进行编码的过程中,会将每个词语的词素信息编码到该词语对应的词向量中,从而在对待纠错文本进行纠错的过程中会使用到各个词语的词素信息,提高纠错精度。并且在纠错过程中结合了医疗图谱知识,进一步的提高纠错精度。
场景2:口语理解过程中的意图识别。
示例性的,获取训练样本以及训练标签,该训练标签为对该训练样本的意图标注结果;使用该训练样本对预训练模型进行微调,得到微调后的网络模型,对该预训练模型进行微调就是使用对训练样本的预测结果和训练标签之间求损失进行微调,不再详细叙述;使用微调后的网络模型对待识别文本进行意图识别,得到所述待识别文本对应的意图,其中,该待识别文本是通过对用户的话语进行语音转换得到的。即对待识别文本中的每个单词进行编码,得到每个单词的词向量,根据每个单词的词向量进行槽位填充;根据每个单词的槽位填充结果确定该待识别文本的意图。
可以看出,在本实施方式中,对口语理解的过程中,在对待识别文本进行意图识别时,可以将每个单词的词素信息编码到每个单词的词向量中,从而可以提高单词的槽位填充准确率,进而提高意图识别的准确度,更好的进行口语理解。
参阅图5,图5为本申请实施例提供的一种自然语言处理装置的结构示意图。如图4所示,自然语言处理装置400包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行以下步骤的指令:
获取文本样本;
对所述文本样本进行分词,得到至少一个词语;
从预先构造的语义知识库中获取所述至少一个词语中每个词语对应的词素,并将所述每个词语对应的词素作为所述每个词语中的每个单词的监督标签;
将所述文本样本输入网络模型,得到所述文本样本中每个单词的第一词素;
根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型;
使用所述预训练网络模型进行自然语言处理。
在一些可能的实施方式中,在根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型方面,上述程序具体用于执行以下步骤的指令:
根据所述文本样本中每个单词的监督标签以及第一词素,确定所述文本样本中每个单词对应的第一损失;
根据所述文本样本中每个单词对应的第一损失以及梯度下降法,调整所述网络模型的网络参数,得到预训练网络模型。
在一些可能的实施方式中,在获取文本样本之前,上述程序还用于执行以下步骤的指令:
获取第一文本序列;
对所述第一文本序列中的目标词语进行替换,得到至少一个第二文本序列;
对所述至少一个第二文本序列中的每个第二文本序列的实体进行替换,得到所述每个第二文本序列对应的至少一个第三文本序列;
将所述每个第二文本序列对应的至少一个第三文本序列中的每个第三文本序列作为所述训练文本。
在一些可能的实施方式中,在对所述第一文本序列中的部分词语进行替换,得到至少一个第二文本序列方面,上述程序具体用于执行以下步骤的指令:
对所述第一文本序列中的目标词语进行遮挡;
使用Bert模型对所述目标词语进行预测,得到至少一个待替换词语;
使用所述至少一个待替换词语中的每个待替换词语对所述目标词语进行替换,得到至少一个第二文本序列。
在一些可能的实施方式中,在使用所述预训练网络模型进行医疗文本纠错的情况下,在使用所述预训练网络模型进行自然语言处理方面,上述程序具体用于执行以下步骤的指令:
获取医疗文本;
使用所述医疗文本对所述预训练网络模型进行微调;
使用微调后的网络模型,对待纠错医疗文本进行纠错。
在一些可能的实施方式中,在使用微调后的网络模型,对待纠错医疗文本进行纠错方面,上述程序具体用于执行以下步骤的指令:
确定所述待纠错医疗文本中的实体;
从预先构造的医疗知识图谱库中获取与所述实体对应的医疗知识图谱;
根据所述实体对应的医疗知识图谱对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本。
在一些可能的实施方式中,在根据所述实体对应的医疗知识图谱对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本方面,上述程序具体用于执行以下步骤的指令:
对所述待纠错医疗文本中每个词语进行编码,得到所述待纠错医疗文本中每个词语对应的词向量;
对所述实体对应的医疗知识图谱进行编码,得到图谱向量;
对所述待纠错医疗文本中每个词语对应的词向量与所述图谱向量进行拼接,得到所述待纠错医疗文本中每个词语对应的目标特征向量;
根据所述待纠错医疗文本中每个词语对应的目标特征向量,对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本。
参阅图6,图6本申请实施例提供的一种自然语言处理装置的功能单元组成框图。自然语言处理装置600包括:获取单元601和处理单元602,其中:
获取单元601,用于获取文本样本;
处理单元602,用于对所述文本样本进行分词,得到至少一个词语;
处理单元602,还用于从预先构造的语义知识库中获取所述至少一个词语中每个词语对应的词素,并将所述每个词语对应的词素作为所述每个词语中的每个单词的监督标签;
处理单元602,还用于将所述文本样本输入网络模型,得到所述文本样本中每个单词的第一词素;
处理单元602,还用于根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型;
处理单元602,还用于使用所述预训练网络模型进行自然语言处理。
在一些可能的实施方式中,在根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型方面,处理单元602,具体用于:
根据所述文本样本中每个单词的监督标签以及第一词素,确定所述文本样本中每个单词对应的第一损失;
根据所述文本样本中每个单词对应的第一损失以及梯度下降法,调整所述网络模型的网络参数,得到预训练网络模型。
在一些可能的实施方式中,在获取文本样本之前,获取单元601,还用于:获取第一文本序列;
处理单元602,还用于对所述第一文本序列中的目标词语进行替换,得到至少一个第二文本序列;
对所述至少一个第二文本序列中的每个第二文本序列的实体进行替换,得到所述每个第二文本序列对应的至少一个第三文本序列;
将所述每个第二文本序列对应的至少一个第三文本序列中的每个第三文本序列作为所述训练文本。
在一些可能的实施方式中,在对所述第一文本序列中的部分词语进行替换,得到至少一个第二文本序列方面,处理单元602,具体用于:
对所述第一文本序列中的目标词语进行遮挡;
使用Bert模型对所述目标词语进行预测,得到至少一个待替换词语;
使用所述至少一个待替换词语中的每个待替换词语对所述目标词语进行替换,得到至少一个第二文本序列。
在一些可能的实施方式中,在使用所述预训练网络模型进行医疗文本纠错的情况下,在使用所述预训练网络模型进行自然语言处理方面,上述程序具体用于执行以下步骤的指令:
获取医疗文本;
使用所述医疗文本对所述预训练网络模型进行微调;
使用微调后的网络模型,对待纠错医疗文本进行纠错。
在一些可能的实施方式中,在使用微调后的网络模型,对待纠错医疗文本进行纠错方面,处理单元602,具体用于:
确定所述待纠错医疗文本中的实体;
从预先构造的医疗知识图谱库中获取与所述实体对应的医疗知识图谱;
根据所述实体对应的医疗知识图谱对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本。
在一些可能的实施方式中,在根据所述实体对应的医疗知识图谱对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本方面,处理单元602,具体用于:
对所述待纠错医疗文本中每个词语进行编码,得到所述待纠错医疗文本中每个词语对应的词向量;
对所述实体对应的医疗知识图谱进行编码,得到图谱向量;
对所述待纠错医疗文本中每个词语对应的词向量与所述图谱向量进行拼接,得到所述待纠错医疗文本中每个词语对应的目标特征向量;
根据所述待纠错医疗文本中每个词语对应的目标特征向量,对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本。
应理解,本申请中的自然语言处理装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices,简称:MID)或穿戴式设备等。上述自然语言处理装置仅是举例,而非穷举,包含但不限于上述自然语言处理装置。在实际应用中,上述自然语言处理装置还可以包括:智能车载终端、计算机设备,等等。
本申请实施例还提供一种计算机存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种自然语言处理方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种自然语言处理方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种自然语言处理方法,其特征在于,包括:
获取文本样本;
对所述文本样本进行分词,得到至少一个词语;
从预先构造的语义知识库中获取所述至少一个词语中每个词语对应的词素,并将所述每个词语对应的词素作为所述每个词语中的每个单词的监督标签;
将所述文本样本输入网络模型,得到所述文本样本中每个单词的第一词素;
根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型;
使用所述预训练网络模型进行自然语言处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型,包括:
根据所述文本样本中每个单词的监督标签以及第一词素,确定所述文本样本中每个单词对应的第一损失;
根据所述文本样本中每个单词对应的第一损失以及梯度下降法,调整所述网络模型的网络参数,得到预训练网络模型。
3.根据权利要求1或2所述的方法,其特征在于,在获取文本样本之前,所述方法还包括:
获取第一文本序列;
对所述第一文本序列中的目标词语进行替换,得到至少一个第二文本序列;
对所述至少一个第二文本序列中的每个第二文本序列的实体进行替换,得到所述每个第二文本序列对应的至少一个第三文本序列;
将所述每个第二文本序列对应的至少一个第三文本序列中的每个第三文本序列作为所述训练文本。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一文本序列中的部分词语进行替换,得到至少一个第二文本序列,包括:
对所述第一文本序列中的目标词语进行遮挡;
使用Bert模型对所述目标词语进行预测,得到至少一个待替换词语;
使用所述至少一个待替换词语中的每个待替换词语对所述目标词语进行替换,得到至少一个第二文本序列。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在使用所述预训练网络模型进行医疗文本纠错的情况下,所述使用所述预训练网络模型进行自然语言处理,包括:
获取医疗文本;
使用所述医疗文本对所述预训练网络模型进行微调;
使用微调后的网络模型,对待纠错医疗文本进行纠错。
6.根据权利要求5所述的方法,其特征在于,所述使用微调后的网络模型,对待纠错医疗文本进行纠错,包括:
确定所述待纠错医疗文本中的实体;
从预先构造的医疗知识图谱库中获取与所述实体对应的医疗知识图谱;
根据所述实体对应的医疗知识图谱对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述实体对应的医疗知识图谱对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本,包括:
对所述待纠错医疗文本中每个词语进行编码,得到所述待纠错医疗文本中每个词语对应的词向量;
对所述实体对应的医疗知识图谱进行编码,得到图谱向量;
对所述待纠错医疗文本中每个词语对应的词向量与所述图谱向量进行拼接,得到所述待纠错医疗文本中每个词语对应的目标特征向量;
根据所述待纠错医疗文本中每个词语对应的目标特征向量,对所述待纠错医疗文本进行纠错,得到纠错后的医疗文本。
8.一种自然语言处理装置,其特征在于,包括:
获取单元,用于获取文本样本;
处理单元,用于对所述文本样本进行分词,得到至少一个词语;
所述处理单元,还用于从预先构造的语义知识库中获取所述至少一个词语中每个词语对应的词素,并将所述每个词语对应的词素作为所述每个词语中的每个单词的监督标签;
所述处理单元,还用于将所述文本样本输入网络模型,得到所述文本样本中每个单词的第一词素;
所述处理单元,还用于根据所述文本样本中每个单词的监督标签以及第一词素,调整所述网络模型的网络参数,得到预训练网络模型;
所述处理单元,还用于使用所述预训练网络模型进行自然语言处理。
9.一种自然语言处理装置,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行权利要求1-7任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
CN202011152152.5A 2020-10-23 2020-10-23 自然语言处理方法、装置及存储介质 Active CN112270184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011152152.5A CN112270184B (zh) 2020-10-23 2020-10-23 自然语言处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011152152.5A CN112270184B (zh) 2020-10-23 2020-10-23 自然语言处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN112270184A true CN112270184A (zh) 2021-01-26
CN112270184B CN112270184B (zh) 2023-11-14

Family

ID=74341694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011152152.5A Active CN112270184B (zh) 2020-10-23 2020-10-23 自然语言处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112270184B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860896A (zh) * 2021-03-05 2021-05-28 三一重工股份有限公司 语料泛化方法及用于工业领域的人机对话情感分析方法
CN113569974A (zh) * 2021-08-04 2021-10-29 网易(杭州)网络有限公司 编程语句纠错方法、装置、电子设备及存储介质
CN114048321A (zh) * 2021-08-12 2022-02-15 湖南达德曼宁信息技术有限公司 一种多粒度文本纠错数据集生成方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275694A1 (en) * 2007-05-04 2008-11-06 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111507104A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN111783451A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于增强文本样本的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080275694A1 (en) * 2007-05-04 2008-11-06 Expert System S.P.A. Method and system for automatically extracting relations between concepts included in text
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN110442870A (zh) * 2019-08-02 2019-11-12 深圳市珍爱捷云信息技术有限公司 文本纠错方法、装置、计算机设备和存储介质
CN110598213A (zh) * 2019-09-06 2019-12-20 腾讯科技(深圳)有限公司 一种关键词提取方法、装置、设备及存储介质
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111507104A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN111783451A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于增强文本样本的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HOANG NGUYEN等: "Dynamic Semantic Matching and Aggregation Network for Few-shot Intent Detection", HTTPS://ARXIV.ORG/ABS/2010.02481, pages 1 - 10 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112860896A (zh) * 2021-03-05 2021-05-28 三一重工股份有限公司 语料泛化方法及用于工业领域的人机对话情感分析方法
CN113569974A (zh) * 2021-08-04 2021-10-29 网易(杭州)网络有限公司 编程语句纠错方法、装置、电子设备及存储介质
CN113569974B (zh) * 2021-08-04 2023-07-18 网易(杭州)网络有限公司 编程语句纠错方法、装置、电子设备及存储介质
CN114048321A (zh) * 2021-08-12 2022-02-15 湖南达德曼宁信息技术有限公司 一种多粒度文本纠错数据集生成方法、装置及设备

Also Published As

Publication number Publication date
CN112270184B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN111931490B (zh) 文本纠错方法、装置及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110163181B (zh) 手语识别方法及装置
CN112270184A (zh) 自然语言处理方法、装置及存储介质
CN113869044A (zh) 关键词自动提取方法、装置、设备及存储介质
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN111444715B (zh) 实体关系识别方法、装置、计算机设备和存储介质
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN114676234A (zh) 一种模型训练方法及相关设备
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN111950303B (zh) 医疗文本翻译方法、装置及存储介质
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN110659392B (zh) 检索方法及装置、存储介质
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN111368531B (zh) 翻译文本处理方法、装置、计算机设备和存储介质
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及***
CN112016281B (zh) 错误医疗文本的生成方法、装置及存储介质
CN114758330A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant