CN113704416A - 词义消歧方法、装置、电子设备及计算机可读存储介质 - Google Patents

词义消歧方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN113704416A
CN113704416A CN202111249932.6A CN202111249932A CN113704416A CN 113704416 A CN113704416 A CN 113704416A CN 202111249932 A CN202111249932 A CN 202111249932A CN 113704416 A CN113704416 A CN 113704416A
Authority
CN
China
Prior art keywords
word
vector
disambiguated
text
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111249932.6A
Other languages
English (en)
Other versions
CN113704416B (zh
Inventor
张剑
杨大明
黄石磊
蒋志燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Raisound Technology Co ltd
Original Assignee
Shenzhen Raisound Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Raisound Technology Co ltd filed Critical Shenzhen Raisound Technology Co ltd
Priority to CN202111249932.6A priority Critical patent/CN113704416B/zh
Publication of CN113704416A publication Critical patent/CN113704416A/zh
Application granted granted Critical
Publication of CN113704416B publication Critical patent/CN113704416B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

本申请涉及一种词义消歧方法,所述方法包括:获取待处理文本,确定待处理文本中的待消歧词,以及待消歧词的上文和所述待消歧词的下文,从预设的语义知识库中搜索待消歧词对应的多个定义解释,对多个定义解释进行向量化,得到定义矩阵,基于定义矩阵构建对应的分类器,将上文、下文和待消歧词输入至分类器,得到待消歧词的预测候选词,利用预测候选词对待消歧词进行替换,得到消除歧义后的标准文本。此外,本申请还涉及一种词义消歧方法、装置、设备及存储介质。本申请可解决词义消歧的准确度不够高的问题。

Description

词义消歧方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及文本处理领域,尤其涉及一种词义消歧方法、装置、电子设备及计算机可读存储介质。
背景技术
在语言词汇中存在着一定数量的歧义词,虽然歧义词的出现为自然语言的应用带来了便利,但是也为自然语言的理解和翻译带来了一定的困难。随着人工智能的兴起,词义消歧在诸多高新领域中的应用越来越多,已经成为了一个自然语言处理中需要解决的重要难题。
现有的词义消歧方法通常是结合机器学习来进行词义消歧,这种方法需要大量的人工标注训练语料,代价昂贵。同时利用人工标注训练语料并不能全面且准确地标注出不常见且具有多重含义的词语,因此导致词义消歧的准确度不够高。
发明内容
本申请提供了一种词义消歧方法、装置、电子设备及存储介质,以解决词义消歧的准确度不够高的问题。
第一方面,本申请提供了一种词义消歧方法,所述方法包括:
获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文;
从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵;
基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词;利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本。
详细地,所述将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词,包括:
对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量;
对所述上文向量、所述歧义词向量和所述下文向量进行向量平均,得到语义向量;
将所述语义向量输入至所述分类器,得到所述待消歧词的预测候选词。
详细地,所述对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量,包括:
分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集;
将所述掩码数据集转换为向量数据集,并对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵;
将所述目标向量相关矩阵输入至预训练模型的最终隐藏输出层中,得到上文向量、歧义词向量和下文向量。
详细地,所述分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集,包括:
利用预获取的掩码概率从所述上文、所述下文和所述待消歧词中筛选出多个关键词,对所述多个关键词进行掩码处理,得到所述关键词对应的掩码词;
利用所述掩码词替换所述关键词,得到掩码数据集。
详细地,所述对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵,包括:
对所述向量数据集进行位置编码处理,得到位置向量集;
将所述位置向量集转换为位置向量矩阵,并根据所述位置向量矩阵的维度生成分类矩阵;
根据所述位置向量矩阵、所述分类矩阵和预设的激活函数计算得到所述位置向量集对应的原始向量相关矩阵;
利用所述原始向量相关矩阵和所述位置向量矩阵调节预购建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵。
详细地,所述对多个所述定义解释进行向量化,得到定义矩阵,包括:
将多个所述定义解释输入至目标训练模型中,得到多个所述定义解释对应的多个句向量;
对多个所述句向量进行拼接处理,得到定义矩阵。
详细地,所述获取待处理文本之后,所述方法还包括:
对所述待处理文本进行清洗去脏,得到清洗数据集;
将所述清洗数据集拆分为多个句子,得到分句数据集;
利用基准分词器对所述分句数据集进行分词处理,得到预处理的待处理文本。
第二方面,本申请提供了一种词义消歧装置,所述装置包括:
文本处理模块,用于获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文;
向量化模块,用于从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵;
候选词预测模块,用于基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词;歧义消除模块,用于利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本。
第三方面,提供了一种词义消歧设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的词义消歧方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的词义消歧方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本发明实施例从预设的语义知识库中搜索待消歧词对应的多个定义解释,由于语义知识库包含的词和词义范围很大,在大部分不常见词或词义上性能表现大有提升,通过语义知识库搜索无需人工标注,节省人工标注成本。对多个所述定义解释进行向量化可以将所述定义解释转化成方便计算机处理的向量形式,基于所述定义矩阵构建对应的分类器,将所述待处理文本中确定的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文输入至所述分类器,得到所述待消歧词的预测候选词,得到预测候选词,提高了预测候选词筛选的准确度,并利用所述预测候选词对所述初始文本中的待消歧词进行替换,得到消除歧义后的标准文本。因此本发明提出的词义消歧方法、装置、电子设备及计算机可读存储介质,可以解决词义消歧的准确度不够高的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种词义消歧方法的流程示意图;
图2为本申请实施例提供的一种词义消歧的装置的模块示意图;
图3为本申请实施例提供的一种词义消歧的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种词义消歧方法的流程示意图。在本实施例中,所述词义消歧方法包括:
S1、获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文。
本发明实施例中,所述待处理文本是指任意一个语境下的完整句子,其中,句子中包含上文、待消歧词和下文,则一个句子的组成可以为上文(sentence_up)+待消歧词(token)+下文(sentence_down)。
本发明一可选实施例中,可以根据输入的待处理文本的语句标识确定待消歧词,并确定该消歧词之前的文本为消歧词的上文,确定该消歧词之后的文本为消歧词的下文。
另一可选实施例中,可以通过预设的歧义词识别模型,确定待消歧词,并确定该消歧词之前的文本为消歧词的上文,确定该消歧词之后的文本为消歧词的下文。
具体地,所述获取待处理文本之后,所述方法还包括:
对所述待处理文本进行清洗去脏,得到清洗数据集;
将所述清洗数据集拆分为多个句子,得到分句数据集;
利用基准分词器对所述分句数据集进行分词处理,得到预处理的待处理文本。
详细地,对待处理文本进行清洗去脏可以保证处理后的清洗数据集的准确和干净,所述清洗数据集中包含多个完整的句子,可以以句号作为拆分的节点将所述清洗数据集拆分为多个句子,得到分句数据集,利用基准分词器对所述分句数据集进行分词处理,得到预处理的待处理文本。其中,所述基准分词器包括但不限于基于字典的字符串匹配模型的分词器或者基于字符标注的机器学习模型的分词器,如stanford分词器。
S2、从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵。
本发明实施例中,所述预设的语义知识库可以为WordNet,WordNet是一种基于认知语言学的英语词典,它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。
具体地,以所述语义知识库作为参考,在所述语义知识库中搜索与所述待消歧词对应的多个定义解释。
进一步地,所述对多个所述定义解释进行向量化,得到定义矩阵,包括:
将多个所述定义解释输入至目标训练模型中,得到多个所述定义解释对应的多个句向量;
对多个所述句向量进行拼接处理,得到定义矩阵。
详细地,将所述定义解释(token_definition)输入到目标训练模型中,共得到S个向量:vector_1[CLS],...,vector_S[CLS],将S个向量拼接起来得到定义矩阵
Figure 979941DEST_PATH_IMAGE001
,其中,所述定义矩阵的维度为H*S。
S3、基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词。
本发明实施例中,所述基于所述定义矩阵构建对应的分类器是指以所述定义矩阵作为分类器的参数构建得到对应的分类器。其中,所述分类器包括线性分类器和非线性分类器。
例如,获取一个维度为H*S的定义矩阵
Figure 992897DEST_PATH_IMAGE002
,根据所述定义矩阵构建对应的分类器
Figure 875402DEST_PATH_IMAGE003
,其中,W和b是可更新参数,W维度是H*H,b维度是H*1。
具体地,所述将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词,包括:
对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量;
对所述上文向量、所述歧义词向量和所述下文向量进行向量平均,得到语义向量;
将所述语义向量输入至所述分类器,得到所述待消歧词的预测候选词。
详细地,利用预训练模型对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量。所述预训练模型可以为BERT(BidirectionalEncoder Representations from Transformer,双向编码器表征)模型或者ELMO(Embedding from language models,双向语言模型)模型。
在本发明一实施例中,所述对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量,包括:
分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集;
将所述掩码数据集转换为向量数据集,并对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵;
将所述目标向量相关矩阵输入至预训练模型的最终隐藏输出层中,得到上文向量、歧义词向量和下文向量。
具体地,所述分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集,包括:
利用预获取的掩码概率从所述上文、所述下文和所述待消歧词中筛选出多个关键词,对所述多个关键词进行掩码处理,得到所述关键词对应的掩码词;
利用所述掩码词替换所述关键词,得到掩码数据集。
详细地,所述掩码概率是指在所述上文、所述下文和所述待消歧词中随机挑选的关键词的字数与所述上文、所述下文和所述待消歧词中总字数的占比,例如,若所述掩码概率为30%,当所述上文、所述下文和所述待消歧词中包含100个字,故按照30%的掩码概率筛选出多个关键词即随机对所述上文、所述下文和所述待消歧词中的30个关键词进行掩码。
其中,所述掩码处理的方式包括MASK掩码、随机掩码,MASK掩码指用MASK符号对关键词进行遮掩、所述随机掩码指用其他词语对关键词进行遮掩。
具体地,可以采用Word2vec算法将所述掩码数据集转换为向量数据集。
进一步地,所述对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵,包括:
对所述向量数据集进行位置编码处理,得到位置向量集;
将所述位置向量集转换为位置向量矩阵,并根据所述位置向量矩阵的维度生成分类矩阵;
根据所述位置向量矩阵、所述分类矩阵和预设的激活函数计算得到所述位置向量集对应的原始向量相关矩阵;
利用所述原始向量相关矩阵和所述位置向量矩阵调节预购建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵。
详细地,所述分类矩阵的维度与所述位置向量矩阵的维度一致,若所述位置向量矩阵的维度为
Figure 227886DEST_PATH_IMAGE004
,则所述分类矩阵的维度也为
Figure 170434DEST_PATH_IMAGE005
具体地,所述根据所述位置向量矩阵、所述分类矩阵和预设的激活函数计算得到所述位置向量集对应的原始向量相关矩阵,包括:
按照预设的拆分规则对所述分类矩阵进行拆分,得到中心矩阵、关联矩阵和权重矩阵;
分别将所述位置向量矩阵与所述中心矩阵、关联矩阵和权重矩阵进行点乘,得到中心向量矩阵、关联向量矩阵和权重向量矩阵;
将所述中心向量矩阵、关联向量矩阵以及权重向量矩阵作为所述激活函数的输入参数,得到所述原始向量相关矩阵。
详细地,利用预设的拆分规则对将分类矩阵拆分成中心矩阵、关联矩阵和权重矩阵,如上述分类矩阵为
Figure 166291DEST_PATH_IMAGE006
,则可按照
Figure 586908DEST_PATH_IMAGE007
Figure 59478DEST_PATH_IMAGE008
Figure 172927DEST_PATH_IMAGE009
执行拆分,分别得到
Figure 98158DEST_PATH_IMAGE010
维度的中心矩阵、
Figure 384783DEST_PATH_IMAGE011
维度的关联矩阵及
Figure 446280DEST_PATH_IMAGE012
维度的权重矩阵。
优选地,所述激活函数为softmax函数。
进一步地,所述将所述中心向量矩阵、关联向量矩阵以及权重向量矩阵作为所述激活函数的输入参数,得到所述原始向量相关矩阵,包括:
Softmax
Figure 730631DEST_PATH_IMAGE013
=
Figure 143157DEST_PATH_IMAGE015
其中,
Figure 171156DEST_PATH_IMAGE016
为所述中心向量矩阵,
Figure 415056DEST_PATH_IMAGE017
为所述关联向量矩阵,
Figure 604729DEST_PATH_IMAGE018
为所述关联向量矩阵的维度,
Figure 504551DEST_PATH_IMAGE019
为所述权重向量矩阵,
Figure 70662DEST_PATH_IMAGE021
为所述原始向量相关矩阵。
具体地,将所述目标向量相关矩阵输入至预训练模型的最终隐藏输出层中,得到上文向量、歧义词向量和下文向量。
详细地,在本发明实施例中,所述预训练模型采用的为BERT模型,其中,所述BERT模型具有更加高效,能够捕捉更多依赖关系的优点。
在本发明另一实施例中,所述对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量之前,所述方法还包括:
获取预设语料库中预设数量的指定文本,并对所述指定文本进行分句及分词处理,得到指定分词集合;
利用所述指定分词集合对双向长短期记忆模型进行训练,得到预训练模型。
详细地,所述双向长短期记忆模型即Bi-LSTM模型,对双向长短期记忆模型进行训练得到预训练模型可以根据上下文来推断每个词对应的词向量,能够根据语境来对多义词进行理解。
具体地,所述利用所述指定分词集合对双向长短期记忆模型进行训练,得到预训练模型,包括:
利用所述双向长短期记忆网络计算所述指定分词集合的前向概率和后向概率;
基于所述前向概率和所述后向概率构造最大化对数似然函数,并计算所述最大化对数似然函数的函数值;
当所述函数值大于或者等于预设的阈值时,将所述双向长短期记忆模型输出为预训练模型。
进一步地,所述利用所述双向长短期记忆网络计算所述指定分词集合的前向概率和后向概率,包括:
利用如下计算公式计算所述指定分词集合的前向概率:
Figure 434647DEST_PATH_IMAGE022
其中,
Figure 795221DEST_PATH_IMAGE023
前向概率,
Figure 182340DEST_PATH_IMAGE025
是指所述指定分词集合中的第
Figure 552142DEST_PATH_IMAGE026
个分词,
Figure 442738DEST_PATH_IMAGE027
为所述指定分词集合中指定分词的个数。
利用如下计算公式计算所述指定分词集合的后向概率:
Figure 803574DEST_PATH_IMAGE028
其中,
Figure 412410DEST_PATH_IMAGE029
为后向概率。
具体地,所述基于所述前向概率和所述后向概率构造最大化对数似然函数,包括:
Figure 585902DEST_PATH_IMAGE030
其中,
Figure 596584DEST_PATH_IMAGE031
为函数值,
Figure 626856DEST_PATH_IMAGE032
为词向量参数,
Figure 722988DEST_PATH_IMAGE034
为softmax层参数,
Figure 434592DEST_PATH_IMAGE035
为所述双向长短期记忆网络的参数。
进一步地,所述对所述上文向量、所述歧义词向量和所述下文向量进行向量平均,得到语义向量,包括:
利用如下计算公式对所述上文向量、所述歧义词向量和所述下文向量进行向量平均:
Figure 299780DEST_PATH_IMAGE036
其中,
Figure 438638DEST_PATH_IMAGE037
为语义向量,
Figure 84383DEST_PATH_IMAGE038
为所述上文向量,
Figure 334098DEST_PATH_IMAGE039
为所述歧义词向量,
Figure 319372DEST_PATH_IMAGE040
为所述下文向量。
详细地,对所述上文向量、所述歧义词向量和所述下文向量进行向量平均,可以使得最后得到的语义向量联系了上文和下文的信息,丰富了所述语义向量所包含的语义信息。
具体地,所述将所述上文、所述下文和所述待消歧词输入至所述分类器之前,所述方法还包括:
获取多个候选词,将多个所述候选词输入至所述分类器中,得到多个所述候选词对应的概率;
选取所述概率大于或者等于预设概率阈值的候选词对应的标签作为预测标签;
利用预设的最小化损失函数计算所述预测标签和预设的真实标签之间的损失值;
当所述损失值大于或者等于预设的损失阈值时,对所述分类器进行参数调整,直至所述损失值小于所述损失阈值时,将所述分类器输出为标准分类器。
进一步地,所述利用预设的最小化损失函数计算所述预测标签和预设的真实标签之间的损失值,包括:
所述预设的最小化损失函数为:
Figure 629130DEST_PATH_IMAGE041
其中,
Figure 699855DEST_PATH_IMAGE042
为所述损失值,
Figure 815578DEST_PATH_IMAGE043
为所述待消歧词的个数,
Figure 655358DEST_PATH_IMAGE044
为候选定义词的个数,[
Figure DEST_PATH_IMAGE045
是第m待消歧的词的第s个候选定义的真实标签,[
Figure 136018DEST_PATH_IMAGE046
是第m待消歧的词的第s个候选定义的概率得分。
详细地,利用所述分类器对所述语义向量进行分类预测,得到预测候选词。
S4、利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本。
本发明实施例中,所述预测候选词为经过所述分类器进行分类预测后最终得到的词语,将所述预测候选词替换掉所述初始文本中的待消歧词,得到消除歧义后的标准文本。
本发明实施例从预设的语义知识库中搜索待消歧词对应的多个定义解释,由于语义知识库包含的词和词义范围很大,在大部分不常见词或词义上性能表现大有提升,通过语义知识库搜索无需人工标注,节省人工标注成本。对多个所述定义解释进行向量化可以将所述定义解释转化成方便计算机处理的向量形式,基于所述定义矩阵构建对应的分类器,将所述待处理文本中确定的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文输入至所述分类器,得到所述待消歧词的预测候选词,得到预测候选词,提高了预测候选词筛选的准确度,并利用所述预测候选词对所述初始文本中的待消歧词进行替换,得到消除歧义后的标准文本。因此本发明提出的词义消歧方法可以解决词义消歧的准确度不够高的问题。
如图2所示,本申请实施例提供了一种词义消歧装置10的模块示意图,所述词义消歧装置10,包括:所述文本处理模块11、所述向量化模块12、所述候选词预测模块13和所述歧义消除模块14。
所述文本处理模块11,用于获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文;
所述向量化模块12,用于从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵;
所述候选词预测模块13,用于基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词;
所述歧义消除模块14,用于利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本。
详细地,本申请实施例中所述词义消歧装置10中的各模块在使用时采用与上述的图1中所述的词义消歧方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图3所示,本申请实施例提供了一种电子设备,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111、通信接口112、存储器113通过通信总线114完成相互间的通信;
存储器113,用于存放计算机程序;
在本申请一个实施例中,处理器111,用于执行存储器113上所存放的程序时,实现前述任意一个方法实施例提供的词义消歧方法,包括:
获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文;
从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵;
基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词;
利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的词义消歧方法的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种词义消歧方法,其特征在于,所述方法包括:
获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文;
从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵;
基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词;
利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本。
2.根据权利要求1所述的词义消歧方法,其特征在于,所述将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词,包括:
对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量;
对所述上文向量、所述歧义词向量和所述下文向量进行向量平均,得到语义向量;
将所述语义向量输入至所述分类器,得到所述待消歧词的预测候选词。
3.根据权利要求2所述的词义消歧方法,其特征在于,所述对所述上文、所述下文和所述待消歧词分别进行向量化处理,得到上文向量、歧义词向量和下文向量,包括:
分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集;
将所述掩码数据集转换为向量数据集,并对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵;
将所述目标向量相关矩阵输入至预训练模型的最终隐藏输出层中,得到上文向量、歧义词向量和下文向量。
4.根据权利要求3所述的词义消歧方法,其特征在于,所述分别对所述上文、所述下文和所述待消歧词进行掩码处理,得到掩码数据集,包括:
利用预获取的掩码概率从所述上文、所述下文和所述待消歧词中筛选出多个关键词,对所述多个关键词进行掩码处理,得到所述关键词对应的掩码词;
利用所述掩码词替换所述关键词,得到掩码数据集。
5.根据权利要求3所述的词义消歧方法,其特征在于,所述对所述向量数据集执行矩阵转换处理,得到目标向量相关矩阵,包括:
对所述向量数据集进行位置编码处理,得到位置向量集;
将所述位置向量集转换为位置向量矩阵,并根据所述位置向量矩阵的维度生成分类矩阵;
根据所述位置向量矩阵、所述分类矩阵和预设的激活函数计算得到所述位置向量集对应的原始向量相关矩阵;
利用所述原始向量相关矩阵和所述位置向量矩阵调节预购建的前馈神经网络中的迭代权重因子,得到目标向量相关矩阵。
6.根据权利要求1至4中任一项所述的词义消歧方法,其特征在于,所述对多个所述定义解释进行向量化,得到定义矩阵,包括:
将多个所述定义解释输入至目标训练模型中,得到多个所述定义解释对应的多个句向量;
对多个所述句向量进行拼接处理,得到定义矩阵。
7.根据权利要求1至4中任一项所述的词义消歧方法,其特征在于,所述获取待处理文本之后,所述方法还包括:
对所述待处理文本进行清洗去脏,得到清洗数据集;
将所述清洗数据集拆分为多个句子,得到分句数据集;
利用基准分词器对所述分句数据集进行分词处理,得到预处理的待处理文本。
8.一种词义消歧装置,其特征在于,所述装置包括:
文本处理模块,用于获取待处理文本,确定所述待处理文本中的待消歧词,以及所述待消歧词的上文和所述待消歧词的下文;
向量化模块,用于从预设的语义知识库中搜索所述待消歧词对应的多个定义解释,对多个所述定义解释进行向量化,得到定义矩阵;
候选词预测模块,用于基于所述定义矩阵构建对应的分类器,将所述上文、所述下文和所述待消歧词输入至所述分类器,得到所述待消歧词的预测候选词;
歧义消除模块,用于利用所述预测候选词对所述待消歧词进行替换,得到消除歧义后的标准文本。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项所述的词义消歧方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的词义消歧方法的步骤。
CN202111249932.6A 2021-10-26 2021-10-26 词义消歧方法、装置、电子设备及计算机可读存储介质 Active CN113704416B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111249932.6A CN113704416B (zh) 2021-10-26 2021-10-26 词义消歧方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111249932.6A CN113704416B (zh) 2021-10-26 2021-10-26 词义消歧方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113704416A true CN113704416A (zh) 2021-11-26
CN113704416B CN113704416B (zh) 2022-03-04

Family

ID=78647043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111249932.6A Active CN113704416B (zh) 2021-10-26 2021-10-26 词义消歧方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113704416B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707489A (zh) * 2022-03-29 2022-07-05 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
WO2023098013A1 (zh) * 2021-11-30 2023-06-08 青岛海尔科技有限公司 语义识别方法、装置及电子设备
WO2024051516A1 (zh) * 2022-09-07 2024-03-14 马上消费金融股份有限公司 对话意图歧义消除方法及装置、电子设备和非暂时性计算机可读存储介质
CN117892735A (zh) * 2024-03-14 2024-04-16 中电科大数据研究院有限公司 一种基于深度学习的自然语言处理方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
WO2019085640A1 (zh) * 2017-10-31 2019-05-09 株式会社Ntt都科摩 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质
CN110555208A (zh) * 2018-06-04 2019-12-10 北京三快在线科技有限公司 一种信息查询中的歧义消除方法、装置及电子设备
US20200073996A1 (en) * 2018-08-28 2020-03-05 Stitched.IO Limited Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms
US10733383B1 (en) * 2018-05-24 2020-08-04 Workday, Inc. Fast entity linking in noisy text environments
CN112784604A (zh) * 2021-02-08 2021-05-11 哈尔滨工业大学 一种基于实体边界网络的实体链接方法
CN112906397A (zh) * 2021-04-06 2021-06-04 南通大学 一种短文本实体消歧方法
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
WO2019085640A1 (zh) * 2017-10-31 2019-05-09 株式会社Ntt都科摩 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质
US10733383B1 (en) * 2018-05-24 2020-08-04 Workday, Inc. Fast entity linking in noisy text environments
CN110555208A (zh) * 2018-06-04 2019-12-10 北京三快在线科技有限公司 一种信息查询中的歧义消除方法、装置及电子设备
US20200073996A1 (en) * 2018-08-28 2020-03-05 Stitched.IO Limited Methods and Systems for Domain-Specific Disambiguation of Acronyms or Homonyms
CN112784604A (zh) * 2021-02-08 2021-05-11 哈尔滨工业大学 一种基于实体边界网络的实体链接方法
CN112906397A (zh) * 2021-04-06 2021-06-04 南通大学 一种短文本实体消歧方法
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023098013A1 (zh) * 2021-11-30 2023-06-08 青岛海尔科技有限公司 语义识别方法、装置及电子设备
CN114707489A (zh) * 2022-03-29 2022-07-05 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN114707489B (zh) * 2022-03-29 2023-08-18 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN114818736B (zh) * 2022-05-31 2023-06-09 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
WO2024051516A1 (zh) * 2022-09-07 2024-03-14 马上消费金融股份有限公司 对话意图歧义消除方法及装置、电子设备和非暂时性计算机可读存储介质
CN117892735A (zh) * 2024-03-14 2024-04-16 中电科大数据研究院有限公司 一种基于深度学习的自然语言处理方法及***

Also Published As

Publication number Publication date
CN113704416B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN113704416B (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
Paulus et al. Global belief recursive neural networks
CN107025284A (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN111160031A (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN109815400A (zh) 基于长文本的人物兴趣提取方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN110263325A (zh) 中文分词***
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
Mahmoud et al. A text semantic similarity approach for Arabic paraphrase detection
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和***
Almutiri et al. Markov models applications in natural language processing: a survey
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN114757184B (zh) 实现航空领域知识问答的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant