CN110909539A - 语料库的词语生成方法、***、计算机设备和存储介质 - Google Patents
语料库的词语生成方法、***、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110909539A CN110909539A CN201910979249.4A CN201910979249A CN110909539A CN 110909539 A CN110909539 A CN 110909539A CN 201910979249 A CN201910979249 A CN 201910979249A CN 110909539 A CN110909539 A CN 110909539A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- corpus
- participle
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 178
- 230000011218 segmentation Effects 0.000 claims abstract description 66
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000009193 crawling Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000013507 mapping Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及数据处理技术领域,本申请涉及一种语料库的词语生成方法、计算机设备和存储介质,所述方法包括:对语料库的目标词语进行语义分词并得到目标分词,获取目标分词的词向量,以及调取预设的同义词库中基础分词的词向量;根据目标分词的词向量和基础分词的词向量,计算目标分词分别与各基础分词之间的相似度;根据相似度从基础分词中确定与目标词语近义表达的候选同义词;将候选同义词与目标分词进行关联存储,将候选同义词添加进目标词语所在的语料库中。上述方法,对语料库中的分词查找近义表达的候选同义词,并将候选同义词与该分词进行关联存储,扩展了语料库,增大语料库可匹配分词的范围,提高使用语料库进行匹配的准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种语料库的词语生成方法、语料库的词语生成***、计算机设备和存储介质。
背景技术
目前,自然语言处理解放了对大量文本中自然语言进行处理的限制,自然语言处理的应用受到越来越多的关注,结合计算机技术的运用,将自然语言处理中建立和储备了越来越多的语料库,应用于不同的解决方案中。
以招聘平台为例,在面对大量的用户答案信息进行评价处理时,一般是通过将用户的答案信息与语料库存储的词语信息(如标准答案)进行匹配,通过匹配来生成对用户答案信息的评分信息。
目前,语料库的词语信息一般是固定添加的,在匹配过程中,往往会出现语义相近导致无法匹配,而出现答案信息进行评价偏差较大的缺陷,影响了匹配的准确性。
发明内容
基于此,有必要针对上述的技术缺陷,特别是语料库的词语在匹配的准确性低的技术缺陷,提供一种语料库的词语生成方法、语料库的词语生成***、计算机设备和存储介质。
一种语料库的词语生成方法,包括:
对语料库的目标词语进行语义分词并得到目标分词,获取所述目标分词的词向量,以及调取预设的同义词库中基础分词的词向量;
根据所述目标分词的词向量和所述基础分词的词向量,计算所述目标分词分别与各所述基础分词之间的相似度;
根据所述相似度从所述基础分词中确定与所述目标词语近义表达的候选同义词;
将所述候选同义词与所述目标分词进行关联存储,将所述候选同义词添加进所述语料库中所述目标分词所在的目标词语。
在一个实施例中,在所述调取预设的同义词库中基础分词的词向量的步骤之前,还包括:
爬取网络页面并提取所述网络页面的文本,对所述文本进行语义分词并获得初级分词,根据所述初级分词并采用负采样策略训练词向量模型;
统计所述初级分词的词频,剔除词频小于预设阈值的初级分词,将剩余的初级分词作为所述基础分词;
将所述基础分词输入训练后的词向量模型,获得所述基础分词的词向量。
在一个实施例中,所述获取所述目标分词的词向量的步骤,包括:
将所述目标词语输入所述训练后的词向量模型,并获得所述目标分词的词向量。
在一个实施例中,所述计算所述目标分词分别与各所述基础分词之间的相似度的步骤,包括:
计算所述目标分词的词向量与任一个所述基础分词的词向量之间的数量积,以及计算所述目标分词的词向量的模与该基础分词的词向量的模之间的模的乘积;
将所述数量积与所述模的乘积之间的商值作为所述目标分词与该基础分词之间的相似度。
在一个实施例中,所述将所述数量积与所述模的乘积之间的商值作为所述目标分词与该基础分词之间的相似度的步骤,包括以下公式:
在一个实施例中,所述根据所述相似度从所述基础分词中确定与所述目标词语近义表达的候选同义词的步骤,包括:
选取与所述目标词语之间相似度最高的若干个基础分词作为初级同义词;
展示所述初级同义词,接收从所述初级同义词中选取的所述候选同义词。
在一个实施例中,在所述将所述候选同义词与所述目标分词进行关联存储,将所述候选同义词添加进所述目标词语所在的语料库中的步骤之后,还包括:
获取用户回答面试问题的用户答案信息,对所述用户答案信息中的文本进行语义分词并得到关键分词;
从添加后的语料库中调取所述用户答案信息对应的目标词语;
判断所述目标词语中是否存在所述关键分词,根据判断结果获取所述用户答案信息的评价信息。
一种语料库的词语生成***,包括:
获取模块,用于对语料库的目标词语进行语义分词并得到目标分词,获取所述目标分词的词向量,以及调取预设的同义词库中基础分词的词向量;
计算模块,用于根据所述目标分词的词向量和所述基础分词的词向量,计算所述目标分词分别与各所述基础分词之间的相似度;
确定模块,用于根据所述相似度从所述基础分词中确定与所述目标词语近义表达的候选同义词;
添加模块,用于将所述候选同义词与所述目标分词进行关联存储,将所述候选同义词添加进所述目标词语所在的语料库中。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中所述的语料库的词语生成方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中所述的语料库的词语生成方法的步骤。
上述的语料库的词语生成方法、***、计算机设备和存储介质,对语料库中的分词查找近义表达的候选同义词,并将候选同义词与该分词进行关联存储,扩展了该分词所在的词语以及语料库,增大语料库可匹配分词的范围,从而提高使用语料库进行匹配的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过实践了解到。
附图说明
上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为一个实施例中提供的语料库的词语生成方法的实施环境图;
图2为一个实施例中语料库的词语生成方法的流程图;
图3为另一个实施例中语料库的词语生成方法的流程图;
图4为一个实施例中语料库的词语生成***的结构示意图;
图5为一个实施例中计算机设备的内部结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,图1为一个实施例中提供的语料库的词语生成方法的实施环境图,在该实施环境中,包括服务端110以及客户端120。用户可以通过客户端120进行面试,客户端120可以采集用户面试内容并上传至服务端110,服务端110可以根据用户面试内容识别用户回答的用户答案。服务端110可以在计算机设备或服务器设备上运行,客户端120可以安装在终端上,服务端110和客户端120之间可以通过网络进行通讯连接。终端可为智能手机、平板电脑、笔记本电脑、台式计算机等计算机设备,但并不局限于此。
在一个实施例中,如图2所示,图2为一个实施例中语料库的词语生成方法的流程图,本实施例中提出了一种语料库的词语生成方法,该语料库的词语生成方法可以应用于上述的服务端110中,具体可以包括以下步骤:
步骤S210:对语料库的目标词语进行语义分词并得到目标分词,获取目标分词的词向量,以及调取预设的同义词库中基础分词的词向量。
语料库中可以存储着若干个目标词语,目标词语可以是自然语言的句子或段落。按照自然语言的语义规则对目标词语进行语义分词,从而识别目标词语中各个目标分词。语义分词的过程中,首先可以根据标点符号对自然语言的文本进行分句,然后对分句后的短句进行分词,得到按照语义将自然语言的文本划分的多个分词。例如可以通过结巴分词将自然语言的文本划分的多个分词。
分词的词向量用于通过向量表示该分词的语义,在按照分词的语义将分词映射到向量空间后,即可以获得该分词的词向量。将目标分词按照其语义映射到向量空间并得到目标分词的词向量。
同义词库中可以存储着自然语言中使用的基础分词以及该基础分词对应的词向量,同义词库可以包括存储基础分词的词汇表以及基础分词与对应词向量的映射关系。
步骤S220:根据目标分词的词向量和基础分词的词向量,计算目标分词分别与各基础分词之间的相似度。
本步骤中,根据词向量确定分词在语义中的相互关系,分析分词在语义上的相似性,计算目标分词与基础分词之间的相似度。词向量可以把每个分词表征成具有若干个维度的实数向量,各个维度的实数都对应着一个特征,该特征可以是和其他分词之间的联系。词向量可以将相似的分词分别映射到向量空间的不同部分。当两个词向量具有一定的相似性,则该两个词向量在向量空间中的位置相近,由此可以通过计算分词的词向量在向量空间中的位置关系,从而确定分词之间的相似度。
步骤S230:根据相似度从基础分词中确定与目标分词近义表达的候选同义词。
分词之间的相似度越高,分词所表示的语义越接近,从相似度高的分词中可以确定近义表达的同义词。本步骤中,选取数值上较高的若干个相似度,并查找该若干个相似度所对应的基础分词,判定该若干个基础分词为目标分词的同义词,并将其作为与目标分词近义表达的候选同义词。
选取数值上较高的若干个相似度的过程中,可以选取数值最高的若干个相似度,或者获取满足预设要求范围的相似度。以作为目标分词的“勇敢”为例,确定相似度最高且满足预设要求范围的相似度,从基础分词中获得该相似度对应的候选同义词分别是“胆量”、“勇气”、“无畏”、“果敢”、“大胆”、“英勇”和“勇猛”。
步骤S240:将候选同义词与目标分词进行关联存储,将候选同义词添加进目标词语所在的语料库中。
本步骤中,将候选同义词与目标分词进行关联存储,将候选同义词添加进语料库的目标词语中,使用候选同义词扩展语料库。查找候选同义词在语料库中对应的目标分词及该目标分词所在的目标词语,在语料库中将目标分词与候选同义词进行关联存储,在目标词语中添加候选同义词,从而扩展目标词语和语料库。
上述语料库的词语生成方法,对语料库中的分词查找近义表达的候选同义词,并将候选同义词与该分词进行关联存储,扩展了该分词所在的词语以及语料库,增大语料库可匹配分词的范围,从而提高使用语料库进行匹配的准确性。
在一个应用场景中,语料库可以是答案库,答案库存储着多个试题对应的答案,目标词语可以是试题对应的答案,对答案进行语义分词后可以获得答案的关键词;同义词库中可以是包括常用的基础分词的词汇表或词典,同时同义词库中记录有基本分词在语义上的词向量。获取关键词的词向量,根据关键词的词向量和基本分词的词向量,计算关键词分别与各个基本分词之间的相似度,选取数值上较高的若干个相似度,或者满足预设要求范围的若干个相似度,并将该若干个相似度所对应的基础分词作为该关键词的候选同义词,将候选同义词与关键词进行关联存储,将候选同义词添加进该答案中,扩展该答案和答案库,以便于提高使用答案库进行匹配的准确性。还可以将候选同义词添加进具有该关键词的其他答案中。
在一个实施例中,在步骤S210中调取预设的同义词库中基础分词的词向量的步骤之前,还可以包括:
S251:爬取网络页面并提取网络页面的文本,对文本进行语义分词并获得初级分词,根据初级分词并采用负采样策略训练词向量模型。
本步骤中,向词向量模型输入初级分词,对词向量模型进负采样策略进行训练。负采样策略可以在每次输入一个训练样本时,仅仅对词向量模型更新一小部分的权重参数,从而降低梯度下降过程中的计算量。爬取网络页面后可获取的文本的数量多且范围大,增大训练词向量模型的样本容量,从而提高词向量模型的准确性。
S252:统计初级分词的词频,剔除词频小于预设阈值的初级分词,将剩余的初级分词作为基础分词。
本步骤中,统计文本中出现的分词,根据分词出现的词频筛选出常用的基础分词。爬取网络页面获得的文本所涵盖的范围大,分词的数量和种类多,从该文本中提炼出具有常用的基本分词,从而建立具有基本分词的同义词库。
S253:将基础分词输入训练后的词向量模型,获得基础分词的词向量。
本步骤中,将基础分词输入训练后的词向量模型,词向量模型输出该基础分词的词向量。将同义词库中各个基础分词输入词向量模型后,分别获得各个基础分词的词向量。训练后的词向量模型可以输出d维的词向量,d为正整数,例如,词向量模型中可映射的向量空间是50维的,则向词向量模型输入基础分词,词向量模型可以输出关于该基础分词的50维词向量。
上述语料库的词语生成方法,通过爬取网页的文本后获得初级分词,根据初级分词对词向量模型进行训练,再由训练后的词向量模型对分词的词义进行分析,可以获得分词的词向量,提高获取词向量的效率和准确性。
在一个实施例中,步骤S210中获取目标分词的词向量的步骤,可以包括:
S254:将目标词语输入训练后的词向量模型,并获得目标分词的词向量。
本步骤中,通过向词向量模型输入目标词语,词向量模型可以分析目标分词在目标词语中的词义,词向量模型在分析后输出目标分词的词向量。
上述语料库的词语生成方法,可以通过词向量模型快速分析目标分词的词义和获取目标分词的词向量。
在一个实施例中,步骤S220中计算目标分词分别与各基础分词之间的相似度的步骤,可以包括:
S221:计算目标分词的词向量与任一个基础分词的词向量之间的数量积,以及计算目标分词的词向量的模与该基础分词的词向量的模之间的模的乘积;
S222:将数量积与模的乘积之间的商值作为目标分词与该基础分词之间的相似度。
本步骤中,可以根据目标分词的词向量与基础分词的词向量的数量积以及该词向量的模之间的关系,计算目标分词与任一个基础分词之间的相似度。数量积与模的乘积之间的商值越大,目标分词的词向量与基础分词之间的词向量之间的夹角越小,目标分词和基础分词在向量空间的位置越靠近,可以通过词向量之间数量积与模的乘积之间的商值可以表示目标分词与基础分词之间的相似度。
其中,进一步地,将数量积与模的乘积之间的商值作为目标分词与该基础分词之间的相似度的步骤,可以包括以下公式:
上述公式可以计算目标分词的词向量与任一个基础分词的词向量之间的夹角的相似度。
上述语料库的词语生成方法,数量积与模的乘积之间的商值可以反映目标分词与基础分词在向量空间中的位置关系,数量积与模的乘积之间的商值可以作为目标分词与基础分词之间的相似度。
上述实施例中阐述了目标分词与基础分词之间相似度的计算过程,下面将结合实施例进一步阐述确定候选同义词的过程。
在一个实施例中,步骤S230中根据相似度从基础分词中确定与目标词语近义表达的候选同义词的步骤,可以包括:
S231:选取与目标词语之间相似度最高的若干个基础分词作为初级同义词。
S232:展示初级同义词,接收从初级同义词中选取的候选同义词。
上述语料库的词语生成方法,向开发者的客户端展示初级同义词,可以供开发者查看初级同义词以及判断是否近义表达目标分词的语义,由开发者从初级同义词中选取有效的同义词并将选取的同义词返回服务端,服务端将返回的初级同义词作为候选同义词,上述过程可以提高候选同义词的准确性。
在一个实施例中,在步骤S240中将候选同义词与目标分词进行关联存储,将候选同义词添加进目标词语所在的语料库中的步骤之后,还包括:
S261:获取用户回答面试问题的用户答案信息,对用户答案信息中的文本进行语义分词并得到关键分词。
本步骤中,用户在客户端回答面试问题,客户端将用户答案信息发送给服务端,服务端对用户答案信息的文本进行语义分词,划分用户答案中的分词,得到关键分词。语义分词的过程中,首先可以根据标点符号对自然语言的文本进行分句,然后对分句后的短句进行分词,得到按照语义将自然语言的文本划分的多个分词。
进一步地,若用户是通过语音回答面试问题,服务器获取了作为语音数据的用户答案信息,还需要识别用户答案信息的语音中的文本信息,可以按照用户在语音上的停顿进行分句以及分词,从而得到关键分词。
S262:从添加后的语料库中调取用户答案信息对应的目标词语。
本步骤中,用户答案信息对应的目标词语可以是根据面试问题所预设的参***,添加后的语料库对参***进行了扩展。
S263:判断目标词语中是否存在关键分词,根据判断结果获取用户答案信息的评价信息。
本步骤中,将用户答案信息与参***进行匹配,判断用户答案信息中的关键词是否出现在参***中,根据判断结果对用户答案信息进行评价,获得用户答案信息的评价信息。
上述语料库的词语生成方法,提高了用户答案信息与参***之间匹配的准确性,可以提高对用户答案信息进行评价的准确性。
在一个应用示例中,如图3所示,图3为另一个实施例中语料库的词语生成方法的流程图,本实施例中提供一种语料库的词语生成方法,具体可以包括以下步骤:
S310:建立同义词库。爬取网络页面并提取网络页面的文本,对文本进行语义分词并获得初级分词,统计初级分词的词频,剔除词频小于预设阈值的初级分词,将剩余的初级分词作为同义词库中的基础分词。语义分词的过程中,首先可以根据标点符号对自然语言的文本进行分句,然后对分句后的短句进行分词,得到按照语义将自然语言的文本划分的多个分词。例如可以通过结巴分词将自然语言的文本划分的多个分词。
S320:采用负采样策略训练词向量模型。向词向量模型输入初级分词,对词向量模型进负采样策略进行训练。负采样策略可以在每次输入一个训练样本时,仅仅对词向量模型更新一小部分的权重参数,从而降低梯度下降过程中的计算量。爬取网络页面后可获取的文本的数量多且范围大,增大训练词向量模型的样本容量,从而提高词向量模型的准确性。
S330:通过词向量模型获取同义词库中基础分词的词向量。将基础分词输入训练后的词向量模型,词向量模型输出该基础分词的词向量。将同义词库中各个基础分词输入词向量模型后,分别获得各个基础分词的词向量。训练后的词向量模型可以输出d维的词向量,d为正整数,例如,词向量模型中可映射的向量空间是50维的,则向词向量模型输入基础分词,词向量模型可以输出关于该基础分词的50维词向量。
S340:获取语料库,对语料库的目标词语进行语义分词并得到目标分词,获取目标分词的词向量。语料库中可以存储着若干个目标词语,目标词语可以是自然语言的句子或段落。按照自然语言的语义规则对目标词语进行语义分词,从而识别目标词语中各个目标分词。
S350:计算目标分词分别与各基础分词之间的相似度。根据词向量确定分词在语义中的相互关系,分析分词在语义上的相似性,计算目标分词与基础分词之间的相似度。
计算目标分词的词向量与任一个基础分词的词向量之间的数量积,以及计算目标分词的词向量的模与该基础分词的词向量的模之间的模的乘积;将数量积与模的乘积之间的商值作为目标分词与该基础分词之间的相似度。具体可以包括以下公式:
S360:根据相似度从基础分词中确定与目标词语近义表达的候选同义词。选取与目标词语之间相似度最高的若干个基础分词作为初级同义词;展示初级同义词,接收从初级同义词中选取的候选同义词。向开发者的客户端展示初级同义词,可以供开发者查看初级同义词以及判断是否近义表达目标分词的语义,由开发者从初级同义词中选取有效的同义词并将选取的同义词返回服务端,服务端将返回的初级同义词作为候选同义词,上述过程可以提高候选同义词的准确性。
S370:将候选同义词与目标分词进行关联存储,将候选同义词添加进目标词语所在的语料库中。
将候选同义词与目标分词进行关联存储,将候选同义词添加进语料库的目标词语中,使用候选同义词扩展语料库。查找候选同义词在语料库中对应的目标分词及该目标分词所在的目标词语,在语料库中将目标分词与候选同义词进行关联存储,在目标词语中添加候选同义词,从而扩展目标词语和语料库。
S380:根据语料库和用户答案信息获取用户答案信息的评价信息。获取用户回答面试问题的用户答案信息,对用户答案信息中的文本进行语义分词并得到关键分词;从添加后的语料库中调取用户答案信息对应的目标词语;判断目标词语中是否存在关键分词,根据判断结果获取用户答案信息的评价信息。
上述语料库的词语生成方法,对语料库中的分词查找近义表达的候选同义词,并将候选同义词与该分词进行关联存储,扩展了该分词所在的词语以及语料库,增大语料库可匹配分词的范围,从而提高使用语料库进行匹配的准确性。
在一个实施例中,如图4所示,图4为一个实施例中语料库的词语生成***的结构示意图,本申请提供一种语料库的词语生成***,具体可以包括获取模块410、计算模块420、确定模块430和添加模块440,其中:
获取模块410,用于对语料库的目标词语进行语义分词并得到目标分词,获取目标分词的词向量,以及调取预设的同义词库中基础分词的词向量。
语料库中可以存储着若干个目标词语,目标词语可以是自然语言的句子或段落。按照自然语言的语义规则对目标词语进行语义分词,从而识别目标词语中各个目标分词。语义分词的过程中,首先可以根据标点符号对自然语言的文本进行分句,然后对分句后的短句进行分词,得到按照语义将自然语言的文本划分的多个分词。例如可以通过结巴分词将自然语言的文本划分的多个分词。
分词的词向量用于通过向量表示该分词的语义,在按照分词的语义将分词映射到向量空间后,即可以获得该分词的词向量。将目标分词按照其语义映射到向量空间并得到目标分词的词向量。
同义词库中可以存储着自然语言中使用的基础分词以及该基础分词对应的词向量,同义词库可以包括存储基础分词的词汇表以及基础分词与对应词向量的映射关系。
计算模块420,用于根据目标分词的词向量和基础分词的词向量,计算目标分词分别与各基础分词之间的相似度。
计算模块420中,根据词向量确定分词在语义中的相互关系,分析分词在语义上的相似性,计算目标分词与基础分词之间的相似度。词向量可以把每个分词表征成具有若干个维度的实数向量,各个维度的实数都对应着一个特征,该特征可以是和其他分词之间的联系。词向量可以将相似的分词分别映射到向量空间的不同部分。当两个词向量具有一定的相似性,则该两个词向量在向量空间中的位置相近,由此可以通过计算分词的词向量在向量空间中的位置关系,从而确定分词之间的相似度。
确定模块430,用于根据相似度从基础分词中确定与目标词语近义表达的候选同义词。
分词之间的相似度越高,分词所表示的语义越接近,从相似度高的分词中可以确定近义表达的同义词。确定模块430中,选取数值上较高的若干个相似度,并查找该若干个相似度所对应的基础分词,判定该若干个基础分词为目标分词的同义词,并将其作为与目标分词近义表达的候选同义词。
选取数值上较高的若干个相似度的过程中,可以选取数值最高的若干个相似度,或者获取满足预设要求范围的相似度。以作为目标分词的“勇敢”为例,确定相似度最高且满足预设要求范围的相似度,从基础分词中获得该相似度对应的候选同义词分别是“胆量”、“勇气”、“无畏”、“果敢”、“大胆”、“英勇”和“勇猛”。
添加模块440,用于将候选同义词与目标分词进行关联存储,将候选同义词添加进目标词语所在的语料库中。
添加模块440中,将候选同义词与目标分词进行关联存储,将候选同义词添加进语料库的目标词语中,使用候选同义词扩展语料库。查找候选同义词在语料库中对应的目标分词及该目标分词所在的目标词语,在语料库中将目标分词与候选同义词进行关联存储,在目标词语中添加候选同义词,从而扩展目标词语和语料库。
上述语料库的词语生成***,对语料库中的分词查找近义表达的候选同义词,并将候选同义词与该分词进行关联存储,扩展了该分词所在的词语以及语料库,增大语料库可匹配分词的范围,从而提高使用语料库进行匹配的准确性。
关于语料库的词语生成***的具体限定可以参见上文中对于语料库的词语生成方法的限定,在此不再赘述。上述语料库的词语生成***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
如图5所示,图5为一个实施例中计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作***和计算机程序,该计算机程序被处理器执行时,可使得处理器实现一种语料库的词语生成方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种语料库的词语生成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例中的语料库的词语生成方法的步骤。
在一个实施例中,提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中的语料库的词语生成方法的步骤。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种语料库的词语生成方法,其特征在于,包括:
对语料库的目标词语进行语义分词并得到目标分词,获取所述目标分词的词向量,以及调取预设的同义词库中基础分词的词向量;
根据所述目标分词的词向量和所述基础分词的词向量,计算所述目标分词分别与各所述基础分词之间的相似度;
根据所述相似度从所述基础分词中确定与所述目标词语近义表达的候选同义词;
将所述候选同义词与所述目标分词进行关联存储,将所述候选同义词添加进所述目标词语所在的语料库中。
2.根据权利要求1所述的语料库的词语生成方法,其特征在于,在所述调取预设的同义词库中基础分词的词向量的步骤之前,还包括:
爬取网络页面并提取所述网络页面的文本,对所述文本进行语义分词并获得初级分词,根据所述初级分词并采用负采样策略训练词向量模型;
统计所述初级分词的词频,剔除词频小于预设阈值的初级分词,将剩余的初级分词作为所述基础分词;
将所述基础分词输入训练后的词向量模型,获得所述基础分词的词向量。
3.根据权利要求2所述的语料库的词语生成方法,其特征在于,所述获取所述目标分词的词向量的步骤,包括:
将所述目标词语输入所述训练后的词向量模型,并获得所述目标分词的词向量。
4.根据权利要求1所述的语料库的词语生成方法,其特征在于,所述计算所述目标分词分别与各所述基础分词之间的相似度的步骤,包括:
计算所述目标分词的词向量与任一个所述基础分词的词向量之间的数量积,以及计算所述目标分词的词向量的模与该基础分词的词向量的模之间的模的乘积;
将所述数量积与所述模的乘积之间的商值作为所述目标分词与该基础分词之间的相似度。
6.根据权利要求1所述的语料库的词语生成方法,其特征在于,所述根据所述相似度从所述基础分词中确定与所述目标词语近义表达的候选同义词的步骤,包括:
选取与所述目标词语之间相似度最高的若干个基础分词作为初级同义词;
展示所述初级同义词,接收从所述初级同义词中选取的所述候选同义词。
7.根据权利要求1所述的语料库的词语生成方法,其特征在于,在所述将所述候选同义词与所述目标分词进行关联存储,将所述候选同义词添加进所述目标词语所在的语料库中的步骤之后,还包括:
获取用户回答面试问题的用户答案信息,对所述用户答案信息中的文本进行语义分词并得到关键分词;
从添加后的语料库中调取所述用户答案信息对应的目标词语;
判断所述目标词语中是否存在所述关键分词,根据判断结果获取所述用户答案信息的评价信息。
8.一种语料库的词语生成***,其特征在于,包括:
获取模块,用于对语料库的目标词语进行语义分词并得到目标分词,获取所述目标分词的词向量,以及调取预设的同义词库中基础分词的词向量;
计算模块,用于根据所述目标分词的词向量和所述基础分词的词向量,计算所述目标分词分别与各所述基础分词之间的相似度;
确定模块,用于根据所述相似度从所述基础分词中确定与所述目标词语近义表达的候选同义词;
添加模块,用于将所述候选同义词与所述目标分词进行关联存储,将所述候选同义词添加进所述目标词语所在的语料库中。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的语料库的词语生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语料库的词语生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910979249.4A CN110909539A (zh) | 2019-10-15 | 2019-10-15 | 语料库的词语生成方法、***、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910979249.4A CN110909539A (zh) | 2019-10-15 | 2019-10-15 | 语料库的词语生成方法、***、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110909539A true CN110909539A (zh) | 2020-03-24 |
Family
ID=69815654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910979249.4A Withdrawn CN110909539A (zh) | 2019-10-15 | 2019-10-15 | 语料库的词语生成方法、***、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909539A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN111859985A (zh) * | 2020-07-23 | 2020-10-30 | 平安普惠企业管理有限公司 | Ai客服模型测试方法、装置、电子设备及存储介质 |
CN112307295A (zh) * | 2020-03-27 | 2021-02-02 | 北京来也网络科技有限公司 | 结合rpa和ai的语料泛化方法、装置和电子设备 |
CN112527989A (zh) * | 2020-12-15 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种训练方法、训练装置及智能设备 |
CN112699348A (zh) * | 2020-12-25 | 2021-04-23 | 中国平安人寿保险股份有限公司 | 核身信息校验的方法、装置、计算机设备及存储介质 |
CN113128209A (zh) * | 2021-04-22 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 用于生成词库的方法及装置 |
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
CN113343708A (zh) * | 2021-06-11 | 2021-09-03 | 北京声智科技有限公司 | 一种基于语义实现语句泛化的方法和装置 |
CN113361275A (zh) * | 2021-08-10 | 2021-09-07 | 北京优幕科技有限责任公司 | 演讲稿逻辑结构评价方法和设备 |
CN113569568A (zh) * | 2021-07-29 | 2021-10-29 | 中国工商银行股份有限公司 | 文本识别方法、装置、电子设备、存储介质及转账方法 |
CN117196856A (zh) * | 2023-08-11 | 2023-12-08 | 中国银行保险信息技术管理有限公司 | 一种理赔信息的处理方法及装置、存储介质、计算机设备 |
CN117422795A (zh) * | 2023-12-18 | 2024-01-19 | 华南理工大学 | 基于数据处理的包装材料印刷图文自动生成方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104375989A (zh) * | 2014-12-01 | 2015-02-25 | 国家电网公司 | 自然语言文本关键词关联网络构建*** |
CN109710921A (zh) * | 2018-12-06 | 2019-05-03 | 深圳市中农易讯信息技术有限公司 | 词语相似度的计算方法、装置、计算机设备及存储介质 |
-
2019
- 2019-10-15 CN CN201910979249.4A patent/CN110909539A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104375989A (zh) * | 2014-12-01 | 2015-02-25 | 国家电网公司 | 自然语言文本关键词关联网络构建*** |
CN109710921A (zh) * | 2018-12-06 | 2019-05-03 | 深圳市中农易讯信息技术有限公司 | 词语相似度的计算方法、装置、计算机设备及存储介质 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307295A (zh) * | 2020-03-27 | 2021-02-02 | 北京来也网络科技有限公司 | 结合rpa和ai的语料泛化方法、装置和电子设备 |
CN111859013A (zh) * | 2020-07-17 | 2020-10-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 数据处理方法、装置、终端和存储介质 |
CN111859985B (zh) * | 2020-07-23 | 2023-09-12 | 上海华期信息技术有限责任公司 | Ai客服模型测试方法、装置、电子设备及存储介质 |
CN111859985A (zh) * | 2020-07-23 | 2020-10-30 | 平安普惠企业管理有限公司 | Ai客服模型测试方法、装置、电子设备及存储介质 |
CN112527989A (zh) * | 2020-12-15 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种训练方法、训练装置及智能设备 |
CN112699348A (zh) * | 2020-12-25 | 2021-04-23 | 中国平安人寿保险股份有限公司 | 核身信息校验的方法、装置、计算机设备及存储介质 |
CN113128209A (zh) * | 2021-04-22 | 2021-07-16 | 百度在线网络技术(北京)有限公司 | 用于生成词库的方法及装置 |
CN113128209B (zh) * | 2021-04-22 | 2023-11-24 | 百度在线网络技术(北京)有限公司 | 用于生成词库的方法及装置 |
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
CN113343708A (zh) * | 2021-06-11 | 2021-09-03 | 北京声智科技有限公司 | 一种基于语义实现语句泛化的方法和装置 |
CN113569568A (zh) * | 2021-07-29 | 2021-10-29 | 中国工商银行股份有限公司 | 文本识别方法、装置、电子设备、存储介质及转账方法 |
CN113361275A (zh) * | 2021-08-10 | 2021-09-07 | 北京优幕科技有限责任公司 | 演讲稿逻辑结构评价方法和设备 |
CN117196856A (zh) * | 2023-08-11 | 2023-12-08 | 中国银行保险信息技术管理有限公司 | 一种理赔信息的处理方法及装置、存储介质、计算机设备 |
CN117422795A (zh) * | 2023-12-18 | 2024-01-19 | 华南理工大学 | 基于数据处理的包装材料印刷图文自动生成方法及*** |
CN117422795B (zh) * | 2023-12-18 | 2024-03-29 | 华南理工大学 | 基于数据处理的包装材料印刷图文自动生成方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110909539A (zh) | 语料库的词语生成方法、***、计算机设备和存储介质 | |
US11640515B2 (en) | Method and neural network system for human-computer interaction, and user equipment | |
CN110162627B (zh) | 数据增量方法、装置、计算机设备及存储介质 | |
CN110457431B (zh) | 基于知识图谱的问答方法、装置、计算机设备和存储介质 | |
KR101968102B1 (ko) | 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及*** | |
KR20160026892A (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
CN111191032B (zh) | 语料扩充方法、装置、计算机设备和存储介质 | |
CN116821318B (zh) | 基于大语言模型的业务知识推荐方法、装置及存储介质 | |
US11461613B2 (en) | Method and apparatus for multi-document question answering | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
CN109840255A (zh) | 答复文本生成方法、装置、设备及存储介质 | |
US20230237084A1 (en) | Method and apparatus for question-answering using a database consist of query vectors | |
CN113220862A (zh) | 标准问识别方法、装置及计算机设备及存储介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
GB2568575A (en) | Document search using grammatical units | |
US11288265B2 (en) | Method and apparatus for building a paraphrasing model for question-answering | |
CN113761124A (zh) | 文本编码模型的训练方法、信息检索方法及设备 | |
US20210165800A1 (en) | Method and apparatus for question-answering using a paraphrasing model | |
JP6509391B1 (ja) | 計算機システム | |
CN114580398A (zh) | 文本信息提取模型生成方法、文本信息提取方法和装置 | |
Lai et al. | An unsupervised approach to discover media frames |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200324 |
|
WW01 | Invention patent application withdrawn after publication |