CN114139530A

CN114139530A - 同义词提取方法、装置、电子设备及存储介质

Info

Publication number: CN114139530A
Application number: CN202111401035.2A
Authority: CN
Inventors: 钟志浩
Original assignee: Welab Information Technology Shenzhen Ltd
Current assignee: Welab Information Technology Shenzhen Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-04

Abstract

本发明涉及人工智能领域，揭露一种同义词提取方法，包括：计算预设词典中每个词语与标准词之间的词向量相似度值；按照词向量相似度值从大到小的顺序，从预设词典中抽取第一数量的词语作为候选词；将标准词及每个候选词输入训练好的语义分析模型的语义特征提取网络执行语义特征提取处理，得到标准词及每个候选词的语义特征；基于语义特征计算标准词与每个候选词之间的语义相似度值，将语义相似度值大于语义相似度阈值的候选词作为标准词的同义词。本发明还提供一种同义词提取装置、电子设备及存储介质。本发明实现了准确地提取任意词的同义词。

Description

同义词提取方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种同义词提取方法、装置、电子设备及存储介质。

背景技术

同义词在自然语言处理领域中有着广泛的应用，在搜索引擎中，通过同义词表，可返回更优质的搜索结果，例如，用户搜索关键词“最新电脑”，通过同义词表，搜索引擎可将搜索关键词转化为“最新(电脑or笔记本)”，从而可得到更优质的搜索结果；在人机交互领域中，通过同义词表，可更准确的识别用户意图，例如，用户说“调高声音”，若配置了“声音-音量”为同义词对应关系，则可准确识别用户的意图为“调高音量”。因此，如何提取同义词是当前关注的要点。

当前，通常通过以下方式提取同义词：1、通过计算词语之间的词向量相似度确定同义词；2、通过同义词模板提取同义词。然而，对于方式1，词向量相似度更多的是体现词形的相似，语义可能不相似；对于方式二，只能在特定数据上进行查找，查询范围有限，且不能提取任意词的同义词。

因此，亟需一种同义词提取方法，以准确地提取任意词的同义词。

发明内容

鉴于以上内容，有必要提供一种同义词提取方法，旨在准确地提取任意词的同义词。

本发明提供的同义词提取方法，包括：

响应用户基于客户端发出的针对某一词语的同义词提取请求，将所述词语作为标准词，计算预设词典中每个词语与所述标准词之间的词向量相似度值；

按照词向量相似度值从大到小的顺序，从所述预设词典中抽取第一数量的词语作为候选词；

将所述标准词及每个候选词输入训练好的语义分析模型的语义特征提取网络执行语义特征提取处理，得到所述标准词及每个候选词的语义特征；

基于所述语义特征计算所述标准词与每个候选词之间的语义相似度值，将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词。

可选的，在所述将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词之后，所述方法还包括：

判断所述标准词的同义词的数量是否小于数量阈值；

若是，则将每个所述同义词作为一个新标准词，从所述预设词典中获取所述新标准词对应的新候选词；

计算每个所述新标准词与其对应的每个新候选词之间的新语义相似度值，将新语义相似度值大于所述语义相似度阈值的一个或多个新候选词作为所述标准词的同义词。

可选的，所述语义分析模型的训练过程包括：

从样本库中抽取第二数量的携带语义关系类别标签的句子对，得到样本集；

将所述样本集中的每个句子对输入语义分析模型的语义特征提取网络执行语义特征提取处理，得到每个句子对中各个句子的第一向量，基于所述第一向量确定每个句子对对应的第二向量；

将所述第二向量输入所述语义分析模型的分类网络执行分类处理，得到每个句子对在第一语义关系类别的预测概率；

将所述语义关系类别标签及所述预测概率代入损失函数，得到损失值，通过最小化损失值确定所述语义分析模型的结构参数，得到训练好的语义分析模型。

可选的，所述基于所述第一向量确定每个句子对对应的第二向量，包括：

计算每个句子对中两个句子的第一向量之间的差值绝对值，拼接每个句子对中各个句子的第一向量及所述差值绝对值，得到每个句子对对应的第二向量。

可选的，所述损失值的计算公式为：

其中，loss为损失值，p_i为样本集中第i个句子对在第一语义关系类别的预测概率，y_i为样本集中第i个句子对对应的语义关系类别标签，c为样本集中句子对的总数量。

为了解决上述问题，本发明还提供一种同义词提取装置，所述装置包括：

响应模块，用于响应用户基于客户端发出的针对某一词语的同义词提取请求，将所述词语作为标准词，计算预设词典中每个词语与所述标准词之间的词向量相似度值；

抽取模块，用于按照词向量相似度值从大到小的顺序，从所述预设词典中抽取第一数量的词语作为候选词；

提取模块，用于将所述标准词及每个候选词输入训练好的语义分析模型的语义特征提取网络执行语义特征提取处理，得到所述标准词及每个候选词的语义特征；

确定模块，用于基于所述语义特征计算所述标准词与每个候选词之间的语义相似度值，将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的同义词提取程序，所述同义词提取程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如下步骤：

可选的，在所述将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词之后，所述同义词提取程序被所述至少一个处理器执行时还实现如下步骤：

判断所述标准词的同义词的数量是否小于数量阈值；

可选的，所述语义分析模型的训练过程包括：

为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有同义词提取程序，所述同义词提取程序可被一个或者多个处理器执行，以实现上述同义词提取方法。

相较现有技术，本发明首先计算预设词典中每个词语与标准词之间的词向量相似度值；接着，按照词向量相似度值从大到小的顺序，从预设词典中抽取第一数量的词语作为候选词；然后，将标准词及每个候选词输入训练好的语义分析模型的语义特征提取网络执行语义特征提取处理，得到标准词及每个候选词的语义特征；最后，基于语义特征计算标准词与每个候选词之间的语义相似度值，将语义相似度值大于语义相似度阈值的候选词作为标准词的同义词。因此，本发明实现了准确地提取任意词的同义词。

附图说明

图1为本发明一实施例提供的同义词提取方法的流程示意图；

图2为本发明一实施例提供的同义词提取装置的模块示意图；

图3为本发明一实施例提供的实现同义词提取方法的电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提供一种同义词提取方法。参照图1所示，为本发明一实施例提供的同义词提取方法的流程示意图。该方法可以由一个电子设备执行，该电子设备可以由软件和/或硬件实现。

本实施例中，同义词提取方法包括：

S1、响应用户基于客户端发出的针对某一词语的同义词提取请求，将所述词语作为标准词，计算预设词典中每个词语与所述标准词之间的词向量相似度值。

本实施例中，同义词提取方法可以通过应用程序实现，用户可以在客户端应用程序的输入框中输入某一词语，然后点击“同义词查询”按钮，以发出同义词提取请求。

预设词典中收集了多个词语，将用户输入的词语作为标准词，通过word2vec模型获取标准词及预设词典中每个词语的词向量，计算标准词与预设词典中每个词语之间的词向量相似度值，词向量相似度值可以是词向量的余弦相似度值。

S2、按照词向量相似度值从大到小的顺序，从所述预设词典中抽取第一数量的词语作为候选词。

本实施例中，第一数量可以是30个，将预设词典中与标准词的词向量相似度值较大的30个词语作为候选词。

然而，词向量相似度值更多的是体现词语之间词形的相似度，词向量相似度值大的两个词语的语义不一定相似，因此，需要对候选词进行筛选，以筛选出与标准词语义相似的同义词。

S3、将所述标准词及每个候选词输入训练好的语义分析模型的语义特征提取网络执行语义特征提取处理，得到所述标准词及每个候选词的语义特征。

所述语义分析模型可以是深度神经网络模型，语义分析模型用于分析输入的句子之间的语义是否相同，其包括语义特征提取网络及分类网络，语义特征提取网络用于提取输入的各个句子的语义特征，分类网络用于确定句子之间的语义关系类别，所述语义关系类别包括语义相同及语义不同。

本实施例中，语义分析模型的语义特征提取网络及分类网络的参数是通过训练得到的，训练完成后，在进行同义词提取时，只需运用语义特征提取网络提取输入词语的语义特征，而不需要运用分类网络进行分类。

所述语义分析模型的训练过程包括：

A11、从样本库中抽取第二数量的携带语义关系类别标签的句子对，得到样本集；

本实施例中，所述第二数量可以是10万以上。

语义关系类别包括第一语义关系类别及第二语义关系类别，其标签分别为1和0，第一语义关系类别表示句子对中的两个句子的语义相同，第二语义关系类别表示句子对中两个句子的语义不同。

A12、将所述样本集中的每个句子对输入语义分析模型的语义特征提取网络执行语义特征提取处理，得到每个句子对中各个句子的第一向量，基于所述第一向量确定每个句子对对应的第二向量；

所述基于所述第一向量确定每个句子对对应的第二向量，包括：

例如，句子对1中两个句子的第一向量分别为u、v，其差值绝对值为|u-v|，拼接后，句子对1对应的第二向量为{u，v，|u-v|}。

A13、将所述第二向量输入所述语义分析模型的分类网络执行分类处理，得到每个句子对在第一语义关系类别的预测概率；

不同于现有技术中仅将句子对中两个句子的第一向量输入分类网络进行分类处理，本实施例中，拼接句子对中两个句子的第一向量及其差值绝对值，得到句子对对应的第二向量，基于第二向量执行分类处理，第二向量表征的特征更加丰富，从而分类准确性更高。

将第二向量输入分类网络后，模型输出句子对在两种语义关系类别(语义相同及语义不同)上的预测概率。

A14、将所述语义关系类别标签及所述预测概率代入损失函数，得到损失值，通过最小化损失值确定所述语义分析模型的结构参数，得到训练好的语义分析模型。

所述损失值的计算公式为：

S4、基于所述语义特征计算所述标准词与每个候选词之间的语义相似度值，将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词。

得到标准词及各个候选词的语义特征后，通过计算语义特征之间的余弦相似度值确定标准词与每个候选词之间的语义相似度值。

为保证筛选出来的同义词的质量，可设置合适的语义相似度阈值，例如，90％。

在所述将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词之后，所述方法还包括：

B11、判断所述标准词的同义词的数量是否小于数量阈值；

所述数量阈值可以是3，若提取到的同义词数量小于3，需对同义词进行扩充。

B12、若是，则将每个所述同义词作为一个新标准词，从所述预设词典中获取所述新标准词对应的新候选词；

例如，若标准词对应的同义词有2个，则将这2个同义词分别作为新标准词，从预设词典中获取这2个新标准词对应的候选词。

B13、计算每个所述新标准词与其对应的每个新候选词之间的新语义相似度值，将新语义相似度值大于所述语义相似度阈值的一个或多个新候选词作为所述标准词的同义词。

同样的，通过训练好的语义分析模型的语义特征提取网络提取新标准词与其对应的每个新候选词的语义特征，通过语义特征的余弦相似度值确定新标准词与其对应的每个新候选词之间的新语义相似度值，将新语义相似度值大于语义相似度阈值的新候选词也作为标准词的同义词，放入其对应的同义词集合中。

由上述实施例可知，本发明提出的同义词提取方法，首先，计算预设词典中每个词语与标准词之间的词向量相似度值；接着，按照词向量相似度值从大到小的顺序，从预设词典中抽取第一数量的词语作为候选词；然后，将标准词及每个候选词输入训练好的语义分析模型的语义特征提取网络执行语义特征提取处理，得到标准词及每个候选词的语义特征；最后，基于语义特征计算标准词与每个候选词之间的语义相似度值，将语义相似度值大于语义相似度阈值的候选词作为标准词的同义词。因此，本发明实现了准确地提取任意词的同义词。

如图2所示，为本发明一实施例提供的同义词提取装置的模块示意图。

本发明所述同义词提取装置100可以安装于电子设备中。根据实现的功能，所述同义词提取装置100可以包括响应模块110、抽取模块120、提取模块130及确定模块140。本发明所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

响应模块110，用于响应用户基于客户端发出的针对某一词语的同义词提取请求，将所述词语作为标准词，计算预设词典中每个词语与所述标准词之间的词向量相似度值。

抽取模块120，用于按照词向量相似度值从大到小的顺序，从所述预设词典中抽取第一数量的词语作为候选词。

提取模块130，用于将所述标准词及每个候选词输入训练好的语义分析模型的语义特征提取网络执行语义特征提取处理，得到所述标准词及每个候选词的语义特征。

所述语义分析模型的训练过程包括：

A21、从样本库中抽取第二数量的携带语义关系类别标签的句子对，得到样本集；

A22、将所述样本集中的每个句子对输入语义分析模型的语义特征提取网络执行语义特征提取处理，得到每个句子对中各个句子的第一向量，基于所述第一向量确定每个句子对对应的第二向量；

A23、将所述第二向量输入所述语义分析模型的分类网络执行分类处理，得到每个句子对在第一语义关系类别的预测概率；

A24、将所述语义关系类别标签及所述预测概率代入损失函数，得到损失值，通过最小化损失值确定所述语义分析模型的结构参数，得到训练好的语义分析模型。

所述损失值的计算公式为：

确定模块140，用于基于所述语义特征计算所述标准词与每个候选词之间的语义相似度值，将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词。

在所述将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词之后，所述确定模块140还用于：

B21、判断所述标准词的同义词的数量是否小于数量阈值；

B22、若是，则将每个所述同义词作为一个新标准词，从所述预设词典中获取所述新标准词对应的新候选词；

B23、计算每个所述新标准词与其对应的每个新候选词之间的新语义相似度值，将新语义相似度值大于所述语义相似度阈值的一个或多个新候选词作为所述标准词的同义词。

如图3所示，为本发明一实施例提供的实现同义词提取方法的电子设备的结构示意图。

所述电子设备1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子设备1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子设备1包括，但不仅限于，可通过***总线相互通信连接的存储器11、处理器12、网络接口13，该存储器11中存储有同义词提取程序10，所述同义词提取程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及同义词提取程序10的电子设备1，本领域技术人员可以理解的是，图3示出的结构并不构成对电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

其中，存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子设备1的内部存储单元，例如该电子设备1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于电子设备1的操作***和各类应用软件，例如存储本发明一实施例中的同义词提取程序10的代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作，例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行同义词提取程序10等。

网络接口13可包括无线网络接口或有线网络接口，该网络接口13用于在所述电子设备1与客户端(图中未画出)之间建立通信连接。

可选的，所述电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选的，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的同义词提取程序10是多个指令的组合，在所述处理器12中运行时，可以实现如下步骤：

具体地，所述处理器12对上述同义词提取程序10的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是非易失性的，也可以是非易失性的。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

所述计算机可读存储介质上存储有同义词提取程序10，所述同义词提取程序10可被一个或者多个处理器执行，以实现如下步骤：

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种同义词提取方法，其特征在于，所述方法包括：

2.如权利要求1所述的同义词提取方法，其特征在于，在所述将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词之后，所述方法还包括：

判断所述标准词的同义词的数量是否小于数量阈值；

3.如权利要求1所述的同义词提取方法，其特征在于，所述语义分析模型的训练过程包括：

4.如权利要求3所述的同义词提取方法，其特征在于，所述基于所述第一向量确定每个句子对对应的第二向量，包括：

5.如权利要求3所述的同义词提取方法，其特征在于，所述损失值的计算公式为：

6.一种同义词提取装置，其特征在于，所述装置包括：

7.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

8.如权利要求7所述的电子设备，其特征在于，在所述将语义相似度值大于语义相似度阈值的候选词作为所述标准词的同义词之后，所述同义词提取程序被所述至少一个处理器执行时还实现如下步骤：

判断所述标准词的同义词的数量是否小于数量阈值；

9.如权利要求7所述的电子设备，其特征在于，所述语义分析模型的训练过程包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有同义词提取程序，所述同义词提取程序可被一个或者多个处理器执行，以实现如权利要求1至5任一项所述的同义词提取方法。