CN116562281A

CN116562281A - 一种基于词性标记的领域新词提取方法、***及设备

Info

Publication number: CN116562281A
Application number: CN202310826531.5A
Authority: CN
Inventors: 侯颖; 崔运鹏; 罗冠然; 黄杰; 王婷; 王末; 刘娟
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-08-08

Abstract

本发明公开了一种基于词性标记的领域新词提取方法、***及设备，涉及自然语言处理领域，该方法包括：对待处理文本进行分词处理，得到多个分词；利用词性标注模型对每个所述分词进行标记，得到词性标记；基于所述词性标记，采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语；利用预训练的语言模型，根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序；对排序后的候选短语进行过滤提取领域新词。本发明能够快速准确的提取领域新词。

Description

一种基于词性标记的领域新词提取方法、***及设备

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于词性标记的领域新词提取方法、***及设备。

背景技术

中文分词是自然语言处理领域的一个重要研究内容，是文本挖掘的第一步，也是非常重要的步骤之一，它是关键词抽取、文本聚类、主题建模、热点分析等的基础，分词结果的好坏直接影响进一步文本处理的准确性。因此，如何快速、准确、有效的识别新词，对提高中文分词效果具有重要作用，对提高工作效率具有重要意义。

中文新词的识别在数据挖掘方面是一个令人关注的领域，不同领域或学科中都有其特定的专业术语，现有分词软件很难做到个性化处理，并准确地对特殊词汇进行分割。目前，针对新词发现研究主要集中于规则匹配、统计、互信息结合n-gram模型等方法。具体而言，既有新词发现方法存在如下问题：1）基于规则的方法虽然准确率较高，但对人力物力消耗大，可扩展性、灵活性比较差；2）基于统计的方法较为灵活，不收领域限制，以扩展且可移植性较好，但存在准确率较低的缺点；3）基于互信息和n-gram模型结合的方法需要预定义n-gram长度，用户通常不知道最佳的n-gram范围，必须经过一些实验找到合适的n-gram范围，即使找到合适的范围，返回的短语仍可能在语法上不正确。

发明内容

本发明的目的是提供一种基于词性标记的领域新词提取方法、***及设备，以解决现有新词发现方法中存在的人力物力消耗大、可扩展性和灵活性较差、准确率较低以及语法不正确等问题。

为实现上述目的，本发明提供了如下方案：

一种基于词性标记的领域新词提取方法，包括：

对待处理文本进行分词处理，得到多个分词；

利用词性标注模型对每个所述分词进行标记，得到词性标记；

基于所述词性标记，采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语；

利用预训练的语言模型，根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序；

对排序后的候选短语进行过滤提取领域新词。

可选地，在对排序后的候选短语进行过滤提取领域新词之后，还包括：

将提取的领域新词添加到用户词典中。

可选地，对待处理文本进行分词处理，得到多个分词，具体包括：

根据用户词典中的领域专业词表对待处理文本进行分词处理，得到多个分词。

可选地，对排序后的候选短语进行过滤提取领域新词，具体包括：

通过相似性阈值或者topN对排序后的候选短语进行过滤提取领域新词。

本发明还提供了一种基于词性标记的领域新词提取***，包括：

分词处理单元，用于对待处理文本进行分词处理，得到多个分词；

词性标记单元，用于利用词性标注模型对每个所述分词进行标记，得到词性标记；

候选短语选择单元，用于基于所述词性标记，采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语；

排序单元，用于利用预训练的语言模型，根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序；

领域新词提取单元，用于对排序后的候选短语进行过滤提取领域新词。

可选地，还包括：

添加单元，用于将提取的领域新词添加到用户词典中。

可选地，所述分词处理单元根据用户词典中的领域专业词表对待处理文本进行分词处理，得到多个分词。

可选地，所述领域新词提取单元通过相似性阈值或者topN对排序后的候选短语进行过滤提取领域新词。

本发明还提供了一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的基于词性标记的领域新词提取方法。

本发明还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于词性标记的领域新词提取方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

（1）本发明利用预训练的语言模型和词性从领域文献中进行新词识别提取，无需大量的标记训练数据，减少了人力消耗；

（2）本发明可扩展性好，能灵活的扩展至其他领域；

（3）本发明无需用户指定n-gram范围，且能提取语法正确的新词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的基于词性标记的领域新词提取方法的流程图；

图2为本发明实施例一提供的基于词性标记的领域新词提取方法的整体流程图；

图3为分词处理流程图；

图4为词性标注模型的训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于词性标记的领域新词提取方法、***及设备，利用预训练的语言模型和词性进行新词的识别提取，无需大量的标记训练数据，减少了人力消耗，且可扩展性好，能提取语法正确的新词。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

本发明实施例一提供了一种基于词性标记的领域新词提取方法，如图1-图2所示，该方法包括以下步骤：

S1：对待处理文本进行分词处理，得到多个分词。

如图3所示，将从领域语料中提取的已有的领域专业词表加入用户词典，作为分词依据对待处理文本进行分词处理，得到分词结果；同时也可将后续步骤提取到的领域新词加入到用户词典中，以提升文本的后续分词效果。

领域专业词表可以是领域中经过校验的有价值的领域实体、实体属性、专有名词、术语等领域词汇。用户词典中的词语质量，对分词的准确率有很大影响。

S2：利用词性标注模型对每个所述分词进行标记，得到词性标记。

利用词性标注模型，对待处理文本的每个分词的词性进行标记。词性标注模型可用已训练好的现有模型，或采用神经网络模型根据自己的领域数据自定义词性标注模型。

图4为自定义词性标注模型架构图，将自己的领域数据作为训练数据，基于spacy自然语言处理工具包处理训练数据，得到文本和标签，然后采用梯度下降法对神经网络进行训练，保存得到词性标注模型。

S3：基于所述词性标记，采用正则表达式从所述待处理文本中选择与定义的词性模式相匹配的候选短语。

具体如下：初始化矢量器，传入词性匹配模式（如<J.*>*<N.*>+）、词性标记、停用词表等参数，从待处理文本中学习与定义的词性模式相匹配的短语，得到合适的候选短语；通过拟合学习后，矢量器可将文档转换为文档-短语矩阵，矩阵行表示文档，列表示短语。

文档-短语矩阵可以是词频统计矩阵，也可是短语的TF-IDF值矩阵。词频统计矩阵可较为直观的看到每个短语在每篇文档出现的次数。TF是词频(Term Frequency)，IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估单词对于一个文件集或一个语料库中的其中一份文件的重要程度。单词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

S4：利用预训练的语言模型，根据所述候选短语与所述待处理文本的语义相似性对所述候选短语进行排序。

将提取的候选短语传递给预训练的语言模型，进行嵌入生成和相似度计算，并按照相似度分值对候选短语进行排序。

S5：对排序后的候选短语进行过滤提取领域新词。

通过设置相似性阈值或者topN对排序后的候选短语进行过滤提取领域新词，具体如下：若选取topN参数对排序后的候选短语进行过滤，则直接提取topN得到领域新词；若选取阈值判断方法，对排序后的候选短语中的候选短语短语，若相似度值/>大于设置阈值，则候选短语/>为领域新词。

本发明提供的领域新词提取方法，利用预训练的语言模型和词性从领域文献中进行的新词提取，无需大量的标记训练数据，减少人力消耗；可扩展性好，能灵活的扩展至其他领域；无需用户指定n-gram范围，且能提取语法正确的新词。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供了一种基于词性标记的领域新词提取***。

该***包括：

进一步地，还包括：

添加单元，用于将提取的领域新词添加到用户词典中。

进一步地，所述分词处理单元根据用户词典中的领域专业词表对待处理文本进行分词处理，得到多个分词。

进一步地，所述领域新词提取单元通过相似性阈值或者topN对排序后的候选短语进行过滤提取领域新词。

实施例三

本发明实施例三提供一种电子设备，包括存储器及处理器，该存储器用于存储计算机程序，该处理器运行计算机程序以使电子设备执行实施例一提供的基于词性标记的领域新词提取方法。

在实际应用中，上述电子设备可以是服务器。

在实际应用中，电子设备包括：至少一个处理器（processor）、存储器（memory）、总线及通信接口（CommunicationsInterface）。

其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。

通信接口，用于与其它设备进行通信。

处理器，用于执行程序，具体可以执行上述实施例所述的方法。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecificIntegratedCircuit），或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory），例如至少一个磁盘存储器。

实施例四

基于实施例三的描述，本发明实施例四提供一种存储介质，其上存储有计算机程序，计算机程序可被处理器执行以实现实施例一的基于词性标记的领域新词提取方法。

本发明实施例二提供的基于词性标记的领域新词提取***以多种形式存在，包括但不限于：

（1）移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机（例如iPhone）、多媒体手机、功能性手机，以及低端手机等。

（2）超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网性能。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

（3）便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器（例如iPod），掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

（4）其他具有数据交互功能的电子设备。

至此，已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白，本发明的实施例可提供为方法、***或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器（CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flashRAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带、磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本发明中的界定，计算机可读介质不包括暂存电脑可读媒体（transitorymedia），如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。

一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于词性标记的领域新词提取方法，其特征在于，包括：

对待处理文本进行分词处理，得到多个分词；

对排序后的候选短语进行过滤提取领域新词。

2.根据权利要求1所述的基于词性标记的领域新词提取方法，其特征在于，在对排序后的候选短语进行过滤提取领域新词之后，还包括：

将提取的领域新词添加到用户词典中。

3.根据权利要求1所述的基于词性标记的领域新词提取方法，其特征在于，对待处理文本进行分词处理，得到多个分词，具体包括：

4.根据权利要求1所述的基于词性标记的领域新词提取方法，其特征在于，对排序后的候选短语进行过滤提取领域新词，具体包括：

5.一种基于词性标记的领域新词提取***，其特征在于，包括：

6.根据权利要求5所述的基于词性标记的领域新词提取***，其特征在于，还包括：

添加单元，用于将提取的领域新词添加到用户词典中。

7.根据权利要求5所述的基于词性标记的领域新词提取***，其特征在于，所述分词处理单元根据用户词典中的领域专业词表对待处理文本进行分词处理，得到多个分词。

8.根据权利要求5所述的基于词性标记的领域新词提取***，其特征在于，所述领域新词提取单元通过相似性阈值或者topN对排序后的候选短语进行过滤提取领域新词。

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1-4中任一项所述的基于词性标记的领域新词提取方法。

10.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的基于词性标记的领域新词提取方法。