CN111274361A

CN111274361A - 一种行业新词发现方法、装置、存储介质及电子设备

Info

Publication number: CN111274361A
Application number: CN202010068920.2A
Authority: CN
Inventors: 李亮; 蔺文萃; 罗利利; 李文
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2020-01-21
Filing date: 2020-01-21
Publication date: 2020-06-12

Abstract

本申请提出一种行业新词发现方法、装置、存储介质及电子设备。首先，加载行业词库和停用词库到分词模型中，将待检索文本作为分词模型的输入，以得到分词结果，依据左右互信息熵算法对分词结果进行分析，以获得结果集合，分词模型依据行业词库和停用词库筛选出来的目标词，均为与行业相关的，且具有业务意义的词汇，避免得到无意义或不相关的新词或短语，排除干扰，保证了目标词相对于行业的准确性和有效性，更便于工作人员对目标词进行进一步分析。

Description

一种行业新词发现方法、装置、存储介质及电子设备

技术领域

本申请涉及自然语言处理领域，具体而言，涉及一种行业新词发现方法、装置、存储介质及电子设备。

背景技术

随着国民经济的快速发展，犯罪的手段和方法都发生了显著的变化，以电信诈骗为代表的新型诈骗案更是呈逐年上升的水平；随着互联网技术和网络文化的发展，这些案件的特征也呈现多样化和的趋势，特别是警情和案情的描述中经常会出现新的网络用语和流行词汇，对这些新词汇的挖掘和发现，能有效了解近期案件的发生情况和特征信息，对案件的预防和侦破都有很大的帮助。因此，从最近发生的警情文本或简要案情文本信息中，发现能代表案件典型特征的新词或短语就非常关键。通过精准的新词或短语的挖掘和发现，就可以准确的表征近期警情/案件的语义特征和规律，进而及时做好对相关案件的预防措施，为案件的侦破提供更多线索。现有技术常常会得到无意义或不相关的新词或短语，这对案情并没有帮助，反而可能干扰对案情的判断。

发明内容

本申请的目的在于提供一种行业新词发现方法、装置、存储介质及电子设备，以解决上述问题。

为了实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供一种行业新词发现方法，所述方法包括：

加载行业词库和停用词库到分词模型中，其中，所述行业词库包括基本词汇和行业词汇，所述停用词库包括停用词汇、习惯语词汇以及无业务意义的词汇；

将待检索文本作为所述分词模型的输入，以得到分词结果，其中，所述分词结果包括所述待检索文本中的单词和/或短语；

依据左右互信息熵算法对所述分词结果进行分析，以获得结果集合，其中，所述结果集合包含所述待检索文本中的目标词，所述目标词的信息熵大于或等于信息熵阈值。

第二方面，本申请实施例提供一种行业新词发现装置，所述装置包括：

信息加载单元，用于加载行业词库和停用词库到分词模型中，其中，所述行业词库包括基本词汇和行业词汇，所述停用词库包括停用词汇、习惯语词汇以及无业务意义的词汇；

处理单元，用于将待检索文本作为所述分词模型的输入，以得到分词结果，其中，所述分词结果包括所述待检索文本中的单词和/或短语；还用于依据左右互信息熵算法对所述分词结果进行分析，以获得结果集合，其中，所述结果集合包含所述待检索文本中的目标词，所述目标词的信息熵大于或等于信息熵阈值。

第三方面，本申请实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的方法。

第四方面，本申请实施例提供一种电子设备，所述电子设备包括：处理器和存储器，所述存储器用于存储一个或多个程序；当所述一个或多个程序被所述处理器执行时，实现上述的方法。

相对于现有技术，本申请实施例所提供的一种行业新词发现方法、装置、存储介质及电子设备的有益效果为：首先，加载行业词库和停用词库到分词模型中，将待检索文本作为分词模型的输入，以得到分词结果，依据左右互信息熵算法对分词结果进行分析，以获得结果集合，分词模型依据行业词库和停用词库筛选出来的目标词，均为与行业相关的，且具有业务意义的词汇，避免得到无意义或不相关的新词或短语，排除干扰，保证了目标词相对于行业的准确性和有效性，更便于工作人员对目标词进行进一步分析。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1为本申请实施例提供的电子设备的结构示意图；

图2为本申请实施例提供的行业新词发现方法的流程示意图；

图3为本申请实施例提供的行业新词发现方法的另一种流程示意图；

图4为本申请实施例提供的行业新词发现方法的另一种流程示意图；

图5为本申请实施例提供的行业新词发现方法的另一种流程示意图；

图6为本申请实施例提供的行业新词发现方法的另一种流程示意图；

图7为本申请实施例提供的行业新词发现装置的单元示意图。

图中：10-处理器；11-存储器；12-总线；13-通信接口；201-信息加载单元；202-处理单元。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本申请的描述中，需要说明的是，术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该申请产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本申请实施例提供了一种电子设备，可以是手机、电脑或者其他智能终端。请参照图1，电子设备的结构示意图。电子设备包括处理器10、存储器11、总线12。处理器10、存储器11通过总线12连接，处理器10用于执行存储器11中存储的可执行模块，例如计算机程序。

处理器10可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，行业新词发现方法的各步骤可以通过处理器10中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器10可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processor，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器11可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。

总线12可以是ISA(Industry Standard Architecture)总线、PCI(PeripheralComponent Interconnect)总线或EISA(Extended Industry Standard Architecture)总线等。图1中仅用一个双向箭头表示，但并不表示仅有一根总线12或一种类型的总线12。

存储器11用于存储程序，例如行业新词发现装置对应的程序。行业新词发现装置包括至少一个可以软件或固件(firmware)的形式存储于存储器11中或固化在电子设备的操作***(operating system，OS)中的软件功能模块。处理器10在接收到执行指令后，执行所述程序以实现行业新词发现方法。

可能地，本申请实施例提供的电子设备还包括通信接口13。通信接口13通过总线与处理器10连接。电子设备可以通过通信接口13接收其他终端发送的文本语料。

应当理解的是，图1所示的结构仅为电子设备的部分的结构示意图，电子设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

本发明实施例提供的一种行业新词发现方法，可以但不限于应用于图1所示的电子设备，具体的流程，请参考图2：

S103，加载行业词库和停用词库到分词模型中。

其中，行业词库包括基本词汇和行业词汇，停用词库包括停用词汇、习惯语词汇以及无业务意义的词汇。

具体地，基本词汇可能不包含行业词汇。举例说明，单词A不属于基本词汇，相对于基本词汇，单词A为新词；但是单词A属于公安行业中的词汇，所以单词A对于公安行业来说就不属于新词。同时，还有一些词汇属于停用词汇、习惯语词汇或者无业务意义的词汇，这一类词汇相对于特定的行业，可能为新词，但是这一类词汇对该特定的行业是没有意义的。所以，需要加停用词库加载到分词模型中，才能避免没有意义的词汇的影响。

S104，将待检索文本作为分词模型的输入，以得到分词结果。

其中，分词结果包括待检索文本中的单词和/或短语。

具体地，分词模型依据行业词库和停用词库中的词汇对待检索文本进行分析，可能地，进行语义分析，以得到分词结果。例如待检索文本包括“这个人就是在作死”，分词结果可以包括：这个人、就是、在作死。该例仅仅是为了便于理解，并不限定具体的分词方式。

S107，依据左右互信息熵算法对分词结果进行分析，以获得结果集合。

其中，结果集合包含待检索文本中的目标词，目标词的信息熵大于或等于信息熵阈值。可能地，信息熵阈值为0.2。经过发明人大量总结实验，当信息熵阈值为0.2时，得到的结果集合中的目标词为新词的准确率高，漏识别的新词的概率小。

参考上述的例子，假设“在作死”不属于行业词库和停用词库，那么“在作死”就为结果集合中的目标词。

综上所述，本申请实施例提供的行业新词发现方法中：首先，加载行业词库和停用词库到分词模型中，将待检索文本作为分词模型的输入，以得到分词结果，依据左右互信息熵算法对分词结果进行分析，以获得结果集合，分词模型依据行业词库和停用词库筛选出来的目标词，均为与行业相关的，且具有业务意义的词汇，避免得到无意义或不相关的新词或短语，排除干扰，保证了目标词相对于行业的准确性和有效性，更便于工作人员对目标词进行进一步分析。

对于分词模型，本申请实施例还提供了一种可能的实现方式，采用基于HanLP内置的NLP分词和Standard分词模型的结果进行融合得到分词结果。

在图2的基础上，关于如何保障新词与行业的关联系，本申请实施例还提供了一种可能的实现方式，请参考图3，行业新词发现方法还包括：

S106，对分词结果进行筛选，以使分词结果中的单词或短语出现的次数大于或等于预设频次。

具体地，在一种可能的实现方式中，待检索文本会包含部分偶然出现的词汇，这一类词汇对于特定行业并没有关联。为了排除偶然出现的词的干扰，需要对分词结果进行筛选。单词或短语出现的次数大于或等于预设频次，即表征这一类词汇不是偶然出现，而是和待检索文本有一定关联性的。

在图2的基础上，为了满足时间性和地域性的条件，本申请实施例还提供了一种可能的实现方式，请参考图4，行业新词发现方法还包括：

S105，将分词结果作为第一过滤模型的输入，以得到过滤后的分词结果。

其中，第一过滤模型用于过滤不满足时间条件、地点条件、词性条件以及场景条件的单词或短语。

具体地，在不同的场景下或者不同的时间里，对于新词的需求范围不一致。为了避免分词结果中的词汇不满足时间条件、地点条件、词性条件以及场景条件，通过第一过滤模型对分词结果进行过滤，最终将有实际业务意义的词汇保留下来作为分词的最终结果。

在图2的基础上，为了筛除结果集合中的重复词汇，本申请实施例还提供了一种可能的实现方式，请参考图5，行业新词发现方法还包括：

S108，将结果集合作为第二过滤模型的输入，以得到过滤后的结果集合。

其中，第二过滤模型用于过滤重复词汇或具有包含关系的词汇。

具体地，例如结果集合包含“微信”和“微信支付”，因为微信支付包含微信，可以通过第二过滤模型对重复词汇或具有包含关系的词汇进行筛选。

在图2的基础上，关于如何获得行业词库和停用词库，本申请实施例还提供了一种可能的实现方式，请参考图6，行业新词发现方法还包括：

S101，依据行业文本语料和公开的基础文本语料生成行业词库。

具体地，行业文本语料可以为公安行业语料，基础文本语料可以为***，百度百科、文章文献或者其他公知常识。

S102，依据习惯用语文本语料、无业务意义词文本语料以及停用词文本语料生成停用词库。

可能地，采用传统的word2vec、glove等方法训练得到词库，包括行业词库和停用词库。

在一种可能的实现方式中，S102可以先于S101执行，在此并未限定S101和S102的执行顺序。

请参阅图7，图7为本申请实施例提供的一种行业新词发现装置，可选的，该行业新词发现装置被应用于上文所述的电子设备。

行业新词发现装置包括：信息加载单元201和处理单元202。

信息加载单元201，用于加载行业词库和停用词库到分词模型中，其中，行业词库包括基本词汇和行业词汇，停用词库包括停用词汇、习惯语词汇以及无业务意义的词汇。具体地，信息加载单元201可以执行上述的S103。

处理单元202，用于将待检索文本作为分词模型的输入，以得到分词结果，其中，分词结果包括待检索文本中的单词和/或短语；还用于依据左右互信息熵算法对分词结果进行分析，以获得结果集合，其中，结果集合包含待检索文本中的目标词，目标词的信息熵大于或等于信息熵阈值。具体地，处理单元202可以执行上述的S104和S107。

在一种可能的实现方式中，处理单元202还用于对分词结果进行筛选，以使分词结果中的单词或短语出现的次数大于或等于预设频次。具体地，处理单元202可以执行上述的S106。

在一种可能的实现方式中，处理单元202还用于将分词结果作为第一过滤模型的输入，以得到过滤后的分词结果，其中，第一过滤模型用于过滤不满足时间条件、地点条件、词性条件以及场景条件的单词或短语。具体地，处理单元202可以执行上述的S105。

需要说明的是，本实施例所提供的行业新词发现装置，其可以执行上述方法流程实施例所示的方法流程，以实现对应的技术效果。为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。

本发明实施例还提供了一种存储介质，该存储介质存储有计算机指令、程序，该计算机指令、程序在被读取并运行时执行上述实施例的行业新词发现方法。该存储介质可以包括内存、闪存、寄存器或者其结合等。

下面提供一种电子设备，可以是手机、电脑或者其他智能终端，该电子设备如图1所示，可以实现上述的行业新词发现方法。具体的，该电子设备包括：处理器10，存储器11、总线12。处理器10可以是CPU。存储器11用于存储一个或多个程序，当一个或多个程序被处理器10执行时，执行上述实施例的行业新词发现方法。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种行业新词发现方法，其特征在于，所述方法包括：

2.如权利要求1所述的行业新词发现方法，其特征在于，在依据左右互信息熵算法对所述分词结果进行分析之前，所述方法还包括：

对所述分词结果进行筛选，以使所述分词结果中的单词或短语出现的次数大于或等于预设频次。

3.如权利要求1所述的行业新词发现方法，其特征在于，在将待检索文本作为所述分词模型的输入，以得到分词结果之后，所述方法包括：

将所述分词结果作为第一过滤模型的输入，以得到过滤后的分词结果，其中，所述第一过滤模型用于过滤不满足时间条件、地点条件、词性条件以及场景条件的单词或短语。

4.如权利要求1所述的行业新词发现方法，其特征在于，在获得结果集合之后，所述方法还包括：

将所述结果集合作为第二过滤模型的输入，以得到过滤后的结果集合，其中，所述第二过滤模型用于过滤重复词汇或具有包含关系的词汇。

5.如权利要求1所述的行业新词发现方法，其特征在于，在加载行业词库和停用词库到分词模型中之前，所述方法还包括：

依据行业文本语料和公开的基础文本语料生成所述行业词库；

依据习惯用语文本语料、无业务意义词文本语料以及停用词文本语料生成所述停用词库。

6.一种行业新词发现装置，其特征在于，所述装置包括：

7.如权利要求6所述的行业新词发现装置，其特征在于，所述处理单元还用于对所述分词结果进行筛选，以使所述分词结果中的单词或短语出现的次数大于或等于预设频次。

8.如权利要求6所述的行业新词发现装置，其特征在于，所述处理单元还用于将所述分词结果作为第一过滤模型的输入，以得到过滤后的分词结果，其中，所述第一过滤模型用于过滤不满足时间条件、地点条件、词性条件以及场景条件的单词或短语。

9.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。

10.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器用于存储一个或多个程序；当所述一个或多个程序被所述处理器执行时，实现如权利要求1-5中任一项所述的方法。