CN110175331A

CN110175331A - 专业术语的识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN110175331A
Application number: CN201910457246.4A
Authority: CN
Inventors: 王卓然; 亓超; 马宇驰; 陈华荣; 秦海龙; 郭伟
Original assignee: Triangle Animal (beijing) Technology Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-29
Filing date: 2019-05-29
Publication date: 2019-08-27
Anticipated expiration: 2039-05-29
Also published as: CN110175331B

Abstract

本申请提供了一种专业术语的识别方法、装置、电子设备及计算机可读存储介质，涉及自然语言处理领域。该方法包括：获取专业术语对应的专业领域的第一语料，和非专业领域的第二语料，然后基于第一语料和第二语料，从第一语料中获取逆向文件频率值大于预设逆向文件频率值的词汇，并将词汇确定为专业术语。本申请通过对比的方式能够更完整的识别出专业术语，从而提高专业术语的识别率，进而提升了自然语言处理的质量。进一步，基于专业术语的位置信息，从第一语料中获取新的专业术语，进一步提高了专业术语的识别率，以及提升了自然语言处理的质量。

Description

专业术语的识别方法、装置、电子设备及可读存储介质

技术领域

本申请涉及自然语言处理技术领域，具体而言，本申请涉及一种专业术语的识别方法、装置、电子设备及计算机可读存储介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。

在自然语言处理领域中，最重要的环节是进行关键词提取，在现有的自然语言处理技术中，TF-IDF(term frequency–inverse document frequency，词频-逆文本频率)是最常见的关键词提取方法。但是由于专业领域的限制，某些专业领域内的专业术语比较复杂，采用普通的分词技术很难从文本中识别出这些专业术语，导致专业术语的识别率较低，进而导致自然语言处理的质量较差。

发明内容

本申请提供了一种专业术语的识别的方法、装置、电子设备及计算机可读存储介质，可以解决自然语言处理领域中，现有技术对专业术语的识别率较低，自然语言处理质量较差的问题。所述技术方案如下：

第一方面，提供了一种专业术语的识别的方法，该方法包括：

获取专业术语对应的专业领域的第一语料，并获取非专业领域的第二语料；

基于所述第一语料和所述第二语料，从所述第一语料中获取逆向文件频率值大于等于预设逆向文件频率值的词汇，并将所述词汇确定为专业术语；

基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语。

优选地，所述获取专业术语对应的专业领域的第一语料，包括：

从与所述专业领域关联的网页中获取第一文本信息，将所述第一文本信息作为第一语料。

优选地，所述获取非专业领域的第二语料的步骤，包括：

从与所述专业领域非关联的网页中获取第二文本信息，将所述第二文本信息作为第二语料。

优选地，所述基于所述第一语料和所述第二语料，从所述第一语料中获取逆向文件频率值大于等于预设逆向文件频率值的词汇，并将所述词汇确定为专业术语的步骤，包括：

计算所述第一语料中各个词汇的逆向文件频率，得到多个第一逆向文件频率值；

计算所述第一语料中各个词汇在所述第二语料中的逆向文件频率，得到多个第二逆向文件频率值；

当任一词汇的第一逆向文件频率值与第二逆向文件频率值的差值大于等于预设逆向文件频率值时，确定所述词汇为专业术语。

优选地，所述基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语的步骤，包括：

获取所述专业术语在所述第一语料中的位置信息；所述位置信息包括互信息和左右熵信息；

根据所述互信息和左右熵信息，得到所述第一预料中新的专业术语。

优选地，所述基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语的步骤，还包括：

将所述专业术语的逆向文件频率值和所述位置信息输入预置的条件随机场模型，得到所述第一语料中新的专业术语。

第二方面，提供了一种专业术语的识别的装置，该装置包括：

获取模块，用于获取专业术语对应的专业领域的第一语料，并获取非专业领域的第二语料；

第一确定模块，用于基于所述第一语料和所述第二语料，从所述第一语料中获取逆向文件频率值大于等于预设逆向文件频率值的词汇，并将所述词汇确定为专业术语；

第二确定模块，用于基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语。

优选地，所述获取模块具体用于：

优选地，所述第一确定模块包括：

第一计算子模块，用于计算所述第一语料中各个词汇的逆向文件频率，得到多个第一逆向文件频率值；

第二计算子模块，用于计算所述第一语料中各个词汇在所述第二语料中的逆向文件频率，得到多个第二逆向文件频率值；

比较子模块，用于当任一词汇的第一逆向文件频率值与第二逆向文件频率值的差值大于等于预设逆向文件频率值时，确定所述词汇为专业术语。

优选地，所述第二确定模块包括：

位置信息获取子模块，用于获取所述专业术语在所述第一语料中的位置信息；所述位置信息包括互信息和左右熵信息；

第一计算子模块，用于根据所述互信息和左右熵信息，得到所述第一预料中新的专业术语。

优选地，所述第二确定模块还包括：

第二计算子模块，用于将所述专业术语的逆向文件频率值和所述位置信息输入预置的条件随机场模型，得到所述第一语料中新的专业术语。

第三方面，提供了一种电子设备，该电子设备包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，可执行指令使处理器执行如本申请的第一方面所示的专业术语的识别的方法对应的操作。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的专业术语的识别的方法。

本申请提供的技术方案带来的有益效果是：

获取专业术语对应的专业领域的第一语料，和非专业领域的第二语料，然后基于第一语料和第二语料，从第一语料中获取逆向文件频率值大于预设逆向文件频率值的词汇，并将词汇确定为专业术语，这样通过将专业领域的语料与非专业领域的语料进行对比的方式，确定出在专业领域的语料中，出现频繁的词汇，相对于现有技术中只是通过普通的分词技术来识别文本中的专业术语，本申请通过对比的方式能够更完整的识别出专业术语，从而提高专业术语的识别率，进而提升了自然语言处理的质量。

进一步，再基于专业术语的逆向文件频率值和位置信息，从第一语料中获取新的专业术语。这样可以进一步确定出在出现频繁的专业术语附近的、出现不频繁的专业术语，进一步提高了专业术语的识别率，以及提升了自然语言处理的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请一个实施例提供的一种专业术语的识别方法的流程示意图；

图2为本申请又一实施例提供的一种专业术语的识别装置的结构示意图；

图3为本申请又一实施例提供的一种专业术语的识别的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请提供的专业术语的识别方法、装置、电子设备和计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

在一个实施例中提供了一种专业术语的识别的方法，如图1所示，该方法包括：

步骤S101，获取专业术语对应的专业领域的第一语料，并获取非专业领域的第二语料；

在实际应用中，每个专业领域都有相应的专业术语，专业领域的不同，专业术语的复杂程序也不相同，在自然语言处理领域中，简单一点的，例如通信领域的“基站”可以通过普通的分词技术识别出来，但是复杂一点的，可能就无法识别出来了，例如医学领域、化学领域、生物领域的某些专业术语十分复杂，普通的分词技术对这些专业术语的识别率非常低。

为解决上述问题，本发明实施例可以获取任一专业领域中包含专业术语的语料。

在本发明一种优选实施例中，获取专业术语对应的专业领域的第一语料，包括：

从与专业领域关联的网页中获取第一文本信息，将第一文本信息作为第一语料。

具体而言，每个专业领域都有对应的、权威的BBS论坛，或者其它类型的网页，上面会有大量的专业文章、专业知识问答的求助帖等内容，在这些专业文章、求助帖中，通常会出现大量专业术语，且出现的频率也比较高，所以，本发明实施例就可以获取这些专业文章、求助帖的文本信息，作为第一语料。

进一步，与专业领域相关联的网页可以由管理员事先设置好，可以是一个网页，也可以是多个网页，在获取第一语料的时候，直接从相关联的一个或多个网页中获取文本信息作为第一语料即可。

获取非专业领域的第二语料的步骤，包括：

从与专业领域非关联的网页中获取第二文本信息，将第二文本信息作为第二语料。

具体而言，除了与专业领域相关联的网页之外的其它网页，都可以作为第二语料的获取源。比如，在医学领域中，最权威的某个网站为“专业术语的识别医学论坛”，该论坛包括多个网页，那么在获取第一语料的时候，就可以从该论坛的多个网页中获取，而获取第二语料的时候，除了该论坛中的多个网页之外的其它网页，都可以作为第二语料的获取源，比如某新闻网站中的多个网页。在实际应用中，也可以由管理员事先设置好与专业领域不关联的其它网页进行关联，在获取语料的时候从关联的其它网页中获取文本信息作为第二语料即可。

需要说明的是，第一语料和第二语料都是包括了大量的文本信息，这样通过增加词汇的基数来提高词汇出现的频率，进而提升专业词汇的识别率。

步骤S102，基于第一语料和第二语料，从第一语料中获取逆向文件频率值大于等于预设逆向文件频率值的词汇，并将词汇确定为专业术语；

一般来说，专业术语在第一语料中出现的频率会比在第二语料中出现的频率高一些。比如，在化学领域相关联的网站中，某篇文章为对“甲基二氯硅烷”的介绍，那么在第一语料中，“甲基二氯硅烷”就会多次出现，而第二语料假设都为每天的日常新闻内容，那么很明显，“甲基二氯硅烷”出现的频率就会比较低，甚至没有。

在本发明一种优选实施例中，基于第一语料和第二语料，从第一语料中获取逆向文件频率值大于等于预设逆向文件频率值的词汇，并将词汇确定为专业术语的步骤，包括：

计算第一语料中各个词汇的逆向文件频率，得到多个第一逆向文件频率值；

计算第一语料中各个词汇在第二语料中的逆向文件频率，得到多个第二逆向文件频率值；

当任一词汇的第一逆向文件频率值与第二逆向文件频率值的差值大于等于预设逆向文件频率值时，确定词汇为专业术语。

具体而言，在获取到第一语料后，可以先将文本信息进行分词处理，得到多个词汇，然后分别计算出各个词汇的IDF(Inverse Document Frequency，逆文本频率值)，再分别计算各个词汇(第一语料分词处理后得到的各个词汇)在第二语料中的IDF，这样，就得到了各个词汇在第一语料中的IDF(第一IDF)和在第二语料中的IDF(第二IDF)，当各个词汇中的任一词汇的第一IDF与第二IDF的差值大于等于预设IDF时，确定该词汇为专业术语，从而确定出第一语料中的多个专业术语。

步骤S103，基于专业术语的位置信息，从第一语料中确定新的专业术语。

在步骤S102中，相对简单一点的专业术语可以被识别出来，但复杂一点的专业术语可能就没办法识别出来。比如，在步骤S102中，“甲基二氯硅烷”进行分词处理后得到的是“甲基”、“二”、“氯”和“硅烷”，其中，“甲基”、“氯”、“硅烷”也是专业术语，所以，最终确定出来的专业术语并不是“甲基二氯硅烷”，但是，“甲基”、“二”、“氯”、“硅烷”四个词汇的IDF基本是一样的，且基本都是连在一起出现的，因此，需要进一步识别出专业术语“甲基二氯硅烷”。

在本发明一种优选实施例中，基于专业术语的位置信息，从第一语料中确定新的专业术语的步骤，包括：

获取专业术语在第一语料中的位置信息；位置信息包括互信息和左右熵信息；

根据互信息和左右熵信息，得到第一预料中新的专业术语。

其中，互信息体现了两个变量之间的相互依赖程度。二元互信息是指两个事件相关性的量，计算公式如下：

互信息值越高，表明X和Y相关性越高，则X和Y组成短语的可能性越大；反之，互信息值越低，X和Y之间相关性越低，则X和Y之间存在短语边界的可能性越大。公式中的X和Y指的是两个相邻的单词，P值是它的出现概率。

熵这个术语表示随机变量不确定性的量度。具体表述如下：一般地，设X是取有限个值的随机变量(或者说X是有限个离散事件的概率场)，X取值x的概率为P(x)，则X的熵定义为：

H(X)＝-∑(x∈X)P(x)·log₂P(x)；

左右熵是指多字词表达的左边界的熵和右边界的熵。左右熵的公式如下：

具体计算方法是，以左熵为例，对一个串左边所有可能的词以及词频，计算信息熵，然后求和，如果熵是0，说明它只有一种接续。该算法主要是选取的互信息和熵这两个统计量，分别从词串内部的结合紧密程度和词串外部的边界度量入手抽取短语。

比如，对“甲基”、“二”、“氯”、“硅烷”四个词汇采用互信息和左右熵算法就可以确定出新的专业术语“甲基二氯硅烷”。

在本发明一种优选实施例中，基于专业术语的位置信息，从第一语料中确定新的专业术语的步骤，还包括：

将专业术语的逆向文件频率值和位置信息输入预置的条件随机场模型，得到第一语料中新的专业术语。

进一步，除了通过专业术语的位置信息来确定新的专业术语之外，还可以将专业术语的IDF和位置信息输入预置的CRF(conditional random field algorithm，条件随机场)，从而得到新的专业术语。

需要说明的是，步骤S102～步骤S103除了可以确定出上述事例所示的新的专业术语，也可以确定出专业术语左边或右边的新的专业术语，在此就不赘述了。

在本发明实施例中，首先获取专业术语对应的专业领域的第一语料，和非专业领域的第二语料，然后基于第一语料和第二语料，从第一语料中获取逆向文件频率值大于预设逆向文件频率值的词汇，并将词汇确定为专业术语，这样通过将专业领域的语料与非专业领域的语料进行对比的方式，确定出在专业领域的语料中，出现频繁的词汇，相对于现有技术中只是通过普通的分词技术来识别文本中的专业术语，本申请通过对比的方式能够更完整的识别出专业术语，从而提高专业术语的识别率，进而提升了自然语言处理的质量。

图2为本申请又一实施例提供的一种专业术语的识别装置的结构示意图，如图2所示，本实施例的装置可以包括：

获取模块201，用于获取专业术语对应的专业领域的第一语料，并获取非专业领域的第二语料；

第一确定模块202，用于基于所述第一语料和所述第二语料，从所述第一语料中获取逆向文件频率值大于等于预设逆向文件频率值的词汇，并将所述词汇确定为专业术语；

第二确定模块203，用于基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语。

在本发明一种优选实施例中，所述获取模块具体用于：

在本发明一种优选实施例中，所述第一确定模块包括：

在本发明一种优选实施例中，所述第二确定模块包括：

在本发明一种优选实施例中，所述第二确定模块还包括：

本实施例的专业术语的识别装置可执行本申请第一个实施例所示的专业术语的识别方法，其实现原理相类似，此处不再赘述。

本申请的又一实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：获取专业术语对应的专业领域的第一语料，和非专业领域的第二语料，然后基于第一语料和第二语料，从第一语料中获取逆向文件频率值大于预设逆向文件频率值的词汇，并将词汇确定为专业术语，这样通过将专业领域的语料与非专业领域的语料进行对比的方式，确定出在专业领域的语料中，出现频繁的词汇，相对于现有技术中只是通过普通的分词技术来识别文本中的专业术语，本申请通过对比的方式能够更完整的识别出专业术语，从而提高专业术语的识别率，进而提升了自然语言处理的质量。

在一个可选实施例中提供了一种电子设备，如图3所示，图3所示的电子设备3000包括：处理器3001和存储器3003。其中，处理器3001和存储器3003相连，如通过总线3002相连。可选地，电子设备3000还可以包括收发器3004。需要说明的是，实际应用中收发器3004不限于一个，该电子设备3000的结构并不构成对本申请实施例的限定。

处理器3001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器3001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线3002可包括一通路，在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器3003用于存储执行本申请方案的应用程序代码，并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。

本申请的又一实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，获取专业术语对应的专业领域的第一语料，和非专业领域的第二语料，然后基于第一语料和第二语料，从第一语料中获取逆向文件频率值大于预设逆向文件频率值的词汇，并将词汇确定为专业术语，这样通过将专业领域的语料与非专业领域的语料进行对比的方式，确定出在专业领域的语料中，出现频繁的词汇，相对于现有技术中只是通过普通的分词技术来识别文本中的专业术语，本申请通过对比的方式能够更完整的识别出专业术语，从而提高专业术语的识别率，进而提升了自然语言处理的质量。

本发明实施例的方法还包括：

A1、一种专业术语的识别方法，包括：

A2、根据A1所述的专业术语的识别方法，所述获取专业术语对应的专业领域的第一语料，包括：

A3、根据A1所述的专业术语的识别方法，所述获取非专业领域的第二语料的步骤，包括：

A4、根据A1所述的专业术语的识别方法，所述基于所述第一语料和所述第二语料，从所述第一语料中获取逆向文件频率值大于等于预设逆向文件频率值的词汇，并将所述词汇确定为专业术语的步骤，包括：

A5、根据A1所述的专业术语的识别方法，所述基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语的步骤，包括：

A6、根据A1或A5所述的专业术语的识别方法，所述基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语的步骤，还包括：

B7、一种专业术语的识别装置，包括：

B8、根据B7所述的专业术语的识别装置，所述获取模块具体用于：

B9、根据B7所述的专业术语的识别装置，所述获取模块具体用于：

B10、根据B7所述的专业术语的识别装置，所述第一确定模块包括：

B11、根据B7所述的专业术语的识别装置，所述第二确定模块包括：

B12、根据B7或B11所述的专业术语的识别装置，所述第二确定模块还包括：

C13、一种电子设备，其包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述A1-A6中任一项所述的专业术语的识别方法。

D14、一种计算机可读存储介质，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述A1-A6中任一项所述的专业术语的识别方法。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种专业术语的识别方法，其特征在于，包括：

2.根据权利要求1所述的专业术语的识别方法，其特征在于，所述获取专业术语对应的专业领域的第一语料，包括：

3.根据权利要求1所述的专业术语的识别方法，其特征在于，所述获取非专业领域的第二语料的步骤，包括：

4.根据权利要求1所述的专业术语的识别方法，其特征在于，所述基于所述第一语料和所述第二语料，从所述第一语料中获取逆向文件频率值大于等于预设逆向文件频率值的词汇，并将所述词汇确定为专业术语的步骤，包括：

5.根据权利要求1所述的专业术语的识别方法，其特征在于，所述基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语的步骤，包括：

6.根据权利要求1或5所述的专业术语的识别方法，其特征在于，所述基于所述专业术语的位置信息，从所述第一语料中确定新的专业术语的步骤，还包括：

7.一种专业术语的识别装置，其特征在于，包括：

8.根据权利要求7所述的专业术语的识别装置，其特征在于，所述获取模块具体用于：

9.一种电子设备，其特征在于，其包括：

处理器、存储器和总线；

所述总线，用于连接所述处理器和所述存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述权利要求1-6中任一项所述的专业术语的识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1-6中任一项所述的专业术语的识别方法。