CN112287682B

CN112287682B - 一种主题词提取方法、装置、设备及存储介质

Info

Publication number: CN112287682B
Application number: CN202011573897.9A
Authority: CN
Inventors: 赵冲; 李青龙; 骆飞
Original assignee: Beijing Smart Starlight Information Technology Co ltd
Current assignee: Beijing Smart Starlight Information Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-06-08
Anticipated expiration: 2040-12-28
Also published as: CN112287682A

Abstract

本发明公开一种主题词提取方法、装置、设备及存储介质，方法包括：使用TF‑IDF模型对提取范围内各文章的词分别计算TF‑IDF分数，将TF‑IDF分数高于第一设定阈值的作为各文章的第一主题词，其中提取范围是指设定的包含多篇文章的文本集合；将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF‑IDF分数相乘，获得TF‑IDF‑IDAYF分数，其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章；将TF‑IDF‑IDAYF分数高于第二设定阈值的作为各文章的最终主题词。本发明基于时间因素的TF‑IDF‑IDAYF的计算模式，可以达到更好的主题词提取效果。

Description

一种主题词提取方法、装置、设备及存储介质

技术领域

本发明涉及信息检索与数据挖掘领域，更详细的说，涉及一种主题词提取方法、装置、设备及存储介质。

背景技术

随着信息检索与数据挖掘行业的发展，文章数据的挖掘在当今发达的互联网环境下显得越来越有价值。通过对文章数据作为分析对象，针对文章特征进行预处理，高效准确提取有价值的信息，成为文章数据挖掘行业研究的焦点。

现有文章数据挖掘领域对文章数据进行研究主要针对中文文章进行特征预处理，对主要特征进行提取，通常用到TF-IDF(term frequency–inverse document frequency)算法。TF-IDF算法是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency)，IDF是逆文章频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。

在TF-IDF算法中，主题词的计算与词频和逆文章频率有着极其紧密的联系，这对于单一文章的主题词提取有着比较好的效果。但是在针对短期内爆发的舆情事件，TF-IDF算法对时间没有敏感性，不能有效的对连续时间内舆情事件相关的主题词进行提取。

发明内容

本发明在文章信息处理的过程中，对TF-IDF算法进行改进，引入时间关联性，实现一种加入时间衰减和时间加强特性的TF-IDF-IDAYF的计算模式。

本发明的技术方案如下：

一种主题词提取方法，包括：

使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数，将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词，其中提取范围是指设定的包含多篇文章的文本集合；

将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数，其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章；

将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。

可选地，计算IDAYF分数的公式如下:

表示第m个第一主题词在历史语料中出现的次数；

t表示设定历史时间所包含的时间段数量；

表示在设定历史时间内，第m个第一主题词在提取范围中出现次数的时间段均值；

表示第m个第一主题词在当前时间段在提取范围中出现的次数。

可选地，所述时间段是天。

可选地，对于每一篇文章，采用TF-IDF模型提取主题词的步骤包括：

对文章中的词计算TF-IDF分数，并根据分数选择高于第一设定阈值的分词作为第一主题词，计算TF-IDF分数的公式如下：

其中，

代表某词；

代表文章；

表示某词

在文章

中出现的次数；

表示文章

中所有词的出现总次数，k表示第k个词；

表示提取范围内中的文章总数；

表示提取范围内中包含某词

的文章的数目；

表示TF-IDF分数。

可选地，在采用TF-IDF模型提取主题词之前，还包括：

对文章进行分词处理，并去除停用词。

本发明还提供一种主题词提取装置，包括：

TF-IDF分数获取模块，用于使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数，将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词，其中提取范围是指设定的包含多篇文章的文本集合；

TF-IDF-IDAYF分数获取模块，用于将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数，其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章；

最终主题词确定模块，用于将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。

本发明还提供一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的主题词提取方法。

本发明还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的主题词提取方法。

本发明是基于TF-IDF算法之上的改进方法，引入时间因素可以更好的表示事件主题词在时间维度的影响力，根据事件主题词的时间因素可以更加准确的描述事件的起因、发展和结果。基于时间因素的TF-IDF-IDAYF的计算模式，可以达到更好的主题词提取效果。

附图说明

通过结合下面附图对其实施例进行描述，本发明的上述特征和技术优点将会变得更加清楚和容易理解。

图1是表示本发明实施例的主题词提取方法的流程示意图；

图2为本发明提供的主题词提取装置一实施例的模块示意图；

图3为本发明提供的主题词提取方法的电子设备一实施例的结构示意图。

具体实施方式

下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式或其组合对所描述的实施例进行修正。因此，附图和描述在本质上是说明性的，而不是用于限制权利要求的保护范围。此外，在本说明书中，附图未按比例画出，并且相同的附图标记表示相同的部分。

本实施例的主题词提取方法是基于TF-IDF-IDAYF计算模式的，是在TF-IDF模型计算词频和逆文档频率的基础上加入IDAYF（逆时间频率）。TF-IDF计算中一个比较突出的问题是，所有词的权重依靠整体的统计出现，没有办法对于近期凸显的主题词进行一个强化计算，但是在互联网环境中，主题词的出现是和时间的属性强相关的，例如近两天“社区卖菜”、“互联网垄断”等词在近期的互联网中会出现上升性的提及频率，应该能优先抽取这些更能反映热点主题的主题词。所以针对词的时间属性，增加了一个维度是IDAYF（逆时间频率）。

该主题词提取方法的步骤如下所示：

步骤S1，使用TF-IDF模型对提取范围内各个文章分别进行主题词提取，其中提取范围是指设定的包含多篇文章的文本集合，例如想要从微博、知乎、头条等各种常用网站的文章中提取主题词，则以这些网站的文章组成的文本集合作为提取范围。

其中，对于每一篇文章，都采用TF-IDF模型提取主题词，可以包括以下步骤：

包括S11，对文章进行分词处理，分词算法是将句子切分为一系列词语组合的算法，例如“我路过清华大学”可以切分为“我/路过/清华大学”。可以使用jieba等分词工具进行分词。

S12，去除停用词，得到候选词，停用词是指一些代表语义的能力不强，对类别的区分能力很差，但频繁出现的词，例如“的”、“我们”、“你”等。依据停用词词表将停用词从各文章中去除，作用是去除一些噪声特征，降低分类的错误率和耗时。

S13，对候选词计算TF-IDF分数，并根据分数选择高于第一设定阈值的候选词作为第一主题词，计算TF-IDF分数的公式如下：

其中，

代表某词；

代表文章；

表示某词

在文章

中出现的次数；

表示文章

中所有词的出现总次数，k表示第k个词；

表示提取范围内中的文章总数；

表示提取范围内中包含某词

的文章的数目；

表示TF-IDF分数。

例如通过计算TF分数，获得一篇文章中"流行感冒"、"疫苗"、"北京"、"医院"、"小学生"、“冬季”、“聚集”出现的频率较高的词，但是哪个词更能凸显这篇文章的主题，还需要结合IDF分数，TF和IDF分数如表1所示，将TF分数与IDF分数相乘，得到TF-IDF分数。可见其中，"流行感冒"、"疫苗"是分数较高的，作为第一主题词。

表1

通过以上步骤对各个文章都采用TF-IDF提取出第一主题词。

步骤S2，将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数。

计算IDAYF分数的公式如下：

表示第m个第一主题词在历史语料中出现的次数，其中，历史语料是指在设定历史时间内在所述提取范围中出现的各种文章信息；

t表示设定历史时间所包含的时间段数量；

表示第m个第一主题词在当前时间段出现的次数。

例如，时间段可以是天，则“流行感冒”在过去3年中出现的次数除以3年所包含的天数，就是“流行感冒”一词在历史语料中的出现日均值。第一主题词在当天出现的次数是指在当天第一主题词在提取范围中出现次数，例如，当天“流行感冒”一词出现了30次。

也不排除时间段可以是按照多天，或者小时来计算的。例如两天，则是“流行感冒”在过去3年中出现的次数除以3年所包含的两天的数量，得到的是在两天时间段内的均值。然后统计当前两天时间内的第一主题词在提取范围中出现次数。可得到当前两天内的第一主题词的IDAYF分数。或者，时间段也可以是几个小时，同样可以采用以上公式计算IDAYF分数，在此不再赘述其计算过程。

将数据代入上式计算出各个第一主题词的IDAYF，也就是获得了各个第一主题词在当天内是不是出现超过均值的趋势，增加到TF-IDF计算中，用来获取当日更能凸显主题的关键词。具体说，是将IDAYF分数与TF-IDF分数相乘。

S3，将TF-IDF-IDAYF分数高于第二设定阈值的作为最终主题词。

从而可以从所述第一主题词中进一步选取出更加符合时间的属性的最终主题词。由此能够从各个文章中获得更加表达其文章含义以及与当前时间段内的舆情信息更符合的主题词，进而使得根据各主题词进行文章合并的准确度提高。

本发明还提供一种主题词提取装置，如图2所示，是本发明主题词提取装置一实施例的功能模块示意图。

本发明的主题词提取装置100可以安装于电子设备中。根据实现的功能，所述主题词提取装置100可以包括TF-IDF分数获取模块101、TF-IDF-IDAYF分数获取模块102、最终主题词确定模块103，本发明所述模块是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块的功能如下：

TF-IDF分数获取模块101，用于使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数，将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词，其中提取范围是指设定的包含多篇文章的文本集合。

其中，对于每一篇文章，都采用TF-IDF模型提取主题词，包括以下步骤：

S12，去除停用词，停用词是指一些代表语义的能力不强，对类别的区分能力很差，但频繁出现的词，例如“的”、“我们”、“你”等。依据停用词词表将停用词从各文章中去除，作用是去除一些噪声特征，降低分类的错误率和耗时。

S13，对剩余的分词计算TF-IDF分数，并根据分数选择高于第一设定阈值的分词作为第一主题词，计算TF-IDF分数的公式如下：

其中，

代表某词；

代表文章；

表示某词

在文章

中出现的次数；

表示文章

中所有词的出现总次数，k表示第k个词；

表示提取范围内中的文章总数；

表示提取范围内中包含某词

的文章的数目；

表示TF-IDF分数。

通过以上步骤对各个文章都采用TF-IDF提取出第一主题词。

TF-IDF-IDAYF分数获取模块102，用于将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数，其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章。

将各文章的所述第一主题词计算分别IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数。

计算IDAYF分数的公式如下：

t表示设定历史时间所包含的时间段数量；

表示第m个第一主题词在当前时间段出现的次数。

最终主题词确定模块103，用于将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。

如图3所示，是本发明实现主题词提取方法的电子设备一实施例的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如主题词提取程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card， SMC）、安全数字（SecureDigital， SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如主题词提取程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块（例如主题词提取程序等），以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。

所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），可选的，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的主题词提取程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

S1，使用TF-IDF模型对提取范围内各文章的词分别计算TF-IDF分数，将TF-IDF分数高于第一设定阈值的作为各文章的第一主题词，其中提取范围是指设定的包含多篇文章的文本集合；

S2，将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数，其中所述IDAYF分数是将所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章；

S3，将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词。

具体的运行流程如图1所示的主题词提取方法流程，具体可参见图2的主题词提取方法的描述，此处不再赘述。

进一步地，所述电子设备1集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主题词提取方法，其特征在于，包括：

将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数，其中所述IDAYF分数是利用所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值计算得到的，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章；

将TF-IDF-IDAYF分数高于第二设定阈值的作为各文章的最终主题词，

计算IDAYF分数的公式如下:

表示第m个第一主题词在历史语料中出现的次数；

t表示设定历史时间所包含的时间段数量；

2.根据权利要求1所述的主题词提取方法，其特征在于，

所述时间段是天。

3.根据权利要求1所述的主题词提取方法，其特征在于，

对于每一篇文章，采用TF-IDF模型提取主题词的步骤包括：

其中，

代表某词；

代表文章；

表示某词

在文章

中出现的次数；

表示文章

中所有词的出现总次数，k表示第k个词；

表示提取范围内中的文章总数；

表示提取范围内中包含某词

的文章的数目；

表示TF-IDF分数。

4.根据权利要求3所述的主题词提取方法，其特征在于，

在采用TF-IDF模型提取主题词之前，还包括：

对文章进行分词处理，并去除停用词。

5.一种主题词提取装置，其特征在于，包括：

TF-IDF-IDAYF分数获取模块，用于将各文章的所述第一主题词分别计算IDAYF分数，并与所述TF-IDF分数相乘，获得TF-IDF-IDAYF分数，其中所述IDAYF分数是利用所述第一主题词在历史语料中出现的时间段均值与所述第一主题词在当前时间段在提取范围中出现的次数的比值计算得到的，所述历史语料是指在设定历史时间内在所述提取范围中出现的文章，

计算IDAYF分数的公式如下:

表示第m个第一主题词在历史语料中出现的次数；

t表示设定历史时间所包含的时间段数量；

表示第m个第一主题词在当前时间段在提取范围中出现的次数；

6.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4中任一所述的主题词提取方法。

7.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一所述的主题词提取方法。