CN106610931A

CN106610931A - 话题名称的提取方法及装置

Info

Publication number: CN106610931A
Application number: CN201510697984.8A
Authority: CN
Inventors: 朱波
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2017-05-03
Anticipated expiration: 2035-10-23
Also published as: CN106610931B

Abstract

本发明公开了一种话题名称的提取方法及装置，涉及信息技术领域，解决了话题名称可读性低的问题。本发明的主要技术方案为：获取文本数据中各个共现词分别对应的互信息值，从所述共现词中提取互信息值大于预置互信息值的目标共现词，分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。本发明主要用于从文本数据中提取话题名称。

Description

话题名称的提取方法及装置

技术领域

本发明涉及信息技术领域，尤其涉及一种话题名称的提取方法及装置。

背景技术

话题名称是指能够表示新闻、微博、论坛、博客等文本数据的篇章焦点的词或短语，其中，话题名称可以表示出文本数据的核心内容，因此从海量文本数据中提取话题名称有助于分析文本数据的核心内容。

目前，话题名称提取方法主要有以下两种方式，分别为基于聚类的提取方法和基于话题模型的提取方法，两种话题名称提取方法的话题表征方式是由多个词组成的词簇，每个词簇可以代表一个话题。

但是，在基于词簇的话题表征方式中，由于对文本数据中名词短语的提取具有一定难度，且名词短语提取受到中文分词、词性标注的影响，因此名词短语的提取结果中存在着一定的错误，从而基于词簇的话题表征方式将无法准确表示话题内容；另外，由于提取的短语存在的数据稀疏，因此无论采用话题模型提取方法还是聚类提取方法进行话题识别，都会因为数据稀疏导致部分话题内容的名词短语无法展示出来，从而在基于词簇的话题表征方式中，话题名称的可读性低。

发明内容

鉴于上述问题，提出了本发明，以便提供一种克服上述问题或者至少部分地解决上述问题的话题名称的提取方法及装置。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明实施例提供了一种话题名称的提取方法，该方法包括：

获取文本数据中各个共现词分别对应的互信息值；

从所述共现词中提取互信息值大于预置互信息值的目标共现词；

分别获取所述目标共现词与所述文本数据的话题词簇的相似度值；

将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。

另一方面，本发明实施例还提供一种话题名称的提取装置，该装置包括：

获取单元，用于获取文本数据中各个共现词分别对应的互信息值；

提取单元，用于从所述共现词中提取互信息值大于预置互信息值的目标共现词；

所述获取单元，还用于分别获取所述目标共现词与所述文本数据的话题词簇的相似度值；

确定单元，用于将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。

借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

由上述技术方案，本发明提供的话题名称的提取方法及装置，首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，再分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。与目前通过基于聚类提取方法或基于话题模型提取方法提取的话题名称相比，本发明实施例首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，最后将与话题词簇的相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称，由于本发明中的话题名称是由文本数据中的共现词提取的，且话题名称与文本数据的话题词簇满足一定的相似度，因此通过本发明提取的话题名称的可读性高。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的一种话题名称的提取方法流程图；

图2为本发明实施例提供的另一种话题名称的提取方法流程图；

图3为本发明实施例提供的一种话题名称的提取装置的组成框图；

图4为本发明实施例提供的另一种话题名称的提取装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为使本发明技术方案的优点更加清楚，下面结合附图和实施例对本发明作详细说明。

本发明实施例提供了一种话题名称的提取方法，如图1所示，所述方法包括：

S101、获取文本数据中各个共现词分别对应的互信息值。

其中，所述文本数据为待提取话题名称的文本，文本数据具体可以为新闻、微博、论坛、博客等篇章，本发明实施例不做具体限定。需要说明的是，在获取文本数据中各个共现词分别对应的互信息值之前，还需要对文本数据进行分词，所述分词是指将文本数据中的汉字序列划分成一个一个单独的词。在本发明实施例中，共现词是在文本数据中经常搭配、共同出现的词汇，文本数据中某词的共现词的集合在某种程度上描述了该词的语义环境，共现词的互信息值可以表示共现词之间的关联强度，互信息值在一定程度上反映了这些词所代表的语义之间的关联强度，互信息值越大说明共现词的关联强度越大，互信息值越小说明共现词的关联强度越小。

S102、从所述共现词中提取互信息值大于预置互信息值的目标共现词。

其中，所述预置互信息值是根据实际需要进行设置的，也可以由***默认配置，本发明实施例不做具体限定。所述目标共现词是共现词中互信息值大于预置互信息值的共现词。需要说明的是，所述预置互信息值设置的越大，从所述共现词中提取的目标共现词越少；所述预置互信息值设置的越小，从所述共现词中提取的目标共现词越多。

S103、分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。

其中，所述文本数据的话题词簇可以利用话题模型LDA(latent dirichletallocation)对文本数据进行话题识别，所述话题词簇可以代表文本数据的话题。需要说明的是，文本数据的话题词簇的个数可以根据实际需求进行设置，如可根据实际需求将话题词簇的个数限定为3个、5个、8个、10个等，本发明实施例不做具体限定。当文本数据的话题词簇为多个时，则需要分别计算所述目标共现词和各个话题词簇的相似度值。

例如，获取的目标共现词有3个，分别为“数据输出”、“数据结构”和“数据库”；文本数据的话题词簇的个数限制为2个，分别为“数据库”和“数据量”，在本例中计算目标共现词和文本数据的话题词簇的相似度值，则需要计算出目标共现词“数据输出”分别和话题词簇“数据库”、“数据量”的相似度值；目标共现词“数据结构”分别和话题词簇“数据库”、“数据量”的相似度值；目标共现词“数据库”分别和话题词簇“数据库”、“数据量”的相似度值。

S104、将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。

其中，所述预置阈值可以根据实际需求进行设置，预置阈值设置的值越大，确定的文本数据的话题名称越多；预置阈值设置的值越小，确定的文本数据的话题名称越少。在本发明实施例中，首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，再分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。由于本发明中的话题名称是由文本数据中的共现词提取的，且话题名称与文本数据的话题词簇满足一定的相似度，因此通过本发明提取的话题名称的准确性和可读性较高。

本发明实施例提供的一种话题名称的提取方法，首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，再分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。与目前通过基于聚类提取方法或基于话题模型提取方法提取的话题名称相比，本发明实施例首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，最后将与话题词簇的相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称，由于本发明中的话题名称是由文本数据中的共现词提取的，且话题名称与文本数据的话题词簇满足一定的相似度，因此通过本发明提取的话题名称的可读性高。

本发明实施例提供了另一种话题名称的提取方法，如图2所示，所述方法包括：

S201、按照预置划分规则将所述文本数据划分为多个数据模块。

其中，所述文本数据为待提取话题名称的文本，文本数据具体可以为新闻、微博、论坛、博客等篇章，本发明实施例不做具体限定。对于本发明实施例，所述预置划分规则可以根据实际提取话题名称的需求进行配置，如所述划分规则可以按照文本数据中的段落进行划分，也可按照文本数据中的句子进行划分，还可以按照文本数据中的字数进行划分，本发明实施例不做具体限定。需要说明的是，按照文本数据的段落或句子进行划分时，段落或句子的长度可以根据实际情况进行选择，如划分的句子的长度可以为1、2或3等。优选的，本发明实施例按照文本中的每一句话将所述文本数据划分为多个数据模块，划分完成后，可在后续步骤中通过在文本数据中的每一句话中获取共现词，从而可以保证提取的共现词与文本数据的关联性。

S202、分别获取各个数据模块中各个共现词分别对应的互信息值。

对于本发明实施例，在分别获取各个数据模块中各个共现词分别对应的互信息值之前，还需要对文本数据进行分词，所述分词是指将文本数据中的汉字序列划分成一个一个单独的词。在本发明实施例中，共现词是在文本数据中经常搭配、共同出现的词汇，文本数据中某词的共现词的集合在某种程度上描述了该词的语义环境，共现词的互信息值可以表示共现词之间的关联强度，互信息值在一定程度上反映了这些词所代表的语义之间的关联强度，互信息值越大说明共现词的关联强度越大，互信息值越小说明共现词的关联强度越小。

在本发明实施例中，通过分别获取各个数据模块中的各个共现词，可以保证获取的共现词与数据模块中的内容具有一定的关联性，从而可以提高共现词与文本数据的关联性，因此通过分别获取各个数据模块中各个共现词分别对应的互信息值，可以提高后续提取话题名称的准确性。

S203、从所述共现词中提取互信息值大于预置互信息值的目标共现词。

S204、分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。

其中，所述文本数据的话题词簇可以利用话题模型LDA(latent dirichletallocation)对文本数据进行话题识别，所述话题词簇可以代表文本数据的话题。需要说明的是，文本数据的话题词簇的个数可以根据实际需求进行设置，如可根据实际需求将话题词簇的个数限定为2个、4个、6个、8个等，本发明实施例不做具体限定。当文本数据的话题词簇为多个时，则需要分别计算所述目标共现词和各个话题词簇的相似度值。

对于本发明实施例，所述分别获取所述目标共现词与所述文本数据的话题词簇的相似度值包括：通过余弦相似度算法分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。

S205、将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。

其中，所述预置阈值可以根据实际需求进行设置，预置阈值设置的值越大，确定的文本数据的话题名称越多；预置阈值设置的值越小，确定的文本数据的话题名称越少。在本发明实施例中，首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，再分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。

对于本发明实施例，所述将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称之后，所述方法还包括：获取所述话题名称分别在所述文本数据的话题词簇中的位置信息；根据所述位置信息的先后顺序，对所述话题名称进行排序。例如，获取的话题名称分别为“标准代码”和“信息交换”，文本数据的话题词簇为“美国信息交换标准代码”，则分别获取“标准代码”和“信息交换”在“美国信息交换标准代码”中的位置信息，然后根据所述位置信息的先后顺序，输出的话题名称为“信息交换标准代码”。在本发明实施例中，根据话题名称在话题词簇中的位置信息，提取的话题名称，可以提高话题名称的可读性。

对于本发明实施例，可以应用的场景如下所示，但不仅限于此包括：按照文本中各个句子将所述文本数据划分为多个数据模块，然后从划分的各个句子中分别获取每句话中的共现词，再计算出每个共现词分别对应的互信息值，之后从所述共现词中提取互信息值大于预置互信息值的目标共现词，分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。由于本发明中的话题名称是由文本数据中的共现词提取的，且话题名称与文本数据的话题词簇满足一定的相似度，因此通过本发明提取的话题名称的准确性和可读性较高。

本发明实施例提供的另一种话题名称的提取方法，首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，再分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。与目前通过基于聚类提取方法或基于话题模型提取方法提取的话题名称相比，本发明实施例首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，最后将与话题词簇的相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称，由于本发明中的话题名称是由文本数据中的共现词提取的，且话题名称与文本数据的话题词簇满足一定的相似度，因此通过本发明提取的话题名称的可读性高。

进一步地，本发明实施例提供一种话题名称的提取装置，如图3所示，所述装置包括：获取单元31、提取单元32、确定单元33。

获取单元31，用于获取文本数据中各个共现词分别对应的互信息值。

提取单元32，用于从所述共现词中提取互信息值大于预置互信息值的目标共现词。

所述获取单元31，还用于分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。

确定单元33，用于将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。

需要说明的是，本发明实施例提供的一种话题名称的提取装置所涉及各功能单元的其他相应描述，可以参考图1所示方法的对应描述，在此不再赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的一种话题名称的提取装置，首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，再分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。与目前通过基于聚类提取方法或基于话题模型提取方法提取的话题名称相比，本发明实施例首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，最后将与话题词簇的相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称，由于本发明中的话题名称是由文本数据中的共现词提取的，且话题名称与文本数据的话题词簇满足一定的相似度，因此通过本发明提取的话题名称的可读性高。

进一步地，本发明实施例提供另一种话题名称的提取装置，如图4所示，所述装置包括：获取单元41、提取单元42、确定单元43。

获取单元41，用于获取文本数据中各个共现词分别对应的互信息值。

提取单元42，用于从所述共现词中提取互信息值大于预置互信息值的目标共现词。

所述获取单元41，还用于分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。

确定单元43，用于将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。

进一步地，所述装置还包括：

划分单元44，用于按照预置划分规则将所述文本数据划分为多个数据模块。

所述获取单元41，具体用于分别获取各个数据模块中各个共现词分别对应的互信息值。

所述获取单元41，具体用于通过余弦相似度算法分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。

进一步地，所述装置还包括：排序单元45。

所述获取单元41，还用于获取所述话题名称分别在所述文本数据的话题词簇中的位置信息。

所述排序单元45，用于根据所述位置信息的先后顺序，对所述话题名称进行排序。

需要说明的是，本发明实施例提供的另一种话题名称的提取装置所涉及各功能单元的其他相应描述，可以参考图2所示方法的对应描述，在此不再赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的另一种话题名称的提取装置，首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，再分别获取所述目标共现词与所述文本数据的话题词簇的相似度值，最后将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。与目前通过基于聚类提取方法或基于话题模型提取方法提取的话题名称相比，本发明实施例首先获取文本数据中各个共现词分别对应的互信息值，然后从所述共现词中提取互信息值大于预置互信息值的目标共现词，最后将与话题词簇的相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称，由于本发明中的话题名称是由文本数据中的共现词提取的，且话题名称与文本数据的话题词簇满足一定的相似度，因此通过本发明提取的话题名称的可读性高。

该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

所述话题名称的提取装置包括处理器和存储器，上述获取单元、提取单元、确定单元、划分单元和排序单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高话题名称的可读性。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取文本数据中各个共现词分别对应的互信息值；从所述共现词中提取互信息值大于预置互信息值的目标共现词；分别获取所述目标共现词与所述文本数据的话题词簇的相似度值；将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种话题名称的提取方法，其特征在于，包括：

获取文本数据中各个共现词分别对应的互信息值；

2.根据权利要求1所述的话题名称的提取方法，其特征在于，所述获取文本数据中各个共现词分别对应的互信息值之前，所述方法还包括：

按照预置划分规则将所述文本数据划分为多个数据模块。

3.根据权利要求2所述的话题名称的提取方法，其特征在于，所述获取文本数据中各个共现词分别对应的互信息值包括：

分别获取各个数据模块中各个共现词分别对应的互信息值。

4.根据权利要求1所述的话题名称的提取方法，其特征在于，所述分别获取所述目标共现词与所述文本数据的话题词簇的相似度值包括：

通过余弦相似度算法分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。

5.根据权利要求1所述的话题名称的提取方法，其特征在于，所述将相似度值大于预置阈值的目标共现词确定为所述文本数据的话题名称之后，所述方法还包括：

获取所述话题名称分别在所述文本数据的话题词簇中的位置信息；

根据所述位置信息的先后顺序，对所述话题名称进行排序。

6.一种话题名称的提取装置，其特征在于，包括：

7.根据权利要求6所述的话题名称的提取装置，其特征在于，所述装置还包括：

划分单元，用于按照预置划分规则将所述文本数据划分为多个数据模块。

8.根据权利要求7所述的话题名称的提取装置，其特征在于，

所述获取单元，具体用于分别获取各个数据模块中各个共现词分别对应的互信息值。

9.根据权利要求6所述的话题名称的提取装置，其特征在于，

所述获取单元，具体用于通过余弦相似度算法分别获取所述目标共现词与所述文本数据的话题词簇的相似度值。

10.根据权利要求6所述的话题名称的提取装置，其特征在于，所述装置还包括：排序单元；

所述获取单元，还用于获取所述话题名称分别在所述文本数据的话题词簇中的位置信息；

所述排序单元，用于根据所述位置信息的先后顺序，对所述话题名称进行排序。