CN104462552A

CN104462552A - 问答页面核心词提取方法和装置

Info

Publication number: CN104462552A
Application number: CN201410827521.4A
Authority: CN
Inventors: 沈亮; 周伟; 梁任鹏; 项碧波
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-03-25
Anticipated expiration: 2034-12-25
Also published as: CN104462552B

Abstract

本发明提供了一种问答页面核心词提取方法和装置。其中，问答页面核心词提取方法，包括：从问答页面中提取核心词候选串；对所述核心词候选串进行分词，提取各个候选串分词的分类特征；根据所述分类特征筛选各个候选串分词是否是核心词。采用本发明能够提高问答页面检索的准确性。

Description

问答页面核心词提取方法和装置

技术领域

本发明涉及搜索技术领域，特别是涉及搜索过程中获取相关问题时的问答页面核心词提取方法和装置。

背景技术

随着互联网技术的发展，互联网数据早已呈现***性增长的趋势，人们对知识的需求越来越渴望，越来越多的人们开始使用搜索引擎搜索来满足对未知知识的查询与搜索。大型搜索引擎(比如谷歌***、360、百度等)可以很方便快捷的提供相关问答的搜索。其中相关问答搜索是指用户输入一个问题，搜索引擎检索与该问题相对应的答案。在不同的问答知识页面，不仅提供了针对用户输入的问题进行回答的相关答复内容，还提供了与当前问答页面的用户输入问题相关的问题链接，供用户参考使用，方便用户在进行问答搜索时从不同角度综合得到该问题的解决答案。

例如：当前问答页面的搜索问题为：“感冒咳嗽怎么办？”在当前问答页面为用户推荐的相关问题可以包括：“感冒怎么办？”，“感冒咳嗽流鼻涕怎么办？”，“小孩感冒咳嗽怎么办？”，等等。

现有技术中获取相关问题时，一般是根据用户输入的搜索词作为核心词来进行获取的，这种方式比较简单直接，但获取到的相关问题与用户输入的问题的相关度并不是很好，往往不能很好地满足用户的需求，也就是说，其所获取的相关问题与用户真正想要获得的问题答案之间的匹配度比较差，导致问答页面问题检索的准确性比较差，与用户需求的贴合性比较差，不能解决用户想在当前问答页面查看与所检索的问题更贴近的、更吻合的问题答案的检索匹配需求。

因此，确定合适的核心词，以便通过获取的核心词获取更合适的相关问题，是问答页面相关问题获取过程中亟待解决的技术问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的问答页面核心词提取方法和相应的问答页面核心词提取装置。

本发明实施例提供了一种问答页面核心词提取方法，包括：

从问答页面中提取核心词候选串；

对所述核心词候选串进行分词，提取各个候选串分词的分类特征；

根据所述分类特征筛选各个候选串分词是否是核心词。

在一些可选的实施例中，从问答页面中提取核心词候选串，包括：

获取与用户输入的搜索词对应的问答页面；

从所述问答页面的标题中提取核心词候选串；和/或从所述问答页面的页面内容中，提取与所述搜索词相关的字符串，作为核心词候选串。

在一些可选的实施例中，提取与所述搜索词相关的字符串，包括：

对所述搜索词进行分词；

从所述问答页面的页面内容中提取包括至少一个搜索词分词的字符串。

在一些可选的实施例中，根据所述分类特征筛选各个候选串分词是否是核心词，包括：

根据所述分类特征对候选串分词进行分类，根据分类结果确定各个候选串分词是否是核心词；

所述分类特征包括下列特征中的至少一种：名词、热度词表、超链接、相关问题共现率、文档词频。

在一些可选的实施例中，根据分类结果确定各个候选串分词是否是核心词，具体包括：

针对每个分类，将该分类中各个候选串分词与用户输入的搜索词进行匹配，筛选出匹配度最高的设定数量的候选串分词，作为所述核心词；或

针对每个分类，根据该分类中各个候选串分词的使用频率统计值，筛选出所述使用频率统计值最高的设定数量的候选串分词，作为所述核心词；其中，候选串分词的使用频率统计值包括下列参数之一：被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。

本发明实施例还提供一种问答页面核心词提取装置，包括：

候选串提取模块，用于从问答页面中提取核心词候选串；

特征提取模块，用于对核心词候选串进行分词，提取各个候选串分词的分类特征；

核心词确定模块，用于根据所述分类特征筛选各个候选串分词是否是核心词。

在一些可选的实施例中，所述候选串提取模块，具体用于：

获取与用户输入的搜索词对应的问答页面；

在一些可选的实施例中，所述候选串提取模块，具体用于：

对所述搜索词进行分词；

在一些可选的实施例中，所述核心词确定模块，具体用于：

针对每个分类，将该分类中各个候选串分词与用户输入的搜索词进行匹配，筛选出匹配度最高的设定数量的候选串分词，作为所述核心词；

本发明实施例提供的问答页面核心词提取方法和装置，从问答页面中提取核心词候选串，对提取的核心词候选串进行分词，提取各个候选串分词的分类特征，根据分类特征筛选各个候选串分词是否是核心词，该方案从对问答页面的分析中实现核心词的提取，使所确定的核心词能够更好地反映用户输入的问题，与用户输入的问题相关性更高，从而能够根据提取的核心词获得更贴和用户需求、更符合用户需要的问答问题，获得用户真正想要获得的问题答案，提高了问答页面检索的准确性。

进一步地，本发明的，能够根据用户输入的搜索词所对应的问答页面的标题或页面内容中提取核心词，从而使核心词的提取能够更准确、更贴合用户需要。且能够综合考虑各个候选串分类特征，根据不同类别的综合考量确定核心词，从而能够更客观、合理的确定出合适的核心词。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例一的问答页面核心词提取方法的流程图；

图2是本发明实施例二的问答页面核心词提取方法的流程图；

图3是本发明实施例三的问答页面核心词提取方法的流程图；以及

图4是本发明实施例中问答页面核心词提取装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的检索过程中，由于核心词确定的不是很合适，而导致不能获取到匹配度较高的、更贴合用户需求的问答问题答案的问题，为用户提供更贴合用户需求的检索结果，本发明实施例提供一种问答页面核心词提取方法。

实施例一

本发明实施例一提供的问答页面核心词提取方法，其流程如图1所示，包括如下步骤：

步骤S101：从问答页面中提取核心词候选串。

提取核心词时，从问答页面中提取用于确定核心词的核心词候选串，从候选串中筛选出符合条件的核心词。

从问答页面中提取核心词候选串，可以从问答页面的标题中提取核心词候选串，也可以从问答页面的页面内容中提取，或者从问答页面的标题和问答页面的页面内容中提取。

从问答页面中提取核心词候选串，包括：获取与用户输入的搜索词对应的问答页面；从获取的问答页面的标题中提取核心词候选串。和/或从获取的问答页面的页面内容中，提取与用户输入的搜索词相关的字符串，作为核心词候选串。

步骤S102：对提取的核心词候选串进行分词，提取各个候选串分词的分类特征。

提取到问答页面的核心词候选串后，进行分词处理，将每一个候选串分词划分为若干候选串分词，并提取出这些候选串分词的分类特征。其中，候选串分词的分类特征包括下列特征中的至少一种：名词、热度词表、超链接、相关问题共现率、文档词频等等。

步骤S103：根据提取出的分类特征筛选各个候选串分词是否是核心词。

提取出候选串分词的分类特征后，根据分类特征对候选串分词进行分类，并根据分类结果确定各个候选串分词是否是核心词。

如上所述，候选串分词的分类特征包括名词、热度词表、超链接、相关问题共现率、文档词频等特征中的至少一种，则可以候选串分词中所有的名词归为一类，将候选串分词中在热度词表中的分词归为一类，将候选串分词汇中是超级链接的分词归为一类，或者也可以将候选串分词中在热度词表中的所有名词归为一类，……，等等。

对候选串分词进行分类后，可以根据分类结果，进行核心词的筛选，比如，根据各个分类中各个候选串分词与用户输入的搜索词的匹配程度进行筛选，或者根据各个分类中各个候选串分词的使用频率统计值等因素进行筛选，或者综合考虑上述各种因素进行筛选。

其中，候选串分词的使用频率统计值包括下列参数之一：被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。可以建立数据库，统计候选串分词被用户搜索的次数，被用户点击的次数曾经被确定为核心词的次数、曾经被用户用作搜索词的次数等。

实施例二

本发明实施例二提供的问答页面核心词提取方法，描述核心词提取的一种具体实现方式，其流程如图2所示，包括如下步骤：

步骤S201：获取与用户输入的搜索词对应的问答页面。

例如：用户输入搜索词“孩子感冒咳嗽怎么办？”，根据该搜索词获取到对应的问答页面，获取到的问答页面上有问答页面的标题，至少一个问题答案，至少一个相关问题。比如相关问题可以是“小儿感冒咳嗽怎么办？”，“小儿感冒咳嗽用什么药比较好呢？”。

步骤S202：从获取的问答页面的标题中提取核心词候选串。

本实施例中以从问答页面的标题中提取核心词候选串为例，比如，提取到的核心词候选串可以是“孩子感冒咳嗽怎么办”。

实际操作中还可以从问答页面的问答内容、相关问题等页面内容中提取核心词候选串。

步骤S203：对提取的核心词候选串进行分词，提取各个候选串分词的分类特征。

对提取的核心词候选串“孩子感冒咳嗽怎么办”进行分词，例如，可以分词为：“孩子”、“感冒”、“咳嗽”、“怎么办”等候选串分词。

对分词出的候选串分词进行分类特征提取，例如“孩子”这个候选串分词的分类特征包括：是名词等；“感冒”、“咳嗽”这两个候选串分词的分类特征包括：是名词、是热度词表中的词、是超链接等；“怎么办”这个候选串分词的分类特征包括是超链接等。

步骤S204：根据提取的分类特征对候选串分词进行分类。

根据提取的分类特征对上述分词出的“孩子”、“感冒”、“咳嗽”、“怎么办”等候选串分词进行分类，例如：“孩子”、“感冒”、“咳嗽”都是名词，归为一类；将“感冒”、“咳嗽”都是热度词表中的词，归为一类；“感冒”、“咳嗽”、“怎么办”都是超链接，归为一类。

步骤S205：针对每个分类，将该分类中各个候选串分词与用户输入的搜索词进行匹配。

对候选串分词进行分类后，分别针对每个分类，与用户输入的搜索词进行匹配。

沿用上边的例子，根据上边的分类，将名词分类、热度词表分类和超链接分类中的各个候选串分词分别与用户输入的搜索词进行匹配。

步骤S206：筛选出匹配度最高的设定数量的候选串分词，作为核心词。

沿用上边的例子，筛选出匹配度较高的2个候选串分词为：“感冒”、“咳嗽”，则确定“感冒”、“咳嗽”为核心词；或筛选出匹配度较高的3个候选串分词为：“感冒”、“咳嗽”、“孩子”，则确定“感冒”、“咳嗽”、“孩子”为核心词。

上述实施例中所列举的搜索词、问答页面标题等都属于简单的举例，实际应用中用户输入的检索词可能会更简单，而根据问答页面获取到的候选串分词的数量可能会更多，匹配过程可能会更复杂，从而能够更好地发挥本发明方法的作用，在此不再一一列举。

上述步骤S205和步骤S206实现了根据分类结果确定各个候选串分词是否是核心词。

上述实施例二中的步骤S205和步骤S206可替换为下面步骤S305和步骤S306所公开的筛选方式。

实施例三

本发明实施例三提供的问答页面核心词提取方法，描述核心词提取的另一种具体实现方式，其流程如图3所示，包括如下步骤：

步骤S301：获取与用户输入的搜索词对应的问答页面。

例如：用户输入搜索词“孩子感冒咳嗽怎么办？”，根据该搜索词获取到对应的问答页面，获取到的问答页面上有问答页面的标题，至少一个问题答案，至少一个相关问题。比如，问答答案中可能包括“选择正确的感冒(咳嗽)药”、“感冒止咳的中药”等描述，相关问题可以是“小儿感冒咳嗽怎么办？”、“小儿感冒咳嗽用什么药比较好呢？”等问题。

步骤S302：从获取的问答页面的页面内容中，提取与用户输入的搜索词相关的字符串，作为核心词候选串。

对用户输入的搜索词进行分词，从获取的问答页面的页面内容中提取包括至少一个搜索词分词的字符串。

沿用上边的例子，对用户输入的搜索词“孩子感冒咳嗽怎么办？”进行分词，例如可以分词为“孩子”、“感冒”、“咳嗽”、“怎么办”等搜索词分词。

本实施例中以从问答页面的页面内容中提取核心词候选串为例，可以从问答页面的问答内容、相关问题等页面内容中提取包括“孩子”、“感冒”、“咳嗽”、“怎么办”中至少一个搜索词分词的字符串作为核心词候选串。例如，提取到的核心词候选串可以有：“孩子感冒咳嗽怎么办”、“选择正确的感冒(咳嗽)药”、“感冒止咳的中药”、“小儿感冒咳嗽怎么办？”、“小儿感冒咳嗽用什么药比较好呢？”等等。

步骤S303：对提取的核心词候选串进行分词，提取各个候选串分词的分类特征。

沿用上边的例子，对提取的核心词候选串“孩子感冒咳嗽怎么办”进行分词，例如，可以分词为：“孩子”、“感冒”、“咳嗽”、“怎么办”等候选串分词。对提取的核心词候选串“选择正确的感冒(咳嗽)药”进行分词，例如，可以分词为：“选择”、“正确的”、“感冒”、“咳嗽”、“药”等候选串分词。对提取的核心词候选串“感冒止咳的中药”进行分词，例如，可以分词为：“感冒”、“止咳”、“中药”等候选串分词。依次对提取的核心词候选串进行分词，此处不再一一列举。

对分词出的候选串分词进行分类特征提取，例如“孩子”这个候选串分词的分类特征包括：是名词等；“感冒”、“咳嗽”这两个候选串分词的分类特征包括：是名词、是热度词表中的词、是超链接等；“中药”、“药”这两个候选串分词的分类特征包括：是名词等；“止咳”这个候选串分词的分类特征包括：是热度词表中的词等；“怎么办”这个候选串分词的分类特征包括：是超链接等。总之，对分词出的所有候选串分词都进行分类特征提取，此处不再对上边举例中的各候选串一一列举其分类特征。

步骤S304：根据提取的分类特征对候选串分词进行分类。

根据提取的分类特征对上述分词出的“孩子”、“感冒”、“咳嗽”、“怎么办”、“选择”、“正确的”、“药”、“止咳”、“中药”等候选串分词进行分类，例如：“孩子”、“感冒”、“咳嗽”、“中药”、“药”都是名词，归为一类；将“感冒”、“咳嗽”、“止咳”都是热度词表中的词，归为一类；“感冒”、“咳嗽”、“怎么办”都是超链接，归为一类。总之，对分词出的所有候选串分词都根据分类特征进行分类，此处不再对上边举例中的各候选串一一列举其分类。

步骤S305：针对每个分类，确定该分类中各个候选串分词的使用频率统计值。

沿用上边的例子，在名词分类中、热度词表中的词分类、超链接分类中，分别确定各候选串分词的使用频率统计值。

其中，候选串分词的使用频率统计值可以根据各候选串分词被用户搜索的次数、被用户点击的次数、曾经被确定为核心词的次数、曾经被作为搜索词的次数等因素中的至少一种因素进行统计。

步骤S306：根据各个候选串分词的使用频率统计值，筛选出使用频率统计值最高的设定数量的候选串分词，作为核心词。

沿用上边的例子，筛选出使用频率统计值最高的3个候选串分词为：“感冒”、“咳嗽”、“止咳”，则确定“感冒”、“咳嗽”、“止咳”为核心词；或筛选出使用频率统计值最高的3个候选串分词为：“感冒”、“咳嗽”、“孩子”，则确定“感冒”、“咳嗽”、“孩子”为核心词。

上述步骤S305和步骤S306实现了根据分类结果确定各个候选串分词是否是核心词。

上述实施例三中的步骤S305和步骤S306可替换为下面步骤S205和步骤S206所公开的筛选方式。

基于同一发明构思，本发明实施例还提供一种问答页面核心词提取装置，该装置的结构如图4所示，包括：候选串提取模块401、特征提取模块402和核心词确定模块403。

候选串提取模块401，用于从问答页面中提取核心词候选串。

特征提取模块402，用于对核心词候选串进行分词，提取各个候选串分词的分类特征。

核心词确定模块403，用于根据提取的分类特征筛选各个候选串分词是否是核心词。

优选的，上述候选串提取模块401，具体用于获取与用户输入的搜索词对应的问答页面，从获取的问答页面的标题中提取核心词候选串；和/或从获取的问答页面的页面内容中，提取与用户输入的搜索词相关的字符串，作为核心词候选串。

优选的，上述候选串提取模块401，具体用于对所述搜索词进行分词，从获取的问答页面的页面内容中提取包括至少一个搜索词分词的字符串。

优选的，上述核心词确定模块403，具体用于根据提取的分类特征对候选串分词进行分类，根据分类结果确定各个候选串分词是否是核心词；其中，分类特征包括下列特征中的至少一种：名词、热度词表、超链接、相关问题共现率、文档词频。

优选的，上述核心词确定模块403，具体用于针对每个分类，将该分类中各个候选串分词与用户输入的搜索词进行匹配，筛选出匹配度最高的设定数量的候选串分词，作为核心词；或针对每个分类，根据该分类中各个候选串分词的使用频率统计值，筛选出使用频率统计值最高的设定数量的候选串分词，作为核心词；其中，候选串分词的使用频率统计值包括下列参数之一：被搜索次数、被点击次数、曾作为核心词的次数、曾作为搜索词的次数。

本发明实施例提供的上述问答页面核心词提取方法和装置，能够根据用户输入的搜索词对应的问答页面提取更符合用户搜索需求的核心词，从而能够根据核心词获取到与用户输入的搜索词相关度更高的相关问题，在当前问答页面为用户提供与用户需求的贴合性更好、更符合用户需求的相关问题，提高问答页面问题检索的准确性。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的问答页面核心词提取装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种问答页面核心词提取方法，包括：

从问答页面中提取核心词候选串；

根据所述分类特征筛选各个候选串分词是否是核心词。

2.根据权利要求1所述的方法，其中，从问答页面中提取核心词候选串，包括：

获取与用户输入的搜索词对应的问答页面；

3.根据权利要求1-2任一项所述的方法，其中，提取与所述搜索词相关的字符串，包括：

对所述搜索词进行分词；

4.根据权利要求1-3任一项所述的方法，其中，根据所述分类特征筛选各个候选串分词是否是核心词，包括：

5.根据权利要求1-4任一项所述的方法，其中，根据分类结果确定各个候选串分词是否是核心词，具体包括：

6.一种问答页面核心词提取装置，包括：

候选串提取模块，用于从问答页面中提取核心词候选串；

7.根据权利要求6所述的装置，其中，所述候选串提取模块，具体用于：

获取与用户输入的搜索词对应的问答页面；

8.根据权利要求6-7任一项所述的装置，其中，所述候选串提取模块，具体用于：

对所述搜索词进行分词；

9.根据权利要求6-8任一项所述的装置，其中，所述核心词确定模块，具体用于：

10.根据权利要求6-9任一项所述的装置，其中，所述核心词确定模块，具体用于：