CN103425710A

CN103425710A - 一种基于主题的搜索方法和装置

Info

Publication number: CN103425710A
Application number: CN2012101668529A
Authority: CN
Inventors: 方高林; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-05-25
Filing date: 2012-05-25
Publication date: 2013-12-04

Abstract

本发明提供了一种基于主题的搜索方法和装置，利用主题分析模型对文档库中各文档进行主题分析，确定各文档对应的主题分布；利用主题分析模型对用户输入的query进行主题分析，确定query对应的主题分布；利用query对应的主题分布与各文档对应的主题分布，计算query与各文档的主题匹配度；利用主题匹配度得到query与各文档的匹配度，依据query与各文档的匹配度确定query的搜索结果。本发明采用主题匹配的方式而非关键词匹配的方式，即便在表述上与用户query不完全一致或者与query中冗余的词语不匹配，也能够被召回，且在主题上使得搜索结果最大程度地与query匹配，从而提高了搜索召回率和准确性。

Description

一种基于主题的搜索方法和装置

【技术领域】

本发明涉及计算机技术领域，特别涉及一种基于主题的搜索方法和装置。

【背景技术】

随着计算机网络技术的不断发展，搜索引擎已经成为人们获取信息的重要手段，用户通过搜索引擎输入搜索项(query)，搜索引擎从抓取到的文档中搜索与query相关的文档，并按照相关程度进行排序。广泛采用的搜索模型是向量空间模型，它的基本思想是将query和文档分别表示成词向量的形式，向量的权重可以是词出现的频率(TF)或者词频-逆文档频率(TF-IDF)，然后计算query的词向量和文档的词向量之间的相似度作为相关性的度量。在实际应用中，有各种各样的变种，但本质上都是计算query和文档中匹配的关键词，并赋予权重。

也就是说，传统的搜索基于关键词匹配的方式，这就会造成以下两种情况：

其一、在没有出现或者出现很少相同关键词的情况下，即使实际内容反映了query需求的文档也很难排在前面，甚至无法召回。例如用户输入query“好看的林肯”，有些文档中包含“流线型设计的林肯”、“白色、黑色或红色的林肯”等虽然也涉及到林肯的外观，但由于并没有出现关键词“好看的”，可能无法召回或者无法排在靠前的位置，但实际上这些文档反映出了用户想要搜索到关于林肯好看的外观的文档。

其二、有些query存在表达冗余的现象，这就会导致没有匹配上其中的冗余词的文档无法召回或者无法排在靠前的位置。例如用户输入query“离婚后对前夫仍仇恨怎么办”，由于其中“离婚”是冗余词，对于有些文档虽然内容是关于对前夫仍仇恨的解决方案，但由于其没有匹配上关键词“离婚”而无法被召回或无法排在靠前的位置。

【发明内容】

有鉴于此，本发明提供了一种基于主题的搜索方法和装置，以便于提高搜索召回率和准确性。

具体技术方案如下：

一种基于主题的搜索方法，利用主题分析模型对文档库中各文档进行主题分析，确定各文档对应的主题分布，该方法还包括：

S1、利用主题分析模型对用户输入的query进行主题分析，确定所述query对应的主题分布；

S2、利用所述query对应的主题分布与各文档对应的主题分布，计算所述query与各文档的主题匹配度；

S3、利用主题匹配度得到所述query与各文档的匹配度，依据所述query与各文档的匹配度确定所述query的搜索结果。

根据本发明一优选实施例，所述主题分析模型包含：各主题对应的主题词以及各主题词在所属主题的权值。

根据本发明一优选实施例，所述主题分析模型为概率潜在语义分析PLSA模型或潜在狄利克雷分配LDA模型。

根据本发明一优选实施例，所述主题词包括以下至少一种：领域词、多义词的二元组合、实体词或者实体词的组合。

根据本发明一优选实施例，在所述主题分析模型的训练过程中，在从文档中提取主题词时，进一步基于统计的方式提取主题词的语义相关词，将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。

根据本发明一优选实施例，所述利用主题分析模型对文档库中各文档进行主题分析，确定各文档对应的主题分布具体包括：

A1、对文档库中各文档进行分词处理，从分词结果中选择满足统计要求的词语作为主题词，分别得到各文档的主题词集合；

A2、将各文档对应的主题词集合输入所述主题分析模型，得到各文档所映射到的主题以及映射到各主题上的概率。

根据本发明一优选实施例，所述从分词结果中选择满足统计要求的词语作为主题词包括：

对所述分词结果进行聚类，从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词，所述M为正整数。

根据本发明一优选实施例，所述步骤S1具体包括：

S11、对用户输入的query进行分词处理，从分词结果中选择满足逆文档频率IDF统计要求的词语作为主题词，利用选择出的主题词构成所述query对应的主题词集合，或者进一步对选择出的主题词进行相关词扩展，利用选择出的主题词和扩展得到的相关词构成所述query对应的主题词集合；

S12、将所述query对应的主题词集合输入所述主题词分析模型，得到所述query映射到的主题以及映射到各主题上的概率。

根据本发明一优选实施例，计算所述query与各文档的主题匹配度包括：

通过计算所述query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离，得到所述query与各文档的主题匹配度。

根据本发明一优选实施例，该方法还包括：确定所述各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种；

在所述步骤S1中进一步包括：确定所述query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种；

在所述步骤S2中进一步包括以下匹配度计算中的至少一种：通过计算所述query的需求特征与各文档的需求特征计算所述query与各文档之间的需求匹配度，通过计算所述query的时间属性特征与各文档的时间属性特征计算所述query与各文档之间的时间属性匹配度，通过计算所述query的地域属性特征与各文档的地域属性特征计算所述query与各文档之间的地域属性匹配度，通过计算所述query的实体属性特征与各文档的实体属性特征计算所述query与各文档之间的实体属性匹配度，或者，通过计算所述query的语义依存关系特征与各文档的语义依存关系特征计算所述query与各文档之间的语义依存关系匹配度；

在所述步骤S3中进一步结合所述query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种，得到所述query与各文档的匹配度。

根据本发明一优选实施例，按照如下公式得到所述query与各文档的匹配度Score(q，d)：

Score(q，d)＝Sem(q，d)[λ₁ Score1+λ₂ Score2]

其中Score1为所述query与文档的主题匹配度，Score2为所述query与文档的需求匹配度，Sem(q，d)表示所述query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况，λ₁和λ₂为预设的权值参数。

根据本发明一优选实施例，所述步骤S3中依据所述query与各文档的匹配度确定所述query的搜索结果包括：

将与所述query的匹配度满足预设匹配度要求的文档包含在所述搜索结果中，并且依据与所述query的匹配度确定各文档在搜索结果中的排序。

本发明还提供了一种基于主题的搜索装置，该装置包括：

第一主题分析单元，用于利用主题分析模型对文档库中各文档进行主题分析，确定各文档对应的主题分布；

第二主题分析单元，用于利用主题分析模型对用户输入的query进行主题分析，确定所述query对应的主题分布；

主题匹配度计算单元，用于利用所述query对应的主题分布与各文档对应的主题分布，计算所述query与各文档的主题匹配度；

搜索结果确定单元，用于利用主题匹配度得到所述query与各文档的匹配度，依据所述query与各文档的匹配度确定所述query的搜索结果。

根据本发明一优选实施例，该装置还包括：主题模型训练单元，用于训练所述主题分析模型，且在训练过程中，在从文档中提取主题词时，进一步基于统计的方式提取主题词的语义相关词，将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。

根据本发明一优选实施例，所述第一主题分析单元具体包括：

第一主题词确定子单元，用于对文档库中各文档进行分词处理，从分词结果中选择满足统计要求的词语作为主题词，分别得到各文档的主题词集合；

第一分布确定子单元，用于将各文档对应的主题词集合输入所述主题分析模型，得到各文档所映射到的主题以及映射到各主题上的概率。

根据本发明一优选实施例，所述第一主题词确定子单元在从分词结果中选择满足统计要求的词语作为主题词时，对所述分词结果进行聚类，从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词，所述M为正整数。

根据本发明一优选实施例，所述第二主题分析单元具体包括：

第二主题词确定子单元，用于对用户输入的query进行分词处理，从分词结果中选择满足逆文档频率IDF统计要求的词语作为主题词，利用选择出的主题词构成所述query对应的主题词集合，或者进一步对选择出的主题词进行相关词扩展，利用选择出的主题词和扩展得到的相关词构成所述query对应的主题词集合；

第二分布确定子单元，用于将所述query对应的主题词集合输入所述主题词分析模型，得到所述query映射到的主题以及映射到各主题上的概率。

根据本发明一优选实施例，所述主题匹配度计算单元通过计算所述query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离，得到所述query与各文档的主题匹配度。

根据本发明一优选实施例，该装置还包括：

第一附加特征确定单元，用于确定所述各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种；

第二附加特征确定单元，用于确定所述query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种；

附加匹配度计算单元，用于进行以下匹配度计算中的至少一种：通过计算所述query的需求特征与各文档的需求特征计算所述query与各文档之间的需求匹配度，通过计算所述query的时间属性特征与各文档的时间属性特征计算所述query与各文档之间的时间属性匹配度，通过计算所述query的地域属性特征与各文档的地域属性特征计算所述query与各文档之间的地域属性匹配度，通过计算所述query的实体属性特征与各文档的实体属性特征计算所述query与各文档之间的实体属性匹配度，或者，通过计算所述query的语义依存关系特征与各文档的语义依存关系特征计算所述query与各文档之间的语义依存关系匹配度；

所述搜索结果确定单元进一步结合所述query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种，得到所述query与各文档的匹配度。

根据本发明一优选实施例，所述搜索结果确定单元按照如下公式得到所述query与各文档的匹配度Score(q，d)：

Score(q，d)＝Sem(q，d)[λ₁ Score1+λ₂ Score2]

根据本发明一优选实施例，所述搜索结果确定单元具体将与所述query的匹配度满足预设匹配度要求的文档包含在所述搜索结果中，并且依据与所述query的匹配度确定各文档在搜索结果中的排序。

由以上技术方案可以看出，本发明对文档和query分别进行主题分析，确定文档库中各文档对应的主题分布和query对应的主题分布，通过计算query和各文档之间主题匹配度的方式来确定query的搜索结果。也就是说，本发明采用主题匹配的方式而非关键词匹配的方式，向用户返回在表达的主题上匹配的搜索结果，即便在表述上与用户query不完全一致或者与query中冗余的词语不匹配，也能够被召回，且在主题上使得搜索结果最大程度地与query匹配，从而提高了搜索召回率和准确性。

【附图说明】

图1为本发明实施例一提供的基于主题的搜索方法的主要流程图；

图2为本发明实施例三提供的基于主题的搜索方法的详细流程图；

图3为本发明实施例四提供的搜索装置结构图；

图4为本发明实施例中涉及的匹配度计算的一个示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图1为本发明实施例一提供的基于主题的搜索方法的主要流程图，如图1所示，该方法可以包括以下步骤：

步骤101：利用主题分析模型对用户输入的query进行主题分析，确定query对应的主题分布，并且利用主题分析模型对文档库中各文档进行主题分析，确定各文档对应的主题分布。

本步骤中涉及到的主题分析模型是预先建立的，包含各主题所包含的主题词以及各主题词在所属主题的权值。利用该主题分析模型可以确定出query对应的主题分布以及各文档对应的主题分布。其中，主题分析模型的建立过程和内容将在实施例二中进行详细描述。对query和文档进行主题分析的过程将在实施例三中进行详细描述。

步骤102：利用query对应的主题分布与各文档对应的主题分布，计算query与各文档的主题匹配度。

本步骤实际上是利用query和各文档的主题分布来确定query与各文档在主题上的匹配程度，作为后续搜索结果的选择依据。

步骤103：利用主题匹配度得到query与各文档的匹配度，依据匹配度确定query的搜索结果。

在本步骤中除了依据主题匹配度来得到query与各文档的匹配度之外，还可以进一步结合query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种来得到query与各文档的匹配度，该过程将在实施例三中详细描述。

在依据匹配度确定query的搜索结果时，可以将与query的匹配度满足预设匹配度要求的文档包含在搜索结果中，并且可以依据与query的匹配度确定文档在搜索结果中的排序。

实施例二、

在本发明实施例中主题分析模型可以采用描述主题概率模型，可以包括但不限于：概率潜在语义分析(PLSA)模型、潜在狄利克雷分配(LDA)等。

LSA是一种使用数学和统计的方法对文档中的词项进行抽取，推断它们之间语义关系，并建立一个语义索引，而将文档组织成语义空间结构的方法，即将具有较高语义关联的词项映射到同一个主题。PLSA是在LSA的进行潜在语义索引的基础上，在文档和潜在语义、潜在语义和词项之间使用概率模型进行描述，所谓潜在语义就是本发明实施例中所指的主题。

LDA是一种非监督机器学习技术，用来识别大规模文档集或语料库中潜藏的主题信息。它采用词袋的方法，每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

由于LSA和PLSA均是成熟的已有技术，在此不再具体详述。也就是说，通过PLSA或LDA等描述主题概率的方式可以将各词项映射到对应主题上，从而形成由各词项构成的主题，还可以进一步包括各词项在所属主题上的概率，该概率是基于对词频的统计得到的。

其中，传统的PLSA和LDA中所述词项指代的是词语，但由于很多词语具有多个意义从而可能带来表达歧义，这类歧义很难从主题分析模型中区分出来。另外一方面，由于在训练过程中不同主题之间的合并阈值很难确定，从而导致训练出的主题分析模型中具有相似的主题。鉴于此，本发明实施例中可以采用消歧的方式来表示主题，即上述词项可以包括以下几种形式：

第一种形式：领域词：某个专业领域的词语，在其他领域基本不出现，这类词语具有很强的区分行。例如{应用程序，线程，编译器}等词汇与{电脑，编程}等词汇属于同一领域，通常领域词为一元词。

第二种形式：多义词的二元组合：对于某些可能具有歧义的词语，即多义词，为了消除歧义可以采用与其他一元词进行组合构成二元组合的方式，例如，“苹果”为一个多义词，可以通过将其组合为“苹果#手机”、“苹果#电脑”、“苹果#水果”等进行区别，其中#表示二元组合的关系。

第三种形式：实体词或者实体词组合：实体词的表意能力介于领域词和泛化词之间，通常分属于多个领域，由于实体词区分性可能较低，因此可以采用两个实体词组合的表述方式。

正如前面所介绍，PLSA或LDA等描述主题概率的方式由于词项歧义可能导致主题不收敛、同时也产生类似主题的问题，经分析可以认为文档同现作为语义相关依据是导致噪声引入的原因。为了进一步解决该问题，可以基于统计的方法提取词项的语义相关词，利用词项对应的所有语义相关词作为训练语料中的一个文档，参与主题分析模型的训练，从而能够大大消除噪声和歧义的影响，提高主题分析的准确性。

例如，对于词项“笔记本电脑”基于统计提取相关词包括{笔记本，本本，笔记本电池，双核，无线网卡，thinkpad，处理器，显卡}，将这些相关词作为一个文档，通过PLSA或LDA进行训练，从而获得对应的主题。再例如，将“苹果#电脑”基于统计提取相关词包括{苹果，电脑，imac，台式电脑，台式机}，将这些相关词作为一个文档，通过PLSA或LDA进行训练，从而获得对应的主题。

通过该实施例最终建立的主题分析模型包括：各主题对应的词项(即主题词)、以及各词项在所属主题中的权值。

实施例三、

图2为本发明实施例三提供的基于主题的搜索方法的详细流程图，如图2所示，该流程具体包括以下步骤：

步骤201：对文档库中各文档进行主题词分析，分别得到各文档的主题词集合。

对文档进行主题词分析的过程首先将文档进行分词处理后，可以基于TF或TF-IDF选择出主题词，即选择TF或TF-IDF满足要求的词语作为主题词。这种方式通常情况下表现是不错的，但对于一些用词比较分散的文档，统计的词频没有明显特征，另外对于一些作弊的文档，作弊者堆砌与文本主题无关的词，如果单纯基于词频信息，显然对于主题的反映并不准确。因此，本发明实施例提供了一种优选的实施方式，即将文档进行分词处理后得到的词语首先进行聚类，按照各类别中包含的词语数量以及词语在各类别中的出现次数来提取文档的主题词，构成该文档的主题词集合。

其中对词语进行聚类的方式本发明并不加以限制，在聚类之后提取主题词时，可以从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词，M为正整数。例如，在进行聚类之后，得到若干个类别，有的类别中包含的词语数量较多，有的类别则较少，对于包含的词语数量不满足预设数量要求的类别则抛弃，对于包含的词语数量满足预设数量要求的类别，则可以从中选择出现次数排在前M个的词语作为主题词。

步骤202：将各文档对应的主题词集合输入主题分析模型，得到各文档对应的主题分布。

本步骤实际上是对各文档进行语义分析的过程，将文档对应的主题词集合输入诸如PLSA模型或LDA模型等主题分析模型之后，就能够得到文档的主题分布，即所映射到的主题，以及映射到各主题上的概率。

例如，某文档的主题词集合为{电脑，显示器，宽屏，笔记本}，利用已有的主题分析模型进行分析后，得到该文档映射到主题topic1上的概率为0.5，映射到主题topic2上的概率为0.2，映射到主题topic3上的概率为0.1。

另外，在语义分析的过程中，除了计算各文档对应的主题分布之外，还可以分析各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种。

其中，分析文档的需求特征基于预先建立的需求分析模型，该需求分析模型包含：各需求类型包含的需求词以及需求词的权值。需求分析模型的建立方式与主题分析模型类似，只是训练语料基于需求词，在此不再详述。

例如建立的需求分析模型中视频需求包含的需求词及权值包括：在线视频0.00385583|观看0.00316739|开灯0.00312384|全集0.00302876|新窗口0.00299306|私信0.0028422|土豆网0.00276037|在线观看0.0027364|信息订阅0.00267162|剧情0.00265838|向后0.00257173|合集0.00252181。

提取出文档中的需求词，该需求词的提取可以基于词典或模板进行提取，需求词的提取可以采用已有技术，在此不再赘述。得到各文档对应的需求词集合后，将各文档对应的需求词集合输入需求分析模型，得到各文档的需求分布，即各文档映射到的需求类型以及映射到各需求类型上的概率。

分析文档的时间属性特征和地域属性特征基于文档的静态属性，例如文档的发布时间、文档的产生地域等，也可以基于文档的内容，例如提取文档中的时间信息或地域信息等。

分析文档的实体属性特征基于文档的内容，即分析文档的内容，从中提取“实体-实体属性-属性值”的结构信息，例如，从文档中提取如表1所示的结构信息。该结构信息的提取可以基于模板进行，该部分可以采用现有技术，在此不再赘述。

表1

实体词	实体词属性	属性值
			百度	地址	北京市海淀区上地十街10号
百度公司	电话	59928888

分析文档的语义依存关系特征是利用预设的依存关系模板对文档中的语义块进行匹配，从而确定具有语义依存关系的语义块以及对应的语义依存关系，其中语义块可以采用词语的二元组合的方式表示。语义依存关系的类型可以包括但不限于：限定关系、施受关系等。限定关系指的是一个词语对另一个词语进行限定的关系，例如“姚明身高”、“超级兔子用法”等。施受关系指的是其中一个词语是施事者、另一个词语是受事者，两者顺序不可颠倒，例如“李娜战胜萨拉波娃”中“李娜萨拉波娃”是施受关系，“欧元兑换美元”中“欧元美元”是施受关系。

上述的依存关系模板可以是基于搜索日志进行挖掘后得到的，也可以是人工定义的。例如，限定关系的模板可以包括：【篮球明星】身高、【软件】用法等。施受关系的模板可以包括：【名词】动词【名词】等。

另外，需要说明的是，上述步骤201和步骤202可以是线下执行的步骤。

步骤203：对用户输入的query进行主题词分析，得到query对应的主题词集合。

在本步骤中可以基于IDF从query的分词结果中选取IDF满足预设要求的词语作为主题词，例如选取IDF排在前N1个的词语，N1为预设的正整数，或者选取IDF超过预设IDF阈值的词语。

可以直接将确定出的主题词构成主题词集合，优选地，可以进一步对确定出的主题词进行相关词扩展，将扩展得到的相关词和确定出的主题词共同构成主题词集合。进行相关词扩展时可以基于已有的相关词词典，该相关词词典的挖掘原则可以是：如果两个词在语料中所处的上下文环境一样，则这两个词在语义上相关，互为相关词。

步骤204：将query对应的主题词集合输入主题分析模型，得到query对应的主题分布。

同样，本步骤实际上是对query进行语义分析的过程，将query对应的主题词集合输入诸如PLSA模型或LDA模型等主题分析模型之后，就能够得到query的主题分布，即query所映射到的主题，以及映射到各主题上的概率。

例如，用户输入的query为“超级兔子”，对于“超级兔子”进行主题分析的结果：映射在Topic：226上的概率为0.851297，映射在Topic：1288上的概率为0.120394。其中，Topic：226和Topic：1288在主题分析模型中可以如实施例二中所示。

另外，在语义分析的过程中，除了计算query对应的主题分布之外，还可以分析query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种。

分析query的需求特征基于预先建立的需求分析模型，首先提取query中的需求词，该需求词的提取可以基于词典或模板进行提取，需求词的提取可以采用已有技术，在此不再赘述。然后将query的需求词输入需求分析模型，得到query的需求分布，即query映射到的需求类型以及映射到各需求类型上的概率。

分析query的时间属性特征主要基于query的内容，从query中提取与时间相关的词语，作为时间属性特征。例如用户输入query“2008年发生了什么大事件”，其中“2008年”为该query的时间属性特征。

分析query的地域属性特征可以基于输入该query的用户属性，例如根据用户IP对应的地理位置作为地域属性特征，例如输入该query的用户为北京的用户，则可以将“北京”作为query的地域属性特征。也可以基于query的内容，从query中提取与地域相关的词语，作为地域属性特征，例如用户输入query“北京五星级宾馆有哪些”，提取出“北京”作为该query的地域属性特征。

分析query的实体属性特征基于query的内容，即从query中提取“实体-实体属性”的结构信息，该结构信息的提取可以基于模板进行，同样可以采用现有技术。例如用户输入“姚明身高多少”提取出的实体属性特征为“姚明-身高”。提取出该实体属性特征的目的是为了后续在与文档进行匹配时，如果有文档正好具有同样的实体属性特征，则说明该文档能够直接返回属性值，因此可以提高该文档与query的匹配度。

分析query的语义依存关系特征利用预设的依存关系模板对query中的语义块进行匹配，从而确定具有语义依存关系的语义块以及对应的语义依存关系。其中语义块可以采用词语的二元组合的方式表示。语义依存关系的类型可以包括但不限于：限定关系、施受关系等。例如用户输入query“姚明的身高是多少”，分析出“姚明身高”为限定关系；用户输入query “李娜战胜萨拉波娃”，分析出“李娜萨拉波娃”为施受关系。

步骤205：利用query对应的主题分布与各文档对应的主题分布，计算query与各文档的主题匹配度。

由于主题分布实际上是包含映射到的主题以及在所映射到主题的概率的向量，因此可以通过计算向量之间的余弦相似度的方式计算query与各文档的主题匹配度，也可以通过计算query对应的主题分布与文档对应的主题分布之间的相对熵距离(KL，Kullback-Leibler Divergence)的方式计算query与各文档的主题匹配度。

步骤206：计算query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种，并结合主题匹配度计算query与各文档之间的匹配度。

其中query与文档之间的需求匹配度可以通过计算query对应的需求特征与文档对应的需求特征之间的相似度得到，其中相似度计算的方式可以采用余弦相似度或KL距离等。

query与文档之间的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度可以依据query与文档的时间属性、地域属性、实体属性和语义依存关系是否一致来确定，例如，如果一致，确定其匹配度为1，如果不匹配，则确定其匹配度为0.8。

在计算query与文档的匹配度Score(q，d)时，可以按照公式(1)进行：

Score(q，d)＝Sem(q，d)[λ₁ Score1+λ₂ Score2] (1)

其中，Score1为query与文档的主题匹配度，Score2为query与文档的需求匹配度，Sem(q，d)表示query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况，λ₁和λ₂为预设的权值参数，λ₁和λ₂之和可以为1，如果需求匹配度不参与匹配度的计算，则可以设置λ₂为0。Sem(q，d)可以采用时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的乘积，也可以采用整体设置的方式，例如如果时间属性、地域属性、实体属性和语义依存关系均匹配，则Sem(q，d)取1，只要存在一个不匹配，则Sem(q，d)取0.8。此时匹配度计算的示意图如图4所示。

步骤207：依据各文档与query的匹配度，确定query的搜索结果。

本步骤中可以将与query的匹配度满足预设匹配度要求的文档包含在搜索结果中，并且可以依据与query的匹配度确定文档在搜索结果中的排序。

以上是对本发明所提供的方法进行的详细描述，下面结合实施例四对本发明所提供的装置进行详细描述。

实施例四、

图3为本发明实施例四提供的搜索装置结构图，如图3所示，该装置可以包括：第一主题分析单元300、第二主题分析单元310、主题匹配度计算单元320和搜索结果确定单元330。

第一主题分析单元300，用于利用主题分析模型对文档库中各文档进行主题分析，确定各文档对应的主题分布。

该第一主题分析单元300可以具体包括：第一主题词确定子单元301和第一分布确定子单元302。

第一主题词确定子单元301，用于对文档库中各文档进行分词处理，从分词结果中选择满足统计要求的词语作为主题词，分别得到各文档的主题词集合。

其中可以在分词结果中基于TF或TF-IDF选择出主题词，即选择TF或TF-IDF满足要求的词语作为主题词。但对于一些用词比较分散的文档，统计的词频没有明显特征，另外对于一些作弊的文档，作弊者堆砌与文本主题无关的词，如果单纯基于词频信息，显然对于主题的反映并不准确。因此，在从分词结果中选择满足统计要求的词语作为主题词时，可以对分词结果进行聚类，从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词，M为正整数。

第一分布确定子单元302，用于将各文档对应的主题词集合输入主题分析模型，得到各文档所映射到的主题以及映射到各主题上的概率。

第二主题分析单元310，用于利用主题分析模型对用户输入的query进行主题分析，确定query对应的主题分布。

其中第二主题分析单元310可以具体包括：第二主题词确定子单元311和第二分布确定子单元312。

第二主题词确定子单元311，用于对用户输入的query进行分词处理，从分词结果中选择满足IDF统计要求的词语作为主题词，利用选择出的主题词构成query对应的主题词集合，或者进一步对选择出的主题词进行相关词扩展，利用选择出的主题词和扩展得到的相关词构成query对应的主题词集合。

在进行相关词扩展时，可以基于已有的相关词词典，该相关词词典的挖掘原则可以是：如果两个词在语料中所处的上下文环境一样，则这两个词在语义上相关，互为相关词。

第二分布确定子单元312，用于将query对应的主题词集合输入主题词分析模型，得到query映射到的主题以及映射到各主题上的概率。

主题匹配度计算单元320，用于利用query对应的主题分布与各文档对应的主题分布，计算query与各文档的主题匹配度。具体可以通过计算query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离，得到query与各文档的主题匹配度。

搜索结果确定单元330，用于利用主题匹配度得到query与各文档的匹配度，依据query与各文档的匹配度确定query的搜索结果。

本发明实施例中涉及的上述主题分析模型包含：各主题对应的主题词以及各主题词在所属主题的权值。采用的形式可以包括但不限于PLSA模型或LDA模型。模型中采用的主题词包括以下至少一种：领域词、多义词的二元组合、实体词或者实体词的组合。

为了得到上述主题分析模型，该装置还可以包括：主题模型训练单元340，用于训练主题分析模型，训练过程的描述可以参见上述实施例二。优选地，为了防止PLSA或LDA等描述主题概率的方式由于词项歧义可能导致主题不收敛、同时产生类似主题的问题，在训练过程中，在从文档中提取主题词时，进一步基于统计的方式提取主题词的语义相关词，将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练，从而能够大大消除噪声和歧义的影响，提高主题分析的准确性。

除了基于主题特性计算匹配度之外，还可以结合其他附加特征，鉴于此，该装置还可以包括：第一附加特征确定单元350、第二附加特征确定单元360和附加匹配度计算单元370。

第一附加特征确定单元350，用于确定各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种。

其中，分析文档的需求特征基于预先建立的需求分析模型，该需求分析模型包含：各需求类型包含的需求词以及需求词的权值。需求分析模型的建立方式与主题分析模型类似，只是训练语料基于需求词，在此不再详述。提取出文档中的需求词，该需求词的提取可以基于词典或模板进行提取，得到各文档对应的需求词集合后，将各文档对应的需求词集合输入需求分析模型，得到各文档的需求分布，即各文档映射到的需求类型以及映射到各需求类型上的概率。

分析文档的实体属性特征基于文档的内容，即分析文档的内容，从中提取“实体-实体属性-属性值”的结构信息。该结构信息的提取可以基于模板进行，该部分可以采用现有技术，在此不再赘述。

第二附加特征确定单元360，用于确定query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种。

同样，分析query的需求特征基于预先建立的需求分析模型，首先提取query中的需求词，该需求词的提取可以基于词典或模板进行提取，需求词的提取可以采用已有技术，在此不再赘述。然后将query的需求词输入需求分析模型，得到query的需求分布，即query映射到的需求类型以及映射到各需求类型上的概率。

分析query的语义依存关系特征利用预设的依存关系模板对query中的语义块进行匹配，从而确定具有语义依存关系的语义块以及对应的语义依存关系。其中语义块可以采用词语的二元组合的方式表示。语义依存关系的类型可以包括但不限于：限定关系、施受关系等。

附加匹配度计算单元370，用于进行以下匹配度计算中的至少一种：通过计算query的需求特征与各文档的需求特征计算query与各文档之间的需求匹配度，通过计算query的时间属性特征与各文档的时间属性特征计算query与各文档之间的时间属性匹配度，通过计算query的地域属性特征与各文档的地域属性特征计算query与各文档之间的地域属性匹配度，通过计算query的实体属性特征与各文档的实体属性特征计算query与各文档之间的实体属性匹配度，或者，通过计算query的语义依存关系特征与各文档的语义依存关系特征计算query与各文档之间的语义依存关系匹配度。

此时，搜索结果确定单元330进一步结合query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种，得到query与各文档的匹配度，此时匹配度计算的示意图如图4所示。

具体地，搜索结果确定单元330可以按照如下公式得到query与各文档的匹配度Score(q，d)：

Score(q，d)＝Sem(q，d)[λ₁ Score1+λ₂ Score2]

其中Score1为query与文档的主题匹配度，Score2为query与文档的需求匹配度，Sem(q，d)表示query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况，λ₁和λ₂为预设的权值参数。λ₁和λ₂之和可以为1，如果需求匹配度不参与匹配度的计算，则可以设置λ₂为0。Sem(q，d)可以采用时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的乘积，也可以采用整体设置的方式，例如如果时间属性、地域属性、实体属性和语义依存关系均匹配，则Sem(q，d)取1，只要存在一个不匹配，则Sem(q，d)取0.8。

搜索结果确定单元330在确定搜索结果时，具体将与query的匹配度满足预设匹配度要求的文档包含在搜索结果中，并且依据与query的匹配度确定各文档在搜索结果中的排序。

本发明实施例提供的上述装置中，第一主题分析单元300、第一附加特征确定单元350和主题模型训练单元340可以是线下执行操作，其他单元可以是针对用户输入的query实时执行操作。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于主题的搜索方法，其特征在于，利用主题分析模型对文档库中各文档进行主题分析，确定各文档对应的主题分布，该方法还包括：

2.根据权利要求1所述的方法，其特征在于，所述主题分析模型包含：各主题对应的主题词以及各主题词在所属主题的权值。

3.根据权利要求2所述的方法，其特征在于，所述主题分析模型为概率潜在语义分析PLSA模型或潜在狄利克雷分配LDA模型。

4.根据权利要求3所述的方法，其特征在于，所述主题词包括以下至少一种：领域词、多义词的二元组合、实体词或者实体词的组合。

5.根据权利要求3所述的方法，其特征在于，在所述主题分析模型的训练过程中，在从文档中提取主题词时，进一步基于统计的方式提取主题词的语义相关词，将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。

6.根据权利要求2所述的方法，其特征在于，所述利用主题分析模型对文档库中各文档进行主题分析，确定各文档对应的主题分布具体包括：

7.根据权利要求6所述的方法，其特征在于，所述从分词结果中选择满足统计要求的词语作为主题词包括：

8.根据权利要求2所述的方法，其特征在于，所述步骤S1具体包括：

9.根据权利要求1至8任一权项所述的方法，其特征在于，计算所述query与各文档的主题匹配度包括：

10.根据权利要求1所述的方法，其特征在于，该方法还包括：确定所述各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种；

11.根据权利要求10所述的方法，其特征在于，按照如下公式得到所述query与各文档的匹配度Score(q，d)：

Score(q，d)＝Sem(q，d)[λ₁ Score1+λ₂ Score2]

12.根据权利要求1所述的方法，其特征在于，所述步骤S3中依据所述query与各文档的匹配度确定所述query的搜索结果包括：

13.一种基于主题的搜索装置，其特征在于，该装置包括：

14.根据权利要求13所述的装置，其特征在于，所述主题分析模型包含：各主题对应的主题词以及各主题词在所属主题的权值。

15.根据权利要求14所述的装置，其特征在于，所述主题分析模型为概率潜在语义分析PLSA模型或潜在狄利克雷分配LDA模型。

16.根据权利要求15所述的装置，其特征在于，所述主题词包括以下至少一种：领域词、多义词的二元组合、实体词或者实体词的组合。

17.根据权利要求15所述的装置，其特征在于，该装置还包括：主题模型训练单元，用于训练所述主题分析模型，且在训练过程中，在从文档中提取主题词时，进一步基于统计的方式提取主题词的语义相关词，将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。

18.根据权利要求14所述的装置，其特征在于，所述第一主题分析单元具体包括：

19.根据权利要求18所述的装置，其特征在于，所述第一主题词确定子单元在从分词结果中选择满足统计要求的词语作为主题词时，对所述分词结果进行聚类，从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词，所述M为正整数。

20.根据权利要求14所述的装置，其特征在于，所述第二主题分析单元具体包括：

21.根据权利要求13至20任一权项所述的装置，其特征在于，所述主题匹配度计算单元通过计算所述query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离，得到所述query与各文档的主题匹配度。

22.根据权利要求13所述的装置，其特征在于，该装置还包括：

23.根据权利要求22所述的装置，其特征在于，所述搜索结果确定单元按照如下公式得到所述query与各文档的匹配度Score(q，d)：

Score(q，d)＝Sem(q，d)[λ₁ Score1+λ₂ Score2]

24.根据权利要求13所述的装置，其特征在于，所述搜索结果确定单元具体将与所述query的匹配度满足预设匹配度要求的文档包含在所述搜索结果中，并且依据与所述query的匹配度确定各文档在搜索结果中的排序。