CN103425710A - 一种基于主题的搜索方法和装置 - Google Patents

一种基于主题的搜索方法和装置 Download PDF

Info

Publication number
CN103425710A
CN103425710A CN2012101668529A CN201210166852A CN103425710A CN 103425710 A CN103425710 A CN 103425710A CN 2012101668529 A CN2012101668529 A CN 2012101668529A CN 201210166852 A CN201210166852 A CN 201210166852A CN 103425710 A CN103425710 A CN 103425710A
Authority
CN
China
Prior art keywords
document
matching degree
query
theme
descriptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012101668529A
Other languages
English (en)
Inventor
方高林
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2012101668529A priority Critical patent/CN103425710A/zh
Publication of CN103425710A publication Critical patent/CN103425710A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于主题的搜索方法和装置,利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布;利用主题分析模型对用户输入的query进行主题分析,确定query对应的主题分布;利用query对应的主题分布与各文档对应的主题分布,计算query与各文档的主题匹配度;利用主题匹配度得到query与各文档的匹配度,依据query与各文档的匹配度确定query的搜索结果。本发明采用主题匹配的方式而非关键词匹配的方式,即便在表述上与用户query不完全一致或者与query中冗余的词语不匹配,也能够被召回,且在主题上使得搜索结果最大程度地与query匹配,从而提高了搜索召回率和准确性。

Description

一种基于主题的搜索方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种基于主题的搜索方法和装置。
【背景技术】
随着计算机网络技术的不断发展,搜索引擎已经成为人们获取信息的重要手段,用户通过搜索引擎输入搜索项(query),搜索引擎从抓取到的文档中搜索与query相关的文档,并按照相关程度进行排序。广泛采用的搜索模型是向量空间模型,它的基本思想是将query和文档分别表示成词向量的形式,向量的权重可以是词出现的频率(TF)或者词频-逆文档频率(TF-IDF),然后计算query的词向量和文档的词向量之间的相似度作为相关性的度量。在实际应用中,有各种各样的变种,但本质上都是计算query和文档中匹配的关键词,并赋予权重。
也就是说,传统的搜索基于关键词匹配的方式,这就会造成以下两种情况:
其一、在没有出现或者出现很少相同关键词的情况下,即使实际内容反映了query需求的文档也很难排在前面,甚至无法召回。例如用户输入query“好看的林肯”,有些文档中包含“流线型设计的林肯”、“白色、黑色或红色的林肯”等虽然也涉及到林肯的外观,但由于并没有出现关键词“好看的”,可能无法召回或者无法排在靠前的位置,但实际上这些文档反映出了用户想要搜索到关于林肯好看的外观的文档。
其二、有些query存在表达冗余的现象,这就会导致没有匹配上其中的冗余词的文档无法召回或者无法排在靠前的位置。例如用户输入query“离婚后对前夫仍仇恨怎么办”,由于其中“离婚”是冗余词,对于有些文档虽然内容是关于对前夫仍仇恨的解决方案,但由于其没有匹配上关键词“离婚”而无法被召回或无法排在靠前的位置。
【发明内容】
有鉴于此,本发明提供了一种基于主题的搜索方法和装置,以便于提高搜索召回率和准确性。
具体技术方案如下:
一种基于主题的搜索方法,利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布,该方法还包括:
S1、利用主题分析模型对用户输入的query进行主题分析,确定所述query对应的主题分布;
S2、利用所述query对应的主题分布与各文档对应的主题分布,计算所述query与各文档的主题匹配度;
S3、利用主题匹配度得到所述query与各文档的匹配度,依据所述query与各文档的匹配度确定所述query的搜索结果。
根据本发明一优选实施例,所述主题分析模型包含:各主题对应的主题词以及各主题词在所属主题的权值。
根据本发明一优选实施例,所述主题分析模型为概率潜在语义分析PLSA模型或潜在狄利克雷分配LDA模型。
根据本发明一优选实施例,所述主题词包括以下至少一种:领域词、多义词的二元组合、实体词或者实体词的组合。
根据本发明一优选实施例,在所述主题分析模型的训练过程中,在从文档中提取主题词时,进一步基于统计的方式提取主题词的语义相关词,将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。
根据本发明一优选实施例,所述利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布具体包括:
A1、对文档库中各文档进行分词处理,从分词结果中选择满足统计要求的词语作为主题词,分别得到各文档的主题词集合;
A2、将各文档对应的主题词集合输入所述主题分析模型,得到各文档所映射到的主题以及映射到各主题上的概率。
根据本发明一优选实施例,所述从分词结果中选择满足统计要求的词语作为主题词包括:
对所述分词结果进行聚类,从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词,所述M为正整数。
根据本发明一优选实施例,所述步骤S1具体包括:
S11、对用户输入的query进行分词处理,从分词结果中选择满足逆文档频率IDF统计要求的词语作为主题词,利用选择出的主题词构成所述query对应的主题词集合,或者进一步对选择出的主题词进行相关词扩展,利用选择出的主题词和扩展得到的相关词构成所述query对应的主题词集合;
S12、将所述query对应的主题词集合输入所述主题词分析模型,得到所述query映射到的主题以及映射到各主题上的概率。
根据本发明一优选实施例,计算所述query与各文档的主题匹配度包括:
通过计算所述query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离,得到所述query与各文档的主题匹配度。
根据本发明一优选实施例,该方法还包括:确定所述各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种;
在所述步骤S1中进一步包括:确定所述query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种;
在所述步骤S2中进一步包括以下匹配度计算中的至少一种:通过计算所述query的需求特征与各文档的需求特征计算所述query与各文档之间的需求匹配度,通过计算所述query的时间属性特征与各文档的时间属性特征计算所述query与各文档之间的时间属性匹配度,通过计算所述query的地域属性特征与各文档的地域属性特征计算所述query与各文档之间的地域属性匹配度,通过计算所述query的实体属性特征与各文档的实体属性特征计算所述query与各文档之间的实体属性匹配度,或者,通过计算所述query的语义依存关系特征与各文档的语义依存关系特征计算所述query与各文档之间的语义依存关系匹配度;
在所述步骤S3中进一步结合所述query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种,得到所述query与各文档的匹配度。
根据本发明一优选实施例,按照如下公式得到所述query与各文档的匹配度Score(q,d):
Score(q,d)=Sem(q,d)[λ1 Score1+λ2 Score2]
其中Score1为所述query与文档的主题匹配度,Score2为所述query与文档的需求匹配度,Sem(q,d)表示所述query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况,λ1和λ2为预设的权值参数。
根据本发明一优选实施例,所述步骤S3中依据所述query与各文档的匹配度确定所述query的搜索结果包括:
将与所述query的匹配度满足预设匹配度要求的文档包含在所述搜索结果中,并且依据与所述query的匹配度确定各文档在搜索结果中的排序。
本发明还提供了一种基于主题的搜索装置,该装置包括:
第一主题分析单元,用于利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布;
第二主题分析单元,用于利用主题分析模型对用户输入的query进行主题分析,确定所述query对应的主题分布;
主题匹配度计算单元,用于利用所述query对应的主题分布与各文档对应的主题分布,计算所述query与各文档的主题匹配度;
搜索结果确定单元,用于利用主题匹配度得到所述query与各文档的匹配度,依据所述query与各文档的匹配度确定所述query的搜索结果。
根据本发明一优选实施例,所述主题分析模型包含:各主题对应的主题词以及各主题词在所属主题的权值。
根据本发明一优选实施例,所述主题分析模型为概率潜在语义分析PLSA模型或潜在狄利克雷分配LDA模型。
根据本发明一优选实施例,所述主题词包括以下至少一种:领域词、多义词的二元组合、实体词或者实体词的组合。
根据本发明一优选实施例,该装置还包括:主题模型训练单元,用于训练所述主题分析模型,且在训练过程中,在从文档中提取主题词时,进一步基于统计的方式提取主题词的语义相关词,将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。
根据本发明一优选实施例,所述第一主题分析单元具体包括:
第一主题词确定子单元,用于对文档库中各文档进行分词处理,从分词结果中选择满足统计要求的词语作为主题词,分别得到各文档的主题词集合;
第一分布确定子单元,用于将各文档对应的主题词集合输入所述主题分析模型,得到各文档所映射到的主题以及映射到各主题上的概率。
根据本发明一优选实施例,所述第一主题词确定子单元在从分词结果中选择满足统计要求的词语作为主题词时,对所述分词结果进行聚类,从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词,所述M为正整数。
根据本发明一优选实施例,所述第二主题分析单元具体包括:
第二主题词确定子单元,用于对用户输入的query进行分词处理,从分词结果中选择满足逆文档频率IDF统计要求的词语作为主题词,利用选择出的主题词构成所述query对应的主题词集合,或者进一步对选择出的主题词进行相关词扩展,利用选择出的主题词和扩展得到的相关词构成所述query对应的主题词集合;
第二分布确定子单元,用于将所述query对应的主题词集合输入所述主题词分析模型,得到所述query映射到的主题以及映射到各主题上的概率。
根据本发明一优选实施例,所述主题匹配度计算单元通过计算所述query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离,得到所述query与各文档的主题匹配度。
根据本发明一优选实施例,该装置还包括:
第一附加特征确定单元,用于确定所述各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种;
第二附加特征确定单元,用于确定所述query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种;
附加匹配度计算单元,用于进行以下匹配度计算中的至少一种:通过计算所述query的需求特征与各文档的需求特征计算所述query与各文档之间的需求匹配度,通过计算所述query的时间属性特征与各文档的时间属性特征计算所述query与各文档之间的时间属性匹配度,通过计算所述query的地域属性特征与各文档的地域属性特征计算所述query与各文档之间的地域属性匹配度,通过计算所述query的实体属性特征与各文档的实体属性特征计算所述query与各文档之间的实体属性匹配度,或者,通过计算所述query的语义依存关系特征与各文档的语义依存关系特征计算所述query与各文档之间的语义依存关系匹配度;
所述搜索结果确定单元进一步结合所述query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种,得到所述query与各文档的匹配度。
根据本发明一优选实施例,所述搜索结果确定单元按照如下公式得到所述query与各文档的匹配度Score(q,d):
Score(q,d)=Sem(q,d)[λ1 Score1+λ2 Score2]
其中Score1为所述query与文档的主题匹配度,Score2为所述query与文档的需求匹配度,Sem(q,d)表示所述query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况,λ1和λ2为预设的权值参数。
根据本发明一优选实施例,所述搜索结果确定单元具体将与所述query的匹配度满足预设匹配度要求的文档包含在所述搜索结果中,并且依据与所述query的匹配度确定各文档在搜索结果中的排序。
由以上技术方案可以看出,本发明对文档和query分别进行主题分析,确定文档库中各文档对应的主题分布和query对应的主题分布,通过计算query和各文档之间主题匹配度的方式来确定query的搜索结果。也就是说,本发明采用主题匹配的方式而非关键词匹配的方式,向用户返回在表达的主题上匹配的搜索结果,即便在表述上与用户query不完全一致或者与query中冗余的词语不匹配,也能够被召回,且在主题上使得搜索结果最大程度地与query匹配,从而提高了搜索召回率和准确性。
【附图说明】
图1为本发明实施例一提供的基于主题的搜索方法的主要流程图;
图2为本发明实施例三提供的基于主题的搜索方法的详细流程图;
图3为本发明实施例四提供的搜索装置结构图;
图4为本发明实施例中涉及的匹配度计算的一个示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的基于主题的搜索方法的主要流程图,如图1所示,该方法可以包括以下步骤:
步骤101:利用主题分析模型对用户输入的query进行主题分析,确定query对应的主题分布,并且利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布。
本步骤中涉及到的主题分析模型是预先建立的,包含各主题所包含的主题词以及各主题词在所属主题的权值。利用该主题分析模型可以确定出query对应的主题分布以及各文档对应的主题分布。其中,主题分析模型的建立过程和内容将在实施例二中进行详细描述。对query和文档进行主题分析的过程将在实施例三中进行详细描述。
步骤102:利用query对应的主题分布与各文档对应的主题分布,计算query与各文档的主题匹配度。
本步骤实际上是利用query和各文档的主题分布来确定query与各文档在主题上的匹配程度,作为后续搜索结果的选择依据。
步骤103:利用主题匹配度得到query与各文档的匹配度,依据匹配度确定query的搜索结果。
在本步骤中除了依据主题匹配度来得到query与各文档的匹配度之外,还可以进一步结合query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种来得到query与各文档的匹配度,该过程将在实施例三中详细描述。
在依据匹配度确定query的搜索结果时,可以将与query的匹配度满足预设匹配度要求的文档包含在搜索结果中,并且可以依据与query的匹配度确定文档在搜索结果中的排序。
实施例二、
在本发明实施例中主题分析模型可以采用描述主题概率模型,可以包括但不限于:概率潜在语义分析(PLSA)模型、潜在狄利克雷分配(LDA)等。
LSA是一种使用数学和统计的方法对文档中的词项进行抽取,推断它们之间语义关系,并建立一个语义索引,而将文档组织成语义空间结构的方法,即将具有较高语义关联的词项映射到同一个主题。PLSA是在LSA的进行潜在语义索引的基础上,在文档和潜在语义、潜在语义和词项之间使用概率模型进行描述,所谓潜在语义就是本发明实施例中所指的主题。
LDA是一种非监督机器学习技术,用来识别大规模文档集或语料库中潜藏的主题信息。它采用词袋的方法,每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。
由于LSA和PLSA均是成熟的已有技术,在此不再具体详述。也就是说,通过PLSA或LDA等描述主题概率的方式可以将各词项映射到对应主题上,从而形成由各词项构成的主题,还可以进一步包括各词项在所属主题上的概率,该概率是基于对词频的统计得到的。
其中,传统的PLSA和LDA中所述词项指代的是词语,但由于很多词语具有多个意义从而可能带来表达歧义,这类歧义很难从主题分析模型中区分出来。另外一方面,由于在训练过程中不同主题之间的合并阈值很难确定,从而导致训练出的主题分析模型中具有相似的主题。鉴于此,本发明实施例中可以采用消歧的方式来表示主题,即上述词项可以包括以下几种形式:
第一种形式:领域词:某个专业领域的词语,在其他领域基本不出现,这类词语具有很强的区分行。例如{应用程序,线程,编译器}等词汇与{电脑,编程}等词汇属于同一领域,通常领域词为一元词。
第二种形式:多义词的二元组合:对于某些可能具有歧义的词语,即多义词,为了消除歧义可以采用与其他一元词进行组合构成二元组合的方式,例如,“苹果”为一个多义词,可以通过将其组合为“苹果#手机”、“苹果#电脑”、“苹果#水果”等进行区别,其中#表示二元组合的关系。
第三种形式:实体词或者实体词组合:实体词的表意能力介于领域词和泛化词之间,通常分属于多个领域,由于实体词区分性可能较低,因此可以采用两个实体词组合的表述方式。
正如前面所介绍,PLSA或LDA等描述主题概率的方式由于词项歧义可能导致主题不收敛、同时也产生类似主题的问题,经分析可以认为文档同现作为语义相关依据是导致噪声引入的原因。为了进一步解决该问题,可以基于统计的方法提取词项的语义相关词,利用词项对应的所有语义相关词作为训练语料中的一个文档,参与主题分析模型的训练,从而能够大大消除噪声和歧义的影响,提高主题分析的准确性。
例如,对于词项“笔记本电脑”基于统计提取相关词包括{笔记本,本本,笔记本电池,双核,无线网卡,thinkpad,处理器,显卡},将这些相关词作为一个文档,通过PLSA或LDA进行训练,从而获得对应的主题。再例如,将“苹果#电脑”基于统计提取相关词包括{苹果,电脑,imac,台式电脑,台式机},将这些相关词作为一个文档,通过PLSA或LDA进行训练,从而获得对应的主题。
通过该实施例最终建立的主题分析模型包括:各主题对应的词项(即主题词)、以及各词项在所属主题中的权值。
例如,主题topic:226,包含的词项以及对应权值为:卸载工具0.00250754|优化大师0.00248382|一键还原精灵0.00233508|office2007 0.00229928|office2003 0.00226238|winrar 0.00220789|优化设置0.00219979|压缩软件0.00211016|***补丁0.00202564|备份工具0.00198587|软件说明0.00196925|虚拟光驱0.00196877|卸载程序0.00196625|影子***0.00193103|window70.00192867|安装包0.00192127|ultraiso 0.00191646|ylmf 0.00189621|安装卸载0.00187417|直接运行0.00187176。
主题topic:1288,包含的词项以及对应权值为:恶意程序0.00274991|恶意代码0.00258505|漏洞攻击0.00252883|漏洞扫描0.00245838|个人防火墙0.00242022|间谍程序0.00234155|***漏洞0.00233898|网页木马0.00231556|恶意网站0.00230633|间谍软件0.0022989|后门木马0.00228247|反间谍软件0.0022427|防病毒软件0.0022283|后门程序0.00220942|金山网镖0.00220005|木马程序0.00219518|木马病毒0.002188|木马防火墙0.00216575|查杀病毒0.00214389|反病毒软件0.00213185。
实施例三、
图2为本发明实施例三提供的基于主题的搜索方法的详细流程图,如图2所示,该流程具体包括以下步骤:
步骤201:对文档库中各文档进行主题词分析,分别得到各文档的主题词集合。
对文档进行主题词分析的过程首先将文档进行分词处理后,可以基于TF或TF-IDF选择出主题词,即选择TF或TF-IDF满足要求的词语作为主题词。这种方式通常情况下表现是不错的,但对于一些用词比较分散的文档,统计的词频没有明显特征,另外对于一些作弊的文档,作弊者堆砌与文本主题无关的词,如果单纯基于词频信息,显然对于主题的反映并不准确。因此,本发明实施例提供了一种优选的实施方式,即将文档进行分词处理后得到的词语首先进行聚类,按照各类别中包含的词语数量以及词语在各类别中的出现次数来提取文档的主题词,构成该文档的主题词集合。
其中对词语进行聚类的方式本发明并不加以限制,在聚类之后提取主题词时,可以从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词,M为正整数。例如,在进行聚类之后,得到若干个类别,有的类别中包含的词语数量较多,有的类别则较少,对于包含的词语数量不满足预设数量要求的类别则抛弃,对于包含的词语数量满足预设数量要求的类别,则可以从中选择出现次数排在前M个的词语作为主题词。
步骤202:将各文档对应的主题词集合输入主题分析模型,得到各文档对应的主题分布。
本步骤实际上是对各文档进行语义分析的过程,将文档对应的主题词集合输入诸如PLSA模型或LDA模型等主题分析模型之后,就能够得到文档的主题分布,即所映射到的主题,以及映射到各主题上的概率。
例如,某文档的主题词集合为{电脑,显示器,宽屏,笔记本},利用已有的主题分析模型进行分析后,得到该文档映射到主题topic1上的概率为0.5,映射到主题topic2上的概率为0.2,映射到主题topic3上的概率为0.1。
另外,在语义分析的过程中,除了计算各文档对应的主题分布之外,还可以分析各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种。
其中,分析文档的需求特征基于预先建立的需求分析模型,该需求分析模型包含:各需求类型包含的需求词以及需求词的权值。需求分析模型的建立方式与主题分析模型类似,只是训练语料基于需求词,在此不再详述。
例如建立的需求分析模型中视频需求包含的需求词及权值包括:在线视频0.00385583|观看0.00316739|开灯0.00312384|全集0.00302876|新窗口0.00299306|私信0.0028422|土豆网0.00276037|在线观看0.0027364|信息订阅0.00267162|剧情0.00265838|向后0.00257173|合集0.00252181。
桌面类需求包含的需求词及权值包括:壁纸图片0.00224348|屏保下载0.00201372|卡通壁纸0.00195555|卡通桌面0.00189441|壁纸下载0.00179601|桌面下载0.0017233|桌面壁纸0.00172064|动漫壁纸0.00170366|壁纸桌面0.00167871|壁纸屏保0.00159849|美女壁纸0.00159034|壁纸专辑0.00158929。
提取出文档中的需求词,该需求词的提取可以基于词典或模板进行提取,需求词的提取可以采用已有技术,在此不再赘述。得到各文档对应的需求词集合后,将各文档对应的需求词集合输入需求分析模型,得到各文档的需求分布,即各文档映射到的需求类型以及映射到各需求类型上的概率。
分析文档的时间属性特征和地域属性特征基于文档的静态属性,例如文档的发布时间、文档的产生地域等,也可以基于文档的内容,例如提取文档中的时间信息或地域信息等。
分析文档的实体属性特征基于文档的内容,即分析文档的内容,从中提取“实体-实体属性-属性值”的结构信息,例如,从文档中提取如表1所示的结构信息。该结构信息的提取可以基于模板进行,该部分可以采用现有技术,在此不再赘述。
表1
  实体词   实体词属性   属性值
  百度   地址   北京市海淀区上地十街10号
  百度公司   电话   59928888
分析文档的语义依存关系特征是利用预设的依存关系模板对文档中的语义块进行匹配,从而确定具有语义依存关系的语义块以及对应的语义依存关系,其中语义块可以采用词语的二元组合的方式表示。语义依存关系的类型可以包括但不限于:限定关系、施受关系等。限定关系指的是一个词语对另一个词语进行限定的关系,例如“姚明身高”、“超级兔子用法”等。施受关系指的是其中一个词语是施事者、另一个词语是受事者,两者顺序不可颠倒,例如“李娜战胜萨拉波娃”中“李娜萨拉波娃”是施受关系,“欧元兑换美元”中“欧元美元”是施受关系。
上述的依存关系模板可以是基于搜索日志进行挖掘后得到的,也可以是人工定义的。例如,限定关系的模板可以包括:【篮球明星】身高、【软件】用法等。施受关系的模板可以包括:【名词】动词【名词】等。
另外,需要说明的是,上述步骤201和步骤202可以是线下执行的步骤。
步骤203:对用户输入的query进行主题词分析,得到query对应的主题词集合。
在本步骤中可以基于IDF从query的分词结果中选取IDF满足预设要求的词语作为主题词,例如选取IDF排在前N1个的词语,N1为预设的正整数,或者选取IDF超过预设IDF阈值的词语。
可以直接将确定出的主题词构成主题词集合,优选地,可以进一步对确定出的主题词进行相关词扩展,将扩展得到的相关词和确定出的主题词共同构成主题词集合。进行相关词扩展时可以基于已有的相关词词典,该相关词词典的挖掘原则可以是:如果两个词在语料中所处的上下文环境一样,则这两个词在语义上相关,互为相关词。
步骤204:将query对应的主题词集合输入主题分析模型,得到query对应的主题分布。
同样,本步骤实际上是对query进行语义分析的过程,将query对应的主题词集合输入诸如PLSA模型或LDA模型等主题分析模型之后,就能够得到query的主题分布,即query所映射到的主题,以及映射到各主题上的概率。
例如,用户输入的query为“超级兔子”,对于“超级兔子”进行主题分析的结果:映射在Topic:226上的概率为0.851297,映射在Topic:1288上的概率为0.120394。其中,Topic:226和Topic:1288在主题分析模型中可以如实施例二中所示。
另外,在语义分析的过程中,除了计算query对应的主题分布之外,还可以分析query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种。
分析query的需求特征基于预先建立的需求分析模型,首先提取query中的需求词,该需求词的提取可以基于词典或模板进行提取,需求词的提取可以采用已有技术,在此不再赘述。然后将query的需求词输入需求分析模型,得到query的需求分布,即query映射到的需求类型以及映射到各需求类型上的概率。
分析query的时间属性特征主要基于query的内容,从query中提取与时间相关的词语,作为时间属性特征。例如用户输入query“2008年发生了什么大事件”,其中“2008年”为该query的时间属性特征。
分析query的地域属性特征可以基于输入该query的用户属性,例如根据用户IP对应的地理位置作为地域属性特征,例如输入该query的用户为北京的用户,则可以将“北京”作为query的地域属性特征。也可以基于query的内容,从query中提取与地域相关的词语,作为地域属性特征,例如用户输入query“北京五星级宾馆有哪些”,提取出“北京”作为该query的地域属性特征。
分析query的实体属性特征基于query的内容,即从query中提取“实体-实体属性”的结构信息,该结构信息的提取可以基于模板进行,同样可以采用现有技术。例如用户输入“姚明身高多少”提取出的实体属性特征为“姚明-身高”。提取出该实体属性特征的目的是为了后续在与文档进行匹配时,如果有文档正好具有同样的实体属性特征,则说明该文档能够直接返回属性值,因此可以提高该文档与query的匹配度。
分析query的语义依存关系特征利用预设的依存关系模板对query中的语义块进行匹配,从而确定具有语义依存关系的语义块以及对应的语义依存关系。其中语义块可以采用词语的二元组合的方式表示。语义依存关系的类型可以包括但不限于:限定关系、施受关系等。例如用户输入query“姚明的身高是多少”,分析出“姚明身高”为限定关系;用户输入query  “李娜战胜萨拉波娃”,分析出“李娜萨拉波娃”为施受关系。
步骤205:利用query对应的主题分布与各文档对应的主题分布,计算query与各文档的主题匹配度。
由于主题分布实际上是包含映射到的主题以及在所映射到主题的概率的向量,因此可以通过计算向量之间的余弦相似度的方式计算query与各文档的主题匹配度,也可以通过计算query对应的主题分布与文档对应的主题分布之间的相对熵距离(KL,Kullback-Leibler Divergence)的方式计算query与各文档的主题匹配度。
步骤206:计算query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种,并结合主题匹配度计算query与各文档之间的匹配度。
其中query与文档之间的需求匹配度可以通过计算query对应的需求特征与文档对应的需求特征之间的相似度得到,其中相似度计算的方式可以采用余弦相似度或KL距离等。
query与文档之间的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度可以依据query与文档的时间属性、地域属性、实体属性和语义依存关系是否一致来确定,例如,如果一致,确定其匹配度为1,如果不匹配,则确定其匹配度为0.8。
在计算query与文档的匹配度Score(q,d)时,可以按照公式(1)进行:
Score(q,d)=Sem(q,d)[λ1 Score1+λ2 Score2]       (1)
其中,Score1为query与文档的主题匹配度,Score2为query与文档的需求匹配度,Sem(q,d)表示query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况,λ1和λ2为预设的权值参数,λ1和λ2之和可以为1,如果需求匹配度不参与匹配度的计算,则可以设置λ2为0。Sem(q,d)可以采用时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的乘积,也可以采用整体设置的方式,例如如果时间属性、地域属性、实体属性和语义依存关系均匹配,则Sem(q,d)取1,只要存在一个不匹配,则Sem(q,d)取0.8。此时匹配度计算的示意图如图4所示。
步骤207:依据各文档与query的匹配度,确定query的搜索结果。
本步骤中可以将与query的匹配度满足预设匹配度要求的文档包含在搜索结果中,并且可以依据与query的匹配度确定文档在搜索结果中的排序。
以上是对本发明所提供的方法进行的详细描述,下面结合实施例四对本发明所提供的装置进行详细描述。
实施例四、
图3为本发明实施例四提供的搜索装置结构图,如图3所示,该装置可以包括:第一主题分析单元300、第二主题分析单元310、主题匹配度计算单元320和搜索结果确定单元330。
第一主题分析单元300,用于利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布。
该第一主题分析单元300可以具体包括:第一主题词确定子单元301和第一分布确定子单元302。
第一主题词确定子单元301,用于对文档库中各文档进行分词处理,从分词结果中选择满足统计要求的词语作为主题词,分别得到各文档的主题词集合。
其中可以在分词结果中基于TF或TF-IDF选择出主题词,即选择TF或TF-IDF满足要求的词语作为主题词。但对于一些用词比较分散的文档,统计的词频没有明显特征,另外对于一些作弊的文档,作弊者堆砌与文本主题无关的词,如果单纯基于词频信息,显然对于主题的反映并不准确。因此,在从分词结果中选择满足统计要求的词语作为主题词时,可以对分词结果进行聚类,从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词,M为正整数。
第一分布确定子单元302,用于将各文档对应的主题词集合输入主题分析模型,得到各文档所映射到的主题以及映射到各主题上的概率。
第二主题分析单元310,用于利用主题分析模型对用户输入的query进行主题分析,确定query对应的主题分布。
其中第二主题分析单元310可以具体包括:第二主题词确定子单元311和第二分布确定子单元312。
第二主题词确定子单元311,用于对用户输入的query进行分词处理,从分词结果中选择满足IDF统计要求的词语作为主题词,利用选择出的主题词构成query对应的主题词集合,或者进一步对选择出的主题词进行相关词扩展,利用选择出的主题词和扩展得到的相关词构成query对应的主题词集合。
在进行相关词扩展时,可以基于已有的相关词词典,该相关词词典的挖掘原则可以是:如果两个词在语料中所处的上下文环境一样,则这两个词在语义上相关,互为相关词。
第二分布确定子单元312,用于将query对应的主题词集合输入主题词分析模型,得到query映射到的主题以及映射到各主题上的概率。
主题匹配度计算单元320,用于利用query对应的主题分布与各文档对应的主题分布,计算query与各文档的主题匹配度。具体可以通过计算query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离,得到query与各文档的主题匹配度。
搜索结果确定单元330,用于利用主题匹配度得到query与各文档的匹配度,依据query与各文档的匹配度确定query的搜索结果。
本发明实施例中涉及的上述主题分析模型包含:各主题对应的主题词以及各主题词在所属主题的权值。采用的形式可以包括但不限于PLSA模型或LDA模型。模型中采用的主题词包括以下至少一种:领域词、多义词的二元组合、实体词或者实体词的组合。
为了得到上述主题分析模型,该装置还可以包括:主题模型训练单元340,用于训练主题分析模型,训练过程的描述可以参见上述实施例二。优选地,为了防止PLSA或LDA等描述主题概率的方式由于词项歧义可能导致主题不收敛、同时产生类似主题的问题,在训练过程中,在从文档中提取主题词时,进一步基于统计的方式提取主题词的语义相关词,将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练,从而能够大大消除噪声和歧义的影响,提高主题分析的准确性。
除了基于主题特性计算匹配度之外,还可以结合其他附加特征,鉴于此,该装置还可以包括:第一附加特征确定单元350、第二附加特征确定单元360和附加匹配度计算单元370。
第一附加特征确定单元350,用于确定各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种。
其中,分析文档的需求特征基于预先建立的需求分析模型,该需求分析模型包含:各需求类型包含的需求词以及需求词的权值。需求分析模型的建立方式与主题分析模型类似,只是训练语料基于需求词,在此不再详述。提取出文档中的需求词,该需求词的提取可以基于词典或模板进行提取,得到各文档对应的需求词集合后,将各文档对应的需求词集合输入需求分析模型,得到各文档的需求分布,即各文档映射到的需求类型以及映射到各需求类型上的概率。
分析文档的时间属性特征和地域属性特征基于文档的静态属性,例如文档的发布时间、文档的产生地域等,也可以基于文档的内容,例如提取文档中的时间信息或地域信息等。
分析文档的实体属性特征基于文档的内容,即分析文档的内容,从中提取“实体-实体属性-属性值”的结构信息。该结构信息的提取可以基于模板进行,该部分可以采用现有技术,在此不再赘述。
分析文档的语义依存关系特征是利用预设的依存关系模板对文档中的语义块进行匹配,从而确定具有语义依存关系的语义块以及对应的语义依存关系,其中语义块可以采用词语的二元组合的方式表示。语义依存关系的类型可以包括但不限于:限定关系、施受关系等。限定关系指的是一个词语对另一个词语进行限定的关系,例如“姚明身高”、“超级兔子用法”等。施受关系指的是其中一个词语是施事者、另一个词语是受事者,两者顺序不可颠倒,例如“李娜战胜萨拉波娃”中“李娜萨拉波娃”是施受关系,“欧元兑换美元”中“欧元美元”是施受关系。
上述的依存关系模板可以是基于搜索日志进行挖掘后得到的,也可以是人工定义的。例如,限定关系的模板可以包括:【篮球明星】身高、【软件】用法等。施受关系的模板可以包括:【名词】动词【名词】等。
第二附加特征确定单元360,用于确定query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种。
同样,分析query的需求特征基于预先建立的需求分析模型,首先提取query中的需求词,该需求词的提取可以基于词典或模板进行提取,需求词的提取可以采用已有技术,在此不再赘述。然后将query的需求词输入需求分析模型,得到query的需求分布,即query映射到的需求类型以及映射到各需求类型上的概率。
分析query的时间属性特征主要基于query的内容,从query中提取与时间相关的词语,作为时间属性特征。例如用户输入query“2008年发生了什么大事件”,其中“2008年”为该query的时间属性特征。
分析query的地域属性特征可以基于输入该query的用户属性,例如根据用户IP对应的地理位置作为地域属性特征,例如输入该query的用户为北京的用户,则可以将“北京”作为query的地域属性特征。也可以基于query的内容,从query中提取与地域相关的词语,作为地域属性特征,例如用户输入query“北京五星级宾馆有哪些”,提取出“北京”作为该query的地域属性特征。
分析query的实体属性特征基于query的内容,即从query中提取“实体-实体属性”的结构信息,该结构信息的提取可以基于模板进行,同样可以采用现有技术。例如用户输入“姚明身高多少”提取出的实体属性特征为“姚明-身高”。提取出该实体属性特征的目的是为了后续在与文档进行匹配时,如果有文档正好具有同样的实体属性特征,则说明该文档能够直接返回属性值,因此可以提高该文档与query的匹配度。
分析query的语义依存关系特征利用预设的依存关系模板对query中的语义块进行匹配,从而确定具有语义依存关系的语义块以及对应的语义依存关系。其中语义块可以采用词语的二元组合的方式表示。语义依存关系的类型可以包括但不限于:限定关系、施受关系等。
附加匹配度计算单元370,用于进行以下匹配度计算中的至少一种:通过计算query的需求特征与各文档的需求特征计算query与各文档之间的需求匹配度,通过计算query的时间属性特征与各文档的时间属性特征计算query与各文档之间的时间属性匹配度,通过计算query的地域属性特征与各文档的地域属性特征计算query与各文档之间的地域属性匹配度,通过计算query的实体属性特征与各文档的实体属性特征计算query与各文档之间的实体属性匹配度,或者,通过计算query的语义依存关系特征与各文档的语义依存关系特征计算query与各文档之间的语义依存关系匹配度。
此时,搜索结果确定单元330进一步结合query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种,得到query与各文档的匹配度,此时匹配度计算的示意图如图4所示。
具体地,搜索结果确定单元330可以按照如下公式得到query与各文档的匹配度Score(q,d):
Score(q,d)=Sem(q,d)[λ1 Score1+λ2 Score2]
其中Score1为query与文档的主题匹配度,Score2为query与文档的需求匹配度,Sem(q,d)表示query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况,λ1和λ2为预设的权值参数。λ1和λ2之和可以为1,如果需求匹配度不参与匹配度的计算,则可以设置λ2为0。Sem(q,d)可以采用时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的乘积,也可以采用整体设置的方式,例如如果时间属性、地域属性、实体属性和语义依存关系均匹配,则Sem(q,d)取1,只要存在一个不匹配,则Sem(q,d)取0.8。
搜索结果确定单元330在确定搜索结果时,具体将与query的匹配度满足预设匹配度要求的文档包含在搜索结果中,并且依据与query的匹配度确定各文档在搜索结果中的排序。
本发明实施例提供的上述装置中,第一主题分析单元300、第一附加特征确定单元350和主题模型训练单元340可以是线下执行操作,其他单元可以是针对用户输入的query实时执行操作。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (24)

1.一种基于主题的搜索方法,其特征在于,利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布,该方法还包括:
S1、利用主题分析模型对用户输入的query进行主题分析,确定所述query对应的主题分布;
S2、利用所述query对应的主题分布与各文档对应的主题分布,计算所述query与各文档的主题匹配度;
S3、利用主题匹配度得到所述query与各文档的匹配度,依据所述query与各文档的匹配度确定所述query的搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述主题分析模型包含:各主题对应的主题词以及各主题词在所属主题的权值。
3.根据权利要求2所述的方法,其特征在于,所述主题分析模型为概率潜在语义分析PLSA模型或潜在狄利克雷分配LDA模型。
4.根据权利要求3所述的方法,其特征在于,所述主题词包括以下至少一种:领域词、多义词的二元组合、实体词或者实体词的组合。
5.根据权利要求3所述的方法,其特征在于,在所述主题分析模型的训练过程中,在从文档中提取主题词时,进一步基于统计的方式提取主题词的语义相关词,将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。
6.根据权利要求2所述的方法,其特征在于,所述利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布具体包括:
A1、对文档库中各文档进行分词处理,从分词结果中选择满足统计要求的词语作为主题词,分别得到各文档的主题词集合;
A2、将各文档对应的主题词集合输入所述主题分析模型,得到各文档所映射到的主题以及映射到各主题上的概率。
7.根据权利要求6所述的方法,其特征在于,所述从分词结果中选择满足统计要求的词语作为主题词包括:
对所述分词结果进行聚类,从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词,所述M为正整数。
8.根据权利要求2所述的方法,其特征在于,所述步骤S1具体包括:
S11、对用户输入的query进行分词处理,从分词结果中选择满足逆文档频率IDF统计要求的词语作为主题词,利用选择出的主题词构成所述query对应的主题词集合,或者进一步对选择出的主题词进行相关词扩展,利用选择出的主题词和扩展得到的相关词构成所述query对应的主题词集合;
S12、将所述query对应的主题词集合输入所述主题词分析模型,得到所述query映射到的主题以及映射到各主题上的概率。
9.根据权利要求1至8任一权项所述的方法,其特征在于,计算所述query与各文档的主题匹配度包括:
通过计算所述query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离,得到所述query与各文档的主题匹配度。
10.根据权利要求1所述的方法,其特征在于,该方法还包括:确定所述各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种;
在所述步骤S1中进一步包括:确定所述query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种;
在所述步骤S2中进一步包括以下匹配度计算中的至少一种:通过计算所述query的需求特征与各文档的需求特征计算所述query与各文档之间的需求匹配度,通过计算所述query的时间属性特征与各文档的时间属性特征计算所述query与各文档之间的时间属性匹配度,通过计算所述query的地域属性特征与各文档的地域属性特征计算所述query与各文档之间的地域属性匹配度,通过计算所述query的实体属性特征与各文档的实体属性特征计算所述query与各文档之间的实体属性匹配度,或者,通过计算所述query的语义依存关系特征与各文档的语义依存关系特征计算所述query与各文档之间的语义依存关系匹配度;
在所述步骤S3中进一步结合所述query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种,得到所述query与各文档的匹配度。
11.根据权利要求10所述的方法,其特征在于,按照如下公式得到所述query与各文档的匹配度Score(q,d):
Score(q,d)=Sem(q,d)[λ1 Score1+λ2 Score2]
其中Score1为所述query与文档的主题匹配度,Score2为所述query与文档的需求匹配度,Sem(q,d)表示所述query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况,λ1和λ2为预设的权值参数。
12.根据权利要求1所述的方法,其特征在于,所述步骤S3中依据所述query与各文档的匹配度确定所述query的搜索结果包括:
将与所述query的匹配度满足预设匹配度要求的文档包含在所述搜索结果中,并且依据与所述query的匹配度确定各文档在搜索结果中的排序。
13.一种基于主题的搜索装置,其特征在于,该装置包括:
第一主题分析单元,用于利用主题分析模型对文档库中各文档进行主题分析,确定各文档对应的主题分布;
第二主题分析单元,用于利用主题分析模型对用户输入的query进行主题分析,确定所述query对应的主题分布;
主题匹配度计算单元,用于利用所述query对应的主题分布与各文档对应的主题分布,计算所述query与各文档的主题匹配度;
搜索结果确定单元,用于利用主题匹配度得到所述query与各文档的匹配度,依据所述query与各文档的匹配度确定所述query的搜索结果。
14.根据权利要求13所述的装置,其特征在于,所述主题分析模型包含:各主题对应的主题词以及各主题词在所属主题的权值。
15.根据权利要求14所述的装置,其特征在于,所述主题分析模型为概率潜在语义分析PLSA模型或潜在狄利克雷分配LDA模型。
16.根据权利要求15所述的装置,其特征在于,所述主题词包括以下至少一种:领域词、多义词的二元组合、实体词或者实体词的组合。
17.根据权利要求15所述的装置,其特征在于,该装置还包括:主题模型训练单元,用于训练所述主题分析模型,且在训练过程中,在从文档中提取主题词时,进一步基于统计的方式提取主题词的语义相关词,将各主题词的语义相关词分别作为训练语料中的一个文档以参与主题分析模型的训练。
18.根据权利要求14所述的装置,其特征在于,所述第一主题分析单元具体包括:
第一主题词确定子单元,用于对文档库中各文档进行分词处理,从分词结果中选择满足统计要求的词语作为主题词,分别得到各文档的主题词集合;
第一分布确定子单元,用于将各文档对应的主题词集合输入所述主题分析模型,得到各文档所映射到的主题以及映射到各主题上的概率。
19.根据权利要求18所述的装置,其特征在于,所述第一主题词确定子单元在从分词结果中选择满足统计要求的词语作为主题词时,对所述分词结果进行聚类,从包含的词语数量满足预设数量要求的类别中选择出现次数排在前M个的词语作为主题词,所述M为正整数。
20.根据权利要求14所述的装置,其特征在于,所述第二主题分析单元具体包括:
第二主题词确定子单元,用于对用户输入的query进行分词处理,从分词结果中选择满足逆文档频率IDF统计要求的词语作为主题词,利用选择出的主题词构成所述query对应的主题词集合,或者进一步对选择出的主题词进行相关词扩展,利用选择出的主题词和扩展得到的相关词构成所述query对应的主题词集合;
第二分布确定子单元,用于将所述query对应的主题词集合输入所述主题词分析模型,得到所述query映射到的主题以及映射到各主题上的概率。
21.根据权利要求13至20任一权项所述的装置,其特征在于,所述主题匹配度计算单元通过计算所述query对应的主题分布与各文档对应的主题分布之间余弦相似度或者相对熵KL距离,得到所述query与各文档的主题匹配度。
22.根据权利要求13所述的装置,其特征在于,该装置还包括:
第一附加特征确定单元,用于确定所述各文档的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种;
第二附加特征确定单元,用于确定所述query的需求特征、时间属性特征、地域属性特征、实体属性特征和语义依存关系特征中的至少一种;
附加匹配度计算单元,用于进行以下匹配度计算中的至少一种:通过计算所述query的需求特征与各文档的需求特征计算所述query与各文档之间的需求匹配度,通过计算所述query的时间属性特征与各文档的时间属性特征计算所述query与各文档之间的时间属性匹配度,通过计算所述query的地域属性特征与各文档的地域属性特征计算所述query与各文档之间的地域属性匹配度,通过计算所述query的实体属性特征与各文档的实体属性特征计算所述query与各文档之间的实体属性匹配度,或者,通过计算所述query的语义依存关系特征与各文档的语义依存关系特征计算所述query与各文档之间的语义依存关系匹配度;
所述搜索结果确定单元进一步结合所述query与各文档之间的需求匹配度、时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中的至少一种,得到所述query与各文档的匹配度。
23.根据权利要求22所述的装置,其特征在于,所述搜索结果确定单元按照如下公式得到所述query与各文档的匹配度Score(q,d):
Score(q,d)=Sem(q,d)[λ1 Score1+λ2 Score2]
其中Score1为所述query与文档的主题匹配度,Score2为所述query与文档的需求匹配度,Sem(q,d)表示所述query与文档的时间属性匹配度、地域属性匹配度、实体属性匹配度和语义依存关系匹配度中至少一种的状况,λ1和λ2为预设的权值参数。
24.根据权利要求13所述的装置,其特征在于,所述搜索结果确定单元具体将与所述query的匹配度满足预设匹配度要求的文档包含在所述搜索结果中,并且依据与所述query的匹配度确定各文档在搜索结果中的排序。
CN2012101668529A 2012-05-25 2012-05-25 一种基于主题的搜索方法和装置 Pending CN103425710A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012101668529A CN103425710A (zh) 2012-05-25 2012-05-25 一种基于主题的搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012101668529A CN103425710A (zh) 2012-05-25 2012-05-25 一种基于主题的搜索方法和装置

Publications (1)

Publication Number Publication Date
CN103425710A true CN103425710A (zh) 2013-12-04

Family

ID=49650465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012101668529A Pending CN103425710A (zh) 2012-05-25 2012-05-25 一种基于主题的搜索方法和装置

Country Status (1)

Country Link
CN (1) CN103425710A (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870563A (zh) * 2014-03-07 2014-06-18 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置
WO2014177104A1 (zh) * 2013-12-27 2014-11-06 中兴通讯股份有限公司 搜索处理方法、装置及终端
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105354182A (zh) * 2015-09-28 2016-02-24 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105447005A (zh) * 2014-08-08 2016-03-30 百度在线网络技术(北京)有限公司 一种对象推送方法及装置
CN105589972A (zh) * 2016-01-08 2016-05-18 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN105930400A (zh) * 2016-04-15 2016-09-07 南京大学 一种基于马尔科夫决策过程模型的会话搜索方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN106951420A (zh) * 2016-01-06 2017-07-14 富士通株式会社 文献搜索方法及设备、作者搜索方法及设备
CN107103049A (zh) * 2017-03-31 2017-08-29 努比亚技术有限公司 一种推荐方法及网络设备
CN107133210A (zh) * 2017-04-20 2017-09-05 中国科学院上海高等研究院 方案文本生成方法及***
CN107239438A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 一种文档分析方法及装置
CN108040052A (zh) * 2017-12-13 2018-05-15 北京明朝万达科技股份有限公司 一种基于Netflow日志数据的网络安全威胁分析方法及***
CN108268443A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 确定话题点转移以及获取回复文本的方法、装置
CN108345605A (zh) * 2017-01-24 2018-07-31 苏宁云商集团股份有限公司 一种文本搜索方法及装置
CN109145267A (zh) * 2018-08-20 2019-01-04 六度云计算有限公司 基于主题模型的法律判决案例匹配方法和装置
CN109344252A (zh) * 2018-09-12 2019-02-15 东北大学 基于优质主题扩展的微博文本分类方法及***
CN110020153A (zh) * 2017-11-30 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN110287289A (zh) * 2019-06-25 2019-09-27 北京金海群英网络信息技术有限公司 一种文档关键词提取及基于文档匹配商品的方法
CN110472233A (zh) * 2019-07-16 2019-11-19 清华大学 基于知识库内头尾实体分布的关系相似度度量方法及***
CN110659655A (zh) * 2018-06-28 2020-01-07 北京三快在线科技有限公司 一种指标归类方法及装置和计算机可读存储介质
CN110703968A (zh) * 2018-07-09 2020-01-17 北京搜狗科技发展有限公司 一种搜索方法及相关装置
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN111666371A (zh) * 2020-04-21 2020-09-15 北京三快在线科技有限公司 基于主题的匹配度确定方法、装置、电子设备及存储介质
CN112100480A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 搜索方法、装置、设备及存储介质
CN112685440A (zh) * 2020-12-31 2021-04-20 王程 标记搜索语义角色的结构化查询信息表达方法
CN113343104A (zh) * 2021-06-29 2021-09-03 深圳前海微众银行股份有限公司 信息推荐方法、装置、设备及计算机存储介质
CN115809312A (zh) * 2023-02-02 2023-03-17 量子数科科技有限公司 一种基于多路召回的搜索召回方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1211769A (zh) * 1997-06-26 1999-03-24 香港中文大学 基于贝叶斯网络的用于文件检索的方法和设备
US20060248074A1 (en) * 2005-04-28 2006-11-02 International Business Machines Corporation Term-statistics modification for category-based search
CN101840438A (zh) * 2010-05-25 2010-09-22 刘宏 面向源文献元关键词的检索***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1211769A (zh) * 1997-06-26 1999-03-24 香港中文大学 基于贝叶斯网络的用于文件检索的方法和设备
US20060248074A1 (en) * 2005-04-28 2006-11-02 International Business Machines Corporation Term-statistics modification for category-based search
CN101840438A (zh) * 2010-05-25 2010-09-22 刘宏 面向源文献元关键词的检索***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾西平等: "基于主题的文档检索模型", 《华南理工大学学报(自然科学版)》 *

Cited By (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014177104A1 (zh) * 2013-12-27 2014-11-06 中兴通讯股份有限公司 搜索处理方法、装置及终端
CN103870563A (zh) * 2014-03-07 2014-06-18 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置
CN103870563B (zh) * 2014-03-07 2017-03-29 北京奇虎科技有限公司 确定给定文本的主题分布的方法和装置
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN104933022B (zh) * 2014-03-20 2018-11-13 株式会社东芝 信息处理装置和信息处理方法
CN105447005A (zh) * 2014-08-08 2016-03-30 百度在线网络技术(北京)有限公司 一种对象推送方法及装置
CN105447005B (zh) * 2014-08-08 2020-03-17 北京小度互娱科技有限公司 一种对象推送方法及装置
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN105354182A (zh) * 2015-09-28 2016-02-24 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105354182B (zh) * 2015-09-28 2018-06-26 北大方正集团有限公司 获取相关数字资源的方法及使用其生成专题的方法及装置
CN105224521B (zh) * 2015-09-28 2018-05-25 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN106951420A (zh) * 2016-01-06 2017-07-14 富士通株式会社 文献搜索方法及设备、作者搜索方法及设备
CN105589972B (zh) * 2016-01-08 2019-03-15 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN105589972A (zh) * 2016-01-08 2016-05-18 天津车之家科技有限公司 训练分类模型的方法及装置、对搜索词分类的方法及装置
CN107239438A (zh) * 2016-03-28 2017-10-10 阿里巴巴集团控股有限公司 一种文档分析方法及装置
CN105930400B (zh) * 2016-04-15 2019-10-11 南京大学 一种基于马尔科夫决策过程模型的会话搜索方法
CN105930400A (zh) * 2016-04-15 2016-09-07 南京大学 一种基于马尔科夫决策过程模型的会话搜索方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106055538B (zh) * 2016-05-26 2019-03-08 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN106709040B (zh) * 2016-12-29 2021-02-19 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN106649818B (zh) * 2016-12-29 2020-05-15 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN108345605B (zh) * 2017-01-24 2022-04-05 苏宁易购集团股份有限公司 一种文本搜索方法及装置
CN108345605A (zh) * 2017-01-24 2018-07-31 苏宁云商集团股份有限公司 一种文本搜索方法及装置
CN107103049A (zh) * 2017-03-31 2017-08-29 努比亚技术有限公司 一种推荐方法及网络设备
CN107133210A (zh) * 2017-04-20 2017-09-05 中国科学院上海高等研究院 方案文本生成方法及***
CN110020153A (zh) * 2017-11-30 2019-07-16 北京搜狗科技发展有限公司 一种搜索方法及装置
CN108040052A (zh) * 2017-12-13 2018-05-15 北京明朝万达科技股份有限公司 一种基于Netflow日志数据的网络安全威胁分析方法及***
CN108268443A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 确定话题点转移以及获取回复文本的方法、装置
CN108268443B (zh) * 2017-12-21 2022-02-25 北京百度网讯科技有限公司 确定话题点转移以及获取回复文本的方法、装置
CN110659655A (zh) * 2018-06-28 2020-01-07 北京三快在线科技有限公司 一种指标归类方法及装置和计算机可读存储介质
CN110659655B (zh) * 2018-06-28 2021-03-02 北京三快在线科技有限公司 一种指标归类方法及装置和计算机可读存储介质
CN110737750A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 分析文本受众的数据处理方法、装置与电子设备
CN110703968A (zh) * 2018-07-09 2020-01-17 北京搜狗科技发展有限公司 一种搜索方法及相关装置
CN109145267A (zh) * 2018-08-20 2019-01-04 六度云计算有限公司 基于主题模型的法律判决案例匹配方法和装置
CN109344252A (zh) * 2018-09-12 2019-02-15 东北大学 基于优质主题扩展的微博文本分类方法及***
CN110287289A (zh) * 2019-06-25 2019-09-27 北京金海群英网络信息技术有限公司 一种文档关键词提取及基于文档匹配商品的方法
CN110472233B (zh) * 2019-07-16 2021-02-12 清华大学 基于知识库内头尾实体分布的关系相似度度量方法及***
CN110472233A (zh) * 2019-07-16 2019-11-19 清华大学 基于知识库内头尾实体分布的关系相似度度量方法及***
CN111666371A (zh) * 2020-04-21 2020-09-15 北京三快在线科技有限公司 基于主题的匹配度确定方法、装置、电子设备及存储介质
CN112100480A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 搜索方法、装置、设备及存储介质
CN112685440B (zh) * 2020-12-31 2022-03-22 上海欣兆阳信息科技有限公司 标记搜索语义角色的结构化查询信息表达方法
CN112685440A (zh) * 2020-12-31 2021-04-20 王程 标记搜索语义角色的结构化查询信息表达方法
CN113343104A (zh) * 2021-06-29 2021-09-03 深圳前海微众银行股份有限公司 信息推荐方法、装置、设备及计算机存储介质
CN115809312A (zh) * 2023-02-02 2023-03-17 量子数科科技有限公司 一种基于多路召回的搜索召回方法
CN115809312B (zh) * 2023-02-02 2023-04-07 量子数科科技有限公司 一种基于多路召回的搜索召回方法

Similar Documents

Publication Publication Date Title
CN103425710A (zh) 一种基于主题的搜索方法和装置
US11361243B2 (en) Recommending machine learning techniques, features, and feature relevance scores
US11182445B2 (en) Method, apparatus, server, and storage medium for recalling for search
US11507975B2 (en) Information processing method and apparatus
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
Bhatia et al. Automatic labelling of topics with neural embeddings
Flati et al. Two is bigger (and better) than one: the wikipedia bitaxonomy project
US9997157B2 (en) Knowledge source personalization to improve language models
Hai et al. Identifying features in opinion mining via intrinsic and extrinsic domain relevance
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
Baralis et al. Mwi-sum: A multilingual summarizer based on frequent weighted itemsets
CN108920649B (zh) 一种信息推荐方法、装置、设备和介质
US20130018894A1 (en) System and method of sentiment data generation
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US9805120B2 (en) Query selection and results merging
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN110309446A (zh) 文本内容快速去重方法、装置、计算机设备及存储介质
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN103699625A (zh) 基于关键词进行检索的方法及装置
JP4969554B2 (ja) トピックグラフを利用したドキュメント検索サーバ及び方法
Jin et al. Topic initiator detection on the world wide web
US20130018874A1 (en) System and method of sentiment data use
Shen et al. A graph-based approach for ontology population with named entities
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20131204

RJ01 Rejection of invention patent application after publication