CN103886034A - 一种建立索引及匹配用户的查询输入信息的方法和设备 - Google Patents

一种建立索引及匹配用户的查询输入信息的方法和设备 Download PDF

Info

Publication number
CN103886034A
CN103886034A CN201410079818.7A CN201410079818A CN103886034A CN 103886034 A CN103886034 A CN 103886034A CN 201410079818 A CN201410079818 A CN 201410079818A CN 103886034 A CN103886034 A CN 103886034A
Authority
CN
China
Prior art keywords
word
label
candidate
index
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410079818.7A
Other languages
English (en)
Other versions
CN103886034B (zh
Inventor
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410079818.7A priority Critical patent/CN103886034B/zh
Publication of CN103886034A publication Critical patent/CN103886034A/zh
Application granted granted Critical
Publication of CN103886034B publication Critical patent/CN103886034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是提供一种用于建立索引及匹配用户的查询输入信息的方法与装置;根据文本信息,确定结构化信息并提取主题词;根据主题词对应的主题,确定与之对应的标签词;为该主题词与标签词建立索引。进一步地,对用户输入的查询输入信息分析获得主题词与标签词,并据此在前述建立的索引中进行匹配查询,获得候选文本信息;根据候选文本信息与查询输入信息的语义匹配度,确定与该查询输入信息相匹配的目标文本信息。与现有技术相比,本发明基于百科类或其他网络资源知识,进行主题、标题的提取,形成对资源知识内容的有效描述,使得对这类资源知识的语义搜索更加高效,满足用户无法准确使用关键词表达的复杂描述搜索需求,提升了用户的使用体验。

Description

一种建立索引及匹配用户的查询输入信息的方法和设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于建立索引及匹配用户的查询输入信息的技术。
背景技术
人们在使用搜索引擎的过程中,往往不知道输入什么样的关键词来表达自己的想法,其可能输入一堆描述性的词句,例如:1)早上起来呕吐、平时心慌气短、四肢无力,是什么病症状?2)表达对爱人的怀恋的歌曲简介?3)包含“说什么忘却富贵”歌曲4)吃着火锅唱着歌是在哪部电影中,谁说的?4)形容勤奋学习的诗句5)做人难,做女人难是谁说的,完整的说法是什么?还有一些用户可能输入一些句式复杂的表达内容,例如对于一些人物类别,用户可能问“安徽出来的皇帝和国家***有哪些?”、“本届政府山西的***介绍”等等。在这种情况下搜索引擎很难搜索到合适结果。
从原因上分析,这是由于现在通用的搜索引擎主要是对标题(title)建立索引。虽然这些搜索引擎通常也对内容建立索引,但是由于调权等因素,导致一些优质知识描述部分很难很好的展示。例如,对于一些资源类如歌曲、电影等信息,现有的搜索引擎通常只是对歌曲名和电影名建立索引,这种情况下,当用户记不住歌名或者电影名,而是仅仅记住其中歌词、台词简介或者小部分描述时,现有的搜索引擎就无法进行有效的搜索查询。这些情况同样发生在小说、诗词、对联、祝福语、人物、电视剧、小说、句子、成语、疾病等类别的资源上。
百科类资源知识通常是对以词为中心建立索引,这样就会导致在通用的搜索排序算法中,能难将非出现在标题中的关键词能够排序在前面。然而事实上,由于百科类资源知识的知识权威性,如果将这些数据排在前面,能够很好的满足用户的需求。例如,对于百科中的疾病,如果对症状进行打标签并建索引,则根据用户描述出来的症状就能够很好地将对应的资源知识提供给用户。
因此,如何有效利用现有资源知识,为之建立索引并匹配获得与用户的查询输入信息对应的目标文本信息,成为本领域技术人员亟需解决的问题之一。
发明内容
本发明的目的是提供一种用于建立索引及匹配用户的查询输入信息的方法与装置。
根据本发明的一个方面,提供了一种用于基于文本信息建立索引的方法,其中,该方法包括以下步骤:
A根据文本信息,从中确定结构化信息;
B自所述结构化信息中提取主题词;
C根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;
D为所述主题词与所述标签词建立索引。
根据本发明的另一方面,还提供了一种根据前述所建立的索引匹配用户的查询输入信息的方法,其中,该方法包括以下步骤:
a获取用户输入的查询输入信息;
b对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词;
c根据所述主题词与标签词,在前述所建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息;
d根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。
根据本发明的又一方面,还提供了一种用于基于文本信息建立索引的索引建立设备,其中,该设备包括:
信息确定装置,用于根据文本信息,从中确定结构化信息;
主题提取装置,用于自所述结构化信息中提取主题词;
标签确定装置,用于根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;
索引建立装置,用于为所述主题词与所述标签词建立索引。
根据本发明的再一方面,还提供了一种根据前述所建立的索引匹配用户的查询输入信息的匹配设备,其中,该设备包括:
查询获取装置,用于获取用户输入的查询输入信息;
信息分析装置,用于对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词;
匹配查询装置,用于根据所述主题词与标签词,在如权利要求10所建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息;
文本确定装置,用于根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。
根据本发明的再一方面,还提供了一种用于建立索引及匹配用户的查询输入信息的***,包括如前所述的索引建立设备,及如前所述的匹配设备。
与现有技术相比,本发明根据文本信息,从中确定结构化信息;自所述结构化信息中提取主题词;根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;为所述主题词与所述标签词建立索引。进一步地,本发明获取用户输入的查询输入信息;对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词;根据所述主题词与标签词,在前述所建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息;根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。
本发明基于百科类资源知识,或其他通过网络挖掘的资源知识,对其进行主题、标题的提取,形成对资源知识内容的有效描述,更好地展现这类优质资源知识,使得对这类资源知识的语义搜索更加高效,满足用户无法准确使用关键词表达的复杂描述搜索需求,提升了用户的使用体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的用于基于文本信息建立索引的设备示意图;
图2示出根据本发明一个优选实施例的用于基于文本信息建立索引的设备示意图;
图3示出根据本发明另一个方面的用于匹配用户的查询输入信息的设备示意图;
图4示出根据本发明又一个方面的用于基于文本信息建立索引的方法流程图;
图5示出根据本发明再一个方面的用于基于文本信息建立索引的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面的用于基于文本信息建立索引的设备示意图。索引建立设备1包括信息确定装置101、主题提取装置102、标签确定装置103和索引建立装置104。
其中,信息确定装置101根据文本信息,从中确定结构化信息。具体地,该信息确定装置101例如通过与数据源的交互,如百科数据等,获取了文本信息,进而,通过对该文本信息进行结构化,如分析该文本信息中所包含的目录信息、子目录信息等,从中确定结构化信息。
例如,信息确定装置101通过与百度百科、互动百科等百科数据的交互,获取这些百科类的资源知识,以作为文本信息,进而,该信息确定装置101对该文本信息进行结构化,例如,分析各个资源知识对应的目录以及子目录,如对于“疾病”的资源知识,分析出其症状对应的目录或子目录,治疗方法对应的目录或子目录等。
又如,信息确定装置101通过数据挖掘的方式,从互联网中挖掘出资源知识,以作为文本信息,进而,对该文本信息进行结构化以确定结构化信息。例如,该信息确定装置101通过对垂直类资源网站的挖掘,从中获取疾病以及疾病的症状描述、治疗方法、专长的医院等信息。每个资源以疾病作为ID进行组织。如,首先根据类别给出一些候选的种子词,例如疾病,给出冠心病、心肌炎、胃炎等,根据搜索结果获取共同排名靠前的网站url,对其网站的结构进行分析,从中提取出冠心病、冠心病的症状、冠心病的治疗方法、冠心病的专长医院的信息,并将上述信息归并到冠心病这类“疾病”中,以组织的方式将该冠心病形成名片,进行存储。则该“冠心病”即可作为最终的文本信息,而其对应的“冠心病的症状”、“冠心病的治疗方法”、“冠心病的专长医院的信息”等信息,则可作为该文本信息对应的结构化信息。
本领域技术人员应能理解上述确定结构化信息的方式仅为举例,其他现有的或今后可能出现的确定结构化信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
主题提取装置102自所述结构化信息中提取主题词。具体地,该主题提取装置102根据信息确定装置101所确定的结构化信息,例如通过主题分类器,或其他预定的提取主题词的方式,自该结构化信息中提取主题词。
在此,提取主题词的目的在于从文本信息中提取出表示该文本信息的主题,从而为建立语义索引以及后续的语义匹配计算服务。
优选地,该索引建立设备1还包括主题训练装置(未示出),该主题训练装置根据预定主题体系,获取与所述预定主题体系相对应的训练语料;根据所述训练语料,训练主题分类器;其中,所述主题提取装置102根据所述主题分类器,自所述结构化信息中提取所述主题词。
具体地,主题训练装置确定预定主题体系,例如,该主题训练装置根据大量网络搜索用户输入的查询序列的统计结果,确定网络搜索用户常用的搜索需求,并结合目前常用的分类体系,例如百科、知道等现有体系,确定具有一定需求的主题分类体系,并将其作为预定主题体系。进而,该主题训练装置根据该预定主题体系,获取与该预定主题体系相对应的训练语料,例如,假设在文章中有对应的位置标识“医疗健康?内科”,则该数据被认为是疾病类别的训练语料。随后,该主题训练装置根据该训练语料,训练主题分类器,例如,通过训练语料,训练一个svm分类模型,以作为主题分类器。
接着,主题提取装置102根据该主题训练装置所训练的主题分类器,自结构化信息中提取主题词。例如,该主题提取装置102将“冠心病”词及其症状、治疗方法等结构化信息输入该主题分类器,从而获得该主题为“疾病”。又如,对于新来的百科名片,主题提取装置102将其输入该主题分类器,如svm分类器,从而获得该百科名片的类别所对应的主题。
较佳地,该主题提取装置102还可对该提取的主题进行同义表达扩展,例如,将主题“疾病”进行同义表达扩展,增加一个同义主题“病”。
本领域技术人员应能理解上述提取主题词的方式仅为举例,其他现有的或今后可能出现的提取主题词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
标签确定装置103根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词。具体地,该标签确定装置103根据主题提取装置102所提取的主题词,及该主题词所对应的主题,自该文本信息中确定与该主题相对应的标签词,例如,对于疾病为主题的文本信息,标签确定装置103确定与该主题相对应的如下标签词:心慌气短、胸闷、腹泻、呕吐、四肢无力等。
优选地,所述标签确定装置103包括候选确定单元(未示出)、中心词确定单元(未示出)和标签确定单元(未示出)。具体地,该候选确定单元根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的至少一个候选标签词,例如,该候选确定单元对所有以词汇为组织的页面数据进行一元、二元、三元词统计,提取出现在大于一定数量页面数据的词,作为候选标签词。
随后,中心词确定单元根据所述至少一个候选标签词,确定对应的中心词。接着,标签确定单元根据所述至少一个候选标签词与所述中心词的距离,确定与所述主题相对应的标签词。
例如,中心词确定单元根据前面统计的标签数据,将所有候选标签词进行合并,对这些候选标签词进行线下统计,统计过程如下:通过在大规模文本中,如采用全网数据,统计数据中在文档的共线频率。对于任意两个候选标签词,根据下式,计算它们之间的相似度:
Sim ( w 1 , w 2 ) = Σ w ′ PMI ( w ′ , w 1 ) PMI ( w ′ , w 2 ) Σ w ′ PMI ( w ′ , w 1 ) 2 Σ w ′ PMI ( w ′ , w 2 ) 2
在此,PMI(w′,w1)表示w'w1之间的互信息分值,定义为
Figure BDA0000473323290000072
P(w)表示被统计词w的概率。
随后,中心词确定单元根据主题,确定需要对文本信息的哪些域进行分析,如,疾病的症状类别、诗词的本身以及解释部分、人物的描述部分等。进而,从中抽取所有在候选标签词中出现的词、以及对应的同义词,然后将这些词组成一个中心,作为该至少一个候选标签词对应的中心词。
接着,标签确定单元计算该至少一个候选标签词中每一个与该中心词的距离,例如,假设此处以T表示中心词,则候选标签词与该中心词的距离可通过下式计算获得:
Dis ( x ) = Σ w ∈ T Sim ( w , x ) / Num ( T )
在此,Num(T)表示中心词中所包含的词的数目。
随后,该标签确定单元根据该至少一个候选标签词与该中心词的距离,确定与该主题相对应的标签词,例如,将与该中心词的距离小于预定阈值的候选标签词作为与该主题相对应的标签词。
较佳地,如图3所示,标签确定单元以该候选标签排名与中心词的距离做一个时间序列,如果排名变化的斜率大于预定斜率阈值,则后续的节点被截除,如图3中的排名第5点到第6点。
在此,该斜率阈值例如通过统计得分的总体分布而经验设定。
本领域技术人员应能理解上述确定标签词的方式仅为举例,其他现有的或今后可能出现的确定标签词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,所述中心词确定单元根据预定过滤规则,对所述至少一个候选标签词进行过滤处理,以获得至少一个经过滤处理后的候选标签词;根据所述至少一个经过滤处理后的候选标签词,确定所述中心词;其中,所述预定过滤规则基于以下至少任一项来确定:
-所述至少一个候选标签词的词性;
-所述至少一个候选标签词的用词规则;
-所述至少一个候选标签词与所述主题的共现比。
具体地,在对候选标签词进行统计的过程中,可能引入噪声,因此,需要对候选标签词进行过滤处理,中心词确定单元根据预定过滤规则,对所述至少一个候选标签词进行过滤处理,以获得至少一个经过滤处理后的候选标签词。
例如,该中心词确定单元根据该至少一个候选标签词的词性,对该至少一个候选标签词进行过滤处理,如,对该至少一个候选标签词进行首词和尾词过滤。
又如,该中心词确定单元根据该至少一个候选标签词的用词规则,对该至少一个候选标签词进行过滤处理,如,该候选标签词的首字不可能是“把”、“办”、“被”、“比”等字,尾字不可能是“当”、“到”、“得”等字。
再如,该中心词确定单元根据该至少一个候选标签词与所述主题的共现比,对该至少一个候选标签词进行过滤处理,如,该中心词确定单元在搜索统计日志中、以及全网标题中,统计该至少一个候选标签词与主题的共现比,只有与该主题共现过的才得以保留,或者,保留与该主题的共现比大于预定阈值的候选标签词。
较佳地,该中心词确定单元根据结合上述任意两个预定过滤规则或综合考虑全部三个预定过滤规则,对该至少一个候选标签词进行过滤处理。
随后,中心词确定单元根据所述至少一个经过滤处理后的候选标签词,确定所述中心词。
本领域技术人员应能理解上述预定过滤规则仅为举例,其他现有的或今后可能出现的预定过滤规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
索引建立装置104为所述主题词与所述标签词建立索引。具体地,索引建立装置104根据主题词提取装置102所提取的主题词,及该标签确定装置102所确定的标签词,为该主题词和标签词建立索引。
例如,假设冠心病对应的文档为ID1,对应在该文档中重要度为WC1(x),如x可以等于“疾病”、“心慌气短”等,心肌炎对应的文档为ID2,胃炎对应的文档为ID3,中风对应的文档为ID4。索引建立装置104按下述方式对主题词和标签词建立统一的倒排索引:
疾病-ID1(WC1(x)),ID2(WC2(x)),ID3(WC3(x)),ID4(WC4(x))
心慌气短-ID1(WC1(x)),ID2(WC2(x)),ID4(WC4(x))
心悸气短-ID1(WC1(x)),ID2(WC2(x)),ID4(WC4(x))
呕吐-ID3(WC3(x)),ID4(WC4(x))
吐-ID3(WC3(x)),ID4(WC4(x))
优选地,索引建立设备1还包括归一化装置(未示出),该归一化装置若所述标签词包括多个语义一致的标签词,确定所述多个语义一致的标签词的归一化结果;其中,所述索引建立装置104为所述主题词、所述标签词及所述归一化结果建立索引。
具体地,主题词“疾病”对应的标签词中可能包括多个语义一致的标签词,如“吐”和“恶心呕吐”即语义一致,则归一化装置确定该两个标签词的归一化结果为“呕吐”;随后,索引建立装置104为该主题词“疾病”、标签词“吐”、“恶心呕吐”和归一化结果“呕吐”建立索引。
本领域技术人员应能理解上述建立索引的方式仅为举例,其他现有的或今后可能出现的建立索引的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
通常,建立索引都是针对关键词建立索引,在此,索引建立设备1还对主题词、标签词及其归一化结果建立索引,从而实现用户的查询输入信息与资源知识更好的匹配。
优选地,索引建立设备1的各个装置之间是持续不断工作的。具体地,信息确定装置101根据文本信息,从中确定结构化信息;主题提取装置102自所述结构化信息中提取主题词;标签确定装置103根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;索引建立装置104为所述主题词与所述标签词建立索引。在此,本领域技术人员应理解“持续”是指索引建立设备1的各装置分别按照设定的或实时调整的工作模式要求进行结构化信息的确定、主题词的提取、标签词的确定及索引的建立,直至该索引建立设备1在较长时间内停止确定结构化信息。
在此,索引建立设备1根据文本信息,从中确定结构化信息;自所述结构化信息中提取主题词;根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;为所述主题词与所述标签词建立索引。索引建立设备基于百科类资源知识,或其他通过网络挖掘的资源知识,对其进行主题、标题的提取,形成对资源知识内容的有效描述,更好地展现这类优质资源知识,使得后续对这类资源知识的语义搜索更加高效,满足用户无法准确使用关键词表达的复杂描述搜索需求,提升了用户的使用体验。
图2示出根据本发明另一个方面的用于匹配用户的查询输入信息的设备示意图。匹配设备2包括查询获取装置201、信息分析装置202、匹配查询装置203和文本确定装置204。
其中,查询获取装置201获取用户输入的查询输入信息。具体地,用户通过与用户设备的交互,输入了查询输入信息,查询获取装置201通过调用该用户设备所提供的应用程序接口(API)、通过调用诸如JSP、ASP或PHP等动态页面技术,或者,通过其他约定的通信方式,获取该用户输入的查询输入信息。
在此,该查询输入信息包括但不限于用户通过文字输入、语音输入、图像输入等不同输入方式所提交的查询输入信息。
本领域技术人员应能理解上述获取查询输入信息的方式仅为举例,其他现有的或今后可能出现的获取查询输入信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
信息分析装置202对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词。具体地,信息分析装置202对该查询获取装置201所获取的查询输入信息进行主题与标签分析,例如,通过将该查询输入信息输入前述训练所获得的主题分类器,获得该查询输入信息所对应的主题词;该信息分析装置202对该用户输入的查询输入信息进行标签分析,获得对应的标签词。在此,该信息分析装置202对该查询输入信息的标签分析的方式与前述标签确定装置103确定文本信息的标签词的方式相同或相类似,故此处不再赘述,并通过引用的方式包含于此。
匹配查询装置203根据所述主题词与标签词,在前述索引建立装置104建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息。具体地,匹配查询装置203根据该查询获取装置201所获取的用户输入的查询输入信息,在前述索引建立装置104建立的索引中进行匹配查询,例如通过全部匹配或部分匹配的方式,获得命中该查询输入信息所对应的主题词的文本信息,或者命中该查询输入信息所对应的标签词的文本信息,以作为与该查询输入信息相匹配的候选文本信息。
例如,假设用户输入查询输入信息为“心慌气短”,查询获取装置201获取该用户输入的查询输入信息“心慌气短”;信息分析装置202对该查询输入信息进行标签分析,获得的标签词为“心慌气短”,前述索引建立装置104对该标签词“心慌气短”建立的索引如下:
心慌气短-ID1(WC1(x)),ID2(WC2(x)),ID4(WC4(x))
其中,ID1、ID2、ID4分别表示包含有标签词“心慌气短”的文本信息的ID号码,WC1(x)、WC2(x)、WC4(x)则分别表示标签词“心慌气短”分别在这几个文本信息中的重要度。
则匹配查询装置203根据该用户的查询输入信息所对应的标签词“心慌气短”,在索引建立装置104所建立的索引中进行匹配查询,如根据上述索引,得到该查询输入信息“心慌气短”所对应的候选文本信息——文本信息ID1、ID2和ID4。
本领域技术人员应能理解上述匹配查询的方式仅为举例,其他现有的或今后可能出现的匹配查询的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
文本确定装置204根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。
具体地,候选文本信息与查询输入信息之间具有一定的语义匹配度,该语义匹配度可以通过计算获得,或进一步通过计算该候选文本信息对应的索引词集与该查询输入信息所对应的匹配词集间的匹配度获得。该文本确定装置204根据该候选文本信息与用户的查询输入信息的语义匹配度,确定与该查询输入信息相匹配的目标文本信息,如将语义匹配度最高的候选文本信息作为与该查询输入信息相匹配的目标文本信息,或者,将语义匹配度大于预定匹配度阈值的候选文本信息作为与该查询输入信息相匹配的目标文本信息。
在此,该预定匹配度阈值为用于判断候选文本信息是否与查询输入信息相匹配的语义匹配度,其值可以是预置的固定的,也可根据实际情况进行调整。
优选地,该文本确定装置还包括匹配计算单元(未示出)和文本确定单元(未示出)。该匹配计算单元计算所述候选文本信息与所述查询输入信息的语义匹配度;文本确定单元根据所述语义匹配度,结合预定匹配度阈值,确定与所述查询输入信息相匹配的目标文本信息。
例如,该匹配计算单元根据现有的匹配度计算方法,计算该候选文本信息与用户的查询输入信息的语义匹配度;当该语义匹配度大于该预定匹配度阈值,则该文本确定单元将该候选文本信息作为与该查询输入信息相匹配的目标文本信息。
较佳地,文本确定装置还可根据候选文本信息所对应的索引词集与查询输入信息所对应的匹配词集,来确定与该查询输入信息所对应的目标文本信息。具体地,候选文本信息具有对应的索引词集,如假设上例中候选文本信息ID1对应的主题为“冠心病”,其对应的索引词包括“疾病”、“心慌气短”等,则这些索引词所组成的索引词集即为该候选文本信息ID1所对应的索引词集。用户的查询输入信息也有对应的匹配词集,例如,通过对该查询输入信息进行分词处理后获得匹配词,再将该匹配词所组成的集合作为该查询输入信息对应的匹配词集,如假设用户输入的查询输入信息为“心慌气短呕吐”,匹配设备1对该查询输入信息进行分词处理后,获得匹配词“心慌气短”和“呕吐”,则该两个匹配词所组成的集合即为该查询输入信息对应的匹配词集。文本确定装置204根据该索引词集与该匹配词集,确定与该用户的查询输入信息相匹配的目标文本信息,例如,将命中该匹配词集中最多匹配词的索引词集所对应的文本信息,作为与该查询输入信息相匹配的目标文本信息;或者,将命中匹配词的数量大于预定数量阈值的索引词集所对应的文本信息,作为与该查询输入信息相匹配的目标文本信息。
例如,对于上例中的候选文本信息ID1、ID2和ID4,ID1对应的索引词集包括索引词“疾病”、“心慌气短”;ID2对应的索引词集包括索引词“心慌气短”、“呕吐”、“疾病”;ID4对应的索引词集包括索引词“心慌气短”。则对于用户输入的查询输入信息“心慌气短呕吐”,其匹配词为“心慌气短”、“呕吐”,ID2对应的索引词集命中该查询输入信息对应的匹配词集中最多的匹配词,则将该候选文本信息ID2作为与该查询输入信息最相匹配的目标文本信息,或者,假设预定数量阈值为0,则上述候选文本信息ID1、ID2和ID4所对应的索引词集命中该匹配词集中的匹配词的数量均大于该预定数量阈值,则上述候选文本信息ID1、ID2和ID4均作为与该查询输入信息相匹配的目标文本信息。该匹配设备2提供给该用户时,可按照对应的索引词在该候选文本信息中的重要度的高低进行排序。
本领域技术人员应能理解上述确定目标文本信息的方式仅为举例,其他现有的或今后可能出现的确定目标文本信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,匹配设备2的各个装置之间是持续不断工作的。具体地,查询获取装置201获取用户输入的查询输入信息;信息分析装置202对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词;匹配查询装置203根据所述主题词与标签词,在前述索引建立装置104建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息;文本确定装置204根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。在此,本领域技术人员应理解“持续”是指匹配设备2的各装置分别按照设定的或实时调整的工作模式要求进行查询输入信息的获取、主题与标签分析、候选文本信息的匹配查询与目标文本信息的确定,直至该匹配设备2在较长时间内停止获取用户输入的查询输入信息。
在此,索引建立设备1与匹配设备2的各装置之间相互配合,以实现基于用户输入的查询输入信息,匹配获得与之对应的目标文本信息;基于百科类资源知识,或其他通过网络挖掘的资源知识,对其进行主题、标题的提取,形成对资源知识内容的有效描述,更好地展现这类优质资源知识,使得对这类资源知识的语义搜索更加高效,满足用户无法准确使用关键词表达的复杂描述搜索需求,提升了用户的使用体验。
优选地,所述主题词与标签词还可看作两个不同的域,分别对应主题域和标签域,所述匹配查询装置203根据该主题词与标签词,分别在主题域和标签域所对应的前述索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息。
具体地,匹配查询装置203根据信息分析装置202对用户输入的查询输入信息的分析所获得的主题词和标签词,采用分域匹配的方式,分别在该主题域和标签域所对应的索引中进行匹配查询,以获得候选文本信息。
在此,该主题域和标签域可以通过对该查询输入信息进行分析获得,例如,对用户输入的查询输入信息,利用前述的主题分类器对用户输入的查询输入信息进行分析,获得主题类别。
在此,主题域和标签域所对应的索引即前述索引建立装置104所建立的索引,根据之前建立的标签,对用户输入的查询输入信息进行标签词提取,如针对包含在该查询输入信息中且在标签集合里面的,则将其提取出来。然后,利用标签词和主题类别到对应的主题与标签统一索引中进行拉倒排文档的候选,将包含该主题类别或者标签的文档作为与该查询输入信息相对应的候选文本信息,参与后续计算。
较佳地,该匹配查询装置203还可考虑该主题域和标签域所对应的权重,在对应的索引中进行匹配查询,综合考虑该主题域和标签域对应的权重,最终获得候选文本信息。
优选地,所述文本确定装置204根据所述匹配词集所包括的匹配词,在所述候选文本信息所对应的索引词集中确定目标索引词集,其中,所述目标索引词集命中所述匹配词集中最多的匹配词;若所述目标索引词集与所述匹配词集的相似度大于预定阈值,将所述目标索引词集所对应的文本信息作为与所述查询输入信息相匹配的目标文本信息。
具体地,文本确定装置204根据候选文本信息所对应的索引词集命中匹配词集中匹配词的数量,将命中匹配词数量最多的索引词集作为目标索引词集;随后,该文本确定装置204计算该目标索引词集与匹配词集的相似度,例如,分别计算目标索引词集与匹配词集中,命中的索引词与对应的匹配词之间的相似度,再通过简单相加或加权平均等方式,计算该目标索引词集与匹配词集的相似度,当该相似度大于预定阈值时,该文本确定装置将该目标索引词集所对应的文本信息作为与该查询输入信息相匹配的目标文本信息。
在此,该预定阈值为根据目标索引词集与匹配词集的相似度,判断是否将目标索引词集对应的文本信息作为目标文本信息的相似度阈值,其值可以是固定的,也可根据实际情况做调整。
优选地,匹配设备2还包括词集确定装置(未示出)。其中,词集确定装置对所述查询输入信息进行分词处理,获得经所述分词处理后的分词;将所述分词与所述信息分析装置202所获得的主题词与标签词进行合并处理,以获得与所述查询输入信息对应的匹配词集,其中,所述匹配词集中所包括的词作为匹配词。随后,所述匹配计算单元根据所述匹配词集与所述候选文本信息所对应的索引词集,计算所述候选文本信息与所述查询输入信息的语义匹配度。
具体地,词集确定装置对该查询获取装置201所获取的查询输入信息进行分词处理,以获得经分词处理后的分词,较佳地,该词集确定装置还可对该分词处理后获得分词进行去除停用词等过滤处理,进而获得最终的分词;随后,该词集确定装置根据所获得的分词,将其与前述信息分析装置202所获得的主题词与标签词进行合并处理、去冗余处理等,以最终获得与该查询输入信息相对应的匹配词集,并将该匹配词集中所包括的词作为与该查询输入信息对应的匹配词。
随后,匹配计算单元根据所述匹配词集与所述候选文本信息所对应的索引词集,计算所述候选文本信息与所述查询输入信息的语义匹配度。
更优选地,该匹配设备2还包括后续处理装置(未示出)。该后续处理装置对所述匹配词进行后续处理,以更新所述匹配词集;其中,所述后续处理包括以下至少任一项:
-确定所述匹配词中所包括的相互同义的匹配词,将所述相互同义的匹配词合并为所述匹配词集的子集。
-对所述匹配词进行同义扩展,将同义扩展后得到的同义词与所述匹配词确定为所述匹配词集的子集。
具体地,后续处理装置对词集确定装置所确定的匹配词集中的匹配词进行后续处理,以更新该匹配词集。例如,后续处理装置确定所述匹配词中所包括的相互同义的匹配词,将所述相互同义的匹配词合并为所述匹配词集的子集。由于匹配词中可能包括相互同义的匹配词,如“呕吐”和“吐”,该后续处理装置将这些相互同义的匹配词合并为该匹配词集的子集。
例如,假设用户输入的查询输入信息为Q,词集确定装置对该查询输入信息进行分词处理,去除停用词等过滤处理之后,在标签域内的匹配词集表示为Q={a,b,c,d,e},其中,a,b,c,d,e分别为该匹配词集中所包括的匹配词;假设其中的匹配词a和b是相互同义的匹配词,则后续处理装置将该匹配词a和b合并为该匹配词集的子集,则该匹配词集更新表示为Q={{a,b},c,d,e}。随后,后续装置如匹配查询装置203进行后续的匹配查询操作。
又如,后续处理装置还对所述匹配词进行同义扩展,将同义扩展后得到的同义词与所述匹配词确定为所述匹配词集的子集。具体地,后续处理装置还可对该查询输入信息对应的匹配词集中的匹配词进行同义扩展,如将“心悸气短”同义扩展为“心慌气短”,随后,该后续处理装置将该同义扩展后得到的同义词与该匹配词确定为该匹配词集的子集。
接上例,对于经同义合并后的匹配词集Q={{a,b},c,d,e},该后续处理装置还可对该匹配词集进行同义扩展,扩展获得其中的匹配词abcde的同义词,并将该同义扩展后得到的同义词与该匹配词确定为该匹配词集的子集,例如,该匹配词集Q经多次同义扩展后,得到如下表达式:
Q = { ( w 11 1 , w 11 2 . . . w 11 k ) , ( w 12 1 , w 12 2 . . . w 1 2 k ) , . . . , ( w 1 m 1 , w 1 m 2 . . . w 1 m k ) }
随后,匹配查询装置203根据该匹配词集,在索引建立装置104所建立的索引中进行匹配查询,例如,经过倒排索引,获得包含
Figure BDA0000473323290000182
的候选文本信息。
假设将命中匹配词集中最多的匹配词的索引词集表示为C,则C为:
C = { ( w 21 1 , w 21 2 . . . w 21 k ) , ( w 22 1 , w 22 2 . . . w 22 k ) , . . . , ( w 2 n 1 , w 2 n 2 . . . w 2 n k ) }
其中,C表示同义命中的最大
Figure BDA0000473323290000184
w1i对应的位置语义映射的词集合
Figure BDA0000473323290000185
则匹配计算单元根据所述匹配词集与所述候选文本信息所对应的索引词集,计算所述候选文本信息与所述查询输入信息的语义匹配度。
Q和C之间的语义匹配度可通过下式计算:
R ( Q , C ) = Σ w 1 k j = w 2 k j ( W Q ( w 1 k i ) * W C ( w 2 k j ) ) Σ t = 1 . . . m Wgy ( w 1 k t ) 2 Σ j = 1 . . . n Wgt ( w 2 k j ) 2 * Match ( T Q , T C )
其中,
Figure BDA0000473323290000187
表示词
Figure BDA0000473323290000188
的权重,这里用(log(TF)+1)*log(N/DF)表示;Match(TQ,TC)表示索引词集、匹配词集与主题是否匹配。
在此,Match(TQ,TC)对应的值可定义,如假设该索引词集、匹配词集与主题匹配,则Match(TQ,TC)的值为1,否则为0.5。
随后,假设该计算得出的语义匹配度值大于预定阈值,则文本确定单元将该索引词集所对应的文本信息作为与该查询输入信息相匹配的目标文本信息。
图4示出根据本发明又一个方面的用于基于文本信息建立索引的方法流程图。
在步骤S401中,索引建立设备1根据文本信息,从中确定结构化信息。具体地,在步骤S401中,索引建立设备1例如通过与数据源的交互,如百科数据等,获取了文本信息,进而,通过对该文本信息进行结构化,如分析该文本信息中所包含的目录信息、子目录信息等,从中确定结构化信息。
例如,在步骤S401中,索引建立设备1通过与百度百科、互动百科等百科数据的交互,获取这些百科类的资源知识,以作为文本信息,进而,在步骤S401中,索引建立设备1对该文本信息进行结构化,例如,分析各个资源知识对应的目录以及子目录,如对于“疾病”的资源知识,分析出其症状对应的目录或子目录,治疗方法对应的目录或子目录等。
又如,在步骤S401中,索引建立设备1通过数据挖掘的方式,从互联网中挖掘出资源知识,以作为文本信息,进而,对该文本信息进行结构化以确定结构化信息。例如,在步骤S401中,索引建立设备1通过对垂直类资源网站的挖掘,从中获取疾病以及疾病的症状描述、治疗方法、专长的医院等信息。每个资源以疾病作为ID进行组织。如,首先根据类别给出一些候选的种子词,例如疾病,给出冠心病、心肌炎、胃炎等,根据搜索结果获取共同排名靠前的网站url,对其网站的结构进行分析,从中提取出冠心病、冠心病的症状、冠心病的治疗方法、冠心病的专长医院的信息,并将上述信息归并到冠心病这类“疾病”中,以组织的方式将该冠心病形成名片,进行存储。则该“冠心病”即可作为最终的文本信息,而其对应的“冠心病的症状”、“冠心病的治疗方法”、“冠心病的专长医院的信息”等信息,则可作为该文本信息对应的结构化信息。
本领域技术人员应能理解上述确定结构化信息的方式仅为举例,其他现有的或今后可能出现的确定结构化信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S402中,索引建立设备1自所述结构化信息中提取主题词。具体地,在步骤S402中,索引建立设备1根据在步骤S401中所确定的结构化信息,例如通过主题分类器,或其他预定的提取主题词的方式,自该结构化信息中提取主题词。
在此,提取主题词的目的在于从文本信息中提取出表示该文本信息的主题,从而为建立语义索引以及后续的语义匹配计算服务。
优选地,该方法还包括步骤S405(未示出),在步骤S405中,索引建立设备1根据预定主题体系,获取与所述预定主题体系相对应的训练语料;根据所述训练语料,训练主题分类器;其中,在步骤S402中,索引建立设备1根据所述主题分类器,自所述结构化信息中提取所述主题词。
具体地,在步骤S405中,索引建立设备1确定预定主题体系,例如,在步骤S405中,索引建立设备1根据大量网络搜索用户输入的查询序列的统计结果,确定网络搜索用户常用的搜索需求,并结合目前常用的分类体系,例如百科、知道等现有体系,确定具有一定需求的主题分类体系,并将其作为预定主题体系。进而,在步骤S405中,索引建立设备1根据该预定主题体系,获取与该预定主题体系相对应的训练语料,例如,假设在文章中有对应的位置标识“医疗健康?内科”,则该数据被认为是疾病类别的训练语料。随后,在步骤S405中,索引建立设备1根据该训练语料,训练主题分类器,例如,通过训练语料,训练一个svm分类模型,以作为主题分类器。
接着,在步骤S402中,索引建立设备1根据在步骤S405中所训练的主题分类器,自结构化信息中提取主题词。例如,在步骤S402中,索引建立设备1将“冠心病”词及其症状、治疗方法等结构化信息输入该主题分类器,从而获得该主题为“疾病”。又如,对于新来的百科名片,在步骤S402中,索引建立设备1将其输入该主题分类器,如svm分类器,从而获得该百科名片的类别所对应的主题。
较佳地,在步骤S402中,索引建立设备1还可对该提取的主题进行同义表达扩展,例如,将主题“疾病”进行同义表达扩展,增加一个同义主题“病”。
本领域技术人员应能理解上述提取主题词的方式仅为举例,其他现有的或今后可能出现的提取主题词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S403中,索引建立设备1根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词。具体地,在步骤S403中,索引建立设备1根据在步骤S402中所提取的主题词,及该主题词所对应的主题,自该文本信息中确定与该主题相对应的标签词,例如,对于疾病为主题的文本信息,在步骤S403中,索引建立设备1确定与该主题相对应的如下标签词:心慌气短、胸闷、腹泻、呕吐、四肢无力等。
优选地,步骤S403还包括子步骤S403a(未示出)、子步骤S403b(未示出)和子步骤S403c(未示出)。具体地,在子步骤S403a中,索引建立设备1根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的至少一个候选标签词,例如,在子步骤S403a中,索引建立设备1对所有以词汇为组织的页面数据进行一元、二元、三元词统计,提取出现在大于一定数量页面数据的词,作为候选标签词。
随后,在子步骤S403b中,索引建立设备1根据所述至少一个候选标签词,确定对应的中心词。接着,在子步骤S403c中,索引建立设备1根据所述至少一个候选标签词与所述中心词的距离,确定与所述主题相对应的标签词。
例如,在子步骤S403b中,索引建立设备1根据前面统计的标签数据,将所有候选标签词进行合并,对这些候选标签词进行线下统计,统计过程如下:通过在大规模文本中,如采用全网数据,统计数据中在文档的共线频率。对于任意两个候选标签词,根据下式,计算它们之间的相似度:
Sim ( w 1 , w 2 ) = Σ w ′ PMI ( w ′ , w 1 ) PMI ( w ′ , w 2 ) Σ w ′ PMI ( w ′ , w 1 ) 2 Σ w ′ PMI ( w ′ , w 2 ) 2
在此,PMI(w′,w1)表示w'w1之间的互信息分值,定义为
Figure BDA0000473323290000212
P(w)表示被统计词w的概率。
随后,在子步骤S403b中,索引建立设备1根据主题,确定需要对文本信息的哪些域进行分析,如,疾病的症状类别、诗词的本身以及解释部分、人物的描述部分等。进而,从中抽取所有在候选标签词中出现的词、以及对应的同义词,然后将这些词组成一个中心,作为该至少一个候选标签词对应的中心词。
接着,在子步骤S403c中,索引建立设备1计算该至少一个候选标签词中每一个与该中心词的距离,例如,假设此处以T表示中心词,则候选标签词与该中心词的距离可通过下式计算获得:
Dis ( x ) = Σ w ∈ T Sim ( w , x ) / Num ( T )
在此,Num(T)表示中心词中所包含的词的数目。
随后,在子步骤S403c中,索引建立设备1根据该至少一个候选标签词与该中心词的距离,确定与该主题相对应的标签词,例如,将与该中心词的距离小于预定阈值的候选标签词作为与该主题相对应的标签词。
较佳地,如图3所示,在子步骤S403c中,索引建立设备1以该候选标签排名与中心词的距离做一个时间序列,如果排名变化的斜率大于预定斜率阈值,则后续的节点被截除,如图3中的排名第5点到第6点。
在此,该斜率阈值例如通过统计得分的总体分布而经验设定。
本领域技术人员应能理解上述确定标签词的方式仅为举例,其他现有的或今后可能出现的确定标签词的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
更优选地,在子步骤S403b中,索引建立设备1根据预定过滤规则,对所述至少一个候选标签词进行过滤处理,以获得至少一个经过滤处理后的候选标签词;根据所述至少一个经过滤处理后的候选标签词,确定所述中心词;其中,所述预定过滤规则基于以下至少任一项来确定:
-所述至少一个候选标签词的词性;
-所述至少一个候选标签词的用词规则;
-所述至少一个候选标签词与所述主题的共现比。
具体地,在对候选标签词进行统计的过程中,可能引入噪声,因此,需要对候选标签词进行过滤处理,在子步骤S403b中,索引建立设备1根据预定过滤规则,对所述至少一个候选标签词进行过滤处理,以获得至少一个经过滤处理后的候选标签词。
例如,在子步骤S403b中,索引建立设备1根据该至少一个候选标签词的词性,对该至少一个候选标签词进行过滤处理,如,对该至少一个候选标签词进行首词和尾词过滤。
又如,在子步骤S403b中,索引建立设备1根据该至少一个候选标签词的用词规则,对该至少一个候选标签词进行过滤处理,如,该候选标签词的首字不可能是“把”、“办”、“被”、“比”等字,尾字不可能是“当”、“到”、“得”等字。
再如,在子步骤S403b中,索引建立设备1根据该至少一个候选标签词与所述主题的共现比,对该至少一个候选标签词进行过滤处理,如,在子步骤S403b中,索引建立设备1在搜索统计日志中、以及全网标题中,统计该至少一个候选标签词与主题的共现比,只有与该主题共现过的才得以保留,或者,保留与该主题的共现比大于预定阈值的候选标签词。
较佳地,在子步骤S403b中,索引建立设备1根据结合上述任意两个预定过滤规则或综合考虑全部三个预定过滤规则,对该至少一个候选标签词进行过滤处理。
随后,在子步骤S403b中,索引建立设备1根据所述至少一个经过滤处理后的候选标签词,确定所述中心词。
本领域技术人员应能理解上述预定过滤规则仅为举例,其他现有的或今后可能出现的预定过滤规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S404中,索引建立设备1为所述主题词与所述标签词建立索引。具体地,在步骤S404中,索引建立设备1根据在步骤S402中所提取的主题词,及在步骤S402中所确定的标签词,为该主题词和标签词建立索引。
例如,假设冠心病对应的文档为ID1,对应在该文档中重要度为WC1(x),如x可以等于“疾病”、“心慌气短”等,心肌炎对应的文档为ID2,胃炎对应的文档为ID3,中风对应的文档为ID4。在步骤S404中,索引建立设备1按下述方式对主题词和标签词建立统一的倒排索引:
疾病-ID1(WC1(x)),ID2(WC2(x)),ID3(WC3(x)),ID4(WC4(x))
心慌气短-ID1(WC1(x)),ID2(WC2(x)),ID4(WC4(x))
心悸气短-ID1(WC1(x)),ID2(WC2(x)),ID4(WC4(x))
呕吐-ID3(WC3(x)),ID4(WC4(x))
吐-ID3(WC3(x)),ID4(WC4(x))
优选地,该方法还包括步骤S406(未示出),在步骤S406中,若所述标签词包括多个语义一致的标签词,索引建立设备1确定所述多个语义一致的标签词的归一化结果;其中,在步骤S404中,索引建立设备1为所述主题词、所述标签词及所述归一化结果建立索引。
具体地,主题词“疾病”对应的标签词中可能包括多个语义一致的标签词,如“吐”和“恶心呕吐”即语义一致,则在步骤S406中,索引建立设备1确定该两个标签词的归一化结果为“呕吐”;随后,在步骤S404中,索引建立设备1为该主题词“疾病”、标签词“吐”、“恶心呕吐”和归一化结果“呕吐”建立索引。
本领域技术人员应能理解上述建立索引的方式仅为举例,其他现有的或今后可能出现的建立索引的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
通常,建立索引都是针对关键词建立索引,在此,索引建立设备1还对主题词、标签词及其归一化结果建立索引,从而实现用户的查询输入信息与资源知识更好的匹配。
优选地,索引建立设备1的各个步骤之间是持续不断工作的。具体地,在步骤S401中,索引建立设备1根据文本信息,从中确定结构化信息;在步骤S402中,索引建立设备1自所述结构化信息中提取主题词;在步骤S403中,索引建立设备1根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;在步骤S404中,索引建立设备1为所述主题词与所述标签词建立索引。在此,本领域技术人员应理解“持续”是指索引建立设备1的各步骤分别按照设定的或实时调整的工作模式要求进行结构化信息的确定、主题词的提取、标签词的确定及索引的建立,直至该索引建立设备1在较长时间内停止确定结构化信息。
在此,索引建立设备1根据文本信息,从中确定结构化信息;自所述结构化信息中提取主题词;根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;为所述主题词与所述标签词建立索引。索引建立设备基于百科类资源知识,或其他通过网络挖掘的资源知识,对其进行主题、标题的提取,形成对资源知识内容的有效描述,更好地展现这类优质资源知识,使得后续对这类资源知识的语义搜索更加高效,满足用户无法准确使用关键词表达的复杂描述搜索需求,提升了用户的使用体验。
图5示出根据本发明再一个方面的用于基于文本信息建立索引的方法流程图。
在步骤S501中,匹配设备2获取用户输入的查询输入信息。具体地,用户通过与用户设备的交互,输入了查询输入信息,在步骤S501中,匹配设备2通过调用该用户设备所提供的应用程序接口(API)、通过调用诸如JSP、ASP或PHP等动态页面技术,或者,通过其他约定的通信方式,获取该用户输入的查询输入信息。
在此,该查询输入信息包括但不限于用户通过文字输入、语音输入、图像输入等不同输入方式所提交的查询输入信息。
本领域技术人员应能理解上述获取查询输入信息的方式仅为举例,其他现有的或今后可能出现的获取查询输入信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S502中,匹配设备2对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词。具体地,在步骤S502中,匹配设备2对在步骤S501中所获取的查询输入信息进行主题与标签分析,例如,通过将该查询输入信息输入前述训练所获得的主题分类器,获得该查询输入信息所对应的主题词;在步骤S502中,匹配设备2对该用户输入的查询输入信息进行标签分析,获得对应的标签词。在此,在步骤S502中,匹配设备2对该查询输入信息的标签分析的方式与前述索引建立设备1在步骤S403中确定文本信息的标签词的方式相同或相类似,故此处不再赘述,并通过引用的方式包含于此。
在步骤S503中,匹配设备2根据所述主题词与标签词,在前述索引建立设备1建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息。具体地,在步骤S503中,匹配设备2根据在步骤S501中所获取的用户输入的查询输入信息,在前述索引建立设备1建立的索引中进行匹配查询,例如通过全部匹配或部分匹配的方式,获得命中该查询输入信息所对应的主题词的文本信息,或者命中该查询输入信息所对应的标签词的文本信息,以作为与该查询输入信息相匹配的候选文本信息。
例如,假设用户输入查询输入信息为“心慌气短”,在步骤S501中,匹配设备2获取该用户输入的查询输入信息“心慌气短”;在步骤S502中,匹配设备2对该查询输入信息进行标签分析,获得的标签词为“心慌气短”,前述索引建立设备1对该标签词“心慌气短”建立的索引如下:
心慌气短-ID1(WC1(x)),ID2(WC2(x)),ID4(WC4(x))
其中,ID1、ID2、ID4分别表示包含有标签词“心慌气短”的文本信息的ID号码,WC1(x)、WC2(x)、WC4(x)则分别表示标签词“心慌气短”分别在这几个文本信息中的重要度。
则在步骤S503中,匹配设备2根据该用户的查询输入信息所对应的标签词“心慌气短”,在索引建立设备1所建立的索引中进行匹配查询,如根据上述索引,得到该查询输入信息“心慌气短”所对应的候选文本信息——文本信息ID1、ID2和ID4。
本领域技术人员应能理解上述匹配查询的方式仅为举例,其他现有的或今后可能出现的匹配查询的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S504中,匹配设备2根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。
具体地,候选文本信息与查询输入信息之间具有一定的语义匹配度,该语义匹配度可以通过计算获得,或进一步通过计算该候选文本信息对应的索引词集与该查询输入信息所对应的匹配词集间的匹配度获得。在步骤S504中,匹配设备2根据该候选文本信息与用户的查询输入信息的语义匹配度,确定与该查询输入信息相匹配的目标文本信息,如将语义匹配度最高的候选文本信息作为与该查询输入信息相匹配的目标文本信息,或者,将语义匹配度大于预定匹配度阈值的候选文本信息作为与该查询输入信息相匹配的目标文本信息。
在此,该预定匹配度阈值为用于判断候选文本信息是否与查询输入信息相匹配的语义匹配度,其值可以是预置的固定的,也可根据实际情况进行调整。
优选地,该步骤S504还包括子步骤S504a(未示出)和子步骤S504b(未示出)。在子步骤S504a中,匹配设备2计算所述候选文本信息与所述查询输入信息的语义匹配度;在子步骤S504a中,匹配设备2根据所述语义匹配度,结合预定匹配度阈值,确定与所述查询输入信息相匹配的目标文本信息。
例如,在子步骤S504a中,匹配设备2根据现有的匹配度计算方法,计算该候选文本信息与用户的查询输入信息的语义匹配度;当该语义匹配度大于该预定匹配度阈值,则在子步骤S504b中,匹配设备2将该候选文本信息作为与该查询输入信息相匹配的目标文本信息。
较佳地,在步骤S504中,匹配设备2还可根据候选文本信息所对应的索引词集与查询输入信息所对应的匹配词集,来确定与该查询输入信息所对应的目标文本信息。具体地,候选文本信息具有对应的索引词集,如假设上例中候选文本信息ID1对应的主题为“冠心病”,其对应的索引词包括“疾病”、“心慌气短”等,则这些索引词所组成的索引词集即为该候选文本信息ID1所对应的索引词集。用户的查询输入信息也有对应的匹配词集,例如,通过对该查询输入信息进行分词处理后获得匹配词,再将该匹配词所组成的集合作为该查询输入信息对应的匹配词集,如假设用户输入的查询输入信息为“心慌气短呕吐”,匹配设备1对该查询输入信息进行分词处理后,获得匹配词“心慌气短”和“呕吐”,则该两个匹配词所组成的集合即为该查询输入信息对应的匹配词集。在步骤S504中,匹配设备2根据该索引词集与该匹配词集,确定与该用户的查询输入信息相匹配的目标文本信息,例如,将命中该匹配词集中最多匹配词的索引词集所对应的文本信息,作为与该查询输入信息相匹配的目标文本信息;或者,将命中匹配词的数量大于预定数量阈值的索引词集所对应的文本信息,作为与该查询输入信息相匹配的目标文本信息。
例如,对于上例中的候选文本信息ID1、ID2和ID4,ID1对应的索引词集包括索引词“疾病”、“心慌气短”;ID2对应的索引词集包括索引词“心慌气短”、“呕吐”、“疾病”;ID4对应的索引词集包括索引词“心慌气短”。则对于用户输入的查询输入信息“心慌气短呕吐”,其匹配词为“心慌气短”、“呕吐”,ID2对应的索引词集命中该查询输入信息对应的匹配词集中最多的匹配词,则将该候选文本信息ID2作为与该查询输入信息最相匹配的目标文本信息,或者,假设预定数量阈值为0,则上述候选文本信息ID1、ID2和ID4所对应的索引词集命中该匹配词集中的匹配词的数量均大于该预定数量阈值,则上述候选文本信息ID1、ID2和ID4均作为与该查询输入信息相匹配的目标文本信息。该匹配设备2提供给该用户时,可按照对应的索引词在该候选文本信息中的重要度的高低进行排序。
本领域技术人员应能理解上述确定目标文本信息的方式仅为举例,其他现有的或今后可能出现的确定目标文本信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,匹配设备2的各个步骤之间是持续不断工作的。具体地,在步骤S501中,匹配设备2获取用户输入的查询输入信息;在步骤S502中,匹配设备2对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词;在步骤S503中,匹配设备2根据所述主题词与标签词,在前述索引建立设备1建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息;在步骤S504中,匹配设备2根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。在此,本领域技术人员应理解“持续”是指匹配设备2的各步骤分别按照设定的或实时调整的工作模式要求进行查询输入信息的获取、主题与标签分析、候选文本信息的匹配查询与目标文本信息的确定,直至该匹配设备2在较长时间内停止获取用户输入的查询输入信息。
在此,索引建立设备1与匹配设备2的各步骤之间相互配合,以实现基于用户输入的查询输入信息,匹配获得与之对应的目标文本信息;基于百科类资源知识,或其他通过网络挖掘的资源知识,对其进行主题、标题的提取,形成对资源知识内容的有效描述,更好地展现这类优质资源知识,使得对这类资源知识的语义搜索更加高效,满足用户无法准确使用关键词表达的复杂描述搜索需求,提升了用户的使用体验。
优选地,所述主题词与标签词还可看作两个不同的域,分别对应主题域和标签域,在步骤S503中,匹配设备2根据该主题词与标签词,分别在主题域和标签域所对应的前述索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息。
具体地,在步骤S503中,匹配设备2根据在步骤S502中对用户输入的查询输入信息的分析所获得的主题词和标签词,采用分域匹配的方式,分别在该主题域和标签域所对应的索引中进行匹配查询,以获得候选文本信息。
在此,该主题域和标签域可以通过对该查询输入信息进行分析获得,例如,对用户输入的查询输入信息,利用前述的主题分类器对用户输入的查询输入信息进行分析,获得主题类别。
在此,主题域和标签域所对应的索引即前述索引建立设备1所建立的索引,根据之前建立的标签,对用户输入的查询输入信息进行标签词提取,如针对包含在该查询输入信息中且在标签集合里面的,则将其提取出来。然后,利用标签词和主题类别到对应的主题与标签统一索引中进行拉倒排文档的候选,将包含该主题类别或者标签的文档作为与该查询输入信息相对应的候选文本信息,参与后续计算。
较佳地,在步骤S503中,匹配设备2还可考虑该主题域和标签域所对应的权重,在对应的索引中进行匹配查询,综合考虑该主题域和标签域对应的权重,最终获得候选文本信息。
优选地,在步骤S504中,匹配设备2根据所述匹配词集所包括的匹配词,在所述候选文本信息所对应的索引词集中确定目标索引词集,其中,所述目标索引词集命中所述匹配词集中最多的匹配词;若所述目标索引词集与所述匹配词集的相似度大于预定阈值,将所述目标索引词集所对应的文本信息作为与所述查询输入信息相匹配的目标文本信息。
具体地,在步骤S504中,匹配设备2根据候选文本信息所对应的索引词集命中匹配词集中匹配词的数量,将命中匹配词数量最多的索引词集作为目标索引词集;随后,在步骤S504中,匹配设备2计算该目标索引词集与匹配词集的相似度,例如,分别计算目标索引词集与匹配词集中,命中的索引词与对应的匹配词之间的相似度,再通过简单相加或加权平均等方式,计算该目标索引词集与匹配词集的相似度,当该相似度大于预定阈值时,在步骤S504中,匹配设备2将该目标索引词集所对应的文本信息作为与该查询输入信息相匹配的目标文本信息。
在此,该预定阈值为根据目标索引词集与匹配词集的相似度,判断是否将目标索引词集对应的文本信息作为目标文本信息的相似度阈值,其值可以是固定的,也可根据实际情况做调整。
优选地,该方法还包括步骤S505(未示出)。在步骤S505中,匹配设备2对所述查询输入信息进行分词处理,获得经所述分词处理后的分词;将所述分词与所述匹配设备2在步骤S502中所获得的主题词与标签词进行合并处理,以获得与所述查询输入信息对应的匹配词集,其中,所述匹配词集中所包括的词作为匹配词。随后,在子步骤S504a中,匹配设备2根据所述匹配词集与所述候选文本信息所对应的索引词集,计算所述候选文本信息与所述查询输入信息的语义匹配度。
具体地,在步骤S505中,匹配设备2对在步骤S501中所获取的查询输入信息进行分词处理,以获得经分词处理后的分词,较佳地,在步骤S505中,匹配设备2还可对该分词处理后获得分词进行去除停用词等过滤处理,进而获得最终的分词;随后,在步骤S505中,匹配设备2根据所获得的分词,将其与匹配设备2在步骤S502中所获得的主题词与标签词进行合并处理、去冗余处理等,以最终获得与该查询输入信息相对应的匹配词集,并将该匹配词集中所包括的词作为与该查询输入信息对应的匹配词。
随后,在子步骤S504a中,匹配设备2根据所述匹配词集与所述候选文本信息所对应的索引词集,计算所述候选文本信息与所述查询输入信息的语义匹配度。
更优选地,该方法还包括步骤S506(未示出)。在步骤S506中,匹配设备2对所述匹配词进行后续处理,以更新所述匹配词集;其中,所述后续处理包括以下至少任一项:
-确定所述匹配词中所包括的相互同义的匹配词,将所述相互同义的匹配词合并为所述匹配词集的子集。
-对所述匹配词进行同义扩展,将同义扩展后得到的同义词与所述匹配词确定为所述匹配词集的子集。
具体地,在步骤S506中,匹配设备2对在步骤S505中所确定的匹配词集中的匹配词进行后续处理,以更新该匹配词集。例如,在步骤S506中,匹配设备2确定所述匹配词中所包括的相互同义的匹配词,将所述相互同义的匹配词合并为所述匹配词集的子集。由于匹配词中可能包括相互同义的匹配词,如“呕吐”和“吐”,在步骤S506中,匹配设备2将这些相互同义的匹配词合并为该匹配词集的子集。
例如,假设用户输入的查询输入信息为Q,在步骤S505中,匹配设备2对该查询输入信息进行分词处理,去除停用词等过滤处理之后,在标签域内的匹配词集表示为Q={a,b,c,d,e},其中,a,b,c,d,e分别为该匹配词集中所包括的匹配词;假设其中的匹配词a和b是相互同义的匹配词,则在步骤S506中,匹配设备2将该匹配词a和b合并为该匹配词集的子集,则该匹配词集更新表示为Q={{a,b},c,d,e}。随后,后续步骤如步骤S503进行后续的匹配查询操作。
又如,在步骤S506中,匹配设备2还对所述匹配词进行同义扩展,将同义扩展后得到的同义词与所述匹配词确定为所述匹配词集的子集。具体地,在步骤S506中,匹配设备2还可对该查询输入信息对应的匹配词集中的匹配词进行同义扩展,如将“心悸气短”同义扩展为“心慌气短”,随后,在步骤S506中,匹配设备2将该同义扩展后得到的同义词与该匹配词确定为该匹配词集的子集。
接上例,对于经同义合并后的匹配词集Q={{a,b},c,d,e},在步骤S506中,匹配设备2还可对该匹配词集进行同义扩展,扩展获得其中的匹配词a,b,c,d,e的同义词,并将该同义扩展后得到的同义词与该匹配词确定为该匹配词集的子集,例如,该匹配词集Q经多次同义扩展后,得到如下表达式:
Q = { ( w 11 1 , w 11 2 . . . w 11 k ) , ( w 12 1 , w 12 2 . . . w 1 2 k ) , . . . , ( w 1 m 1 , w 1 m 2 . . . w 1 m k ) }
随后,在步骤S503中,匹配设备2根据该匹配词集,在索引建立设备1所建立的索引中进行匹配查询,例如,经过倒排索引,获得包含
Figure BDA0000473323290000322
的候选文本信息。
假设将命中匹配词集中最多的匹配词的索引词集表示为C,则C为:
C = { ( w 21 1 , w 21 2 . . . w 21 k ) , ( w 22 1 , w 22 2 . . . w 22 k ) , . . . , ( w 2 n 1 , w 2 n 2 . . . w 2 n k ) }
其中,C表示同义命中的最大
Figure BDA0000473323290000332
w1i对应的位置语义映射的词集合
Figure BDA0000473323290000333
则在子步骤S504a中,匹配设备2根据所述匹配词集与所述候选文本信息所对应的索引词集,计算所述候选文本信息与所述查询输入信息的语义匹配度。
Q和C之间的语义匹配度可通过下式计算:
R ( Q , C ) = Σ w 1 k j = w 2 k j ( W Q ( w 1 k i ) * W C ( w 2 k j ) ) Σ t = 1 . . . m Wgy ( w 1 k t ) 2 Σ j = 1 . . . n Wgt ( w 2 k j ) 2 * Match ( T Q , T C )
其中,
Figure BDA0000473323290000335
表示词
Figure BDA0000473323290000336
的权重,这里用(log(TF)+1)*log(N/DF)表示;Match(TQ,TC)表示索引词集、匹配词集与主题是否匹配。
在此,Match(TQ,TC)对应的值可定义,如假设该索引词集、匹配词集与主题匹配,则Match(TQ,TC)的值为1,否则为0.5。
随后,假设该计算得出的语义匹配度值大于预定阈值,则在子步骤S504b中,匹配设备2将该索引词集所对应的文本信息作为与该查询输入信息相匹配的目标文本信息。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (19)

1.一种用于基于文本信息建立索引的方法,其中,该方法包括以下步骤:
A根据文本信息,从中确定结构化信息;
B自所述结构化信息中提取主题词;
C根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;
D为所述主题词与所述标签词建立索引。
2.根据权利要求1所述的方法,其中,该方法还包括:
-根据预定主题体系,获取与所述预定主题体系相对应的训练语料;
-根据所述训练语料,训练主题分类器;
其中,所述步骤B包括:
-根据所述主题分类器,自所述结构化信息中提取所述主题词。
3.根据权利要求1所述的方法,其中,所述步骤C包括:
C1根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的至少一个候选标签词;
C2根据所述至少一个候选标签词,确定对应的中心词;
C3根据所述至少一个候选标签词与所述中心词的距离,确定与所述主题相对应的标签词。
4.根据权利要求3所述的方法,其中,所述步骤C2包括:
-根据预定过滤规则,对所述至少一个候选标签词进行过滤处理,以获得至少一个经过滤处理后的候选标签词;
-根据所述至少一个经过滤处理后的候选标签词,确定所述中心词;
其中,所述预定过滤规则基于以下至少任一项来确定:
-所述至少一个候选标签词的词性;
-所述至少一个候选标签词的用词规则;
-所述至少一个候选标签词与所述主题的共现比。
5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:
-若所述标签词包括多个语义一致的标签词,确定所述多个语义一致的标签词的归一化结果;
其中,所述步骤D包括:
-为所述主题词、所述标签词及所述归一化结果建立索引。
6.一种根据权利要求1所建立的索引匹配用户的查询输入信息的方法,其中,该方法包括以下步骤:
a获取用户输入的查询输入信息;
b对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词;
c根据所述主题词与标签词,在如权利要求1所建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息;
d根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。
7.根据权利要求6所述的方法,其中,所述步骤d包括:
d1计算所述候选文本信息与所述查询输入信息的语义匹配度;
d2根据所述语义匹配度,结合预定匹配度阈值,确定与所述查询输入信息相匹配的目标文本信息。
8.根据权利要求7所述的方法,其中,该方法还包括:
-对所述查询输入信息进行分词处理,获得经所述分词处理后的分词;
-将所述分词与步骤b中所获得的主题词与标签词进行合并处理,以获得与所述查询输入信息对应的匹配词集,其中,所述匹配词集中所包括的词作为匹配词;
其中,所述步骤d1包括:
-根据所述匹配词集与所述候选文本信息所对应的索引词集,计算所述候选文本信息与所述查询输入信息的语义匹配度。
9.根据权利要求8所述的方法,其中,该方法还包括:
-对所述匹配词进行后续处理,以更新所述匹配词集;
其中,所述后续处理包括以下至少任一项:
-确定所述匹配词中所包括的相互同义的匹配词,将所述相互同义的匹配词合并为所述匹配词集的子集。
-对所述匹配词进行同义扩展,将同义扩展后得到的同义词与所述匹配词确定为所述匹配词集的子集。
10.一种用于基于文本信息建立索引的索引建立设备,其中,该设备包括:
信息确定装置,用于根据文本信息,从中确定结构化信息;
主题提取装置,用于自所述结构化信息中提取主题词;
标签确定装置,用于根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的标签词;
索引建立装置,用于为所述主题词与所述标签词建立索引。
11.根据权利要求10所述的索引建立设备,其中,该设备还包括主题训练装置,用于:
-根据预定主题体系,获取与所述预定主题体系相对应的训练语料;
-根据所述训练语料,训练主题分类器;
其中,所述主题提取装置用于:
-根据所述主题分类器,自所述结构化信息中提取所述主题词。
12.根据权利要求10所述的索引建立设备,其中,所述标签确定装置包括:
候选确定单元,用于根据所述主题词所对应的主题,自所述文本信息中确定与所述主题相对应的至少一个候选标签词;
中心词确定单元,用于根据所述至少一个候选标签词,确定对应的中心词;
标签确定单元,用于根据所述至少一个候选标签词与所述中心词的距离,确定与所述主题相对应的标签词。
13.根据权利要求12所述的索引建立设备,其中,所述中心词确定单元用于:
-根据预定过滤规则,对所述至少一个候选标签词进行过滤处理,以获得至少一个经过滤处理后的候选标签词;
-根据所述至少一个经过滤处理后的候选标签词,确定所述中心词;
其中,所述预定过滤规则基于以下至少任一项来确定:
-所述至少一个候选标签词的词性;
-所述至少一个候选标签词的用词规则;
-所述至少一个候选标签词与所述主题的共现比。
14.根据权利要求10至13中任一项所述的索引建立设备,其中,该设备还包括:
归一化装置,用于若所述标签词包括多个语义一致的标签词,确定所述多个语义一致的标签词的归一化结果;
其中,所述索引建立装置用于:
-为所述主题词、所述标签词及所述归一化结果建立索引。
15.一种根据权利要求10所建立的索引匹配用户的查询输入信息的匹配设备,其中,该设备包括:
查询获取装置,用于获取用户输入的查询输入信息;
信息分析装置,用于对所述查询输入信息进行主题与标签分析,以获得所述查询输入信息所对应的主题词与标签词;
匹配查询装置,用于根据所述主题词与标签词,在如权利要求10所建立的索引中进行匹配查询,以获得与所述查询输入信息相匹配的候选文本信息;
文本确定装置,用于根据所述候选文本信息与所述查询输入信息的语义匹配度,确定与所述查询输入信息相匹配的目标文本信息。
16.根据权利要求15所述的匹配设备,其中,所述文本确定装置包括:
匹配计算单元,用于计算所述候选文本信息与所述查询输入信息的语义匹配度;
文本确定单元,用于根据所述语义匹配度,结合预定匹配度阈值,确定与所述查询输入信息相匹配的目标文本信息。
17.根据权利要求16所述的匹配设备,其中,该设备还包括词集确定装置,用于:
-对所述查询输入信息进行分词处理,获得经所述分词处理后的分词;
-将所述分词与所述信息分析装置所获得的主题词与标签词进行合并处理,以获得与所述查询输入信息对应的匹配词集,其中,所述匹配词集中所包括的词作为匹配词;
其中,所述匹配计算单元用于:
-根据所述匹配词集与所述候选文本信息所对应的索引词集,计算所述候选文本信息与所述查询输入信息的语义匹配度。
18.根据权利要求17所述的匹配设备,其中,该设备还包括后续处理装置,用于:
-对所述匹配词进行后续处理,以更新所述匹配词集;
其中,所述后续处理包括以下至少任一项:
-确定所述匹配词中所包括的相互同义的匹配词,将所述相互同义的匹配词合并为所述匹配词集的子集。
-对所述匹配词进行同义扩展,将同义扩展后得到的同义词与所述匹配词确定为所述匹配词集的子集。
19.一种用于建立索引及匹配用户的查询输入信息的***,包括如权利要求10至14中任一项所述的索引建立设备,及如权利要求15至18中任一项所述的匹配设备。
CN201410079818.7A 2014-03-05 2014-03-05 一种建立索引及匹配用户的查询输入信息的方法和设备 Active CN103886034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410079818.7A CN103886034B (zh) 2014-03-05 2014-03-05 一种建立索引及匹配用户的查询输入信息的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410079818.7A CN103886034B (zh) 2014-03-05 2014-03-05 一种建立索引及匹配用户的查询输入信息的方法和设备

Publications (2)

Publication Number Publication Date
CN103886034A true CN103886034A (zh) 2014-06-25
CN103886034B CN103886034B (zh) 2019-03-19

Family

ID=50954926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410079818.7A Active CN103886034B (zh) 2014-03-05 2014-03-05 一种建立索引及匹配用户的查询输入信息的方法和设备

Country Status (1)

Country Link
CN (1) CN103886034B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置
CN106021225A (zh) * 2016-05-12 2016-10-12 大连理工大学 一种基于汉语简单名词短语的汉语最长名词短语识别方法
WO2017071370A1 (zh) * 2015-10-30 2017-05-04 华为技术有限公司 一种标签处理方法及装置
CN106815262A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
WO2017198039A1 (zh) * 2016-05-16 2017-11-23 中兴通讯股份有限公司 标签推荐方法及装置
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
CN107844596A (zh) * 2017-11-22 2018-03-27 福建中金在线信息科技有限公司 一种文章检索方法及***
CN107918778A (zh) * 2016-10-11 2018-04-17 阿里巴巴集团控股有限公司 一种信息匹配方法及相关装置
WO2018120447A1 (zh) * 2016-12-28 2018-07-05 北京搜狗科技发展有限公司 一种医案信息的处理方法、装置和设备
CN108255985A (zh) * 2017-12-28 2018-07-06 东软集团股份有限公司 数据索引构建方法、检索方法及装置、介质及电子设备
CN108416026A (zh) * 2018-03-09 2018-08-17 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
TWI638274B (zh) * 2016-04-12 2018-10-11 芋頭科技(杭州)有限公司 一種語義匹配方法及智能設備
CN109074363A (zh) * 2016-05-09 2018-12-21 华为技术有限公司 数据查询方法、数据查询***确定方法和装置
CN109101469A (zh) * 2017-06-21 2018-12-28 埃森哲环球解决方案有限公司 从数字化文档提取可搜索的信息
CN109213937A (zh) * 2018-11-29 2019-01-15 深圳爱问科技股份有限公司 智能搜索方法及装置
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN110209804A (zh) * 2018-04-20 2019-09-06 腾讯科技(深圳)有限公司 目标语料的确定方法和装置、存储介质及电子装置
CN110580276A (zh) * 2018-06-08 2019-12-17 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN111008265A (zh) * 2019-12-03 2020-04-14 腾讯云计算(北京)有限责任公司 企业信息搜索方法及装置
CN112765321A (zh) * 2021-01-22 2021-05-07 中信银行股份有限公司 接口查询方法及装置、设备、计算机可读存储介质
CN113377922A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 用于匹配信息的方法、装置、电子设备以及介质
CN113407671A (zh) * 2017-06-01 2021-09-17 互动解决方案公司 检索用资料信息存储装置
CN115687579A (zh) * 2022-09-22 2023-02-03 广州视嵘信息技术有限公司 文档标签生成及匹配方法、装置和计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694523A (en) * 1995-05-31 1997-12-02 Oracle Corporation Content processing system for discourse
US20050246320A1 (en) * 2004-04-29 2005-11-03 International Business Machines Corporation Contextual flyout for search results
US20120166414A1 (en) * 2008-08-11 2012-06-28 Ultra Unilimited Corporation (dba Publish) Systems and methods for relevance scoring
CN103177036A (zh) * 2011-12-23 2013-06-26 盛乐信息技术(上海)有限公司 一种标签自动提取方法和***
CN103294780A (zh) * 2013-05-13 2013-09-11 百度在线网络技术(北京)有限公司 一种目录映射关系挖掘方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5694523A (en) * 1995-05-31 1997-12-02 Oracle Corporation Content processing system for discourse
US20050246320A1 (en) * 2004-04-29 2005-11-03 International Business Machines Corporation Contextual flyout for search results
US20120166414A1 (en) * 2008-08-11 2012-06-28 Ultra Unilimited Corporation (dba Publish) Systems and methods for relevance scoring
CN103177036A (zh) * 2011-12-23 2013-06-26 盛乐信息技术(上海)有限公司 一种标签自动提取方法和***
CN103294780A (zh) * 2013-05-13 2013-09-11 百度在线网络技术(北京)有限公司 一种目录映射关系挖掘方法和装置

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017071370A1 (zh) * 2015-10-30 2017-05-04 华为技术有限公司 一种标签处理方法及装置
CN106815262A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106815262B (zh) * 2015-12-01 2020-07-03 北京国双科技有限公司 裁判文书的搜索方法及装置
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置
TWI638274B (zh) * 2016-04-12 2018-10-11 芋頭科技(杭州)有限公司 一種語義匹配方法及智能設備
CN109074363A (zh) * 2016-05-09 2018-12-21 华为技术有限公司 数据查询方法、数据查询***确定方法和装置
CN106021225A (zh) * 2016-05-12 2016-10-12 大连理工大学 一种基于汉语简单名词短语的汉语最长名词短语识别方法
CN106021225B (zh) * 2016-05-12 2018-12-21 大连理工大学 一种基于汉语简单名词短语的汉语最长名词短语识别方法
CN107391509A (zh) * 2016-05-16 2017-11-24 中兴通讯股份有限公司 标签推荐方法及装置
CN107391509B (zh) * 2016-05-16 2023-06-02 中兴通讯股份有限公司 标签推荐方法及装置
WO2017198039A1 (zh) * 2016-05-16 2017-11-23 中兴通讯股份有限公司 标签推荐方法及装置
CN107918778A (zh) * 2016-10-11 2018-04-17 阿里巴巴集团控股有限公司 一种信息匹配方法及相关装置
CN107918778B (zh) * 2016-10-11 2022-03-15 阿里巴巴集团控股有限公司 一种信息匹配方法及相关装置
CN108257676B (zh) * 2016-12-28 2020-03-03 北京搜狗科技发展有限公司 一种医案信息的处理方法、装置和设备
WO2018120447A1 (zh) * 2016-12-28 2018-07-05 北京搜狗科技发展有限公司 一种医案信息的处理方法、装置和设备
CN108257676A (zh) * 2016-12-28 2018-07-06 北京搜狗科技发展有限公司 一种医案信息的处理方法、装置和设备
CN108536708A (zh) * 2017-03-03 2018-09-14 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN113407671A (zh) * 2017-06-01 2021-09-17 互动解决方案公司 检索用资料信息存储装置
CN109101469B (zh) * 2017-06-21 2022-07-05 埃森哲环球解决方案有限公司 从数字化文档提取可搜索的信息
CN109101469A (zh) * 2017-06-21 2018-12-28 埃森哲环球解决方案有限公司 从数字化文档提取可搜索的信息
CN107436922A (zh) * 2017-07-05 2017-12-05 北京百度网讯科技有限公司 文本标签生成方法和装置
US10838997B2 (en) 2017-07-05 2020-11-17 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for generating text tag
CN107844596A (zh) * 2017-11-22 2018-03-27 福建中金在线信息科技有限公司 一种文章检索方法及***
CN108255985A (zh) * 2017-12-28 2018-07-06 东软集团股份有限公司 数据索引构建方法、检索方法及装置、介质及电子设备
CN108416026A (zh) * 2018-03-09 2018-08-17 腾讯科技(深圳)有限公司 索引生成方法、内容搜索方法、装置及设备
CN110209804A (zh) * 2018-04-20 2019-09-06 腾讯科技(深圳)有限公司 目标语料的确定方法和装置、存储介质及电子装置
CN110580276A (zh) * 2018-06-08 2019-12-17 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN110580276B (zh) * 2018-06-08 2022-06-28 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN109213937A (zh) * 2018-11-29 2019-01-15 深圳爱问科技股份有限公司 智能搜索方法及装置
CN111008265B (zh) * 2019-12-03 2023-03-28 腾讯云计算(北京)有限责任公司 企业信息搜索方法及装置
CN111008265A (zh) * 2019-12-03 2020-04-14 腾讯云计算(北京)有限责任公司 企业信息搜索方法及装置
CN112765321A (zh) * 2021-01-22 2021-05-07 中信银行股份有限公司 接口查询方法及装置、设备、计算机可读存储介质
CN113377922A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 用于匹配信息的方法、装置、电子设备以及介质
CN113377922B (zh) * 2021-06-25 2024-04-02 北京百度网讯科技有限公司 用于匹配信息的方法、装置、电子设备以及介质
CN115687579A (zh) * 2022-09-22 2023-02-03 广州视嵘信息技术有限公司 文档标签生成及匹配方法、装置和计算机设备

Also Published As

Publication number Publication date
CN103886034B (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
US10678816B2 (en) Single-entity-single-relation question answering systems, and methods
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN107451126B (zh) 一种近义词筛选方法及***
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及***
CN108491443B (zh) 由计算机实施的与用户对话的方法和计算机***
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
CN112650840A (zh) 一种基于知识图谱推理的医疗智能问答处理方法及***
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN109871543B (zh) 一种意图获取方法及***
CN106156365A (zh) 一种知识图谱的生成方法及装置
WO2015175931A1 (en) Language modeling for conversational understanding domains using semantic web resources
CN103956169A (zh) 一种语音输入方法、装置和***
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN102663129A (zh) 医疗领域深度问答方法及医学检索***
CN106372060A (zh) 搜索文本的标注方法和装置
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN109271524B (zh) 知识库问答***中的实体链接方法
CN108304424B (zh) 文本关键词提取方法及文本关键词提取装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant