CN104424216A - 用于意图挖掘的方法和设备 - Google Patents

用于意图挖掘的方法和设备 Download PDF

Info

Publication number
CN104424216A
CN104424216A CN201310371165.5A CN201310371165A CN104424216A CN 104424216 A CN104424216 A CN 104424216A CN 201310371165 A CN201310371165 A CN 201310371165A CN 104424216 A CN104424216 A CN 104424216A
Authority
CN
China
Prior art keywords
intention
inquiry
similar
intent information
input inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310371165.5A
Other languages
English (en)
Other versions
CN104424216B (zh
Inventor
黄耀海
张碧川
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CN201310371165.5A priority Critical patent/CN104424216B/zh
Publication of CN104424216A publication Critical patent/CN104424216A/zh
Application granted granted Critical
Publication of CN104424216B publication Critical patent/CN104424216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及用于意图挖掘的方法和设备。公开了一种用于意图挖掘的方法,所述方法包括:获取输入查询;针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型;针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题;通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集;以及通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。

Description

用于意图挖掘的方法和设备
技术领域
本发明涉及文本挖掘的方法和设备。特别地,本发明涉及用于挖掘意图的方法和设备。并且更特别地,本发明涉及发现用户所提出的查询背后的搜索意图的方法和设备。
背景技术
随着计算机和信息技术的不断发展,现在在整个世界中的信息产生的速率不断增加。现今世界中存在个人信息、职业信息、娱乐信息、科技信息、政府信息等诸多信息。因为信息过多,所以导致对信息的组织和访问成为问题。
为了改进用户在信息搜索过程中的体验,用于帮助用户访问其所寻找的信息的方法和***不断被研发。例如,在Santos,et al.2011.University of Glasgow at the NTCIR-9Intent task:Experiments withTerrier on Subtopic Mining and Document Ranking.Proceedings ofNTCIR-9Workshop Meeting,2011,Tokyo(非专利文献1)中提出了尝试理解用户所输入的查询背后的潜在意图。在用户输入简短并且含糊的查询的情况下,希望能够输出n个(例如,n=10)重要的并且多样化的最佳意图结果。表1示出了一种示例。
表1输入查询和输出的示例
例如,如表1所示,如果用户输入查询“becoming a paralegal”,则可以输出若干个与“becoming a paralegal”有关的意图,以供用户进行选择。
在意图挖掘处理中,通常用以下公式来评价意图挖掘结果的好坏:
D # - nDCG = I - rec + D - nDCG 2 - - - ( 1 )
其中I-rec(Intent recall)表示意图召回率,即在所获得的意图中,所获得的有用的意图的数量(即,所获得的正确结果)相对于希望获得的那些意图的数量(所有正确结果)的比率,往往用于度量意图的多样化;D-nDCG表示意图准确率(Intent precision),D-nDCG为多样化的归一化折扣累积增益(Diversified-Normalized DiscountedCumulative Gain),它基于位置计算搜索引擎返回的结果文档列表的相关度(参见Sakai和Song,Evaluating Diversified Search ResultUsing Per-intent Graded Relevance,Proceedings of SIGIR’11,2011Beijing(非专利文献2)),其用于度量意图的整体相关度;而D#-nDCG表示I-rec和D-nDCG的线性组合。
在上式中,I_rec、D-nDCG以及D#-nDCG是基于查询的真实状态数据(也称为标准答案,ground truth)被确定的,通常是通过将意图挖掘结果与真实状态数据进行比较来计算得到的,这些指标的获得是本领域公知的,因此将不再详细描述。
作为示例,在现有技术中,可通过如下方式来获得查询的真实状态数据。例如,真实状态数据可以是人为设定的。再如真实状态数据是由评注者所提供并且由多个人投票产生的。
在现有技术中,通常从全局性外部资源(例如搜索引擎、***、查询日志以及锚文本)挖掘多个意图候选,然后通过频率等参数对所挖掘出的意图候选进行排序,以得到用户所期望的意图。
例如在Xue,et al.2011.THUIR at NTCIR-9INTENT Task.Proceedings of NTCIR-9Workshop Meeting,2011,Tokyo(非专利文献3)中公开了一种用于意图挖掘的方法。该方法提取包含输入查询的搜索结果,然后基于搜索结果识别针对输入查询的意图候选,最后基于一定的准则对所述意图候选进行排序,以得到用户所期望的意图。
图1示出了在现有技术的非专利文献3中使用的用于意图挖掘的方法的流程图。如图1所示,在步骤S2100,获取用户输入的查询。接下来,在步骤S2110,从搜索引擎、***以及查询日志等全局性外部资源挖掘所述查询的意图候选。接下来,在步骤S2120,从所获得的意图候选中去除重复的意图候选。然后,在步骤S2130,利用意图候选出现的频率、共同出现的频率、点阅数据以及编辑距离等参数,对去除了重复的意图候选之后的剩余意图候选进行排序。最后,在步骤S2140,根据排序结果,选择位置靠前的意图候选作为用户所期望的意图,进行输出。
然而,但是根据实践,本领域技术人员发现,对于现有技术的非专利文献3所公开的方法,在意图信息(例如用户查询历史)稀少的情况下,所获得的意图可能与用户期望得到的意图不一致,即上述方法无法精确地提供用户希望得到的意图候选。因此,上述方法的意图挖掘性能较低。
此外,在美国专利US8,214,347B2(专利文献1)中提出了另一种用于意图挖掘的方法。在该方法中,从搜索结果中提取高频短语,然后通过使用某些预定的规则,来根据这些短语来挖掘意图。
图2示出了在现有技术的US8,214,347B2中使用的用于意图挖掘的方法的流程图。如图2所示,在步骤S2200,获取用户输入的查询。接下来,在步骤S2210中,针对用户输入的查询,提取搜索结果。接下来,在步骤S2220进行意图候选的挖掘,包括在搜索结果中识别包含输入查询的短语,以及利用短语出现的频率、共同出现的频率、点阅数据以及编辑距离等特征确定最优短语,作为意图候选。然后,在步骤S2230,对意图候选进行排序。最后,在步骤S2240,根据排序结果,选择位置靠前的意图候选作为用户所期望的意图,进行输出。
然而,但是根据实践,本领域技术人员发现,对于现有技术的US8,214,347B2所公开的方法,在意图信息(例如用户查询历史)稀少的情况下,所获得的意图可能与用户期望得到的意图不一致,即上述方法没有精确地提供用户希望得到的意图候选。因此,上述方法的意图挖掘性能也较低。
因此,需要提出一种新的技术来解决上述现有技术中存在的问题。
发明内容
本发明的一个目的是提高意图挖掘的准确度。
本发明的另一个目的是提高意图召回率。
根据本发明的一个方面,提供了一种用于意图挖掘的方法,所述方法包括:获取输入查询;针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型;针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题;通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集;以及通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。
根据本发明的另一方面,提供了一种用于信息检索的方法,包括:接收用户采用自然语言的输入查询;根据上述用于意图挖掘的方法从所述输入查询进行意图挖掘;以及获得所挖掘意图的搜索结果。
根据本发明的又一方面,提供了一种用于问答辅助的方法,包括:接收用户采用自然语言的输入查询;根据上述用于意图挖掘的方法从所述输入查询挖掘主题;以及获得针对所挖掘的主题的答案。
根据本发明的又一方面,提供了一种用于意图挖掘的设备,所述设备包括:输入查询获取单元,获取输入查询;意图类似查询生成单元,针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型;第一意图挖掘单元,针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题;类似意图信息描述集确定单元,通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集;以及第二意图挖掘单元,通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。
根据本发明的又一方面,提供了一种用于信息检索的设备,包括:输入查询接收单元,接收用户采用自然语言的输入查询;上述用于意图挖掘的设备,从所述输入查询进行意图挖掘;以及搜索结果获得单元,获得所挖掘意图的搜索结果。
根据本发明的又一方面,提供了一种用于问答辅助的设备,包括:输入查询接收单元,接收用户采用自然语言的输入查询;上述用于意图挖掘的设备,从所述输入查询挖掘主题;以及答案获得单元,获得针对所挖掘的主题的答案。
本发明的优点之一在于,意图挖掘的准确度得以提高。尤其是在意图信息稀少的情况下,也能够精确地提供用户所希望得到的意图候选。
本发明的优点中的另一个在于,意图召回率得到提高。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本发明,其中:
图1示出了在现有技术的非专利文献3中使用的用于意图挖掘的方法的流程图。
图2示出了在现有技术的US8,214,347B2(专利文献1)中使用的用于意图挖掘的方法的流程图。
图3是示出能够实施本发明的实施方式的计算机***1000的硬件配置的框图。
图4示出了根据本发明的实施方式的通过使用意图类似查询来进行意图挖掘的方法的流程图。
图5示出了根据本发明的实施方式生成意图类似查询的方法的流程图。
图6示出了根据本发明的实施方式由意图类似查询库生成意图类似查询的方法的流程图。
图7示出了根据本发明的实施方式使用领域本体生成意图类似查询的方法的流程图。
图8示出了根据本发明的实施方式使用意图类似指示符生成意图类似查询的方法的流程图。
图9示出了根据本发明的实施方式、针对所述输入查询生成意图类似查询的方法的流程图。
图10示出了根据本发明的实施方式、识别输入查询的核心意图部分和修饰语部分的方法的流程图。
图11示出了根据本发明的实施方式、通过词法分析手段来确定类似意图信息描述集的方法的流程图。
图12示出了根据本发明的实施方式、通过语法分析手段来确定类似意图信息描述集的方法的流程图。
图13示出了根据本发明的实施方式、通过语义关系分析手段来确定类似意图信息描述集的方法的流程图。
图14示出了根据本发明的实施方式、通过逻辑分析手段来确定类似意图信息描述集的方法的流程图。
图15示出了根据本发明的实施方式的通过使用意图类似查询来进行意图挖掘的另一种方法的流程图。
图16示出了根据本发明的实施方式的用于信息检索的方法的流程图。
图17示出了根据本发明的实施方式的用于问答辅助的方法的流程图。
图18示出了根据本发明的实施方式的用于挖掘意图的设备7000的功能框图。
图19示出了根据本发明的实施方式的用于信息检索的设备8000的功能框图。
图20示出了根据本发明的实施方式的用于问答辅助的设备9000的功能框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图3是示出能够实施本发明的实施方式的计算机***1000的硬件配置的框图。
如图3中所示,计算机***包括计算机1110。计算机1110包括经由***总线1121连接的处理单元1120、***存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出***接口1195。
***存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出***)1133驻留在ROM1131中。操作***1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作***1144、应用程序1145、其它程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被***到软盘驱动器1151中,以及CD(光盘)1156可以被***到CD-ROM驱动器1155中。
诸如鼠标1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出***接口1195连接到打印机1196和扬声器1197。
图3所示的计算机***仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
图3所示的计算机***可以被实施于任何实施方式,可作为独立计算机,或者也可作为设备中的处理***,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
图4示出了根据本发明的实施方式的通过使用意图类似查询来进行意图挖掘的方法的流程图。
如图4所示,首先,在步骤S3100,获得用户输入的查询。本领域技术人员能够理解,用户所输入的查询能够采用各种语言,包括但不限于:中文、英语、日语、韩语、德语、法语、俄语、***语等等。
例如,用户所输入的查询可以是“becoming a paralegal”。针对该查询,用户所希望得到的真实状态数据(即,标准答案)在表2中示出。
表2对于查询“becoming a paralegal”的真实状态数据
在表2中,所谓的“意图类型”是指意图和相应查询的关系。为了清楚起见,表3示出了意图类型的一些示例。
查询 意图 意图类型
becoming a paralegal becoming a paralegal class Course(课程)
becoming a paralegal becoming a paralegal degree Degree(职位)
becoming a engineer becoming a engineer class Course(课程)
becoming a engineer Requirement of becoming a engineer Require(要求)
表3意图类型示例
如表3所示,如果输入的查询为“becoming a paralegal”,而相应的意图是“becoming a paralegal class”,则相应的意图类型就是“course(课程)”,即“becoming a paralegal class”涉及“course”方面的信息。如果输入的查询为“becoming a paralegal”,而相应的意图是“becoming a paralegal degree”,则相应的意图类型就是“degree(职位)”,即“becoming a paralegal degree”涉及“degree”方面的信息。
继续参照图4,接下来,在步骤S3110,针对输入的查询生成意图类似查询。其中,每一个意图类似查询具有与所述输入查询相同或类似的意图类型。
如果查询是类似的,它们可能具有相同或相似的意图类型,这意味着当用户搜索一个查询的信息时,他去搜索该查询的某个子主题,并且当其他用户搜索类似的查询时,所搜索的子主题可能相同。例如,用户搜索“becoming a paralegal”,一种普遍的意图是找到“the courseof paralegal(辅助律师的课程)”,而如果用户搜索“becoming anengineer”,一种普遍的意图是找到“the course of engineer(工程师的课程)”。对于“becoming a‘position’”的其它意图查询而言,这种意图也是普遍的。因此,我们可以使用意图类似查询来挖掘针对用户查询的意图。
图5示出了根据本发明的实施方式生成意图类似查询的方法的流程图。如图5所示,首先,在步骤S3210,针对用户输入的查询,生成多个意图类似查询。如在下文中所描述的,可以使用多种方法来生成多个意图类似查询。接下来,在步骤S3220,计算所述意图类似查询中的每个查询与所述输入查询之间的类似度。计算所述意图类似查询中的每个查询与所述输入查询之间的类似度的方法将下文更详细地描述。最后,在步骤S3230,从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询,作为输出。
当输入查询是简单词时,可以采用图6所示的方法来生成多个意图类似查询。如图6所示,在步骤S3310,通过检查意图类似查询库来生成意图类似查询。例如,意图类似查询库保持有流行音乐明星的列表,当输入查询涉及新出现的流行音乐明星时,可以选择与该新出现的流行音乐明星类似的流行音乐明星作为意图类似查询。接下来,在步骤S3320,计算所述意图类似查询中的每个查询与所述输入查询之间的类似度。计算意图类似查询中的每个查询与所述输入查询之间的类似度的方法将在下文中更详细地描述。最后,在步骤S3330,从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询,作为输出。
此外,还可以采用图7所示的方法来生成意图类似查询。如图7所示,在步骤S3410中,通过检查领域本体来生成多个意图类似查询,即,在领域本体中获得所述输入查询的一个或多个同级节点作为所述意图类似查询。所述“领域本体”是结构化的百科知识网络,例如***。例如,如果输入的查询是“瓦努阿图”。在地理学本体中,“瓦努阿图”是一个大洋洲国家。因此,可以通过地理学本体,选择“斐济”、“印度尼西亚”、“基里巴斯”、“马绍尔群岛”等作为意图类似查询。接下来,在步骤S3420,计算所述意图类似查询中的每个查询与所述输入查询之间的类似度。计算意图类似查询中的每个查询与所述输入查询之间的类似度的方法将在下文中更详细地描述。最后,在步骤S3430,从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询,作为输出。
另选地和/或附加地,还可以在语言字典中获得所述输入查询的邻近概念作为所述意图类似查询。
另选地和/或附加地,还,可以通过基于与所述输入查询相关联的点阅数据计算意图类似性来从查询日志中获得一个或多个查询作为所述意图类似查询。
此外,还可以采用图8所示的方法来生成意图类似查询。如图8所示,在步骤S3510,通过使用意图类似指示符来生成意图类似查询。所述意图类似指示符包括以下各项中的至少一项:并列关系指示符,其中通过所述并列关系指示符连接的两个短语在句子中用作相同的语法元素,例如“和”、“与”、“and”、“with”、等等;对比关系指示符,其中句子中的第一短语与通过所述对比关系指示符连接在所述第一短语之后的第二短语处于对比关系,例如“相对于”、“相比于”、“vs”、“compared to”、等等;以及选择关系指示符,其中通过所述选择关系指示符连接的两个短语在句子中形成选择性表达,例如“或”、“在……之中”、“在……之间”、“or”、“between”、“among”、等等。所述意图类似指示符表明通过其所链接的短语可以是候选的意图类似查询。
换言之,在步骤S3510中,从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询、意图类似指示符以及第三短语;以及从每一个查询对短语提取所述第三短语,作为所述意图类似查询。
例如,如果所输入的查询是“压力式清洗机”,可以从数据源得到以下句段(sentence segment):
压力式清洗机vs冷高压清洗机;
压力式清洗机vs气动清洗机;
压力式清洗机和空气压缩机;
压力式清洗机和蒸汽清洁机;
剪草机或压力式清洗机。
因此,针对查询“压力式清洗机”,可以选择“冷高压清洗机”、“气动清洗机”、“空气压缩机”、“蒸汽清洁机”和“剪草机”作为意图类似查询。
接下来,在步骤S3520,计算所述意图类似查询中的每个查询与所述输入查询之间的类似度。计算意图类似查询中的每个查询与所述输入查询之间的类似度的方法将在下文中更详细地描述。最后,在步骤S3530,从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询,作为输出。
此外,当输入查询为多词查询时,可以使用图9所示的方法来生成意图类似查询。如图9所示,首先,在步骤S3610,识别作为多词查询的所述输入查询的核心意图部分和修饰语部分。
图10示出了根据本发明的实施方式,识别输入查询的核心意图部分和修饰语部分的方法的流程图。如图10所示,首先,在步骤S3710,针对输入查询的每个语义单元生成扩展查询。即,解析所述输入查询,以将所述输入查询划分为多个语义单元(多个词);对于所述输入查询的所划分的每个语义单元,生成由所划分的语义单元和改变部分构成的临时意图类似查询(扩展查询),其中所述改变部分是针对所述输入查询的其它语义单元生成的意图类似短语。在一种实施方式中,所述意图类似短语(改变部分)的生成可以包括:从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询的其它语义单元、意图类似指示符以及第三短语;以及从每一个查询对短语提取所述第三短语,作为所述意图类似短语(改变部分)。
接下来,在步骤S3720,对于所述输入查询的所划分的每个语义单元,针对每个临时意图类似查询(扩展查询)挖掘一组意图,其中每个意图提供针对相应的临时意图类似查询的子主题。对于所述输入查询的所划分的每个语义单元,通过比较相应语义单元的临时意图类似查询的意图组来计算一致度,其中所述一致度是对于相应语义单元的临时意图类似查询的意图类似性的度量,如果存在于临时意图类似查询的意图中的意图类型更普遍,则所述一致度越高。
接下来,在步骤S3730,将所述输入查询中具有最高一致度的语义单元确定为所述输入查询的核心意图部分,并将其它语义单元确定为所述输入查询的修饰语部分。
例如,对于输入查询“becoming a paralegal”,使用上述方法,对于每个词生成扩展查询。表4示出了针对多词查询的查询词和相应的扩展查询的示例。
表4针对多词查询的查询词和相应的扩展查询的示例
然后,针对每个扩展查询,使用传统的方法来生成意图,并通过比较针对每一个语义单元挖掘的意图组来计算一致度。
在一种实施方式中,所述一致度可以如下计算:
Consi = N PopIntent N AllIntent - - - ( 1 )
其中,NAllInetent表示针对每一个语义单元的扩展查询所获得的所有意图,NPopIntent表示在多于5个查询中存在的意图信息描述。
例如,在“becoming a Engineer”,“becoming a Accountant”,“becoming a Law clerk”之类的意图中,普遍存在“becoming a*class”,“becoming a*degree”,“becoming a*training”之类的意图类型。然而,在“training paralegal”,“severing paralegal”,“supervising a paralegal”,“directing a paralegal”之类的意图中,很少有普遍存在的意图类型。因此对于输入查询“becoming a paralegal”,“becoming”的一致度比“paralegal”高。在本例中,通过数据分析,“becoming”的一致度是0.81,而“paralegal”的一致度是0.03。因此在该查询中,核心意图部分是“becoming”,修饰语部分是“paralegal”,查询的意图主要由“becoming”确定。
返回参照图9,在步骤S3620中,通过用多种替代部分替换所述输入查询的修饰语部分来生成所述意图类似查询,其中每个替代部分是针对所述修饰语部分生成的意图类似短语,其中每个意图类似短语具有与所述输入查询的修饰语部分相同或类似的意图类型。在一种实施方式中,意图类似短语(替代部分)的生成包括:从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述修饰语部分、意图类似指示符以及第三短语;以及从每一个查询对短语提取所述第三短语,作为所述意图类似短语(替代部分)。
接下来,可以在步骤S3630,计算所述意图类似查询中的每个查询与所述输入查询之间的类似度。计算意图类似查询中的每个查询与所述输入查询之间的类似度的方法将在下文中更详细地描述。最后,可以在步骤S3640,从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询,作为输出。
另选地,当所述输入查询是多词查询时,也可以仅仅针对所述输入查询的核心意图部分生成意图类似短语,作为所述意图类似查询。具体地讲,当所述输入查询是多词查询时,针对所述输入查询生成意图类似查询可以包括:识别所述输入查询的核心意图部分和修饰语部分;然后生成所述输入查询的核心意图部分的意图类似短语,作为所述意图类似查询。
然后,还可以使用下面描述的方法计算所述意图类似查询中的每个查询与所述输入查询之间的类似度。最后,可以从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询,作为输出。
其中,可以通过参照图10描述的方法来识别所述输入查询的核心意图部分和修饰语部分。首先,解析所述输入查询,以将所述输入查询划分为多个语义单元(多个词);对于所述输入查询的所划分的每个语义单元,生成由所划分的语义单元和改变部分构成的临时意图类似查询,其中所述改变部分是针对所述输入查询的其它语义单元生成的意图类似短语。在一种实施方式中,所述意图类似短语(改变部分)的生成可以包括:从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询的其它语义单元、意图类似指示符以及第三短语;以及从每一个查询对短语提取所述第三短语,作为所述意图类似短语(改变部分)。接下来,对于所述输入查询的所划分的每个语义单元,针对每个临时意图类似查询挖掘一组意图,其中每个意图提供针对相应的临时意图类似查询的子主题。对于所述输入查询的所划分的每个语义单元,通过比较相应语义单元的临时意图类似查询的意图组来计算一致度,其中所述一致度是对于相应语义单元的临时意图类似查询的意图类似性的度量,如果存在于临时意图类似查询的意图中的意图类型更普遍,则所述一致度越高。最后,将所述输入查询中具有最高一致度的语义单元确定为所述输入查询的核心意图部分,并将其它语义单元确定为所述输入查询的修饰语部分。此外,在一种实施方式中,生成所述输入查询的核心意图部分的意图类似短语包括:从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询的核心意图部分、意图类似指示符以及第三短语;以及从每一个查询对短语提取所述第三短语,作为所述意图类似查询。
例如,如果输入查询是“black history”,可以确定该输入查询的核心意图部分是“history”。可以不考虑修饰语部分“black”,而仅仅生成“history”的意图类似短语,例如“history timeline”、“studyof history”、“list of famous history”、“resources history”等,作为意图类似查询。
下面,描述计算意图类似查询中的查询与输入查询之间的类似度的方法。所述意图类似查询中的每个查询与所述输入查询之间的类似度通过以下各项中的至少一项来计算。
(1)所述查询与所述输入查询的一致度,如果所述意图类似查询中的查询与所述输入查询的意图类型越相似,则它们之间的类似度越高;
(2)所述查询与所述输入查询的词汇类似性,如果所述意图类似查询中的查询与所述输入查询的形式越相似,则这两个查询之间的类似度越高,例如“car”、“motorbike”、“motorscooter”的类似度比“motorbike”、“bike”的类似度高;
(3)所述查询与所述输入查询的语法类似性,如果所述意图类似查询中的查询与所述输入查询在上下文(片段或文档)环境中的语法模式越相似,则这两个查询之间的类似度越高,例如相对于“ride abike”,“drive a car”和“drive a motor”的类似度更高;
(4)所述查询与所述输入查询的语义类似性,如果所述意图类似查询中的查询与所述输入查询在含义上越相似,则这两个查询的类似度越高;
(5)所述查询与所述输入查询在所准备的文集中的上下文类似性,如果所述意图类似查询中的查询与所述输入查询的上下文(片段或文档)越相似,则这两个查询的类似度越高;
(6)所述查询与所述输入查询在查询日志中的共同出现率,如果所述意图类似查询中的查询与所述输入查询在查询日志中共同出现得越频繁,则这两个查询的类似度越高;
(7)所述查询与所述输入查询在领域本体中的距离,例如英国、日本和法国都是国家,但是由于英国和法国在本体中都是欧洲国家,因此英国和法国的类似度高于英国和日本的类似度;以及
(8)所述查询与所述输入查询的点阅数据的相似性,如果所述意图类似查询中的查询与所述输入查询的点阅数据的曲线相似,则这两个查询类似。
此外,所述意图类似查询中的每个查询与所述输入查询之间的类似度还可以通过至少一项现实世界信息来计算,所述现实世界信息至少包括:时间、位置、用户模型、以及环境。
例如,所输入的查询是“菲尼克斯大学”,而所生成的意图类似查询可以如表5所示。
表5“university of phoenix”的意图类似查询
当用户在北京进行搜索时,用户可能希望获得作为“美国的大学”的“university of phoenix”的信息,而当用户在美国亚利桑那州Mesa市进行搜索时,他可能希望知道作为“亚利桑那州的大学”的“university of phoenix”的信息,因此对于处于不同位置的这两个用户而言,针对每个所生成的意图类似查询的类似度是不同的。
对于处于北京的用户而言,最类似的查询可能是StanfordUniversity、Harvard University、Massachusetts Institute of Technology和University of Pennsylvania。而对于处于美国亚利桑那州Mesa市的用户而言,最类似的查询可能是Western International University、GrandCanyon University、University of Arizona和Northern Arizona University。
此外,本领域技术人员能够理解,如果用户的身份、所使用的设备(比如计算机、手机、打印机等)不同,针对所输入查询的意图类似查询的类似度也是不同的。
此外,本领域技术人员能够理解,可以以任意的方式组合以上各种生成意图类似查询的方式。
返回参看图4,在步骤S3120,通过使用现有技术中的方法,针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题。
接下来,在步骤S3130,通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集。类似意图信息描述是相应意图类型的语言形式。例如,如在表2中所示出的,“becoming a paralegal class”的意图类型是“course(课程)”,但是在本发明中,我们不需要识别所述意图的意图类型,而只需要仅仅提取该意图的类似意图信息描述。例如对于“becoming a paralegal class”而言,提取“*class”即可。
类似意图信息描述可以通过输入查询来生成,例如使用“becoming a engineer class”和“steps on becoming a lawyer”来生成类似意图信息描述“becoming a paralegal class”和“steps onbecoming a paralegal”。此外,所述类似意图信息描述也可以通过输入查询的正规表达来呈现。例如查询“becoming a paralegal”的意图类似查询是“becoming a paralegal class”,查询“becoming a engineers”的意图类似查询是“becoming a engineer class”,因此,类似意图信息描述可以表示为“*class”。
根据本发明的一种实施方式,可以通过下述步骤来确定所述类似意图信息描述集:分析所述意图类似查询的全部的意图组中的每一个意图的语言形式;确定所述语言形式中相应意图类似查询的语言形式和其余语言形式之间的至少一种查询意图关系;对应于所确定的至少一种查询意图关系将每一个意图的语言形式变换为正规表达;以及将变换获得的正规表达添加到所述类似意图信息描述集中。
优选地,确定所述类似意图信息描述集可以进一步包括:扩展每一个意图组,包括:对于该意图组中的每一个意图,通过以意图中的至少一个词的同义词或近义词来替换该至少一个词而生成同义短语,其中所述至少一个词不在相应的意图类似查询中,以及将所产生的同义短语添加到该意图组中。
类似意图信息描述可以具有多种类型,例如词汇型类似意图信息描述、语法型类似意图信息描述、语义型类似意图信息描述和逻辑型类似意图信息描述。
根据本发明的实施方式,可以对意图类似查询的全部的意图组中的每一个意图进行词法分析、语法分析、语义关系分析和逻辑分析中的任意一种或多种(以任意顺序),并将所得到的类似意图信息描述组合起来,从而确定所述类似意图信息描述集。
图11示出了根据本发明的实施方式、通过词法分析手段来确定类似意图信息描述集的方法的流程图。
如图11所示,首先在步骤S4100,通过词法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种词法规则。如果相应的意图类似查询满足至少一种词法规则,则接下来,在步骤S4110,对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图。接下来,在步骤S4120,确定具有词汇和通配符形式的词汇型类似意图信息描述,即将所述变换的意图作为具有词汇和通配符形式的词汇型类似意图信息描述,将该词汇型类似意图信息描述作为所述正规表达;并将所述正规表达添加到类似意图信息描述集中。
例如,如果输入的查询是“scooter”,可以生成以下的示例词汇型类似意图信息描述:
*store
electronic*
online
cheap*
*motor
图12示出了根据本发明的实施方式、通过语法分析手段来确定类似意图信息描述集的方法的流程图。
如图12所示,首先在步骤S4200,通过语法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语法规则。如果相应的意图类似查询满足至少一种语法规则,则接下来在步骤S4210,对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图。接下来,在步骤S4220,确定具有语法规则和通配符形式的语法型类似意图信息描述,即将所述变换的意图作为具有语法规则和通配符形式的语法型类似意图信息描述,将该语法型类似意图信息描述作为所述正规表达;并将所述正规表达添加到类似意图信息描述集中。
例如,对于输入查询“scooter”,可以生成以下的示例语法型类似意图信息描述:
*/prep/kids
how to/verb/*
*/prep/sale
图13示出了根据本发明的实施方式、通过语义关系分析手段来确定类似意图信息描述集的方法的流程图。
如图13所示,首先在步骤S4300,通过语义关系分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语义关系。如果相应的意图类似查询满足至少一种语义关系,则接下来在步骤S4310,对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的语义标记替换该其余语言形式,而得到变换的意图。接下来,在步骤S4320,确定具有语义标记和通配符形式的语义型类似意图信息描述,即将所述变换的意图作为具有语义标记和通配符形式的语义型类似意图信息描述,将该语义型类似意图信息描述作为所述正规表达;并将所述正规表达添加到类似意图信息描述集中。
例如,对于输入查询“scooter”,可以生成以下的示例语义型类似意图信息描述:
*<brand>
*<company>
图14示出了根据本发明的实施方式、通过逻辑分析手段来确定类似意图信息描述集的方法的流程图。
如图14所示,首先在步骤S4400,通过逻辑分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种逻辑关系。如果相应的意图类似查询满足至少一种逻辑关系,则接下来在步骤S4410,对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的逻辑类型替换该其余语言形式,而得到变换的意图。接下来,在步骤S4420,确定具有逻辑类型和通配符形式的逻辑型类似意图信息描述,即将所述变换的意图作为具有逻辑类型和通配符形式的逻辑型类似意图信息描述,将该逻辑型类似意图信息描述作为所述正规表达;并将所述正规表达添加到类似意图信息描述集中。
例如,对于输入查询“scooter”,可以生成以下的示例逻辑型类似意图信息描述:
*[version of](Word)
(Word)[place of]*
如前所述,可以对意图类似查询的全部的意图组中的每一个意图进行词法分析、语法分析、语义关系分析和逻辑分析中的任意一种或多种。例如,可以对意图类似查询的全部的意图组中的每一个意图仅仅进行词法分析、语法分析、语义关系分析和逻辑分析中单独的一种分析,也可以对意图类似查询的全部的意图组中的每一个意图仅仅进行词法分析、语法分析、语义关系分析和逻辑分析中的全部四种分析。因此,所得到的类似意图信息描述集可包括词汇型类似意图信息描述、语法型类似意图信息描述、语义型类似意图信息描述和逻辑型类似意图信息描述中的一种或多种。
此外,在一种实施方式中,确定所述类似意图信息描述集可以进一步包括:计算所述类似意图信息描述集中每一个类似意图信息描述的置信度;以及从所述类似意图信息描述集中选择置信度最高的特定数量的类似意图信息描述或者置信度大于预定阈值的类似意图信息描述。
此外,所述置信度可以使用以下各项中的至少一项来计算:类似意图信息描述的频率;类似意图信息描述的覆盖率;以及类似意图信息描述与输入查询的相关性。
此外,所述置信度可以从以下各项中的至少一项计算:所述类似意图信息描述集;所准备的意图训练集;以及所准备的领域信息。
此外,从所述类似意图信息描述集计算类似意图信息描述的置信度可以进一步包括:根据意图类似查询的流行度来对所述类似意图信息描述集中的相应类似意图信息描述配置不同的权重;和/或根据意图类似查询与所述输入查询之间的类似度来对所述类似意图信息描述集中的相应类似意图信息描述配置不同的权重。
还是以先前的查询“university of phoenix”大学为例。对于处于北京的用户,由于Stanford University、Harvard University、MassachusettsInstitute of Technology和University of Pennsylvania的类似度高,因此可以为这些意图类似查询分配更高的权重。表6示出了对“university ofphoenix”的各个意图类似查询所分配的权重。
表6“university of phoenix”的意图类似查询的权重示例
因此,对于输入查询“university of phoenix”,“university of*”形式的类似意图信息描述获得的权重更高。
返回参看图4,接下来在步骤S3140,通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。在一种实施方式中,可以通过以输入查询替换类似意图信息描述集中类似意图信息描述中的通配符来生成针对所述输入查询的意图。例如,如果输入查询为“becominga paralegal”,而类似意图信息描述为“step to*”,则可以生成新的意图“step to becoming a paralegal”,并可将所生成的意图输出。
图15示出了根据本发明的实施方式的通过使用意图类似查询来进行意图挖掘的另一种方法的流程图。图15所示的方法通过将现有技术中的意图挖掘方法与根据本发明的方法组合起来,以实现更为精确的意图挖掘。出于简明的目的,本实施方式中的与参照图4所描述的实施方式中相同的步骤的详细描述将被省略。
如图15所示,首先,在步骤S5100,获得用户输入的查询。本领域技术人员能够理解,用户所输入的查询能够采用各种语言,包括但不限于:中文、英语、日语、韩语、德语、法语、俄语、***语等等。例如,用户所输入的查询可以是“becoming a paralegal”。
接下来,在步骤S5110,通过使用现有技术中已知的方法从搜索引擎、***以及查询日志等全局性外部资源挖掘所述输入查询的一组意图候选。接下来,在步骤S5120,从所获得的意图候选中去除重复的意图候选。接下来,在步骤S5130,对意图候选进行排序,以得到第一组意图。
表7示出了对于用户所输入的查询“becoming a paralegal”,通过使用现有技术中已知的方法获得的第一组意图。
表7对于“becoming a paralegal”获得的第一组意图
继续参照图15,通过使用本发明所述方法来挖掘针对所述输入查询的第二组意图。即,在步骤S3110,针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型。在步骤S3120,针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题。在步骤S3130,通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集。在步骤S3140,通过使用所述类似意图信息描述集来挖掘针对所述输入查询的第二组意图。
接下来步骤S5140,对第一组意图和第二组意图的组合进行排序。在一种实施方式中,仅出现在第一组意图中的意图可以被删除。
在另一种实施方式中,还可以通过使用所述类似意图信息描述集和所述第一组意图来挖掘针对所述输入查询的第二组意图。一种实施方式包括:通过以输入查询来替换所述类似意图信息描述集中的至少一个类似意图信息描述中的通配符来生成至少一个意图,其中所述至少一个意图不在第一组意图中;以及在第一组意图中添加所生成的至少一个意图,并将添加了所生成的至少一个意图的第一组意图作为所述第二组意图。
然而,某些查询可能具有不存在于意图类似查询的意图中的特有意图。在本发明的一些实施例中,对这些特有意图进行特别处理。例如,对于输入查询“last supper painting”,在表8中示出关于该输入查询的第一组意图。
表8关于“last supper painting”的第一组意图
从表8可以看出,在意图类似查询针对达芬奇的其它油画的情况下,“last supper painting Jesus”和“Last Supper Painting Milan Italy”是该查询所特有的。而在意图挖掘过程中,希望将这些特有意图保留下来。因此,根据本发明的实施方式,通过使用所述类似意图信息描述集和所述第一组意图来挖掘针对所述输入查询的第二组意图的另一种实施方式包括:通过使用所述类似意图信息描述集对针对所述输入查询的第一组意图进行排序。该实施方式进一步包括:识别针对所述输入查询的第一组意图中的特有意图;根据特有意图的特有度,提高特有意图在所述排序中的权重;其中,通过以下各项中的至少一项来计算特有意图的特有度:在所准备的意图训练集中输入查询与特有意图的共同出现率;输入查询与特有意图在领域知识中的关系;特有意图在点阅数据中的频率;以及特有意图在查询日志中的流行度。
继续参照图15,在步骤S5150,根据用户的要求将意图输出。例如,可以输出特定数量的意图。表9示出了针对输入查询“becominga paralegal”所输出的意图。显然,参照表2所示出的真实状态数据(标准答案),所得到的结果相比于通过现有技术所得到的第一组结果更符合用户的要求。
表9针对输入查询“becoming a paralegal”,通过本发明的方法所输出的意图
本发明的发明人对根据本发明的图15的方法与现有技术中的方法进行了比较测试。经过测试,图1所示的方法是现有技术中性能最好的方法。因此,选择图1所示的方法作为本发明方法的对比。
利用现有技术的图1所示的方法从搜索引擎、***、查询日志和锚文本等全局性外部资源挖掘所述查询的意图候选,并通过出现频率对意图候选进行排序。
作为比较,利用根据本发明的图15所示的方法进行意图挖掘,并通过出现频率对意图候选进行排序。本发明的发明人还对50条查询进行了测试,其中包括:“furniture for small spaces”、“Churchill downs”、“becoming a paralegal”、“internet phone service”、“Arkansas”、“battles in the civil war”、“hobby stores”、“Ontario Californiaairport”等等。表10示出了平均的测试结果。
度量 现有技术 本发明 改进
I-rec 0.3785 0.3933 0.0148
D-nDCG 0.3384 0.3715 0.0331
D#-nDCG 0.3584 0.3826 0.0242
表10本发明和现有技术的性能比较
从表10可以看出,相比于现有技术的方法,根据本发明的图15的方法的意图召回率和意图准确率都得到提高。此外,在D#-nDCG方面,本发明的方法比现有技术的方法提高2.42%。
为了更为直观地反应本发明的效果,以输入查询“becoming aparalegal”为例进行详细说明。对于输入“becoming a paralegal”,取本发明和现有技术的输出的前10条结果进行比较。表11示出了所希望获得的真实状态数据。表12示出了现有技术和本发明的各自的输出。表13示出了现有技术和本发明的测试比较结果,显然,本发明获得的结果更为准确。即,通过本发明能够提供意图挖掘的准确率。
表11所希望获得的真实状态数据
表12现有技术和本发明的各自输出
度量 现有技术 本发明
I-rec 0.1111 0.3333
D-nDCG 0.0734 0.5053
D#-nDCG 0.0922 0.4193
表13现有技术和本发明的测试比较
通过以上试验比较,可以进一步印证本发明相比于现有技术能够更为准确地进行意图挖掘,并且提高意图召回率。
图16示出了根据本发明的实施方式的用于信息检索的方法的流程图。如图16所示,在步骤S6100,接收用户采用自然语言的输入查询。接下来,在步骤S6110,根据本文所描述的使用意图类似查询的方法从所述输入查询进行意图挖掘。接下来,在步骤S6120,获得所挖掘意图的搜索结果。
图17示出了根据本发明的实施方式的用于问答辅助的方法的流程图。如图17所示,在步骤S6200,接收用户采用自然语言的输入查询。接下来,在步骤S6210,根据本文所描述的使用意图类似查询的方法从所述输入查询挖掘主题。接下来,在步骤S6220,获得针对所挖掘的主题的答案。
图18示出了根据本发明的实施方式的用于挖掘意图的设备7000的功能框图。该设备7000的所有功能模块(即,该设备7000所包括的各种单元,无论是在图中示出的,或图中没有示出的)都可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是图18中所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
如图18所示,根据本发明的一个方面,用于挖掘意图的设备7000可以包括:输入查询获取单元7100、意图类似查询生成单元7200、第一意图挖掘单元7300、类似意图信息描述集确定单元7400以及第二意图挖掘单元7500。所述输入查询获取单元7100被配置为获取输入查询。所述意图类似查询生成单元7200被配置为针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型。所述第一意图挖掘单元7300被配置为针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题。所述类似意图信息描述集确定单元7400被配置为通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集。所述第二意图挖掘单元7500被配置为通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。
在一种实施方式中,所述意图类似查询生成单元7200可以包括:查询对短语获取单元,从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询、意图类似指示符以及第三短语;以及第三短语提取单元,从每一个查询对短语提取所述第三短语,作为所述意图类似查询。
在一种实施方式中,所述意图类似指示符可以包括以下各项中的至少一项:并列关系指示符,其中通过所述并列关系指示符连接的两个短语在句子中用作相同的语法元素;对比关系指示符,其中句子中的第一短语与通过所述对比关系指示符连接在所述第一短语之后的第二短语处于对比关系;以及选择关系指示符,其中通过所述选择关系指示符连接的两个短语在句子中形成选择性表达。
在一种实施方式中,当所述输入查询是多词查询时,所述意图类似查询生成单元7200可以包括:核心意图部分和修饰语部分识别单元,识别所述输入查询的核心意图部分和修饰语部分;以及意图类似短语生成单元,生成所述输入查询的核心意图部分的意图类似短语,作为所述意图类似查询。
在一种实施方式中,当所述输入查询是多词查询时,所述意图类似查询生成单元7200可以包括:核心意图部分和修饰语部分识别单元,识别所述输入查询的核心意图部分和修饰语部分;以及修饰语部分替换单元,通过用多种替代部分替换所述输入查询的修饰语部分来生成所述意图类似查询,其中每个替代部分是针对所述修饰语部分生成的意图类似短语,其中每个意图类似短语具有与所述输入查询的修饰语部分相同或类似的意图类型。
在一种实施方式中,所述核心意图部分和修饰语部分识别单元可以包括:输入查询解析单元,解析所述输入查询,以将所述输入查询划分为多个语义单元;临时意图类似查询生成单元,对于所述输入查询的所划分的每个语义单元,生成由所划分的语义单元和改变部分构成的临时意图类似查询,其中所述改变部分是针对所述输入查询的其它语义单元生成的意图类似短语;第三意图挖掘单元,对于所述输入查询的所划分的每个语义单元,针对每个临时意图类似查询挖掘一组意图,其中每个意图提供针对相应的临时意图类似查询的子主题;一致度计算单元,对于所述输入查询的所划分的每个语义单元,通过比较相应语义单元的临时意图类似查询的意图组来计算一致度,其中所述一致度是对于相应语义单元的临时意图类似查询的意图类似性的度量,如果存在于临时意图类似查询的意图中的意图类型更普遍,则所述一致度越高;以及核心意图部分确定单元,将所述输入查询中具有最高一致度的语义单元确定为所述输入查询的核心意图部分,并将其它语义单元确定为所述输入查询的修饰语部分。
在一种实施方式中,所述意图类似查询生成单元可以包括以下的至少一个:从存储在所述输入查询的意图类似查询库中获得一个或多个查询作为所述意图类似查询的单元;在领域本体中获得所述输入查询的一个或多个同级节点作为所述意图类似查询的单元;在语言字典中获得所述输入查询的邻近概念作为所述意图类似查询的单元;以及通过基于与所述输入查询相关联的点阅数据计算意图类似性来从查询日志中获得一个或多个查询作为所述意图类似查询的单元。
在一种实施方式中,所述意图类似查询生成单元可以进一步包括:类似度计算单元,计算所述意图类似查询中的每个查询与所述输入查询之间的类似度;以及意图类似查询选择单元,从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询。
在一种实施方式中,所述意图类似查询中的每个查询与所述输入查询之间的类似度可以通过以下各项中的至少一项来计算:所述查询与所述输入查询的一致度;所述查询与所述输入查询的词汇类似性;所述查询与所述输入查询的语法类似性;所述查询与所述输入查询的语义类似性;所述查询与所述输入查询在所准备的文集中的上下文类似性;所述查询与所述输入查询在查询日志中的共同出现率;所述查询与所述输入查询在领域本体中的距离;以及所述查询与所述输入查询的点阅数据的相似性。
在一种实施方式中,所述意图类似查询中的每个查询与所述输入查询之间的类似度可以通过至少一项现实世界信息来计算,所述现实世界信息至少包括:时间、位置、用户模型、以及环境。
在一种实施方式中,所述类似意图信息描述可以通过输入查询的正规表达来呈现。
在一种实施方式中,所述类似意图信息描述集确定单元7400可以包括:语言形式分析单元,分析所述意图类似查询的全部的意图组中的每一个意图的语言形式;查询意图关系确定单元,确定所述语言形式中相应意图类似查询的语言形式和其余语言形式之间的至少一种查询意图关系;正规表达变换单元,对应于所确定的至少一种查询意图关系将每一个意图的语言形式变换为正规表达;以及正规表达添加单元,将变换获得的正规表达添加到所述类似意图信息描述集中。
在一种实施方式中,所述类似意图信息描述集确定单元7400可以进一步包括:意图组扩展单元,扩展每一个意图组,包括:同义短语生成单元,对于该意图组中的每一个意图,通过以意图中的至少一个词的同义词或近义词来替换该至少一个词而生成同义短语,其中所述至少一个词不在相应的意图类似查询中,以及同义短语添加单元,将所产生的同义短语添加到该意图组中。
在一种实施方式中,所述类似意图信息描述集确定单元7400可以进一步包括:第一意图解析单元,通过词法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种词法规则;第一通配符替换单元,如果相应的意图类似查询满足至少一种词法规则,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图;第一正规表达生成单元,将所述变换的意图作为具有词汇和通配符形式的词汇型类似意图信息描述,并将该词汇型类似意图信息描述作为所述正规表达;以及第一正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
在一种实施方式中,所述类似意图信息描述集确定单元7400可以进一步包括:第二意图解析单元,通过语法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语法规则;第二通配符替换单元,如果相应的意图类似查询满足至少一种语法规则,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图;第二正规表达生成单元,将所述变换的意图作为具有语法规则和通配符形式的语法型类似意图信息描述,并将该语法型类似意图信息描述作为所述正规表达;以及第二正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
在一种实施方式中,所述类似意图信息描述集确定单元7400可以进一步包括:第三意图解析单元,通过语义关系分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语义关系;第三通配符替换单元,如果相应的意图类似查询满足至少一种语义关系,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的语义标记替换该其余语言形式,而得到变换的意图;以及第三正规表达生成单元,将所述变换的意图作为具有语义标记和通配符形式的语义型类似意图信息描述,并将该语义型类似意图信息描述作为所述正规表达;第三正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
在一种实施方式中,所述类似意图信息描述集确定单元7400可以进一步包括:第四意图解析单元,通过逻辑分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种逻辑关系;第四通配符替换单元,如果相应的意图类似查询满足至少一种逻辑关系,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的逻辑类型替换该其余语言形式,而得到变换的意图;以及第四正规表达生成单元,将所述变换的意图作为具有逻辑类型和通配符形式的逻辑型类似意图信息描述,并将该逻辑型类似意图信息描述作为所述正规表达;第四正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
在一种实施方式中,所述类似意图信息描述集确定单元可以进一步包括:置信度计算单元,计算所述类似意图信息描述集中每一个类似意图信息描述的置信度;以及类似意图信息描述选择单元,从所述类似意图信息描述集中选择置信度最高的特定数量的类似意图信息描述或者置信度大于预定阈值的类似意图信息描述。
在一种实施方式中,所述置信度可以使用以下各项中的至少一项来计算:类似意图信息描述的频率;类似意图信息描述的覆盖率;以及类似意图信息描述与输入查询的相关性。
在一种实施方式中,所述置信度可以从以下各项中的至少一项计算:所述类似意图信息描述集;所准备的意图训练集;以及所准备的领域信息。
在一种实施方式中,所述置信度计算单元可以进一步包括:第一权重配置单元,根据意图类似查询的流行度来对所述类似意图信息描述集中的相应类似意图信息描述配置不同的权重;和/或第二权重配置单元,根据意图类似查询与所述输入查询之间的类似度来对所述类似意图信息描述集中的相应类似意图信息描述配置不同的权重。
在一种实施方式中,所述第二意图挖掘单元7500可以包括:输入查询替换单元,通过以输入查询来替换所述类似意图信息描述集中类似意图信息描述中的通配符来产生一组意图。
在一种实施方式中,所述第二意图挖掘单元7500可以包括:第一组意图挖掘单元,从至少一个数据源挖掘针对所述输入查询的第一组意图;以及第二组意图挖掘单元,通过使用所述类似意图信息描述集和所述第一组意图来挖掘针对所述输入查询的第二组意图。
在一种实施方式中,所述第二组意图挖掘单元可以包括:通过以输入查询来替换所述类似意图信息描述集中的至少一个类似意图信息描述中的通配符来生成至少一个意图的单元,其中所述至少一个意图不在第一组意图中;以及在第一组意图中添加所生成的至少一个意图的单元。
在一种实施方式中,所述第二组意图挖掘单元可以包括:排序单元,通过使用所述类似意图信息描述集对针对所述输入查询的第一组意图进行排序。
在一种实施方式中,所述第二组意图挖掘单元可以进一步包括:特有意图识别单元,识别针对所述输入查询的第一组意图中的特有意图;权重改变单元,根据特有意图的特有度,提高特有意图在所述排序中的权重;其中,通过以下各项中的至少一项来计算特有意图的特有度:在所准备的意图训练集中输入查询与特有意图的共同出现率;输入查询与特有意图在领域知识中的关系;特有意图在点阅数据中的频率;以及特有意图在查询日志中的流行度。
图19示出了根据本发明的实施方式的用于信息检索的设备8000的功能框图。该设备8000的所有功能模块(即,该设备8000所包括的各种单元,无论是在图中示出的,或图中没有示出的)都可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是图19中所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
如图19所示,用于信息检索的设备8000包括:输入查询接收单元8100、上述用于意图挖掘的设备7000以及搜索结果获得单元8200。所述输入查询接收单元8100被配置为接收用户采用自然语言的输入查询。所述用于意图挖掘的设备7000被配置为从所述输入查询进行意图挖掘。所述搜索结果获得单元8200被配置为获得所挖掘意图的搜索结果。
图20示出了根据本发明的实施方式的用于问答辅助的设备9000的功能框图。该设备9000的所有功能模块(即,该设备9000所包括的各种单元,无论是在图中示出的,或图中没有示出的)都可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是图20中所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
如图20所示,用于问答辅助的设备9000包括:输入查询接收单元9100、上述用于意图挖掘的设备7000以及答案获得单元9200。所述输入查询接收单元9100被配置为接收用户采用自然语言的输入查询。所述用于意图挖掘的设备7000被配置为从所述输入查询挖掘主题。所述答案获得单元9200被配置为获得针对所挖掘的主题的答案。
本发明可以通过以下各种方案来实现:
方案1:一种用于意图挖掘的方法,所述方法包括:
获取输入查询;
针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型;
针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题;
通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集;以及
通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。
方案2:如方案1所述的方法,其中针对所述输入查询生成意图类似查询包括:
从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询、意图类似指示符以及第三短语;以及
从每一个查询对短语提取所述第三短语,作为所述意图类似查询。
方案3:如方案2所述的方法,其中所述意图类似指示符包括以下各项中的至少一项:
并列关系指示符,其中通过所述并列关系指示符连接的两个短语在句子中用作相同的语法元素;
对比关系指示符,其中句子中的第一短语与通过所述对比关系指示符连接在所述第一短语之后的第二短语处于对比关系;以及
选择关系指示符,其中通过所述选择关系指示符连接的两个短语在句子中形成选择性表达。
方案4:如方案1或2所述的方法,其中当所述输入查询是多词查询时,针对所述输入查询生成意图类似查询包括:
识别所述输入查询的核心意图部分和修饰语部分;以及
生成所述输入查询的核心意图部分的意图类似短语,作为所述意图类似查询。
方案5:如方案1或2所述的方法,其中当所述输入查询是多词查询时,针对所述输入查询生成意图类似查询包括:
识别所述输入查询的核心意图部分和修饰语部分;以及
通过用多种替代部分替换所述输入查询的修饰语部分来生成所述意图类似查询,其中每个替代部分是针对所述修饰语部分生成的意图类似短语,其中每个意图类似短语具有与所述输入查询的修饰语部分相同或类似的意图类型。
方案6:如方案4所述的方法,其中识别所述输入查询的核心意图部分和修饰语部分包括:
解析所述输入查询,以将所述输入查询划分为多个语义单元;
对于所述输入查询的所划分的每个语义单元,生成由所划分的语义单元和改变部分构成的临时意图类似查询,其中所述改变部分是针对所述输入查询的其它语义单元生成的意图类似短语;
对于所述输入查询的所划分的每个语义单元,针对每个临时意图类似查询挖掘一组意图,其中每个意图提供针对相应的临时意图类似查询的子主题;
对于所述输入查询的所划分的每个语义单元,通过比较相应语义单元的临时意图类似查询的意图组来计算一致度,其中所述一致度是对于相应语义单元的临时意图类似查询的意图类似性的度量,如果存在于临时意图类似查询的意图中的意图类型更普遍,则所述一致度越高;以及
将所述输入查询中具有最高一致度的语义单元确定为所述输入查询的核心意图部分,并将其它语义单元确定为所述输入查询的修饰语部分。
方案7:如方案5所述的方法,其中识别所述输入查询的核心意图部分和修饰语部分包括:
解析所述输入查询,以将所述输入查询划分为多个语义单元;
对于所述输入查询的所划分的每个语义单元,生成由所划分的语义单元和改变部分构成的临时意图类似查询,其中所述改变部分是针对所述输入查询的其它语义单元生成的意图类似短语;
对于所述输入查询的所划分的每个语义单元,针对每个临时意图类似查询挖掘一组意图,其中每个意图提供针对相应的临时意图类似查询的子主题;
对于所述输入查询的所划分的每个语义单元,通过比较相应语义单元的临时意图类似查询的意图组来计算一致度,其中所述一致度是对于相应语义单元的临时意图类似查询的意图类似性的度量,如果存在于临时意图类似查询的意图中的意图类型更普遍,则所述一致度越高;以及
将所述输入查询中具有最高一致度的语义单元确定为所述输入查询的核心意图部分,并将其它语义单元确定为所述输入查询的修饰语部分。
方案8:如方案1或2所述的方法,其中针对所述输入查询生成意图类似查询包括以下的至少一个:
从存储在所述输入查询的意图类似查询库中获得一个或多个查询作为所述意图类似查询;
在领域本体中获得所述输入查询的一个或多个同级节点作为所述意图类似查询;
在语言字典中获得所述输入查询的邻近概念作为所述意图类似查询;以及
通过基于与所述输入查询相关联的点阅数据计算意图类似性来从查询日志中获得一个或多个查询作为所述意图类似查询。
方案9:如方案1所述的方法,其中针对所述输入查询生成意图类似查询进一步包括:
计算所述意图类似查询中的每个查询与所述输入查询之间的类似度;以及
从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询。
方案10:如方案9所述的方法,其中所述意图类似查询中的每个查询与所述输入查询之间的类似度通过以下各项中的至少一项来计算:
所述查询与所述输入查询的一致度;
所述查询与所述输入查询的词汇类似性;
所述查询与所述输入查询的语法类似性;
所述查询与所述输入查询的语义类似性;
所述查询与所述输入查询在所准备的文集中的上下文类似性;
所述查询与所述输入查询在查询日志中的共同出现率;
所述查询与所述输入查询在领域本体中的距离;以及
所述查询与所述输入查询的点阅数据的相似性。
方案11:如方案9所述的方法,其中所述意图类似查询中的每个查询与所述输入查询之间的类似度通过至少一项现实世界信息来计算,所述现实世界信息至少包括:时间、位置、用户模型、以及环境。
方案12:如方案1所述的方法,其中所述类似意图信息描述通过输入查询的正规表达来呈现。
方案13:如方案12所述的方法,其中确定所述类似意图信息描述集包括:
分析所述意图类似查询的全部的意图组中的每一个意图的语言形式;
确定所述语言形式中相应意图类似查询的语言形式和其余语言形式之间的至少一种查询意图关系;
对应于所确定的至少一种查询意图关系将每一个意图的语言形式变换为正规表达;以及
将变换获得的正规表达添加到所述类似意图信息描述集中。
方案14:如方案13所述的方法,其中确定所述类似意图信息描述集进一步包括:
扩展每一个意图组,包括:
对于该意图组中的每一个意图,通过以意图中的至少一个词的同义词或近义词来替换该至少一个词而生成同义短语,其中所述至少一个词不在相应的意图类似查询中,以及
将所产生的同义短语添加到该意图组中。
方案15:如方案13所述的方法,其中确定所述类似意图信息描述集进一步包括:
通过词法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种词法规则;
如果相应的意图类似查询满足至少一种词法规则,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图;
将所述变换的意图作为具有词汇和通配符形式的词汇型类似意图信息描述,并将该词汇型类似意图信息描述作为所述正规表达;以及
将所述正规表达添加到类似意图信息描述集中。
方案16:如方案13所述的方法,其中确定所述类似意图信息描述集进一步包括:
通过语法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语法规则;
如果相应的意图类似查询满足至少一种语法规则,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图;
将所述变换的意图作为具有语法规则和通配符形式的语法型类似意图信息描述,并将该语法型类似意图信息描述作为所述正规表达;以及
将所述正规表达添加到类似意图信息描述集中。
方案17:如方案15所述的方法,其中确定所述类似意图信息描述集进一步包括:
通过语法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语法规则;
如果相应的意图类似查询满足至少一种语法规则,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图;
将所述变换的意图作为具有语法规则和通配符形式的语法型类似意图信息描述,并将该语法型类似意图信息描述作为所述正规表达;以及
将所述正规表达添加到类似意图信息描述集中。
方案18:如方案13、15-17中任一项所述的方法,其中确定所述类似意图信息描述集进一步包括:
通过语义关系分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语义关系;
如果相应的意图类似查询满足至少一种语义关系,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的语义标记替换该其余语言形式,而得到变换的意图;
将所述变换的意图作为具有语义标记和通配符形式的语义型类似意图信息描述,并将该语义型类似意图信息描述作为所述正规表达;以及
将所述正规表达添加到类似意图信息描述集中。
方案19:如方案13、15-17中任一项所述的方法,其中确定所述类似意图信息描述集进一步包括:
通过逻辑分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种逻辑关系;
如果相应的意图类似查询满足至少一种逻辑关系,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的逻辑类型替换该其余语言形式,而得到变换的意图;
将所述变换的意图作为具有逻辑类型和通配符形式的逻辑型类似意图信息描述,并将该逻辑型类似意图信息描述作为所述正规表达;以及
将所述正规表达添加到类似意图信息描述集中。
方案20:如方案18所述的方法,其中确定所述类似意图信息描述集进一步包括:
通过逻辑分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种逻辑关系;
如果相应的意图类似查询满足至少一种逻辑关系,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的逻辑类型替换该其余语言形式,而得到变换的意图;以及
将所述变换的意图作为具有逻辑类型和通配符形式的逻辑型类似意图信息描述,并将该逻辑型类似意图信息描述作为所述正规表达;
将所述正规表达添加到类似意图信息描述集中。
方案21:如方案13或14所述的方法,其中确定所述类似意图信息描述集进一步包括:
计算所述类似意图信息描述集中每一个类似意图信息描述的置信度;以及
从所述类似意图信息描述集中选择置信度最高的特定数量的类似意图信息描述或者置信度大于预定阈值的类似意图信息描述。
方案22:如方案21所述的方法,所述置信度使用以下各项中的至少一项来计算:
类似意图信息描述的频率;
类似意图信息描述的覆盖率;以及
类似意图信息描述与输入查询的相关性。
方案23:如方案21所述的方法,所述置信度从以下各项中的至少一项计算:
所述类似意图信息描述集;
所准备的意图训练集;以及
所准备的领域信息。
方案24:如方案23所述的方法,其中从所述类似意图信息描述集计算类似意图信息描述的置信度进一步包括:
根据意图类似查询的流行度来对所述类似意图信息描述集中的相应类似意图信息描述配置不同的权重;和/或
根据意图类似查询与所述输入查询之间的类似度来对所述类似意图信息描述集中的相应类似意图信息描述配置不同的权重。
方案25:如方案1所述的方法,其中挖掘针对所述输入查询的意图包括:
通过以输入查询来替换所述类似意图信息描述集中类似意图信息描述中的通配符来产生一组意图。
方案26:如方案1所述的方法,其中挖掘针对所述输入查询的意图包括:
从至少一个数据源挖掘针对所述输入查询的第一组意图;以及
通过使用所述类似意图信息描述集和所述第一组意图来挖掘针对所述输入查询的第二组意图。
方案27:如方案26所述的方法,其中挖掘针对所述输入查询的第二组意图包括:
通过以输入查询来替换所述类似意图信息描述集中的至少一个类似意图信息描述中的通配符来生成至少一个意图,其中所述至少一个意图不在第一组意图中;以及
在第一组意图中添加所生成的至少一个意图。
方案28:如方案26所述的方法,其中挖掘针对所述输入查询的第二组意图包括:
通过使用所述类似意图信息描述集对针对所述输入查询的第一组意图进行排序。
方案29:如方案28所述的方法,其中挖掘针对所述输入查询的第二组意图进一步包括:
识别针对所述输入查询的第一组意图中的特有意图;
根据特有意图的特有度,提高特有意图在所述排序中的权重;
其中,通过以下各项中的至少一项来计算特有意图的特有度:
在所准备的意图训练集中输入查询与特有意图的共同出现率;
输入查询与特有意图在领域知识中的关系;
特有意图在点阅数据中的频率;以及
特有意图在查询日志中的流行度。
方案30:一种用于信息检索的方法,包括:
接收用户采用自然语言的输入查询;
根据方案1-29中任一项所述的方法从所述输入查询进行意图挖掘;以及
获得所挖掘意图的搜索结果。
方案31:一种用于问答辅助的方法,包括:
接收用户采用自然语言的输入查询;
根据方案1-29中任一项所述的方法从所述输入查询挖掘主题;以及
获得针对所挖掘的主题的答案。
方案32:一种用于意图挖掘的设备,所述设备包括:
输入查询获取单元,获取输入查询;
意图类似查询生成单元,针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型;
第一意图挖掘单元,针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题;
类似意图信息描述集确定单元,通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集;以及
第二意图挖掘单元,通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。
方案33:如方案32所述的设备,其中所述意图类似查询生成单元包括:
查询对短语获取单元,从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询、意图类似指示符以及第三短语;以及
第三短语提取单元,从每一个查询对短语提取所述第三短语,作为所述意图类似查询。
方案34:如方案33所述的设备,其中所述意图类似指示符包括以下各项中的至少一项:
并列关系指示符,其中通过所述并列关系指示符连接的两个短语在句子中用作相同的语法元素;
对比关系指示符,其中句子中的第一短语与通过所述对比关系指示符连接在所述第一短语之后的第二短语处于对比关系;以及
选择关系指示符,其中通过所述选择关系指示符连接的两个短语在句子中形成选择性表达。
方案35:如方案32或33所述的设备,其中当所述输入查询是多词查询时,所述意图类似查询生成单元包括:
核心意图部分和修饰语部分识别单元,识别所述输入查询的核心意图部分和修饰语部分;以及
意图类似短语生成单元,生成所述输入查询的核心意图部分的意图类似短语,作为所述意图类似查询。
方案36:如方案32或33所述的设备,其中当所述输入查询是多词查询时,所述意图类似查询生成单元包括:
核心意图部分和修饰语部分识别单元,识别所述输入查询的核心意图部分和修饰语部分;以及
修饰语部分替换单元,通过用多种替代部分替换所述输入查询的修饰语部分来生成所述意图类似查询,其中每个替代部分是针对所述修饰语部分生成的意图类似短语,其中每个意图类似短语具有与所述输入查询的修饰语部分相同或类似的意图类型。
方案37:如方案35所述的设备,其中所述核心意图部分和修饰语部分识别单元包括:
输入查询解析单元,解析所述输入查询,以将所述输入查询划分为多个语义单元;
临时意图类似查询生成单元,对于所述输入查询的所划分的每个语义单元,生成由所划分的语义单元和改变部分构成的临时意图类似查询,其中所述改变部分是针对所述输入查询的其它语义单元生成的意图类似短语;
第三意图挖掘单元,对于所述输入查询的所划分的每个语义单元,针对每个临时意图类似查询挖掘一组意图,其中每个意图提供针对相应的临时意图类似查询的子主题;
一致度计算单元,对于所述输入查询的所划分的每个语义单元,通过比较相应语义单元的临时意图类似查询的意图组来计算一致度,其中所述一致度是对于相应语义单元的临时意图类似查询的意图类似性的度量,如果存在于临时意图类似查询的意图中的意图类型更普遍,则所述一致度越高;以及
核心意图部分确定单元,将所述输入查询中具有最高一致度的语义单元确定为所述输入查询的核心意图部分,并将其它语义单元确定为所述输入查询的修饰语部分。
方案38:如方案36所述的设备,其中所述核心意图部分和修饰语部分识别单元包括:
输入查询解析单元,解析所述输入查询,以将所述输入查询划分为多个语义单元;
临时意图类似查询生成单元,对于所述输入查询的所划分的每个语义单元,生成由所划分的语义单元和改变部分构成的临时意图类似查询,其中所述改变部分是针对所述输入查询的其它语义单元生成的意图类似短语;
第三意图挖掘单元,对于所述输入查询的所划分的每个语义单元,针对每个临时意图类似查询挖掘一组意图,其中每个意图提供针对相应的临时意图类似查询的子主题;
一致度计算单元,对于所述输入查询的所划分的每个语义单元,通过比较相应语义单元的临时意图类似查询的意图组来计算一致度,其中所述一致度是对于相应语义单元的临时意图类似查询的意图类似性的度量,如果存在于临时意图类似查询的意图中的意图类型更普遍,则所述一致度越高;以及
核心意图部分确定单元,将所述输入查询中具有最高一致度的语义单元确定为所述输入查询的核心意图部分,并将其它语义单元确定为所述输入查询的修饰语部分。
方案39:如方案32或33所述的设备,其中所述意图类似查询生成单元包括以下的至少一个:
从存储在所述输入查询的意图类似查询库中获得一个或多个查询作为所述意图类似查询的单元;
在领域本体中获得所述输入查询的一个或多个同级节点作为所述意图类似查询的单元;
在语言字典中获得所述输入查询的邻近概念作为所述意图类似查询的单元;以及
通过基于与所述输入查询相关联的点阅数据计算意图类似性来从查询日志中获得一个或多个查询作为所述意图类似查询的单元。
方案40:如方案32所述的设备,其中所述意图类似查询生成单元进一步包括:
类似度计算单元,计算所述意图类似查询中的每个查询与所述输入查询之间的类似度;以及
意图类似查询选择单元,从所述意图类似查询中选择类似度最高的特定数量的意图类似查询或类似度大于预定阈值的意图类似查询。
方案41:如方案40所述的设备,其中所述意图类似查询中的每个查询与所述输入查询之间的类似度通过以下各项中的至少一项来计算:
所述查询与所述输入查询的一致度;
所述查询与所述输入查询的词汇类似性;
所述查询与所述输入查询的语法类似性;
所述查询与所述输入查询的语义类似性;
所述查询与所述输入查询在所准备的文集中的上下文类似性;
所述查询与所述输入查询在查询日志中的共同出现率;
所述查询与所述输入查询在领域本体中的距离;以及
所述查询与所述输入查询的点阅数据的相似性。
方案42:如方案40所述的设备,其中所述意图类似查询中的每个查询与所述输入查询之间的类似度通过至少一项现实世界信息来计算,所述现实世界信息至少包括:时间、位置、用户模型、以及环境。
方案43:如方案32所述的设备,其中所述类似意图信息描述通过输入查询的正规表达来呈现。
方案44:如方案43所述的设备,其中所述类似意图信息描述集确定单元包括:
语言形式分析单元,分析所述意图类似查询的全部的意图组中的每一个意图的语言形式;
查询意图关系确定单元,确定所述语言形式中相应意图类似查询的语言形式和其余语言形式之间的至少一种查询意图关系;
正规表达变换单元,对应于所确定的至少一种查询意图关系将每一个意图的语言形式变换为正规表达;以及
正规表达添加单元,将变换获得的正规表达添加到所述类似意图信息描述集中。
方案45:如方案44所述的设备,其中所述类似意图信息描述集确定单元进一步包括:
意图组扩展单元,扩展每一个意图组,包括:
同义短语生成单元,对于该意图组中的每一个意图,通过以意图中的至少一个词的同义词或近义词来替换该至少一个词而生成同义短语,其中所述至少一个词不在相应的意图类似查询中,以及
同义短语添加单元,将所产生的同义短语添加到该意图组中。
方案46:如方案44所述的设备,其中所述类似意图信息描述集确定单元进一步包括:
第一意图解析单元,通过词法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种词法规则;
第一通配符替换单元,如果相应的意图类似查询满足至少一种词法规则,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图;
第一正规表达生成单元,将所述变换的意图作为具有词汇和通配符形式的词汇型类似意图信息描述,并将该词汇型类似意图信息描述作为所述正规表达;以及
第一正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
方案47:如方案44所述的设备,其中所述类似意图信息描述集确定单元进一步包括:
第二意图解析单元,通过语法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语法规则;
第二通配符替换单元,如果相应的意图类似查询满足至少一种语法规则,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图;
第二正规表达生成单元,将所述变换的意图作为具有语法规则和通配符形式的语法型类似意图信息描述,并将该语法型类似意图信息描述作为所述正规表达;以及
第二正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
方案48:如方案46所述的设备,其中所述类似意图信息描述集确定单元进一步包括:
第二意图解析单元,通过语法分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语法规则;
第二通配符替换单元,如果相应的意图类似查询满足至少一种语法规则,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,而得到变换的意图;
第二正规表达生成单元,将所述变换的意图作为具有语法规则和通配符形式的语法型类似意图信息描述,并将该语法型类似意图信息描述作为所述正规表达;以及
第二正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
方案49:如方案44、46-48中任一项所述的设备,其中所述类似意图信息描述集确定单元进一步包括:
第三意图解析单元,通过语义关系分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种语义关系;
第三通配符替换单元,如果相应的意图类似查询满足至少一种语义关系,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的语义标记替换该其余语言形式,而得到变换的意图;以及
第三正规表达生成单元,将所述变换的意图作为具有语义标记和通配符形式的语义型类似意图信息描述,并将该语义型类似意图信息描述作为所述正规表达;
第三正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
方案50:如方案44、46-48中任一项所述的设备,其中所述类似意图信息描述集确定单元进一步包括:
第四意图解析单元,通过逻辑分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种逻辑关系;
第四通配符替换单元,如果相应的意图类似查询满足至少一种逻辑关系,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的逻辑类型替换该其余语言形式,而得到变换的意图;以及
第四正规表达生成单元,将所述变换的意图作为具有逻辑类型和通配符形式的逻辑型类似意图信息描述,并将该逻辑型类似意图信息描述作为所述正规表达;
第四正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
方案51:如方案49所述的设备,其中所述类似意图信息描述集确定单元进一步包括:
第四意图解析单元,通过逻辑分析手段来解析所述意图类似查询的全部的意图组中的每一个意图,以检测相应的意图类似查询是否满足至少一种逻辑关系;
第四通配符替换单元,如果相应的意图类似查询满足至少一种逻辑关系,则对于该意图类似查询的意图组中的每一个意图,以通配符替换该意图的语言形式中相应意图类似查询的语言形式,并且以该意图的其余语言形式的逻辑类型替换该其余语言形式,而得到变换的意图;以及
第四正规表达生成单元,将所述变换的意图作为具有逻辑类型和通配符形式的逻辑型类似意图信息描述,并将该逻辑型类似意图信息描述作为所述正规表达;
第四正规表达添加单元,将所述正规表达添加到类似意图信息描述集中。
方案52:如方案44或45所述的设备,其中所述类似意图信息描述集确定单元进一步包括:
置信度计算单元,计算所述类似意图信息描述集中每一个类似意图信息描述的置信度;以及
类似意图信息描述选择单元,从所述类似意图信息描述集中选择置信度最高的特定数量的类似意图信息描述或者置信度大于预定阈值的类似意图信息描述。
方案53:如方案52所述的设备,所述置信度使用以下各项中的至少一项来计算:
类似意图信息描述的频率;
类似意图信息描述的覆盖率;以及
类似意图信息描述与输入查询的相关性。
方案54:如方案52所述的设备,所述置信度从以下各项中的至少一项计算:
所述类似意图信息描述集;
所准备的意图训练集;以及
所准备的领域信息。
方案55:如方案54所述的设备,其中所述置信度计算单元进一步包括:
第一权重配置单元,根据意图类似查询的流行度来对所述类似意图信息描述集中的相应类似意图信息描述配置不同的权重;和/或
第二权重配置单元,根据意图类似查询与所述输入查询之间的类似度来对所述类似意图信息描述集中的相应类似意图信息描述配置不同的权重。
方案56:如方案32所述的设备,其中所述第二意图挖掘单元包括:
输入查询替换单元,通过以输入查询来替换所述类似意图信息描述集中类似意图信息描述中的通配符来产生一组意图。
方案57:如方案32所述的设备,其中所述第二意图挖掘单元包括:
第一组意图挖掘单元,从至少一个数据源挖掘针对所述输入查询的第一组意图;以及
第二组意图挖掘单元,通过使用所述类似意图信息描述集和所述第一组意图来挖掘针对所述输入查询的第二组意图。
方案58:如方案57所述的设备,其中所述第二组意图挖掘单元包括:
通过以输入查询来替换所述类似意图信息描述集中的至少一个类似意图信息描述中的通配符来生成至少一个意图的单元,其中所述至少一个意图不在第一组意图中;以及
在第一组意图中添加所生成的至少一个意图的单元。
方案59:如方案57所述的设备,其中所述第二组意图挖掘单元包括:
排序单元,通过使用所述类似意图信息描述集对针对所述输入查询的第一组意图进行排序。
方案60:如方案59所述的设备,其中所述第二组意图挖掘单元进一步包括:
特有意图识别单元,识别针对所述输入查询的第一组意图中的特有意图;
权重改变单元,根据特有意图的特有度,提高特有意图在所述排序中的权重;
其中,通过以下各项中的至少一项来计算特有意图的特有度:
在所准备的意图训练集中输入查询与特有意图的共同出现率;
输入查询与特有意图在领域知识中的关系;
特有意图在点阅数据中的频率;以及
特有意图在查询日志中的流行度。
方案61:一种用于信息检索的设备,包括:
输入查询接收单元,接收用户采用自然语言的输入查询;
根据方案32-60中任一项所述的用于意图挖掘的设备,从所述输入查询进行意图挖掘;以及
搜索结果获得单元,获得所挖掘意图的搜索结果。
方案62:一种用于问答辅助的设备,包括:
输入查询接收单元,接收用户采用自然语言的输入查询;
根据方案32-60中任一项所述的用于意图挖掘的设备,从所述输入查询挖掘主题;以及
答案获得单元,获得针对所挖掘的主题的答案。
本领域技术人员能够理解,本发明的各种实施方式可以任意地组合,而不超出本发明的范围。
可能以许多方式来实现本发明的方法和***。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和***。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种用于意图挖掘的方法,所述方法包括:
获取输入查询;
针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型;
针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题;
通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集;以及
通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。
2.如权利要求1所述的方法,其中针对所述输入查询生成意图类似查询包括:
从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询、意图类似指示符以及第三短语;以及
从每一个查询对短语提取所述第三短语,作为所述意图类似查询。
3.如权利要求1所述的方法,其中所述类似意图信息描述通过输入查询的正规表达来呈现。
4.如权利要求3所述的方法,其中确定所述类似意图信息描述集包括:
分析所述意图类似查询的全部的意图组中的每一个意图的语言形式;
确定所述语言形式中相应意图类似查询的语言形式和其余语言形式之间的至少一种查询意图关系;
对应于所确定的至少一种查询意图关系将每一个意图的语言形式变换为正规表达;以及
将变换获得的正规表达添加到所述类似意图信息描述集中。
5.一种用于意图挖掘的设备,所述设备包括:
输入查询获取单元,获取输入查询;
意图类似查询生成单元,针对所述输入查询生成意图类似查询,其中每一个意图类似查询具有与所述输入查询相同或类似的意图类型;
第一意图挖掘单元,针对每一个意图类似查询挖掘一组意图,其中每个意图提供针对相应的意图类似查询的子主题;
类似意图信息描述集确定单元,通过使用所述意图类似查询的全部的意图组来确定类似意图信息描述集;以及
第二意图挖掘单元,通过使用所述类似意图信息描述集来挖掘针对所述输入查询的意图。
6.如权利要求5所述的设备,其中所述意图类似查询生成单元包括:
查询对短语获取单元,从至少一个数据源获得一个或多个查询对短语,其中每个查询对短语包括:所述输入查询、意图类似指示符以及第三短语;以及
第三短语提取单元,从每一个查询对短语提取所述第三短语,作为所述意图类似查询。
7.如权利要求5所述的设备,其中所述类似意图信息描述通过输入查询的正规表达来呈现。
8.如权利要求7所述的设备,其中所述类似意图信息描述集确定单元包括:
语言形式分析单元,分析所述意图类似查询的全部的意图组中的每一个意图的语言形式;
查询意图关系确定单元,确定所述语言形式中相应意图类似查询的语言形式和其余语言形式之间的至少一种查询意图关系;
正规表达变换单元,对应于所确定的至少一种查询意图关系将每一个意图的语言形式变换为正规表达;以及
正规表达添加单元,将变换获得的正规表达添加到所述类似意图信息描述集中。
9.一种用于信息检索的设备,包括:
输入查询接收单元,接收用户采用自然语言的输入查询;
根据权利要求5-8中任一项所述的用于意图挖掘的设备,从所述输入查询进行意图挖掘;以及
搜索结果获得单元,获得所挖掘意图的搜索结果。
10.一种用于问答辅助的设备,包括:
输入查询接收单元,接收用户采用自然语言的输入查询;
根据权利要求5-8中任一项所述的用于意图挖掘的设备,从所述输入查询挖掘主题;以及
答案获得单元,获得针对所挖掘的主题的答案。
CN201310371165.5A 2013-08-23 2013-08-23 用于意图挖掘的方法和设备 Active CN104424216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310371165.5A CN104424216B (zh) 2013-08-23 2013-08-23 用于意图挖掘的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310371165.5A CN104424216B (zh) 2013-08-23 2013-08-23 用于意图挖掘的方法和设备

Publications (2)

Publication Number Publication Date
CN104424216A true CN104424216A (zh) 2015-03-18
CN104424216B CN104424216B (zh) 2018-01-23

Family

ID=52973214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310371165.5A Active CN104424216B (zh) 2013-08-23 2013-08-23 用于意图挖掘的方法和设备

Country Status (1)

Country Link
CN (1) CN104424216B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776981A (zh) * 2016-12-06 2017-05-31 广州市科恩电脑有限公司 一种基于经验知识的智能检索方法
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN107704450A (zh) * 2017-10-13 2018-02-16 威盛电子股份有限公司 自然语言识别设备以及自然语言识别方法
CN108170859A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 语音查询的方法、装置、存储介质及终端设备
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN110033338A (zh) * 2018-01-11 2019-07-19 北京搜狗科技发展有限公司 推荐方法和装置、用于推荐的装置
CN110309252A (zh) * 2018-02-28 2019-10-08 阿里巴巴集团控股有限公司 一种自然语言处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102063469A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎
CN102722558A (zh) * 2012-05-29 2012-10-10 百度在线网络技术(北京)有限公司 一种为用户推荐提问的方法和装置
CN103049495A (zh) * 2012-12-07 2013-04-17 百度在线网络技术(北京)有限公司 用于提供与查询序列相对应的搜索建议的方法、装置与设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339551A (zh) * 2007-07-05 2009-01-07 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
CN102063469A (zh) * 2010-12-03 2011-05-18 百度在线网络技术(北京)有限公司 一种用于获取相关关键词信息的方法、装置和计算机设备
CN102096717A (zh) * 2011-02-15 2011-06-15 百度在线网络技术(北京)有限公司 搜索方法及搜索引擎
CN102722558A (zh) * 2012-05-29 2012-10-10 百度在线网络技术(北京)有限公司 一种为用户推荐提问的方法和装置
CN103049495A (zh) * 2012-12-07 2013-04-17 百度在线网络技术(北京)有限公司 用于提供与查询序列相对应的搜索建议的方法、装置与设备

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776981A (zh) * 2016-12-06 2017-05-31 广州市科恩电脑有限公司 一种基于经验知识的智能检索方法
CN106776981B (zh) * 2016-12-06 2020-12-15 广州同构科技有限公司 一种基于经验知识的智能检索方法
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN107704450A (zh) * 2017-10-13 2018-02-16 威盛电子股份有限公司 自然语言识别设备以及自然语言识别方法
CN107704450B (zh) * 2017-10-13 2020-12-04 威盛电子股份有限公司 自然语言识别设备以及自然语言识别方法
CN107679039B (zh) * 2017-10-17 2020-12-29 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN110033338A (zh) * 2018-01-11 2019-07-19 北京搜狗科技发展有限公司 推荐方法和装置、用于推荐的装置
CN110033338B (zh) * 2018-01-11 2024-06-07 北京搜狗科技发展有限公司 推荐方法和装置、用于推荐的装置
CN108170859A (zh) * 2018-01-22 2018-06-15 北京百度网讯科技有限公司 语音查询的方法、装置、存储介质及终端设备
CN108170859B (zh) * 2018-01-22 2020-07-28 北京百度网讯科技有限公司 语音查询的方法、装置、存储介质及终端设备
CN110309252B (zh) * 2018-02-28 2023-11-24 阿里巴巴集团控股有限公司 一种自然语言处理方法及装置
CN110309252A (zh) * 2018-02-28 2019-10-08 阿里巴巴集团控股有限公司 一种自然语言处理方法及装置

Also Published As

Publication number Publication date
CN104424216B (zh) 2018-01-23

Similar Documents

Publication Publication Date Title
CN104424216A (zh) 用于意图挖掘的方法和设备
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
Han et al. A generative entity-mention model for linking entities with knowledge base
Mitra et al. Query auto-completion for rare prefixes
JP5462361B2 (ja) マップサーチのためのクエリパーシング
US6473754B1 (en) Method and system for extracting characteristic string, method and system for searching for relevant document using the same, storage medium for storing characteristic string extraction program, and storage medium for storing relevant document searching program
US8494839B2 (en) Apparatus, method, and recording medium for morphological analysis and registering a new compound word
JP5746426B2 (ja) インデックスドキュメントの発見
CN102725759A (zh) 用于搜索结果的语义目录
CN101425071A (zh) 位置描述检测装置、程序以及存储介质
CN103729402A (zh) 一种基于图书目录的知识图谱的构建方法
CN102402584A (zh) 多语言文本中的语言识别
KR20070098252A (ko) 자동완성 추천어를 정정하여 노출하는 자동완성 추천어제공 방법 및 시스템
CN102214189B (zh) 基于数据挖掘获取词用法知识的***及方法
Oramas et al. ELMD: An automatically generated entity linking gold standard dataset in the music domain
CN105653701A (zh) 模型生成方法及装置、词语赋权方法及装置
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN105447169A (zh) 文献归一方法、文献搜索方法及对应装置
CN105404677A (zh) 一种基于树形结构的检索方法
CN101933017B (zh) 文件检索装置、文件检索***和文件检索方法
KR100691400B1 (ko) 부가 정보를 이용하여 형태소를 분석하는 방법 및 상기방법을 수행하는 형태소 분석기
CN101021851B (zh) 文本检索装置和文本检索方法
KR102083017B1 (ko) 플레이스의 소셜 리뷰 분석 방법 및 시스템
US9507834B2 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
CN105574004A (zh) 一种网页去重方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant