CN102789466A - 一种提问标题质量判定方法、提问引导方法及其装置 - Google Patents
一种提问标题质量判定方法、提问引导方法及其装置 Download PDFInfo
- Publication number
- CN102789466A CN102789466A CN2011101311697A CN201110131169A CN102789466A CN 102789466 A CN102789466 A CN 102789466A CN 2011101311697 A CN2011101311697 A CN 2011101311697A CN 201110131169 A CN201110131169 A CN 201110131169A CN 102789466 A CN102789466 A CN 102789466A
- Authority
- CN
- China
- Prior art keywords
- title
- correlation
- candidate
- enquirement
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种提问标题质量判定方法、提问引导方法及其装置,其中提问标题质量判定方法包括:A.获取提问的标题;B.对标题结合语法结构与文本内容进行分析,以确定所述标题的质量。对提问进行引导的方法包括:a.对提问的标题进行检索,以获取候选标题;b.对候选标题进行过滤,以得到候选引导标题;c.计算提问的标题与候选引导标题的相关度,并根据相关度得到引导标题;d.向用户展示引导标题。通过上述方式,减轻了数据库的负担,增加了数据库的使用效率。
Description
【技术领域】
本发明涉及搜索引擎领域,特别涉及一种提问标题质量判定方法、提问引导方法及其装置。
【背景技术】
随着WEB2.0的广泛应用,人们越来越多地利用网络来获取自己想要的知识和信息,与此同时,在互联网上兴起了大量的知识互动社区或知识问答平台。所谓的知识互动社区或知识问答平台,是指用户既可以在该平台上进行提问,同时也可以在该平台上回答其他用户提问的场所。
在知识互动社区或知识问答平台里存在大量的问答数据,因此如何方便用户回答或检索这些数据,是个重要问题。在这些平台上的提问均有一个标题,标题的质量直接对检索或回答产生影响,因此对用户提问的标题进行质量控制,是一个很重要的工作。现有技术在解决这个问题时,通常是采用简单的策略来进行控制的,例如对用户提问的标题字数进行限制,规定标题的字数不能少于一个阈值,或对用户提问的标题里缺乏实际含义的字符进行过滤控制,但是这些做法不能对用户提问的标题进行表意能力的判断,即虽然有些标题的字数超过了规定的字数,但是该标题的内容却让人不知所云,而现有技术的简单策略无法识别出这种含义不清晰的标题,同时,针对这种低质量标题的提问,现有技术也没有提供一种对提问进行引导的方法。
【发明内容】
本发明所要解决的技术问题是提供一种提问标题质量判定的方法、提问引导方法及其装置,以解决现有技术不能清晰识别用户在知识问答平台上的提问的表意能力较差的标题,从而不能很好地控制用户在知识问答平台上提问的标题的质量,导致大量不利于检索的数据进入数据库,增加数据库负担的问题。
本发明为解决技术问题而采用的技术方案是提供一种提问标题质量判定的方法,包括:A.获取提问的标题;B.对所述标题结合语法结构与文本内容进行分析,以确定所述标题的质量。
根据本发明之一优选实施例,所述步骤B包括:B11.利用关键词与语法结构结合的问题模版对所述标题进行匹配验证;B12.计算通过所述验证的标题中包含的表意能力的词语的个数,当所述个数大于第一阈值时,确定所述标题为高质量标题。
根据本发明之一优选实施例,所述步骤B包括:B21.利用疑问词表对所述标题进行匹配验证;B22.计算通过所述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第二阈值且所述实词的个数大于第三阈值时,确定所述标题为高质量标题。
根据本发明之一优选实施例,所述步骤B包括:B31.利用疑问规则对所述标题进行匹配验证,其中所述疑问规则至少包含对词汇、词性或位置三者中一种的限制;B32.计算通过所述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第四阈值且所述实词的个数大于第五阈值时,确定所述标题为高质量标题。
根据本发明之一优选实施例,所述步骤B进一步包括:B41.当所述标题无法确定为高质量标题时,对所述标题进行语义分析,以获取所述标题的主题;B42.利用分类信息目录对所述主题进行匹配验证,并根据所述主题与所述目录匹配的层次判断所述标题的质量。
本发明还提供了一种提问引导方法,包括:a.对提问的标题进行检索,以获取候选标题;b.对所述候选标题进行过滤,以得到候选引导标题,所述过滤包括采用所述提问标题质量判定方法对所述候选标题进行质量判定,并过滤掉所述候选标题中除判定为高质量标题外的其他标题;c.计算所述提问的标题与所述候选引导标题的相关度,并根据所述相关度得到引导标题;d.向用户展示所述引导标题,以对用户的提问进行引导。
根据本发明之一优选实施例,所述相关度包括第一相关度与第二相关度,其中所述第一相关度是所述提问的标题与所述候选引导标题共同包含的词汇个数与所述提问的标题单独包含的词汇个数之比,所述第二相关度是所述提问的标题与所述候选引导标题共同包含的词汇个数与所述候选引导标题单独包含的词汇个数之比。
根据本发明之一优选实施例,所述步骤c中,当所述第一相关度与所述第二相关度均大于第六阈值时,将所述候选引导标题选择为所述引导标题。
根据本发明之一优选实施例,所述方法在所述步骤d前,进一步包括:e1.当所述步骤c中的输出结果为零时,对所述提问的标题进行语义分析以得到所述标题的主题;e2.利用分类信息目录对所述主题进行匹配验证,并从相匹配的目录层次的数据库中抽取预置数目的提问标题作为所述引导标题。
本发明还提供了一种提问标题质量判定装置,包括:输入单元,用于获取提问的标题;质量判定单元,用于对所述标题结合语法结构与文本内容进行分析,以确定所述标题的质量。
根据本发明之一优选实施例,所述质量判定单元包括:问题模版验证单元,用于利用关键词与语法结构结合的问题模版对所述标题进行匹配验证;第一确定单元,用于计算通过所述验证的标题中包含的表意能力的词语的个数,当所述个数大于第一阈值时,确定所述标题为高质量标题。
根据本发明之一优选实施例,所述质量判定单元包括:疑问词表验证单元,用于利用疑问词表对所述标题进行匹配验证;第二确定单元,用于计算通过所述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第二阈值且所述实词的个数大于第三阈值时,确定所述标题为高质量标题。
根据本发明之一优选实施例,所述质量判定单元包括:疑问规则验证单元,用于利用疑问规则对所述标题进行匹配验证,其中所述疑问规则至少包含对词汇、词性或位置三者中一种的限制;第三确定单元,用于计算通过所述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第四阈值且所述实词的个数大于第五阈值时,确定所述标题为高质量标题。
根据本发明之一优选实施例,所述质量判定单元进一步包括:第一语义分析单元,用于当所述标题无法确定为高质量标题时,对所述标题进行语义分析,以获取所述标题的主题;第四确定单元,用于利用分类信息目录对所述主题进行匹配验证,并根据所述主题与所述目录匹配的层次判断所述标题的质量。
本发明还提供了一种提问引导装置,包括:检索单元,用于对提问的标题进行检索,以获取候选标题;过滤单元,用于对所述候选标题进行过滤,以得到候选引导标题,所述过滤包括采用所述提问标题质量判定装置对所述候选标题进行质量判定,并过滤掉所述候选标题中除判定为高质量标题外的其他标题;相关度计算单元,用于计算所述提问的标题与所述候选引导标题的相关度,并根据所述相关度得到引导标题;展示单元,用于向用户展示所述引导标题,以对用户的提问进行引导。
根据本发明之一优选实施例,所述相关度包括第一相关度与第二相关度,其中所述第一相关度是所述提问的标题与所述候选引导标题共同包含的词汇个数与所述提问的标题单独包含的词汇个数之比,所述第二相关度是所述提问的标题与所述候选引导标题共同包含的词汇个数与所述候选引导标题单独包含的词汇个数之比。
根据本发明之一优选实施例,当所述第一相关度与所述第二相关度均大于第六阈值时,所述相关度计算单元将所述候选引导标题选择为所述引导标题。
根据本发明之一优选实施例,所述装置进一步包括:第二语义分析单元,用于当所述相关度计算单元的输出结果为零时,对所述提问的标题进行语义分析以得到所述标题的主题;抽取单元,用于利用分类信息目录对所述主题进行匹配验证,并从匹配的目录层次的数据库中抽取预置数目的提问标题作为所述引导标题。
由以上技术方案可以看出,通过对提问的标题结合语法结构与文本内容进行分析,能够很好地将用户提问中含义不清晰的标题识别出来,并结合对提问进行引导,可以有效地提高数据库中提问的标题的质量,从而有利于用户进行检索或回答,并释放了数据库中无效提问的存储空间,减轻了数据库的负担,增加了数据库的使用效率。
【附图说明】
图1为本发明实施例中提问标题质量判定方法的流程示意图;
图2为本发明中提问标题质量判定方法另一实施例的流程示意图;
图3为本发明实施例中疑问规则建立的方法的流程示意图;
图4为本发明实施例中提问引导方法的流程示意图;
图5为本发明实施例中提问标题质量判定装置的结构示意框图;
图6为本发明实施例中提问引导装置的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明实施例中提问标题质量判定方法的流程示意图。如图1所示,所述方法100包括:
步骤101:获取提问的标题;
步骤102:对所述标题结合语法结构与文本内容进行分析,以确定所述标题的质量。
下面结合具体的实施例,对上述方法进行详细描述。
请一并参考图1与图2,图2为本发明中提问标题质量判定方法另一实施例的流程示意图。
如图1与图2所示,步骤S101与步骤101对应,在步骤S101中,获取提问的标题,获取标题是进行后续处理的基础。由于本发明既可应用在对线下数据库中的提问的标题的质量判定,也可用于线上对用户输入的提问的标题的质量判断,所以步骤S101中并不限定标题的来源。
步骤S1021至S1028与步骤102对应,在本实施例中,对标题结合语法结构与文本内容进行分析,是通过四个处理逻辑实现的,分别为问题模版匹配、疑问词匹配、疑问规则匹配和分类信息匹配四个方面,对于一个用户提问的标题,只要通过这四个处理逻辑中的任意一个认定为高质量标题,就说明该标题是含义清晰的,否则该标题就属于低质量标题,也就是含义不清晰的标题。
下面结合具体的步骤,对上述的四个处理逻辑进行说明。
步骤S1021至步骤S1022实现的是问题模版匹配的处理逻辑,其中步骤S1021:利用关键词与语法结构结合的问题模版对标题进行匹配验证。如果标题未通过验证,则执行步骤S1023,否则执行步骤S1022。
所述的问题模版,指的是包含关键词与语法结构的句子结构定义,其中所述的关键词通常具有强烈的疑问倾向。以下面这个问题模版为例:还能+VP+吗,其中的VP代表动词短语,该模版表示标题中含有“还能”、“吗”这样的关键字,同时在“还能”和“吗”中间包含动词短语,当一个符合上述要求的标题出现时,该标题就能通过验证,例如,“跟有女朋友的前男友还能和好吗?”这样一个标题,由于符合上述问题模版,将通过验证。除了动词短语,还可以在句子中通过短语或名词短语等语法结构对问题模版中除关键字以外的部分进行限定,在此不再赘述。
问题模版中的关键词具有很强的疑问倾向,这是由于问题模版的关键词提取是对数据库中的优质提问的标题进行统计分析后得到的,例如,可以将数据库中得到较多用户回答的提问或在提问生成后在较短时间内得到用户回答的提问提取出来,将这些提问的标题进行分词后统计,通过每个词在一个标题中单独出现的次数、与其他词共同出现的次数,可以计算每个词在一个标题中单独出现的概率和每个词与其他词在一个标题中共同出现的概率,这样就可以选择单独出现概率高或共同出现概率高的词作为问题模版的关键词。通过对上述提取的包含关键词的问题进行语法结构的分析,即可以得到完整的问题模版。
步骤S1022:计算通过验证的标题中包含的表意能力的词语的个数,当该个数大于第一阈值时,确定标题为高质量标题,否则执行步骤S1023。步骤S1022是对步骤S1021中通过匹配的标题进行进一步地过滤,从而提高高质量标题的置信度。所述表意能力的词语,指的是名词或动词这样有实际含义的词。
步骤S1023至步骤S1024实现的是疑问词匹配的处理逻辑,其中步骤S1023:利用疑问词表对标题进行匹配验证。如果标题未通过验证,则执行步骤S1025,否则执行步骤S1024。所述的疑问词表,可以根据人们语言使用中的常识进行总结,例如哪里、哪些、为什么、怎么样、如何、谁等等。
步骤S1024:计算通过验证的标题的有效长度与包含的实词的个数,当有效长度大于第二阈值且实词的个数大于第三阈值时,确定标题为高质量标题,否则执行步骤S1025。步骤S1024是对步骤S1023中通过匹配的标题进行进一步地过滤,从而提高高质量标题的置信度。
标题的有效长度,指的是一个标题通过分词后得到的所有词,去掉停用词后的词语个数。所述的停用词,指的是诸如“像”、“的”、“啊”、“哎呀”、“按理”等没有实际意义的词。标题包含的实词的个数,是在标题去掉这些停用词的基础上,再去掉一些对提问的含义没有帮助的词汇,例如有的用户常在提问的时候采用“求助”、“高手”、“大侠”这样的词语,这些词语本身对理解提问的内容没有任何的意义,因此考虑实词的个数时,也会将这些词语剔除。第二阈值与第三阈值相当于两个门槛,只有达到相应门槛的标题,才确定为高质量标题。
步骤S1025与步骤S1026实现的是疑问规则匹配的处理逻辑,其中步骤S1025:利用疑问规则对标题进行匹配验证,所述疑问规则至少包含对词汇、词性或位置三者中一种的限制。如果标题未通过验证,则执行步骤S1027,否则执行步骤S1026。
所述词汇的限制,指的是定义一个具体词语的限制,例如以下面这种结构来表示一条规则:应/1+不/1+应该/1,其中“应”、“不”、“应该”都是具体的词语,表示在标题中出现“应不应该”这样的词语,而规则中的数字“1”可以理解为一个代号,代表的是“应”、“不”、“应该”都是关于词汇的限制,例如“吃完饭后应不应该吃水果?”这样一个标题就符合上面所述的规则。
所述词性的限制,指的是限制句子中的部分词语的词性,例如下面这条规则:那/1+名词/2,指的是在标题中出现“那”这样的词语,同时在那后面出现一个词性为名词的词语,例如“那苹果像是行货吗?”这样一个标题就符合上面所述的规则。规则中的数字“1”表示“那”的限制是一个具体词汇的限制,而数字“2”表示“名词”代表的是词性的限制,而不是表示在标题中需要出现“名词”这样的词汇。
所述位置的限制,指的是限制一个具体的词语或某种词性的词语处于标题中的位置。例如下面这条规则:含义/1+末尾/3,指的是在标题中出现“含义”这样的词语,同时该词语出现在标题的末尾,“我想知道台风的‘台’字的含义”这样一个标题就符合上述规则。规则中的数字“1”表示“含义”的限制是一个具体词汇的限制,而数字“3”表示对“含义”这个词汇出现的位置进行限制,“3”在所举例子里面代表处于末尾这样的位置。位置的限制除了所举例子里位于末尾的这种情况外,还有位于起始、位于某个词语两侧等等,只要规则中带有位置信息,都可以理解为对位置的限制,在此不一一列举。
以上例子中的数字“1”、“2”、“3”只是为了说明本发明采用的示意性地描述,实际上任何具有代表意义的符号都可采用。另外,在限制规则中,可以对词汇、词性或位置的限制进行任意组合,并不限于前文所举例子中的几种情况。
疑问规则的建立,是通过对数据库中的数据进行统计分析后得到的,请参考图3,图3为本发明实施例中疑问规则建立的方法的流程示意图。如图3所示,建立疑问规则的方法包括:
步骤201:根据疑问词表从数据库中抽取包含相同疑问词的优质提问标题,以形成相同疑问词的标题集合。疑问词表就是如步骤S1023中所述的根据常识可以总结出来的具有疑问倾向的词语的集合。例如疑问词表中有“哪里”这个疑问词,步骤201就从数据库中将包含“哪里”这个疑问词的所有优质提问标题抽取出来。优质标题的判断可以基于一定的策略进行,例如根据提问的回答个数、提问获取到回答的时间或提问被点击的次数等等。步骤201在对优质提问的标题进行抽取后,针对每一个疑问词,就可以形成与该疑问词有关的标题集合。
步骤202:统计标题集合中的频繁项特征,以得到统计结果,其中所述特征包括词汇、词性或位置。频繁项指的是分词后统计出现频率较高的词语,其本身就构成了词汇这一特征,分析其出现的位置即可得到位置特征,分析其与其他词语的连接关系即可得到词性特征。
步骤203:根据统计结果生成疑问规则。通过对统计结果设置阈值,可将最具共性的标题特点挑选出来,通过进一步地人工审核,则可以得到相应的疑问规则。
请继续参阅图2。步骤S1026:计算通过验证的标题的有效长度与包含的实词的个数,当有效长度大于第四阈值且实词的个数大于第五阈值时,确定标题为高质量标题,否则执行步骤S1027。步骤S1026与步骤S1024类似,是为了对步骤S1025中通过匹配的标题进行进一步地过滤,其中的第四阈值与第五阈值可以设置为与第二阈值和第三阈值相同,也可以不同。
步骤S1027至步骤S1028实现的是分类信息匹配的处理逻辑,其中步骤S1027:对标题进行语义分析,以获取标题的主题。对标题进行语义分析可采用现有技术进行,在此不再赘述。
步骤S1028:利用分类信息目录对主题进行匹配验证,并根据主题与目录匹配的层次判断标题的质量。
分类信息目录是科学体系的分类层次结构,例如第一层为计算机、体育、社会这样的认知体系的大范围,在计算机、体育、社会的范围下再进一步细分,可得到第二层,例如计算机还可以分为笔记本、台式机、平板电脑等等。在第二层之下还可以进一步细分出第三层,以此类推。
当标题的主题匹配到分类信息目录第一层时,认为该标题是低质量的,也就是不清晰的,当标题的主题匹配到第二层及以下各层时,可通过过滤策略进一步判断标题是否是高质量的,例如为每一层次设置一个实词阈值的限制,当标题匹配到某个层次,其包含的实词的个数又超过该层次设置的阈值,就认为标题是高质量的,否则就是不清晰的。当匹配的层次越小,说明标题的语义就越清楚,因此为实词设置的阈值就可越小。
值得注意的是,对提问标题的质量判定,本实施例同时采用问题模版匹配、疑问词匹配、疑问规则匹配和分类信息匹配这四个处理逻辑及其处理顺序仅为示范性描述,在本发明的其他实施例中,对这四个处理逻辑任意组合及安排处理顺序,都可实现提问标题质量判定。
通过本发明提供的方法,实验数据表明,不清晰的标题的判定精确率为87%,清晰问题误判率为3%,不清晰问题召回率为60%,说明本发明取得了较好的判定效果。
请参考图4,图4为本发明实施例中提问引导方法的流程示意图。如图4所示,所述方法300包括:
步骤301:对提问的标题进行检索,以获取候选标题,即以用户提问的标题为关键字,在搜索引擎的数据库中进行检索,找到数据库中包含该关键字的所有标题,以这些标题作为候选标题。
步骤302:对候选标题进行过滤,以得到候选引导标题。
对候选标题进行过滤,主要是为了过滤掉一些重复的标题以及低质量的标题。由于数据库中的数据来自于不同用户,因此,有可能出现不同的用户提交了相同的问题,这样就会出现一些重复数据,因此对这些重复的标题,只要保留一个即可。对低质量的标题进行过滤,采用的方法包括对标题的质量进行判定以及去除相应的低质量标题。对标题的质量判定,可采用前文所述的方法100进行,在方法100中除了判定为高质量标题以外的其他标题,都是低质量标题,将给予过滤。
步骤303:计算提问的标题与候选引导标题的相关度,并根据相关度得到引导标题。
相关度包括两个方面的度量,称为第一相关度和第二相关度,其中第一相关度指的是提问的标题与候选引导标题共同包含的词汇个数与提问的标题单独包含的词汇个数之比,第二相关度指的是提问的标题与候选引导标题共同包含的词汇个数与候选引导标题单独包含的词汇个数之比。
例如,提问的标题是“中国的四大是什么”,候选引导标题是“中国人爱吃的四大菜系,是谁发明的”,这两个标题分词后分别为“中国、的、四、大、是、什么”和“中国、人、爱吃、的、四、大、菜系、是、谁、发明、的”,那么提问的标题和候选引导标题共同包含的词汇就是“中国、的、四、大、是”,因此提问的标题和候选引导标题共同包含的词汇个数是5,提问的标题单独包含的词汇个数是6,候选引导标题单独包含的词汇个数是11,第一相关度就是5/6,第二相关度就是5/11。
当第一相关度与第二相关度均大于规定的阈值时,就认为提问的标题与候选引导标题相关,从而将候选引导标题选择为引导标题。仍以上面的例子说明,如果还有一个候选引导标题为“中国的四大发明是什么”,其包含的词汇为“中国、的、四、大、发明、是、什么”,与提问的标题“中国的四大是什么”包含的相同的词汇为“中国、的、四、大、是、什么”,那么第一相关度为6/6,第二相关度为6/7,如果阈值设为0.8,那么对于候选引导标题“中国的四大发明是什么”来说,其第一相关度与第二相关度都大于了规定的阈值,因此会成为引导标题,但是对于候选引导标题“中国人爱吃的四大菜系,是谁发明的”,虽然其第一相关度大于规定的阈值,但是其第二相关度却小于规定的阈值,因此不会成为引导标题。
步骤304:向用户展示引导标题,以对用户的提问进行引导。也就是在用户交互的界面,将引导标题以一定的顺序排列后供用户选择,排序的依据可以是步骤303中计算的相关度大小,也可以与其他策略相结合。
所述方法300在步骤304前还可进一步包括步骤305:当步骤303中得到的引导标题的数量为零时,对提问的标题进行语义分析以得到标题的主题。语义分析可采用现有技术进行,在此不再赘述。步骤306:利用分类信息目录对主题进行匹配验证,并从匹配的目录层次的数据库中抽取预置数目的提问标题作为引导标题。
例如提问的标题为“我到峨眉山什么泉”,由于在步骤303中得到的引导标题数目为零,那么通过步骤305的语义分析,得到的主题为四川,那么就从“旅游-四川”的目录层次的数据库中抽取一定数目的提问标题作为引导标题。
请参考图5,图5为本发明实施例中提问标题质量判定装置的结构示意框图。如图5所示,所述装置400包括:
输入单元401,用于获取提问的标题;
质量判定单元402,用于对所述标题结合语法结构与文本内容进行分析,以确定所述标题的质量。在本实施例中,对标题结合语法结构与文本内容进行分析,是通过四个处理逻辑实现的,分别为问题模版匹配、疑问词匹配、疑问规则匹配和分类信息匹配四个方面,对于一个用户提问的标题,只要通过这四个处理逻辑中的任意一个认定为高质量标题,就说明该标题是含义清晰的,否则该标题就属于低质量标题,也就是含义不清晰的标题。
在本实施例中,质量判断单元402包括问题模版验证单元4021、第一确认单元4022、疑问词表验证单元4023、第二确认单元4024、疑问规则验证单元4025、第三确认单元4026、语义分析单元4027和第四确认单元4028。其中问题模版验证单元4021、第一确认单元4022对应问题模版匹配处理逻辑,疑问词表验证单元4023、第二确认单元4024对应疑问词匹配处理逻辑,疑问规则验证单元4025、第三确认单元4026对应疑问规则匹配处理逻辑,语义分析单元4027、第四确认单元4028对应分类信息匹配处理逻辑。
下面对每个具体单元进行详细说明。
问题模版验证单元4021,用于利用关键词与语法结构结合的问题模版对标题进行匹配验证,通过验证的标题会传递到第一确认单元4022,否则传递到疑问词表验证单元4023。
所述的问题模版,指的是包含关键词与语法结构的句子结构定义,其中所述的关键词通常具有强烈的疑问倾向。以下面这个问题模版为例:还能+VP+吗,其中的VP代表动词短语,该模版表示标题中含有“还能”、“吗”这样的关键字,同时在“还能”和“吗”中间包含动词短语,当一个符合上述要求的标题出现时,该标题就能通过验证,例如,“跟有女朋友的前男友还能和好吗?”这样一个标题,由于符合上述问题模版,将通过验证。除了动词短语,还可以在句子中通过短语或名词短语等语法结构对问题模版中除关键字以外的部分进行限定,在此不再赘述。
问题模版中的关键词具有很强的疑问倾向,这是由于问题模版的关键词提取是对数据库中的优质提问的标题进行统计分析后得到的,例如,可以将数据库中得到较多用户回答的提问或在提问生成后在较短时间内得到用户回答的提问提取出来,将这些提问的标题进行分词后统计,通过每个词在一个标题中单独出现的次数、与其他词共同出现的次数,可以计算每个词在一个标题中单独出现的概率和每个词与其他词在一个标题中共同出现的概率,这样就可以选择单独出现概率高或共同出现概率高的词作为问题模版的关键词。通过对上述提取的包含关键词的问题进行语法结构的分析,即可以得到完整的问题模版。
第一确认单元4022,用于计算通过问题模版验证单元4021验证的标题中包含的表意能力的词语的个数,当该个数大于第一阈值时,确定标题为高质量标题,否则将标题传递至疑问词表验证单元4023。所述表意能力的词语,指的是名词或动词这样有实际含义的词。
疑问词表验证单元4023,用于利用疑问词表对标题进行匹配验证。通过验证的标题将传递至第二确认单元4024,否则传递至疑问规则验证单元4025。所述的疑问词表,可以根据人们语言使用中的常识进行总结,例如哪里、哪些、为什么、怎么样、如何、谁等等。
第二确认单元4024,用于计算通过疑问词表验证单元4023验证的标题的有效长度与包含的实词的个数,当有效长度大于第二阈值且实词的个数大于第三阈值时,确定标题为高质量标题,否则将标题传递至疑问规则验证单元4025。
标题的有效长度,指的是一个标题通过分词后得到的所有词,去掉停用词后的词语个数。所述的停用词,指的是诸如“像”、“的”、“啊”、“哎呀”、“按理”等没有实际意义的词。标题包含的实词的个数,是在标题去掉这些停用词的基础上,再去掉一些对提问的含义没有帮助的词汇,例如有的用户常在提问的时候采用“求助”、“高手”、“大侠”这样的词语,这些词语本身对理解提问的内容没有任何的意义,因此考虑实词的个数时,也会将这些词语剔除。第二阈值与第三阈值相当于两个门槛,只有达到相应门槛的标题,第二确认单元4024才确定为高质量标题。
疑问规则验证单元4025,用于利用疑问规则对标题进行匹配验证,所述疑问规则至少包含对词汇、词性或位置三者中一种的限制。通过验证的标题将传递至第三确认单元4026,否则传递至语义分析单元4027。
所述词汇的限制,指的是定义一个具体词语的限制,例如以下面这种结构来表示一条规则:应/1+不/1+应该/1,其中“应”、“不”、“应该”都是具体的词语,表示在标题中出现“应不应该”这样的词语,而规则中的数字“1”可以理解为一个代号,代表的是“应”、“不”、“应该”都是关于词汇的限制,例如“吃完饭后应不应该吃水果?”这样一个标题就符合上面所述的规则。
所述词性的限制,指的是限制句子中的部分词语的词性,例如下面这条规则:那/1+名词/2,指的是在标题中出现“那”这样的词语,同时在那后面出现一个词性为名词的词语,例如“那苹果像是行货吗?”这样一个标题就符合上面所述的规则。规则中的数字“1”表示“那”的限制是一个具体词汇的限制,而数字“2”表示“名词”代表的是词性的限制,而不是表示在标题中需要出现“名词”这样的词汇。
所述位置的限制,指的是限制一个具体的词语或某种词性的词语处于标题中的位置。例如下面这条规则:含义/1+末尾/3,指的是在标题中出现“含义”这样的词语,同时该词语出现在标题的末尾,“我想知道台风的‘台’字的含义”这样一个标题就符合上述规则。规则中的数字“1”表示“含义”的限制是一个具体词汇的限制,而数字“3”表示对“含义”这个词汇出现的位置进行限制,“3”在所举例子里面代表处于末尾这样的位置。位置的限制除了所举例子里位于末尾的这种情况外,还有位于起始、位于某个词语两侧等等,只要规则中带有位置信息,都可以理解为对位置的限制,在此不一一列举。
以上例子中的数字“1”、“2”、“3”只是为了说明本发明采用的示意性地描述,实际上任何具有代表意义的符号都可采用。另外,在限制规则中,可以对词汇、词性或位置的限制进行任意组合,并不限于前文所举例子中的几种情况。
第三确认单元4026,用于计算通过疑问规则验证单元4025验证的标题的有效长度与包含的实词的个数,当有效长度大于第四阈值且实词的个数大于第五阈值时,确定标题为高质量标题,否则将标题传递至语义分析单元4027。第四阈值与第五阈值可以设置为与第二阈值和第三阈值相同,也可以不同。
语义分析单元4027,用于对标题进行语义分析,以获取标题的主题。对标题进行语义分析可采用现有技术进行,在此不再赘述。
第四确认单元4028,用于利用分类信息目录对语义分析单元4027得到的主题进行匹配验证,并根据主题与目录匹配的层次判断标题的质量。
分类信息目录是科学体系的分类层次结构,例如第一层为计算机、体育、社会这样的认知体系的大范围,在计算机、体育、社会的范围下再进一步细分,可得到第二层,例如计算机还可以分为笔记本、台式机、平板电脑等等。在第二层之下还可以进一步细分出第三层,以此类推。
当标题的主题匹配到分类信息目录第一层时,认为该标题是低质量的,也就是不清晰的,当标题的主题匹配到第二层及以下各层时,可通过过滤策略进一步判断标题是否是高质量的,例如为每一层次设置一个实词阈值的限制,当标题匹配到某个层次,其包含的实词的个数又超过该层次设置的阈值,就认为标题是高质量的,否则就是不清晰的。当匹配的层次越小,说明标题的语义就越清楚,因此为实词设置的阈值就可越小。
通过质量判断单元402处理后不能判定为高质量标题的,都是低质量标题,也就是含义不清晰的标题。值得注意的是,对提问标题的质量判定,本实施例同时采用问题模版匹配、疑问词匹配、疑问规则匹配和分类信息匹配这四个处理逻辑及其处理顺序仅为示范性描述,在本发明的其他实施例中,对这四个处理逻辑任意组合及安排处理顺序,都可实现提问标题质量判定。
请参考图6,图6为本发明实施例中提问引导装置的结构示意框图。如图6所示,所述装置500包括:检索单元501、过滤单元502、相关度计算单元503、展示单元504、语义分析单元505、抽取单元506。
其中检索单元501,用于对提问的标题进行检索,以获取候选标题,即以用户提问的标题为关键字,在搜索引擎的数据库中进行检索,找到数据库中包含该关键字的所有标题,以这些标题作为候选标题。
过滤单元502,用于对候选标题进行过滤,以得到候选引导标题。
对候选标题进行过滤,主要是为了过滤掉一些重复的标题以及低质量的标题。由于数据库中的数据来自于不同用户,因此,有可能出现不同的用户提交了相同的问题,这样就会出现一些重复数据,因此对这些重复的标题,只要保留一个即可。对低质量的标题进行过滤,可采用前文所述的装置400进行,除了装置400判定为高质量标题以外的其他标题,都是低质量标题,将给予过滤。
相关度计算单元503,用于计算提问的标题与候选引导标题的相关度,并根据相关度得到引导标题。
相关度包括两个方面的度量,称为第一相关度和第二相关度,其中第一相关度指的是提问的标题与候选引导标题共同包含的词汇个数与提问的标题单独包含的词汇个数之比,第二相关度指的是提问的标题与候选引导标题共同包含的词汇个数与候选引导标题单独包含的词汇个数之比。
例如,提问的标题是“中国的四大是什么”,候选引导标题是“中国人爱吃的四大菜系,是谁发明的”,这两个标题分词后分别为“中国、的、四、大、是、什么”和“中国、人、爱吃、的、四、大、菜系、是、谁、发明、的”,那么提问的标题和候选引导标题共同包含的词汇就是“中国、的、四、大、是”,因此提问的标题和候选引导标题共同包含的词汇个数是5,提问的标题单独包含的词汇个数是6,候选引导标题单独包含的词汇个数是11,第一相关度就是5/6,第二相关度就是5/11。
当第一相关度与第二相关度均大于规定的阈值时,就认为提问的标题与候选引导标题相关,从而将候选引导标题选择为引导标题。仍以上面的例子说明,如果还有一个候选引导标题为“中国的四大发明是什么”,其包含的词汇为“中国、的、四、大、发明、是、什么”,与提问的标题“中国的四大是什么”包含的相同的词汇为“中国、的、四、大、是、什么”,那么第一相关度为6/6,第二相关度为6/7,如果阈值设为0.8,那么对于候选引导标题“中国的四大发明是什么”来说,其第一相关度与第二相关度都大于了规定的阈值,因此会成为引导标题,但是对于候选引导标题“中国人爱吃的四大菜系,是谁发明的”,虽然其第一相关度大于规定的阈值,但是其第二相关度却小于规定的阈值,因此不会成为引导标题。
展示单元504,用于向用户展示引导标题,以对用户的提问进行引导。也就是在用户交互的界面,将引导标题以一定的顺序排列后供用户选择,排序的依据可以是相关度计算单元503中计算的相关度大小,也可以与其他策略相结合。
语义分析单元505,用于当相关度计算单元503输出的引导标题的数量为零时,对提问的标题进行语义分析以得到标题的主题。语义分析可采用现有技术进行,在此不再赘述。
抽取单元506,用于利用分类信息目录对主题进行匹配验证,并从匹配的目录层次的数据库中抽取预置数目的提问标题作为引导标题。
例如提问的标题为“我到峨眉山什么泉”,由于相关度计算单元503得到的引导标题数目为零,那么通过语义分析单元505的分析,得到的主题为四川,那么就从“旅游-四川”的目录层次的数据库中抽取一定数目的提问标题作为引导标题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (18)
1.一种提问标题质量判定方法,其特征在于,所述方法包括:
A.获取提问的标题;
B.对所述标题结合语法结构与文本内容进行分析,以确定所述标题的质量。
2.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
B11.利用关键词与语法结构结合的问题模版对所述标题进行匹配验证;
B12.计算通过所述验证的标题中包含的表意能力的词语的个数,当所述个数大于第一阈值时,确定所述标题为高质量标题。
3.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
B21.利用疑问词表对所述标题进行匹配验证;
B22.计算通过所述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第二阈值且所述实词的个数大于第三阈值时,确定所述标题为高质量标题。
4.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
B31.利用疑问规则对所述标题进行匹配验证,其中所述疑问规则至少包含对词汇、词性或位置三者中一种的限制;
B32.计算通过所述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第四阈值且所述实词的个数大于第五阈值时,确定所述标题为高质量标题。
5.根据权利要求2至4中任一权项所述的方法,其特征在于,所述步骤B进一步包括:
B41.当所述标题无法确定为高质量标题时,对所述标题进行语义分析,以获取所述标题的主题;
B42.利用分类信息目录对所述主题进行匹配验证,并根据所述主题与所述目录匹配的层次判断所述标题的质量。
6.一种提问引导方法,其特征在于,所述方法包括:
a.对提问的标题进行检索,以获取候选标题;
b.对所述候选标题进行过滤,以得到候选引导标题,所述过滤包括采用权利要求1至4中任一权项所述的方法对所述候选标题进行质量判定,并过滤掉所述候选标题中除判定为高质量标题外的其他标题;
c.计算所述提问的标题与所述候选引导标题的相关度,并根据所述相关度得到引导标题;
d.向用户展示所述引导标题,以对用户的提问进行引导。
7.根据权利要求6所述的方法,其特征在于,所述相关度包括第一相关度与第二相关度,其中所述第一相关度是所述提问的标题与所述候选引导标题共同包含的词汇个数与所述提问的标题单独包含的词汇个数之比,所述第二相关度是所述提问的标题与所述候选引导标题共同包含的词汇个数与所述候选引导标题单独包含的词汇个数之比。
8.根据权利要求7所述的方法,其特征在于,所述步骤c中,当所述第一相关度与所述第二相关度均大于第六阈值时,将所述候选引导标题选择为所述引导标题。
9.根据权利要求6所述的方法,其特征在于,所述方法在所述步骤d前,进一步包括:
e1.当所述步骤c中的输出结果为零时,对所述提问的标题进行语义分析以得到所述标题的主题;
e2.利用分类信息目录对所述主题进行匹配验证,并从相匹配的目录层次的数据库中抽取预置数目的提问标题作为所述引导标题。
10.一种提问标题质量判定装置,其特征在于,所述装置包括:
输入单元,用于获取提问的标题;
质量判定单元,用于对所述标题结合语法结构与文本内容进行分析,以确定所述标题的质量。
11.根据权利要求10所述的装置,其特征在于,所述质量判定单元包括:
问题模版验证单元,用于利用关键词与语法结构结合的问题模版对所述标题进行匹配验证;
第一确定单元,用于计算通过所述验证的标题中包含的表意能力的词语的个数,当所述个数大于第一阈值时,确定所述标题为高质量标题。
12.根据权利要求10所述的装置,其特征在于,所述质量判定单元包括:
疑问词表验证单元,用于利用疑问词表对所述标题进行匹配验证;
第二确定单元,用于计算通过所述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第二阈值且所述实词的个数大于第三阈值时,确定所述标题为高质量标题。
13.根据权利要求10所述的装置,其特征在于,所述质量判定单元包括:
疑问规则验证单元,用于利用疑问规则对所述标题进行匹配验证,其中所述疑问规则至少包含对词汇、词性或位置三者中一种的限制;
第三确定单元,用于计算通过所述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第四阈值且所述实词的个数大于第五阈值时,确定所述标题为高质量标题。
14.根据权利要求11至13中任一权项所述的装置,其特征在于,所述质量判定单元进一步包括:
第一语义分析单元,用于当所述标题无法确定为高质量标题时,对所述标题进行语义分析,以获取所述标题的主题;
第四确定单元,用于利用分类信息目录对所述主题进行匹配验证,并根据所述主题与所述目录匹配的层次判断所述标题的质量。
15.一种提问引导装置,其特征在于,所述装置包括:
检索单元,用于对提问的标题进行检索,以获取候选标题;
过滤单元,用于对所述候选标题进行过滤,以得到候选引导标题,所述过滤包括采用权利要求10至13中任一权项所述的装置对所述候选标题进行质量判定,并过滤掉所述候选标题中除判定为高质量标题外的其他标题;
相关度计算单元,用于计算所述提问的标题与所述候选引导标题的相关度,并根据所述相关度得到引导标题;
展示单元,用于向用户展示所述引导标题,以对用户的提问进行引导。
16.根据权利要求15所述的装置,其特征在于,所述相关度包括第一相关度与第二相关度,其中所述第一相关度是所述提问的标题与所述候选引导标题共同包含的词汇个数与所述提问的标题单独包含的词汇个数之比,所述第二相关度是所述提问的标题与所述候选引导标题共同包含的词汇个数与所述候选引导标题单独包含的词汇个数之比。
17.根据权利要求16所述的装置,其特征在于,当所述第一相关度与所述第二相关度均大于第六阈值时,所述相关度计算单元将所述候选引导标题选择为所述引导标题。
18.根据权利要求15所述的装置,其特征在于,所述装置进一步包括:
第二语义分析单元,用于当所述相关度计算单元的输出结果为零时,对所述提问的标题进行语义分析以得到所述标题的主题;
抽取单元,用于利用分类信息目录对所述主题进行匹配验证,并从匹配的目录层次的数据库中抽取预置数目的提问标题作为所述引导标题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110131169.7A CN102789466B (zh) | 2011-05-19 | 2011-05-19 | 一种提问标题质量判定方法、提问引导方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110131169.7A CN102789466B (zh) | 2011-05-19 | 2011-05-19 | 一种提问标题质量判定方法、提问引导方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102789466A true CN102789466A (zh) | 2012-11-21 |
CN102789466B CN102789466B (zh) | 2015-09-30 |
Family
ID=47154870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110131169.7A Active CN102789466B (zh) | 2011-05-19 | 2011-05-19 | 一种提问标题质量判定方法、提问引导方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102789466B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218436A (zh) * | 2013-04-17 | 2013-07-24 | 中国科学院自动化研究所 | 一种融合用户类别标签的相似问题检索方法及装置 |
CN104077330A (zh) * | 2013-03-30 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 挂载问题到主题的方法和*** |
CN110851579A (zh) * | 2019-11-06 | 2020-02-28 | 杨鑫蛟 | 用户意图识别方法、***、移动终端及存储介质 |
CN111581487A (zh) * | 2020-05-11 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 一种信息处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013421A (zh) * | 2007-02-02 | 2007-08-08 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
CN101128818A (zh) * | 2004-12-29 | 2008-02-20 | 奥尔有限公司 | 向信息源路由查询以及对查询结果进行分类和筛选 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN101576928A (zh) * | 2009-06-11 | 2009-11-11 | 腾讯科技(深圳)有限公司 | 一种相关文章的选取方法和装置 |
CN101814067A (zh) * | 2009-01-07 | 2010-08-25 | 张光盛 | 对自然语言内容中的信息含量进行定量估算的***和方法 |
-
2011
- 2011-05-19 CN CN201110131169.7A patent/CN102789466B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101128818A (zh) * | 2004-12-29 | 2008-02-20 | 奥尔有限公司 | 向信息源路由查询以及对查询结果进行分类和筛选 |
CN101013421A (zh) * | 2007-02-02 | 2007-08-08 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
CN101814067A (zh) * | 2009-01-07 | 2010-08-25 | 张光盛 | 对自然语言内容中的信息含量进行定量估算的***和方法 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
CN101576928A (zh) * | 2009-06-11 | 2009-11-11 | 腾讯科技(深圳)有限公司 | 一种相关文章的选取方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077330A (zh) * | 2013-03-30 | 2014-10-01 | 百度在线网络技术(北京)有限公司 | 挂载问题到主题的方法和*** |
CN103218436A (zh) * | 2013-04-17 | 2013-07-24 | 中国科学院自动化研究所 | 一种融合用户类别标签的相似问题检索方法及装置 |
CN103218436B (zh) * | 2013-04-17 | 2016-05-18 | 中国科学院自动化研究所 | 一种融合用户类别标签的相似问题检索方法及装置 |
CN110851579A (zh) * | 2019-11-06 | 2020-02-28 | 杨鑫蛟 | 用户意图识别方法、***、移动终端及存储介质 |
CN111581487A (zh) * | 2020-05-11 | 2020-08-25 | 北京字节跳动网络技术有限公司 | 一种信息处理方法及装置 |
CN111581487B (zh) * | 2020-05-11 | 2023-05-05 | 北京字节跳动网络技术有限公司 | 一种信息处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102789466B (zh) | 2015-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
US9626622B2 (en) | Training a question/answer system using answer keys based on forum content | |
US11521603B2 (en) | Automatically generating conference minutes | |
KR101737887B1 (ko) | 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치 | |
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
CN108073568A (zh) | 关键词提取方法和装置 | |
CN110377908B (zh) | 语义理解方法、装置、设备及可读存储介质 | |
US20140040181A1 (en) | Automatic faq generation | |
CN110888990A (zh) | 文本推荐方法、装置、设备及介质 | |
CN109255012B (zh) | 机器阅读理解以及减少候选数据集规模的方法、装置 | |
CN106951503A (zh) | 信息提供方法、装置、设备以及存储介质 | |
CN103885966A (zh) | 电子商务交易平台中的问答交互方法和*** | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN111767393A (zh) | 一种文本核心内容提取方法及装置 | |
Murray et al. | Interpretation and transformation for abstracting conversations | |
KR102639979B1 (ko) | 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램 | |
CN110807326A (zh) | 结合gpu-dmm与文本特征的短文本关键词提取方法 | |
CN109634436A (zh) | 输入法的联想方法、装置、设备及可读存储介质 | |
CN111061837A (zh) | 话题识别方法、装置、设备及介质 | |
US20210056261A1 (en) | Hybrid artificial intelligence system for semi-automatic patent pinfringement analysis | |
CN102789466A (zh) | 一种提问标题质量判定方法、提问引导方法及其装置 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN112528640A (zh) | 一种基于异常子图检测的领域术语自动抽取方法 | |
CN108475265B (zh) | 获取未登录词的方法与装置 | |
Tan et al. | Placing videos on a semantic hierarchy for search result navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |