CN102722558B - 一种为用户推荐提问的方法和装置 - Google Patents
一种为用户推荐提问的方法和装置 Download PDFInfo
- Publication number
- CN102722558B CN102722558B CN201210172835.6A CN201210172835A CN102722558B CN 102722558 B CN102722558 B CN 102722558B CN 201210172835 A CN201210172835 A CN 201210172835A CN 102722558 B CN102722558 B CN 102722558B
- Authority
- CN
- China
- Prior art keywords
- enquirement
- user
- key word
- information
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种为用户推荐提问的方法和装置,其中方法包括:对用户当前提问进行分词处理,得到关键词序列;查询意图属性值词表,从关键词序列中选择意图属性值满足预设要求的关键词作为意图关键词;查询意图信息表,确定意图关键词对应的意图信息;从确定的意图信息中选择N个意图信息分别与意图关键词构成组合后,到提问库中进行检索,从所述组合命中的提问中选择M个提问作为猜测性提问推荐给用户,所述N和M为正整数。本发明能够定位出用户的意图,并基于此猜测用户的进一步提问推荐给用户,从而避免每次都手工输入进一步的提问,节约了用户的时间和精力,用户只需要点选推荐的猜测性提问即可形成新的提问,操作更加简便。
Description
【技术领域】
本发明涉及计算机技术领域,特别涉及一种为用户推荐提问的方法和装置。
【背景技术】
随着计算机网络技术的不断发展,人们通过网络获取信息的方式越来越多,问答平台就是其中一种较为直接和准确获取信息的方式。即用户在问答平台所提供页面的文本框中输入问题进行提问,就可以得到其他网民的帮助。当用户输入“我在北京,户口档案在家里,以后可能随时会出国,请问办理护照的过程?如何办理需要什么证件”,就会产生一个提问页面,在该提问页面上其他网民可以提供答案,当有网民提供的优质答案后,就会作为推荐答案在该提问页面上展示,如图1所示。
然而,用户在获取信息时,往往一次提问并不能满足需求,可能需要进行几次相关的提问,仍以图1中所示提问为例,用户在进行提问后,可能会继续进行诸如办理护照的地点、办理护照的时间、收费状况等等相关提问,现有技术中的方式就需要用户每次都人工输入进一步的提问,即便这些提问是相关的,显然十分浪费用户的时间和精力,操作也非常麻烦。
【发明内容】
有鉴于此,本发明提供了一种为用户推荐提问的方法和装置,以便于在满足用户进一步提问的需求的同时,节约用户的时间和精力,操作更加简便。
具体技术方案如下:
一种为用户推荐提问的方法,该方法包括:
S1、对用户当前提问进行分词处理,得到关键词序列;
S2、查询意图属性值词表,从关键词序列中选择意图属性值满足预设要求的关键词作为意图关键词;
S3、查询意图信息表,确定意图关键词对应的意图信息;
S4、从确定的意图信息中选择N个意图信息分别与意图关键词构成组合后,到提问库中进行检索,从所述组合命中的提问中选择M个提问作为猜测性提问推荐给用户,所述N和M为正整数。
根据本发明一优选实施例,在所述步骤S4中,将每一个意图关键词对应的意图信息集合进行合并,得到总的意图信息集合,从所述总的意图信息集合中选择N个意图信息。
根据本发明一优选实施例,所述步骤S4中从确定的意图信息中选择N个意图信息具体包括:
A1、选择所述用户在当前提问之前的P1个提问,所述P1为预设的正整数;
A2、获取按照所述步骤S1至S3分别针对所述P1个提问确定出的意图信息;
A3、对所述P1个提问确定出的意图信息和所述当前提问确定出的意图信息取交集,得到N个意图信息。
根据本发明一优选实施例,所述步骤A1具体包括:确定所述用户在当前提问之前最近的P1个提问,过滤掉所述P1个提问中提问时间超过预设有效时间的提问。
根据本发明一优选实施例,所述步骤S4中从所述组合命中的提问中选择M个提问作为猜测性提问具体包括:
分别从每一个组合命中的提问中选择与对应组合相关度最高的一个或几个提问作为猜测性提问;或者,
根据用户属性,分别从每一个组合命中的提问中选择与用户属性匹配度最高的一个或几个提问,所述用户属性包括:用户注册信息或用户IP地址信息;或者,
根据用户所使用终端采集到的信息,分别从每一个组合命中的提问中选择与所述终端采集到的信息匹配度最高的一个或几个提问;所述终端采集到信息包括:地理位置信息、环境信息、交通状况信息或者天气信息。
根据本发明一优选实施例,当用户点选其中一个猜测性提问后,所述点选视为新的提问行为,将用户点选的猜测性提问作为新的当前提问,重新转至执行所述步骤S1。
根据本发明一优选实施例,所述意图属性值词表的建立过程包括:
B1、从检索日志中获取搜索项query,并对各query进行分词处理;
B2、对分词处理后的各query依据预设的意图挖掘规则提取关键词;
B3、依据提取的关键词在检索日志中出现的状况赋予意图属性值。
根据本发明一优选实施例,所述意图挖掘规则包括:基于语法成分的规则、基于问句模板的规则以及基于词性的规则中的一种或任意组合;
在所述步骤B3中对提取的关键词赋予意图属性值时,依据关键词所在的语法成分、词性或者逆文档频率IDF中的一种任意组合。
根据本发明一优选实施例,所述意图信息表的建立过程中,分别针对每一个query执行以下步骤:
C1、逐一获取当前query中的每一个关键词,并分别执行以下步骤:
C2、判断意图信息表中是否存在以当前获取的关键词为key的表项,如果否,执行步骤C3,如果是,执行步骤C4;
C3、在意图信息表中建立以当前获取的关键词为key的表项,执行步骤C4;
C4、将当前query中除当前获取的关键词之外的其他关键词添加为该表项中的意图信息并进行去重处理。
一种为用户推荐提问的装置,该装置包括:
分词处理单元,用于对用户当前提问进行分词处理,得到关键词序列;
关键词选择单元,用于查询意图属性值词表,从关键词序列中选择意图属性值满足预设要求的关键词作为意图关键词;
意图确定单元,用于查询意图信息表,确定所述意图关键词对应的意图信息;
意图选择单元,用于从确定的意图信息中选择N个意图信息;
提问推荐单元,用于将所述N个意图信息分别与意图关键词构成组合后,到提问库中进行检索,从所述组合命中的提问中选择M个提问作为猜测性提问推荐给用户,所述N和M为正整数。
根据本发明一优选实施例,所述意图选择单元将每一个意图关键词对应的意图信息集合进行合并,得到总的意图信息集合,从所述总的意图信息集合中选择N个意图信息。
根据本发明一优选实施例,所述意图选择单元具体包括:
提问选择子单元,选择所述用户在当前提问之前的P1个提问,所述P1为预设的正整数;
意图获取子单元,用于从所述意图确定单元获取分别针对所述P1个提问确定的意图信息;
意图选择子单元,用于对所述P1个提问确定的意图信息和所述当前提问确定出的意图信息取交集,得到N个意图信息。
根据本发明一优选实施例,提问选择子单元在确定所述用户在当前提问之前最近的P1个提问后,过滤掉所述P1个提问中提问时间超过预设有效时间的提问。
根据本发明一优选实施例,所述提问推荐单元在从所述组合命中的提问中选择M个提问作为猜测性提问时,
分别从每一个组合命中的提问中选择与对应组合相关度最高的一个或几个提问作为猜测性提问;或者,
根据用户属性,分别从每一个组合命中的提问中选择与用户属性匹配度最高的一个或几个提问,所述用户属性包括:用户注册信息或用户IP地址信息;或者,
根据用户所使用终端采集到的信息,分别从每一个组合命中的提问中选择与所述终端采集到的信息匹配度最高的一个或几个提问;所述终端采集到信息包括:地理位置信息、环境信息、交通状况信息或者天气信息。
根据本发明一优选实施例,点选获取单元,用于当用户点选其中一个猜测性提问后,将所述点选视为新的提问行为,将用户点选的猜测性提问作为新的当前提问。
根据本发明一优选实施例,该装置还包括:词表建立单元;
所述词表建立单元具体包括:
分词子单元,用于从检索日志中获取搜索项query,并对各query进行分词处理;
关键词提取子单元,用于对分词处理后的各query依据预设的意图挖掘规则提取关键词;
属性值赋予子单元,用于依据提取的关键词在检索日志中出现的状况赋予意图属性值。
根据本发明一优选实施例,所述意图挖掘规则包括:基于语法成分的规则、基于问句模板的规则以及基于词性的规则中的一种或任意组合;
所述属性值赋予子单元在对提取的关键词赋予意图属性值时,依据关键词所在的语法成分、词性或者逆文档频率IDF中的一种任意组合。
根据本发明一优选实施例,该装置还包括:信息表建立单元;
所述信息表建立单元具体包括:
控制子单元,用于从所述关键词提取子单元逐一获取每一个query的关键词,将当前query的每一个关键词发送给表项判断子单元;
表项判断子单元,用于判断意图信息表中是否存在以当前获取的关键词为key的表项,如果否,触发表项建立子单元,如果是,触发意图添加子单元;
表项建立子单元,用于受到触发时,在意图信息表中建立以当前获取的关键词为key的表项,触发意图添加子单元;
意图添加子单元,用于受到触发时,将当前query中除当前获取的关键词之外的其他关键词添加为该表项中的意图信息并进行去重处理。
由以上技术方案可以看出,本发明对当前提问进行意图关键词的提取并进行意图信息的查询,从确定的意图信息中选择若干意图信息分别与意图关键词构成组合后到提问库中进行检索,得到猜测性提问推荐给用户。也就是说,通过本发明能够定位出用户的意图,并基于此猜测用户的进一步提问推荐给用户,从而避免每次都人工输入进一步的提问,节约了用户的时间和精力,用户只需要点选推荐的猜测性提问即可形成新的提问,操作更加简便。
【附图说明】
图1为现有提问页面的一个实例图;
图2为本发明实施例一提供的为用户推荐提问的方法流程图;
图3为本发明实施例一提供的选择意图信息的方法流程图;
图4为本发明实施例一提供的在提问页面中展现猜测性提问的实例图;
图5为本发明实施例二提供的挖掘意图属性词表的流程图;
图6为本发明实施例三提供的建立意图信息表的流程图;
图7为本发明实施例四提供的为用户推荐提问的装置结构图;
图8为本发明实施例五提供的词表建立单元的结构图;
图9为本发明实施例六提供的信息表建立单元的结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图2为本发明实施例一提供的为用户推荐提问的方法流程图,如图2所示,该方法具体包括以下步骤:
步骤201:对用户当前提问进行分词处理,得到关键词序列。
本发明主要是用于在用户进行提问后,能够根据其当前提问猜测其意图,从而为用户推荐其进一步可能的提问,因此从本步骤开始首先对用户当前提问进行解析。在进行分词处理后,可以进一步包括但不限于停用词过滤、黄反词过滤等处理,从而得到关键词序列。
需要说明的是,在本步骤还可以辅以句子成分分析,将能够主要表达句子意思的主语、谓语、宾语等中的关键词构成关键词序列。
步骤202:查询意图属性值词表,从关键词序列中选择意图属性值满足预设要求的关键词作为意图关键词。
意图属性值词表中预置了大量具有意图属性的词语,以及各词语的意图属性值。该意图属性值词表可以采用人工的方式设置,也可以基于检索日志进行挖掘,意图属性值词表的挖掘过程将在实施例二中具体描述。
所谓意图属性指的是通常能够表达出用户具有的某种目的,例如词语“哪里”、“机构”、“部门”等具有要获知地点的意图属性,词语“办理”、“收费”、“注意事项”等具有要获知具体事务的意图属性,等等。
在选择意图关键词时,通过查询意图属性值词表可以获知具有意图属性的关键词及其对应的意图属性值,然后可以从中选择意图属性值排在前N1个的关键词作为意图关键词,也可以从中选择意图属性值大于预设属性阈值的关键词作为意图关键词,等等。
仍以图1中所示提问为例,对当前提问“我在北京,户口档案在家里,以后可能随时会出国,请问办理护照的过程?如何办理需要什么证件”,进行分词处理后得到关键词序列,假设通过查询意图属性词表,确定具有意图属性的关键词及其意图属性值分别为:北京1、户口档案2、出国2、办理3、护照3、证件2。假设从中选取意图属性值排在前2位的关键词作为意图关键词,则选取的意图关键词为:“办理”和“护照”。
步骤203:查询意图信息表,确定意图关键词对应的意图信息。
意图信息表中预置有意图关键词与意图信息之间的对应关系,其中意图信息为具有某种意图的短语或词语。该意图信息表可以采用人工的方式设置,也可以结合意图属性词表基于检索日志进行挖掘,具体的挖掘方法将在实施例三中描述。
在查询意图信息表后,每一个意图关键词都能够确定出其对应的意图信息集合,再将确定出的意图信息集合进行合并,得到一个总的集合。
例如,通过查询意图信息表,确定意图关键词“办理”对应的意图信息集合为{上班时间,收费,所需证件},意图关键词“护照”对应的意图信息集合为{出国旅游、旅游、港澳通行证},那么进行合并后得到总的集合为{上班时间,收费,所需证件,出国旅游、旅游、港澳通行证}
步骤204:从确定的意图信息中选择N个意图信息分别与意图关键词构成组合后到提问库中进行检索,分别从命中的提问中选择M个提问作为猜测性提问推荐给用户,其中N和M为正整数。
在选择意图信息时,可以随机选择N个意图信息,或者,优选地可以依据用户之前的提问选择意图信息。
在依据用户之前的提问选择意图信息时,具体可以如图3所示,执行以下步骤:
步骤301:选择用户在当前提问之前的P1个提问,P1为预设的正整数。
利用用户cookie或用户的登录名,得到用户在当前提问之前最近P1次访问的提问内容,并且可以进一步对提问时间超过预设有效时间的提问进行过滤,也就是说,仅选择在预设有效时间范围内的提问。例如,可以选择用户在当前提问之前最近5次的提问,对提问时间大于2个小时的提问进行过滤,仅保留在2个小时之内的提问。
步骤302:获取按照图2中步骤201至步骤203分别对该P1个提问确定出的意图信息。
步骤303:对P1个提问确定出的意图信息和当前提问确定出的意图信息取交集,得到N个意图信息。
在对每个P1个提问都执行步骤201和步骤203之后,可以利用对这P1个提问确定出的所有意图信息与当前提问确定出的意图信息取交集,作为选择的意图信息。
继续参见图2,在步骤204中,利用选择出的N个意图信息分别与所有的意图关键词构成组合,例如,“办理”和“护照”确定出的意图信息集合为{上班时间,收费,所需证件,出国旅游、旅游、港澳通行证},假设与前5个在有效时间内的提问确定出的意图集合取交集后,得到4个意图信息{上班时间、收费、出国旅游、旅游},将这4个意图信息与“办理”和“护照”进行组合后得到:
办理护照上班时间;
办理护照收费;
办理护照出国旅游;
办理护照旅游。
分别利用上述组合到问答平台的提问库中进行检索,每一个组合均可能命中到若干个提问,在从命中的提问中选择猜测性提问时,选择策略可以包括但不限于:
选择策略一、分别从每一个组合命中的提问中选择与对应组合相关度最高的一个或几个提问。例如,可以从每一个组合命中的提问中,均选择与对应组合相关度最高的一个提问作为猜测性提问推荐给用户。
选择策略二、根据用户属性,从每一个组合命中的提问中选择与用户属性匹配度最高的一个或几个提问。例如,可以根据用户的注册信息、用户的IP地址信息等确定出用户的地理位置属性,从每一个组合命中的提问中,选择与用户的地理位置最匹配的提问。再例如,可以根据用户的年龄段属性,从每一个组合命中的提问中,选择与用户的年龄段属性最匹配的提问。
选择策略三、根据用户所使用终端采集到的信息,从每一个组合命中的提问中选择与用户所使用终端采集到的信息匹配度最高的一个或几个提问。其中用户所使用终端采集到的信息可以包括但不限于:地理位置信息、环境信息、交通状况信息、天气信息等等。
在将猜测性提问推荐给用户时,可以在提问页面上设置一个猜测性提问推荐区域,将推荐给用户的猜测性提问在该区域显示给用户,如图4所示。
当用户点选其中某一个猜测性提问后,该点选操作视为新的提问行为,即形成一个新的提问页面,将用户点选的猜测性提问作为新的当前提问,此时可以针对新的当前提问进入一个新的循环,重新执行图2所示的流程,针对新的当前提问向用户推荐猜测性提问。
实施例二、
图5为本发明实施例二提供的意图属性词表的挖掘过程流程图,如图5所示,该过程包括以下步骤:
步骤501:从检索日志中获取query,并对各query进行分词处理。
由于用户在进行检索时,输入的query通常会包含有体现用户意图的词语,因此可以从检索日志的大量query中挖掘意图关键词。
步骤502:对分词处理后的各query依据预设的意图挖掘规则提取关键词。
此处的意图挖掘规则可以包括但不限于:基于语法成分的规则、基于问句模板的规则以及基于词性的规则中的一种或任意组合。
其中,基于语法成分的规则例如可以包括:提取动宾结构中的动词和宾语;提取主谓宾结构中的主语、谓语和宾语;提取偏正结构中的被修饰词语;等等。
基于问句模板的规则例如可以包括:提取是非问句中的对象,例如“A是不是B?”、“A是B?”,则从中提取关键词A和B;提取特指问句中的对象,例如“A怎么样?”、“谁是B”,则从中提取关键词A和B;提取选择问句中的对象,例如“A还是B”、“A或者B”,则从中提取关键词A和B。
基于词性的规则,例如可以提取query中的动词、名词。
如果采用基于语法成分的规则和基于词性的规则的结合,例如,提取动宾结构中的动词以及宾语中的名词。如果采用基于语法成分的规则或者基于词性的规则和基于问句的规则的结合,例如,如果采用基于问句的规则提取的对象是可切分的短语,则可以进一步采用基于语法成分的规则或者基于词性的规则进一步细分提取。在此对于意图挖掘规则不再一一列举。
步骤503:依据关键词在检索日志中出现的状况赋予意图属性值。
对于提取出的关键词到底能够在多大程度上体现用户意图,则可以通过对其赋予意图属性值来进行体现,在本步骤中,对关键词赋予意图属性值时,可以依据关键词所在的语法成分、词性或者IDF中的一种或组合进行设置。
例如,可以将语法成分、词性和IDF的影响分别设置加权系数,统计各关键词出现在不同语法成分中的次数,依据统计结果确定出在语法成分上的意图分值,统计各关键词出现在不同词性中的次数,依据统计结果确定出在词性上的意图分值,统计各关键词在query中的IDF,依据统计结果确定出在IDF上的意图分值,然后将各意图分值进行加权,得到该关键词的意图属性值。
在确定出关键词的意图属性值后,还可以进一步通过人工的方式对各关键词的意图属性值进行调权和优化。
这样,通过本实施例就得到了包含各关键词(该关键词体现出了用户的某种意图)以及关键词的意图属性值(意图属性值表征了关键词对用户意图所体现的程度)的意图属性词表。
实施例三、
建立意图信息表的过程实际上可以在建立上述意图属性词表的过程中实现,在实施例二的步骤502中提取出关键词后,利用从各query中提取出的关键词建立意图信息表,如图6所示,分别针对每一个query提取出的关键词执行以下步骤:
步骤601:逐一获取当前query中的每一个关键词,并分别执行以下步骤:
步骤602:判断意图信息表中是否存在以当前获取的关键词为key的表项,如果否,则执行步骤603;如果是,执行步骤604。
步骤603:在意图信息表中建立以当前获取的关键词为key的表项,执行步骤604。
步骤604:将当前query中除当前获取的关键词之外的其他关键词添加为该表项中的意图信息并进行去重处理,结束对当前获取的关键词的操作。
例如,假设从某个query中提取出关键词A、B和C,首先获取关键词A,判断意图信息表中是否存在以该关键词A为key的表项,如果没有,就先建立一个以该关键词A为key的表项,然后将关键词B和C添加为关键词A对应的意图信息;如果已经有,则直接将关键词B和C添加为关键词A对应的意图信息,并进行去重处理。然后再分别获取关键词B和C,执行与针对关键词A相同的处理。如果单纯针对该query执行上述操作建立的表项如表1所示。
表1
key | 意图信息 |
关键词A | 关键词B、关键词C |
关键词B | 关键词A、关键词C |
关键词C | 关键词A、关键词B |
对所有query都执行上述流程之后,即可得到一个含有很多表项的意图信息表。
以上是对本发明所提供的方法进行的描述,下面对本发明所提供的装置进行详细描述。
实施例四、
图7为本发明实施例四提供的为用户推荐提问的装置结构图,如图7所示,该装置可以包括:分词处理单元700、关键词选择单元710、意图确定单元720、意图选择单元730和提问推荐单元740。
分词处理单元700,用于对用户当前提问进行分词处理,得到关键词序列。
在进行分词处理后,可以进一步包括但不限于停用词过滤、黄反词过滤等处理,从而得到关键词序列。
关键词选择单元710,用于查询意图属性值词表,从关键词序列中选择意图属性值满足预设要求的关键词作为意图关键词。
意图属性值词表中预置了大量具有意图属性的词语,以及各词语的意图属性值。该意图属性值词表可以采用人工的方式设置,也可以基于检索日志进行挖掘。为了实现意图属性词表的挖掘,该装置还可以包括:词表建立单元750,其具体结构将在实施例五中具体描述。
意图确定单元720,用于查询意图信息表,确定意图关键词对应的意图信息。
意图信息表中预置有意图关键词与意图信息之间的对应关系,其中意图信息为具有某种意图的短语或词语。该意图信息表可以采用人工的方式设置,也可以结合意图属性词表基于检索日志进行挖掘。为了实现意图信息表的挖掘,该装置还可以包括:信息表建立单元760,其具体结构将在实施例六中具体描述。
意图选择单元730,用于从确定的意图信息中选择N个意图信息。
意图选择单元730可以将每一个意图关键词对应的意图信息集合进行合并,得到总的意图信息集合,从总的意图信息集合中选择N个意图信息。
具体地,意图选择单元730可以包括:提问选择子单元731、意图获取子单元732和意图选择子单元733。
提问选择子单元731,用于选择用户在当前提问之前的P1个提问,P1为预设的正整数。在确定用户在当前提问之前最近的P1个提问后,可以进一步过滤掉P1个提问中提问时间超过预设有效时间的提问。
意图获取子单元732,用于从意图确定单元720获取分别针对P1个提问确定的意图信息。
意图选择子单元733,用于对P1个提问确定的意图信息和当前提问确定出的意图信息取交集,得到N个意图信息。
提问推荐单元740,用于将N个意图信息分别与意图关键词构成组合后,到提问库中进行检索,从组合命中的提问中选择M个提问作为猜测性提问推荐给用户,N和M为正整数。
在从组合命中的提问中选择M个提问作为猜测性提问时,可以采用但不限于以下选择策略:
选择策略一、分别从每一个组合命中的提问中选择与对应组合相关度最高的一个或几个提问作为猜测性提问。
选择策略二、根据用户属性,分别从每一个组合命中的提问中选择与用户属性匹配度最高的一个或几个提问,用户属性包括:用户注册信息或用户IP地址信息。
选择策略三、根据用户所使用终端采集到的信息,分别从每一个组合命中的提问中选择与终端采集到的信息匹配度最高的一个或几个提问;终端采集到信息包括:地理位置信息、环境信息、交通状况信息或者天气信息。
除此之外,该装置还可以包括:点选获取单元770,用于当用户点选其中一个猜测性提问后,将点选操作视为新的提问行为,将用户点选的猜测性提问作为新的当前提问。
实施例五、
图8为本发明实施例五提供的词表建立单元的结构图,如图8所示,该词表建立单元具体包括:分词子单元751、关键词提取子单元752和属性值赋予子单元753。
分词子单元751,用于从检索日志中获取搜索项query,并对各query进行分词处理。
关键词提取子单元752,用于对分词处理后的各query依据预设的意图挖掘规则提取关键词。
其中,关键词提取子单元752所依据的意图挖掘规则包括但不限于:基于语法成分的规则、基于问句模板的规则以及基于词性的规则中的一种或任意组合。
基于语法成分的规则例如可以包括:提取动宾结构中的动词和宾语;提取主谓宾结构中的主语、谓语和宾语;提取偏正结构中的被修饰词语;等等。
基于问句模板的规则例如可以包括:提取是非问句中的对象,例如“A是不是B?”、“A是B?”,则从中提取关键词A和B;提取特指问句中的对象,例如“A怎么样?”、“谁是B”,则从中提取关键词A和B;提取选择问句中的对象,例如“A还是B”、“A或者B”,则从中提取关键词A和B。
基于词性的规则,例如可以提取query中的动词、名词。
如果采用基于语法成分的规则和基于词性的规则的结合,例如,提取动宾结构中的动词以及宾语中的名词。如果采用基于语法成分的规则或者基于词性的规则和基于问句的规则的结合,例如,如果采用基于问句的规则提取的对象是可切分的短语,则可以进一步采用基于语法成分的规则或者基于词性的规则进一步细分提取。在此对于意图挖掘规则不再一一列举。
属性值赋予子单元753,用于依据提取的关键词在检索日志中出现的状况赋予意图属性值,具体可以依据关键词所在的语法成分、词性或者逆文档频率IDF中的一种任意组合。
在确定出关键词的意图属性值后,还可以进一步通过人工的方式对各关键词的意图属性值进行调权和优化。上述关键词提取子单元752提取出的关键词以及属性值赋予子单元753为各关键词赋予的属性值构成了意图属性词表。
实施例六、
图9为本发明实施例六提供的信息表建立单元的结构图,该信息表建立单元在建立意图信息表时,需要在实施例五所示的词表建立单元的基础上实现,如图9所示,信息表建立单元具体包括:控制子单元761、表项判断子单元762、表项建立子单元763和意图添加子单元764。
控制子单元761,用于从关键词提取子单元752逐一获取每一个query的关键词,将当前query的每一个关键词发送给表项判断子单元762。
表项判断子单元762,用于判断意图信息表中是否存在以当前获取的关键词为key的表项,如果否,触发表项建立子单元763,如果是,触发意图添加子单元764。
表项建立子单元763,用于受到触发时,在意图信息表中建立以当前获取的关键词为key的表项,触发意图添加子单元764。
意图添加子单元764,用于受到触发时,将当前query中除当前获取的关键词之外的其他关键词添加为该表项中的意图信息并进行去重处理。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (18)
1.一种为用户推荐提问的方法,其特征在于,该方法包括:
S1、对用户当前提问进行分词处理,得到关键词序列;
S2、查询意图属性值词表,从关键词序列中选择意图属性值满足预设要求的关键词作为意图关键词;
S3、查询意图信息表,确定意图关键词对应的意图信息,所述意图信息为具有某种意图的短语或词语;
S4、从确定的意图信息中选择N个意图信息分别与意图关键词构成组合后,到提问库中进行检索,从所述组合命中的提问中选择M个提问作为猜测性提问推荐给用户,所述N和M为正整数。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S4中,将每一个意图关键词对应的意图信息集合进行合并,得到总的意图信息集合,从所述总的意图信息集合中选择N个意图信息。
3.根据权利要求1所述的方法,其特征在于,所述步骤S4中从确定的意图信息中选择N个意图信息具体包括:
A1、选择所述用户在当前提问之前的P1个提问,所述P1为预设的正整数;
A2、获取按照所述步骤S1至S3分别针对所述P1个提问确定出的意图信息;
A3、对所述P1个提问确定出的意图信息和所述当前提问确定出的意图信息取交集,得到N个意图信息。
4.根据权利要求3所述的方法,其特征在于,所述步骤A1具体包括:确定所述用户在当前提问之前最近的P1个提问,过滤掉所述P1个提问中提问时间超过预设有效时间的提问。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4中从所述组合命中的提问中选择M个提问作为猜测性提问具体包括:
分别从每一个组合命中的提问中选择与对应组合相关度最高的一个或几个提问作为猜测性提问;或者,
根据用户属性,分别从每一个组合命中的提问中选择与用户属性匹配度最高的一个或几个提问,所述用户属性包括:用户注册信息或用户IP地址信息;或者,
根据用户所使用终端采集到的信息,分别从每一个组合命中的提问中选择与所述终端采集到的信息匹配度最高的一个或几个提问;所述终端采集到信息包括:地理位置信息、环境信息、交通状况信息或者天气信息。
6.根据权利要求1所述的方法,其特征在于,当用户点选其中一个猜测性提问后,所述点选视为新的提问行为,将用户点选的猜测性提问作为新的当前提问,重新转至执行所述步骤S1。
7.根据权利要求1所述的方法,其特征在于,所述意图属性值词表的建立过程包括:
B1、从检索日志中获取搜索项query,并对各query进行分词处理;
B2、对分词处理后的各query依据预设的意图挖掘规则提取关键词;
B3、依据提取的关键词在检索日志中出现的状况赋予意图属性值。
8.根据权利要求7所述的方法,其特征在于,所述意图挖掘规则包括:基于语法成分的规则、基于问句模板的规则以及基于词性的规则中的一种或任意组合;
在所述步骤B3中对提取的关键词赋予意图属性值时,依据关键词所在的语法成分、词性或者逆文档频率IDF中的一种任意组合。
9.根据权利要求7或8所述的方法,其特征在于,所述意图信息表的建立过程中,分别针对每一个query执行以下步骤:
C1、逐一获取当前query中的每一个关键词,并分别执行以下步骤:
C2、判断意图信息表中是否存在以当前获取的关键词为key的表项,如果否,执行步骤C3,如果是,执行步骤C4;
C3、在意图信息表中建立以当前获取的关键词为key的表项,执行步骤C4;
C4、将当前query中除当前获取的关键词之外的其他关键词添加为该表项中的意图信息并进行去重处理。
10.一种为用户推荐提问的装置,其特征在于,该装置包括:
分词处理单元,用于对用户当前提问进行分词处理,得到关键词序列;
关键词选择单元,用于查询意图属性值词表,从关键词序列中选择意图属性值满足预设要求的关键词作为意图关键词;
意图确定单元,用于查询意图信息表,确定所述意图关键词对应的意图信息,所述意图信息为具有某种意图的短语或词语;
意图选择单元,用于从确定的意图信息中选择N个意图信息;
提问推荐单元,用于将所述N个意图信息分别与意图关键词构成组合后,到提问库中进行检索,从所述组合命中的提问中选择M个提问作为猜测性提问推荐给用户,所述N和M为正整数。
11.根据权利要求10所述的装置,其特征在于,所述意图选择单元将每一个意图关键词对应的意图信息集合进行合并,得到总的意图信息集合,从所述总的意图信息集合中选择N个意图信息。
12.根据权利要求10所述的装置,其特征在于,所述意图选择单元具体包括:
提问选择子单元,选择所述用户在当前提问之前的P1个提问,所述P1为预设的正整数;
意图获取子单元,用于从所述意图确定单元获取分别针对所述P1个提问确定的意图信息;
意图选择子单元,用于对所述P1个提问确定的意图信息和所述当前提问确定出的意图信息取交集,得到N个意图信息。
13.根据权利要求12所述的装置,其特征在于,提问选择子单元在确定所述用户在当前提问之前最近的P1个提问后,过滤掉所述P1个提问中提问时间超过预设有效时间的提问。
14.根据权利要求10所述的装置,其特征在于,所述提问推荐单元在从所述组合命中的提问中选择M个提问作为猜测性提问时,
分别从每一个组合命中的提问中选择与对应组合相关度最高的一个或几个提问作为猜测性提问;或者,
根据用户属性,分别从每一个组合命中的提问中选择与用户属性匹配度最高的一个或几个提问,所述用户属性包括:用户注册信息或用户IP地址信息;或者,
根据用户所使用终端采集到的信息,分别从每一个组合命中的提问中选择与所述终端采集到的信息匹配度最高的一个或几个提问;所述终端采集到信息包括:地理位置信息、环境信息、交通状况信息或者天气信息。
15.根据权利要求10所述的装置,其特征在于,点选获取单元,用于当用户点选其中一个猜测性提问后,将所述点选视为新的提问行为,将用户点选的猜测性提问作为新的当前提问。
16.根据权利要求10所述的装置,其特征在于,该装置还包括:词表建立单元;
所述词表建立单元具体包括:
分词子单元,用于从检索日志中获取搜索项query,并对各query进行分词处理;
关键词提取子单元,用于对分词处理后的各query依据预设的意图挖掘规则提取关键词;
属性值赋予子单元,用于依据提取的关键词在检索日志中出现的状况赋予意图属性值。
17.根据权利要求16所述的装置,其特征在于,所述意图挖掘规则包括:基于语法成分的规则、基于问句模板的规则以及基于词性的规则中的一种或任意组合;
所述属性值赋予子单元在对提取的关键词赋予意图属性值时,依据关键词所在的语法成分、词性或者逆文档频率IDF中的一种任意组合。
18.根据权利要求16或17所述的装置,其特征在于,该装置还包括:信息表建立单元;
所述信息表建立单元具体包括:
控制子单元,用于从所述关键词提取子单元逐一获取每一个query的关键词,将当前query的每一个关键词发送给表项判断子单元;
表项判断子单元,用于判断意图信息表中是否存在以当前获取的关键词为key的表项,如果否,触发表项建立子单元,如果是,触发意图添加子单元;
表项建立子单元,用于受到触发时,在意图信息表中建立以当前获取的关键词为key的表项,触发意图添加子单元;
意图添加子单元,用于受到触发时,将当前query中除当前获取的关键词之外的其他关键词添加为该表项中的意图信息并进行去重处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210172835.6A CN102722558B (zh) | 2012-05-29 | 2012-05-29 | 一种为用户推荐提问的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210172835.6A CN102722558B (zh) | 2012-05-29 | 2012-05-29 | 一种为用户推荐提问的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102722558A CN102722558A (zh) | 2012-10-10 |
CN102722558B true CN102722558B (zh) | 2016-08-03 |
Family
ID=46948319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210172835.6A Active CN102722558B (zh) | 2012-05-29 | 2012-05-29 | 一种为用户推荐提问的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102722558B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182059A (zh) * | 2013-05-23 | 2014-12-03 | 华为技术有限公司 | 自然语言的生成方法及*** |
CN104424216B (zh) * | 2013-08-23 | 2018-01-23 | 佳能株式会社 | 用于意图挖掘的方法和设备 |
CN103631948B (zh) * | 2013-12-11 | 2017-01-11 | 北京京东尚科信息技术有限公司 | 命名实体的识别方法 |
CN105425978A (zh) * | 2015-10-26 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | 输入数据的处理方法及装置 |
KR101694727B1 (ko) * | 2015-12-28 | 2017-01-10 | 주식회사 파수닷컴 | 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치 |
CN107818091B (zh) * | 2016-09-12 | 2023-01-06 | 百度在线网络技术(北京)有限公司 | 文档处理方法及装置 |
CN113961690A (zh) * | 2016-12-05 | 2022-01-21 | 阿里巴巴集团控股有限公司 | 一种人机对话装置及其实现人机对话的方法 |
CN107977415B (zh) * | 2017-11-22 | 2019-02-05 | 北京寻领科技有限公司 | 自动问答方法及装置 |
CN108287901A (zh) * | 2018-01-24 | 2018-07-17 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN108536852B (zh) * | 2018-04-16 | 2021-07-23 | 上海智臻智能网络科技股份有限公司 | 问答交互方法和装置、计算机设备及计算机可读存储介质 |
CN109063000B (zh) * | 2018-07-06 | 2022-02-01 | 深圳前海微众银行股份有限公司 | 问句推荐方法、客服***以及计算机可读存储介质 |
CN109376228B (zh) * | 2018-11-30 | 2021-04-16 | 北京猎户星空科技有限公司 | 一种信息推荐方法、装置、设备及介质 |
CN109783626B (zh) * | 2018-12-29 | 2022-05-31 | 联想(北京)有限公司 | 问题生成方法、智能问答***、介质以及计算机*** |
CN109783625A (zh) * | 2018-12-29 | 2019-05-21 | 联想(北京)有限公司 | 交互方法和计算设备 |
CN109766414A (zh) * | 2019-01-18 | 2019-05-17 | 广东小天才科技有限公司 | 一种意图识别方法及*** |
CN111159546B (zh) * | 2019-12-24 | 2023-10-24 | 深圳市雅阅科技有限公司 | 事件推送方法、装置、计算机可读存储介质和计算机设备 |
CN111325037B (zh) * | 2020-03-05 | 2022-03-29 | 苏宁云计算有限公司 | 文本意图识别方法、装置、计算机设备和存储介质 |
CN113626575A (zh) * | 2021-09-01 | 2021-11-09 | 浙江力石科技股份有限公司 | 一种基于用户问答的智能推荐方法 |
CN114430490B (zh) * | 2022-01-20 | 2024-06-04 | 阿里巴巴(中国)有限公司 | 直播问答及界面展示方法及计算机存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251862A (zh) * | 2008-03-25 | 2008-08-27 | 北京百问百答网络技术有限公司 | 一种基于内容的问题自动分类方法及其*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200923807A (en) * | 2007-11-23 | 2009-06-01 | Inst Information Industry | Method and system for searching knowledge owner in network community |
-
2012
- 2012-05-29 CN CN201210172835.6A patent/CN102722558B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101251862A (zh) * | 2008-03-25 | 2008-08-27 | 北京百问百答网络技术有限公司 | 一种基于内容的问题自动分类方法及其*** |
Non-Patent Citations (1)
Title |
---|
"Diversifying Question Recommendations in Community-Based Question Answering";Yaoyun Zhang et al.;《Proceedings of 18th International Conference on Neural Information Processing. Shanghai, China: Springer》;20111231;第177–186页 * |
Also Published As
Publication number | Publication date |
---|---|
CN102722558A (zh) | 2012-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102722558B (zh) | 一种为用户推荐提问的方法和装置 | |
CN106570144A (zh) | 推荐信息的方法和装置 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN103873601B (zh) | 一种寻址类查询词的挖掘方法及*** | |
CN103313248B (zh) | 一种识别垃圾信息的方法和装置 | |
CN107220295A (zh) | 一种人民矛盾调解案例搜索和调解策略推荐方法 | |
CN104679825B (zh) | 基于网络文本的地震宏观异常信息获取与筛选方法 | |
CN105138558B (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN104615627B (zh) | 一种基于微博平台的事件舆情信息提取方法及*** | |
CN103365910B (zh) | 一种信息检索的方法和*** | |
CN103838754B (zh) | 信息搜索装置及方法 | |
CN101408883A (zh) | 一种网络舆情观点收集方法 | |
CN110781317A (zh) | 事件图谱的构建方法、装置及电子设备 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN105893551A (zh) | 数据的处理方法及装置、知识图谱 | |
CN103116635B (zh) | 面向领域的暗网资源采集方法和*** | |
CN101727464A (zh) | 获取别称匹配对的方法及装置 | |
CN102169496A (zh) | 基于锚文本分析的领域术语自动生成方法 | |
CN110012122A (zh) | 一种基于词嵌入技术的域名相似性分析方法 | |
CN103377245A (zh) | 一种自动问答方法及装置 | |
CN106021442A (zh) | 一种网络新闻概要提取方法 | |
CN102811207A (zh) | 网络信息推送方法及*** | |
CN102253939A (zh) | 一种基于云计算技术的搜索方法及*** | |
Vavliakis et al. | Event Detection via LDA for the MediaEval2012 SED Task. | |
CN104391852B (zh) | 一种建立关键词词库的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |