CN103870457A - 一种确定问答平台中的未回答问题优先级的方法及装置 - Google Patents

一种确定问答平台中的未回答问题优先级的方法及装置 Download PDF

Info

Publication number
CN103870457A
CN103870457A CN201210526381.8A CN201210526381A CN103870457A CN 103870457 A CN103870457 A CN 103870457A CN 201210526381 A CN201210526381 A CN 201210526381A CN 103870457 A CN103870457 A CN 103870457A
Authority
CN
China
Prior art keywords
participle
weight
rule
question
granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210526381.8A
Other languages
English (en)
Inventor
陈庆轩
喻宏勇
李国洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210526381.8A priority Critical patent/CN103870457A/zh
Publication of CN103870457A publication Critical patent/CN103870457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种确定问答平台中的未回答问题优先级的方法及装置,其中所述方法包括:对问答平台中的问题进行聚类,得到若干个类别;根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。通过上述方式,本发明可以提高问答平台中未回答问题的回答效率。

Description

一种确定问答平台中的未回答问题优先级的方法及装置
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种确定问答平台中的未回答问题优先级的方法及装置。
【背景技术】
随着互联网的不断发展,人们不仅从网络中获取自己想要的资源,也通过网络向其他用户提供资源。互联网中的问答平台,例如百度知道等,就是一种供知识需求方的用户和知识提供方的用户进行交流的中介平台。知识需求方的用户可以通过该平台发布自己的提问,而知识提供方的用户可以在该平台上回答自己能够解答的问题,这些回答除了可以给提问方带来价值,还可以作为知识的积累,给将来有类似问题的用户带来参考价值。
在问答平台上每天产生的问题数量是巨大的,而用户的回答能力却是有限的,如何充分地利用用户的回答能力,提高问答平台中未回答问题的回答效率,是亟待解决的问题。
【发明内容】
本发明所要解决的技术问题是提供一种确定问答平台中的未回答问题优先级的方法及装置,以提高问答平台中未回答问题的回答效率。
本发明为解决技术问题而采用的技术方案是提供一种确定问答平台中的未回答问题优先级的方法,包括:对问答平台中的问题进行聚类,得到若干个类别;根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。
根据本发明之一优选实施例,所述“对问答平台中的问题进行聚类”的步骤具体包括:对问答平台中的各问题进行切分;确定各问题中的分词对应的表意权重;根据所述表意权重确定各问题的主干词;根据各问题的主干词对各问题进行聚类。
根据本发明之一优选实施例,所述“对问答平台中的各问题进行切分”的步骤具体包括:针对各问题,分别按照若干种粒度对该问题进行切分,其中所述若干种粒度包括基本粒度、短语粒度及实体粒度。
根据本发明之一优选实施例,所述“确定各问题中的分词对应的表意权重”的步骤具体包括:针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值;根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则;针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。
根据本发明之一优选实施例,所述“根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级”的步骤具体包括:计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将所述平均点击率作为该类别中未回答问题的模拟点击率;根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。
本发明还提供了一种确定问答平台中的未回答问题优先级的装置,包括:聚类单元,用于对问答平台中的问题进行聚类,得到若干个类别;确定单元,用于根据相同类别中的已回答问题的点击率确定该类别中的未回答问题的优先级。
根据本发明之一优选实施例,所述聚类单元具体包括:切分单元,用于对回答平台中的各问题进行切分;权重确定单元,用于确定各问题中的分词对应的表意权重;主干词确定单元,用于根据所述表意权重确定各问题的主干词;问题聚类单元,用于根据各问题的主干词对各问题进行聚类。
根据本发明之一优选实施例,所述切分单元对各问题进行切分的方式具体包括:针对各问题,分别按照若干种粒度对该问题进行切分,其中所述若干种粒度包括基本粒度、短语粒度及实体粒度。
根据本发明之一优选实施例,所述权重确定单元具体包括:赋值单元,用于针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值;调整单元,用于根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则;合并单元,用于针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。
根据本发明之一优选实施例,所述确定单元具体包括:计算单元,用于计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将所述平均点击率作为该类别中未回答问题的模拟点击率;优先级确定单元,用于根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。
由以上技术方案可以看出,本发明通过将问答平台中的各种问题进行聚类,可将具有相似性的问题归为一类,由于已回答问题的点击率可以反映已回答问题的热门程度,因此利用同一类别中已回答问题的点击率来确定未回答问题的优先级,能够对未回答问题的重要程度进行很好地衡量,从而使得重要性高的未回答问题能够得到及时回答,提高了问答平台中未回答问题的回答效率。
【附图说明】
图1为本发明中确定问答平台中的未回答问题优先级的方法的实施例的流程示意图;
图2为本发明中确定问答平台中的未回答问题优先级的装置的实施例的结构示意框图;
图3为本发明中权重确定单元2012的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的实施例中所述的问题,可以仅包括问答平台中提问的标题,也可以是问题平台中提问的标题和内容共同组成的内容,优选的,仅使用提问的标题作为下述实施例中所述的问题参与本发明的处理。
请参考图1,图1为本发明中确定问答平台中的未回答问题优先级的方法的实施例的流程示意图。如图1所示,该实施例的方法包括:
步骤S101:对问答平台中的问题进行聚类,得到若干个类别。
步骤S102:根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。
下面对上述步骤进行详细说明。
步骤S101具体包括步骤S1011、S1012、S1013及S1014。
步骤S1011:对问答平台中的各问题进行切分。
可以对每个问题按照单一的粒度进行切分,但是作为一种优选的方式,步骤S1011中,针对问答平台中的每个问题,分别按照基本粒度、短语粒度及实体粒度分别对该问题进行切分。
其中,按照基本粒度和短语粒度对问题进行切分,就是分别按照基本词表和短语词表对问题进行完整切分,而按照实体粒度对问题进行切分,是把问题中与实体词表中相同的部分提取出来作为实体粒度的分词。上述基本词表、短语词表及实体词表均是通过现有技术可以收集到的词表,在此不再赘述获取过程。
例如,对“侠盗飞车罪恶都市秘籍大全”这个问题,以上述三种粒度分别进行切分,可以得到的分词如下:
基本粒度分词:侠盗、飞车、罪恶、都市、秘籍、大全
短语粒度分词:侠盗飞车、罪恶都市、秘籍、大全
实体粒度分词:罪恶都市秘籍
步骤S1012:确定各问题中的分词对应的表意权重。表意权重是用来衡量分词对表达问题含义所产生的贡献的指标。
具体地,步骤S1012可包括步骤S1012a、S1012b、S1012c。
步骤S1012a:针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值。赋初始值可采用多种策略,例如一种策略是对基本粒度分词和短语粒度分词的表意权重赋予初始值,而实体粒度分词如果能够覆盖完整的基本粒度分词或/和短语粒度分词,则实体粒度分词的表意权重为其覆盖的分词权重之和的最大可能值。例如“罪恶都市秘籍”这个实体粒度分词可覆盖“罪恶都市”和“秘籍”,或者覆盖“罪恶”、“都市”和“秘籍”,如果“罪恶”、“都市”与“秘籍”的初始权重之和大于“罪恶都市”和“秘籍”的初始权重之和,则“罪恶都市秘籍”这个实体粒度分词的初始表意权重就是“罪恶”、“都市”与“秘籍”的初始权重之和。此外,如果实体粒度分词不能完整覆盖基本粒度分词或/和短语粒度分词,则将这个实体粒度分词取消。例如“玛雅体验怎样”这个问题中可以提取“玛雅体”这个实体粒度分词,但是其不能覆盖“玛雅”、“体验”,因此将这个实体粒度分词取消。
步骤S1012b:根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对分句进行限定且对满足该限定的分句中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则。
其中,词语级规则可以包括以下任意一种或多种的组合:
规则一:对IDF(inverse document frequency)值位于设定区间的分词进行加权。其中,每个词语的IDF值可通过现有技术计算得到。
规则二:对位于问题的起始位置的分词进行加权。
规则三:对包含数字的分词进行降权。
句子级规则可以包括以下任意一种或多种的组合:
规则四:对长度在所属问题中的占比低于第一设定值的分句中的分词进行降权。例如“请问,鸡肉的营养和成长时间有关系吗”这个问题中,“请问”作为分句,其长度在这个问题中的占比是1/8,假设第一设定值是1/4,则“请问”这个分句中的“请”和“问”这两个分词的权重就会降低。
规则五:对包含的名词数量低于第二设定值的分句中的分词进行降权。例如“从历史来看,***属于哪个国家的领土”这个问题中,“从历史来看”这个分句中的名词数量是1,假设第二设定值为2,则“从历史来看”这个分句中的“从”、“历史”、“来”、“看”这几个分词的权重就会降低。
规则六:对过滤掉停用词后的词语数量低于第三设定值的分句中的分词进行降权。停用词可通过停用词表来确定。一个分句过滤掉停用词后,剩下的是对表达句子含义产生贡献的有效词汇,如果这个分句剩下的有效词汇数量低于第三设定值,则这个分句中的所有分词都进行降权。
词性级规则包括:对与长度低于第四设定值的分词具有相同词性的其他分词进行降权。例如“从”这个分词的长度低于第四设定值“2”,而“从”属于介词,因此降低其他属于介词的分词的权重。
粒度相关关系规则包括:针对同一问题,若该问题的实体粒度分词覆盖完整的基本粒度分词或/和短语粒度分词,则对该实体粒度分词及覆盖的分词进行加权。
步骤S1012c:针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。以“侠盗飞车罪恶都市秘籍大全”这个问题为例,首先在各种粒度分词中保留最大粒度的分词,因此该问题可以得到“侠盗飞车”、“罪恶都市秘籍”、“大全”。其每个分词的表意权重由最大可能值确定,例如短语粒度分词“侠盗飞车”包含了基本粒度分词“侠盗”和“飞车”,如果短语粒度分词“侠盗飞车”的表意权重大于基本粒度分词“侠盗”和“飞车”的表意权重之和,则最终的分词“侠盗飞车”的表意权重就是短语粒度分词“侠盗飞车”的表意权重,否则,最终的分词“侠盗飞车”的表意权重就是基本粒度分词“侠盗”和“飞车”的表意权重之和。
经过步骤S1012处理之后,问答平台中的每个问题都具有了属于该问题的分词及其表意权重。
步骤S1013:根据分词的表意权重确定各问题的主干词。具体地,就是将每个问题中表意权重大于预设值的分词作为该问题的主干词。
步骤S1014:根据各问题的主干词对各问题进行聚类。
下面通过实施例对步骤S1014的聚类方法进行介绍。
本实施例中,聚类是通过迭代进行的。例如有以下问题,括号中的数字分别代表问题的一个主干词,且每个问题中的主干词按照表意权重从大到小的顺序排列:
问题A:(1,2,3,4,5)
问题B:(1,2,3,6,7)
问题C:(1,2,8,9,10)
问题D:(1,2,8,11,12)
在聚类时,先依据每个问题排在前一位的主干词进行聚类,即,将前一位的主干词相同的问题作为一类,上述四个问题的第一位的主干词均是1,因此这四个问题都是一类,然后判断迭代终止的条件是否满足,迭代终止的条件包括:迭代的次数是否达到了预设值,或者当前聚类得到的类别中的问题个数是否小于设定值。例如迭代终止条件为:迭代次数达到5,或者当前聚类得到的类别中的问题的个数小于3。由于问题A到D被聚为一类,使得该类别中的问题个数为4,不满足迭代终止条件,因此,进行第二次迭代:依据每个问题排在前两位的主干词进行聚类,即,将前两位的主干词相同的问题作为一类。由于问题A到D前两位的主干词均包含1和2,因此问题A到D仍然是一类,由于迭代次数仍未满足终止条件,因此进行第三次迭代:依据每个问题排在前三位的主干词进行聚类,即,将前三位的主干词相同的问题作为一类。由于问题A和B的前三位的主干词相同,问题C和问题D的前三位的主干词相同,因此问题A和B是一类,问题C和问题D是一类,由于每类中的问题数为2,小于3,因此可以结束迭代,得到最终的聚类结果就是问题A和问题B是一类,问题C和问题D是一类。
至此,对步骤S101的实现方式进行了完整的介绍。
步骤S102具体包括:
步骤S1021:计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将该平均点击率作为该类别中未回答问题的模拟点击率。
步骤S1022:根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。
例如,步骤S1021中的设定长度时间为3天,则步骤S1021中,一个类别中的未回答问题的模拟点击率=该类别中的所有已回答问题在3天内的点击次数之和/(该类别中的已回答问题个数*3)。
当未回答问题的模拟点击率确定之后,步骤S1022就可依据模拟点击率确定优先级,例如将模拟点击率在第一预设区间的未回答问题的优先级设置为最高级,模拟点击率在第二预设区间的未回答问题的优先级设置为次高级,其中第一预设区间大于第二预设区间,其他优先级可以此类推。
在问答平台上,进一步对未回答问题按照优先级进行展示,就能够充分提高问答平台中未回答问题的回答效率。
请参考图2,图2为本发明中确定问答平台中的未回答问题优先级的装置的实施例的结构示意框图。如图2所示,该实施例的装置包括:聚类单元201及确定单元202。
其中,聚类单元201,用于对问答平台中的问题进行聚类,得到若干个类别。确定单元202,用于根据相同类别中的已回答问题的点击率确定该类别中的未回答问题的优先级。
具体地,聚类单元201包括切分单元2011、权重确定单元2012、主干词确定单元2013及问题聚类单元2014。
其中,切分单元2011,用于对回答平台中的各问题进行切分。权重确定单元2012,用于确定各问题中的分词对应的表意权重。主干词确定单元2013,用于根据分词的表意权重确定各问题的主干词。问题聚类单元2014,用于根据各问题的主干词对各问题进行聚类。下面对上述单元的具体实现方式进行介绍。
具体地,切分单元2011可以对每个问题按照单一的粒度进行切分,但是作为一种优选的方式,切分单元2011,针对问答平台中的每个问题,分别按照基本粒度、短语粒度及实体粒度分别对该问题进行切分。
其中,按照基本粒度和短语粒度对问题进行切分,就是分别按照基本词表和短语词表对问题进行完整切分,而按照实体粒度对问题进行切分,是把问题中与实体词表中相同的部分提取出来作为实体粒度的分词。上述基本词表、短语词表及实体词表均是通过现有技术可以收集到的词表,在此不再赘述获取过程。
例如,对“侠盗飞车罪恶都市秘籍大全”这个问题,以上述三种粒度分别进行切分,可以得到的分词如下:
基本粒度分词:侠盗、飞车、罪恶、都市、秘籍、大全
短语粒度分词:侠盗飞车、罪恶都市、秘籍、大全
实体粒度分词:罪恶都市秘籍
请参考图3,图3为本发明中权重确定单元2012的实施例的结构示意框图。如图3所示,权重确定单元2012包括赋值单元2012a、调整单元2012b和合并单元2012c。
其中,赋值单元2012a,用于针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值。表意权重是用来衡量分词对表达问题含义所产生的贡献的指标。赋值单元2012a赋初始值可采用多种策略,例如一种策略是对基本粒度分词和短语粒度分词的表意权重赋予初始值,而实体粒度分词如果能够覆盖完整的基本粒度分词或/和短语粒度分词,则实体粒度分词的表意权重为其覆盖的分词权重之和的最大可能值。例如“罪恶都市秘籍”这个实体粒度分词可覆盖“罪恶都市”和“秘籍”,或者覆盖“罪恶”、“都市”和“秘籍”,如果“罪恶”、“都市”与“秘籍”的初始权重之和大于“罪恶都市”和“秘籍”的初始权重之和,则“罪恶都市秘籍”这个实体粒度分词的初始表意权重就是“罪恶”、“都市”与“秘籍”的初始权重之和。此外,如果实体粒度分词不能完整覆盖基本粒度分词或/和短语粒度分词,则将这个实体粒度分词取消。例如“玛雅体验怎样”这个问题中可以提取“玛雅体”这个实体粒度分词,但是其不能覆盖“玛雅”、“体验”,因此将这个实体粒度分词取消。
调整单元2012b,用于根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词权重进行调整的规则。
其中,词语级规则可以包括以下任意一种或多种的组合:
规则一:对IDF(inverse document frequency)值位于设定区间的分词进行加权。其中,每个词语的IDF值可通过现有技术计算得到。
规则二:对位于问题的起始位置的分词进行加权。
规则三:对包含数字的分词进行降权。
句子级规则可以包括以下任意一种或多种的组合:
规则四:对长度在所属问题中的占比低于第一设定值的分句中的分词进行降权。例如“请问,鸡肉的营养和成长时间有关系吗”这个问题中,“请问”作为分句,其长度在这个问题中的占比是1/8,假设第一设定值是1/4,则“请问”这个分句中的“请”和“问”这两个分词的权重就会降低。
规则五:对包含的名词数量低于第二设定值的分句中的分词进行降权。例如“从历史来看,***属于哪个国家的领土”这个问题中,“从历史来看”这个分句中的名词数量是1,假设第二设定值为2,则“从历史来看”这个分句中的“从”、“历史”、“来”、“看”这几个分词的权重就会降低。
规则六:对过滤掉停用词后的词语数量低于第三设定值的分句中的分词进行降权。停用词可通过停用词表来确定。一个分句过滤掉停用词后,剩下的是对表达句子含义产生贡献的有效词汇,如果这个分句剩下的有效词汇数量低于第三设定值,则这个分句中的所有分词都进行降权。
词性级规则包括:对与长度低于第四设定值的分词具有相同词性的其他分词进行降权。例如“从”这个分词的长度低于第四设定值“2”,而“从”属于介词,因此降低其他属于介词的分词的权重。
粒度相关关系规则包括:针对同一问题,若该问题的实体粒度分词覆盖完整的基本粒度分词或/和短语粒度分词,则对该实体粒度分词及覆盖的分词进行加权。
合并单元2012c,用于针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。以“侠盗飞车罪恶都市秘籍大全”这个问题为例,合并单元2012c首先在各种粒度分词中保留最大粒度的分词,因此该问题可以得到“侠盗飞车”、“罪恶都市秘籍”、“大全”。其每个分词的表意权重由最大可能值确定,例如短语粒度分词“侠盗飞车”包含了基本粒度分词“侠盗”和“飞车”,如果短语粒度分词“侠盗飞车”的表意权重大于基本粒度分词“侠盗”和“飞车”的表意权重之和,则最终的分词“侠盗飞车”的表意权重就是短语粒度分词“侠盗飞车”的表意权重,否则,最终的分词“侠盗飞车”的表意权重就是基本粒度分词“侠盗”和“飞车”的表意权重之和。
在权重确定单元2012确定了问答平台中的各个问题的分词的表意权重后,主干词确定单元2013确定主干词的方式具体包括:将每个问题中表意权重大于预设值的分词作为该问题的主干词。
下面对问题聚类单元2014的聚类方式进行介绍。
本实施例中,问题聚类单元2014的聚类是通过迭代进行的。例如有以下问题,其中括号中的数字分别代表一个主干词,且每个问题中的主干词按照表意权重从大到小的顺序排列:
问题A:(1,2,3,4,5)
问题B:(1,2,3,6,7)
问题C:(1,2,8,9,10)
问题D:(1,2,8,11,12)
在聚类时,问题聚类单元2014先依据每个问题排在前一位的主干词进行聚类,即,将前一位的主干词相同的问题作为一类,上述四个问题的第一位的主干词均是1,因此这四个问题都是一类,然后问题聚类单元2014判断迭代终止的条件是否满足,迭代终止的条件包括:迭代的次数是否达到了预设值,或者当前聚类得到的类别中的问题个数是否小于设定值。例如迭代终止条件为:迭代次数达到5,或者当前聚类得到的类别中的问题的个数小于3。由于问题A到D被聚为一类,使得该类别中的问题个数为4,不满足迭代终止条件,因此,问题聚类单元2014进行第二次迭代:依据每个问题排在前两位的主干词进行聚类,即,将前两位的主干词相同的问题作为一类。由于问题A到D前两位的主干词均包含1和2,因此问题A到D仍然是一类,由于迭代次数仍未满足终止条件,因此问题聚类单元2014进行第三次迭代:依据每个问题排在前三位的主干词进行聚类,即,将前三位的主干词相同的问题作为一类。由于问题A和B的前三位的主干词相同,问题C和问题D的前三位的主干词相同,因此问题A和B是一类,问题C和问题D是一类,由于每类中的问题数为2,小于3,因此可以结束迭代,得到最终的聚类结果就是问题A和问题B是一类,问题C和问题D是一类。
请继续参考图2。图2中的确定单元202具体包括计算单元2021及优先级确定单元2022。
其中,计算单元2021,用于计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将该平均点击率作为该类别中未回答问题的模拟点击率。例如设定长度时间为3天,则一个类别中的未回答问题的模拟点击率=该类别中的所有已回答问题在3天内的点击次数之和/(该类别中的已回答问题个数*3)。
优先级确定单元2022,用于根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。例如优先级确定单元2022将模拟点击率在第一预设区间的未回答问题的优先级设置为最高级,模拟点击率在第二预设区间的未回答问题的优先级设置为次高级,其中第一预设区间大于第二预设区间,其他优先级可以此类推。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种确定问答平台中的未回答问题优先级的方法,包括:
对问答平台中的问题进行聚类,得到若干个类别;
根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级。
2.根据权利要求1所述的方法,其特征在于,所述“对问答平台中的问题进行聚类”的步骤具体包括:
对问答平台中的各问题进行切分;
确定各问题中的分词对应的表意权重;
根据所述表意权重确定各问题的主干词;
根据各问题的主干词对各问题进行聚类。
3.根据权利要求2所述的方法,其特征在于,所述“对问答平台中的各问题进行切分”的步骤具体包括:
针对各问题,分别按照若干种粒度对该问题进行切分,其中所述若干种粒度包括基本粒度、短语粒度及实体粒度。
4.根据权利要求3所述的方法,其特征在于,所述“确定各问题中的分词对应的表意权重”的步骤具体包括:
针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值;
根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则;
针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。
5.根据权利要求1所述的方法,其特征在于,所述“根据相同类别中的已回答问题的点击率确定该类别中未回答问题的优先级”的步骤具体包括:
计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将所述平均点击率作为该类别中未回答问题的模拟点击率;
根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。
6.一种确定问答平台中的未回答问题优先级的装置,包括:
聚类单元,用于对问答平台中的问题进行聚类,得到若干个类别;
确定单元,用于根据相同类别中的已回答问题的点击率确定该类别中的未回答问题的优先级。
7.根据权利要求6所述的装置,其特征在于,所述聚类单元具体包括:
切分单元,用于对回答平台中的各问题进行切分;
权重确定单元,用于确定各问题中的分词对应的表意权重;
主干词确定单元,用于根据所述表意权重确定各问题的主干词;
问题聚类单元,用于根据各问题的主干词对各问题进行聚类。
8.根据权利要求7所述的装置,其特征在于,所述切分单元对各问题进行切分的方式具体包括:
针对各问题,分别按照若干种粒度对该问题进行切分,其中所述若干种粒度包括基本粒度、短语粒度及实体粒度。
9.根据权利要求8所述的装置,其特征在于,所述权重确定单元具体包括:
赋值单元,用于针对各问题,对该问题中的各种粒度分词对应的表意权重赋予初始值;
调整单元,用于根据预设的调整规则调整各种粒度分词对应的表意权重,其中所述调整规则至少包括词语级规则、句子级规则、词性级规则和粒度相关关系规则中的一种,所述词语级规则是对分词进行限定且对满足该限定的分词的权重进行调整的规则,所述句子级规则是对句子进行限定且对满足该限定的句子中的分词的权重进行调整的规则,所述词性级规则是对词性进行限定且对词性符合该限定的分词的权重进行调整的规则,所述粒度相关关系规则是对相同问题的各种粒度分词之间的关系进行限定且对满足该限定的分词的权重进行调整的规则;
合并单元,用于针对各问题,依据该问题中各种粒度分词对应的表意权重将该问题中不同粒度分词进行合并。
10.根据权利要求6所述的装置,其特征在于,所述确定单元具体包括:
计算单元,用于计算相同类别中的已回答问题在设定长度时间内的平均点击率,并将所述平均点击率作为该类别中未回答问题的模拟点击率;
优先级确定单元,用于根据各个未回答问题的模拟点击率确定该未回答问题的优先级,其中模拟点击率越高的未回答问题的优先级越高。
CN201210526381.8A 2012-12-07 2012-12-07 一种确定问答平台中的未回答问题优先级的方法及装置 Pending CN103870457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210526381.8A CN103870457A (zh) 2012-12-07 2012-12-07 一种确定问答平台中的未回答问题优先级的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210526381.8A CN103870457A (zh) 2012-12-07 2012-12-07 一种确定问答平台中的未回答问题优先级的方法及装置

Publications (1)

Publication Number Publication Date
CN103870457A true CN103870457A (zh) 2014-06-18

Family

ID=50909001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210526381.8A Pending CN103870457A (zh) 2012-12-07 2012-12-07 一种确定问答平台中的未回答问题优先级的方法及装置

Country Status (1)

Country Link
CN (1) CN103870457A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866631A (zh) * 2015-06-18 2015-08-26 北京京东尚科信息技术有限公司 咨询问题聚合的方法和装置
CN106469173A (zh) * 2015-08-19 2017-03-01 武汉市尺度网络科技有限公司 一种问题优先级别权重确定方法、装置、***及服务器
CN108763476A (zh) * 2018-05-29 2018-11-06 深圳市三宝创新智能有限公司 一种基于词性权重计算的问答数据清洗***
CN111667029A (zh) * 2020-07-09 2020-09-15 腾讯科技(深圳)有限公司 一种聚类方法、装置、设备及存储介质
CN113486203A (zh) * 2021-07-09 2021-10-08 平安科技(深圳)有限公司 基于问答平台的数据处理方法、装置及相关设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取***和方法
WO2007140685A1 (fr) * 2006-06-09 2007-12-13 Huawei Technologies Co., Ltd. Système et procédé pour prioriser le contenu de pages web offertes par des vendeurs
CN101196911A (zh) * 2007-12-04 2008-06-11 深圳市迅雷网络技术有限公司 选取资源实名的方法、***及装置
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102637170A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 一种问题推送方法及***
CN102737022A (zh) * 2011-03-31 2012-10-17 百度在线网络技术(北京)有限公司 获取和搜索相关知识信息的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007140685A1 (fr) * 2006-06-09 2007-12-13 Huawei Technologies Co., Ltd. Système et procédé pour prioriser le contenu de pages web offertes par des vendeurs
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取***和方法
CN101196911A (zh) * 2007-12-04 2008-06-11 深圳市迅雷网络技术有限公司 选取资源实名的方法、***及装置
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102637170A (zh) * 2011-02-10 2012-08-15 北京百度网讯科技有限公司 一种问题推送方法及***
CN102737022A (zh) * 2011-03-31 2012-10-17 百度在线网络技术(北京)有限公司 获取和搜索相关知识信息的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
冬瓜1: "基于机器学习的知道推荐—Enlister", 《HTTPS://MY.OSCHINA.NET/U/200898/BLOG/189001》 *
北京业界动态: "百度推荐***登上国际最高技术讲台", 《HTTP://WWW.BEAREYES.COM.CN/2/LIB/201210/11/20121011407.HTM》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866631A (zh) * 2015-06-18 2015-08-26 北京京东尚科信息技术有限公司 咨询问题聚合的方法和装置
CN106469173A (zh) * 2015-08-19 2017-03-01 武汉市尺度网络科技有限公司 一种问题优先级别权重确定方法、装置、***及服务器
CN106469173B (zh) * 2015-08-19 2019-05-03 武汉市尺度网络科技有限公司 一种问题优先级别权重确定方法、装置、***及服务器
CN108763476A (zh) * 2018-05-29 2018-11-06 深圳市三宝创新智能有限公司 一种基于词性权重计算的问答数据清洗***
CN111667029A (zh) * 2020-07-09 2020-09-15 腾讯科技(深圳)有限公司 一种聚类方法、装置、设备及存储介质
CN111667029B (zh) * 2020-07-09 2023-11-10 腾讯科技(深圳)有限公司 一种聚类方法、装置、设备及存储介质
CN113486203A (zh) * 2021-07-09 2021-10-08 平安科技(深圳)有限公司 基于问答平台的数据处理方法、装置及相关设备
CN113486203B (zh) * 2021-07-09 2024-05-31 平安科技(深圳)有限公司 基于问答平台的数据处理方法、装置及相关设备

Similar Documents

Publication Publication Date Title
Amato et al. The dynamics of norm change in the cultural evolution of language
CN103870457A (zh) 一种确定问答平台中的未回答问题优先级的方法及装置
CN101661513B (zh) 网络热点和舆情的检测方法
CN103268339B (zh) 微博消息中命名实体识别方法及***
CN101694659B (zh) 基于多主题追踪的个性化网络新闻推送方法
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN107220232A (zh) 基于人工智能的关键词提取方法及装置、设备与可读介质
CN105488033B (zh) 关联计算的预处理方法及装置
CN103699626A (zh) 一种微博用户个性化情感倾向分析方法及***
CN102214246B (zh) 一种互联网上汉语电子文档阅读分级的方法
CN103870474A (zh) 一种新闻话题组织方法及装置
CN105095183A (zh) 文本情感倾向判断方法与***
CN103970866B (zh) 基于微博文本的微博用户兴趣发现方法及***
CN109817222A (zh) 一种年龄识别方法、装置及终端设备
CN102609407A (zh) 一种网络不良文本内容的细粒度语义检测方法
CN109255012A (zh) 一种机器阅读理解的实现方法以及装置
CN102929860A (zh) 一种基于上下文语境的中文分句情感极性判别方法
CN109656545A (zh) 一种基于事件日志的软件开发活动聚类分析方法
CN110472040A (zh) 评价信息的提取方法及装置、存储介质、计算机设备
CN104347071A (zh) 生成口语考试参***的方法及***
CN104731811A (zh) 一种面向大规模动态短文本的聚类信息演化分析方法
CN103577557A (zh) 一种确定网络资源点的抓取频率的装置和方法
CN107357782A (zh) 一种识别用户性别的方法及终端
CN101594313A (zh) 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及***
CN107799124A (zh) 一种应用于智能语音鼠标的vad检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140618

RJ01 Rejection of invention patent application after publication