CN109460502A - 答案聚类方法及其装置、电子设备、计算机可读介质 - Google Patents

答案聚类方法及其装置、电子设备、计算机可读介质 Download PDF

Info

Publication number
CN109460502A
CN109460502A CN201811071710.8A CN201811071710A CN109460502A CN 109460502 A CN109460502 A CN 109460502A CN 201811071710 A CN201811071710 A CN 201811071710A CN 109460502 A CN109460502 A CN 109460502A
Authority
CN
China
Prior art keywords
answer
clustering
similarity
similitude
answers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811071710.8A
Other languages
English (en)
Inventor
高雪
陈喆
焦碧碧
李秋豪
莫智慧
毛书宇
王亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangzhou Shenma Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shenma Mobile Information Technology Co Ltd filed Critical Guangzhou Shenma Mobile Information Technology Co Ltd
Priority to CN201811071710.8A priority Critical patent/CN109460502A/zh
Publication of CN109460502A publication Critical patent/CN109460502A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种答案聚类方法及其装置、电子设备、计算机可读介质,答案聚类方法包括:获取智能问答社区中针对同一问题的多个答案;根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。本实施例实现了针对相同或者相似的问题进行了聚类分析,避免了智能问答社区答案的重复以及冗余。

Description

答案聚类方法及其装置、电子设备、计算机可读介质
技术领域
本申请涉及互联网领域,尤其涉及一种答案聚类方法及其装置、电子设备、计算机可读介质。
背景技术
通过问题和对该问题的回答是人们获取现实世界信息的一种有效方式。与此同时,随着互联网技术的发展及互联网应用的快速发展,人们越来越多地依赖于互联网网络获取信息。目前通过搜索平台搜索相关的信息来实现该通过问答方式获取信息,尤其在问答社区内搜索问题、提出问题、回答问题、浏览问题或追加问题等,这已成为用户间进行互动信息交流的重要方式。其中,常见的智能问答社区有百度知道、搜搜问问、新浪爱问等。
但是,现有技术中,针对相同或者相似的问题,存在大量相似的答案,由此导致智能问答社区中提供的答案存在大量重复,甚至冗余。
发明内容
本申请的目的在于提出一种答案聚类方法及其装置、电子设备、计算机可读介质,用于解决现有技术中上述技术问题。
第一方面,本申请实施例提供一种答案聚类方法,其包括:
获取智能问答社区中针对同一问题的多个答案;
根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
可选地,本申请的任一实施例中,所述答案聚类方法还包括:对每一个所述答案进行语义分析提取其中的实体关键词;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:统计所述多个答案的实体关键词相似度,并根据设定的实体关键词相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
可选地,本申请的任一实施例中,所述答案聚类方法还包括:对所述实体关键词进行类别属性划分;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:统计所述多个答案的类别属性相似度,并根据设定的类别属性相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
可选地,本申请的任一实施例中,所述答案聚类方法还包括:获取关联与多个所述答案的多个问题;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:统计关联与多个所述答案的多个问题的相似度,并根据设定的问题相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
可选地,本申请的任一实施例中,所述答案聚类方法还包括:对多个所述答案分别进行解析以生成对应的特征向量;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:统计所述多个答案的特征向量的相似度,并根据设定的特征向量相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
可选地,本申请的任一实施例中,根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分,包括:根据对所述多个答案进行相似性聚类分析的结果,将对所述多个答案按照相似度高低分别配置于答案外露层或者答案收起层。
可选地,本申请的任一实施例中,所述答案聚类方法还包括:为所述答案外露层与所述答案收起层中的答案配置不同的优先显示级别。
可选地,本申请的任一实施例中,所述答案聚类方法还包括:所述答案外露层中的答案的优先显示级别大于所述答案收起层中的答案的优先显示级别。
第二方面,本申请实施例还提供一种答案聚类装置,其包括:
获取单元,用于获取智能问答社区中针对同一问题的多个答案;
聚类单元,用于根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
层级划分单元,用于根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
可选地,本申请的任一实施例中,所述答案聚类装置还包括:提取单元,用于对每一个所述答案进行语义分析提取其中的实体关键词;对应地,所述聚类单元进一步用于统计所述多个答案的实体关键词相似度,并根据设定的实体关键词相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
可选地,本申请的任一实施例中,所述答案聚类装置还包括:划分单元,用于对所述实体关键词进行类别属性划分;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:所述聚类单元进一步用于统计所述多个答案的类别属性相似度,并根据设定的类别属性相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
可选地,本申请的任一实施例中,所述答案聚类装置还包括:关联单元,用于获取关联与多个所述答案的多个问题;对应地,所述聚类单元进一步用于统计关联与多个所述答案的多个问题的相似度,并根据设定的问题相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
可选地,本申请的任一实施例中,所述答案聚类装置还包括:解析单元,用于对多个所述答案分别进行解析以生成对应的特征向量;对应地,所述聚类单元进一步用于统计所述多个答案的特征向量的相似度,并根据设定的特征向量相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
第三方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如任一实施例中所述的方法。
第四方面,本申请实施例提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如任一实施例中所述的方法。
本申请提供的技术方案中,通过获取智能问答社区中针对同一问题的多个答案;根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。本实施例实现了针对相同或者相似的问题进行了聚类分析,避免了智能问答社区答案的重复以及冗余。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例一答案聚类方法流程示意图;
图2为本申请实施例二答案聚类方法流程示意图;
图3为本申请实施例三答案聚类方法流程示意图;
图4为本申请实施例四答案聚类方法流程示意图;
图5为本申请实施例五答案聚类装置结构示意图;
图6为本申请实施例六答案聚类装置结构示意图;
图7为本申请实施例七答案聚类装置结构示意图;
图8为本申请实施例八答案聚类装置结构示意图;
图9为本申请实施例九答案聚类装置结构示意图;
图10为本申请实施例十电子设备的结构示意图;
图11为本申请实施例十一电子设备的硬件结构。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请下述实施例提供的技术方案中,其主要思想在于,获取智能问答社区中针对同一问题的多个答案;根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。以下
图1为本申请实施例一答案聚类方法流程示意图;如图1所示,其可以包括下步骤:
S101、获取智能问答社区中针对同一问题的多个答案;
本实施例中,具体可以通过智能问答社区的后台服务配置答案收集监控组件,对在该智能问答社区上进行问答数据对进行实时监控以及收集,并存储在后台服务器上。此处,问答数据对具体可以包括一个提问以及对应的一个答案,或者一个提问或者对应的过个答案。问题和答案被分配有唯一性标识。
当然,在具体实施时,考虑到数据量较大,则可以配置专门的分布式后台数据服务器,用于存储上述问答数据对。分布式后台数据服务器的配置具体可以按照地域范围进行配置,以在步骤S101中获取多个答案时,从最近的分布式后台服务器中获取多个答案。
S102、对每一个所述答案进行语义分析提取其中的实体关键词;
本实施例中,语义分析处理包括分词处理,该分词处理具体可以包括基于字符串匹配的分词方法,在具体实施时,根据大数据分析以及收集建立有词库,该词库中包括大量的词样本。切分的实体关键词出与词库匹配的所有可能的词,再根据统计语言模型决定最优的切分结果,语言统计模型中定义了语言的语义逻辑,即认为句子中每个单词只与其前n–1个单词有关。具体地,比如“兰州市黄河大桥”,首先进行词条检索(一般用Trie存储),找到匹配的所有词条(兰州,市,黄河,大桥,兰州市,黄河大桥,市长,江大桥,江大,桥),以词网格(word lattices)形式表示,接着做路径搜索,基于统计语言模型(例如n-gram)找到最优路径,最后得到实体关键词“兰州市黄河大桥”。
可替代地,在其他实施例中,也可以基于由字构词的分词方法,即字的分类问题,也就是自然语言处理中的sequence labeling问题,通常做法里利用HMMMAXENT,MEMM,CRF等预测文本串每个字的tag标注,譬如B,E,I,S,这四个tag分别表示:beginning,inside,ending,single,也就是一个词的开始,中间,结束,以及单个字的词。例如“兰州市黄河大桥”的标注结果可能为:“兰(B)州(I)市(E)黄(B)河(E)大(B)桥(E)”。
S103、统计所述多个答案的实体关键词相似度,并根据设定的实体关键词相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
本实施例中,具体可以通过统计多个答案的实体关键词中任意连个两个字符串之间的距离,从而统计出一个字符串转成另一个字符串所需的最少编辑操作次数。该编辑操作包括将一个字符替换成另一个字符,***一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
可替代地,在其他实施例中,也可以将每个答案的实体关键词作为标签,进一步建立标签向量。比如,答案1:中国,杭州,男子,工作;答案2:我市,杭州,工作。假如标签向量的维度为10,对应位没有实体关键词的则标为0,基于此,建立的标签向量分别如下:
答案1的标签向量V1:
(0,0,684373,0,605594,0,0,0,42062,28717)
答案2的标签向量V2:
(0,0,0,0,605594,0,487695,0,420062,0)
计算两个标签向量之间的余弦(即相似度):由此得到这两个答案的相似度为0.47524222827391666。
当有多个答案时,一一进行上述相似度的计算,计算得到多个相似度,相似度的数值越大,表明这两个答案的相似度越高。
可选地,在另外一实施例中,将问题切分为有多个短短文本组成的短文本集,分析该文本集中的潜在主题知识,提取文本中的主题和主题下的词语分布,得到文本-主题矩阵和主题-词语矩阵,从而统计出同一主题下的词语具有相同或相似的语义,通过语义的相似度确定问题之间的相似度。
S104、根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
本实施例中,步骤S104中具体可以根据对所述多个答案进行相似性聚类分析的结果,将对所述多个答案按照相似度高低分别配置于答案外露层或者答案收起层。进一步地,为所述答案外露层与所述答案收起层中的答案配置不同的优先显示级别。再进一步地,所述答案外露层中的答案的优先显示级别大于所述答案收起层中的答案的优先显示级别。
针对于同一个问题,答案外露层包括优先显示级别较高的答案,在展现时,配置在展现首层,答案收起层包括优先显示级别较低的答案。
图2为本申请实施例二答案聚类方法流程示意图;如图2所示,其可以包括下步骤:
S201、获取智能问答社区中针对同一问题的多个答案;
本实施例中,步骤S201类似上述步骤S101,在此不再赘述。
S202、对所述实体关键词进行类别属性划分;
本实施例中,通过与预先设置类别属性库,该类别属性库中包括设置的若干个类别属性标本,每个类别属性标本对应一个或者多个关键词样本。
因此,通过实体关键词与关键词样本的比对,确定所述实体关键词的类别属性。类别属性比如具体可以通过与问题的匹配度划分为多个等级,比如导航类属性、事务类属性、信息类属性,导航类属性主要用于帮助用户找到包括该关键词的页面,事务类属性用于帮助用户其实际目的关键词。信息类属性用于反应用户在寻找某种信息时所使用的关键词。另外,还可以根据实体关键词的长短来区分类别属性,比如按照关键词的长短可以把所有关键词分成短尾关键词和长尾关键词。短尾关键词即字数比较少的关键词,比如机械、美容、北京医院等,一般竞争强度会很大;长尾关键词即字数比较多、比较具体、搜索量比较低的关键词,一般是几个词语的组合,比北京故宫博物院、河北廊坊人才市场、北京动物园在哪里等。
S203、统计所述多个答案的类别属性相似度,并根据设定的类别属性相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
具体地,上述多个类别属性可以组成一类别属性向量,对于每个答案,当存在某一个类别属性时,在该类别属性向量中对应的位值为1,参考上述余弦相似度的计算方式(即相似度聚类规则),来计算对于同一个问题两个答案之间的相似度。
S204、根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
本实施例中,步骤S204类似上述步骤S104,详细不再赘述。
图3为本申请实施例三答案聚类方法流程示意图;如图3所示,其可以包括下步骤:
S301、获取智能问答社区中针对同一问题的多个答案;
本实施例中,步骤S301类似上述步骤S101,在此不再赘述。
S302、获取关联与多个所述答案的多个问题;
本实施例中,由于在知识库中问题和答案是以问答对进行组织管理的,实际上,对应任何一个答案,都能找到至少一个对应的问题,通过在下述步骤中问题的相似性判断来间接确定答案的相似性。
S303、统计关联与多个所述答案的多个问题的相似度,并根据设定的问题相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
本实施例中,问题的相似度可以通过提取问题的关键词,通过建立关键词向量,再通过两个问题之间关键词向量的余弦相似度,来计算两个答案的相似度。如果两个问题的相似度较高,则对应的两个答案的相似度也较高。或者,也可以通过上述问题的类别属性相似度来判断。
在确定问题的关键词时,具体可以通过步对每个问题进行句义结构分析,提取问题中的话题、述题、基本项、一般项。具体可以将整个问题的语义表示为结构树的形式,具体表示为句型层、描述层、对象层和细节层四个层次。句型层指明问题的句义类型,包括简单句义、复杂句义、复合句义、多重句义四中类型;描述层中包含话题和述题,话题和述题是对句义的初步划分,是句义结构中的基本句义成分,话题定义为句义中的被描述对象,述题定义为句义中的话题的描述内容;对象层中包含谓词、基本项、一般项、语义格,语义格是对词语的语义标注,包括7种基本格和12种一般格,基本项定义为句义中与谓词具有直接联系的成分,构成一个问题语义的主干,其对应的语义格为基本格,一般项定义为句义中的修饰成分,其对应的语义格为一般格;细节层中包含句子的引申含义。
根据话题对问题进行特征扩充,得到基于话题的问题向量。如果两个相同的词语在句子中分别充当话题和述题的一部分,则认为这两个词语具有不同的语义,定义这两个词语为不同的词语,根据此定义,对问题进行特征扩充时,应分别根据话题和述题部分对问题进行特征扩充。问题的话题部分的特征扩充具体方法为:首先提取话题下的基本项和一般项对应的词语,然后比较词语在不同主题下的概率,选取概率最高的主题,将该主题下的其它词语补充到问题中,作为问题的一部分,最后使用问题的所有词语作为特征,构建特征向量表示句子,其中句中原有词语所对应的维度上的取值为词语的在句中的出现次数,而扩充的词语所对应的维度上的取值按公式(1)进行计算:
V=n*w(1)
V是扩充词语对应维度上的取值,n是扩充词语在问题中出现的次数,w为扩充词语在对应主题下的概率值。
基于上述方式得到每个问题的特征向量,通过上述余弦相似度计算方式计算两个问题之间的相似度。
S304、根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
本实施例中,步骤S304参考上述步骤204,详细不再赘述。
图4为本申请实施例四答案聚类方法流程示意图;如图4所示,其可以包括下步骤:
S401、获取智能问答社区中针对同一问题的多个答案;
S402、对多个所述答案分别进行解析以生成对应的特征向量;
本实施例中,利用若干个特征向量来衡量两个答案之间的相关性,这些特征包含了不同的级别,分别是单词特征向量、短语特征向量、句子结构特征向量。
S403、统计所述多个答案的特征向量的相似度,并根据设定的特征向量相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
1.单词特征向量
单词特征向量是从单词出发,计算两个答案在单词方面相似度。比如,使用共同的单词数特征:每个单词共现次数。
2.短语特征向量
简单可以描述为,当答案句子中的短语直接出现在问题句子中时,该短语的得分就是1,如果该短语与问题句子中的某些短语出现在短语表中,意味着两个短语是同义的短语或者相关短语时,该短语得分就是短语表中短语互相翻译概率的乘积,是一个0,1之间的值。如果该短语不满足以上两种情况,那么该短语的得分就是0。计算答案句子中一到N元语法包含的所有短语与问题句子的相关性得分,最后对N求平均得到短语特征向量。
3.句子语义特征向量
该特征使用最新的基于深度学习的计算两个句子相似度的模型来获得语义相似度得分。该模型首先将问题句子和答案句子分别用Bi-LSTM(bidirectional long shortterm memory)计算两个句子每个位置的向量表达,两个句子的不同位置进行交互形成新的矩阵和张量,然后接k-Max采样层和多层感知机进行降维。最后输出两个句子的相似度句子语义特征向量。
4.句子结构特征
首先找到两个答案中共同的词,这里称为一对锚点。在两个句子中可能会出现多对锚点。然后分别计算出两个句子的依存关系。统计两个依存树从根出发到锚点的相同依存关系的数目,即得到句子结构特征向量。
将上述四种级别中所有特征的相似度得分进行加权求和得到总体的相似度得分;即得到两个答案之间的相似度。
S404、根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
本实施例中,步骤S404类似上述步骤S104,详细不再赘述。
图5为本申请实施例五答案聚类装置结构示意图;如图5所示,其可以包括:
获取单元501,用于获取智能问答社区中针对同一问题的多个答案;
聚类单元502,用于根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
层级划分单元503,用于根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
图6为本申请实施例六答案聚类装置结构示意图;如图6所示,其除了可以包括上述图5中的获取单元501、聚类单元502、层级划分单元503外,还可以包括提取单元504,用于对每一个所述答案进行语义分析提取其中的实体关键词;对应地,所述聚类单元502进一步用于统计所述多个答案的实体关键词相似度,并根据设定的实体关键词相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
图7为本申请实施例七答案聚类装置结构示意图;如图7所示,其除了可以包括上述图5中的获取单元501、聚类单元502、层级划分单元503外,还可以包括类别划分单元505,用于对所述实体关键词进行类别属性划分;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:所述聚类单元502进一步用于统计所述多个答案的类别属性相似度,并根据设定的类别属性相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
图8为本申请实施例八答案聚类装置结构示意图;如图8所示,其除了可以包括上述图5中的获取单元501、聚类单元502、层级划分单元503外,还可以包括关联单元506,用于获取关联与多个所述答案的多个问题;对应地,所述聚类单元502进一步用于统计关联与多个所述答案的多个问题的相似度,并根据设定的问题相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
图9为本申请实施例九答案聚类装置结构示意图;如图9所示,其除了可以包括上述图5中的获取单元501、聚类单元502、层级划分单元503外,还可以包括解析单元507,用于对多个所述答案分别进行解析以生成对应的特征向量;对应地,所述聚类单元502进一步用于统计所述多个答案的特征向量的相似度,并根据设定的特征向量相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
图10为本申请实施例十电子设备的结构示意图;该电子设备可以包括:
一个或多个处理器1001;
计算机可读介质1002,可以配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例中所述的方法。
图11为本申请实施例十一电子设备的硬件结构;如图11所示,该电子设备的硬件结构可以包括:处理器1101,通信接口1102,计算机可读介质1103和通信总线1104;
其中处理器1101、通信接口1102、计算机可读介质1103通过通信总线1104完成相互间的通信;
可选的,通信接口1102可以为通信模块的接口,如GSM模块的接口;
其中,处理器1101具体可以配置为:获取智能问答社区中针对同一问题的多个答案;根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
处理器1101可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“用于获取智能问答社区中针对同一问题的多个答案的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例中所描述的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取智能问答社区中针对同一问题的多个答案;根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
另外,上述实施例中,获取单元、聚类单元、层级划分单又可以分别称为第一程序单元、第二程序单元、第三程序单元。
在本申请的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本申请的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)***在这两者之间。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (15)

1.一种答案聚类方法,其特征在于,包括:
获取智能问答社区中针对同一问题的多个答案;
根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
2.根据权利要求1所述的方法,其特征在于,还包括:对每一个所述答案进行语义分析提取其中的实体关键词;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:统计所述多个答案的实体关键词相似度,并根据设定的实体关键词相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
3.根据权利要求1所述的方法,其特征在于,还包括:对所述实体关键词进行类别属性划分;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:统计所述多个答案的类别属性相似度,并根据设定的类别属性相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
4.根据权利要求1所述的方法,其特征在于,还包括:获取关联与多个所述答案的多个问题;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:统计关联与多个所述答案的多个问题的相似度,并根据设定的问题相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
5.根据权利要求1所述的方法,其特征在于,还包括:对多个所述答案分别进行解析以生成对应的特征向量;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:统计所述多个答案的特征向量的相似度,并根据设定的特征向量相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
6.根据权利要求1-5任一项所述的方法,其特征在于,根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分,包括:根据对所述多个答案进行相似性聚类分析的结果,将对所述多个答案按照相似度高低分别配置于答案外露层或者答案收起层。
7.根据权利要求6所述的方法,其特征在于,还包括:为所述答案外露层与所述答案收起层中的答案配置不同的优先显示级别。
8.根据权利要求7所述的方法,其特征在于,还包括:所述答案外露层中的答案的优先显示级别大于所述答案收起层中的答案的优先显示级别。
9.一种答案聚类装置,其特征在于,包括:
获取单元,用于获取智能问答社区中针对同一问题的多个答案;
聚类单元,用于根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析;
层级划分单元,用于根据对所述多个答案进行相似性聚类分析的结果,对所述多个答案进行层级划分。
10.根据权利要求9所述的装置,其特征在于,还包括:提取单元,用于对每一个所述答案进行语义分析提取其中的实体关键词;对应地,所述聚类单元进一步用于统计所述多个答案的实体关键词相似度,并根据设定的实体关键词相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
11.根据权利要求9所述的装置,其特征在于,还包括:划分单元,用于对所述实体关键词进行类别属性划分;对应地,根据设定的聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析,包括:所述聚类单元进一步用于统计所述多个答案的类别属性相似度,并根据设定的类别属性相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
12.根据权利要求9所述的装置,其特征在于,还包括:关联单元,用于获取关联与多个所述答案的多个问题;对应地,所述聚类单元进一步用于统计关联与多个所述答案的多个问题的相似度,并根据设定的问题相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
13.根据权利要求9所述的装置,其特征在于,还包括:解析单元,用于对多个所述答案分别进行解析以生成对应的特征向量;对应地,所述聚类单元进一步用于统计所述多个答案的特征向量的相似度,并根据设定的特征向量相似度聚类规则,对所述针对同一个问题的多个答案进行相似性聚类分析。
14.一种电子设备,包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201811071710.8A 2018-09-14 2018-09-14 答案聚类方法及其装置、电子设备、计算机可读介质 Pending CN109460502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811071710.8A CN109460502A (zh) 2018-09-14 2018-09-14 答案聚类方法及其装置、电子设备、计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811071710.8A CN109460502A (zh) 2018-09-14 2018-09-14 答案聚类方法及其装置、电子设备、计算机可读介质

Publications (1)

Publication Number Publication Date
CN109460502A true CN109460502A (zh) 2019-03-12

Family

ID=65606670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811071710.8A Pending CN109460502A (zh) 2018-09-14 2018-09-14 答案聚类方法及其装置、电子设备、计算机可读介质

Country Status (1)

Country Link
CN (1) CN109460502A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611382A (zh) * 2020-05-22 2020-09-01 贝壳技术有限公司 话术模型训练方法、对话信息生成方法及装置、***
CN111667029A (zh) * 2020-07-09 2020-09-15 腾讯科技(深圳)有限公司 一种聚类方法、装置、设备及存储介质
CN112365374A (zh) * 2020-06-19 2021-02-12 支付宝(杭州)信息技术有限公司 标准案由确定方法、装置和设备
CN113051390A (zh) * 2019-12-26 2021-06-29 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与***
CN113535900A (zh) * 2021-07-08 2021-10-22 李刚 目标信息提取方法、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
CN106446287A (zh) * 2016-11-08 2017-02-22 北京邮电大学 面向众包场景问答***答案聚合方法和***
US20180068222A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation System and Method of Advising Human Verification of Machine-Annotated Ground Truth - Low Entropy Focus
CN107992554A (zh) * 2017-11-28 2018-05-04 北京百度网讯科技有限公司 提供问答信息的聚合结果的搜索方法和装置
CN108121821A (zh) * 2018-01-09 2018-06-05 惠龙易通国际物流股份有限公司 一种机器客服服务方法、设备及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
US20180068222A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation System and Method of Advising Human Verification of Machine-Annotated Ground Truth - Low Entropy Focus
CN106446287A (zh) * 2016-11-08 2017-02-22 北京邮电大学 面向众包场景问答***答案聚合方法和***
CN107992554A (zh) * 2017-11-28 2018-05-04 北京百度网讯科技有限公司 提供问答信息的聚合结果的搜索方法和装置
CN108121821A (zh) * 2018-01-09 2018-06-05 惠龙易通国际物流股份有限公司 一种机器客服服务方法、设备及计算机存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051390A (zh) * 2019-12-26 2021-06-29 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN113051390B (zh) * 2019-12-26 2023-09-26 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN111611382A (zh) * 2020-05-22 2020-09-01 贝壳技术有限公司 话术模型训练方法、对话信息生成方法及装置、***
CN112365374A (zh) * 2020-06-19 2021-02-12 支付宝(杭州)信息技术有限公司 标准案由确定方法、装置和设备
CN111667029A (zh) * 2020-07-09 2020-09-15 腾讯科技(深圳)有限公司 一种聚类方法、装置、设备及存储介质
CN111667029B (zh) * 2020-07-09 2023-11-10 腾讯科技(深圳)有限公司 一种聚类方法、装置、设备及存储介质
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与***
CN113535900A (zh) * 2021-07-08 2021-10-22 李刚 目标信息提取方法、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN109460502A (zh) 答案聚类方法及其装置、电子设备、计算机可读介质
CN111143479B (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
Lieberman et al. STEWARD: architecture of a spatio-textual search engine
CN103221915B (zh) 在开域类型强制中使用本体信息
KR101173561B1 (ko) 질문 형태 및 도메인 인식 장치 및 그 방법
Zhang et al. Automatic synonym extraction using Word2Vec and spectral clustering
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN102253930B (zh) 一种文本翻译的方法及装置
CN111625622B (zh) 领域本体构建方法、装置、电子设备及存储介质
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN103064956A (zh) 用于搜索电子内容的方法、计算***和计算机可读介质
Zhou et al. Simplified dom trees for transferable attribute extraction from the web
CN109299221A (zh) 实体抽取和排序方法与装置
KR102046692B1 (ko) 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템
CN112148885B (zh) 一种基于知识图谱的智能搜索方法及***
CN113268606A (zh) 知识图谱构建的方法和装置
CN107943940A (zh) 数据处理方法、介质、***和电子设备
CN108304381B (zh) 基于人工智能的实体建边方法、装置、设备及存储介质
Wu et al. Template oriented text summarization via knowledge graph
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
CN116383430A (zh) 知识图谱构建方法、装置、设备及存储介质
Moscato et al. iwin: A summarizer system based on a semantic analysis of web documents
US20210406291A1 (en) Dialog driven search system and method
CN109657052A (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200604

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 12 layer self unit 01

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190312

RJ01 Rejection of invention patent application after publication