CN108960574A - 问答的质量确定方法、装置、服务器和存储介质 - Google Patents

问答的质量确定方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN108960574A
CN108960574A CN201810580409.3A CN201810580409A CN108960574A CN 108960574 A CN108960574 A CN 108960574A CN 201810580409 A CN201810580409 A CN 201810580409A CN 108960574 A CN108960574 A CN 108960574A
Authority
CN
China
Prior art keywords
answer
content
vector
question
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810580409.3A
Other languages
English (en)
Inventor
姚后清
孟子扬
吴广发
田彤
施鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810580409.3A priority Critical patent/CN108960574A/zh
Publication of CN108960574A publication Critical patent/CN108960574A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种问答的质量确定方法、装置、服务器和存储介质。其中,该方法包括:确定问答数据中问题内容的向量表示以及回答内容的向量表示;向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。本发明实施例可以实现更有效的问答质量评分,解决了现有技术中因大量低质回答被展现而用户体验效果差的问题,提高了问答的质量评分的准确率。

Description

问答的质量确定方法、装置、服务器和存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种问答的质量确定方法、装置、服务器和存储介质。
背景技术
随着科技的发展和互联网技术的不断进步,基于搜索的互动式知识问答分享平台已经成为人们生活中和工作中获取和分享知识的一种重要渠道。
用户自己有针对性地提出问题,其他用户解决问题。同时,这些问题的答案又会进一步作为搜索结果,提供给其他有类似疑问的用户,达到分享知识的效果。为了提供知识问答分享平台的分享效果,需要对知识问答进行质量分析,剔除低质的回答数据,提升优质回答的展现比率。
目前,知识问答分享平台的问答生产大多以采纳(包括提问者采纳、机器采纳和管理员采纳等)作为最终推送展现依据且状态永久不变。由于提问者自身弊端、用户作弊、机器准确率和时效等原因,导致大量低质回答被展现,严重影响用户的搜索体验。
发明内容
本发明实施例提供了一种问答的质量确定方法、装置、服务器和存储介质,可以实现更有效的问答质量评分。
第一方面,本发明实施例提供了一种问答的质量确定方法,包括:
确定问答数据中问题内容的向量表示以及回答内容的向量表示;
向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
第二方面,本发明实施例还提供了一种问答的质量确定装置,该装置包括:
向量模块,用于确定问答数据中问题内容的向量表示以及回答内容的向量表示;
质量模块,用于向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
第三方面,本发明实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的问答的质量确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的问答的质量确定方法。
本发明实施例向预先构建的问答质量分析模型输入问答数据中问题内容的向量表示和回答内容的向量表示,得到问答数据的质量数据。由于问答质量分析模型是预先训练好的,可以实现更有效的问答质量评分,解决了现有技术中因大量低质回答被展现而用户体验效果差的问题,提高了问答的质量评分的准确率。
附图说明
图1为本发明实施例一中的问答的质量确定方法的流程图;
图2为本发明实施例一中的对级排序学习模型的示意图;
图3为本发明实施例二中的问答的质量确定方法的流程图;
图4为本发明实施例二中的相关性分析的示意图;
图5为本发明实施例二中的聚类簇的获取流程图;
图6为本发明实施例二中的聚合相似度的确定流程图;
图7为本发明实施例二中的行为反馈模型的示意图;
图8为本发明实施例三中的问答的质量确定的整体流程示意图;
图9为本发明实施例四中的问答的质量确定装置的结构示意图;
图10为本发明实施例五中的服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的问答的质量确定方法的流程图,本实施例可适用于实现问答的质量确定的情况,该方法可以由问答的质量确定装置执行,该装置可以采用软件和/或硬件的方式实现,例如,该装置可配置于服务器中。如图1所示,该方法具体可以包括:
S110、确定问答数据中问题内容的向量表示以及回答内容的向量表示。
获取知识问答分享平台中的问答数据,目前大多知识问答分享平台都具备海量的知识储备和强大的用户原创内容(User Generated Content,UGC)生产能力,可以使其快速覆盖每个领域的知识需求。
可选地,确定问答数据中问题内容的向量表示,包括:向预先训练的循环神经网络模型输入问题内容中各词语的向量表示,得到问题内容的向量表示。
由于问答数据中的问题内容一般较短,本实施例中的循环神经网络模型优选为广义回归神经网络(General Regression Neural Network,GRNN),通过GRNN可以提取问题内容的序列结构、核心知识点和词之间的位置关系,丰富了问题特征。
可选地,确定回答内容的向量表示,包括:向预先训练的卷积神经网络模型输入回答内容中各词语的向量表示,得到回答内容的向量表示。
对于问答数据中的回答内容,由于回答内容一般比较长,包含较多知识点,本实施例中可以采用卷积神经网络(Convolutional Neural Network,CNN)提取回答内容中的关键知识点,压缩回答向量。
S120、向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
当问答数据中问题内容的向量表示以及回答内容的向量表示确定之后,可以将问题内容的向量表示和回答内容的向量表示输入预先构建的问答质量分析模型中,得到问答数据的质量数据。
可选地,所述问答质量分析模型的构建,包括:确定样本问题内容的向量表示;确定所述样本问题内容的第一回答内容的向量表示以及所述样本问题内容的第二回答内容的向量表示;将所述样本问题内容的向量表示,第一回答内容的向量表示,以及第二回答内容的向量表示作为对级排序学习模型的输入,所述第一回答内容与所述第二回答内容的排序结果作为所述对级排序学习模型的输出进行训练,得到问答质量分析模型。
本实施例中问答质量分析模型可以基于对级排序学***均池化表示,得到样本问题内容的向量表示;将该样本问题内容对应的第一回答内容和第二回答内容分别输入到图中的嵌入层,通过滤波器、CNN模型和最大池化表示,分别得到第一回答内容和第二回答内容的向量表示;将样本问题内容的向量表示,第一回答内容的向量表示,以及第二回答内容的向量表示作为对级排序学习模型的输入,通过拼接层(Concat Layer)、全连接层(Full Collect Layer)和激活函数(Tanh Layer)得到排序结果,并与人工标注的排序结果对比,从而实现对级排序学习模型的训练。
示例性的,可以将一个问题和该问题对应的两个回答输入训练好的级排序学习模型中,输出的结果为两个回答中的其中一个回答质量大于另一个回答。
问答质量分析模型基于对级排序学习模型的排序结果可以得到不同的回答内容的质量评分,即为质量数据。可选地,回答内容的质量评分等级从需求满足角度进行划分,可以划分为精选回答、高质量回答、普通回答、低质量回答和作弊五大等级,其满足程度依次递减。例如,排序结果最前的回答内容即为精选回答,该精选回答可以完整满足用户需求,具备知识延伸和权威性,且具备良好的阅读体验。
上述训练语料库可以由知识问答分享平台中的问答数据得到,由于绝对的高质量的语料比较难构建,本实施例中可以采用Pairwise方法获取样本问答及其回答内容的排序结果构成语料。即在回答内容对比角度进行选择,例如A回答比B回答好,则质量排序为A大于B。这种方式可以获得大量的语料,包括长回答对长回答、长回答对短回答、短回答对长回答、短回答对短回答和相关回答对不相关回答等。语料的生成可以考虑质量、相关性、长短和用户行为等方面,在回答相关的情况下,回答越长,排序越靠前;基于长短考虑,相关短回答的排序位置在不相关长回答之前。示例性的,语料A可以为一个问题及其回答,回答排序依次为高质回答、采纳回答、普通回答和随机高质回答,回答排序也可以为点赞序列排序。
本实施例的技术方案,向预先构建的问答质量分析模型输入问答数据中问题内容的向量表示和回答内容的向量表示,得到问答数据的质量数据。由于问答质量分析模型是预先基于对级排序学习模型训练好的,可以在对回答内容进行对比和排序的基础上实现更有效的问答质量评分,解决了现有技术中因大量低质回答被展现而用户体验效果差的问题,提高了问答的质量评分的准确率。
在上述技术方案的基础上,可选地,所述方法还包括:确定所述问答数据中问题内容与回答内容的相关度;依据所述问答数据的质量数据以及所述相关度,对所述问答数据的质量数据进行修正。
可选地,确定所述问答数据中问题内容与回答内容的相关度,包括:依据问题内容中包含的关键词与回答内容中包含的关键词之间的关键词相似度,问题内容所属类别与回答内容所属类别之间的聚合相似度,问题内容的标签与回答内容的标签之间的标签相似度,以及问题内容的主题与回答内容的主题之间的主题相似度中的至少一项,确定问题内容与回答内容的相关度。
可选地,问题内容所属类别与回答内容所属类别之间的聚合相似度的确定,包括:确定语料库中包括的各词语的词向量;对各词语的词向量作聚类处理得到各词语所属的聚类簇;依据问题内容中词语所属的聚类簇与回答内容中词语所属的聚类簇得到问题内容所属类别与回答内容所属类别之间的聚合相似度。
可选地,所述方法还包括:获取回答内容的用户反馈行为数据,以及反馈行为数据所属用户的授信级别;依据所述反馈行为数据以及所述授信级别对回答内容的质量数据进行修正。
实施例二
图3为本发明实施例二中的问答的质量确定方法的流程图。本实施例在上述实施例的基础上,进一步优化了上述问答的质量确定方法。相应的,本实施例的方法具体包括:
S210、确定问答数据中问题内容的向量表示以及回答内容的向量表示。
获取知识问答分享平台中的问答数据,向预先训练的循环神经网络模型输入问题内容中各词语的向量表示,得到问题内容的向量表示;向预先训练的卷积神经网络模型输入回答内容中各词语的向量表示,得到回答内容的向量表示。
S220、向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
当问答数据中问题内容的向量表示以及回答内容的向量表示确定之后,可以将问题内容的向量表示和回答内容的向量表示输入预先构建的问答质量分析模型中,得到问答数据的质量数据。其中,问答质量分析模型可以基于对级排序学习模型(即Pairwise模型)构建。
S230、确定所述问答数据中问题内容与回答内容的相关度。
其中,确定所述问答数据中问题内容与回答内容的相关度,即为对问答数据进行多维度地相关性分析。图4为本发明实施例二中的相关性分析的示意图,如图4所示,相关性分析可以分为语义相关性和知识点覆盖,语义相关性中可以包括聚合相似度、LDA(LatentDirichlet Allocation)主题相似度和关键词匹配(即关键词相似度),知识点覆盖可以包括标签相似度和Fasttext(一种文本分类器)知识点覆盖。
具体地,确定所述问答数据中问题内容与回答内容的相关度,可以包括:依据问题内容中包含的关键词与回答内容中包含的关键词之间的关键词相似度,问题内容所属类别与回答内容所属类别之间的聚合相似度,问题内容的标签与回答内容的标签之间的标签相似度,以及问题内容的主题与回答内容的主题之间的主题相似度中的至少一项,确定问题内容与回答内容的相关度。
问题内容中包含的关键词与回答内容中包含的关键词之间的关键词相似度的确定,可以包括:确定关键词的杰卡德(Jaccard)相似度,主要包括计算问题内容中的关键词在回答内容中的命中频次以及其在问题内容的占比;计算基于单字的二元(Bigram)算法的Jaccard相似度和基于单字的三元(Trigram)算法的Jaccard相似度,不同于对单字的相似度计算,可以消除分词错误带来的问题。
确定问题内容的标签与回答内容的标签之间的标签相似度的标签***是约2500维的向量,可以采用深度监督学习模型训练得出。问题内容的主题与回答内容的主题之间的主题相似度的确定,可以包括:采用自然语言处理(Natural Language Processing,NLP)中的LDA主题模型获取问题内容和回答内容的主题向量,并计算LDA主题相似度。
可选地,问题内容所属类别与回答内容所属类别之间的聚合相似度的确定,包括:确定语料库中包括的各词语的词向量;对各词语的词向量作聚类处理得到各词语所属的聚类簇;依据问题内容中词语所属的聚类簇与回答内容中词语所属的聚类簇得到问题内容所属类别与回答内容所属类别之间的聚合相似度。
具体地,语料库中的各词语可以基于Word2vec词向量模型的语义分析,将同语义或者语义相关的词聚合到相同簇中,具体过程参见图5。图5为本发明实施例二中的聚类簇的获取流程图,聚类簇的获取可以包括:基于知识问答分享平台中的问答数据构建Word2vec词向量模型的训练语料,并对分词结果进行关键词粘词(即修复分词错误);将训练语料输入词向量模型中对词向量模型进行训练,从而得到训练好的词向量模型;基于训练好的词向量模型可以确定语料库中各词语的词向量,并对各词语的词向量作K均值(K-Means)聚类处理得到各词语所属的聚类簇;可以基于词袋模型对不同聚类簇中各词语的词向量进行处理;结束。
依据图5所示的聚类簇的获取过程,可以得到问题内容中词语所属的聚类簇与回答内容中词语所属的聚类簇,从而得到问题内容所属类别与回答内容所属类别之间的聚合相似度,具体过程如图6所示。图6为本发明实施例二中的聚合相似度的确定流程图,基于问题内容中词语所属的聚类簇与回答内容中词语所属的聚类簇构建聚合向量,并计算聚合向量的皮尔逊相关系数,可以得到问题内容和回答内容在聚类簇中的匹配情况,即得到问题内容所属类别与回答内容所属类别之间的聚合相似度。
S240、依据所述问答数据的质量数据以及所述相关度,对所述问答数据的质量数据进行修正。
确定问答数据中问题内容与回答内容的相关度之后,可以依据该相关度对问答数据的质量数据进行修正,解决了仅仅基于语义分析导致的对问答数据的质量评分出现误差的问题。
S250、获取回答内容的用户反馈行为数据,以及反馈行为数据所属用户的授信级别。
其中,反馈行为数据可以包括浏览行为数据和回答行为数据。这两类行为数据对应的行为可以包括显式行为和隐式行为,例如分享、赞、踩、举报、提问者采纳、答案纠错和点击相关问题等行为属于显式行为,评论回答、点击更多回答、翻页、点击内链、寻找新的答案、查看最佳回答用户和点击相关知识等行为属于隐式行为。由于显式行为的质量相对较高,一般获取显式行为数据,但是显式行为数据比较稀疏,无法解决覆盖问题,因此增加隐式行为数据可以提高覆盖率。
用户的授信级别可以根据用户画像中的行业、受教育程度、级别、历史行为数据和历史应用中的权重打分来确定,不同授信级别的用户的行为置信度不同。
S260、依据所述反馈行为数据以及所述授信级别对回答内容的质量数据进行修正。
获取回答内容的用户反馈行为数据,以及反馈行为数据所属用户的授信级别之后,可以建立行为反馈模型,并基于行为反馈模型对回答内容的质量数据进行修正。图7为本发明实施例二中的行为反馈模型的示意图,根据获取到的回答内容的用户的浏览行为数据、回答行为数据和用户的授信级别对行为反馈进行建模,即提取长时特征、短时特征和时序特征,并进行特征归一,得到在线模型和离线模型,从而得到最终的行为反馈模型。
本实施例的技术方案,向预先构建的问答质量分析模型输入问答数据中问题内容的向量表示和回答内容的向量表示,得到问答数据的质量数据,并依据确定的问题内容与回答内容的相关度,对问答数据的质量数据进行修正和依据获取到的回答内容的用户反馈行为数据以及对应的授信级别对回答内容的质量数据进行修正。由于问答质量分析模型是预先基于对级排序学习模型训练好的,可以在对回答内容进行对比和排序的基础上实现更有效的问答质量评分,解决了现有技术中因大量低质回答被展现而用户体验效果差的问题,并且,根据多维度相关性和用户的多维度反馈数据对质量进行修正,进一步提高了问答的质量评分的准确率。
实施例三
图8为本发明实施例三中的问答的质量确定的整体流程示意图。本实施例可以上述实施例为基础,对问答的质量确定的整体流程进行进一步的说明。该方法具体可以包括:
S310、需求分析。
在本实施例中,问答的质量确定之前可以先对问题进行需求分析,该需求分析可以包括特征分析和需求理解。具体的,对问题进行分词,基于预先构建的模型分别提取质量、作弊和知识点等特征;并梳理细化问题的需求类型,例如是否需要深度问答、是否属于开放讨论、是否属于某些特殊领域需求和是否作弊等。
S320、问答的质量确定。
具体的,问答的质量确定可以包括基于规则分析、基础质量分析、相关性分析和行为反馈。基于规则分析可以包括:利用规则(例如回答长度、是否包含辱骂词、口语化和低质量模式等)识别低质量回答;同时可以结合文本规则(例如文本长度和关键词关联关系等)初步预估是否满足S310中的需求,并设置对应的权重用于后续的质量分析。
基础质量分析可以包括:向预先构建的问答质量分析模型输入问答数据中问题内容的向量表示和回答内容的向量表示,得到问答数据的质量数据。
相关性分析可以包括:依据确定的问题内容与回答内容的相关度,对问答数据的质量数据进行修正。
行为反馈可以包括:依据获取到的回答内容的用户反馈行为数据以及对应的授信级别对回答内容的质量数据进行修正。
S330、问答的质量修正。
问答的质量确定之后,还可以多角度地对问答的质量进行修正,可以包括基于阅读体验、权威分析和时效性分析进行修正。具体的,基于问答的排版和富媒体从可阅读性对问答的质量进行修正;基于回答用户的权威性(如医生和程序员等)和高阶用户进行问答的质量修正;对问答数据进行时效性识别,并基于时效性进行问答的质量修正。
S340、问答质量。
最终确定问答质量,质量评分等级可以从需求满足角度进行划分,划分为精选回答、高质量回答、普通回答、低质量回答和作弊五大等级,其满足程度依次递减。
本实施例的技术方案,在问答的质量确定之前对问题进行需求分析,并基于规则、文本质量、相关性和行为反馈对问答的质量进行确定和修正,还基于阅读体验、权威和时效性分析对问答的质量进行进一步修正。本实施例实现了***的问答数据的质量评分方法,通过多角度地修正进一步提高了质量确定的准确率,能够作为问答平台向其他平台推送回答内容的依据。
实施例四
图9为本发明实施例四中的问答的质量确定装置的结构示意图,本实施例可适用于实现问答的质量确定的情况。本发明实施例所提供的问答的质量确定装置可执行本发明任意实施例所提供的问答的质量确定方法,具备执行方法相应的功能模块和有益效果。如图9所示,该装置具体包括:
向量模块410,用于确定问答数据中问题内容的向量表示以及回答内容的向量表示;
质量模块420,用于向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
可选的,该装置还包括构建模块,所述构建模块用于构建所述问答质量分析模型,包括:
确定样本问题内容的向量表示;
确定所述样本问题内容的第一回答内容的向量表示以及所述样本问题内容的第二回答内容的向量表示;
将所述样本问题内容的向量表示,第一回答内容的向量表示,以及第二回答内容的向量表示作为对级排序学习模型的输入,所述第一回答内容与所述第二回答内容的排序结果作为所述对级排序学习模型的输出进行训练,得到问答质量分析模型。
可选的,向量模块410具体用于:
向预先训练的循环神经网络模型输入问题内容中各词语的向量表示,得到问题内容的向量表示。
可选的,向量模块410还用于:
向预先训练的卷积神经网络模型输入回答内容中各词语的向量表示,得到回答内容的向量表示。
可选的,该装置还包括相关度模块,所述相关度模块包括:
相关度确定单元,用于确定所述问答数据中问题内容与回答内容的相关度;
相关度修正单元,用于依据所述问答数据的质量数据以及所述相关度,对所述问答数据的质量数据进行修正。
可选的,相关度确定单元具体用于:
依据问题内容中包含的关键词与回答内容中包含的关键词之间的关键词相似度,问题内容所属类别与回答内容所属类别之间的聚合相似度,问题内容的标签与回答内容的标签之间的标签相似度,以及问题内容的主题与回答内容的主题之间的主题相似度中的至少一项,确定问题内容与回答内容的相关度。
可选的,相关度确定单元还用于:
确定语料库中包括的各词语的词向量;
对各词语的词向量作聚类处理得到各词语所属的聚类簇;
依据问题内容中词语所属的聚类簇与回答内容中词语所属的聚类簇得到问题内容所属类别与回答内容所属类别之间的聚合相似度。
可选的,该装置还包括反馈修正模块,所述反馈修正模块用于:
获取回答内容的用户反馈行为数据,以及反馈行为数据所属用户的授信级别;
依据所述反馈行为数据以及所述授信级别对回答内容的质量数据进行修正。
本实施例的技术方案,向预先构建的问答质量分析模型输入问答数据中问题内容的向量表示和回答内容的向量表示,得到问答数据的质量数据。由于问答质量分析模型是预先基于对级排序学习模型训练好的,可以在对回答内容进行对比和排序的基础上实现更有效的问答质量评分,解决了现有技术中因大量低质回答被展现而用户体验效果差的问题,提高了问答的质量评分的准确率。
实施例五
图10为本发明实施例五中的服务器的结构示意图。图10示出了适于用来实现本发明实施方式的示例***器512的框图。图10显示的服务器512仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,服务器512以通用服务器的形式表现。服务器512的组件可以包括但不限于:一个或者多个处理器516,存储装置528,连接不同***组件(包括存储装置528和处理器516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及***组件互连(Peripheral Component Interconnect,PCI)总线。
服务器512典型地包括多种计算机***可读介质。这些介质可以是任何能够被服务器512访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置528可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(Random Access Memory,RAM)530和/或高速缓存存储器532。服务器512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***534可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储装置528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如存储装置528中,这样的程序模块542包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。
服务器512也可以与一个或多个外部设备514(例如键盘、指向终端、显示器524等)通信,还可与一个或者多个使得用户能与该服务器512交互的终端通信,和/或与使得该服务器512能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,服务器512还可以通过网络适配器520与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图10所示,网络适配器520通过总线518与服务器512的其它模块通信。应当明白,尽管图中未示出,可以结合服务器512使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)***、磁带驱动器以及数据备份存储***等。
处理器516通过运行存储在存储装置528中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的问答的质量确定方法,该方法包括:
确定问答数据中问题内容的向量表示以及回答内容的向量表示;
向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的问答的质量确定方法,该方法包括:
确定问答数据中问题内容的向量表示以及回答内容的向量表示;
向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (18)

1.一种问答的质量确定方法,其特征在于,包括:
确定问答数据中问题内容的向量表示以及回答内容的向量表示;
向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
2.根据权利要求1所述的方法,其特征在于,所述问答质量分析模型的构建,包括:
确定样本问题内容的向量表示;
确定所述样本问题内容的第一回答内容的向量表示以及所述样本问题内容的第二回答内容的向量表示;
将所述样本问题内容的向量表示,第一回答内容的向量表示,以及第二回答内容的向量表示作为对级排序学习模型的输入,所述第一回答内容与所述第二回答内容的排序结果作为所述对级排序学习模型的输出进行训练,得到问答质量分析模型。
3.根据权利要求1所述的方法,其特征在于,确定问答数据中问题内容的向量表示,包括:
向预先训练的循环神经网络模型输入问题内容中各词语的向量表示,得到问题内容的向量表示。
4.根据权利要求1所述的方法,其特征在于,确定回答内容的向量表示,包括:
向预先训练的卷积神经网络模型输入回答内容中各词语的向量表示,得到回答内容的向量表示。
5.根据权利要求1所述的方法,其特征在于,还包括:
确定所述问答数据中问题内容与回答内容的相关度;
依据所述问答数据的质量数据以及所述相关度,对所述问答数据的质量数据进行修正。
6.根据权利要求5所述的方法,其特征在于,确定所述问答数据中问题内容与回答内容的相关度,包括:
依据问题内容中包含的关键词与回答内容中包含的关键词之间的关键词相似度,问题内容所属类别与回答内容所属类别之间的聚合相似度,问题内容的标签与回答内容的标签之间的标签相似度,以及问题内容的主题与回答内容的主题之间的主题相似度中的至少一项,确定问题内容与回答内容的相关度。
7.根据权利要求6所述的方法,其特征在于,问题内容所属类别与回答内容所属类别之间的聚合相似度的确定,包括:
确定语料库中包括的各词语的词向量;
对各词语的词向量作聚类处理得到各词语所属的聚类簇;
依据问题内容中词语所属的聚类簇与回答内容中词语所属的聚类簇得到问题内容所属类别与回答内容所属类别之间的聚合相似度。
8.根据权利要求1所述的方法,其特征在于,还包括:
获取回答内容的用户反馈行为数据,以及反馈行为数据所属用户的授信级别;
依据所述反馈行为数据以及所述授信级别对回答内容的质量数据进行修正。
9.一种问答的质量确定装置,其特征在于,包括:
向量模块,用于确定问答数据中问题内容的向量表示以及回答内容的向量表示;
质量模块,用于向预先构建的问答质量分析模型输入所述问题内容的向量表示和所述回答内容的向量表示,得到所述问答数据的质量数据。
10.根据权利要求9所述的装置,其特征在于,还包括构建模块,所述构建模块用于构建所述问答质量分析模型,包括:
确定样本问题内容的向量表示;
确定所述样本问题内容的第一回答内容的向量表示以及所述样本问题内容的第二回答内容的向量表示;
将所述样本问题内容的向量表示,第一回答内容的向量表示,以及第二回答内容的向量表示作为对级排序学习模型的输入,所述第一回答内容与所述第二回答内容的排序结果作为所述对级排序学习模型的输出进行训练,得到问答质量分析模型。
11.根据权利要求9所述的装置,其特征在于,所述向量模块具体用于:
向预先训练的循环神经网络模型输入问题内容中各词语的向量表示,得到问题内容的向量表示。
12.根据权利要求9所述的装置,其特征在于,所述向量模块还用于:
向预先训练的卷积神经网络模型输入回答内容中各词语的向量表示,得到回答内容的向量表示。
13.根据权利要求9所述的装置,其特征在于,还包括相关度模块,所述相关度模块包括:
相关度确定单元,用于确定所述问答数据中问题内容与回答内容的相关度;
相关度修正单元,用于依据所述问答数据的质量数据以及所述相关度,对所述问答数据的质量数据进行修正。
14.根据权利要求13所述的装置,其特征在于,所述相关度确定单元具体用于:
依据问题内容中包含的关键词与回答内容中包含的关键词之间的关键词相似度,问题内容所属类别与回答内容所属类别之间的聚合相似度,问题内容的标签与回答内容的标签之间的标签相似度,以及问题内容的主题与回答内容的主题之间的主题相似度中的至少一项,确定问题内容与回答内容的相关度。
15.根据权利要求14所述的装置,其特征在于,所述相关度确定单元还用于:
确定语料库中包括的各词语的词向量;
对各词语的词向量作聚类处理得到各词语所属的聚类簇;
依据问题内容中词语所属的聚类簇与回答内容中词语所属的聚类簇得到问题内容所属类别与回答内容所属类别之间的聚合相似度。
16.根据权利要求9所述的装置,其特征在于,还包括反馈修正模块,所述反馈修正模块用于:
获取回答内容的用户反馈行为数据,以及反馈行为数据所属用户的授信级别;
依据所述反馈行为数据以及所述授信级别对回答内容的质量数据进行修正。
17.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的问答的质量确定方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的问答的质量确定方法。
CN201810580409.3A 2018-06-07 2018-06-07 问答的质量确定方法、装置、服务器和存储介质 Pending CN108960574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810580409.3A CN108960574A (zh) 2018-06-07 2018-06-07 问答的质量确定方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810580409.3A CN108960574A (zh) 2018-06-07 2018-06-07 问答的质量确定方法、装置、服务器和存储介质

Publications (1)

Publication Number Publication Date
CN108960574A true CN108960574A (zh) 2018-12-07

Family

ID=64493639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810580409.3A Pending CN108960574A (zh) 2018-06-07 2018-06-07 问答的质量确定方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN108960574A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657127A (zh) * 2018-12-17 2019-04-19 北京百度网讯科技有限公司 一种答案获取方法、装置、服务器及存储介质
CN110164447A (zh) * 2019-04-03 2019-08-23 苏州驰声信息科技有限公司 一种口语评分方法及装置
CN111382264A (zh) * 2018-12-27 2020-07-07 阿里巴巴集团控股有限公司 会话质量评价方法、装置及电子设备
CN111444724A (zh) * 2020-03-23 2020-07-24 腾讯科技(深圳)有限公司 医疗问答对质检方法、装置、计算机设备和存储介质
WO2020181800A1 (zh) * 2019-03-12 2020-09-17 平安科技(深圳)有限公司 预测问答内容的评分的装置、方法及存储介质
CN111783473A (zh) * 2020-07-14 2020-10-16 腾讯科技(深圳)有限公司 医疗问答中最佳答案的识别方法、装置和计算机设备
WO2020237872A1 (zh) * 2019-05-24 2020-12-03 平安科技(深圳)有限公司 语义分析模型准确度的校验方法、装置、存储介质及设备
CN115048944A (zh) * 2022-08-16 2022-09-13 之江实验室 一种基于主题增强的开放域对话回复方法及***
CN117556232A (zh) * 2023-11-30 2024-02-13 广州方舟信息科技有限公司 评分模型训练方法、药品问答方法及相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346753A (zh) * 2010-08-01 2012-02-08 青岛理工大学 一种融合成对约束和关键词的半监督文本聚类方法及装置
CN104573000A (zh) * 2015-01-07 2015-04-29 北京云知声信息技术有限公司 基于排序学习的自动问答装置及方法
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答***的答案排序方法及装置
CN107203600A (zh) * 2017-05-12 2017-09-26 浙江大学 一种利用刻画因果依赖关系和时序影响机制增强答案质量排序的评判方法
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法
CN107391729A (zh) * 2017-08-02 2017-11-24 掌阅科技股份有限公司 用户评论的排序方法、电子设备及计算机存储介质
CN107507073A (zh) * 2017-09-14 2017-12-22 中国人民解放军信息工程大学 基于信任扩展和列表级排序学习的服务推荐方法
US20180039702A1 (en) * 2016-08-04 2018-02-08 Facebook, Inc. Systems and methods for providing feed preference surveys in a social networking system

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346753A (zh) * 2010-08-01 2012-02-08 青岛理工大学 一种融合成对约束和关键词的半监督文本聚类方法及装置
CN104573000A (zh) * 2015-01-07 2015-04-29 北京云知声信息技术有限公司 基于排序学习的自动问答装置及方法
CN106095872A (zh) * 2016-06-07 2016-11-09 北京高地信息技术有限公司 用于智能问答***的答案排序方法及装置
US20180039702A1 (en) * 2016-08-04 2018-02-08 Facebook, Inc. Systems and methods for providing feed preference surveys in a social networking system
CN107203600A (zh) * 2017-05-12 2017-09-26 浙江大学 一种利用刻画因果依赖关系和时序影响机制增强答案质量排序的评判方法
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法
CN107391729A (zh) * 2017-08-02 2017-11-24 掌阅科技股份有限公司 用户评论的排序方法、电子设备及计算机存储介质
CN107507073A (zh) * 2017-09-14 2017-12-22 中国人民解放军信息工程大学 基于信任扩展和列表级排序学习的服务推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YI TAY 等: "《Hyperbolic Representation Learning for Fast and Efficient Neural Question Answering》", 《ARXIV》 *
应文豪 等: "《一种利用语义相似度改进问答摘要的方法》", 《北京大学学报(自然科学版)》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657127A (zh) * 2018-12-17 2019-04-19 北京百度网讯科技有限公司 一种答案获取方法、装置、服务器及存储介质
CN109657127B (zh) * 2018-12-17 2021-04-20 北京百度网讯科技有限公司 一种答案获取方法、装置、服务器及存储介质
CN111382264A (zh) * 2018-12-27 2020-07-07 阿里巴巴集团控股有限公司 会话质量评价方法、装置及电子设备
CN111382264B (zh) * 2018-12-27 2023-06-09 阿里巴巴集团控股有限公司 会话质量评价方法、装置及电子设备
WO2020181800A1 (zh) * 2019-03-12 2020-09-17 平安科技(深圳)有限公司 预测问答内容的评分的装置、方法及存储介质
CN110164447B (zh) * 2019-04-03 2021-07-27 苏州驰声信息科技有限公司 一种口语评分方法及装置
CN110164447A (zh) * 2019-04-03 2019-08-23 苏州驰声信息科技有限公司 一种口语评分方法及装置
WO2020237872A1 (zh) * 2019-05-24 2020-12-03 平安科技(深圳)有限公司 语义分析模型准确度的校验方法、装置、存储介质及设备
CN111444724A (zh) * 2020-03-23 2020-07-24 腾讯科技(深圳)有限公司 医疗问答对质检方法、装置、计算机设备和存储介质
CN111783473A (zh) * 2020-07-14 2020-10-16 腾讯科技(深圳)有限公司 医疗问答中最佳答案的识别方法、装置和计算机设备
CN111783473B (zh) * 2020-07-14 2024-02-13 腾讯科技(深圳)有限公司 医疗问答中最佳答案的识别方法、装置和计算机设备
CN115048944A (zh) * 2022-08-16 2022-09-13 之江实验室 一种基于主题增强的开放域对话回复方法及***
CN115048944B (zh) * 2022-08-16 2022-12-20 之江实验室 一种基于主题增强的开放域对话回复方法及***
CN117556232A (zh) * 2023-11-30 2024-02-13 广州方舟信息科技有限公司 评分模型训练方法、药品问答方法及相关装置
CN117556232B (zh) * 2023-11-30 2024-06-04 广州方舟信息科技有限公司 评分模型训练方法、药品问答方法及相关装置

Similar Documents

Publication Publication Date Title
CN108960574A (zh) 问答的质量确定方法、装置、服务器和存储介质
CN110377759B (zh) 事件关系图谱构建方法及装置
Deng et al. Introducing shared-hidden-layer autoencoders for transfer learning and their application in acoustic emotion recognition
TW202009749A (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
WO2022095380A1 (zh) 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质
US11729120B2 (en) Generating responses in automated chatting
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN107832432A (zh) 一种搜索结果排序方法、装置、服务器和存储介质
CN107273861A (zh) 一种主观题阅卷评分方法、装置及终端设备
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN109918627B (zh) 文本生成方法、装置、电子设备及存储介质
CN107844533A (zh) 一种智能问答***及分析方法
CN111694940A (zh) 一种用户报告的生成方法及终端设备
CN109992781B (zh) 文本特征的处理方法、装置和存储介质
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
Deng et al. Linked source and target domain subspace feature transfer learning--exemplified by speech emotion recognition
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
CN112307048B (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN110209875A (zh) 用户内容画像确定方法、访问对象推荐方法和相关装置
CN113505198A (zh) 关键词驱动的生成式对话回复方法、装置及电子设备
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN110347807B (zh) 问题信息处理方法及装置
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
CN115617974A (zh) 一种对话处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication