CN106991161A - 一种自动生成开放式问题答案的方法 - Google Patents
一种自动生成开放式问题答案的方法 Download PDFInfo
- Publication number
- CN106991161A CN106991161A CN201710205299.8A CN201710205299A CN106991161A CN 106991161 A CN106991161 A CN 106991161A CN 201710205299 A CN201710205299 A CN 201710205299A CN 106991161 A CN106991161 A CN 106991161A
- Authority
- CN
- China
- Prior art keywords
- answer
- project
- item
- title
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种自动生成开放式问题答案的方法,包括:获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。本发明能够针对网络应用中的开放式问题提供网络的自主回复。
Description
技术领域
本发明涉及计算机应用技术领域,特别涉及一种自动生成开放式问题答案的方法。
背景技术
随着互联网的发展,问答社区逐渐成为深受网民欢迎的一种互联网产品,如国内的“知乎”、“头条问答”,美国的Quora,用户可以在社区中提出各种问题,其它用户看到自己熟悉领域的问题就可以发布自己的答案。这些答案会被所有浏览该问题的用户看到,点赞或点踩,受欢迎的答案会被***排到靠前的位置。这类社区的一个挑战是,随着用户量的增长,越来越多的问题很少被其它用户关注到,导致无人回答,提问者的积极性大受打击。有些社区提供了答主自动邀请的功能,会根据用户的回答历史为问题自动邀请合适的用户来回答。可是这样会导致活跃的答主收到过多的邀请,没有办法在保证回答质量的情况下及时回答问题。因此,目前这个问题尚没有有效的解决方案。
在自动回答方面,现有的技术主要聚焦在解决封闭性问题的回答生成上,比如“奥巴马是美国第几届总统?”。现有的一些***一般会把利用NLP技术把问题转化为一个结构化的查询语言并通过查询预先构建的知识图谱返回答案。但是现有的自动回答生成技术无法解决开放式问题的回答自动生成问题,比如:“你对乐视的生态化反战略怎么看?”这类问题的提问者需要的不是知识性的答案,而是对问题的分析和观点的阐述,从而达到思想的交流。目前的网络问答社区无法对上述具有开放式特定的网络问题进行自动答复,也没有实现网络问题的自动生成答案的功能。上述功能的欠缺导致网络资源的大量浪费,无法整合网络资源,也不能实现网络自适应地处理问答机制,使得大量用户问题无法得到及时反馈与解决。
发明内容
本发明技术方案所解决的技术问题为:如何针对网络应用中的开放式问题提供网络的自主回复。
为了解决上述技术问题,本发明技术方案提供了一种自动生成开放式问题答案的方法,包括:
获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;
建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;
对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;
计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。
可选的,所述获取内容库包括:根据内部提供或外部抓取的文档或视频建立内容库中的项目。
可选的,所述建立答案规则包括:
从内容库中筛选符合如下条件中的至少一项的项目:
所述项目来源的权威度合法;
所述项目内容的时效合法;
所述项目标题中包含实体词语;
所述项目标题是疑问句。
可选的,所述建立答案规则包括:
从所述内容库中人工筛选所述符合所述答案规则的项目及不符合所述答案规则的项目以分别作为第一正样本及第一负样本;
将所述项目的属性、第一正样本及第一负样本输入答案规则建立模型、训练所述答案规则建立模型以建立所述答案规则。
可选的,所述训练所述答案规则建立模型以建立所述答案规则包括:
获取所述第一正样本/第一负样本相对于所述项目属性的第一真实数据/第二真实数据;
使用所述答案规则建立模型预测所述第一正样本/第一负样本相对于所述项目属性的第一预测数据/第二预测数据;
调整所述答案规则建立模型的模型参数,当所述第一预测数据与第一真实数据一致且第二预测数据与第二真实数据一致则输出所述模型参数及其答案规则建立模型。
可选的,所述答案规则建立模型基于机器学习算法。
可选的,所述机器学习算法为朴素贝叶斯算法、GBDT算法、SVM算法及RNN算法中的一种。
可选的,所述对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目包括:
将所述输入的问题项目分为顺序的单个词组成的序列;
若所述答案库中项目标题具备所述序列中的每一个词,则选择该项目标题的项目作为所述目标项目。
可选的,所述计算所述问题项目与目标项目的综合相关度包括:
分别使用若干相关度函数计算所述问题项目与目标项目之间的单一相关度;
对计算得到的单一相关度分配权重并将所述权重与所对应单一相关度之积累加以得到所述综合相关度。
可选的,所述分别使用若干相关度函数计算所述问题项目与目标项目之间的单一相关度至少包括执行如下几种计算方式的一种或多种:
对目标项目标题与问题项目进行分词,通过word2vec工具获取每个词的数值向量,然后把这些词的向量相加得到项目标题的语义向量和问题项目语义向量,最后计算上述两个向量的cosine距离,以获取第一单一相关度;
目标项目标题与问题项目进行分词,计算二者共有词的数量占二者所有词的比例,以获取第二单一相关度;
获取目标项目标题的关键词,通过word2vec工具获取每个关键词的数值向量,然后把这些向量加和作为目标项目标题的语义向量;对问题项目进行分词,然后通过word2vec工具获取每个词的数值向量并加和作为问题项目的语义向量,最后计算目标项目标题与问题项目语义向量之间的cosine距离,以获得第三单一相关度。
可选的,所述自动生成开放式问题答案的方法还包括:
从所述答案库中人工筛选所述符合所述问题项目的项目标题及不符合所述问题项目的项目标题以分别作为第二正样本及第二负样本;
拆分所述问题项目、第二正样本及第二负样本为单字序列,并基于RNN处理后得到各个序列的语义向量;
训练RNN模型以准确预测上述各语义向量间的cosine距离是否符合真实相关度,以获得RNN模型参数;
所述计算所述问题项目与目标项目的综合相关度包括:
对目标项目标题与问题项目进行分词以获得单字序列;
基于所述RNN模型参数使用RNN模型预测所述标项目标题与问题项目单字序列之间的预测相关度。
可选的,所述自动生成开放式问题答案的方法还包括:至少提取综合相关度最高的目标项目中的目标内容进行发布。
本发明技术方案的有益效果至少包括:
本发明技术方案能够解决现有技术中,社区问答无法回复的问题,为用户提供了一种可结合网络自有资源有效自动生成答案的技术方案,不仅解决了网络配置资源闲置的问题,还提高了社区问答环境的有效性及积极性。
本发明技术方案通过建立答案规则及项目相关度指标,有效确认了最佳网络答案,并可与用户选择相结合,提供了一种有效获取问题答案的技术方案,提高了答案与问题适配的准确度。
本发明技术方案可以在投入资源较少的情况下大幅降低问答社区内零回答问题的比例,同时自动生成的答案可以给准备回答问题的用户作为参考,也降低了撰写高质量回答的门槛,提升了用户体验。
附图说明
图1为本发明技术方案提供的一种自动生成开放式问题答案的方法流程示意图;
图2为本发明技术方案提供的一种建立答案规则的方法流程示意图;
图3为本发明技术方案提供的一种所述训练所述答案规则建立模型的方法流程示意图;
图4为本发明技术方案提供的一种对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目的方法流程示意图;
图5为本发明技术方案提供的一种基于人工规则计算所述问题项目与目标项目的综合相关度的方法流程示意图;
图6为本发明技术方案提供的另一种自动生成开放式问题答案的方法流程示意图;
图7为本发明技术方案提供的一种基于机器学习方法计算所述问题项目与目标项目的综合相关度的方法流程示意图;
图8为本发明技术方案提供的又一种自动生成开放式问题答案的方法流程示意图;
图9为本发明技术方案提供的再一种自动生成开放式问题答案的方法流程示意图。
具体实施方式
现有技术中无法实现对于开放式网络问题的自动答复,如果能有一种有效的针对开放式问题的答案自动生成方法,就可以大大缓解问答社区内很多用户的问题得不到及时回答的现象。如果该自动答案生成方法的精确度还无法直接回复提问者,也可以作为参考文案发送给***认为有能力回答原问题的用户,答题用户经过简单编辑就可以产出优质的答案,比完全靠自己写一篇答案效率高出不少,没有任何回答的问题比例也会相应下降。本发明技术方案提出了一种自动生成答案的方法,可以从一个包含文章,视频的内容库中根据用户问题抽取候选答案,既可以直接回复提问者,也可以作为素材发送给被邀请的潜在答主,提高其撰写答案的成本。
根据本发明技术方案的整体发明思路,其首先需要通过获取一内容库来建立答案库,答案库的建立需要从内容库中选择符合答案规则的项目,即“准答案项目”,此后再根据用户提出的问题项目,实现答案自动匹配的过程。本发明技术方案首先需要获取到内容库,其内容形式可以包括文章和短视频,其次需要在内容库中挖掘适合作为答案的内容作为答案库,然后根据用户给定的问题,通过检索的方式在答案库中找到最合适的候选答案;对候选答案设置预定的置信度算法以推算候选答案的置信度,选择置信度高于阈值的候选答案直接回复答案或将候选答案作为素材发送给潜在答主供其参考。
以下结合附图详细阐述本发明技术方案的具体实施过程。
根据图1所示的一种自动生成开放式问题答案的方法,包括如下步骤:
步骤S100,获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性。
步骤S101,建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;
步骤S102,对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;
步骤S103,计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。
根据步骤S100,所述获取内容库包括:根据内部提供或外部抓取的文档或视频建立内容库中的项目。为了建立答案库,首先需要有一个包含文章或者短视频的内容库。这些内容可以从互联网上抓取,比如基于某些抓取互联网数据的软件对特定的互联网站点上的内容进行匹配抓取,以建立新的内容库,并根据互联网更新数据不断更新该内容库。另一种情况是,问答社区的运营方同时也运营内容平台,有合法的内容获取渠道。比如头条问答实际上是今日头条旗下产品,本身有数千万合法的短视频和文章可以作为答案库的来源,即可直接基于平台内容的融合性而基于平台数据库获取到内容库。一般来说,内容库需要涵盖领域越广越好,这样给定问题有更大概率找到合适的答案或者素材。有了内容库,本发明技术方案即根据步骤S101,通过预设的答案规则筛选出有可能作为问题答案的内容项目,以此组建答案库。
在本发明技术方案的一种变化例下,根据步骤S101,所述建立答案规则包括:从内容库中筛选符合如下条件中的至少一项的项目:
所述项目来源的权威度合法;
所述项目内容的时效合法;
所述项目标题中包含实体词语;
所述项目标题是疑问句。
该变化例提供了一种较为简单的建立答案规则的方案,上述方案中,筛选的条件可以是并列的多种项目属性的筛选内容,以形成由一组筛选条件规定的答案规则,筛选的条件也可以是一种项目属性的筛选内容,并由此建立多种答案规则,答案库中的项目需要满足由一组筛选条件规定的答案规则或者同时满足多种答案规则。
在答案规则是由一组筛选条件规定的情况下,以下给出一种比较简单的建立答案规则的应用例:
该组答案规则设定的筛选过程可以是:
识别出项目内容的时效性是否合法,即该项目内容是否是知识性的长时效内容;
识别项目标题的类型是疑问句还是陈述句;
识别所述项目标题中是否包含实体词语;
识别项目标题的长度是否超过预定长度;
项目内容来源的权威度是否高于预定值;
识别结果是否符合预定的筛选结果,若是,则将筛选项目认定为符合所述答案规则的项目,并将其归于答案库项目。比如只筛选符合下列条件之一的内容作为候选答案,即设定预定的筛选结果如下:
预定的筛选结果一:(长时效内容)AND(标题中包含明确实体)AND(标题包含疑问句);
预定的筛选结果二:(长时效内容)AND(标题中包含明确实体)AND(标题是陈述句)AND(来源权威度高于预定值)。
例如,内容库中其中一篇文章的项目标题为《当年做手机的公司都去哪儿了?3分钟看懂他们靠啥活》,经时效性识别模型判定是长时效内容,标题中包含实体“手机”,而且有疑问句,满足预定的筛选结果一,因此可以被筛选为候选答案,符合答案规则,并加入答案库。如果用户问一些诸如“当年做手机的公司很多,现在都在干什么?”“手机行业有那些转行的案例?”,这篇文章就是一个有价值的答案。
上述方法中根据文本内容识别文章时效性,识别标题的句式,标题中的实体识别都是成熟的文本分析技术,在此不再赘述。来源权威度一般是人工设定,如果内容库涉及的来源较多,需要一定的工作量来对内容库涉及的来源进行统计及分级,一种对来源进行分级的方式可以参考如下规定,但需要说明的是,如下规定仅是一种实例,根据不同的来源及分级要求,可以有其他不同的分级方式:
***预先对互联网项目中来源权威度作出了评级,比如对于政府站点的来源度评级为最高,即10级,事业单位站点来源度评级次之,即9级,社会性媒体站点上的官方发言的来源度评级再次,即8级,社会性媒体站点上的群众性自媒体发言且被官方认定过,评级为7级,社会性媒体站点上的群众性自媒体发言且转发次数及浏览次数达高预定次数,评级为6级,社会性媒体站点上的群众性自媒体发言且转发次数及浏览次数达中预定次数,评级为5级,社会性媒体站点上的群众性自媒体发言且转发次数及浏览次数达低预定次数,评级为4级,社会性媒体站点上的群众性自媒体发言且浏览次数达预定次数,评级为3级,群众性自媒体站点且浏览次数达预定次数,评级为2级,否则评级为1级。
根据步骤S101,所述建立答案规则可采用一种较为复杂但是筛选精确度更高的方式,即利用机器学习的方法训练一个自动筛选候选答案的模型,再以此模型对内容库中的项目内容进行是否符合答案规则的预测,并根据预测结果来判断内容库中的项目是否符合答案规则。
在本发明技术方案的另一种变化例下,如图2所示,所述建立答案规则包括如下步骤:
步骤S200,从所述内容库中人工筛选所述符合所述答案规则的项目及不符合所述答案规则的项目以分别作为第一正样本及第一负样本;
步骤S201,将所述项目的属性、第一正样本及第一负样本输入答案规则建立模型、训练所述答案规则建立模型以建立所述答案规则。
根据步骤S200,其中筛选样本的过程包括:先预先从内容库中人工标注一定数量的可以作为候选答案的内容(即第一正样本)和不太合适作为候选答案(即第一负样本),一般样本集中的每一类样本,即第一正样本及第一负样本,至少需要每一类各标注数千个人工筛选的样本。
在获取上述样本后,再根据步骤S201,把这些样本输入机器学习模型,也即所述答案规则建立模型,比如朴素贝叶斯模型,GBDT模型,SVM模型等,让模型自己学习如何根据内容的各项属性区分正样本和负样本。学习结束后这些模型就可以用来判别该内容是否可以作为某些问题的候选答案。这里所说的内容属性包括第一种基于人工规则的方法中提及的显式属性,比如,内容的时效性(是否是知识性的长时效内容),标题的类型(是疑问句还是陈述句,是否包含意义明确的实体),标题的长度,来源的权威度。除了这些容易被理解的属性外,还可以引入一些人不容易理解,但是可能对机器学习模型增强识别能力有帮助的复杂属性。比如用RNN(循环神经网络)把内容标题转换成数值向量,用这个数值向量作为单层神经网络的输入,得到“该标题可能回答了一个问题”的概率P,而这个概率P也可以作为内容的一种属性。对于上述属性,训练模型对属性预测结果输出,在应用时即可对上述预测结果与预定结果进行比较,来获取符合答案规则的内容库项目了,从而能够组建答案库。具体的,根据步骤S201,如图3所示,所述训练所述答案规则建立模型以建立所述答案规则包括如下步骤:
步骤S300,获取所述第一正样本/第一负样本相对于所述项目属性的第一真实数据/第二真实数据;
步骤S301,使用所述答案规则建立模型预测所述第一正样本/第一负样本相对于所述项目属性的第一预测数据/第二预测数据;
步骤S302,调整所述答案规则建立模型的模型参数,当所述第一预测数据与第一真实数据一致且第二预测数据与第二真实数据一致则输出所述模型参数及其答案规则建立模型。
其中,所述获取所述第一正样本/第一负样本相对于所述项目属性的第一真实数据/第二真实数据包括:获取所述第一正样本相对于所述项目属性的第一真实数据,即比如项目属性为上述第一种基于人工规则的方法中提及的显式属性,所述第一真实数据针对其中的预定的筛选结果一为:是、是、是(按二进制数据为:111);以及获取所述第一负样本相对于所述项目属性的第二真实数据,所述第二真实数据针对其中的预定的筛选结果一为:否、否、否(按二进制数据为:000)。
所述使用所述答案规则建立模型预测所述第一正样本/第一负样本相对于所述项目属性的第一预测数据/第二预测数据包括:使用所述答案规则建立模型预测所述第一正样本相对于所述项目属性的第一预测数据,比如第一预测数据针对其中的预定的筛选结果一为:是、是、否(按二进制数据为:110);以及,使用所述答案规则建立模型预测所述第一负样本相对于所述项目属性的第二预测数据,所述第二预测数据针对其中的预定的筛选结果一为:否、是、否(按二进制数据为:010)。
所述调整所述答案规则建立模型的模型参数,根据上述实例,即包括调整所述答案规则建立模型的模型参数使110的预测数值可在预测时准确输出为111,使010的预测数值可在预测时准确输出为000。上述训练过程针对每一样本数据都是一样的,最终在所有样本数据的第一预测数据与第一真实数据一致且第二预测数据与第二真实数据一致,则输出所述模型参数及其答案规则建立模型。
本发明技术方案对于步骤S300~S302的流程可以是内部运行的,也可以是外部处理得到的。根据上述步骤S300~S302,所述答案规则建立模型基于机器学习算法。具体的,所述机器学习算法为朴素贝叶斯算法、GBDT算法、SVM算法及RNN算法中的一种。给定一组内容属性和大量正样本,负样本,如何训练机器学习模型得到一个有效的候选答案识别模型,在机器学习领域是一个已经被充分解决的成熟问题,因此这个过程的具体技术细节在此不在赘述。
根据本发明技术方案的上述内容,已描述了候选建立候选答案库的流程。需要说明的是:
如果问答社区的运营方已经拥有一个门类比较齐全,内容丰富的内容平台(比如头条问答产品的运营方同时拥有日均新增几十万文章,视频的头条号自媒体平台),则图1中的获取步骤S100可直接基于平台数据库获取得到,否则则要从互联网上抓取大量的文章和带有描述信息的视频(可以是短视频)来构成内容库中的项目,并实现自我更新。
本发明技术方案还提供了筛选符合答案规则的内容库项目来组建答案库的技术手段,其中包括直接设计一种或多种候选答案规则的技术手段及通过训练机器学习模型来建立答案规则的技术手段,两种手段可以分别在技术方案中单独使用,也可以并行使用。
另外,在直接设计一种或多种候选答案规则的技术手段中,若存在多种候选答案规则时,还可以根据不同情况下的筛选效果需要对不同候选答案规则设置权重,使用每个选答案规则判断结果与权重之积的累加结果作为最终内容库项目的判断结果来进行实际筛选。
本发明技术方案组建答案库的手段并不受上述技术方案的限制。
根据本发明技术方案的上述内容,在建立了候选答案库之后,给定一个用户提出的问题,根据步骤S102就可以在答案库中搜索最合适的候选答案,具体的,根据步骤S102,本发明技术方案即提供了一种可行的答案自动匹配技术手段,如图4所示,所述对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目包括步骤:
步骤S400,将所述输入的问题项目分为顺序的单个词组成的序列;
步骤S401,若所述答案库中项目标题具备所述序列中的每一个词,则选择该项目标题的项目作为所述目标项目。
需要说明的是,根据步骤S400,所述输入的问题项目一般其长度包含的字符数一般会比较短,即类似为一句话的问题或几句话的问题,在长度上可能与输入问题项目长度类似的会是答案库中的项目标题,因此此处答案自动匹配的过程可能限于问题项目与项目标题直接的匹配手。但是可以理解的是,若输入的问题项目比较长,其涵盖的内容也会比较多,一般输入的问题项目也会具有标题,此时可以使用输入问题项目的标题与项目标题作匹配。即步骤S400所指输入的问题项目在输入的问题内容长度超过预定内容长度时,选取问题项目标题作为所述输入的问题项目,但若输入的问题内容长度未超过预定内容长度时,则将所述问题长度作为所述输入的问题项目。
根据步骤S103,在找到目标项目后,可以根据计算所述问题项目与目标项目的综合相关度来推测到问题项目与目标项目的匹配情况,从而实现自动匹配答案。本发明技术方案提供了如下两种计算方案来获取到上述综合相关度。具体为:
第一种计算方案为人工规则的方法,如图5所示,所述计算所述问题项目与目标项目的综合相关度包括步骤:
步骤S500,分别使用若干相关度函数计算所述问题项目与目标项目之间的单一相关度;
步骤S501,对计算得到的单一相关度分配权重并将所述权重与所对应单一相关度之积累加以得到所述综合相关度。
根据步骤S500,所述分别使用若干相关度函数计算所述问题项目与目标项目之间的单一相关度至少包括执行如下几种计算方式的一种或多种,比如:
第一种计算方式:对目标项目标题与问题项目进行分词,通过word2vec工具获取每个词的数值向量,然后把这些词的向量相加得到项目标题的语义向量和问题项目语义向量,最后计算上述两个向量的cosine距离,以获取第一单一相关度;
第二种计算方式:目标项目标题与问题项目进行分词,计算二者共有词的数量占二者所有词的比例,以获取第二单一相关度;
第三种计算方式:获取目标项目标题的关键词,通过word2vec工具获取每个关键词的数值向量,然后把这些向量加和作为目标项目标题的语义向量;对问题项目进行分词,然后通过word2vec工具获取每个词的数值向量并加和作为问题项目的语义向量,最后计算目标项目标题与问题项目语义向量之间的cosine距离,以获得第三单一相关度。
其中,Word2vec工具是现有技术中一种流行的词向量化工具,由谷歌公司开发,可以把词表示一个数值向量,而且保证语义相近的词其数值向量距离也更近,该工具的应算原理此处不再赘述。
在根据本计算方案的一则扩展实例中,令:
rel(c,q)=w1×f1(c,q)+w2×f2(c,q)+…+wn×fn(c,q)
其中,c和q分别代表目标项目与问题项目,rel(c,q)代表c和q的综合相关度,f1、f2、…、fn分别表示单一的相关函数,n为大于2的自然数,w1、w2、…、wn表示相关函数f1、f2、…、fn权重,是手工调整的。f1、f2、…、fn的计算方式可以采用上述第一种至第三种计算方式,也可以采用其他现有技术中的相关度函数的计算方式。相关领域的技术人员还可以设计出更多有效的相关度函数,限于篇幅,在此不再一一列举。
在本发明技术方案的第二种计算方案为机器学习的方法,如图6所示的一种自动生成开放式问题答案的方法(图6所示的方法流程基于图1),除了包括步骤S100~S103外,还包括如下步骤:
步骤S600,从所述答案库中人工筛选所述符合所述问题项目的项目标题及不符合所述问题项目的项目标题以分别作为第二正样本及第二负样本;
步骤S601,拆分所述问题项目、第二正样本及第二负样本为单字序列,并基于RNN处理后得到各个序列的语义向量;
步骤S602,训练RNN模型以准确预测上述各语义向量间的cosine距离是否符合真实相关度,以获得RNN模型参数。
本发明技术方案对于步骤S600~S602的流程可以是内部运行的,也可以是外部处理得到的。RNN(Recurrent Neutral Networks)模型也即循环神经网络模型,是一种流行的神经网络结构,其输入一个字符序列,可以获得一个向量用来表示这个字符序列的潜在语义,现有技术中对该模型有更为细致的阐述。本发明技术方案运用该RNN模型来训练问题项目及目标项目标题之间的匹配预测,从而提高匹配预测的准确度。
根据图6中的步骤S103,结合图7,所述计算所述问题项目与目标项目的综合相关度包括步骤:
步骤S700,对目标项目标题与问题项目进行分词以获得单字序列;
步骤S701,基于所述RNN模型参数使用RNN模型预测所述标项目标题与问题项目单字序列之间的预测相关度。
根据步骤S700至S701,可知,在本发明技术方案中,针对一个用户问题q,可以先标注一批候选答案库中适合作为这个问题回答的内容{c}(即与该问题匹配的目标标题c的集合),然后标注一批不适合作为这个问题回答的内容{c’}(即与该问题不匹配的目标标题c’的集合)。q和所有c组成的配对可以作为第二正样本,q和所有c’组成的配对可以作为第二负样本。一般需要对数千不同的q进行此项操作,收集数以万级的正负样本,然后就可以训练机器学习模型自动学习如何计算rel(c,q)。
本实例中采用流行的RNN模型来学习候选答案标题和用户问题的相关度,这里把问题和候选答案标题都作为单字序列(比如问题q为“为什么索尼,松下等日本企业近年来衰落了?”被转化为如下的单字序列<为,什,么,索,尼,松,下,等,日,本,企,业,近,年,来,衰,落,了>),经过RNN模型处理后得问题序列的语义向量及候选答案标题的语义向量。如果二者相关,两个向量之间的cosine距离应该为1,如果二者不相关,其cosine距离应该为0。
利用经典的BPTT算法,即考虑利用RNN模型预测得到的向量之间的cosine距离和样本中真实计算得到的向量之间的cosine距离的误差,用这个误差反过来调整RNN模型的模型参数,不断调整模型参数使得使所得到的预测值与真实值误差越来越小,就可以找到合适的模型参数使得RNN模型对(c,q)配对样本相关性的预测能力最强。
找到合适的模型参数后,模型就训练完成,即就可以利用合适的RNN模型对于任意的(c,q)组合计算相关性,即预测得到的问题序列的语义向量及候选答案标题的语义向量之间的cosine距离,从而根据预测值来判断匹配情况:先把c的标题和q作为单字序列,然后分别用RNN模型处理得到各自的语义向量,再计算cosine距离。计算出的距离越大,相关度越高,所以这个计算方法可以用来从若干候选答案中找出最相关的。所述预测相关度即指根据RNN模型计算问题序列的语义向量及候选答案标题的语义向量之间的cosine距离。
如果匹配算法的准确度较高(需要实际评估,因为人工规则的效果需要不断调整规来尝试提高,不容易取得满意的效果,机器学习方法的效果受到样本质量和数量的影响),可以把相关性高于特定阈值的候选答案直接回复到问题后面由机器人账号发布到问答社区,当然这样的做法有一定风险,更稳妥的做法是把候选答案发给适合回答该问题的真实用户,让该用户评判候选答案是否很好的回答了问题。另外该用户还可以把候选答案作为素材,在此基础上修改回复一个更好的答案,这样会比自己从头开始写效率来得更高。在本发明技术方案的又一种变化例下,如图8所示(图8基于图1所示方案,当然在其他实施例中也可以基于图6所示方案进行变形),一种自动生成开放式问题答案的方法,除了包括步骤S100~S103外,还包括如下步骤:步骤S800,至少提取综合相关度最高的目标项目中的目标内容进行发布。
上述发布的对象可以是提出问题的用户,也可以是拟作出回答的用户。根据图8所示自动生成开放式问题答案的方法来操作的一个应用例,如图9所示,其中用户问题来自于问答社区,一般不是简单的事实性问题(事实性问题比如“现在的美国总统是谁?”),而是需要较多文字或者视频来阐述的开放性问题(比如“特朗普上任后会给国际局势带来什么变化?”),该方法包括如下步骤:
首先是预先从一个包含海量文章或视频内容的内容库挖掘候选答案并建立候选答案库,其次是收到用户提问后,从候选答案库中找到匹配的答案并发布答案。
结合图9,从候选答案库中找到匹配的答案并发布答案的步骤进一步包括:
步骤S900,对用户问题进行分词;
步骤S901,根据分词后的词集此在候选答案库找到标题包含这些词的候选答案;
步骤S902,对于每项候选答案,计算其标题和用户问题的相关性;
步骤S903,***需要判断自动生成的答案相关度是否高于特定阈值;高于阈值的候选答案则视为Top k答案;
对于Top K答案,可以根据步骤S904,发送给适合回答问题的用户,即潜在搭主供其参考,为其撰写***素材;也可以根据步骤S905,利用***账号在问答社区直接发布答案。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (12)
1.一种自动生成开放式问题答案的方法,其特征在于,包括:
获取内容库,所述内容库中的项目至少包括项目来源、项目内容及项目标题中的一种属性;
建立答案规则并从所述内容库中获取符合所述答案规则的项目以组建答案库,所述答案规则包括至少与所述项目来源、项目内容、项目标题中一种对应筛选条件;
对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目;
计算所述问题项目与目标项目的综合相关度并找出综合相关度最高的目标项目以输出。
2.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述获取内容库包括:根据内部提供或外部抓取的文档或视频建立内容库中的项目。
3.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述建立答案规则包括:
从内容库中筛选符合如下条件中的至少一项的项目:
所述项目来源的权威度合法;
所述项目内容的时效合法;
所述项目标题中包含实体词语;
所述项目标题是疑问句。
4.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述建立答案规则包括:
从所述内容库中人工筛选所述符合所述答案规则的项目及不符合所述答案规则的项目以分别作为第一正样本及第一负样本;
将所述项目的属性、第一正样本及第一负样本输入答案规则建立模型、训练所述答案规则建立模型以建立所述答案规则。
5.如权利要求4所述的自动生成开放式问题答案的方法,其特征在于,所述训练所述答案规则建立模型以建立所述答案规则包括:
获取所述第一正样本/第一负样本相对于所述项目属性的第一真实数据/第二真实数据;
使用所述答案规则建立模型预测所述第一正样本/第一负样本相对于所述项目属性的第一预测数据/第二预测数据;
调整所述答案规则建立模型的模型参数,当所述第一预测数据与第一真实数据一致且第二预测数据与第二真实数据一致则输出所述模型参数及其答案规则建立模型。
6.如权利要求4所述的自动生成开放式问题答案的方法,其特征在于,所述答案规则建立模型基于机器学习算法。
7.如权利要求6所述的自动生成开放式问题答案的方法,其特征在于,所述机器学习算法为朴素贝叶斯算法、GBDT算法、SVM算法及RNN算法中的一种。
8.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述对输入的问题项目进行分词并寻找答案库中具备所有分词的目标项目包括:
将所述输入的问题项目分为顺序的单个词组成的序列;
若所述答案库中项目标题具备所述序列中的每一个词,则选择该项目标题的项目作为所述目标项目。
9.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,所述计算所述问题项目与目标项目的综合相关度包括:
分别使用若干相关度函数计算所述问题项目与目标项目之间的单一相关度;
对计算得到的单一相关度分配权重并将所述权重与所对应单一相关度之积累加以得到所述综合相关度。
10.如权利要求9所述的自动生成开放式问题答案的方法,其特征在于,所述分别使用若干相关度函数计算所述问题项目与目标项目之间的单一相关度至少包括执行如下几种计算方式的一种或多种:
对目标项目标题与问题项目进行分词,通过word2vec工具获取每个词的数值向量,然后把这些词的向量相加得到项目标题的语义向量和问题项目语义向量,最后计算上述两个向量的cosine距离,以获取第一单一相关度;
目标项目标题与问题项目进行分词,计算二者共有词的数量占二者所有词的比例,以获取第二单一相关度;
获取目标项目标题的关键词,通过word2vec工具获取每个关键词的数值向量,然后把这些向量加和作为目标项目标题的语义向量;对问题项目进行分词,然后通过word2vec工具获取每个词的数值向量并加和作为问题项目的语义向量,最后计算目标项目标题与问题项目语义向量之间的cosine距离,以获得第三单一相关度。
11.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,还包括:
从所述答案库中人工筛选所述符合所述问题项目的项目标题及不符合所述问题项目的项目标题以分别作为第二正样本及第二负样本;
拆分所述问题项目、第二正样本及第二负样本为单字序列,并基于RNN处理后得到各个序列的语义向量;
训练RNN模型以准确预测上述各语义向量间的cosine距离是否符合真实相关度,以获得RNN模型参数;
所述计算所述问题项目与目标项目的综合相关度包括:
对目标项目标题与问题项目进行分词以获得单字序列;
基于所述RNN模型参数使用RNN模型预测所述标项目标题与问题项目单字序列之间的预测相关度。
12.如权利要求1所述的自动生成开放式问题答案的方法,其特征在于,还包括:至少提取综合相关度最高的目标项目中的目标内容进行发布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710205299.8A CN106991161B (zh) | 2017-03-31 | 2017-03-31 | 一种自动生成开放式问题答案的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710205299.8A CN106991161B (zh) | 2017-03-31 | 2017-03-31 | 一种自动生成开放式问题答案的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106991161A true CN106991161A (zh) | 2017-07-28 |
CN106991161B CN106991161B (zh) | 2019-02-19 |
Family
ID=59414626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710205299.8A Active CN106991161B (zh) | 2017-03-31 | 2017-03-31 | 一种自动生成开放式问题答案的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106991161B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766536A (zh) * | 2017-10-30 | 2018-03-06 | 江西博瑞彤芸科技有限公司 | 关联信息的搜索方法 |
CN107832768A (zh) * | 2017-11-23 | 2018-03-23 | 盐城线尚天使科技企业孵化器有限公司 | 基于深度学习的高效阅卷方法和阅卷*** |
CN108052577A (zh) * | 2017-12-08 | 2018-05-18 | 北京百度网讯科技有限公司 | 一种通用文本内容挖掘方法、装置、服务器及存储介质 |
CN108681610A (zh) * | 2018-05-28 | 2018-10-19 | 山东大学 | 生成式多轮闲聊对话方法、***及计算机可读存储介质 |
CN108717413A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于假设性半监督学习的开放领域问答方法 |
CN109189894A (zh) * | 2018-09-20 | 2019-01-11 | 科大讯飞股份有限公司 | 一种答案抽取方法及装置 |
CN109284298A (zh) * | 2018-11-09 | 2019-01-29 | 上海晏鼠计算机技术股份有限公司 | 一种基于机器学习和大数据处理的内容生产*** |
CN109460453A (zh) * | 2018-10-09 | 2019-03-12 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN109816111A (zh) * | 2019-01-29 | 2019-05-28 | 北京金山数字娱乐科技有限公司 | 阅读理解模型训练方法以及装置 |
CN110390050A (zh) * | 2019-07-10 | 2019-10-29 | 北京航空航天大学 | 一种基于深度语义理解的软件开发问答信息自动获取方法 |
US20200151542A1 (en) * | 2018-11-12 | 2020-05-14 | Alibaba Group Holding Limited | Question and answer matching method, system and storage medium |
CN111382247A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 一种内容推送优化方法、内容推送优化装置及电子设备 |
CN111985238A (zh) * | 2020-06-30 | 2020-11-24 | 联想(北京)有限公司 | 一种答案生成方法及设备 |
CN113841142A (zh) * | 2019-04-30 | 2021-12-24 | 艾斯图文有限公司 | 使用知识图提供网络安全的方法、装置和计算机程序 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答*** |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
CN104102721A (zh) * | 2014-07-18 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和装置 |
US20150235130A1 (en) * | 2014-02-19 | 2015-08-20 | International Business Machines Corporation | NLP Duration and Duration Range Comparison Methodology Using Similarity Weighting |
CN105893391A (zh) * | 2015-01-26 | 2016-08-24 | 阿里巴巴集团控股有限公司 | 智能应答方法、装置、***及电子设备 |
US20160267383A1 (en) * | 2015-03-10 | 2016-09-15 | International Business Machines Corporation | Enhancement of massive data ingestion by similarity linkage of documents |
-
2017
- 2017-03-31 CN CN201710205299.8A patent/CN106991161B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答*** |
US20150235130A1 (en) * | 2014-02-19 | 2015-08-20 | International Business Machines Corporation | NLP Duration and Duration Range Comparison Methodology Using Similarity Weighting |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答*** |
CN104102721A (zh) * | 2014-07-18 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和装置 |
CN105893391A (zh) * | 2015-01-26 | 2016-08-24 | 阿里巴巴集团控股有限公司 | 智能应答方法、装置、***及电子设备 |
US20160267383A1 (en) * | 2015-03-10 | 2016-09-15 | International Business Machines Corporation | Enhancement of massive data ingestion by similarity linkage of documents |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766536A (zh) * | 2017-10-30 | 2018-03-06 | 江西博瑞彤芸科技有限公司 | 关联信息的搜索方法 |
CN107832768A (zh) * | 2017-11-23 | 2018-03-23 | 盐城线尚天使科技企业孵化器有限公司 | 基于深度学习的高效阅卷方法和阅卷*** |
CN108052577B (zh) * | 2017-12-08 | 2022-06-14 | 北京百度网讯科技有限公司 | 一种通用文本内容挖掘方法、装置、服务器及存储介质 |
CN108052577A (zh) * | 2017-12-08 | 2018-05-18 | 北京百度网讯科技有限公司 | 一种通用文本内容挖掘方法、装置、服务器及存储介质 |
US11062090B2 (en) | 2017-12-08 | 2021-07-13 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for mining general text content, server, and storage medium |
CN108717413A (zh) * | 2018-03-26 | 2018-10-30 | 浙江大学 | 一种基于假设性半监督学习的开放领域问答方法 |
CN108717413B (zh) * | 2018-03-26 | 2021-10-08 | 浙江大学 | 一种基于假设性半监督学习的开放领域问答方法 |
CN108681610B (zh) * | 2018-05-28 | 2019-12-10 | 山东大学 | 生成式多轮闲聊对话方法、***及计算机可读存储介质 |
CN108681610A (zh) * | 2018-05-28 | 2018-10-19 | 山东大学 | 生成式多轮闲聊对话方法、***及计算机可读存储介质 |
CN109189894A (zh) * | 2018-09-20 | 2019-01-11 | 科大讯飞股份有限公司 | 一种答案抽取方法及装置 |
CN109189894B (zh) * | 2018-09-20 | 2021-03-23 | 科大讯飞股份有限公司 | 一种答案抽取方法及装置 |
CN109460453A (zh) * | 2018-10-09 | 2019-03-12 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN109460453B (zh) * | 2018-10-09 | 2021-08-17 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN109284298A (zh) * | 2018-11-09 | 2019-01-29 | 上海晏鼠计算机技术股份有限公司 | 一种基于机器学习和大数据处理的内容生产*** |
US11599769B2 (en) * | 2018-11-12 | 2023-03-07 | Alibaba Group Holding Limited | Question and answer matching method, system and storage medium |
US20200151542A1 (en) * | 2018-11-12 | 2020-05-14 | Alibaba Group Holding Limited | Question and answer matching method, system and storage medium |
CN111382247A (zh) * | 2018-12-29 | 2020-07-07 | 深圳市优必选科技有限公司 | 一种内容推送优化方法、内容推送优化装置及电子设备 |
CN111382247B (zh) * | 2018-12-29 | 2023-07-14 | 深圳市优必选科技有限公司 | 一种内容推送优化方法、内容推送优化装置及电子设备 |
CN109816111B (zh) * | 2019-01-29 | 2022-03-08 | 北京金山数字娱乐科技有限公司 | 阅读理解模型训练方法以及装置 |
CN109816111A (zh) * | 2019-01-29 | 2019-05-28 | 北京金山数字娱乐科技有限公司 | 阅读理解模型训练方法以及装置 |
CN113841142A (zh) * | 2019-04-30 | 2021-12-24 | 艾斯图文有限公司 | 使用知识图提供网络安全的方法、装置和计算机程序 |
CN113841142B (zh) * | 2019-04-30 | 2023-09-08 | 艾斯图文有限公司 | 使用知识图提供网络安全的方法、装置和计算机程序 |
CN110390050B (zh) * | 2019-07-10 | 2021-12-07 | 北京航空航天大学 | 一种基于深度语义理解的软件开发问答信息自动获取方法 |
CN110390050A (zh) * | 2019-07-10 | 2019-10-29 | 北京航空航天大学 | 一种基于深度语义理解的软件开发问答信息自动获取方法 |
CN111985238A (zh) * | 2020-06-30 | 2020-11-24 | 联想(北京)有限公司 | 一种答案生成方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN106991161B (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991161B (zh) | 一种自动生成开放式问题答案的方法 | |
Jin et al. | An improved ID3 decision tree algorithm | |
Durairaj et al. | Educational data mining for prediction of student performance using clustering algorithms | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
CN110674840B (zh) | 一种多方证据关联模型构建方法和证据链提取方法及装置 | |
CN109284363A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN111737495A (zh) | 基于领域自分类的中高端人才智能推荐***及其方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
CN108717433A (zh) | 一种面向程序设计领域问答***的知识库构建方法及装置 | |
CN105893609A (zh) | 一种基于加权混合的移动app推荐方法 | |
CN110457404A (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
Chandra et al. | Biden vs trump: modeling us general elections using bert language model | |
KR20200047006A (ko) | 머신 러닝 기반의 근사모델 구축 방법 및 시스템 | |
CN117271767B (zh) | 基于多智能体的运维知识库的建立方法 | |
Zhong et al. | Design of a personalized recommendation system for learning resources based on collaborative filtering | |
CN112926325A (zh) | 基于bert神经网络的中文人物关系抽取构建方法 | |
CN111241425A (zh) | 一种基于层次注意力机制的poi推荐方法 | |
CN115827968A (zh) | 一种基于知识图谱推荐的个性化知识追踪方法 | |
CN117494760A (zh) | 一种基于超大规模语言模型的富语义标签数据增广方法 | |
CN117473034A (zh) | 交互文本处理方法、装置、电子设备及存储介质 | |
Elhebir et al. | A novel ensemble approach to enhance the performance of web server logs classification | |
Saeed et al. | A framework to predict early news popularity using deep temporal propagation patterns | |
CN111143573A (zh) | 基于用户反馈信息进行知识图谱目标节点预测的方法 | |
Arosha Senanayake et al. | A road accident pattern miner (RAP miner) | |
Wang | Retracted: Multi‐data multiple gray clustering analysis based on layered mining for ubiquitous clouds and social internet of things |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 222, Floor 2, Building 1, Yard A23, North Third Ring West Road, Haidian District, Beijing 100098 Patentee after: Beijing Douyin Information Service Co.,Ltd. Address before: 100000 Building 1, AVIC Plaza, 43 North Third Ring West Road, Haidian District, Beijing Patentee before: BEIJING BYTEDANCE TECHNOLOGY Co.,Ltd. |
|
CP03 | Change of name, title or address |