CN106649258A - 一种智能的问答*** - Google Patents

一种智能的问答*** Download PDF

Info

Publication number
CN106649258A
CN106649258A CN201610844734.7A CN201610844734A CN106649258A CN 106649258 A CN106649258 A CN 106649258A CN 201610844734 A CN201610844734 A CN 201610844734A CN 106649258 A CN106649258 A CN 106649258A
Authority
CN
China
Prior art keywords
answer
key
module
ranking
answers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610844734.7A
Other languages
English (en)
Inventor
袁家政
刘宏哲
龚灵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201610844734.7A priority Critical patent/CN106649258A/zh
Publication of CN106649258A publication Critical patent/CN106649258A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能的问答***,该***中的内容获取模块,用于确认和汇集与答案相关的内容,对问题空间的问题进行分析并且分类,自动拓展资料库;问题分析模块,用于分析输入的问题信息,确定问题类型、发觉问题间的关系和分解问题;假设生成模块,用于从数据源中尽可能多的搜索与答案相关的内容作为参***;软过滤模块,对大量的参***进行筛选,分出很可能是正确答案的一类和有可能是正确答案的一类;证据打分模块,根据打分对象对参***进行详细的打分,确定其接近参***的程度;答案合并和排名模块,将分拆的答案合并,计算可信度,并且排名,排名最靠前的即为***认为的最佳答案。

Description

一种智能的问答***
技术领域
本申请涉及人机智能交互技术领域,尤其涉及一种智能的问答***。
背景技术
自动问答***是指以自然语言理解技术为核心,使得计算机能够理解用户的谈话内容,实现人与计算机之间的有效交流沟通,并且提供强大的搜索能力,准确回答用户的问题。其中,目前在计算机客服***中普遍采用的智能问答***就是一种自动问答***,它是一种通过自然语言技术,能够理解用户的问题,并且提供准确的答案的人工智能***。
本发明能够应对Jeopardy中的挑战,节目的比赛以一种独特的问答形式进行,问题设置的涵盖面非常广泛,涉及到历史、文学、艺术、流行文化、科技、体育、地理、文字游戏等等各个领域。根据以答案形式提供的各种线索,参赛者必须以问题的形式做出简短正确的回。与一般问答节目相反,Jeopardy中以答案形式提问、提问形式作答。参赛者需具备历史、文学、政治、科学和通俗文化等知识,还得会解析隐晦含义、反讽与谜语等,而电脑并不擅长进行这类复杂思考。本智能问答***能够很好的符合该逻辑思路,并且具备从海量的数据源中找到正确答案的能力,还对参***的可信度进行打分排名。
发明内容
为实现上述目的,本发明采用的技术方案为一种智能的问答***,该***包括内容获取模块、问题分析模块、假设生成模块、软过滤模块、证据打分模块、答案合并和排名模块。
步骤一、内容获取模块,用于确认和汇集与答案相关的内容,对问题空间的问题进行分析并且分类,自动拓展资料库;
步骤二、问题分析模块,用于分析输入的问题信息,确定问题类型、发觉问题间的关系和分解问题;
步骤三、假设生成模块,用于从数据源中尽可能多的搜索与答案相关的内容作为参***;
步骤四、软过滤模块,对大量的参***进行筛选,分出很可能是正确答案的一类和有可能是正确答案的一类;
步骤五、证据打分模块,根据打分对象对参***进行详细的打分,确定其接近参***的程度;
步骤六、答案合并和排名模块,将分拆的答案合并,计算可信度,并且排名,排名最靠前的即为***认为的最佳答案。
附图说明
图1智能问答***构架原理图。
图2智能问答***流程图1。
图3智能问答***流程图2。
图4答案合并和排名模型。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
整体的***构架有四部分组成:问题分析、搜索、答案提取和数据库,如图1所示。对于***进一步分解,如图2所示。对于输入到***的问题,具体流程图如图3所示,具体如下:
S301、本***有一个图形界面,设计用户输入框来接收用户输入的问题。
S302、对问题进行分析,判断问题的类型,后期会根据问题的类型采取不同的检索和打分方案,并且将问题自动添加到对应的数据库中,自动拓展数据库。
S303、对于一些可分的长问题可以分成若干个小问题,根据语法和分词结果提取出多个问题。
S304、对于分出的每一个小问题都从数据库中搜索相关答案,作为参***,相关性的计算如公式1、公式2所示。
S305、对参***进行打分,越是相关性高的打分越高,打分的方法如公式3、公式4所示。
S306、对分数进行判断,如果大于阈值,就直接跳转到排位阶段,如果小于阈值,还需要进行S307步骤。原因是S305的打分方法与上下文的关系不大,所以可能对答案的可靠性不高。
S306、根据参***所在的数据源的位置进行上下文检测,匹配比较,综合其它的因素,如数据的流行度、可靠性度。再一次打分。
S306、对各个分数按照一定的权值计算赋予权值,求和,得出参***的总分。
S307、到这里所有的参***都会有一个对应的分数,根据分数的高低排名
S308、根据算法计算出可信度,结合S307,具体过程如图4所示,会用到机器学习的方法训练出模型,自动进行可信度计算。
内容获取模块具体包括:针对面向的领域对问题的类型进行归类分类,总结出面向的领域的特色,从各种文本中搜索与答案相关的内容。将问题分词,记为ti,分词ti在一处数据源的分数记为pi,当文本中包含分词ti,wij=idf(tj);否则wij=0。
其中,
c(t)表示包含分词t的文件数目,N表示在数据源中所有文件的数目。
所述问题分析模块具体包括:确认问题类型,对问题进行分类,针对不同类型的问题有不同的处理方法,并且发觉问题间的关系,然后分解问题。
所述发觉问题间的关系模块具体包括:将输入的问题与数据库中的问题进行比较,挖掘问题间语法上的主谓宾关系以及语义上联系,有的问题答案从这一步直接产生。
所述分解问题模块具体包括:通过分解问题更快更准确的找到答案,将一个复杂句式的问题分成多个简单的问题,并行处理每一个问题,并分别为答案的可行度打分。
所述假设生成模块具体包括:从数据源中尽可能多的搜索与答案相关的内容,针对不同类型的问题使用不同的搜索算法,所有相关的内容都做为参***。
所述软过滤模块具体包括:运用轻量级的打分算法对参***进行筛选,通过过滤器的参***需要进入打分模块,未通过过滤器的参***进入合并排名模块。
所述打分模块具体包括:从进入打分模块的参***的上下文中找到支持参***的额外证据,根据语义、语法的联系及多种打分算法对参***进行打分,越可能是参***打分越高。打分的对象为位置、文字支持度、流行度、信息可靠性。具体方法为:
首先创建两个一维数组P,Q,一个二维数组score;P和Q中存放分词的符号,score中存放分数并初始化score[i][j]=0;
然后计算每一个score[i][j],运用以下公式
其中
if t1=t2
特别sim(FOCUS,CANDIDATE)=log(N).
所述合并排名模块具体包括:将拆分的问题分数按照一定的权值合并,计算出总分;通过机器学习算法训练出自信度估计模型,基于问题的总分自动生成自信度估计,并排名。
对输入的问题进行处理,在各种不同的数据源中进行搜索参***,并且对参***进行拆分、打分、合并处理,最后得到参***的排名和可信度,输出答案。

Claims (10)

1.一种智能的问答***,其特征在于:该***包括内容获取模块、问题分析模块、假设生成模块、软过滤模块、证据打分模块、答案合并和排名模块;
步骤一、内容获取模块,用于确认和汇集与答案相关的内容,对问题空间的问题进行分析并且分类,自动拓展资料库;
步骤二、问题分析模块,用于分析输入的问题信息,确定问题类型、发觉问题间的关系和分解问题;
步骤三、假设生成模块,用于从数据源中尽可能多的搜索与答案相关的内容作为参***;
步骤四、软过滤模块,对大量的参***进行筛选,分出很可能是正确答案的一类和有可能是正确答案的一类;
步骤五、证据打分模块,根据打分对象对参***进行详细的打分,确定其接近参***的程度;
步骤六、答案合并和排名模块,将分拆的答案合并,计算可信度,并且排名,排名最靠前的即为***认为的最佳答案。
2.根据权利要求1所述的一种智能的问答***,其特征在于:对于输入到***的问题,具体如下:
S301、本***有一个图形界面,设计用户输入框来接收用户输入的问题;
S302、对问题进行分析,判断问题的类型,后期会根据问题的类型采取不同的检索和打分方案,并且将问题自动添加到对应的数据库中,自动拓展数据库;
S303、对于一些可分的长问题可以分成若干个小问题,根据语法和分词结果提取出多个问题;
S304、对于分出的每一个小问题都从数据库中搜索相关答案,作为参***;
S305、对参***进行打分,越是相关性高的打分越高;
S306、对分数进行判断,如果大于阈值,就直接跳转到排位阶段,如果小于阈值,还需要进行S307步骤;原因是S305的打分方法与上下文的关系不大,所以可能对答案的可靠性不高;
S306、根据参***所在的数据源的位置进行上下文检测,匹配比较,综合其它的因素,如数据的流行度、可靠性度;再一次打分;
S306、对各个分数按照一定的权值计算赋予权值,求和,得出参***的总分;
S307、到这里所有的参***都会有一个对应的分数,根据分数的高低排名
S308、根据算法计算出可信度,结合S307,会用到机器学习的方法训练出模型,自动进行可信度计算。
3.根据权利要求2所述的一种智能的问答***,其特征在于:内容获取模块具体包括:针对面向的领域对问题的类型进行归类分类,总结出面向的领域的特色,从各种文本中搜索与答案相关的内容;将问题分词,记为ti,分词ti在一处数据源的分数记为pi,当文本中包含分词ti,wij=idf(tj);否则wij=0;
其中,
c(t)表示包含分词t的文件数目,N表示在数据源中所有文件的数目。
4.根据权利要求2所述的一种智能的问答***,其特征在于:所述问题分析模块具体包括:确认问题类型,对问题进行分类,针对不同类型的问题有不同的处理方法,并且发觉问题间的关系,然后分解问题。
5.根据权利要求2所述的一种智能的问答***,其特征在于:所述发觉问题间的关系模块具体包括:将输入的问题与数据库中的问题进行比较,挖掘问题间语法上的主谓宾关系以及语义上联系,有的问题答案从这一步直接产生。
6.根据权利要求2所述的一种智能的问答***,其特征在于:所述分解问题模块具体包括:通过分解问题更快更准确的找到答案,将一个复杂句式的问题分成多个简单的问题,并行处理每一个问题,并分别为答案的可行度打分。
7.根据权利要求2所述的一种智能的问答***,其特征在于:所述假设生成模块具体包括:从数据源中尽可能多的搜索与答案相关的内容,针对不同类型的问题使用不同的搜索算法,所有相关的内容都做为参***。
8.根据权利要求2所述的一种智能的问答***,其特征在于:所述软过滤模块具体包括:运用轻量级的打分算法对参***进行筛选,通过过滤器的参***需要进入打分模块,未通过过滤器的参***进入合并排名模块。
9.根据权利要求2所述的一种智能的问答***,其特征在于:所述打分模块具体包括:从进入打分模块的参***的上下文中找到支持参***的额外证据,根据语义、语法的联系及多种打分算法对参***进行打分,越可能是参***打分越高;打分的对象为位置、文字支持度、流行度、信息可靠性;具体方法为:
首先创建两个一维数组P,Q,一个二维数组score;P和Q中存放分词的符号,score中存放分数并初始化score[i][j]=0;然后计算每一个score[i][j],运用以下公式
其中
if t1=t2
特别sim(FOCUS,CANDIDATE)=log(N)。
10.根据权利要求2所述的一种智能的问答***,其特征在于:所述合并排名模块具体包括:将拆分的问题分数按照一定的权值合并,计算出总分;通过机器学习算法训练出自信度估计模型,基于问题的总分自动生成自信度估计,并排名;
对输入的问题进行处理,在各种不同的数据源中进行搜索参***,并且对参***进行拆分、打分、合并处理,最后得到参***的排名和可信度,输出答案。
CN201610844734.7A 2016-09-22 2016-09-22 一种智能的问答*** Pending CN106649258A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610844734.7A CN106649258A (zh) 2016-09-22 2016-09-22 一种智能的问答***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610844734.7A CN106649258A (zh) 2016-09-22 2016-09-22 一种智能的问答***

Publications (1)

Publication Number Publication Date
CN106649258A true CN106649258A (zh) 2017-05-10

Family

ID=58853197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610844734.7A Pending CN106649258A (zh) 2016-09-22 2016-09-22 一种智能的问答***

Country Status (1)

Country Link
CN (1) CN106649258A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748795A (zh) * 2017-11-03 2018-03-02 深圳市中润四方信息技术有限公司 一种构建知识库的方法、***及装置
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答***及该***的实现方法
CN108595494A (zh) * 2018-03-15 2018-09-28 腾讯科技(深圳)有限公司 答复信息的获取方法及装置
CN108717413A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于假设性半监督学习的开放领域问答方法
CN108920554A (zh) * 2018-06-20 2018-11-30 大国创新智能科技(东莞)有限公司 基于大数据与人工智能的创新方法和创新教育机器人***
CN109002540A (zh) * 2018-07-23 2018-12-14 电子科技大学 一种中文通告文档问题答案对自动生成方法
CN109783704A (zh) * 2019-01-03 2019-05-21 中国科学院自动化研究所 人机混合的应答方法、***、装置
CN110275949A (zh) * 2019-06-06 2019-09-24 深圳中兴飞贷金融科技有限公司 用于贷款应用的自动应答方法及***
CN110309282A (zh) * 2019-06-14 2019-10-08 北京奇艺世纪科技有限公司 一种答案确定方法及装置
CN110799970A (zh) * 2017-06-27 2020-02-14 华为技术有限公司 一种问答***及问答方法
CN110807087A (zh) * 2019-10-21 2020-02-18 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、可读存储介质和电子设备
CN111144973A (zh) * 2019-11-29 2020-05-12 深圳市嘀哒知经科技有限责任公司 问题排名方法及计算机可读存储介质
CN111767374A (zh) * 2019-03-29 2020-10-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和机器可读介质
CN113449117A (zh) * 2021-06-24 2021-09-28 武汉工程大学 一种基于Bi-LSTM和中文知识图谱的复合问答方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和***
CN102637192A (zh) * 2012-02-17 2012-08-15 清华大学 一种自然语言问答的方法
CN103229168A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 在问答期间在多个候选答案之间的证据扩散

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和***
CN103229168A (zh) * 2010-09-28 2013-07-31 国际商业机器公司 在问答期间在多个候选答案之间的证据扩散
CN102637192A (zh) * 2012-02-17 2012-08-15 清华大学 一种自然语言问答的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周澄 等: "Smith-Waterman算法的若干优化及并行实现", 《计算机工程与应用》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110799970A (zh) * 2017-06-27 2020-02-14 华为技术有限公司 一种问答***及问答方法
CN107748795A (zh) * 2017-11-03 2018-03-02 深圳市中润四方信息技术有限公司 一种构建知识库的方法、***及装置
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答***及该***的实现方法
CN108595494A (zh) * 2018-03-15 2018-09-28 腾讯科技(深圳)有限公司 答复信息的获取方法及装置
CN108717413A (zh) * 2018-03-26 2018-10-30 浙江大学 一种基于假设性半监督学习的开放领域问答方法
CN108717413B (zh) * 2018-03-26 2021-10-08 浙江大学 一种基于假设性半监督学习的开放领域问答方法
CN108920554A (zh) * 2018-06-20 2018-11-30 大国创新智能科技(东莞)有限公司 基于大数据与人工智能的创新方法和创新教育机器人***
CN108920554B (zh) * 2018-06-20 2020-12-22 大国创新智能科技(东莞)有限公司 基于大数据与人工智能的创新方法和创新教育机器人***
CN109002540B (zh) * 2018-07-23 2021-03-16 电子科技大学 一种中文通告文档问题答案对自动生成方法
CN109002540A (zh) * 2018-07-23 2018-12-14 电子科技大学 一种中文通告文档问题答案对自动生成方法
CN109783704B (zh) * 2019-01-03 2021-02-02 中国科学院自动化研究所 人机混合的应答方法、***、装置
CN109783704A (zh) * 2019-01-03 2019-05-21 中国科学院自动化研究所 人机混合的应答方法、***、装置
CN111767374A (zh) * 2019-03-29 2020-10-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和机器可读介质
CN110275949A (zh) * 2019-06-06 2019-09-24 深圳中兴飞贷金融科技有限公司 用于贷款应用的自动应答方法及***
CN110309282A (zh) * 2019-06-14 2019-10-08 北京奇艺世纪科技有限公司 一种答案确定方法及装置
CN110309282B (zh) * 2019-06-14 2021-08-27 北京奇艺世纪科技有限公司 一种答案确定方法及装置
CN110807087A (zh) * 2019-10-21 2020-02-18 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、可读存储介质和电子设备
CN111144973A (zh) * 2019-11-29 2020-05-12 深圳市嘀哒知经科技有限责任公司 问题排名方法及计算机可读存储介质
CN111144973B (zh) * 2019-11-29 2023-07-25 深圳市嘀哒知经科技有限责任公司 问题排名方法及计算机可读存储介质
CN113449117A (zh) * 2021-06-24 2021-09-28 武汉工程大学 一种基于Bi-LSTM和中文知识图谱的复合问答方法
CN113449117B (zh) * 2021-06-24 2023-09-26 武汉工程大学 一种基于Bi-LSTM和中文知识图谱的复合问答方法

Similar Documents

Publication Publication Date Title
CN106649258A (zh) 一种智能的问答***
CN102804208B (zh) 为视觉搜索应用自动挖掘名人的个人模型
US10565233B2 (en) Suffix tree similarity measure for document clustering
CN109189901B (zh) 一种智能客服***中自动发现新分类以及对应语料的方法
CN108764480B (zh) 一种信息处理的***
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN106021410A (zh) 一种基于机器学习的源代码注释质量评估方法
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN106777232A (zh) 问答抽取方法、装置及终端
CN110910283A (zh) 生成法律文书的方法、装置、设备和存储介质
CN102456060A (zh) 信息处理装置及信息处理方法
Labusch et al. Named Entity Disambiguation and Linking Historic Newspaper OCR with BERT.
US20190130030A1 (en) Generation method, generation device, and recording medium
CN110516259B (zh) 一种技术关键词的识别方法、装置、计算机设备和存储介质
WO2016009419A1 (en) System and method for ranking news feeds
CN110909230A (zh) 一种网络热点分析方法及***
Kruszewski et al. Jointly optimizing word representations for lexical and sentential tasks with the c-phrase model
CN116010564A (zh) 一种基于多模态知识图谱的水稻病虫害问答***的构建方法
Di Giovanni et al. Content-based stance classification of tweets about the 2020 Italian constitutional referendum
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN115438141B (zh) 一种基于知识图谱模型的信息检索方法
CN116723005A (zh) 多态隐藏下的恶意代码隐式情报追踪方法及***
CN107784024A (zh) 构建当事人画像的方法及装置
Otani et al. Large-scale acquisition of commonsense knowledge via a quiz game on a dialogue system
CN115048504A (zh) 信息推送方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication