CN101286161A - 一种基于概念的智能中文问答*** - Google Patents

一种基于概念的智能中文问答*** Download PDF

Info

Publication number
CN101286161A
CN101286161A CNA2008100478554A CN200810047855A CN101286161A CN 101286161 A CN101286161 A CN 101286161A CN A2008100478554 A CNA2008100478554 A CN A2008100478554A CN 200810047855 A CN200810047855 A CN 200810047855A CN 101286161 A CN101286161 A CN 101286161A
Authority
CN
China
Prior art keywords
module
similarity
question
sentence
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100478554A
Other languages
English (en)
Other versions
CN101286161B (zh
Inventor
张茂元
邹春燕
杨付全
卢正鼎
赵冰心
余毅
刘明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2008100478554A priority Critical patent/CN101286161B/zh
Publication of CN101286161A publication Critical patent/CN101286161A/zh
Application granted granted Critical
Publication of CN101286161B publication Critical patent/CN101286161B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于概念的中文问答***,该***主要包括数据服务器、问题预处理模块、候选问题集提取模块、问句相似度计算模块。本发明的目的在于提供基于概念的问答***,该***能对用户输入的问句处理后的关键词串进行同义扩展,更好的理解问句,进行检索,提高了问答***的查全率。并且,***从词形,词序,及词长三方面给出了一种基于概念的中文句子相似度计算方法,提高了检索的查准率。同时,***采用高效检索技术快速提取候选问题集,计算问句相似度,并对问题集快速排序,将排好序的问题及答案返回给用户。本问答***从概念上对用户输入的问句进行更精准地理解,检索准确答案。通过实验,表明本***具有高查全率和查准率。

Description

一种基于概念的智能中文问答***
技术领域
本发明属于信息检索技术,具体为一种基于概念的问答检索***。该问答***,是对信息检索***的改进,是信息检索一种高级形式。它能用准确、简洁的语言回答用户用自然语言提出的问题。
背景技术
21世纪,人们已经正式步入了信息时代,对网络信息量的需求与日俱增。但网络固有的大容量、异构性、分布性和动态性,以及Web中大量缺乏组织的无效数据,降低了人们对丰富信息资源的利用效率,出现“信息过载”现象。最近几年,随着网络和信息技术的快速发展,同时人们想更快地获取信息的愿望促进了自动问答技术的发展。有越来越多的公司和科研院所参与自动问答技术的研究。比较著名的如Microsoft、IBM、MIT、University of Zurich等。美国著名的文本检索会议TREC于1999年设立了QA Track,为问答***提供评测的平台。目前,国外已经开发出一些相对成熟的问答***。国内也有一些高校和研究机构对自动问答***进行研究,中科院计算所、哈尔滨工业大学、复旦大学、北京理工大学、香港科技大学等。但是整体来说,参与中文自动问答技术研究的科研机构比较少,而且基本没有成型的中文自然语言问答***。
问答***(Question Answering System)是指能够对计算机用户输入的使用自然语言描述的问句做出回答的计算机程序。问答***集自然语言处理、信息检索、知识表示为一体,正日益成为国际上研究的热点。它既能够让用户用自然语言提问,又能够为用户返回一个简洁、准确的答案,而不是一些相关的网页。因此,问答***和传统的依靠关键字匹配的搜索引擎相比,能够更好地满足用户的检索需求,更准确地找出用户所需要的答案,具有方便、快捷、高效等特点。
自然语言问答***的人机界面、精确性和实时性是汉语自然语言问答***的三大研发目标。其中,精确性是自然语言问答***的首要目标。为了达到这一目标,在用户问句处理方面,需要对用户输入的问句进行正确的分词和词性标注、同义词扩充、名实体标注、句法分析、答案类型标注等等处理,对于基于常问问题库的问答***,用户输入问句与问题库问句之间的相似度计算是***的核心所在,其计算方法的精确性和高效性关系到整个***的精确性和效率。
发明内容
本发明的目的在于提供一种基于概念的智能中文问答***,该***具有更高的查全率和查准率。
本发明提供的基于概念的智能中文问答***,其结构为包括数据服务器、输入模块、显示模块,其特征在于:它还包括问题预处理模块、候选问题集提取模块、问句相似度计算模块;
数据服务器用于存储语料库、索引库,XML文档和问题库;
输入模块用于接收用户输入的问题,检查输入问句的规范性,将正确格式的问句提交到问题预处理模块;
问题预处理模块用于接收输入模块传递的问句,调用数据服务器中的知识库和规则库对其进行预处理,并将处理后的结果分别传递给候选问题集模块和问句相似度计算模块;
候选问题集提取模块用于从问题预处理模块提供的预处理结果中快速提取候选问题集,为问句相似度计算模块提供计算对象;
问句相似度计算模块用于求解检索问句与候选问题集中问句的相似度,中文句子相似度计算通过对检索问句的关键词串进行同义扩展,利用扩展结果,调用词形相似度计算方法,再调用词序相似度计算方法和词长相似度计算方法,分别计算词形相似度、词序相似度、词长相似度;然后,将三项加权,计算问句最终的相似度;
显示模块根据问句相似度计算模块的处理结果,将对应于问题库中的问题答案及相关信息,返回给提交检索问句的用户。
本发明***能从概念层次上理解用户输入的中文问句,对问句中的关键词进行同义扩展,来支持自然语言描述的问句的检索,提高了问答***的查全率。并且,***综合考虑问句的词形,词序,及词长三方面,提高了问句检索的查准率。其次,***采用高效检索技术从问题库中快速提取出候选问题集,计算问题集与用户输入的问句之间相似度,并基于相似度对问题集快速排序,将排好序的问题及其答案返回给用户。通过以上创新方法,保证了能够快速地返回一个简洁、准确的答案。本发明***针对精确性和实时性的要求,分别以查准率、检索效率、查全率等方面为主要指标,进行开发,实现。实验结果表明,达到了预期的效果。具体分析,本发明具有如下优点:
(1)查准率高:该***依据自然语言处理技术,从概念层次对检索问句中的关键词进行处理,利用了同义词在句子中表达同一概念的性质,对检索问句的关键词串进行同义扩展,计算词形相似度,再结合词序,词长相似度,综合计算问句相似度计算,实现了对原检索问句与预选问题库问题的高度准确匹配。最终,快速地检索出理想的精准结果,达到用户的检索要求。
(2)检索效率高:本***采用了高效的信息检索技术。实现快速提取候选问题集。具有较高的执行效率。本***利用快速的检索技术,将检索问句的关键词串作为索引词,建立容量较小的索引库;索引的构建采用倒排表结构,大大提供了检索效率。因此,检索模块能快速地提取预选问题集。提高了***的效率。
(3)查全率高:***能从概念层次上理解用户输入的中文问句,对问句中的关键词进行同义扩展,扩大了用户提交的检索问句的语义信息。来支持自然语言描述的问句的检索,使候选问题集更为准确。提高了选问题集的查全率。进而提高了问答***的查全率。保证用户得到正确的结果。
附图说明
图1是本发明基于概念的智能中文问答***的体系结构图。
图2是本发明基于概念的中文问答***的模块结构示意图。
图3是问题预处理模块的流程图。
图4是检索模块的流程图。
图5是候选问题集模块的流程图。
图6是句子相似度计算的流程图。
图7是显示模块的流程图。
具体实施方式
下面结合附图和实例对本发明作进一步详细的说明。
如图1所示,本发明提供的基于概念的智能中文问答***包括数据服务器100、输入模块200、问题预处理模块300、候选问题集提取模块400、问句相似度计算模块500和显示模块600。
数据服务器100用于存储语料库、索引库,XML文档和问题库,为问题预处理模块300提供知识和规则支持,为候选问题集提取模块400提供索引和检索对象。
输入模块200用于接收用户输入的问题,检查输入问句的规范性,保证能将正确格式的问句提交到问题预处理模块300。
问题预处理模块300用于接收输入模块200传递的问句,调用数据服务器100中的知识库和规则库对其进行预处理,包括中文分词,词性标注,关键词抽取等操作,并将处理后的结果分别传递给候选问题集模块400和问句相似度计算模块500。
候选问题集提取模块包括索引模块、检索模块和候选问题集模块。用于快速提取候选问题集(与检索问句相关的问句集),为问句相似度计算模块提供计算对象。
问句相似度计算模块500利用设计的基于概念的中文句子相似度计算算法,求解检索问句与候选问题集中问句的相似度,中文句子相似度计算通过对检索问句的关键词串进行同义扩展,利用扩展结果,调用词形相似度计算方法,再调用词序相似度计算方法和词长相似度计算方法,分别计算词形相似度、词序相似度、词长相似度。然后,将三项加权,计算问句最终的相似度。
显示模块600,根据问句相似度计算模块500的处理结果,将对应于问题库中的问题答案及相关信息,返回给提交检索问句的用户。
下面分别举例对数据服务器100、问题预处理模块300、预选问题集模块400和句子相似度计算模块500作进一步详细的说明。
如图2(基于概念的中文问答***的模块结构示意图)所示:
数据服务器100用于存储语料库包括知识库110和规则库120,及索引库130,XML文档140和问题库150。为问题预处理模块300提供知识和规则支持,同时,为索引模块410提供索引源,为候选问题集模块430提供检索对象。
语料库中存放的是以电子计算机为载体承载语言知识的基础资源。在语言的实际使用中真实出现过的语言材料经过加工(分析和处理)而得到的。
其中,知识库是概念同义扩展知识库,字典、词典知识库。规则库有词性规则库,句子成分规则库。
问题预处理模块300用于接收输入模块200传递的问句,调用知识库110、规则库120对其进行预处理,包括问句的中文分词,词性标注,关键词抽取等操作,并将处理后的结果分别传递给候选问题集模块400和问句相似度计算模块500。
如图3所示,问题预处理模块300先对用户的检索问题进行词法分析,包括问句的中文分词模块310和词性标注模块320。依据词性在句子中的重要程度规则(通常名词,动词,代词,形容词对句子最重要)及利用停用词表过滤停用词进行关键词抽取模块330。对抽取出的关键词再通过概念扩展知识库110(依据共享版《同义词词林》生成)进行扩展。利用预处理模块300,得到一组符合要求的中间处理结果;
问题预处理模块300处理流程为:(1)、输入问句;(2)、对问句进行格式检验:如果为格式不正确,返回(1);(3)、对问句进行处理,中文分词、词性标注;(4)、调用停用词表,利用句子成分重要程度规则,进行关键词抽取分析处理;(5)问句关键词抽取;(6)、输出关键词串。
中文分词模块310,该模块的分词采用最大逆向匹配方法。由词典知识库作为语料支撑。假设词典中的最长词条所含汉字个数为i,则取被处理文本当前字符串序列中的前i个字作为匹配字段,查找词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个字,剩下的字作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。
设词典中最长的词由MaxNum个字组成,句子长度为句子中单字的个数,设为Len。数组S[N-1]存放长度为N的句子,i,j,k,position为变量;wik表示S[i]到S[wik+i]组成一个分词单位;dik是wik所表示的分词单位的属性,如它在词典中的位置、词性等;函数match(S[i],S[i+j])判断字串S[i]~S[i+j]是否为字典中的词。
中文分词模块310的流程如下:1)输入句子,调用词典知识库,从句尾开始查词典匹配,如果匹配完毕,则转向3)。2)判断字串S[i],S[i+j]是否超出句子尾,是否为词典中的词,如果是,匹配字段作为一个词被切分出来;如果词典中找不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个字,剩下的字作为新的匹配字段,再进行匹配,返回1);3)输出分词结果。
词性标注模块320,结合中文分词模块310处理结果,调用词性规则库,对分出的词进行词性标注。根据句子中的上下文信息给句中每个词确定一个最为合适的词性标记。
流程如下:1)从分词结果中取词串Span:对词串中的每个词,查词性规则库,若查到,将该词所有词性标记取出,登记在数组Tags[i][j]中,i代表词的序号,j代表词性标记序号,将该词该标记的出现次数登记在Freqs[i][j]数组中;若未查到,将开放类词性标记赋给该词,登记在Tags[i][j]中,将Freqs[i][j]的值置为1。2)对词串中的每个词的每个可能的词性标记,(1)计算该标记的累计值;(2)记录该标记的最佳前驱标记。当词串中最后一个词的词性标记确定下来后,顺次取出各词的最佳前驱标记,即得到词性标注结果。将词串处理类数据重新初始化,准备下一个词串的标注。返回到1)。
关键词抽取模块330,依据词性在句子中的重要程度规则(通常名词,动词,代词,形容词对句子最重要)及利用停用词表过滤停用词进行关键词的抽取。令S为句子,w为S中任一词,S′为S中关键词序列。流程如下:1)从S中取一词w,然后查询停用词表,如果查找到词w转向2),如果词取完毕,转向4);2)调用句子成分规则库,判断w是否为名词、代词、动词或形容词,如果是,抽取w,读入下一词,转向3);4)由S中抽取的所有关键词组成关键词序列S′,返回S′。
候选问题集提取模块包括:索引模块410、检索模块420、候选问题集模块430。可以快速提取候选问题集,为问句相似度计算模块提高计算对象。
候选问句检索的目的是使后续的相似度计算等较复杂的过程都在候选问题集这个相对较小的范围内进行。要求高效检索。候选问题集就是从大规模问句集中快速取出的一个模糊相关、但相对较小的子集合,因此,该部分的功能可以通过信息检索技术予以实现。这样,一方面可以选择使用高效的检索技术,使检索效率高;另一方面,该模块的功能改进、升级容易,移植性好。
采用高效检索,快速定位问题库中相似的问题,为句子相似度计算模块500提供了问题库问题集,候选问题集提取模块400具有很重要的地位。
索引模块410用于对数据服务器100提供的问题库内容(XML存储)进行建索引库130,将XML中的关键词串项作为索引词,按索引词和文档相关信息建立索引库130。随着问题库150的更新,增量建索引,更新索引库130。
检索模块420,由问题库150导出数据,存储于XML文档140中,利用索引库130对XML文档140进行快速地检索。
如图4所示,检索模块420处理流程为:(1)、输入检索问题的关键词串,并将其作为检索词;(2)、调用索引库,进行检索;(3)、判断关键词串是否为空,若为空返回(1),不为空,进入(4);(4)、检索,返回与关键词串相关的问题的ID号;(5)、输出问题的ID号。
候选问题集模块430根据问题预处理模块300提供的中间处理结果,作为检索词串提交给检索模块420。调用检索模块420,对XML文档140进行检索,并解析XML文档140,得到对应的问题库150问题的ID编号。
如图5所示,该模块的处理流程:(1)、输入检索问题的ID号;(2)、查询问题库中对应的问题;(3)、判断是否存在问题ID对应的问句,如果不存在,返回(2);(4)输出问题集中问题对应的关键词串。
句子相似度计算模块500,计算检索问句与候选问题集中问句的相似度,直接影响了检索的结果。是本问答***的一个核心模块。
如图6所示,该模块主要利用设计的基于概念的中文句子相似度计算方法,求解检索问句与候选问题集中问句的相似度,中文句子相似度计算通过关键词串同义词扩展模块510扩展检索问句的关键词串,利用扩展结果,调用词形相似度计算模块530,再调用词序相似度计算模块520、词长相似度计算模块540,分别求出词形相似度、词序相似度、词长相似度。然后,调用句子相似度计算子模块550,将三项加权求得问句的相似度。
处理流程为:(1)、输入检索问题与预选问题集中的问题(由候选问题集模块400得到)的关键词串;(2)、调用概念扩展知识库,对检索问句关键词串进行同义概念扩展,计算词形相似度;(3)、计算两关键词串中相同词的个数,计算词长相似度;(4)、计算检索问句的关键词在候选问题集问题中相同关键词所对应的词序,计算词序相似度;(5)、将(2)、(3)、(4)的相似度计算结果,进行相似度加权,计算出问句相似度,并输出。
下面对句子相似度计算模块500的内部各模块作详细的说明。
如图2所示,句子相似度计算模块500包括关键词串的同义词扩展模块510、词形相似度计算模块530、词序相似度计算模块520、词长相似度计算模块540和句子相似度计算子模块550。
具体介绍各模块的功能、实现的步骤前,先介绍相关知识如下:
相关概念介绍:
(1)、定义1:词形相似度,反映两个句子形态上的相似程度,以两个句子中所含相同词或同义词的个数来衡量。设S1、S2为两个句子,则S1、S2的词形相似度为:
Simword(S1,S2)=    (1.1)
2*((λ1*SameWord(S1,S2)+λ2*SimWord(S1,S2))/(Len(S1)+Len(S2))
式中SameWord(S1,S2)为S1、S2中所含相同词的个数,SimWord(S1,S2)为S1、S2中所含同义词的个数,λ1,λ2分别代表SameWord(S1,S2)和SimWord(S1,S2)的重要程度。当一个单词在S1、S2中出现的次数不同时以出现次数少的计数;Len(S)为句子S中所含词的个数。意义:两个语句相同的词或同义词的个数越多,两个语句越相似;
(2)定义2:词序相似度,反映两个句子中所含相同词或同义词在位置关系上的相似程度,以两个句子中所含相同词或同义词的相邻顺序逆向的个数来衡量。设S1、S2为两个句子,OnceSameWord(S1,S2)为S1、S2中所含仅一次的相同词,OnceSimWord(S1,S2)为S1、S2中所含仅一次的同义词的集合,Pfirst(S1,S2)为OnceSameWord(S1,S2)和OnceSimWord(S1,S2)中的词在S1中的位置序号构成的向量,Psecond(S1,S2)为Pfirst(S1,S2)中的分量按对应词在S2中的次序排序生成的向量,RevOrd(S1,S2)为Psecond(S1,S2)各相邻分量的逆序数(跟标准列相反序数的总和),则S1、S2的词序相似度为:
Simord ( S 1 , S 2 ) = 1 - ( RevOrd ( S 1 , S 2 ) / ( | λ 1 * OnceSameWord ( S 1 , S 2 ) + λ 2 * OnceSimWord ( S 1 , S 2 ) | - 1 ) ) 1 | λ 1 * OnceSameWord ( S 1 , S 2 ) + λ 2 * OmceSimWord ( S 1 , S 2 ) | = 1 0 | λ 1 * OnceSameWord ( S 1 , S 2 ) + λ 2 * OnceSimWord ( S 1 , S 2 ) | = 0 - - - ( 1.2 )
这样定义词序相似度的优点是:当一个分句或词语整体发生长距离移动后,仍与原来的语句很相似。实现快捷,算法复杂度为O(m),其中m=|OnceWord(S 1,S2)|;
(3)定义3:语句长度相似度,Len(S1),Len(S2)分别表示语句S1和语句S2的长度,即两个语句中的词的个数。语句长度相似度SimLen(S1,S2)由公式(1.3)决定:
Simlen(S1,S2)=1-abs(Len(S1)-Len(S2))/Len(S1)+Len(S2)    (1.3)
容易得出:SimLen(S1,S2)∈[0,1]意义:两个语句的长度越接近,两个语句越相似。例:中Len(S1)=11,Len(S2)=8,则SimLen(S1,S2)≈0.84;
(4)定义4:句子相似度,反映两个句子之间的相似程度。通常为一个0~1之间的数值,0表示不相似,1表示完全相似,数值越大表示两句越相似。语句X,Y的最终相似度Sim(S1,S2)由公式(1.4)决定:
Sim(S1,S2)=λ1*Simword(S1,S2)+λ2*Simorder(S1,S2)    (1.4)
3*Simlen(S1,S2)
其中,λ1,λ2,λ3常数,且满足λ1+λ2+λ3=1,显然Sim(S1,S2)∈[0,1]。在语句相似度中我们应该能够理解词形相似度起着主要作用,语句长度相似度和词序相似度起着次要的作用,因此λ1,λ2,λ3取值时应该有λ1>>λ2,λ3。式中WordSim(S1,S2)为S1,S2的词形相似度;OrderSim(S1,S2)为S1,S2词序相似度;OrderSim(S1,S2)为S1,S2的句长相似度。通过实验,取λ1=0.9,λ2=0.05,λ3=0.05。
关键词串的同义词扩展模块510、词形相似度计算模块530、词序相似度计算模块520和词长相似度计算模块540的功能、实现的步骤:
关键词串的同义词扩展模块510,主要是对输入的关键词串进行同义扩展。具体实现步骤如下:1)输入检索问句的关键词串keywords1;输入候选问题集问句的关键词串keywords2;2)调用概念扩展知识库,对keywords1进行同义概念扩展,keywords1扩展的结果存入字符串extendkeywords中,完成同义扩展。
词形相似度计算模块530,主要是计算两个句子的词形相似度,反映两个句子形态上的相似程度,以两个句子中所含相同词或同义词的个数来衡量。具体实现步骤如下:1)由关键词串的同义词扩展模块510传递过来检索问句的关键词串keywords1,候选问题集问句的关键词串keywords2及keywords1扩展的字符串extendkeywords;2)计算keywords1中的关键词个数wordsNum1;计算keywords2中的关键词个数wordsNum2;3)计算extendkeywords与keywords2中相同关键词的个数samenum;4)带入公式:2.0*samenum/(wordsNum1+wordsNum2),计算出词形相似度simword;
词序相似度计算模块520,主要是计算两个句子的词序相似度,反映两个句子中所含相同词或同义词在位置关系上的相似程度,以两个句子中所含相同词或同义词的相邻顺序逆向的个数来衡量。具体实现步骤如下:1)由关键词串的同义词扩展模块510传递过来检索问句的关键词串keywords1,候选问题集问句的关键词串keywords2;2)计算keywords1与keywords2中所含不重复的相同关键词,存入数组oncesimwords;3)计算Pfirst(keywords1,keywords2),为oncesimwords中的词在keywords1中的位置序号构成的向量,4)计算Psecond(keywords1,keywords2),为Pfirst(keywords1,keywords2)中的分量按对应词在keywords2中的次序排序生成的向量;5)计算revord,为Psecond(keywords1,keywords2)各相邻分量的逆序数(跟标准列相反序数的总和);6)带入公式:1-1.0*revord/(samenum-1),计算出词序相似度simorder;
词长相似度计算模块540,主要是计算两个句子的词长相似度,反映两个句子中所含词的数目的相似程度。以两个句子中所含词的个数比较来衡量。具体实现步骤如下:1)由关键词串的同义词扩展模块510传递检索问句的关键词串keywords1,候选问题集问句的关键词串keywords2;2)计算keywords1中的关键词个数,设为整型变量wordsNum1;计算keywords2中的关键词个数,设为整型变量wordsNum2;3)计算keywords1,keywords2中关键词个数之差distince;4)带入公式:1.0-1.0*simorder/(wordsNum1+wordsNum2),计算出词长相似度simlen;
句子相似度计算子模块550,根据词形相似度、词序相似度和词长相似度对句子相似度的重要程度,词形相似度跟句子的语义最相关,重要程度最高。通过实验测试,获得较好的重要程度系数。对求出词形相似度、词序相似度、词长相似度按重要程度系数加权求得问句的相似度。具体实现步骤如下:1)分别由词形相似度计算模块530、词序相似度计算模块520和词长相似度计算模块540传递词形相似度、词序相似度、词长相似度;2)带入公式:λ1*simword+λ2*simorder+λ3*simlen,计算得到句子相似度similary;3)输出句子相似度similary。

Claims (7)

1、一种基于概念的智能中文问答***,包括数据服务器(100)、输入模块(200)、显示模块(600),其特征在于:它还包括问题预处理模块(300)、候选问题集提取模块(400)、问句相似度计算模块(500);
数据服务器(100)用于存储语料库、索引库,XML文档和问题库;
输入模块(200)用于接收用户输入的问题,检查输入问句的规范性,将正确格式的问句提交到问题预处理模块(300);
问题预处理模块(300)用于接收输入模块(200)传递的问句,调用数据服务器(100)中的知识库和规则库对其进行预处理,并将处理后的结果分别传递给候选问题集模块(400)和问句相似度计算模块(500);
候选问题集提取模块(400)用于从问题预处理模块(300)提供的预处理结果中快速提取候选问题集,为问句相似度计算模块(500)提供计算对象;
问句相似度计算模块(500)用于求解检索问句与候选问题集中问句的相似度,中文句子相似度计算通过对检索问句的关键词串进行同义扩展,利用扩展结果,调用词形相似度计算方法,再调用词序相似度计算方法和词长相似度计算方法,分别计算词形相似度、词序相似度、词长相似度;然后,将三项加权,计算问句最终的相似度;
显示模块(600)根据问句相似度计算模块(500)的处理结果,将对应于问题库中的问题答案及相关信息,返回给提交检索问句的用户。
2、根据权利要求1所述的基于概念的智能中文问答***,其特征在于:问题预处理模块(300)包括中文分词模块(310)、词性标注模块(320)和关键词抽取模块(330);
中文分词模块(310)采用最大逆向匹配方法,以词典知识库作为语料支撑,将被处理文本与词典中的词条进行匹配,得到中文分词;
词性标注模块(320)根据结合中文分词模块(310)处理结果,调用词性规则库,对分出的词进行词性标注;根据句子中的上下文信息给句中每个词确定一个最为合适的词性标记;
关键词抽取模块(330)依据词性在句子中的重要程度规则及利用停用词表过滤停用词进行关键词的抽取,得到关键词串。
3、根据权利要求1所述的基于概念的智能中文问答***,其特征在于:候选问题集提取模块(400)包括索引模块(410)、检索模块(420)、候选问题集模块(430);
索引模块(410)用于对数据服务器(100)提供的问题库内容进行建索引库和更新;
检索模块(420)利用索引库130对XML文档进行快速地检索;
候选问题集模块(430)根据问题预处理模块(300)提供的中间处理结果,作为检索词串提交给检索模块(420);调用检索模块(420),对XML文档进行检索,并解析XML文档,得到对应的问题库问题的ID编号。
4、根据权利要求1、2或3所述的基于概念的智能中文问答***,其特征在于:句子相似度计算模块(500)包括关键词串的同义词扩展模块(510)、词序相似度计算模块(520)、词形相似度计算模块(530)、词长相似度计算模块(540)和句子相似度计算子模块(550);
关键词串的同义词扩展模块(510)用于对输入的关键词串进行同义扩展,并传送给词形相似度计算模块(530);
词形相似度计算模块(530)对接收的扩展后的关键词串进行词形相似度计算,并根据两个句子中所含相同词或同义词的个数,得到两个句子形态上的相似程度,并传送给句子相似度计算子模块(550);
词序相似度计算模块(520)接收问题预处理模块(300)提供的关键词串,根据两个句子中所含相同词或同义词在位置关系上的相似程度,以及两个句子中所含相同词或同义词的相邻顺序逆向的个数,计算两个句子的词序相似度,并传送给句子相似度计算子模块(550);
词长相似度计算模块(540)接收问题预处理模块(300)提供的关键词串,根据两个句子中所含词的数目的相似程度,以及两个句子中所含词的个数,计算两个句子的词长相似度,并传送给句子相似度计算子模块(550);
句子相似度计算子模块(550)根据得到的词形相似度、词序相似度、词长相似度进行加权计算,得到问句的相似度。
5、根据权利要求4所述的基于概念的智能中文问答***,其特征在于:词序相似度计算模块(520)按照下式计算词序相似度Simord:
Simord ( S 1 , S 2 ) = 1 - ( RevOrd ( S 1 , S 2 ) / ( | λ 1 * OnceSameWord ( S 1 , S 2 ) + λ 2 * OnceSimWord ( S 1 , S 2 ) | - 1 ) ) 1 | λ 1 * OnceSameWord ( S 1 , S 2 ) + λ 2 * OmceSimWord ( S 1 , S 2 ) | = 1 0 | λ 1 * OnceSameWord ( S 1 , S 2 ) + λ 2 * OnceSimWord ( S 1 , S 2 ) | = 0
式中,S1、S2为两个句子,OnceSameWord(S1,S2)为S1、S2中所含仅一次的相同词,OnceSimWord(S1,S2)为S1、S2中所含仅一次的同义词的集合,Pfirst(S 1,S2)为OnceSameWord(S1,S2)和OnceSimWord(S1,S2)中的词在S1中的位置序号构成的向量,Psecond(S1,S2)为Pfirst(S1,S2)中的分量按对应词在S2中的次序排序生成的向量,RevOrd(S1,S2)为Psecond(S1,S2)各相邻分量的逆序数。
6、根据权利要求4所述的基于概念的智能中文问答***,其特征在于:词形相似度计算模块(530)按照下式计算词形相似度Simword:
Simword(S1,S2)=
2*((λ1*SameWord(S1,S2)+λ2*SimWord(S1,S2))/(Len(S1)+Len(S2))
式中,S1、S2为两个句子,SameWord(S1,S2)为S1、S2中所含相同词的个数,SimWord(S1,S2)为S1、S2中所含同义词的个数,λ1,λ2分别代表SameWord(S1,S2)和SimWord(S1,S2)的重要程度。
7、根据权利要求4所述的基于概念的智能中文问答***,其特征在于:词长相似度计算模块(540)按照下式计算语句长度相似度SimLen:
Simlen(S1,S2)=1-abs(Len(S1)-Len(S2))/Len(S1)+Len(S2)
Len(S1)、Len(S2)分别表示语句S1和语句S2的长度,abs表示取绝对值。
CN2008100478554A 2008-05-28 2008-05-28 一种基于概念的智能中文问答*** Expired - Fee Related CN101286161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100478554A CN101286161B (zh) 2008-05-28 2008-05-28 一种基于概念的智能中文问答***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100478554A CN101286161B (zh) 2008-05-28 2008-05-28 一种基于概念的智能中文问答***

Publications (2)

Publication Number Publication Date
CN101286161A true CN101286161A (zh) 2008-10-15
CN101286161B CN101286161B (zh) 2010-10-06

Family

ID=40058372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100478554A Expired - Fee Related CN101286161B (zh) 2008-05-28 2008-05-28 一种基于概念的智能中文问答***

Country Status (1)

Country Link
CN (1) CN101286161B (zh)

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156726A (zh) * 2011-04-01 2011-08-17 中国测绘科学研究院 基于语义相似度的地理要素查询扩展方法
CN101566998B (zh) * 2009-05-26 2011-12-28 华中师范大学 一种基于神经网络的中文问答***
CN102855285A (zh) * 2012-08-07 2013-01-02 网讯电通股份有限公司 用于咨询服务***的关键字管理***及其方法
CN103116577A (zh) * 2013-02-04 2013-05-22 刘东民 一种智能处理用户自然语言命令的方法
CN103279522A (zh) * 2013-05-29 2013-09-04 苏州市米想网络信息技术有限公司 一种辅助提高软件
CN103425635A (zh) * 2012-05-15 2013-12-04 北京百度网讯科技有限公司 一种答案推荐方法和装置
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103577556A (zh) * 2013-10-21 2014-02-12 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
CN103577558A (zh) * 2013-10-21 2014-02-12 北京奇虎科技有限公司 一种优化问答对的搜索排名的装置和方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104077330A (zh) * 2013-03-30 2014-10-01 百度在线网络技术(北京)有限公司 挂载问题到主题的方法和***
CN104123322A (zh) * 2013-04-28 2014-10-29 百度在线网络技术(北京)有限公司 基于同义处理获取与输入问题对应的相关问题的方法、设备
CN104216968A (zh) * 2014-08-25 2014-12-17 华中科技大学 一种基于文件相似度的排重方法及***
CN104331523A (zh) * 2014-11-27 2015-02-04 韩慧健 一种基于概念对象模型的问句检索方法
CN104462060A (zh) * 2014-12-03 2015-03-25 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN104462085A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN104469028A (zh) * 2013-09-24 2015-03-25 ***通信集团江苏有限公司 一种服务提供方法、会话服务器及客服***
CN104462064A (zh) * 2014-12-15 2015-03-25 陈包容 一种移动终端信息通讯提示输入内容的方法和***
CN104536991A (zh) * 2014-12-10 2015-04-22 乐娟 答案抽取方法及装置
WO2015062340A1 (zh) * 2013-10-29 2015-05-07 谭永 一种兼容关键词搜索的自然语言搜索方法及***
CN104657346A (zh) * 2015-01-15 2015-05-27 深圳市前海安测信息技术有限公司 智能交互***中的问题匹配方法和***
CN104679910A (zh) * 2015-03-25 2015-06-03 北京智齿博创科技有限公司 智能应答方法及***
CN105069070A (zh) * 2015-07-30 2015-11-18 武汉博楷管理咨询有限公司 一种客户网上咨询的管理***及其方法
CN105117388A (zh) * 2015-09-21 2015-12-02 上海智臻智能网络科技股份有限公司 一种智能机器人交互***
CN105354185A (zh) * 2015-10-30 2016-02-24 上海智臻智能网络科技股份有限公司 用于问答***挖掘关联问句的方法及装置
CN105740310A (zh) * 2015-12-21 2016-07-06 哈尔滨工业大学 一种用于问答***中的自动答案摘要方法及***
CN103455535B (zh) * 2013-05-08 2016-11-30 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN106372055A (zh) * 2016-08-23 2017-02-01 北京谛听机器人科技有限公司 一种人机自然语言交互中的语义相似处理方法及***
CN106471502A (zh) * 2016-06-29 2017-03-01 深圳狗尾草智能科技有限公司 基于导流的意图识别方法和***
CN106991181A (zh) * 2017-04-07 2017-07-28 广州视源电子科技股份有限公司 口语化语句提取的方法及装置
CN107133299A (zh) * 2017-04-26 2017-09-05 消检通(深圳)科技有限公司 基于人工智能的消防应答方法、移动终端及可读存储介质
CN107273350A (zh) * 2017-05-16 2017-10-20 广东电网有限责任公司江门供电局 一种实现智能问答的信息处理方法及其装置
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
CN107436916A (zh) * 2017-06-15 2017-12-05 百度在线网络技术(北京)有限公司 智能提示答案的方法及装置
CN107463699A (zh) * 2017-08-15 2017-12-12 济南浪潮高新科技投资发展有限公司 一种基于seq2seq模型的实现问答机器人的方法
CN107491425A (zh) * 2017-07-26 2017-12-19 合肥美的智能科技有限公司 确定方法、确定装置、计算机装置和计算机可读存储介质
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答***及该***的实现方法
CN108170780A (zh) * 2017-12-26 2018-06-15 北京邦邦共赢网络科技有限公司 一种自助问答的问题匹配方法及装置
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108628906A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN108763356A (zh) * 2018-05-16 2018-11-06 深圳市三宝创新智能有限公司 一种基于相似句搜索的智能机器人闲聊***及方法
CN108885640A (zh) * 2016-03-29 2018-11-23 微软技术许可有限责任公司 生成服务应用
CN108959360A (zh) * 2018-05-17 2018-12-07 合肥利元杰信息科技有限公司 一种技术开发技术支持问答***
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及***
CN109313649A (zh) * 2017-03-24 2019-02-05 微软技术许可有限责任公司 用于聊天机器人的基于语音的知识共享应用
CN109344236A (zh) * 2018-09-07 2019-02-15 暨南大学 一种基于多种特征的问题相似度计算方法
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答***及其工作方法
CN110046244A (zh) * 2019-04-24 2019-07-23 中国人民解放军国防科技大学 一种用于问答***的答案选择方法
CN110088748A (zh) * 2019-03-19 2019-08-02 京东方科技集团股份有限公司 问题生成方法和装置、问诊***、计算机可读存储介质
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN110489475A (zh) * 2019-08-14 2019-11-22 广东电网有限责任公司 一种多源异构数据处理方法、***及相关装置
CN111813902A (zh) * 2020-05-21 2020-10-23 车智互联(北京)科技有限公司 智能应答方法、***及计算设备
CN111984763A (zh) * 2020-08-28 2020-11-24 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备
CN112149428A (zh) * 2020-10-12 2020-12-29 珍岛信息技术(上海)股份有限公司 基于语义分析和深度学习的智能写作辅助***
CN112507198A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 用于处理查询文本的方法、装置、设备、介质和程序
CN112749265A (zh) * 2021-01-08 2021-05-04 哈尔滨工业大学 一种基于多信息源的智能问答***
US11076007B2 (en) 2016-03-28 2021-07-27 Microsoft Technology Licensing, Llc Multi-modal conversational intercom
CN114817512A (zh) * 2022-06-28 2022-07-29 清华大学 问答推理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
CN1821991B (zh) * 2005-02-18 2010-04-28 上海赢思软件技术有限公司 一种基于人工智能的知识问答快速处理***
CN100578539C (zh) * 2006-02-28 2010-01-06 腾讯科技(深圳)有限公司 自动问答方法及***
CN101097573B (zh) * 2006-06-28 2010-06-09 腾讯科技(深圳)有限公司 一种自动问答***及方法
CN100416570C (zh) * 2006-09-22 2008-09-03 浙江大学 一种基于问答库的中文自然语言问答方法

Cited By (84)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101566998B (zh) * 2009-05-26 2011-12-28 华中师范大学 一种基于神经网络的中文问答***
CN102156726B (zh) * 2011-04-01 2013-12-25 中国测绘科学研究院 基于语义相似度的地理要素查询扩展方法
CN102156726A (zh) * 2011-04-01 2011-08-17 中国测绘科学研究院 基于语义相似度的地理要素查询扩展方法
CN103425635B (zh) * 2012-05-15 2018-02-02 北京百度网讯科技有限公司 一种答案推荐方法和装置
CN103425635A (zh) * 2012-05-15 2013-12-04 北京百度网讯科技有限公司 一种答案推荐方法和装置
CN102855285A (zh) * 2012-08-07 2013-01-02 网讯电通股份有限公司 用于咨询服务***的关键字管理***及其方法
CN103116577A (zh) * 2013-02-04 2013-05-22 刘东民 一种智能处理用户自然语言命令的方法
CN104077330A (zh) * 2013-03-30 2014-10-01 百度在线网络技术(北京)有限公司 挂载问题到主题的方法和***
CN104123322A (zh) * 2013-04-28 2014-10-29 百度在线网络技术(北京)有限公司 基于同义处理获取与输入问题对应的相关问题的方法、设备
CN103455535A (zh) * 2013-05-08 2013-12-18 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103455535B (zh) * 2013-05-08 2016-11-30 深圳市明唐通信有限公司 基于历史咨询数据构建知识库的方法
CN103279522A (zh) * 2013-05-29 2013-09-04 苏州市米想网络信息技术有限公司 一种辅助提高软件
CN104462085A (zh) * 2013-09-12 2015-03-25 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN104462085B (zh) * 2013-09-12 2019-04-12 腾讯科技(深圳)有限公司 检索关键词纠错方法及装置
CN104469028A (zh) * 2013-09-24 2015-03-25 ***通信集团江苏有限公司 一种服务提供方法、会话服务器及客服***
CN103577558A (zh) * 2013-10-21 2014-02-12 北京奇虎科技有限公司 一种优化问答对的搜索排名的装置和方法
CN103577556A (zh) * 2013-10-21 2014-02-12 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
CN103577558B (zh) * 2013-10-21 2017-04-26 北京奇虎科技有限公司 一种优化问答对的搜索排名的装置和方法
CN103577556B (zh) * 2013-10-21 2017-01-18 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
WO2015062340A1 (zh) * 2013-10-29 2015-05-07 谭永 一种兼容关键词搜索的自然语言搜索方法及***
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104216968A (zh) * 2014-08-25 2014-12-17 华中科技大学 一种基于文件相似度的排重方法及***
CN104331523A (zh) * 2014-11-27 2015-02-04 韩慧健 一种基于概念对象模型的问句检索方法
CN104331523B (zh) * 2014-11-27 2017-07-28 韩慧健 一种基于概念对象模型的问句检索方法
CN104462060B (zh) * 2014-12-03 2017-08-01 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN104462060A (zh) * 2014-12-03 2015-03-25 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN104536991A (zh) * 2014-12-10 2015-04-22 乐娟 答案抽取方法及装置
CN104536991B (zh) * 2014-12-10 2017-12-08 乐娟 答案抽取方法及装置
CN104462064A (zh) * 2014-12-15 2015-03-25 陈包容 一种移动终端信息通讯提示输入内容的方法和***
CN104462064B (zh) * 2014-12-15 2017-11-03 陈包容 一种移动终端信息通讯提示输入内容的方法和***
CN104657346A (zh) * 2015-01-15 2015-05-27 深圳市前海安测信息技术有限公司 智能交互***中的问题匹配方法和***
WO2016112558A1 (zh) * 2015-01-15 2016-07-21 深圳市前海安测信息技术有限公司 智能交互***中的问题匹配方法和***
CN104679910A (zh) * 2015-03-25 2015-06-03 北京智齿博创科技有限公司 智能应答方法及***
CN105069070A (zh) * 2015-07-30 2015-11-18 武汉博楷管理咨询有限公司 一种客户网上咨询的管理***及其方法
CN105117388A (zh) * 2015-09-21 2015-12-02 上海智臻智能网络科技股份有限公司 一种智能机器人交互***
CN105354185A (zh) * 2015-10-30 2016-02-24 上海智臻智能网络科技股份有限公司 用于问答***挖掘关联问句的方法及装置
CN105740310B (zh) * 2015-12-21 2019-08-02 哈尔滨工业大学 一种用于问答***中的自动答案摘要方法及***
CN105740310A (zh) * 2015-12-21 2016-07-06 哈尔滨工业大学 一种用于问答***中的自动答案摘要方法及***
US11076007B2 (en) 2016-03-28 2021-07-27 Microsoft Technology Licensing, Llc Multi-modal conversational intercom
CN108885640A (zh) * 2016-03-29 2018-11-23 微软技术许可有限责任公司 生成服务应用
US11487512B2 (en) 2016-03-29 2022-11-01 Microsoft Technology Licensing, Llc Generating a services application
WO2018000279A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 基于导流的意图识别方法和***
CN106471502A (zh) * 2016-06-29 2017-03-01 深圳狗尾草智能科技有限公司 基于导流的意图识别方法和***
CN106372055B (zh) * 2016-08-23 2019-10-29 北京谛听机器人科技有限公司 一种人机自然语言交互中的语义相似处理方法及***
CN106372055A (zh) * 2016-08-23 2017-02-01 北京谛听机器人科技有限公司 一种人机自然语言交互中的语义相似处理方法及***
CN108628906A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
US11341174B2 (en) 2017-03-24 2022-05-24 Microsoft Technology Licensing, Llc Voice-based knowledge sharing application for chatbots
CN109313649A (zh) * 2017-03-24 2019-02-05 微软技术许可有限责任公司 用于聊天机器人的基于语音的知识共享应用
CN106991181B (zh) * 2017-04-07 2020-04-21 广州视源电子科技股份有限公司 口语化语句提取的方法及装置
CN106991181A (zh) * 2017-04-07 2017-07-28 广州视源电子科技股份有限公司 口语化语句提取的方法及装置
CN107133299B (zh) * 2017-04-26 2019-11-19 消检通(深圳)科技有限公司 基于人工智能的消防应答方法、移动终端及可读存储介质
CN107133299A (zh) * 2017-04-26 2017-09-05 消检通(深圳)科技有限公司 基于人工智能的消防应答方法、移动终端及可读存储介质
CN107273350A (zh) * 2017-05-16 2017-10-20 广东电网有限责任公司江门供电局 一种实现智能问答的信息处理方法及其装置
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
CN107436916A (zh) * 2017-06-15 2017-12-05 百度在线网络技术(北京)有限公司 智能提示答案的方法及装置
WO2018227930A1 (zh) * 2017-06-15 2018-12-20 百度在线网络技术(北京)有限公司 智能提示答案的方法及装置
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及***
CN107491425A (zh) * 2017-07-26 2017-12-19 合肥美的智能科技有限公司 确定方法、确定装置、计算机装置和计算机可读存储介质
CN107463699A (zh) * 2017-08-15 2017-12-12 济南浪潮高新科技投资发展有限公司 一种基于seq2seq模型的实现问答机器人的方法
CN107679039A (zh) * 2017-10-17 2018-02-09 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN107679039B (zh) * 2017-10-17 2020-12-29 北京百度网讯科技有限公司 用于确定语句意图的方法和装置
CN108170780A (zh) * 2017-12-26 2018-06-15 北京邦邦共赢网络科技有限公司 一种自助问答的问题匹配方法及装置
CN108108449A (zh) * 2017-12-27 2018-06-01 哈尔滨福满科技有限责任公司 一种面向医疗领域的基于多源异构数据问答***及该***的实现方法
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108763356A (zh) * 2018-05-16 2018-11-06 深圳市三宝创新智能有限公司 一种基于相似句搜索的智能机器人闲聊***及方法
CN108959360A (zh) * 2018-05-17 2018-12-07 合肥利元杰信息科技有限公司 一种技术开发技术支持问答***
CN109344236B (zh) * 2018-09-07 2020-09-04 暨南大学 一种基于多种特征的问题相似度计算方法
CN109344236A (zh) * 2018-09-07 2019-02-15 暨南大学 一种基于多种特征的问题相似度计算方法
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答***及其工作方法
CN110088748B (zh) * 2019-03-19 2023-11-14 京东方科技集团股份有限公司 问题生成方法和装置、问诊***、计算机可读存储介质
CN110088748A (zh) * 2019-03-19 2019-08-02 京东方科技集团股份有限公司 问题生成方法和装置、问诊***、计算机可读存储介质
US11600389B2 (en) 2019-03-19 2023-03-07 Boe Technology Group Co., Ltd. Question generating method and apparatus, inquiring diagnosis system, and computer readable storage medium
CN110046244A (zh) * 2019-04-24 2019-07-23 中国人民解放军国防科技大学 一种用于问答***的答案选择方法
CN110046244B (zh) * 2019-04-24 2021-06-08 中国人民解放军国防科技大学 一种用于问答***的答案选择方法
CN110245219A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 一种基于自动扩展问答数据库的问答方法及设备
CN110489475A (zh) * 2019-08-14 2019-11-22 广东电网有限责任公司 一种多源异构数据处理方法、***及相关装置
CN111813902A (zh) * 2020-05-21 2020-10-23 车智互联(北京)科技有限公司 智能应答方法、***及计算设备
CN111813902B (zh) * 2020-05-21 2024-02-23 车智互联(北京)科技有限公司 智能应答方法、***及计算设备
CN111984763B (zh) * 2020-08-28 2023-09-19 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备
CN111984763A (zh) * 2020-08-28 2020-11-24 海信电子科技(武汉)有限公司 一种答问处理方法及智能设备
CN112149428A (zh) * 2020-10-12 2020-12-29 珍岛信息技术(上海)股份有限公司 基于语义分析和深度学习的智能写作辅助***
CN112507198A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 用于处理查询文本的方法、装置、设备、介质和程序
CN112749265A (zh) * 2021-01-08 2021-05-04 哈尔滨工业大学 一种基于多信息源的智能问答***
CN114817512A (zh) * 2022-06-28 2022-07-29 清华大学 问答推理方法及装置

Also Published As

Publication number Publication date
CN101286161B (zh) 2010-10-06

Similar Documents

Publication Publication Date Title
CN101286161B (zh) 一种基于概念的智能中文问答***
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN104331449B (zh) 查询语句与网页相似度的确定方法、装置、终端及服务器
CN100416570C (zh) 一种基于问答库的中文自然语言问答方法
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN101398814A (zh) 一种同时抽取文档摘要和关键词的方法及***
CN101539907A (zh) 词性标注模型训练装置、词性标注***及其方法
CN103150381B (zh) 一种高精度汉语谓词识别方法
CN104484380A (zh) 个性化搜索方法及装置
CN109447266A (zh) 一种基于大数据的农业科技服务智能分拣方法
CN113239148B (zh) 基于机器阅读理解的科技资源检索方法
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及***
CN106407113A (zh) 一种基于Stack Overflow和commit库的bug定位方法
Wang et al. Neural related work summarization with a joint context-driven attention mechanism
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN114090861A (zh) 一种基于知识图谱的教育领域搜索引擎构建方法
CN113946686A (zh) 电力营销知识图谱构建方法及***
Li et al. The mixture of TextRank and LexRank techniques of single document automatic summarization research in Tibetan
Piryani et al. Sentiment analysis in Nepali: exploring machine learning and lexicon-based approaches
CN111428031A (zh) 一种融合浅层语义信息的图模型过滤方法
Mohnot et al. Hybrid approach for Part of Speech Tagger for Hindi language
Zhang et al. An approach for named entity disambiguation with knowledge graph
CN116108175A (zh) 基于语义解析和数据构造的语言转化方法及***
CN115617965A (zh) 一种语言结构大数据的快速检索方法
CN114580557A (zh) 基于语义分析的文献相似度确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101006

Termination date: 20140528