CN101373532A - 旅游领域faq中文问答***实现方法 - Google Patents

旅游领域faq中文问答***实现方法 Download PDF

Info

Publication number
CN101373532A
CN101373532A CNA200810058660XA CN200810058660A CN101373532A CN 101373532 A CN101373532 A CN 101373532A CN A200810058660X A CNA200810058660X A CN A200810058660XA CN 200810058660 A CN200810058660 A CN 200810058660A CN 101373532 A CN101373532 A CN 101373532A
Authority
CN
China
Prior art keywords
question
field
faq
sentence
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200810058660XA
Other languages
English (en)
Inventor
余正涛
毛存礼
韩露
孟祥燕
郭剑毅
车文刚
张志坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CNA200810058660XA priority Critical patent/CN101373532A/zh
Publication of CN101373532A publication Critical patent/CN101373532A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种旅游领域FAQ中文问答***实现方法,包括FAQ收集与组织、旅游领域知识库构建、用户查询、问题分析、答案提取等步骤,使旅游领域常问问题FAQ中文问答***能够实现。本发明借助于本体论的思想,构建了旅游领域知识库-领域知网,利用KDML语言定义和描述了旅游领域术语与关系,并实现了“旅游领域知网”与常识库“知网”的融合。在此基础上,提出了一种旅游问句相似度的计算方法,该方法借助旅游领域问句所具有的特点,结合问句中的词法关系、句法依存关系及领域概念语义关系,实现问句相似度计算,并以相似度计算为基础,从候选问题集中检索相关问句,提取问题答案。云南旅游FAQ问答***测试结果表明该方法可行,有较好的效果。

Description

旅游领域FAQ中文问答***实现方法
技术领域
本发明涉及一种旅游领域FAQ中文问答***实现方法,尤其是一种基于旅游领域常问问题库(FAQ)的问答***实现方法,属于人工智能领域。
背景技术
常问问题FAQ(Frequently-asked Question)是当前网络上提供在线帮助的主要手段,通过事先组织好一些可能的常问问答对,发布在网页上为用户提供咨询服务。FAQ知识组织简单、维护方便,但是,随着常问问题集的逐渐积累,问题数量日益增多,逐页浏览式的知识获取途径将越来越难于满足用户的实际需求,将会浪费用户大量的宝贵时间,甚至当用户访问了所有链接时才发现根本没有自己真正需要的信息,耗时费力。
发明内容
本发明的目的正是为解决上述问题而提供一种旅游领域FAQ中文问答***实现方法,以高效,快速、准确地为用户提供咨询服务。
本发明通过下列技术方案完成:一种旅游领域FAQ中文问答***实现方法,其特征在于包括:
(1)FAQ收集与组织:结合人工或半自动方式从互联网上提取旅游问答对,并整理进入旅游问答库,形成旅游FAQ库;
(2)旅游领域知识库构建:构建并维护旅游领域知识结构及关系,形成旅游领域知识库;
(3)用户查询:在互联网上,用户通过自然语言问题进行旅游信息查询;
(4)问题分析:对用户输入的问题进行分析,提取表征问题的关键词、扩展词、句法依存对、问题类型等信息;
(5)答案提取:根据问题分析结果,从常问问题库(FAQ)中提检索侯选问题,采用领域问题相似度计算方法,计算用户问题与侯选问题相似度,提取相似度最大的问题答案作为侯选答案,并提供给用户,返回最终用户查询答案;用户可以提供面向文本的自然语言问题,***直接返回答案,而不是和问题相关的大量网页。
所述步骤(1)FAQ收集与组织方法具体为:第一种通过网络爬虫从互联网上自动爬取,并通过人工筛选进入FAQ库;第二种是通过人工收集与整理获得,针对旅游领域,专门收集地方、景点、风土人情、酒店等相关介绍、门票、交通等相关问题,分类整理和组织FAQ问答对并进入FAQ库;第三种则是由***自动记录用户输入但在问句库中不存在的新问句,并把这类问句统一保存到问答历史库中,定期由人工审核整理,把对应的答案和问句一起入FAQ库。
所述FAQ的问答对的存储通过建立问题(question)和答案(answer)两个关系表,分别通过主键(Questionid,Answerid)进行答案索引;问题表的存储,为了便于快速检索,采用倒排索引方式进行存储,建立词与问句之间的倒排索引文档,候选问题集的选择从索引文档中提取,而最终答案则根据问题表中存放的答案answerid从数据库中直接输出。
所述步骤(2)主要利用了本体论的思想,借助现有的中科院院语言信息中心董振东先生的“知网”进行领域术语的扩展。
所述步骤(2)具体为:借助本体论的思想对云南旅游领域资源的概念进行精确描述,以“知网”为基础,采用“知网”的概念描述语言KDML规则,建立了专门的云南旅游领域本体,形成云南旅游领域资源本体库领域知网体系,并实现了云南旅游知识库“领域知网”与常识知识库“知网”的融合。目前共对云南旅游景点介绍、风土民情、旅游交通等旅游相关2012个概念进行了定义和描述,形成了云南旅游领域“知网”。
因为相对于开放域来说,受限域具有一定的领域知识特点,借助于领域知识关系能够降低自然语言处理的难度。本体论(Ontology)是一种对概念的精确描述,特别是对领域概念的描述,是一种很好的领域知识表示方式。本体通过对概念、术语及其相互关系的规范化描述,勾画出某一特定领域的基本知识体系结构。“知网”HowNet是一部通用常识资源,其描述了汉语和英语的词语所代表的概念,揭示概念与概念之间以及概念所具有的属性和属性之间的关系。借助本体论的思想对旅游领域资源的概念进行精确描述,以“知网”为基础,采用“知网”的概念描述语言KDML规则,建立了专门的旅游领域本体,形成旅游领域资源本体库领域知网体系,并实现了旅游知识库“领域知网”与常识知识库“知网”的融合。目前共对云南旅游景点介绍、风土民情、宾馆酒店、旅游交通等旅游相关2012个概念进行了定义和描述,形成旅游领域知识库。
所述步骤(3)具体为:用户可以通过互联网进行相关旅游领域问题查询,采用自然语言方式进行查询,并直接得到问题的答案。
所述步骤(4)具体为:通过问句分析模块对用户输入的问题进行分析,主要包括词法分析、句法分析及语义分析,词法分析主要对问题进行分词,过滤停用词,提取查询核心词及借助“知网”进行关键词扩展;句法分析主要对提取问句的核心词干,借助哈工大句法分析器,提取问句句法依存对;语义分析主要分析问句语义信息,根据旅游领域特点,定义并提取旅游领域问题类型特征句模规则,并通过规则匹配方式实现问句类型的识别,具体是:
A、问题关键词、扩展词提取:
问题关键词和扩展词是表征问题的基本要素,也是候选问题集检索和答案提取的基础。通过加载领域知识库,在对问句分词后再进行一次领域术语切分,实现领域术语切分与词性标注,并利用“知网”,对关键词进行同义扩展,形成关键词扩展词。
B、问句句法依存对提取:
由于一个完整的汉语句子是由句子的主干成分和修饰成分所构成,而人们往往从主干成分就可以了解一个句子的大概意思,由于目前完全句法分析存在很多困难,所以在进行句子相似度计算时,可以通过句子之间有效搭配对的相似度来体现句子之间相似度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。并通过哈工大的共享语言技术平台LTP接口获取句子有效搭配对。
C、旅游领域问句分类
问题类型是定位答案及制定析取答案策略的关键因素,在问句分析时,判断两个问题是否相似,首先得判断两个问题的问题类型是否一致,如果一致,才能进行进一步的相似度计算判断,否则两个问题不可能相似。在特定领域内,由于业务相对固定,因此问句询问内容形式相对受限,因此可以针对问答业务对问题进行分类,以此来提高相似问句检索及答案抽取的准确率,在旅游领域,提取构建了各种问题类型的构成规则,并通过这些特征识别问题类型。
所述步骤(5)答案提取方法具体为:根据问题分获取的问题类型、问题关键词、问题扩展词等问句关系信息,采用lucene从常问问题库(FAQ)中检索侯选问题集,借助领域问题相似度计算方法,提取相似度最大的侯选问题答案作为答案,并返回给用户,具体是:
A、候选问题集的选择与问句索引
建立候选问题集的目的是缩小查找范围,使后续的相似度计算等较为复杂的过程都在候选问题集这个相对较小的范围内进行,从而提高***的检索效率。在旅游(FAQ)问答***中采用Lucene检索***实现候选问题检索和问句索引。
B、旅游领域问句相似度计算
问句相似度计算是FAQ中相似问句查找的基础,同时也是答案提取的关键,其直接影响答案提取的准确程度,当前已有多种中文句子相似度计算方法,通常分为三个等级:语法相似度、语义相似度和语用相似度。但这些相似度计算方法在领域(FAQ)问答***中都有不同的缺陷。在此结合旅游领域问句特点,综合考虑词的语义距离、句法依存关系及领域概念语义关系因素,提出了一种问句相似度计算方法,该方法首先利用领域问题特点,根据问题类别进行相似问题过滤,然后以“知网”及“领域知网”知识库为基础,采用句法分析提取问句有效依存对,并利用依存对和概念语义关系,实现旅游领域问句之间相似度计算。计算关键步骤如下:
(1)词的语义相似度计算
词是组成句子的基础,句子相似度必须通过句子包含词之间的相似度来表现,计算方法参照刘群基于“知网”的词语语义相似度计算方法,计算过程如下
Sim ( C 1 , C 2 ) = Σ i = 1 4 β i Π j = 1 i Sim j ( C 1 , C 2 ) - - - ( 1 )
其中,Sim1(C1,C2)为概念的第一个独立义原相似度、Sim2(C1,C2)为其他独立义原的相似度、Sim3(C1,C2)为关系义原相似度、和Sim4(C1,C2)为符号义原相似度,βi(1≤i≤4)为可调节的参数,且:β1234=1,β1≥β2≥β3≥β4,β1≥0.5。
(2)问句句法依存对相似度计算
根据问题句法分析可提取问句的句法依存对,在提取获得了两个问句的有效搭配对后,必须比较两个问句有效搭配对之间的相似度,为了计算问句间有效搭配对相似度,首先必须计算两个有效搭配对之间对应词之间的相似关系,根据知网消歧标注结果,采用基于“知网”词语相似度计算方法(A步骤),分别计算依存对上两个对应词语的相似度,然后取两个相似平均值得到两个有效依存对的相似度。然后根据依存对的相似度计算问句之间相似度,对于任意两个问句A和B,A包含的问句句子依存对为A1,A2,...,Am,B包含的问句句子依存对为B1,B2,...,Bn,首先以问句A中的依存对为基准,计算依存对Ai(1≤i≤m)和Bj(1≤j≤n)之间的相似度S(Ai,Bj),根据式(2)依次挑选S(Ai,Bj)最大的依存对,直到A句子中的依存对为空,挑选出一个句子有效依存对集合{ai},同样以B有效句子依存对为基准,计算句子依存对Bj(1≤j≤n)与Ai(1≤i≤m)之间的相似度表示为S(Bj,Ai),根据式(3)依次挑选S(Bj,Ai)最大的依存对,直到B句子中的依存对为空,挑选出一个句子有效依存对集合{bj}。
ai=max(S(Ai,B1),S(Ai,B2),Λ,S(Ai,Bn))   (2)
bj=max(S(Bj,A1),S(Bj,A2),Λ,S(Bj,Am))   (3)
(3)旅游领域问句相似度计算
在进行问句类型判断和问句依存对提取后,就可以根据依存对相似度计算获得的两个依存对集合{ai},{bj}进行问句相似度计算,计算公式如下:
Sim ( A , B ) = ( ( Σ i = 1 m a i ) / m + ( Σ j = 1 n b j ) / n ) / 2 - - - ( 4 )
采用有效句法依存对进行问句相似度计算,大大降低算法的复杂度,准确率会得到一定程度的提高。这种方法从浅层句法进行考虑,考虑到了词与词之间的依存关系,对句子的理解更加充分,从而能够更准确的得到句子相似度的值。
C、相似问题的检索与答案提取
确定候选问题集后,进一步就是从候选集中挑选出与目标问句最为相似的问句。相似问句检索的思想是计算候选问题集中每个问句与目标问句之间的相似度,取相似度大于***指定阈值λ的问句作为相似问句,并根据该问句对应的答案编号(AnswerId),从数据库中自动抽取出有关答案作为输出结果返回给用户。根据旅游领域问句特点,结合词语义信息、问句句法依存关系及领域概念关系进行相似度计算,具体方法见前述旅游领域问句相似度计算方法内容,最终实现中文问句的相似度计算。
所述答案提取方法依据领域问句相似度计算方法提取用户最相关问题,领域问句相似度计算方法融合了领域知识概念及关系(旅游领域术语及关系)、句法结构(句法依存对及关系)及语义(问题类型)等多特征进行句子相似度计算。
本发明具有下列优点和效果:本发明借助于本体论的思想,以“知网”常识库为基础,采用KDML描述语言,定义和描述了旅游领域术语与关系,扩展旅游领域术语描述,构建旅游领域知识库-领域知网,实现了“旅游领域知网”与常识库“知网”的融合。通过词法、句法和语义分析用户自然语言问题,提取识别问题关键词、扩展词、问题类别、问句主干、句法依存对等问句表征,并结合领域知识、句法依存关系、语义关系,实现问句相似度计算,并以相似度计算为基础,从侯选问题集中检索相关问句,提取问题答案,使旅游领域常问问题(FAQ)中文问答***能够实现,且具有高效,快速、准确。云南旅游FAQ问答***测试结果表明该方法可行,有较好的效果。
附图说明
图1是旅游FAQ问答***结构图。
具体实施方式
实施例
如图1,本发明提供的旅游领域FAQ中文问答***实现方法,具体步骤如下:
步骤一,FAQ收集与组织:FAQ库是问答的核心资源,主要通过三种途径获得:第一种通过网络爬虫从互联网上自动爬取,并通过人工筛选进入FAQ库;第二种是通过人工收集与整理获得,针对旅游领域,专门收集地方、景点、风土人情、酒店等相关介绍、门票、交通等相关问题,分类整理和组织FAQ问答对;第三种则是由***自动记录用户输入但在问句库中不存在的新问句,并把这类问句统一保存到问答历史库中,定期由人工审核整理,把对应的答案和问句一起入库。
FAQ通过数据库方式存储,为提高存取速度,定义了问题(Question)和答案(Answer)两个关系表,其中问题表(Question)主要存储问题及答案索引信息,包括问题编号(QuestionId)、问题(Question)、问题类型(QuestionType)及答案编号(AnswerId),答案表(AnswerId)存储答案信息,包括答案编号(AnswerId)及答案(Answer)。由于关系表仅仅用于FAQ的数据存储和答案的定位提取,为便于候选问题快速检索,对所有的问句都以分词后的词为索引、建立词-问句倒排索引文挡,候选问题集的选择从索引文档中提取,而最终答案则根据问题表中存放的答案编号(AnswerId)从答案表中直接定位输出。由于人们经常有新的问题加入,因此,需要经常扩展新的问题到FAQ中,扩展和更新问题首先必须判断新输入的问题是否在FAQ中有相同或相似问题,判断依据是计算用户输入的目标问句与候选问题集中每个问句的相似度,设定一个阈值,如果两个问句之间相似度不小于指定的阈值,则认为FAQ中该问句与输入问句在语义上等同,是同一个问题的两种说法,不需要扩展相关问题。如果两个问句相似度小于指定阈值,就表示现有的FAQ库中没有用户所问的问题。对于这类情况,***首先把该问句记录到问答历史库中,并定期由计算机辅助人工整理,把历史库中的新问题和对应的答案加入FAQ库中并建立增量索引,从而实现FAQ数据的更新。
步骤二,领域知识库构建:借助本体论的思想对旅游领域资源的概念进行精确描述,以“知网”为基础,采用“知网”的概念描述语言KDML规则,建立了专门的旅游领域本体,形成旅游领域资源本体库领域知网体系,并实现了旅游知识库“领域知网”与常识知识库“知网”的融合。目前共对云南旅游景点介绍、风土民情、宾馆酒店、旅游交通等旅游相关2012个概念进行了定义和描述,如:概念“香格里拉”和“丽江古城”的精确描述如下:
NO.=130001
W_C=香格里拉
G_C=N
E_C=~是个美丽的地方
W_E=xigelila
G_E=N
E_E=~is a beautiful place
DEF=place|地方,city|市,ProperName|专,(Diqing|迪庆州),(Yunnan|云南省),(China|中国)
NO.=130002
W_C=丽江古城
G_C=N
E_C=~很特别
W_E=Old Town of Lijiang
G_E=N
E_E=~is very special
DEF=place|地方,ProperName|专,city|市,past|昔,(scene|景区),(lijiang|丽江),(Yunman|云南)
步骤三,用户查询:在互联网上,实现基于Web方式的问答查询接口,用户可以通过自然语言问题方式进行旅游相关信息查询;
步骤四,问题分析:问题分析是对用户输入的自然语言问题进行分析,提取表征问题的关键词、扩展词、句法依存对、问题类型等信息,具体是:
1)问题关键词、扩展词提取:
问题关键词和扩展词是表征问题的基本要素,也是候选问题集检索和答案提取的基础。因此,对问题进行分词和词性标记,但对于特定领域,由于领域词汇可能在通用词库中未能现过,因此分词***不能很好的识别领域词汇,导致一个领域词汇可能会被切分成多个通用词汇,为此,通过加载领域知识库,在对问句初切分后再进行一次领域术语切分,从而很好的实现了领域术语切分与词性标注,在进行词语切分后,去除停用词,提取名词、动词、形容词、限定性副词构成问题关键词,并利用“知网”,对关键词进行同义扩展,形成关键词扩展词。
2)问句句法依存对提取:
由于一个完整的汉语句子是由句子的主干成分和修饰成分所构成,而人们往往从主干成分就可以了解一个句子的大概意思,由于目前完全句法分析存在很多困难,所以在进行句子相似度计算时,可以通过句子之间有效搭配对的相似度来体现句子之间相似度。所谓有效搭配对是指全句核心词和直接依存于它的有效词组成的搭配对,这里有效词定义为动词、名词以及形容词,它是由分词后的词性标注决定的。全句核心词即为依存树的根结点。例如问题Q1:傣族有哪些特色节日?和问题Q2:云南的少数民族有些什么节日?,其中问句1的有效搭配对为:有-节日、有-傣族;问句2的有效搭配对为:有-节日、有-少数民族。只要比较这些搭配对之间的相似程度即可,句子依存对采用哈工大的共享语言技术平台LTP接口获取。
3)旅游领域问句分类
问题类型是定位答案及制定析取答案策略的关键因素,比如问“景点介绍”类型的问题,就不能用“风味特色”问题类型的内容进行回答,问题类型在相似问句检索和答案提取方面有着非常重要的地位,在问句分析时,判断两个问题是否相似,首先得判断两个问题的问题类型是否一致,如果一致,才能进行进一步的相似度计算判断,否则两个问题不可能相似。在特定领域内,由于业务相对固定,因此问句询问内容形式相对受限,因此可以针对问答业务对问题进行分类,以此来提高相似问句检索及答案抽取的准确率,在旅游领域,将常问问题分为景点介绍、景点位置,景点门票价格,风味小吃、特产介绍,风俗节日等23细类型,并根据这些问题类型的特点提取各种点问题类型的特征规则,比如景
点位置类型,其相关问题形式为:****景点在哪里?,****景点位于什么地方?,***景点地处何处等,其类型构成规则为***(景点)+地处/位于/在+疑问词(哪里)。提取构建了各种问题类型的构成规则,并通过这些特征识别问题类型。
步骤五,答案提取:答案提取方法主要包括以下几个步骤:
1)候选问题集的选择与问句索引
建立候选问题集的目的是缩小查找范围,使后续的相似度计算等较为复杂的过程都在候选问题集这个相对较小的范围内进行,从而提高***的检索效率。由于候选问题集的作用是从大规模问句集中快速取出一个模糊相关、但相对较小的子集合,因此,可以选择成熟稳定的检索***来实现候选问题检索,Lucene作为一个功能强大、跨平台的检索***,已经得到了广泛应用,如Sogou新闻部分的检索,Jive WEB论坛、Cocoon、Eclipse的帮助部分等。选择开源Lucene用于候选问题集检索,该模块检索的效率和准确率能得到有效保证。
Lucene在为文件建立索引时,首先需要将其转换为能够识别的文档(Document)对象,每个文档则由一个或者多个的字段(Field)对象组成,字段又包含有一个名称和对应的值,如同散列表中的一个项目。在实际应用中,字段一般都对应于与查询或者检索结果相关的一段信息,例如,网页标题需要出现在搜索结果里,所以可以把它作为一个字段添加到文档对象中。字段既可以被索引,也可以不被索引而直接保存到文档中,如对于唯一的ID,就无需索引,只要保存即可。
由于汉语与英文不同,词语之间缺少分割标记,以词为处理单位的Lucene无法解析中文文本,因此,增加了以下3个关键处理过程,用于实现对中文文本的索引:首先,对输入句子进行分词处理,从而获取问句中的每一个词语。其次过滤问句中的无用信息,主要指停用词的过滤,如过滤句子中的“的”、“儿”、“啊”等、标点符号等。最后根据获得的词建立索引。在构建索引时,首先创建一个索引构建模块,其中索引文件的存储位置和索引内容的分析器在其构造函数中指定,然后顺序读取FAQ库中问句表的每一条记录,并以问句为索引内容,问句ID、问句对应的答案ID为索引关键字建立一个Lucene文档对象,并把生成的文档对象加入到索构建模块中,如此循环直到把所有问句都加入到索引文档。
对通过检索获得的问题,再根据目标问题问题类型进行过滤,从检索召回的问题集合中去除与目标问题问题类型不相符的问题形成答案提取的候选问题集。
2)旅游领域问句相似度计算
问句相似度计算是FAQ中相似问句查找的基础,同时也是答案提取的关键,其直接影响答案提取的准确程度,当前已有多种中文句子相似度计算方法,通常分为三个等级:语法相似度、语义相似度和语用相似度。语用相似度具有相当的难度,目前效果不理想。而在一般的应用中,计算句子的语义相似度就基本能够满足需求。目前对句子语义相似度计算的研究方法主要有:基于相同词汇的方法、基于语义词典的方法、基于依存树的方法,以及基于编辑距离的方法等。其中,基于相同词汇的方法有很明显的局限性,对于同义词之间的替换则无能为力。而使用语义词典的方法,可以很好的解决这一问题,但是单纯的使用语义词典的方法,并没有考虑到句子内部的结构和词语之间的相互作用关系,准确率不高。基于依存树的方法利用句子之间句法依存关系进行相似度计算,考虑了句子的句法结构关系,但面临完全句法分析的精度问题,且没有考虑句法结构中词汇的同义近义替换。编辑距离方法通常被用于句子的快速模糊匹配领域,但是其规定的编辑操作不够灵活,也没有考虑词语的同义替换。
在分析句子相似度计算存在问题基础上,结合旅游领域问句特点,综合考虑词的语义距离、句法依存关系及领域概念语义关系因素,提出了一种问句相似度计算方法,该方法首先利用领域问题特点,根据问题类别进行相似问题过滤,然后以“知网”及“领域知网”知识库为基础,采用句法分析提取问句有效依存对,并利用依存对和概念语义关系,实现旅游领域问句之间相似度计算。计算关键步骤如下:
A.词的语义相似度计算
词是组成句子的基础,句子相似度必须通过句子包含词之间的相似度来表现,在实际应用中,往往会出现两个问句意思完全一样,但其表达形式却不一样,比如,问题Q3:香格里拉有啥景点?与问题Q4:中甸有那些好玩的地方?,其主要原因是由于词的同义和相关关系导致的,在一个问句中出现的词存在一定的同义词和相关词,因此,在计算词语相似度时必须考虑词的同义和相关关系,而不能只根据词本身表层特征进行判断,利用“知网”及在领域内扩展的“领域知网”进行问句的词语级的相似度的计算,通过对问句进行知网消歧,并利用问句中出现的概念计算问句之间的相似度,概念之间的语义距离定义为两个概念对应的义原在义原树中的最短距离,计算方法参照刘群基于“知网”的词语语义相似度计算方法,计算过程如下
Sim ( C 1 , C 2 ) = Σ i = 1 4 β i Π j = 1 i Sim j ( C 1 , C 2 ) - - - ( 1 )
其中,Sim1(C1,C2)为概念的第一个独立义原相似度、Sim2(C1,C2)为其他独立义原的相似度、Sim3(C1,C2)为关系义原相似度、和Sim4(C1,C2)为符号义原相似度,βi(1≤i≤4)为可调节的参数,且:β1234=1,β1≥β2≥β3≥β4,β1≥0.5。
B.问句句法依存对相似度计算
根据问题句法分析可提取问句的句法依存对,在提取获得了两个问句的有效搭配对后,必须比较两个问句有效搭配对之间的相似度,为了计算问句间有效搭配对相似度,首先必须计算两个有效搭配对之间对应词之间的相似关系,根据知网消歧标注结果,采用基于“知网”词语相似度计算方法(A步骤),分别计算依存对上两个对应词语的相似度,比如依存对“有-傣族”与“有-少数民族”的相似度分别计算动词“有”与“有”的相似度,“傣族“与”少数民族“之间的相似度,然后取两个相似平均值得到两个有效依存对的相似度。然后根据依存对的相似度计算问句之间相似度,对于任意两个问句A和B,A包含的问句句子依存对为A1,A2,...,Am,B包含的问句句子依存对为B1,B2,...,Bn,首先以问句A中的依存对为基准,计算依存对Ai(1≤i≤m)和Bj(1≤j≤n)之间的相似度S(Ai,Bj),根据式(2)依次挑选S(Ai,Bj)最大的依存对,直到A句子中的依存对为空,挑选出一个句子有效依存对集合{ai},同样以B有效句子依存对为基准,计算句子依存对Bj(1≤j≤n)与Ai(1≤i≤m)之间的相似度表示为S(Bj,Ai),根据式(3)依次挑选S(Bj,Ai)最大的依存对,直到B句子中的依存对为空,挑选出一个句子有效依存对集合{bj}。
ai=max(S(Ai,B1),S(Ai,B2),Λ,S(Ai,Bn))  (2)
bj=max(S(Bj,A1),S(Bj,A2),Λ,S(Bj,Am))  (3)
C.旅游领域问句相似度计算
在进行问句类型判断和问句依存对提取后,就可以根据依存对相似度计算获得的两个依存对集合{ai},{bj}进行问句相似度计算,计算公式如下:
Sim ( A , B ) = ( ( Σ i = 1 m a i ) / m + ( Σ j = 1 n b j ) / n ) / 2 - - - ( 4 )
采用有效句法依存对进行问句相似度计算,大大降低算法的复杂度,准确率会得到一定程度的提高。这种方法从浅层句法进行考虑,考虑到了词与词之间的依存关系,对句子的理解更加充分,从而能够更准确的得到句子相似度的值。但是,现有的句法分析技术还不够成熟,还无法将所有的句法信息特征全部考虑进来,因此计算会产生了一定的误差。
3)相似问题的检索与答案提取
确定候选问题集后,进一步就是从候选集中挑选出与目标问句最为相似的问句。相似问句检索的思想是计算候选问题集中每个问句与目标问句之间的相似度,取相似度大于***指定阈值λ的问句作为相似问句,并根据该问句对应的答案编号(AnswerId),从数据库中自动抽取出有关答案作为输出结果返回给用户。根据旅游领域问句特点,结合词语义信息、问句句法依存关系及领域概念关系进行相似度计算,具体方法见前述旅游领域问句相似度计算方法内容,最终实现中文问句的相似度计算。
考虑到相似度的计算误差,***在给出最优答案的同时,还可以给出了前4条次优记录,供用户选择,如果最优答案并不真正相关,用户还可以进一步从这些候选答案中查找。从用户的角度来说,通过把相关问题快速确定到一个较小的集合之中,***的实用价值就体现出来了。
云南旅游FAQ问答***实验
针对云南旅游领域,构建了旅游领域知识库,通过“知网”扩展了2012个领域概念得到“领域知网”,采用检索方式与人工和自动抽取方式收集和组织了23335个问答对,提取了188个不同问句类型特征规则,采用Web方式实现了云南旅游FAQ问答***。目前,对该***进行了两个方面的测试:一方面是面向问句语料库的问答测试,其中问句语料库中共收集了关于云南旅游的23335个问答对,在FAQ中存储,从问句语料库中任意选取600个问句进行测试;另一方面是面向实际用户现场测试,组织了10位游客随机询问问题。实验结果如表1所示。
        表1:云南旅游FAQ问答原型***测试结果
 
测试类别 问题数/个      正确应答/个 错误应答/个      没有应答/个        精确率%     召回率%    
1 600 555 24 21 92.5 96.8
2 300 250 13 47 83.3 87.5
从实际实验结果看,通过这种从实际实验结果看,通过这种方法设计的云南旅游FAQ问答***是可实用的。

Claims (10)

1.一种旅游领域FAQ中文问答***实现方法,其特征在于包括:
(1)FAQ收集与组织:结合人工或半自动方式从互联网上提取旅游问答对,并整理进入旅游问答库,形成旅游FAQ库;
(2)旅游领域知识库构建:构建并维护旅游领域知识结构及关系,形成旅游领域知识库;
(3)用户查询:在互联网上,用户通过自然语言问题进行旅游信息查询;
(4)问题分析:对用户输入的问题进行分析,提取表征问题的关键词、扩展词、句法依存对、问题类型等信息;
(5)答案提取:根据问题分析结果,从常问问题库FAQ中提检索侯选问题,采用领域问题相似度计算方法,计算用户问题与侯选问题相似度,提取相似度最大的问题答案作为侯选答案,并提供给用户,返回最终用户查询答案。
2.根据权利要求1所述的旅游领域FAQ中文问答***实现方法,其特征在于,用户可以提供面向文本的自然语言问题,***直接返回答案,而不是和问题相关的大量网页。
3.根据权利要求1所述的旅游领域FAQ中文问答***实现方法,其特征在于,所述步骤(1)FAQ收集与组织方法具体为:第一种通过网络爬虫从互联网上自动爬取,并通过人工筛选进入FAQ库;第二种是通过人工收集与整理获得,针对旅游领域,专门收集地方、景点、风土人情、酒店等相关介绍、门票、交通等相关问题,分类整理和组织FAQ问答对并进入FAQ库;第三种则是由***自动记录用户输入但在问句库中不存在的新问句,并把这类问句统一保存到问答历史库中,定期由人工审核整理,把对应的答案和问句一起入FAQ库。
4.根据权利要求3所述的旅游领域FAQ中文问答***实现方法,其特征在于,FAQ的问答对的存储通过建立问题question和答案answer两个关系表,分别通过主键Questionid,Answerid进行答案索引;问题表的存储,为了便于快速检索,采用倒排索引方式进行存储,建立词与问句之间的倒排索引文档,候选问题集的选择从索引文档中提取,而最终答案则根据问题表中存放的答案answerid从数据库中直接输出。
5.根据权利要求1所述的旅游领域FAQ中文问答***实现方法,其特征在于,所述步骤(2)主要利用了本体论的思想,借助现有的中科院院语言信息中心董振东先生的“知网”进行领域术语的扩展。
6.根据权利要求1所述的旅游领域FAQ中文问答***实现方法,其特征在于,所述步骤(2)具体为:借助本体论的思想对云南旅游领域资源的概念进行精确描述,以“知网”为基础,采用“知网”的概念描述语言KDML规则,建立了专门的云南旅游领域本体,形成云南旅游领域资源本体库领域知网体系,并实现了云南旅游知识库“领域知网”与常识知识库“知网”的融合。目前共对云南旅游景点介绍、风土民情、旅游交通等旅游相关2012个概念进行了定义和描述,形成了云南旅游领域“知网”。
7.根据权利要求1所述的旅游领域FAQ中文问答***实现方法,其特征在于,所述步骤(3)具体为:用户查询提供用户与自然语言方式进行提问,用户可以通过互联网进行相关旅游领域问题查询。
8.根据权利要求1所述的旅游领域FAQ中文问答***实现方法,其特征在于,所述步骤(4)具体为:通过问句分析模块对用户输入的问题进行分析,主要包括词法分析、句法分析及语义分析,词法分析主要对问题进行分词,过滤停用词,提取查询核心词及借助“知网”进行关键词扩展;句法分析主要对提取问句的核心词干,借助哈工大句法分析器,提取问句句法依存对;语义分析主要分析问句语义信息,根据旅游领域特点,定义并提取旅游领域问题类型特征句模规则,并通过规则匹配方式实现问句类型的识别。
9.根据权利要求1所述的旅游领域FAQ中文问答***实现方法,其特征在于,所述步骤(5)答案提取方法具体为:根据问题分获取的问题类型、问题关键词、问题扩展词等问句关系信息,采用lucene从常问问题库FAQ中检索侯选问题集,借助领域问题相似度计算方法,提取相似度最大的侯选问题答案作为答案,并返回给用户。
10.根据权利要求9所述的旅游领域FAQ中文问答***实现方法,其特征在于答案提取方法依据领域问句相似度计算方法提取用户最相关问题,领域问句相似度计算方法融合了领域知识概念及关系即旅游领域术语及关系、句法结构即句法依存对及关系及语义即问题类型等多特征进行句子相似度计算。
CNA200810058660XA 2008-07-10 2008-07-10 旅游领域faq中文问答***实现方法 Pending CN101373532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA200810058660XA CN101373532A (zh) 2008-07-10 2008-07-10 旅游领域faq中文问答***实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200810058660XA CN101373532A (zh) 2008-07-10 2008-07-10 旅游领域faq中文问答***实现方法

Publications (1)

Publication Number Publication Date
CN101373532A true CN101373532A (zh) 2009-02-25

Family

ID=40447685

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200810058660XA Pending CN101373532A (zh) 2008-07-10 2008-07-10 旅游领域faq中文问答***实现方法

Country Status (1)

Country Link
CN (1) CN101373532A (zh)

Cited By (101)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012936A (zh) * 2010-12-07 2011-04-13 中国电信股份有限公司 基于云计算平台的海量数据聚合方法和***
CN102637192A (zh) * 2012-02-17 2012-08-15 清华大学 一种自然语言问答的方法
CN102662929A (zh) * 2012-03-20 2012-09-12 中南大学 一种基于本体的问题智能分析处理的方法和装置
CN102681992A (zh) * 2011-03-07 2012-09-19 腾讯科技(深圳)有限公司 一种数据分层方法及***
CN102929891A (zh) * 2011-08-11 2013-02-13 阿里巴巴集团控股有限公司 处理文本的方法和装置
CN103294725A (zh) * 2012-03-03 2013-09-11 李辉 智能应答机器人软件
CN103440287A (zh) * 2013-08-14 2013-12-11 广东工业大学 一种基于产品信息结构化的Web问答检索***
CN103778122A (zh) * 2012-10-17 2014-05-07 腾讯科技(深圳)有限公司 搜索方法和***
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答***
CN104391969A (zh) * 2014-12-04 2015-03-04 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104424290A (zh) * 2013-09-02 2015-03-18 佳能株式会社 基于语音的问答***和用于交互式语音***的方法
CN104461525A (zh) * 2014-11-27 2015-03-25 韩慧健 一种可自定义的智能咨询平台生成***
CN104504119A (zh) * 2014-12-30 2015-04-08 天津迈沃医药技术有限公司 基于医学信息本体数据库的关联药品的自我分析方法
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
CN104834651A (zh) * 2014-02-12 2015-08-12 北京京东尚科信息技术有限公司 一种提供高频问题回答的方法和装置
CN104978396A (zh) * 2015-06-02 2015-10-14 百度在线网络技术(北京)有限公司 一种基于知识库的问答题目生成方法和装置
CN105224519A (zh) * 2014-06-27 2016-01-06 英特尔公司 自然语言中的自动问句检测
CN105224683A (zh) * 2015-10-28 2016-01-06 北京护航科技有限公司 一种自然语言分析智能交互方法及装置
CN105302859A (zh) * 2015-09-21 2016-02-03 上海智臻智能网络科技股份有限公司 一种基于互联网的智能交互***
CN105488039A (zh) * 2014-09-15 2016-04-13 华为技术有限公司 一种问询方法及装置
CN105550361A (zh) * 2015-12-31 2016-05-04 上海智臻智能网络科技股份有限公司 日志处理方法及装置和问答信息处理方法及装置
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及***
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN105760359A (zh) * 2014-11-21 2016-07-13 财团法人工业技术研究院 问句处理***及其方法
CN105824933A (zh) * 2016-03-18 2016-08-03 苏州大学 基于主述位的自动问答***及其实现方法
CN105843897A (zh) * 2016-03-23 2016-08-10 青岛海尔软件有限公司 一种面向垂直领域的智能问答***
CN105893560A (zh) * 2016-03-31 2016-08-24 乐视控股(北京)有限公司 一种向用户反馈有效信息的方法和装置
CN106095956A (zh) * 2016-06-15 2016-11-09 北京智能管家科技有限公司 支持信息裂变查询方法及装置
CN106227788A (zh) * 2016-07-20 2016-12-14 浪潮软件集团有限公司 一种以Lucene为基础的数据库查询方法
CN106326422A (zh) * 2016-08-24 2017-01-11 北京大学 一种基于知识本体的食品安全数据信息检索的方法及***
CN106339366A (zh) * 2016-08-08 2017-01-18 北京百度网讯科技有限公司 基于人工智能的需求识别的方法和装置
CN106547785A (zh) * 2015-09-22 2017-03-29 阿里巴巴集团控股有限公司 知识库中信息获取方法和***
CN106610934A (zh) * 2016-07-08 2017-05-03 四川用联信息技术有限公司 智造行业中一种新的语义相似度求解方法
CN106653016A (zh) * 2016-10-28 2017-05-10 上海智臻智能网络科技股份有限公司 智能交互方法和装置
CN106649394A (zh) * 2015-11-03 2017-05-10 中兴通讯股份有限公司 融合知识库处理方法和装置,以及知识库管理***
CN106776797A (zh) * 2016-11-22 2017-05-31 中国人名解放军理工大学 一种基于本体推理的知识问答***及其工作方法
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及***
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN106909930A (zh) * 2015-12-23 2017-06-30 神州数码信息***有限公司 一种基于政务机器问答***的人机自动切换的模型与方法
CN106951558A (zh) * 2017-03-31 2017-07-14 广东睿盟计算机科技有限公司 一种基于深度搜索的税务智能咨询平台的数据处理方法
CN106980652A (zh) * 2017-03-03 2017-07-25 竹间智能科技(上海)有限公司 智能问答方法及***
CN106997376A (zh) * 2017-02-28 2017-08-01 浙江大学 一种基于多级特征的问题和答案句子相似度计算方法
CN107103005A (zh) * 2016-02-23 2017-08-29 阿里巴巴集团控股有限公司 问答语料的收集方法及装置
CN107122421A (zh) * 2017-04-05 2017-09-01 北京大学 信息检索方法和装置
CN107193872A (zh) * 2017-04-14 2017-09-22 深圳前海微众银行股份有限公司 问答数据处理方法及装置
CN107256226A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 一种知识库的构建方法及装置
CN107256227A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 面向知识内容的语义概念扩展生成方法与装置
CN107329967A (zh) * 2017-05-12 2017-11-07 北京邮电大学 基于深度学习的问答***以及方法
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN107391706A (zh) * 2017-07-28 2017-11-24 湖北文理学院 一种基于移动互联网的城市旅游问答***
CN107436916A (zh) * 2017-06-15 2017-12-05 百度在线网络技术(北京)有限公司 智能提示答案的方法及装置
WO2018000277A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种问答方法、***和机器人
CN107562789A (zh) * 2017-07-28 2018-01-09 深圳前海微众银行股份有限公司 知识库问题更新方法、客服机器人以及可读存储介质
CN107679231A (zh) * 2017-10-24 2018-02-09 济南浪潮高新科技投资发展有限公司 一种垂直领域与开放领域混合型智能问答***的实现方法
CN107992539A (zh) * 2017-11-24 2018-05-04 合肥博焱智能科技有限公司 基于人工智能的景区导游咨询***
CN107992518A (zh) * 2017-10-31 2018-05-04 厦门快商通信息技术有限公司 一种提升智能对话速度的自动问答方法及***
CN108280218A (zh) * 2018-02-07 2018-07-13 逸途(北京)科技有限公司 一种基于检索和生产混合问答的流程***
CN108334490A (zh) * 2017-04-07 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN108345640A (zh) * 2018-01-12 2018-07-31 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN108416060A (zh) * 2018-03-23 2018-08-17 芜湖乐锐思信息咨询有限公司 一种基于移动互联的城市旅游问答***
CN105592234B (zh) * 2014-10-21 2018-08-28 阿里巴巴集团控股有限公司 通信数据处理方法及装置
CN108509617A (zh) * 2018-04-04 2018-09-07 上海智臻智能网络科技股份有限公司 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端
WO2018157805A1 (zh) * 2017-03-03 2018-09-07 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN108846292A (zh) * 2018-05-30 2018-11-20 中国联合网络通信集团有限公司 脱敏处理方法及装置
CN108984778A (zh) * 2018-07-25 2018-12-11 南京瓦尔基里网络科技有限公司 一种智能交互自动问答***以及自我学习方法
CN109101579A (zh) * 2018-07-19 2018-12-28 深圳追科技有限公司 客服机器人知识库歧义检测方法
CN109241266A (zh) * 2015-07-23 2019-01-18 上海智臻智能网络科技股份有限公司 人机交互中基于标准问创建扩展问的方法和装置
CN109271503A (zh) * 2018-11-06 2019-01-25 北京猎户星空科技有限公司 智能问答方法、装置、设备及存储介质
CN109344385A (zh) * 2018-01-30 2019-02-15 深圳壹账通智能科技有限公司 自然语言处理方法、装置、计算机设备和存储介质
CN109359302A (zh) * 2018-10-26 2019-02-19 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法
CN109446305A (zh) * 2018-10-10 2019-03-08 长沙师范学院 智能旅游客服***的构建方法以及***
CN109446304A (zh) * 2018-10-10 2019-03-08 长沙师范学院 智能客服会话方法及***
CN109460448A (zh) * 2018-08-31 2019-03-12 厦门快商通信息技术有限公司 一种可自主配置的faq服务框架
CN109460502A (zh) * 2018-09-14 2019-03-12 广州神马移动信息科技有限公司 答案聚类方法及其装置、电子设备、计算机可读介质
CN109460452A (zh) * 2018-10-10 2019-03-12 长沙师范学院 基于本体的智能客服***
CN109582761A (zh) * 2018-09-21 2019-04-05 浙江师范大学 一种基于网络平台的词语相似度的中文智能问答***方法
CN109614464A (zh) * 2018-10-31 2019-04-12 阿里巴巴集团控股有限公司 用于业务问题识别的方法及装置
CN109710746A (zh) * 2018-12-28 2019-05-03 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN110188174A (zh) * 2019-04-19 2019-08-30 浙江工业大学 一种基于专业词汇挖掘的专业领域faq智能问答方法
CN110263051A (zh) * 2019-06-11 2019-09-20 出门问问信息科技有限公司 用于问答***的问答对更新方法、装置、设备及存储介质
CN110275937A (zh) * 2019-05-14 2019-09-24 闽江学院 一种问答机器人的构建方法和装置
CN110309509A (zh) * 2019-06-28 2019-10-08 神思电子技术股份有限公司 一种语义知识库构建方法
CN110362651A (zh) * 2019-06-11 2019-10-22 华南师范大学 检索和生成相结合的对话方法、***、装置和存储介质
CN110377700A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种专业知识语义检索***
CN110737755A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 检索方法和装置
CN110750543A (zh) * 2018-07-05 2020-02-04 优视科技(中国)有限公司 人机交互方法、装置、***、存储介质、电子设备
CN110851576A (zh) * 2019-10-16 2020-02-28 迈达斯智能(深圳)有限公司 问答处理方法、装置、设备及可读介质
CN111198940A (zh) * 2019-12-27 2020-05-26 北京百度网讯科技有限公司 Faq方法、问答检索***、电子设备和存储介质
CN111506721A (zh) * 2020-04-22 2020-08-07 福州大学 一种面向领域知识图谱的问答***及构建方法
CN111813911A (zh) * 2020-06-30 2020-10-23 神思电子技术股份有限公司 一种基于用户监督反馈的知识自动采集与更新***及其工作方法
CN111930911A (zh) * 2020-08-12 2020-11-13 杭州东方通信软件技术有限公司 一种快速领域问答方法及其装置
CN111984774A (zh) * 2020-08-11 2020-11-24 北京百度网讯科技有限公司 搜索方法、装置、设备以及存储介质
CN112527965A (zh) * 2020-12-18 2021-03-19 国家电网有限公司客户服务中心 基于专业库和闲聊库相结合的自动问答实现方法和装置
CN112749265A (zh) * 2021-01-08 2021-05-04 哈尔滨工业大学 一种基于多信息源的智能问答***
CN112925915A (zh) * 2019-12-06 2021-06-08 株式会社日立制作所 一种数据库中的数据生成方法及装置
CN113239161A (zh) * 2021-05-08 2021-08-10 广州华多网络科技有限公司 多语种客服应答方法及其相应的装置、设备、介质
CN113360626A (zh) * 2021-07-02 2021-09-07 北京容联七陌科技有限公司 一种智能客服机器人的多场景混合问答推荐方法
CN114757208A (zh) * 2022-06-10 2022-07-15 荣耀终端有限公司 一种问答匹配方法及装置
CN116578724A (zh) * 2023-07-14 2023-08-11 杭州朗目达信息科技有限公司 知识库知识结构构建方法及装置、存储介质和终端
CN117132392A (zh) * 2023-10-23 2023-11-28 蓝色火焰科技成都有限公司 车辆贷款欺诈风险预警方法及***

Cited By (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012936A (zh) * 2010-12-07 2011-04-13 中国电信股份有限公司 基于云计算平台的海量数据聚合方法和***
CN102012936B (zh) * 2010-12-07 2013-04-17 中国电信股份有限公司 基于云计算平台的海量数据聚合方法和***
CN102681992A (zh) * 2011-03-07 2012-09-19 腾讯科技(深圳)有限公司 一种数据分层方法及***
CN102929891B (zh) * 2011-08-11 2015-09-16 阿里巴巴集团控股有限公司 处理文本的方法和装置
CN102929891A (zh) * 2011-08-11 2013-02-13 阿里巴巴集团控股有限公司 处理文本的方法和装置
CN102637192A (zh) * 2012-02-17 2012-08-15 清华大学 一种自然语言问答的方法
CN103294725A (zh) * 2012-03-03 2013-09-11 李辉 智能应答机器人软件
CN102662929A (zh) * 2012-03-20 2012-09-12 中南大学 一种基于本体的问题智能分析处理的方法和装置
CN103778122A (zh) * 2012-10-17 2014-05-07 腾讯科技(深圳)有限公司 搜索方法和***
CN103778122B (zh) * 2012-10-17 2018-01-23 腾讯科技(深圳)有限公司 搜索方法和***
CN103440287A (zh) * 2013-08-14 2013-12-11 广东工业大学 一种基于产品信息结构化的Web问答检索***
CN103440287B (zh) * 2013-08-14 2016-12-28 广东工业大学 一种基于产品信息结构化的Web问答检索***
CN104424290A (zh) * 2013-09-02 2015-03-18 佳能株式会社 基于语音的问答***和用于交互式语音***的方法
CN104834651A (zh) * 2014-02-12 2015-08-12 北京京东尚科信息技术有限公司 一种提供高频问题回答的方法和装置
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答***
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答***
CN104050256B (zh) * 2014-06-13 2017-05-24 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答***
CN105224519B (zh) * 2014-06-27 2019-08-16 英特尔公司 自然语言中的自动问句检测
CN105224519A (zh) * 2014-06-27 2016-01-06 英特尔公司 自然语言中的自动问句检测
CN105488039A (zh) * 2014-09-15 2016-04-13 华为技术有限公司 一种问询方法及装置
CN105592234B (zh) * 2014-10-21 2018-08-28 阿里巴巴集团控股有限公司 通信数据处理方法及装置
CN105760359B (zh) * 2014-11-21 2020-03-20 财团法人工业技术研究院 问句处理***及其方法
CN105760359A (zh) * 2014-11-21 2016-07-13 财团法人工业技术研究院 问句处理***及其方法
CN104461525B (zh) * 2014-11-27 2018-01-23 韩慧健 一种可自定义的智能咨询平台生成***
CN104461525A (zh) * 2014-11-27 2015-03-25 韩慧健 一种可自定义的智能咨询平台生成***
CN104391969A (zh) * 2014-12-04 2015-03-04 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104391969B (zh) * 2014-12-04 2018-01-30 百度在线网络技术(北京)有限公司 确定用户查询语句句法结构的方法及装置
CN104504119B (zh) * 2014-12-30 2018-02-02 天津迈沃医药技术股份有限公司 基于医学信息本体数据库的关联药品的自我分析方法
CN104504119A (zh) * 2014-12-30 2015-04-08 天津迈沃医药技术有限公司 基于医学信息本体数据库的关联药品的自我分析方法
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
US10242049B2 (en) 2015-01-14 2019-03-26 Baidu Online Network Technology (Beijing) Co., Ltd. Method, system and storage medium for implementing intelligent question answering
CN104978396A (zh) * 2015-06-02 2015-10-14 百度在线网络技术(北京)有限公司 一种基于知识库的问答题目生成方法和装置
CN109241266A (zh) * 2015-07-23 2019-01-18 上海智臻智能网络科技股份有限公司 人机交互中基于标准问创建扩展问的方法和装置
CN105302859A (zh) * 2015-09-21 2016-02-03 上海智臻智能网络科技股份有限公司 一种基于互联网的智能交互***
CN105302859B (zh) * 2015-09-21 2018-11-30 上海智臻智能网络科技股份有限公司 一种基于互联网的智能交互***
CN106547785A (zh) * 2015-09-22 2017-03-29 阿里巴巴集团控股有限公司 知识库中信息获取方法和***
CN106547785B (zh) * 2015-09-22 2020-08-04 阿里巴巴集团控股有限公司 知识库中信息获取方法和***
CN105224683A (zh) * 2015-10-28 2016-01-06 北京护航科技有限公司 一种自然语言分析智能交互方法及装置
CN106649394A (zh) * 2015-11-03 2017-05-10 中兴通讯股份有限公司 融合知识库处理方法和装置,以及知识库管理***
WO2017076263A1 (zh) * 2015-11-03 2017-05-11 中兴通讯股份有限公司 融合知识库处理方法和装置及知识库管理***、存储介质
CN106909930A (zh) * 2015-12-23 2017-06-30 神州数码信息***有限公司 一种基于政务机器问答***的人机自动切换的模型与方法
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及***
CN105550361B (zh) * 2015-12-31 2018-11-09 上海智臻智能网络科技股份有限公司 日志处理方法及装置和问答信息处理方法及装置
CN105550361A (zh) * 2015-12-31 2016-05-04 上海智臻智能网络科技股份有限公司 日志处理方法及装置和问答信息处理方法及装置
CN107103005B (zh) * 2016-02-23 2020-10-30 创新先进技术有限公司 问答语料的收集方法及装置
CN107103005A (zh) * 2016-02-23 2017-08-29 阿里巴巴集团控股有限公司 问答语料的收集方法及装置
CN105701253A (zh) * 2016-03-04 2016-06-22 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN105701253B (zh) * 2016-03-04 2019-03-26 南京大学 中文自然语言问句语义化的知识库自动问答方法
CN105824933A (zh) * 2016-03-18 2016-08-03 苏州大学 基于主述位的自动问答***及其实现方法
CN105824933B (zh) * 2016-03-18 2019-02-26 苏州大学 基于主述位的自动问答***及其实现方法
CN105843897B (zh) * 2016-03-23 2019-03-26 青岛海尔软件有限公司 一种面向垂直领域的智能问答***
CN105843897A (zh) * 2016-03-23 2016-08-10 青岛海尔软件有限公司 一种面向垂直领域的智能问答***
CN105893560A (zh) * 2016-03-31 2016-08-24 乐视控股(北京)有限公司 一种向用户反馈有效信息的方法和装置
CN106095956A (zh) * 2016-06-15 2016-11-09 北京智能管家科技有限公司 支持信息裂变查询方法及装置
CN106777274B (zh) * 2016-06-16 2018-05-29 北京理工大学 一种中文旅游领域知识图谱构建方法及***
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及***
WO2018000277A1 (zh) * 2016-06-29 2018-01-04 深圳狗尾草智能科技有限公司 一种问答方法、***和机器人
CN106610934A (zh) * 2016-07-08 2017-05-03 四川用联信息技术有限公司 智造行业中一种新的语义相似度求解方法
CN106227788A (zh) * 2016-07-20 2016-12-14 浪潮软件集团有限公司 一种以Lucene为基础的数据库查询方法
CN106339366B (zh) * 2016-08-08 2019-05-31 北京百度网讯科技有限公司 基于人工智能的需求识别的方法和装置
CN106339366A (zh) * 2016-08-08 2017-01-18 北京百度网讯科技有限公司 基于人工智能的需求识别的方法和装置
CN106326422B (zh) * 2016-08-24 2019-09-17 北京大学 一种基于知识本体的食品安全数据信息检索的方法及***
CN106326422A (zh) * 2016-08-24 2017-01-11 北京大学 一种基于知识本体的食品安全数据信息检索的方法及***
CN106653016A (zh) * 2016-10-28 2017-05-10 上海智臻智能网络科技股份有限公司 智能交互方法和装置
CN106653016B (zh) * 2016-10-28 2020-07-28 上海智臻智能网络科技股份有限公司 智能交互方法和装置
CN106776797A (zh) * 2016-11-22 2017-05-31 中国人名解放军理工大学 一种基于本体推理的知识问答***及其工作方法
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN106997376A (zh) * 2017-02-28 2017-08-01 浙江大学 一种基于多级特征的问题和答案句子相似度计算方法
WO2018157805A1 (zh) * 2017-03-03 2018-09-07 腾讯科技(深圳)有限公司 一种自动问答处理方法及自动问答***
CN106980652A (zh) * 2017-03-03 2017-07-25 竹间智能科技(上海)有限公司 智能问答方法及***
CN106980652B (zh) * 2017-03-03 2020-09-08 竹间智能科技(上海)有限公司 智能问答方法及***
US11086912B2 (en) 2017-03-03 2021-08-10 Tencent Technology (Shenzhen) Company Limited Automatic questioning and answering processing method and automatic questioning and answering system
CN106951558B (zh) * 2017-03-31 2020-06-12 广东睿盟计算机科技有限公司 一种基于深度搜索的税务智能咨询平台的数据处理方法
CN106951558A (zh) * 2017-03-31 2017-07-14 广东睿盟计算机科技有限公司 一种基于深度搜索的税务智能咨询平台的数据处理方法
CN107122421A (zh) * 2017-04-05 2017-09-01 北京大学 信息检索方法和装置
CN108334490A (zh) * 2017-04-07 2018-07-27 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN108334490B (zh) * 2017-04-07 2021-05-07 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN107193872A (zh) * 2017-04-14 2017-09-22 深圳前海微众银行股份有限公司 问答数据处理方法及装置
CN107256226B (zh) * 2017-04-28 2018-10-30 北京神州泰岳软件股份有限公司 一种知识库的构建方法及装置
CN107256227A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 面向知识内容的语义概念扩展生成方法与装置
CN107256226A (zh) * 2017-04-28 2017-10-17 北京神州泰岳软件股份有限公司 一种知识库的构建方法及装置
CN107329967B (zh) * 2017-05-12 2019-09-24 北京邮电大学 基于深度学习的问答***以及方法
CN107329967A (zh) * 2017-05-12 2017-11-07 北京邮电大学 基于深度学习的问答***以及方法
CN107436916A (zh) * 2017-06-15 2017-12-05 百度在线网络技术(北京)有限公司 智能提示答案的方法及装置
CN107391614A (zh) * 2017-07-04 2017-11-24 重庆智慧思特大数据有限公司 一种基于wmd的中文问答匹配方法
CN107391706A (zh) * 2017-07-28 2017-11-24 湖北文理学院 一种基于移动互联网的城市旅游问答***
CN107391706B (zh) * 2017-07-28 2020-06-23 湖北文理学院 一种基于移动互联网的城市旅游问答***
CN107562789A (zh) * 2017-07-28 2018-01-09 深圳前海微众银行股份有限公司 知识库问题更新方法、客服机器人以及可读存储介质
CN107679231A (zh) * 2017-10-24 2018-02-09 济南浪潮高新科技投资发展有限公司 一种垂直领域与开放领域混合型智能问答***的实现方法
CN107992518A (zh) * 2017-10-31 2018-05-04 厦门快商通信息技术有限公司 一种提升智能对话速度的自动问答方法及***
CN107992539A (zh) * 2017-11-24 2018-05-04 合肥博焱智能科技有限公司 基于人工智能的景区导游咨询***
CN108345640B (zh) * 2018-01-12 2021-10-12 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN108345640A (zh) * 2018-01-12 2018-07-31 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN109344385A (zh) * 2018-01-30 2019-02-15 深圳壹账通智能科技有限公司 自然语言处理方法、装置、计算机设备和存储介质
CN109344385B (zh) * 2018-01-30 2020-12-22 深圳壹账通智能科技有限公司 自然语言处理方法、装置、计算机设备和存储介质
CN108280218A (zh) * 2018-02-07 2018-07-13 逸途(北京)科技有限公司 一种基于检索和生产混合问答的流程***
CN108416060A (zh) * 2018-03-23 2018-08-17 芜湖乐锐思信息咨询有限公司 一种基于移动互联的城市旅游问答***
CN108509617A (zh) * 2018-04-04 2018-09-07 上海智臻智能网络科技股份有限公司 知识库构建、基于知识库的智能问答方法及装置、存储介质、终端
CN108846292A (zh) * 2018-05-30 2018-11-20 中国联合网络通信集团有限公司 脱敏处理方法及装置
CN108846292B (zh) * 2018-05-30 2021-08-17 中国联合网络通信集团有限公司 脱敏规则生成方法及装置
CN110737755A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 检索方法和装置
CN110750543A (zh) * 2018-07-05 2020-02-04 优视科技(中国)有限公司 人机交互方法、装置、***、存储介质、电子设备
CN109101579A (zh) * 2018-07-19 2018-12-28 深圳追科技有限公司 客服机器人知识库歧义检测方法
CN108984778A (zh) * 2018-07-25 2018-12-11 南京瓦尔基里网络科技有限公司 一种智能交互自动问答***以及自我学习方法
CN109460448A (zh) * 2018-08-31 2019-03-12 厦门快商通信息技术有限公司 一种可自主配置的faq服务框架
CN109460502A (zh) * 2018-09-14 2019-03-12 广州神马移动信息科技有限公司 答案聚类方法及其装置、电子设备、计算机可读介质
CN109582761A (zh) * 2018-09-21 2019-04-05 浙江师范大学 一种基于网络平台的词语相似度的中文智能问答***方法
CN109446304A (zh) * 2018-10-10 2019-03-08 长沙师范学院 智能客服会话方法及***
CN109460452A (zh) * 2018-10-10 2019-03-12 长沙师范学院 基于本体的智能客服***
CN109446305A (zh) * 2018-10-10 2019-03-08 长沙师范学院 智能旅游客服***的构建方法以及***
CN109359302A (zh) * 2018-10-26 2019-02-19 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法
CN109359302B (zh) * 2018-10-26 2023-04-18 重庆大学 一种领域化词向量的优化方法及基于其的融合排序方法
CN109614464A (zh) * 2018-10-31 2019-04-12 阿里巴巴集团控股有限公司 用于业务问题识别的方法及装置
CN109614464B (zh) * 2018-10-31 2023-10-27 创新先进技术有限公司 用于业务问题识别的方法及装置
CN109271503A (zh) * 2018-11-06 2019-01-25 北京猎户星空科技有限公司 智能问答方法、装置、设备及存储介质
CN109710746A (zh) * 2018-12-28 2019-05-03 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN110188174B (zh) * 2019-04-19 2021-10-29 浙江工业大学 一种基于专业词汇挖掘的专业领域faq智能问答方法
CN110188174A (zh) * 2019-04-19 2019-08-30 浙江工业大学 一种基于专业词汇挖掘的专业领域faq智能问答方法
CN110275937A (zh) * 2019-05-14 2019-09-24 闽江学院 一种问答机器人的构建方法和装置
CN110362651A (zh) * 2019-06-11 2019-10-22 华南师范大学 检索和生成相结合的对话方法、***、装置和存储介质
CN110263051A (zh) * 2019-06-11 2019-09-20 出门问问信息科技有限公司 用于问答***的问答对更新方法、装置、设备及存储介质
CN110309509A (zh) * 2019-06-28 2019-10-08 神思电子技术股份有限公司 一种语义知识库构建方法
CN110377700A (zh) * 2019-07-01 2019-10-25 厦门美域中央信息科技有限公司 一种专业知识语义检索***
CN110851576A (zh) * 2019-10-16 2020-02-28 迈达斯智能(深圳)有限公司 问答处理方法、装置、设备及可读介质
CN112925915A (zh) * 2019-12-06 2021-06-08 株式会社日立制作所 一种数据库中的数据生成方法及装置
CN111198940B (zh) * 2019-12-27 2023-01-31 北京百度网讯科技有限公司 Faq方法、问答检索***、电子设备和存储介质
CN111198940A (zh) * 2019-12-27 2020-05-26 北京百度网讯科技有限公司 Faq方法、问答检索***、电子设备和存储介质
CN111506721B (zh) * 2020-04-22 2022-10-11 福州大学 一种面向领域知识图谱的问答***及构建方法
CN111506721A (zh) * 2020-04-22 2020-08-07 福州大学 一种面向领域知识图谱的问答***及构建方法
CN111813911A (zh) * 2020-06-30 2020-10-23 神思电子技术股份有限公司 一种基于用户监督反馈的知识自动采集与更新***及其工作方法
CN111984774B (zh) * 2020-08-11 2024-02-27 北京百度网讯科技有限公司 搜索方法、装置、设备以及存储介质
CN111984774A (zh) * 2020-08-11 2020-11-24 北京百度网讯科技有限公司 搜索方法、装置、设备以及存储介质
CN111930911A (zh) * 2020-08-12 2020-11-13 杭州东方通信软件技术有限公司 一种快速领域问答方法及其装置
CN112527965A (zh) * 2020-12-18 2021-03-19 国家电网有限公司客户服务中心 基于专业库和闲聊库相结合的自动问答实现方法和装置
CN112749265A (zh) * 2021-01-08 2021-05-04 哈尔滨工业大学 一种基于多信息源的智能问答***
CN113239161A (zh) * 2021-05-08 2021-08-10 广州华多网络科技有限公司 多语种客服应答方法及其相应的装置、设备、介质
CN113360626B (zh) * 2021-07-02 2022-02-11 北京容联七陌科技有限公司 一种智能客服机器人的多场景混合问答推荐方法
CN113360626A (zh) * 2021-07-02 2021-09-07 北京容联七陌科技有限公司 一种智能客服机器人的多场景混合问答推荐方法
CN114757208B (zh) * 2022-06-10 2022-10-21 荣耀终端有限公司 一种问答匹配方法及装置
CN114757208A (zh) * 2022-06-10 2022-07-15 荣耀终端有限公司 一种问答匹配方法及装置
CN116578724A (zh) * 2023-07-14 2023-08-11 杭州朗目达信息科技有限公司 知识库知识结构构建方法及装置、存储介质和终端
CN116578724B (zh) * 2023-07-14 2023-09-29 杭州朗目达信息科技有限公司 知识库知识结构构建方法及装置、存储介质和终端
CN117132392A (zh) * 2023-10-23 2023-11-28 蓝色火焰科技成都有限公司 车辆贷款欺诈风险预警方法及***
CN117132392B (zh) * 2023-10-23 2024-01-30 蓝色火焰科技成都有限公司 车辆贷款欺诈风险预警方法及***

Similar Documents

Publication Publication Date Title
CN101373532A (zh) 旅游领域faq中文问答***实现方法
CN108804521B (zh) 一种基于知识图谱的问答方法及农业百科问答***
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及***
KR100533810B1 (ko) 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
CN103136352B (zh) 基于双层语义分析的全文检索***
CN1924858B (zh) 一种获取新词的方法、装置以及一种输入法***
CN111460787A (zh) 一种话题提取方法、装置、终端设备及存储介质
CN107679035B (zh) 一种信息意图检测方法、装置、设备和存储介质
CN111897914A (zh) 用于综合管廊领域的实体信息抽取及知识图谱构建方法
Vel Pre-processing techniques of text mining using computational linguistics and python libraries
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及***
CN102654873A (zh) 基于中文分词的旅游信息抽取与聚合方法
CN109033272A (zh) 一种基于概念的知识自动关联方法及装置
Wu et al. Text categorization using automatically acquired domain ontology
Shrawankar et al. Construction of news headline from detailed news article
Pasca et al. Answer mining from on-line documents
Algosaibi et al. Using the semantics inherent in sitemaps to learn ontologies
Guerram et al. A domain independent approach for ontology semantic enrichment
Bruggmann et al. Spatializing a digital text archive about history
KR100599450B1 (ko) 질의응답시스템에서의 정답색인 시스템 및 방법
CN112749186B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
Gamba et al. Language Technologies for the Creation of Multilingual Terminologies. Lessons Learned from the SSHOC Project
Magnini et al. Entailment graphs for text analytics in the excitement project
Ganesh et al. An Overview of Semantic Based Document Summarization in Different Languages
Buchmann et al. CITYTWIN–AI-based Decision Support System for Semantic Search and Analysis of Location-based Information for Urban and Site Planning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090225