CN104573028B - 实现智能问答的方法和*** - Google Patents

实现智能问答的方法和*** Download PDF

Info

Publication number
CN104573028B
CN104573028B CN201510017563.6A CN201510017563A CN104573028B CN 104573028 B CN104573028 B CN 104573028B CN 201510017563 A CN201510017563 A CN 201510017563A CN 104573028 B CN104573028 B CN 104573028B
Authority
CN
China
Prior art keywords
described problem
answer
retrieval process
semantic
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510017563.6A
Other languages
English (en)
Other versions
CN104573028A (zh
Inventor
马艳军
李国华
孙兴武
李兴建
张伟萌
韦豪杰
廖梦
宗明
张希娟
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510017563.6A priority Critical patent/CN104573028B/zh
Publication of CN104573028A publication Critical patent/CN104573028A/zh
Priority to EP15877593.2A priority patent/EP3096246A4/en
Priority to KR1020167022492A priority patent/KR101895249B1/ko
Priority to PCT/CN2015/086094 priority patent/WO2016112679A1/zh
Priority to US15/119,691 priority patent/US10242049B2/en
Priority to JP2016552590A priority patent/JP6309644B2/ja
Application granted granted Critical
Publication of CN104573028B publication Critical patent/CN104573028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种实现智能问答的方法和***。该方法包括:接收待查询的问题;对所述问题进行语义分析;根据语义分析的结果对所述问题进行相应的检索处理,所述检索处理包括语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中至少一个***对所述问题的检索处理;根据检索处理结果返回答案,有效地提高了回答问题的准确度。

Description

实现智能问答的方法和***
技术领域
本发明实施例涉及信息查询技术领域,尤其涉及一种实现智能问答的方法和***。
背景技术
智能问答***是基于海量互联网数据推理和对语言深度语义理解的智能***。智能问答机器***不仅可以回答知识类的问题,还可用于医疗、教育、生活、科技等各种与人们生活息息相关的领域,大幅提升人们获取信息的效率。
现有的智能问答***主要是基于社区的问答,通过对历史用户问题/回答数据进行挖掘,计算用户问题与问答站点中已有的问题之间的相似度,返回相似度高的用户回答。
上述智能问答***存在的缺陷在于:依托问答站点的问答***,对问题的覆盖低,无法解决中低频和冷门问题的用户需求;回答参差不齐,给出的答案不够精准。
发明内容
本发明实施例提供一种实现智能问答的方法和***,以提高回答问题的准确度。
第一方面,本发明实施例提供了一种实现智能问答的方法,包括:
接收待查询的问题;
对所述问题进行语义分析;
根据所述语义分析的结果对所述问题进行相应的检索处理,其中,所述检索处理包括语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中至少一个***对所述问题的检索处理;
根据检索处理结果返回答案。
第二方面,本发明实施例提供了一种实现智能问答的***,包括:
中控***,用于接收待查询的问题;
问题分析***,用于对所述问题进行语义分析;
所述中控***,还用于根据所述语义分析的结果将所述问题分发到相应的后端***进行相应的检索处理;
所述后端***,包括语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***;
所述中控***,还用于根据检索处理结果返回答案。
本发明实施例提供的实现智能问答的方法和***,通过对待查询的问题进行语义分析,并根据语义分析,采用语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中至少一个***对所述问题进行相应的检索处理,增加了问题的答案搜索范围,一方面,使得对问题的回答更加精确,另一方面,增加了问题的覆盖面,尤其是对于中低频和冷门问题也可以检索得到比较精确的答案,有效地提高了回答问题的准确度。
附图说明
为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例的实现智能问答的方法所适用的实现智能问答的***的网络架构示意图;
图1b为本发明实施例一提供的一种实现智能问答的方法的流程图;
图2a为本发明实施例二提供的一种实现智能问答的方法的流程图;
图2b为本发明实施例二的实现智能问答的方法中一种建立三元关系库的流程图;
图3为本发明实施例三提供的一种实现智能问答的方法中一种正文库检索***对问题进行检索处理的流程图;
图4为本发明实施例四提供的一种实现智能问答的方法中根据检索处理结果返回答案的流程图;
图5为本发明实施例五提供的一种实现智能问答的***的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
本发明实施例的方法可以由配置以硬件和/或软件实现的实现智能问答的***来执行。
为清楚起见,下面结合图1a首先介绍该***的网络架构。该***包括:中控***、问题分析***和后端***。
其中,所述中控***用于接收待查询的问题(即图1a中的query),可以通过设定的文本框接收用户输入的待查询的问题,也可以通过设定的动作按钮接收用户输入的待查询的问题,例如,通过用于接收用户语音的动作按钮接收用户输入的语音,通过语音识别,得到与输入语音对应的内容,作为待查询的问题;所述问题分析***用于对所述问题进行语义分析;所述中控***还用于根据所述语义分析的结果将所述问题分发到相应的后端***进行相应的检索处理;所述后端***包括语义关系(Frame)挖掘***、正文库检索***、知识库检索***和问答库检索***;所述中控***还用于根据检索处理结果返回答案(即图1a中的Merge后的结果)。
需要说明的是,所述中控***是所述实现智能问答的***的核心控制***,负责接收待查询的问题,以及将所述问题转发至问题分析***,并根据所述问题分析***的语义分析的结果,基于预设分发策略,将所述问题分发到相应的后端***进行相应的检索处理,具体是将所述问题分发到语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中的至少一个***进行相应的检索处理,之后,根据检索处理结果返回答案,使中控***的前端用户获知与所述待查询的问题对应的答案,实现了智能问答。
其中,不同的后端***对应不同的资源库,将在下述实施例中详细说明。另外,分发策略也将在后面进行说明。
实施例一
请参阅图1b,本实施例提供的实现智能问答的方法包括:操作110~操作140。
操作110中,接收待查询的问题。
本操作中,由中控***接收待查询的问题。可以通过用户界面中设定的文本框接收用户输入的待查询的问题,也可以通过用户界面中设定的动作按钮接收用户输入的待查询的问题,例如,通过用于接收用户语音的动作按钮接收用户输入的语音,通过语音识别,得到与输入语音对应的内容,作为待查询的问题。
需要说明的是,接收的所述待查询的问题的覆盖面可以很广,换言之,可针对任意问题,既可以是出现频率较高的、用户关心的问题,也可以是出现频率中等、用户对现有的问答***提供的答案满意度较低的问题,还可以覆盖冷门问题,即出现频率非常低的问题。
操作120中,对所述问题进行语义分析。
本操作由问题分析***执行,可以对所述问题进行基础词法分析,所述基础词法分析可以包括对所述问题进行分词处理和词性标注处理,还可以包括确定所述问题中的检索词的重要性以及对所述问题进行依存句法分析等。
其中,依存句法最早由法国语言学家L.Tesniere于1959年在其著作《结构句法基础》中提出,对语言学的发展产生了深远的影响,依存句法分析是自然语言处理领域中句法分析的一个重要分支。依存语法分析将句子分析成一颗依存句法树,描述出各个词语之间的依存关系,从而揭示句子的句法结构,主张句子中核心动词是支配其它成分的中心成分,而核心动词本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。
本操作中,除对所述问题进行基础词法分析之外,还优选包括识别所述问题的焦点、观点及观点类型。
其中,所述问题的焦点是问题答案的引用,可以代替答案,用来构成完整的陈述句。如问题“2013年温网女单冠军是谁”的焦点是“是谁”。识别所述问题的焦点主要通过规则识别,该识别规则可以为:如果所述问题为带有疑问词的问题,则所述问题的焦点为该疑问词;如果所述问题为不带疑问词的问题,则所述问题的焦点默认为空。
其中,识别所述问题的观点是指识别所述问题的观点的个数,即所述问题具有的观点的数量。所述问题的观点的数量可以是泛需求,泛需求的观点个数一般大于8个,也可以是具体数量。例如,问题“野生动物有哪些”的观点的数量有成千上万,分别对应不同的野生动物,则该问题的观点定义为泛需求;又如,问题“中国古代四大美女”的观点个数为4个,因为问题中显示提到了“四大”;再如,问题“2013年温网女单冠军是谁”的观点个数为1个,因为当前问题语境下,冠军是个人。
其中,识别所述问题的观点类型是指识别用户所需的观点属于什么类型。如问题“2013年温网女单冠军是谁”,则该问题的观点的类型为“冠军”。问题的观点类型的识别方法分为规则识别方法和模型学习模型两种:规则识别方法中观点的类型为焦点的前一个词;模型学习模型利用依存句法分析等工具为基础生成训练语料和训练模型动态,从而识别问题的观点类型。
进一步地,在识别所述问题的观点类型之后,还可以包括:对所述问题的观点类型进行归一化处理。
问题的观点类型的归一化是将问题的观点类型映射到固定类别体系中。如问题“2013年温网女单冠军是谁”,焦点为“是谁”,观点类型为“冠军”,归一化至类别“人物”中。问题的观点类型的归一化方法通常基于观点规则或观点词表进行归一化。
操作130中,根据所述语义分析的结果对所述问题进行相应的检索处理,其中,所述检索处理包括语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中至少一个***对所述问题的检索处理。
如前所述,本操作由中控***和后端***执行,具体是根据所述问题分析***的语义分析的结果,基于预设分发策略,将所述问题分发到相应的后端***进行相应的检索处理,具体是将所述问题分发到语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中的至少一个***进行相应的检索处理。
上述各种后端***,可以单独执行,也可以组合采用。
其中,根据所述语义分析的结果对所述问题进行相应的检索处理所依据的分发策略可以包括:
当分析的问题类型为结构上的依存类型(即“上一句/下一句”类型)时,所述语义关系挖掘***对所述问题进行检索处理,否则,所述正文库检索***、知识库检索***和问答库检索***对所述问题进行检索处理。
需要说明的是,各个后端***对所述问题的检索处理是相互独立的。
下面对不同后端***对应的资源库分别进行说明。
语义关系挖掘***的资源库包括两部分:一部分为倒排索引库,另一部分为Kv(Key Value,即键值)资源库,该倒排索引库和Kv资源库可以通过离线文档处理程序进行构建。其中,一般在文档集合里会有很多文档包含某个单词,每个文档会记录文档编号,单词在这个文档中出现的次数及单词在文档中哪些位置出现过等信息,这样与一个文档相关的信息被称做倒排索引,利用倒排索引,可以提高检索效率。Kv资源库包含挖掘的诗词类资源和歌词等资源,用于处理依存类型问题。
正文库检索***的资源库包括:正文库和Kv资源库。其中,正文库基于搜索引擎对海量非结构化的网页的索引、分析和排序技术,根据海量非结构化网页数据建立。Kv资源库根据百度百科以及维基(wiki)百科等文库建立。由于海量非结构化的网页数据和百度百科及***等文库包含了丰富的知识,因此正文库检索***是整个后端***的核心,也即是实现智能问答的核心处理***,可以实现对用户输入的待查询的问题的答案检索。
知识库检索***的资源库为线下挖掘的结构化的知识库,以<实体,属性,值>三元组形式存储,例如:<张三,老婆,美眉>、<美眉、星座、白羊座>、<阿凡达,作者,詹姆斯·卡梅隆>等,并负责以知识库信息为基础进行推理。如问题“张三的老婆是什么星座?”,通过张三的老婆是美眉及美眉的星座是白羊座,推理得到该问题的答案是“白羊座”。
问答库检索***的资源库为基于线下挖掘的高质量问答数据,比如百度知道中历史用户的提问和回答,而形成的问答社区资源库。问答库检索***的处理流程与正文库检索***处理流程类似,下述实施例三将对正文库检索***的具体处理流程进行详细说明。
操作140中,根据检索处理结果返回答案。
本实施例的技术方案,通过对待查询的问题进行语义分析,并根据语义分析,采用语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中至少一个***对所述问题进行相应的检索处理,增加了问题的答案搜索范围,一方面,使得对问题的回答更加精确,另一方面,增加了问题的覆盖面,尤其是对于中低频和冷门问题也可以检索得到比较精确的答案,有效地提高了回答问题的准确度。
本发明实施例提供的实现智能问答的方法的执行主体可以作为云端***,可嵌入任意外形的机器人中,应用于任何问答类的场景。例如,应用于作业辅导:学生对于生疏的知识点可以直接与实现智能问答的***对话,获取更全面和真实有用的信息辅导,如“万有引力定律是谁提出的?它的提出有什么意义”;又如,应用于公共场合自动客服:在商场或选衣服时候,通过与实现智能问答的***交互,从而获知天然纤维和化学纤维哪个好,分别有什么优缺点的信息,或者公园游览时,游客通过与实现智能问答的***交互,从而获知玫瑰的花期等信息;再如,应用于辅助医疗:结合互联网大数据和用户病例信息,利用实现智能问答的***的分析和推理,给出供参考的病例成因分析。
示例性的,上述根据所述语义分析的结果对所述问题进行相应的检索处理,包括:
当分析的问题类型为结构上的依存类型时,所述语义关系挖掘***对所述问题进行检索处理,否则,所述正文库检索***、知识库检索***和问答库检索***对所述问题进行检索处理。
示例性的,上述语义关系挖掘***对所述问题进行检索处理,包括:
从三元关系库中查找得到所述问题的答案。
示例性的,上述三元关系库的建立,包括:
对网络中的原始网页进行语法分析,得到具有依存关系的句子;
提取依存关系的节点,得到三元关系对;
对所述三元关系对进行合理性验证,利用验证通过的三元关系对建立所述三元关系库。
示例性的,上述得到具有依存关系的句子之前,还包括:
去除句子中的括号内的内容。
示例性的,上述得到三元关系对之前,还包括:
补充所述具有依存关系的句子中缺失的主语、状语和宾语中的至少一项。
示例性的,上述正文库检索***对所述问题进行检索处理,包括:
搜索出与所述问题相关的文档集合;
从所述文档集合中查找候选片段,其中,所述候选片段中包含有候选答案;
从所述候选片段中抽取所述候选答案,并进行第一次排序。
示例性的,上述进行第一次排序,包括:
根据统一资源定位符URL权值、偏移权值和问题匹配度中的至少一个特征进行排序,其中,所述URL权值为所述候选答案所属文档所属站点和URL链接的权值,所述偏移权值为所述候选答案在不同候选片段中与所述问题中关键词的距离系数,所述问题匹配度为所述候选答案与所述问题的观点类型的语义匹配度。
示例性的,上述根据检索处理结果返回答案,包括:
利用领域内知识对所述检索处理结果进行过滤;
根据过滤结果返回答案。
示例性的,上述根据过滤结果返回答案,包括:
对所述过滤结果进行第二次排序;
将排序后的过滤结果返回。
示例性的,上述根据过滤结果返回答案,对所述过滤结果进行第二次排序,包括:
使用有监督的机器学习模型对所述过滤结果进行排序。
示例性的,上述根据过滤结果返回答案,包括:
对所述过滤结果进行第三次排序;
将排序后的过滤结果返回。
示例性的,上述对所述过滤结果进行第三次排序,包括:
验证所述候选答案与所述问题的匹配程度;
根据所述匹配程度对所述候选答案进行排序。
实施例二
本实施例在上述实施例的基础上,给出了另一种实现智能问答的方法的技术方案。
请参阅图2a,本实施例提供的实现智能问答的方法具体包括:操作210~操作240。
操作210中,接收待查询的问题。
操作220中,对所述问题进行语义分析,得到问题的观点类型为“上一句”或“下一句”。
本操作同样适用于前述实施例中对所述问题进行基础词法分析的操作,以及识别所述问题的焦点、观点及观点类型的操作,此处不再赘述。
操作230中,语义关系挖掘***从三元关系库中查找得到所述问题的答案。
本操作中,三元关系库中的三元关系涵盖了以动词为核心的依存关系、实体与属性的依存关系以及不同实体之间的依存关系,而且三元关系库中的三元关系经过了合理性验证。
所述三元关系库的建立,请参阅图2b,优选包括:操作231~操作236。
操作231中,预处理。
去除句子中的括号如“()”中的内容,避免对依存句法分析的结构造成影响。
操作232中,基础词/句法分析。
对原始网页中的文本包含的句子部分进行分词、专名识别、实体识别、词性标注以及依存分析,从而得到具有依存关系的句子。
操作233中,状语片段识别。
例如,对逗号分开的片段进行片段类型识别,主要分为时间状语片段、非时间状语片段和其他片段。
操作234中,提取三元关系对。
本操作具体是根据依存分析的每一个父亲节点进行关系提取,得到三元关系对。所述三元关系对具体包括:以动词为核心的依存关系、实体与属性的依存关系以及不同实体之间的依存关系。如,学生A得奖,“学生A”与“奖”之间是以动词为核心的依存关系;黄山很美,“黄山”和“很美”是实体与属性之间的依存关系;“百日依山尽”的下一句是“黄河入海流”,可以理解为不同实体之间的依存关系。
操作235中,缺失成分补充。
例如,进行主语补充、时间和地点状语补充、宾语补充等。
操作236中,合理性验证及过滤。
对于分析出来的三元关系对,判断是否合理,若不合理则不保留该三元关系对,即对于分析出来的三元关系对进行过滤,只保留合理也即验证通过的三元关系对。然后,利用验证通过的三元关系对建立所述三元关系库。
例如,从原始网页中提取到“黄河入海流,百日依山尽”,在操作233中根据该原始网页提取得到“黄河入海流”是“百日依山尽”的上一句,则根据已有的诗词资源,可判定这个三元关系对不合理,因此,滤除该三元关系对。
操作240中,根据检索处理结果返回答案。
本实施例的技术方案,通过对待查询的问题进行语义分析,并根据语义分析,采用语义关系挖掘***从三元关系库中对所述问题进行相应的检索处理,查找得到所述问题的答案,由于三元关系库中的三元关系涵盖了以动词为核心的依存关系、实体与属性的依存关系以及不同实体之间的依存关系,增加了问题的答案搜索范围,因此增加了问题的覆盖面,尤其是可以覆盖中低频和冷门问题,而且由于三元关系库中的三元关系经过了合理性验证,因此使得对问题的回答更加准确。
需要说明的是,在建立三元关系库的过程中,在得到三元关系对之前,还可以包括:补充所述具有依存关系的句子中缺失的主语、状语和宾语中的至少一项。
具体地,可以识别得到具有依存关系的句子的片段类型,包括:主语、谓语、宾语和状语等,其中状语又可以包括时间状语、地点状语、原因状语和结果状语等类型。谓语作为动词,如前所述,依存语法分析将句子分析成一颗依存句法树,描述出各个词语之间的依存关系,从而揭示句子的句法结构,主张句子中核心动词是支配其它成分的中心成分,而核心动词本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。以动词为核心的依存关系是指谓语与其他类型的片段之间的依存关系。
本方式,通过补充具有依存关系的句子中缺失的除谓语外的其他成分,有利于丰富三元关系中以动词为核心的依存关系,进一步增加了问题的答案搜索范围,进一步增加了问题的覆盖面,尤其是可以覆盖中低频和冷门问题。
实施例三
本实施例在实施例一的基础上,将根据所述语义分析的结果对所述问题进行相应的检索处理这一操作优化为根据所述语义分析的结果,所述正文库检索***对所述问题进行检索处理。
请参阅图3,为本发明实施例三提供的一种实现智能问答的方法中一种正文库检索***对问题进行检索处理的流程图。具体包括:操作310~操作330。
操作310中,搜索相关文档。
从资源库进行检索,得到网页正文及点击日志,搜索出与所述问题相关的文档集合。
本操作可以通过搜索引擎搜索所述问题,召回相关的网页集合,作为与所述问题相关的文档集合,搜索引擎的相关性排序从一定程度上体现了各文档的重要程度。具体地,可以通过搜索引擎搜索所述问题,得到与所述问题相关的检索结果和其他资源,所述其他资源包括摘要、URL(Uniform Resource Locator,统一资源定位符)、文档点击数据以及文档的正文信息等,之后,通过URL获取召回网页对应的文档内容,用于深度分析问题和答案;通过点击日志分析各个文档对问题的满意程度。
其中,点击日志是从URL级别评价点击的各个文档对问题的满意程度的。
还可以进一步包括预处理,将不同的表述方法,但实质相同的资源进行合并,如时间类“2010年3月”和“2010.03”等;以及修正表示错误的资源。
还可优选包括文档相关性计算以及文档排序。
可以结合语义相似度等特征计算计算文档相关性。语义相似度计算是指计算问题与文档标题的相似度值,其中语义计算方法主要利用检索词的重要性,检索词的同义词替换,检索词改写等信息进行计算。
文档相关性排序是指搜索引擎根据问题中的检索词召回大量网页文档,却不限制其转义风险。文档相关性排序方法根据百度搜索引擎的检索排序结果,点击日志中分析的网页用户满意程度,并结合语义相似度计算等特征进行相关性重排序,解决内容转义问题。其中,内容转义有可能会引入噪音数据,导致抽取出错误答案或在排序阶段导致错误答案排序较高。
操作320中,候选片段抽取及排序。
从所述文档集合中查找候选片段,其中,所述候选片段中包含有候选答案。
可以首先对各文档进行划分,文档划分一般以段落或以多个句子为单位,然后通过设定的关键词从各文档中检索得到与所述设定关键词对应的片段作为候选片段,用于进一步定位候选答案。
还可以进一步对候选片段进行排序,具体可以根据来源文档的相关性权值、候选片段的内容相似度、候选片段的相关性等特征进行片段置信度的计算及依据置信度进行候选片段的排序。
来源文档的相关性权值计算采用文档相关性重排序的相关特征进行线性拟合得到。候选片段的内容相似度用于计算问题与候选片段的内容相似度,采用方法为语义相似度计算。候选片段的相关性计算用于度量问题与候选片段的相关性,计算方法主要利用问题中各检索词的重要性、各检索词在候选片段中的命中个数及命中位置等特征拟合。
操作330中,候选答案抽取及排序。
从所述候选片段中抽取所述候选答案,并进行第一次排序。
本操作中,候选答案抽取操作可以利用线下挖掘的开放领域词典,采用命名实体识别技术实现,其中,开放领域词典为综合词典。
第一次排序操作优选是,根据URL权值、偏移权值和问题匹配度中的至少一个特征进行排序,其中,所述URL权值为所述候选答案所属文档所属站点和URL链接的权值,所述偏移权值为所述候选答案在不同候选片段中与所述问题中关键词的距离系数,所述问题匹配度为所述候选答案与所述问题的观点类型的语义匹配度。
还可以根据候选答案与问题中关键词的共现权值对候选答案进行第一次排序。
此外,还可以根据下述至少一个特征对候选答案进行第一次排序:候选答案在候选片段中出现的位置、检索结果中候选答案的逆文档频率、来源文档的相关性以及来源候选片段的相关性以及不同候选片段对同一答案(包括同义答案)的置信度加权投票权值。
其中,来源文档的相关性采用文档相关性重排序的相关特征进行线性拟合得到;来源候选片段的相关性通过来源文档相关性及来源片段与问题之间语义匹配度线性拟合得到。
上述对候选答案的第一次排序主要保证对候选答案的召回,避免过多的答案进入二次排序影响排序性能和噪音控制。
实施例四
本实施例在上述各实施例的基础上,提供了根据检索处理结果返回答案这一操作的优选方案。
请参阅图4,为本发明实施例四提供的一种实现智能问答的方法中根据检索处理结果返回答案的流程图。具体包括:操作410~操作420。
操作410中,利用领域内知识对所述检索处理结果进行过滤。
不同的问题和不同的答案类型所需要的知识、特征和排序算法都会有差别。因此可以利用不同领域的知识对检索处理结果进行过滤,得到与问题匹配的检索处理结果。
领域知识的构建主要为精准领域知识词典的构建。如:金毛犬属于狗类,墨龙睛是鱼的一种。若问题类型为狗,则候选答案“墨龙睛”将会被领域词典过滤掉。
领域词典的构建主要通过定向站点结构化数据挖掘(如qidian.com挖掘小说实体)、大规模互联网无结构化/半结构化数据挖掘和校验(如利用百科等知识类社区的分类标签挖掘实体)、检索日志挖掘(如从问题“天龙八部电影”对应的检索日志中挖掘天龙八部为电影实体)等算法实现。
操作420中,根据过滤结果返回答案。
本操作可以有多种实现方式,以下述几种为例进行说明。
第一种实施方式中,根据过滤结果返回答案,具体包括:
对所述过滤结果进行第二次排序;
将排序后的过滤结果返回。
其中,可以使用有监督的机器学习模型(如GBRank机器学习模型)对所述过滤结果进行第二次排序。
所述机器学习模型是对包含已排序的样本答案语句以及对应的排序特征进行学习训练得到的,包括下述至少一种排序特征:问题匹配度、偏移权值、答案与问题的共现信息、答案边界特征和答案可信度。
所述问题匹配度为所述候选答案与所述问题的观点类型的语义匹配度,问题匹配度的计算方式一般利用大规模语料中统计的问题的扩展向量与候选答案的扩展向量的匹配程度进行拟合计算。所述偏移权值为所述候选答案在不同候选片段中与所述问题中关键词的距离系数。答案与问题的共现信息用于衡量问题在候选答案的主语境中的重要程度,对实体类的答案与问题的共现信息计算可利用候选答案在百度百科中的信息与问题中关键词计算共现程度。所述答案边界特征是指答案左边界和右边界的信息,如书名号、引号、顿号等。其中,答案可信度与来源文档相关,每个文档都看作一个举证来源,参与一次投票,每个来源文档每次投一票,理论上得票越高的文档对应的答案可信度越高;也可以根据答案所属的候选片段确定答案可信度,每个候选片段所述的文档都看作一个举证来源,参与一次投票,每个来源每次投票的权值由候选片段的相关性决定,理论上得票越高的答案可信度越高。
本实施方式可以单独使用,也可以与前述第一次排序组合使用,优选是,在从候选片段中抽取候选答案,并进行第一次排序,以及利用领域内知识执行所述过滤操作后,对所述过滤结果进行第二次排序。
本优选的实施方式,从候选片段中抽取候选答案后,利用URL权值、偏移权值和问题匹配度中的至少一个特征进行第一次排序,提高了排序靠前的答***性;利用专业领域知识对不同类别的问题对应的答案进行过滤,保证了不同类别的问题对应的答案的专业性和权威性;利用问题匹配度、偏移权值、答案与问题的共现信息、答案边界特征和答案可信度中的至少一个特征对过滤结果进行第二次排序,在保证问题对应的答案的专业性和权威性的同时,进一步优化了排序靠前的答***性。
第二种实施方式中,根据过滤结果返回答案,具体包括:
对所述过滤结果进行第三次排序;
将排序后的过滤结果返回。
进一步地,对所述过滤结果进行第三次排序,优选包括:
验证所述候选答案与所述问题的匹配程度;
根据所述匹配程度对所述候选答案进行排序。
具体地,可以利用二次检索验证所述候选答案与所述问题的匹配程度。二次检索能提供问题与答案更丰富的匹配信息,是指将候选答案替换原问题的焦点,也即将候选答案代入到原问题中进行二次检索,并统计新问题与候选答案的相关信息。如:新问题与候选答案在二次检索返回的文档中是否连贯出现、新问题与候选答案的共现信息、新问题中关键词的命中情况等。若当前文档的标题是问题类标题,则焦点识别、答案类型识别在文档标题上进行识别。若问题无焦点,则将答案加到原问题的末尾,以分隔符分割后进行二次检索。
本实施方式可以单独使用,也可以与前述第一次排序和/或前述第二次排序组合使用。
单独使用由于将候选答案代入到原问题作为新问题进行二次检索,根据新问题与候选答案的相关信息,对答案的排列顺序进行优化调整,能够提高排序靠前的答案与原待查询的问题的匹配程度。
在从候选片段中抽取候选答案,并进行第一次排序,以及利用领域内知识执行所述过滤操作后,对所述过滤结果进行第二次排序,并进行所述第三次排序,这种组合方式,从候选片段中抽取候选答案后,利用URL权值、偏移权值和问题匹配度中的至少一个特征进行第一次排序,提高了排序靠前的答***性;利用专业领域知识对不同类别的问题对应的答案进行过滤,保证了不同类别的问题对应的答案的专业性和权威性;利用问题匹配度、偏移权值、答案与问题的共现信息、答案边界特征和答案可信度中的至少一个特征对过滤结果进行第二次排序,在保证问题对应的答案的专业性和权威性的同时,进一步优化了排序靠前的答***性;并通过将候选答案代入到原问题作为新问题进行二次检索,根据新问题与候选答案的相关信息,对答案的排列顺序进行优化调整,进一步提高了排序靠前的答案与原待查询的问题的匹配程度。
实施例五
本实施例提供一种实现智能问答的***,请参阅图5,该***包括:中控***510、问题分析***520和后端***530。
其中,中控***510用于接收待查询的问题;问题分析***52用于对所述问题进行语义分析;所述中控***510还用于根据所述语义分析的结果将所述问题分发到相应的后端***530进行相应的检索处理;所述后端***530,包括语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***;所述中控***510还用于根据检索处理结果返回答案。
本实施例的技术方案,通过对待查询的问题进行语义分析,并根据语义分析,采用语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中至少一个***对所述问题进行相应的检索处理,增加了问题的答案搜索范围,一方面,使得对问题的回答更加精确,另一方面,增加了问题的覆盖面,尤其是对于中低频和冷门问题也可以检索得到比较精确的答案。
在上述方案中,所述问题分析***520具体可以用于:识别所述问题的焦点、观点及观点类型。
进一步地,所述问题分析***520在识别所述问题的观点类型之后,还可以用于:对所述问题的观点类型进行归一化处理。
在上述方案中,所述中控***510具体可以用于:当分析的问题类型为结构上的依存类型时,将所述问题分发到所述语义关系挖掘***进行检索处理,否则,将所述问题分发到所述正文库检索***、知识库检索***和问答库检索***进行检索处理。
其中,所述语义关系挖掘***具体可以用于:从三元关系库中查找得到所述问题的答案。
所述语义关系挖掘***还可以用于:
对网络中的原始网页进行语法分析,得到具有依存关系的句子;
提取依存关系的节点,得到三元关系对;
对所述三元关系对进行合理性验证,利用验证通过的三元关系对建立所述三元关系库。
所述语义关系挖掘***在得到具有依存关系的句子之前,还可以用于:去除句子中的括号内的内容。
所述语义关系挖掘***在得到三元关系对之前,还可以用于:补充所述具有依存关系的句子中缺失的主语、状语和宾语中的至少一项。
其中,所述正文库检索***具体可以用于:
搜索出与所述问题相关的文档集合;
从所述文档集合中查找候选片段,其中,所述候选片段中包含有候选答案;
从所述候选片段中抽取所述候选答案,并进行第一次排序。
所述正文库检索***具体可以用于:根据URL权值、偏移权值和问题匹配度中的至少一个特征进行排序,其中,所述URL权值为所述候选答案所属文档所属站点和URL链接的权值,所述偏移权值为所述候选答案在不同候选片段中与所述问题中关键词的距离系数,所述问题匹配度为所述候选答案与所述问题的观点类型的语义匹配度。
在上述方案中,所述中控***510具体可以用于:
利用领域内知识对所述检索处理结果进行过滤;
根据过滤结果返回答案。
作为一种优选的实施方式,所述中控***510具体可以用于:
对所述过滤结果进行第二次排序;
将排序后的过滤结果返回。
进一步地,所述中控***510具体可以用于:使用有监督的机器学习***对所述过滤结果进行排序。
作为另一种优选的实施方式,所述中控***510具体可以用于:
对所述过滤结果进行第三次排序;
将排序后的过滤结果返回。
进一步地,所述中控***510具体可以用于:
验证所述候选答案与所述问题的匹配程度;
根据所述匹配程度对所述候选答案进行排序。
本发明实施例提供的实现智能问答的***可执行本发明任意实施例所提供的实现智能问答的方法,具备执行方法的相应功能模块和有益效果。
最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其进行限制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (26)

1.一种实现智能问答的方法,其特征在于,包括:
接收待查询的问题;
对所述问题进行语义分析;
根据所述语义分析的结果对所述问题进行相应的检索处理,其中,所述检索处理包括:基于预设分发策略,将所述问题分发到语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***中至少一个***进行检索处理,所述语义关系挖掘***对所述问题进行检索处理,包括:从三元关系库中查找得到所述问题的答案,所述三元关系库中的三元关系涵盖了以动词为核心的依存关系、实体与属性的依存关系以及不同实体之间的依存关系,所述三元关系库的建立,包括:
对网络中的原始网页进行语法分析,得到具有依存关系的句子;
提取依存关系的节点,得到三元关系对;
对所述三元关系对进行合理性验证,利用验证通过的三元关系对建立所述三元关系库;
根据检索处理结果返回答案。
2.根据权利要求1所述的方法,其特征在于,对所述问题进行语义分析,包括:
识别所述问题的焦点、观点及观点类型。
3.根据权利要求2所述的方法,其特征在于,识别所述问题的观点类型之后,所述方法还包括:
对所述问题的观点类型进行归一化处理。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述语义分析的结果对所述问题进行相应的检索处理,包括:
当分析的问题类型为结构上的依存类型时,所述语义关系挖掘***对所述问题进行检索处理,否则,所述正文库检索***、知识库检索***和问答库检索***对所述问题进行检索处理。
5.根据权利要求1所述的方法,其特征在于,得到具有依存关系的句子之前,还包括:
去除句子中的括号内的内容。
6.根据权利要求1所述的方法,其特征在于,得到三元关系对之前,还包括:
补充所述具有依存关系的句子中缺失的主语、状语和宾语中的至少一项。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述正文库检索***对所述问题进行检索处理,包括:
搜索出与所述问题相关的文档集合;
从所述文档集合中查找候选片段,其中,所述候选片段中包含有候选答案;
从所述候选片段中抽取所述候选答案,并进行第一次排序。
8.根据权利要求7所述的方法,其特征在于,进行第一次排序,包括:
根据统一资源定位符URL权值、偏移权值和问题匹配度中的至少一个特征进行排序,其中,所述URL权值为所述候选答案所属文档所属站点和URL链接的权值,所述偏移权值为所述候选答案在不同候选片段中与所述问题中关键词的距离系数,所述问题匹配度为所述候选答案与所述问题的观点类型的语义匹配度。
9.根据权利要求1-3任一项所述的方法,根据检索处理结果返回答案,包括:
利用领域内知识对所述检索处理结果进行过滤;
根据过滤结果返回答案。
10.根据权利要求9所述的方法,根据过滤结果返回答案,包括:
对所述过滤结果进行第二次排序;
将排序后的过滤结果返回。
11.根据权利要求10所述的方法,根据过滤结果返回答案,对所述过滤结果进行第二次排序,包括:
使用有监督的机器学习模型对所述过滤结果进行排序。
12.根据权利要求9所述的方法,根据过滤结果返回答案,包括:
对所述过滤结果进行第三次排序;
将排序后的过滤结果返回。
13.根据权利要求12所述的方法,对所述过滤结果进行第三次排序,包括:
验证候选答案与所述问题的匹配程度;
根据所述匹配程度对所述候选答案进行排序。
14.一种实现智能问答的***,其特征在于,包括:
中控***,用于接收待查询的问题;
问题分析***,用于对所述问题进行语义分析;
所述中控***,还用于根据所述语义分析的结果,基于预设分发策略,将所述问题分发到相应的后端***进行相应的检索处理;
所述后端***,包括语义关系挖掘***、正文库检索***、知识库检索***和问答库检索***,所述语义关系挖掘***具体用于:从三元关系库中查找得到所述问题的答案,所述三元关系库中的三元关系涵盖了以动词为核心的依存关系、实体与属性的依存关系以及不同实体之间的依存关系,所述三元关系库的建立,包括:
对网络中的原始网页进行语法分析,得到具有依存关系的句子;
提取依存关系的节点,得到三元关系对;
对所述三元关系对进行合理性验证,利用验证通过的三元关系对建立所述三元关系库;
所述中控***,还用于根据检索处理结果返回答案。
15.根据权利要求14所述的***,其特征在于,所述问题分析***具体用于:
识别所述问题的焦点、观点及观点类型。
16.根据权利要求15所述的***,其特征在于,所述问题分析***在识别所述问题的观点类型之后,还用于:
对所述问题的观点类型进行归一化处理。
17.根据权利要求14-16任一项所述的***,其特征在于,所述中控***具体用于:
当分析的问题类型为结构上的依存类型时,将所述问题分发到所述语义关系挖掘***进行检索处理,否则,将所述问题分发到所述正文库检索***、知识库检索***和问答库检索***进行检索处理。
18.根据权利要求14所述的***,其特征在于,所述语义关系挖掘***在得到具有依存关系的句子之前,还用于:
去除句子中的括号内的内容。
19.根据权利要求14所述的***,其特征在于,所述语义关系挖掘***在得到三元关系对之前,还用于:
补充所述具有依存关系的句子中缺失的主语、状语和宾语中的至少一项。
20.根据权利要求14-16任一项所述的***,其特征在于,所述正文库检索***具体用于:
搜索出与所述问题相关的文档集合;
从所述文档集合中查找候选片段,其中,所述候选片段中包含有候选答案;
从所述候选片段中抽取所述候选答案,并进行第一次排序。
21.根据权利要求20所述的***,其特征在于,所述正文库检索***具体用于:
根据统一资源定位符URL权值、偏移权值和问题匹配度中的至少一个特征进行排序,其中,所述URL权值为所述候选答案所属文档所属站点和URL链接的权值,所述偏移权值为所述候选答案在不同候选片段中与所述问题中关键词的距离系数,所述问题匹配度为所述候选答案与所述问题的观点类型的语义匹配度。
22.根据权利要求14-16任一项所述的***,所述中控***具体用于:
利用领域内知识对所述检索处理结果进行过滤;
根据过滤结果返回答案。
23.根据权利要求22所述的***,所述中控***具体用于:
对所述过滤结果进行第二次排序;
将排序后的过滤结果返回。
24.根据权利要求23所述的***,所述中控***具体用于:
使用有监督的机器学习***对所述过滤结果进行排序。
25.根据权利要求22所述的***,所述中控***具体用于:
对所述过滤结果进行第三次排序;
将排序后的过滤结果返回。
26.根据权利要求25所述的***,所述中控***具体用于:
验证候选答案与所述问题的匹配程度;
根据所述匹配程度对所述候选答案进行排序。
CN201510017563.6A 2015-01-14 2015-01-14 实现智能问答的方法和*** Active CN104573028B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201510017563.6A CN104573028B (zh) 2015-01-14 2015-01-14 实现智能问答的方法和***
EP15877593.2A EP3096246A4 (en) 2015-01-14 2015-08-05 Method, system and storage medium for realizing intelligent answering of questions
KR1020167022492A KR101895249B1 (ko) 2015-01-14 2015-08-05 지능 문답 구현 방법, 시스템 및 저장 매체
PCT/CN2015/086094 WO2016112679A1 (zh) 2015-01-14 2015-08-05 实现智能问答的方法、***和存储介质
US15/119,691 US10242049B2 (en) 2015-01-14 2015-08-05 Method, system and storage medium for implementing intelligent question answering
JP2016552590A JP6309644B2 (ja) 2015-01-14 2015-08-05 スマート質問回答の実現方法、システム、および記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510017563.6A CN104573028B (zh) 2015-01-14 2015-01-14 实现智能问答的方法和***

Publications (2)

Publication Number Publication Date
CN104573028A CN104573028A (zh) 2015-04-29
CN104573028B true CN104573028B (zh) 2019-01-25

Family

ID=53089090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510017563.6A Active CN104573028B (zh) 2015-01-14 2015-01-14 实现智能问答的方法和***

Country Status (6)

Country Link
US (1) US10242049B2 (zh)
EP (1) EP3096246A4 (zh)
JP (1) JP6309644B2 (zh)
KR (1) KR101895249B1 (zh)
CN (1) CN104573028B (zh)
WO (1) WO2016112679A1 (zh)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699689B (zh) * 2014-01-09 2017-02-15 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和***
CN104881446A (zh) * 2015-05-14 2015-09-02 百度在线网络技术(北京)有限公司 搜索方法及装置
CN104933097B (zh) * 2015-05-27 2019-04-16 百度在线网络技术(北京)有限公司 一种用于检索的数据处理方法和装置
CN104850539B (zh) * 2015-05-28 2017-08-25 宁波薄言信息技术有限公司 一种自然语言理解方法及基于该方法的旅游问答***
CN109241266B (zh) * 2015-07-23 2020-09-11 上海智臻智能网络科技股份有限公司 人机交互中基于标准问创建扩展问的方法和装置
CN105243120A (zh) * 2015-09-29 2016-01-13 百度在线网络技术(北京)有限公司 一种检索方法及装置
CN105653576A (zh) * 2015-12-16 2016-06-08 上海智臻智能网络科技股份有限公司 信息搜索的方法及装置、人工座席服务方法及***
CN105549949A (zh) * 2015-12-18 2016-05-04 合肥寰景信息技术有限公司 一种网络社区的语音帮助提示方法
CN105589844B (zh) * 2015-12-18 2017-08-08 北京中科汇联科技股份有限公司 一种用于多轮问答***中缺失语义补充的方法
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及***
CN105677896B (zh) * 2016-02-03 2019-08-02 北京光年无限科技有限公司 基于主动学习的交互方法及交互***
CN105786794B (zh) * 2016-02-05 2018-09-04 青岛理工大学 一种问答对检索方法及社区问答检索***
CN105843875B (zh) * 2016-03-18 2019-09-13 北京光年无限科技有限公司 一种面向智能机器人的问答数据处理方法及装置
CN108829682B (zh) * 2016-04-08 2022-10-28 上海智臻智能网络科技股份有限公司 计算机可读存储介质、智能问答方法及智能问答装置
CN105912645B (zh) * 2016-04-08 2019-03-05 上海智臻智能网络科技股份有限公司 一种智能问答方法及装置
US10902330B2 (en) * 2016-06-21 2021-01-26 International Business Machines Corporation Cognitive question answering pipeline calibrating
CN107818092B (zh) * 2016-09-12 2023-05-26 百度在线网络技术(北京)有限公司 文档处理方法及装置
CN106529268B (zh) * 2016-11-14 2019-05-24 上海智臻智能网络科技股份有限公司 一种校验方法及装置
CN106649778B (zh) 2016-12-27 2020-03-03 北京百度网讯科技有限公司 基于深度问答的交互方法和装置
CN106649761A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的搜索结果展现方法和装置
CN106844512B (zh) * 2016-12-28 2020-06-19 竹间智能科技(上海)有限公司 智能问答方法及***
US10268680B2 (en) 2016-12-30 2019-04-23 Google Llc Context-aware human-to-computer dialog
CN106826876A (zh) * 2017-01-18 2017-06-13 北京爱情说科技有限公司 一种智能行动机器人
CN108345608A (zh) * 2017-01-24 2018-07-31 北京搜狗科技发展有限公司 一种搜索方法、装置及设备
CN108319627B (zh) * 2017-02-06 2024-05-28 腾讯科技(深圳)有限公司 关键词提取方法以及关键词提取装置
CN106874441B (zh) * 2017-02-07 2024-03-05 腾讯科技(上海)有限公司 智能问答方法和装置
CN106997376B (zh) * 2017-02-28 2020-12-08 浙江大学 一种基于多级特征的问题和答案句子相似度计算方法
CN106911812A (zh) * 2017-05-05 2017-06-30 腾讯科技(上海)有限公司 一种会话信息的处理方法、服务器及计算机可读存储介质
CN107977393A (zh) * 2017-05-22 2018-05-01 海南大学 一种面向5w问答的基于数据图谱、信息图谱、知识图谱和智慧图谱的推荐引擎设计方法
CN107329995B (zh) * 2017-06-08 2018-03-23 北京神州泰岳软件股份有限公司 一种语义受控的答案生成方法、装置及***
CN107436916B (zh) * 2017-06-15 2021-04-27 百度在线网络技术(北京)有限公司 智能提示答案的方法及装置
CN107248937A (zh) * 2017-06-30 2017-10-13 北京百度网讯科技有限公司 一种基于物联网的与用户进行交互的方法与***
CN107506411A (zh) * 2017-08-10 2017-12-22 熊英 一种安全可信的知识服务方法与***
CN107741976B (zh) * 2017-10-16 2021-07-09 泰康保险集团股份有限公司 智能应答方法、装置、介质和电子设备
US10691764B2 (en) * 2017-10-23 2020-06-23 International Business Machines Corporation Search engine optimization techniques
CN107766511A (zh) * 2017-10-23 2018-03-06 深圳市前海众兴电子商务有限公司 智能问答方法、终端及存储介质
CN110019705A (zh) * 2017-10-31 2019-07-16 北京搜狗科技发展有限公司 一种信息处理方法、装置和用于信息处理的装置
CN109829037A (zh) * 2017-11-22 2019-05-31 上海智臻智能网络科技股份有限公司 智能自动问答的方法、***、服务器及存储介质
CN107895037B (zh) * 2017-11-28 2022-05-03 北京百度网讯科技有限公司 一种问答数据处理方法、装置、设备和计算机可读介质
JP7024364B2 (ja) * 2017-12-07 2022-02-24 富士通株式会社 特定プログラム、特定方法および情報処理装置
CN108304466B (zh) * 2017-12-27 2022-01-11 ***股份有限公司 一种用户意图识别方法以及用户意图识别***
CN108170792B (zh) * 2017-12-27 2021-12-28 北京百度网讯科技有限公司 基于人工智能的问答引导方法、装置和计算机设备
US11663249B2 (en) * 2018-01-30 2023-05-30 Intel Corporation Visual question answering using visual knowledge bases
CN110569335B (zh) * 2018-03-23 2022-05-27 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质
CN108932278B (zh) * 2018-04-28 2021-05-18 厦门快商通信息技术有限公司 基于语义框架的人机对话方法及***
CN108737530A (zh) * 2018-05-11 2018-11-02 深圳双猴科技有限公司 一种内容分享方法及***
CN108491394A (zh) * 2018-06-27 2018-09-04 杭州贝店科技有限公司 一种语义分析方法、装置、计算机设备及存储介质
US10997222B2 (en) * 2018-06-29 2021-05-04 International Business Machines Corporation Conversational agent dialog flow user interface
CN109147934B (zh) * 2018-07-04 2023-04-11 平安科技(深圳)有限公司 问诊数据推荐方法、装置、计算机设备和存储介质
CN110851560B (zh) * 2018-07-27 2023-03-10 杭州海康威视数字技术股份有限公司 信息检索方法、装置及设备
CN109242412B (zh) * 2018-08-14 2021-12-07 贵州华宁科技股份有限公司 考务管理***
CN109147793B (zh) * 2018-08-17 2020-11-10 南京星邺汇捷网络科技有限公司 语音数据的处理方法、装置及***
CN109189906A (zh) * 2018-08-17 2019-01-11 国家电网有限公司客户服务中心 智能客服对连贯语境下多问句完整语义的识别方法
CN110874400B (zh) * 2018-08-31 2023-06-13 比亚迪股份有限公司 在线客服的应答方法和装置、车辆客户端、客服服务端
CN109299231B (zh) * 2018-09-14 2020-10-30 苏州思必驰信息科技有限公司 对话状态跟踪方法、***、电子设备及存储介质
CN109271459B (zh) * 2018-09-18 2021-12-21 四川长虹电器股份有限公司 基于Lucene和文法网络的聊天机器人及其实现方法
CN110931137B (zh) 2018-09-19 2023-07-07 京东方科技集团股份有限公司 机器辅助对话***、方法及装置
CN109472305A (zh) * 2018-10-31 2019-03-15 国信优易数据有限公司 答案质量确定模型训练方法、答案质量确定方法及装置
CN109359215B (zh) * 2018-12-03 2023-08-22 江苏曲速教育科技有限公司 视频智能推送方法和***
CN109740077B (zh) * 2018-12-29 2021-02-12 北京百度网讯科技有限公司 基于语义索引的答案搜索方法、装置及其相关设备
CN109739969A (zh) * 2018-12-29 2019-05-10 联想(北京)有限公司 答案生成方法和智能会话***
US11132390B2 (en) * 2019-01-15 2021-09-28 International Business Machines Corporation Efficient resolution of type-coercion queries in a question answer system using disjunctive sub-lexical answer types
TWI703456B (zh) * 2019-01-19 2020-09-01 亞太智能機器有限公司 智能推薦系統與智能推薦方法
CN109918486B (zh) * 2019-01-24 2024-03-19 平安科技(深圳)有限公司 智能客服的语料构建方法、装置、计算机设备及存储介质
CN109783631B (zh) * 2019-02-02 2022-05-17 北京百度网讯科技有限公司 社区问答数据的校验方法、装置、计算机设备和存储介质
CN109885660B (zh) * 2019-02-22 2020-10-02 上海乐言信息科技有限公司 一种知识图谱赋能的基于信息检索的问答***和方法
CN109960757A (zh) * 2019-02-27 2019-07-02 北京搜狗科技发展有限公司 网页检索方法及装置
CN109977204A (zh) * 2019-03-08 2019-07-05 科讯嘉联信息技术有限公司 一种基于知识库的智能问答***和方法
CN110175585B (zh) * 2019-05-30 2024-01-23 北京林业大学 一种简答题自动批改***及方法
CN112015852A (zh) * 2019-05-31 2020-12-01 微软技术许可有限责任公司 在关于事件的会话中提供响应
CN110209768B (zh) * 2019-05-31 2021-08-10 中国联合网络通信集团有限公司 自动问答的问题处理方法和装置
CN110176315B (zh) * 2019-06-05 2022-06-28 京东方科技集团股份有限公司 医疗问答方法及***、电子设备、计算机可读介质
CN112231450B (zh) * 2019-06-28 2024-06-11 京东方科技集团股份有限公司 问答检索方法、问答检索装置、问答检索设备及介质
CN110377831B (zh) * 2019-07-25 2022-05-17 拉扎斯网络科技(上海)有限公司 检索方法、装置、可读存储介质和电子设备
CN110457459B (zh) * 2019-08-16 2022-04-08 达闼机器人有限公司 基于人工智能的对话生成方法、装置、设备及存储介质
CN110569343B (zh) * 2019-08-16 2023-05-09 华东理工大学 一种基于问答的临床文本结构化方法
CN110674271B (zh) * 2019-08-27 2023-01-06 腾讯科技(深圳)有限公司 一种问答处理方法及装置
CN110929016A (zh) * 2019-12-10 2020-03-27 北京爱医生智慧医疗科技有限公司 一种基于知识图谱的智能问答方法及装置
CN111160030B (zh) * 2019-12-11 2023-09-19 北京明略软件***有限公司 一种信息抽取方法、装置、及存储介质
CN113051390B (zh) * 2019-12-26 2023-09-26 百度在线网络技术(北京)有限公司 知识库构建方法、装置、电子设备和介质
CN111125335B (zh) * 2019-12-27 2021-04-06 北京百度网讯科技有限公司 问答处理方法、装置、电子设备和存储介质
CN111858869B (zh) * 2020-01-03 2024-06-04 北京嘀嘀无限科技发展有限公司 一种数据匹配方法、装置、电子设备和存储介质
CN111340233B (zh) * 2020-02-20 2022-08-09 支付宝(杭州)信息技术有限公司 机器学习模型的训练方法及装置、样本处理方法及装置
CN111708870A (zh) * 2020-05-27 2020-09-25 盛视科技股份有限公司 基于深度神经网络的问答方法、装置及存储介质
CN111708873B (zh) * 2020-06-15 2023-11-24 腾讯科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
US11907670B1 (en) 2020-07-14 2024-02-20 Cisco Technology, Inc. Modeling communication data streams for multi-party conversations involving a humanoid
US11875362B1 (en) 2020-07-14 2024-01-16 Cisco Technology, Inc. Humanoid system for automated customer support
CN111859985B (zh) * 2020-07-23 2023-09-12 上海华期信息技术有限责任公司 Ai客服模型测试方法、装置、电子设备及存储介质
CN111858896B (zh) * 2020-07-30 2024-03-29 上海海事大学 一种基于深度学习的知识库问答方法
CN112101040B (zh) * 2020-08-20 2024-03-29 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法
CN111931507A (zh) * 2020-08-21 2020-11-13 贝壳技术有限公司 获取用于实现会话的多元组集合方法、装置、介质及设备
CN112118311B (zh) * 2020-09-17 2023-10-27 阿波罗智联(北京)科技有限公司 信息车载交互方法、装置、设备以及存储介质
CN111831812B (zh) * 2020-09-21 2020-12-15 北京智源人工智能研究院 基于知识图谱的阅读理解数据集自动生成方法和设备
CN112256847B (zh) * 2020-09-30 2023-04-07 昆明理工大学 融合事实文本的知识库问答方法
US20220138170A1 (en) * 2020-10-29 2022-05-05 Yext, Inc. Vector-based search result generation
CN112035730B (zh) * 2020-11-05 2021-02-02 北京智源人工智能研究院 一种语义检索方法、装置及电子设备
CN112380328B (zh) * 2020-11-11 2024-02-06 广州知图科技有限公司 一种安全应急响应机器人交互方法及***
CN112417100A (zh) * 2020-11-20 2021-02-26 大连民族大学 辽代历史文化领域知识图谱及其智能问答***的构建方法
CN112417104B (zh) * 2020-12-04 2022-11-11 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法
CN112541362B (zh) * 2020-12-08 2022-08-23 北京百度网讯科技有限公司 一种泛化处理的方法、装置、设备和计算机存储介质
CN112749265B (zh) * 2021-01-08 2022-08-19 哈尔滨工业大学 一种基于多信息源的智能问答***
CN112948546B (zh) * 2021-01-15 2021-11-23 中国科学院空天信息创新研究院 面向多源异构数据源的智能问答方法及装置
CN113076466B (zh) * 2021-02-26 2024-05-24 广东电网有限责任公司广州供电局 一种最佳答案和兴趣感知推荐方法
CN113157885B (zh) * 2021-04-13 2023-07-18 华南理工大学 一种面向人工智能领域知识的高效智能问答***
CN113094519B (zh) * 2021-05-07 2023-04-14 超凡知识产权服务股份有限公司 一种基于文档进行检索的方法及装置
CN113486152A (zh) * 2021-07-16 2021-10-08 上海淇馥信息技术有限公司 一种业务知识库构建方法、装置和电子设备
CN113722452B (zh) * 2021-07-16 2024-01-19 上海通办信息服务有限公司 一种问答***中基于语义的快速知识命中方法及装置
WO2024015320A1 (en) * 2022-07-11 2024-01-18 Pryon Incorporated Visual structure of documents in question answering
CN115757727A (zh) * 2022-11-17 2023-03-07 北京语言大学 一种基于语法点进行检索的方法、装置及文心检索平台
CN116756347B (zh) * 2023-08-21 2023-10-27 中国标准化研究院 一种基于大数据的语义信息检索方法
CN116911312B (zh) * 2023-09-12 2024-01-05 深圳须弥云图空间科技有限公司 一种任务型对话***及其实现方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102721A (zh) * 2014-07-18 2014-10-15 百度在线网络技术(北京)有限公司 信息推荐方法和装置
CN104216913A (zh) * 2013-06-04 2014-12-17 Sap欧洲公司 问题回答框架

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
ES2173716T3 (es) 1999-04-12 2002-10-16 Cit Alcatel Control de potencia mejorado, adaptable canales y rapido en cdma.
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
KR100931772B1 (ko) * 2004-01-15 2009-12-14 엔에이치엔(주) 웹사이트 검색 서비스 제공 방법 및 그 시스템
US7827125B1 (en) * 2006-06-01 2010-11-02 Trovix, Inc. Learning based on feedback for contextual personalized information retrieval
US20100318558A1 (en) * 2006-12-15 2010-12-16 Aftercad Software Inc. Visual method and system for rdf creation, manipulation, aggregation, application and search
JP5283208B2 (ja) * 2007-08-21 2013-09-04 国立大学法人 東京大学 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
US9396262B2 (en) * 2007-10-12 2016-07-19 Lexxe Pty Ltd System and method for enhancing search relevancy using semantic keys
US8275803B2 (en) 2008-05-14 2012-09-25 International Business Machines Corporation System and method for providing answers to questions
JP5311002B2 (ja) 2008-06-30 2013-10-09 日本電気株式会社 質問回答検索システム及びその方法とプログラム
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答***实现方法
WO2010107327A1 (en) * 2009-03-20 2010-09-23 Syl Research Limited Natural language processing method and system
EP2622510A4 (en) * 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
JP5315368B2 (ja) 2011-02-28 2013-10-16 株式会社日立製作所 文書処理装置
US8747115B2 (en) * 2012-03-28 2014-06-10 International Business Machines Corporation Building an ontology by transforming complex triples
TWI469119B (zh) * 2012-08-06 2015-01-11 Au Optronics Corp 顯示器及其閘極驅動器
CN103914543B (zh) * 2014-04-03 2017-12-26 北京百度网讯科技有限公司 搜索结果的展现方法和装置
CN104252533B (zh) * 2014-09-12 2018-04-13 百度在线网络技术(北京)有限公司 搜索方法和搜索装置
CN104199965B (zh) * 2014-09-22 2020-08-07 吴晨 一种语义信息检索方法
CN104573028B (zh) 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216913A (zh) * 2013-06-04 2014-12-17 Sap欧洲公司 问题回答框架
CN104102721A (zh) * 2014-07-18 2014-10-15 百度在线网络技术(北京)有限公司 信息推荐方法和装置

Also Published As

Publication number Publication date
WO2016112679A1 (zh) 2016-07-21
EP3096246A1 (en) 2016-11-23
EP3096246A4 (en) 2017-11-29
US20170308531A1 (en) 2017-10-26
JP2017511922A (ja) 2017-04-27
CN104573028A (zh) 2015-04-29
KR20160125375A (ko) 2016-10-31
KR101895249B1 (ko) 2018-09-05
JP6309644B2 (ja) 2018-04-11
US10242049B2 (en) 2019-03-26

Similar Documents

Publication Publication Date Title
CN104573028B (zh) 实现智能问答的方法和***
Palangi et al. Deep sentence embedding using long short-term memory networks: Analysis and application to information retrieval
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及***
CN102262634B (zh) 一种自动问答方法及***
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及***
CN110096567A (zh) 基于qa知识库推理的多轮对话回复选择方法、***
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN110390006A (zh) 问答语料生成方法、装置和计算机可读存储介质
CN108345686A (zh) 一种基于搜索引擎技术的数据分析方法及***
CN114357127A (zh) 基于机器阅读理解及常用问题解答模型的智能问答方法
CN117149984B (zh) 一种基于大模型思维链的定制化培训方法及装置
CN115392252A (zh) 一种融合自注意力与层级残差记忆网络的实体识别方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
Hao et al. Semantic patterns for user‐interactive question answering
Sarker et al. Bengali question answering system for factoid questions: A statistical approach
CN116795979A (zh) 一种基于触发词增强的标签信号指导事件检测方法
Lahbari et al. A rule-based method for Arabic question classification
CN110377706A (zh) 基于深度学习的搜索语句挖掘方法及设备
CN110287396A (zh) 文本匹配方法及装置
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN115114417A (zh) 中文填空题自动评分方法及装置
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN113011141A (zh) 佛经注解模型训练方法、佛经注解生成方法及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant