CN108595413B - 一种基于语义依存树的答案抽取方法 - Google Patents
一种基于语义依存树的答案抽取方法 Download PDFInfo
- Publication number
- CN108595413B CN108595413B CN201810239159.7A CN201810239159A CN108595413B CN 108595413 B CN108595413 B CN 108595413B CN 201810239159 A CN201810239159 A CN 201810239159A CN 108595413 B CN108595413 B CN 108595413B
- Authority
- CN
- China
- Prior art keywords
- tree
- question
- candidate answer
- sentence
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语义依存树的答案抽取方法,该方法在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。
Description
技术领域
本发明属于自动问答(QA)领域,涉及一种基于语义依存树的答案抽取方法。
背景技术
自动问答***作为一种新型的搜索引擎,为用户返回精确、简洁的答案,其处理流程为三个模块:问题解析,信息检索,答案抽取。其中,答案抽取算法是答案抽取模块的核心研究问题,算法性能会最直接的影响问答***用户体验。
答案抽取算法的基本流程是将信息检索模块的结果——排序的段落,作为输入,通过计算分析,选择一个计算权重最高的、与用户问题最相关的、准确、简洁的答案,返回给用户,而不仅仅满足于提供一个含有答案的网页链接。因此,答案抽取模块的本质即为计算候选答案句和查询句的相似度。
常见的答案抽取算法主要有三种:基于模式匹配的算法,该算法的实现无需关心句子的语法语义信息,通过预先定义的答案和问句之间的模式,匹配问句的答案。其模式可以通过手工编辑或机器学习自动生成的方式实现,通过人工总结模式匹配的方式需要耗费大量的精力和时间,需手工编辑抽取规则,总结存在的模式,但准确率要更高。通过机器学习进行模式匹配的方式,依赖于标注语料,通过语料总结问句和答案的共现短语或结构,自动学习,进行结构提取得到模式,进行模式匹配。基于向量空间模型的算法,该算法框架清晰,实现简单且效果较好,被广泛的应用在文本检索领域中的相似度计算排序的实现。在答案抽取中,通过VSM计算各个候选答案和问句之间的相似度,对候选答案进行排序,得到最可能的答案。向量空间模型的计算,假设各个特征词相互独立,虽然在一定程度上简化了计算量,但忽略了特征词之间的语义相关性。基于语法结构的算法通过提取问句和答案句的语法结构和语义信息,进行相似度的计算,将相似度作为句法匹配度,对候选答案排序,并返回匹配度最高的答案。
基于语法结构的算法相比于其他算法,通过语义依存分析来进行语义深层理解,算法性能更好,其中效果较好的算法是基于语义依存树的算法。现有的基于语义依存树的算法中,虽然得到了更全面的语义信息,但计算异常复杂,没有考虑词频、句法结构、关键词之间的关联等特征,往往不能取得良好的效果。
发明内容
基于上述现有技术中存在的问题,本发明的目的在于,提供一种基于语义依存树的答案抽取方法,该方法能够大大降低计算复杂度的同时,且提高选取问句的最佳答***率。
为了实现上述目的,本发明采用如下技术方案:
一种基于语义依存树的答案抽取方法,包括以下步骤:
步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath:
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path_len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;
步骤5,根据向量相似度Simtree、词形相似度Simword和依存路径长度相似度Simpath,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数;
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
可选地,所述步骤2中的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,子树序列中的任意两个子树不相同,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。
与现有技术相比,本发明具有以下技术效果:本发明在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。
下面结合附图和具体实施方式对本发明的方案作进一步详细地解释和说明。
附图说明
图1是本发明的流程图;
图2是问句的依存关系图和依存关系树;其中,(a)表示问句的依存关系图,(b)表示问句的依存关系树;
图3是候选答案句的依存关系图和依存关系树;其中,(a)表示候选答案句的依存关系图,(b)表示候选答案句的依存关系树;
具体实施方式
本发明提供一种基于语义依存树的答案抽取方法,参见图1,该方法用于在多个候选答案句中选择出问句的最佳答案句,其特征在于,包括以下步骤:
步骤1,利用哈尔滨工业大学社会计算与信息检索研究中心的语言技术平台(LTP)对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树。如图2中的(a)和(b)分别为问句“陕西的省会是哪里”的语义依存图和语义依存树,图3(a)和(b)分别为候选答案句“西安是陕西的省会”的语义依存图和语义依存树。
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;具体方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数,子树序列中不存在相同子树;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度。
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;问句对应的关键词指的是对问句进行问题解析得到的关键词列表中的关键词。
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath:
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path_len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度,该依存路径长度通过候选答案句的依存关系图即可得到。如图3中的(a)中词项“陕西”和“首都”的依存路径长度为1,“西安”和“陕西”的依存路径长度为3。
步骤5,根据向量相似度、词形相似度和依存路径长度相似度,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数,在本实施例中,α=0.7,β=0.1,γ=0.1。
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
实施例:
本实施例使用了从百度知道中爬取并选择了5340个问句,一个问句对应多个答案,将每个问句的答案打破原有顺序重新混合,利用本发明的基于语义依存树的改进算法,获取问句的最佳答案句。
利用准确率和MRR(平均排序倒数)值衡量方法性能,并将本发明的方法与基于向量空间模型的算法和原始基于语义依存树的算法对比,其结果如表1所示,从表1可知,本发明的方法综合考虑向量相似度、词形相似度和依存路径长度相似度,相比于其他算法在选择最佳答案句的准确率上有较大提升。
表1
Claims (1)
1.一种基于语义依存树的答案抽取方法,其特征在于,包括以下步骤:
步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;
所述的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,子树序列中的任意两个子树不相同,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数;
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath:
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path-len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;
步骤5,根据向量相似度Simtree、词形相似度Simword和依存路径长度相似度Simpath,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数;
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239159.7A CN108595413B (zh) | 2018-03-22 | 2018-03-22 | 一种基于语义依存树的答案抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239159.7A CN108595413B (zh) | 2018-03-22 | 2018-03-22 | 一种基于语义依存树的答案抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595413A CN108595413A (zh) | 2018-09-28 |
CN108595413B true CN108595413B (zh) | 2021-11-09 |
Family
ID=63626974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810239159.7A Expired - Fee Related CN108595413B (zh) | 2018-03-22 | 2018-03-22 | 一种基于语义依存树的答案抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595413B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948143B (zh) * | 2019-01-25 | 2023-04-07 | 网经科技(苏州)有限公司 | 社区问答***的答案抽取方法 |
CN111259653B (zh) * | 2020-01-15 | 2022-06-24 | 重庆邮电大学 | 基于实体关系消歧的知识图谱问答方法、***以及终端 |
CN111666770B (zh) * | 2020-06-02 | 2023-07-18 | 泰康保险集团股份有限公司 | 一种语义匹配方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298642A (zh) * | 2011-09-15 | 2011-12-28 | 苏州大学 | 文本信息抽取方法和*** |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和*** |
CN106649266A (zh) * | 2016-11-29 | 2017-05-10 | 北京科技大学 | 一种本体知识的逻辑推理方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598445B (zh) * | 2013-11-01 | 2019-05-10 | 腾讯科技(深圳)有限公司 | 自动问答***和方法 |
US10133728B2 (en) * | 2015-03-20 | 2018-11-20 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
-
2018
- 2018-03-22 CN CN201810239159.7A patent/CN108595413B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298642A (zh) * | 2011-09-15 | 2011-12-28 | 苏州大学 | 文本信息抽取方法和*** |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和*** |
CN106649266A (zh) * | 2016-11-29 | 2017-05-10 | 北京科技大学 | 一种本体知识的逻辑推理方法 |
Non-Patent Citations (2)
Title |
---|
基于网络的中文问答***及信息抽取算法研究;崔桓 等;《中文信息学报》;20040525;第18卷(第3期);第27-28页 * |
自动问答***的研究与应用;王肖磊;《中国优秀硕士学位论文全文数据库信息科技辑》;20150815(第8期);第I138-1569页,第28-32页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108595413A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN112069298B (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN107229610B (zh) | 一种情感数据的分析方法及装置 | |
CN109948143B (zh) | 社区问答***的答案抽取方法 | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及*** | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN104199965B (zh) | 一种语义信息检索方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答***构建方法 | |
CN108846029B (zh) | 基于知识图谱的情报关联分析方法 | |
CN107818164A (zh) | 一种智能问答方法及其*** | |
CN111949758A (zh) | 医疗问答推荐方法、推荐***和计算机可读存储介质 | |
CN111125334A (zh) | 一种基于预训练的搜索问答*** | |
CN106815252A (zh) | 一种搜索方法和设备 | |
CN108920599B (zh) | 一种基于知识本体库的问答***答案精准定位和抽取方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN111625621B (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN112307182B (zh) | 一种基于问答***的伪相关反馈的扩展查询方法 | |
CN108595413B (zh) | 一种基于语义依存树的答案抽取方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN113220864B (zh) | 智能问答数据处理*** | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN108491407B (zh) | 一种面向代码检索的查询扩展方法 | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及***及装置及介质 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211109 |
|
CF01 | Termination of patent right due to non-payment of annual fee |