CN108595413B - 一种基于语义依存树的答案抽取方法 - Google Patents

一种基于语义依存树的答案抽取方法 Download PDF

Info

Publication number
CN108595413B
CN108595413B CN201810239159.7A CN201810239159A CN108595413B CN 108595413 B CN108595413 B CN 108595413B CN 201810239159 A CN201810239159 A CN 201810239159A CN 108595413 B CN108595413 B CN 108595413B
Authority
CN
China
Prior art keywords
tree
question
candidate answer
sentence
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810239159.7A
Other languages
English (en)
Other versions
CN108595413A (zh
Inventor
周蕾
史维峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN201810239159.7A priority Critical patent/CN108595413B/zh
Publication of CN108595413A publication Critical patent/CN108595413A/zh
Application granted granted Critical
Publication of CN108595413B publication Critical patent/CN108595413B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语义依存树的答案抽取方法,该方法在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。

Description

一种基于语义依存树的答案抽取方法
技术领域
本发明属于自动问答(QA)领域,涉及一种基于语义依存树的答案抽取方法。
背景技术
自动问答***作为一种新型的搜索引擎,为用户返回精确、简洁的答案,其处理流程为三个模块:问题解析,信息检索,答案抽取。其中,答案抽取算法是答案抽取模块的核心研究问题,算法性能会最直接的影响问答***用户体验。
答案抽取算法的基本流程是将信息检索模块的结果——排序的段落,作为输入,通过计算分析,选择一个计算权重最高的、与用户问题最相关的、准确、简洁的答案,返回给用户,而不仅仅满足于提供一个含有答案的网页链接。因此,答案抽取模块的本质即为计算候选答案句和查询句的相似度。
常见的答案抽取算法主要有三种:基于模式匹配的算法,该算法的实现无需关心句子的语法语义信息,通过预先定义的答案和问句之间的模式,匹配问句的答案。其模式可以通过手工编辑或机器学习自动生成的方式实现,通过人工总结模式匹配的方式需要耗费大量的精力和时间,需手工编辑抽取规则,总结存在的模式,但准确率要更高。通过机器学习进行模式匹配的方式,依赖于标注语料,通过语料总结问句和答案的共现短语或结构,自动学习,进行结构提取得到模式,进行模式匹配。基于向量空间模型的算法,该算法框架清晰,实现简单且效果较好,被广泛的应用在文本检索领域中的相似度计算排序的实现。在答案抽取中,通过VSM计算各个候选答案和问句之间的相似度,对候选答案进行排序,得到最可能的答案。向量空间模型的计算,假设各个特征词相互独立,虽然在一定程度上简化了计算量,但忽略了特征词之间的语义相关性。基于语法结构的算法通过提取问句和答案句的语法结构和语义信息,进行相似度的计算,将相似度作为句法匹配度,对候选答案排序,并返回匹配度最高的答案。
基于语法结构的算法相比于其他算法,通过语义依存分析来进行语义深层理解,算法性能更好,其中效果较好的算法是基于语义依存树的算法。现有的基于语义依存树的算法中,虽然得到了更全面的语义信息,但计算异常复杂,没有考虑词频、句法结构、关键词之间的关联等特征,往往不能取得良好的效果。
发明内容
基于上述现有技术中存在的问题,本发明的目的在于,提供一种基于语义依存树的答案抽取方法,该方法能够大大降低计算复杂度的同时,且提高选取问句的最佳答***率。
为了实现上述目的,本发明采用如下技术方案:
一种基于语义依存树的答案抽取方法,包括以下步骤:
步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
Figure BDA0001604696550000031
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath
Figure BDA0001604696550000032
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path_len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;
步骤5,根据向量相似度Simtree、词形相似度Simword和依存路径长度相似度Simpath,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数;
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
可选地,所述步骤2中的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,子树序列中的任意两个子树不相同,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
Figure BDA0001604696550000041
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。
与现有技术相比,本发明具有以下技术效果:本发明在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。
下面结合附图和具体实施方式对本发明的方案作进一步详细地解释和说明。
附图说明
图1是本发明的流程图;
图2是问句的依存关系图和依存关系树;其中,(a)表示问句的依存关系图,(b)表示问句的依存关系树;
图3是候选答案句的依存关系图和依存关系树;其中,(a)表示候选答案句的依存关系图,(b)表示候选答案句的依存关系树;
具体实施方式
本发明提供一种基于语义依存树的答案抽取方法,参见图1,该方法用于在多个候选答案句中选择出问句的最佳答案句,其特征在于,包括以下步骤:
步骤1,利用哈尔滨工业大学社会计算与信息检索研究中心的语言技术平台(LTP)对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树。如图2中的(a)和(b)分别为问句“陕西的省会是哪里”的语义依存图和语义依存树,图3(a)和(b)分别为候选答案句“西安是陕西的省会”的语义依存图和语义依存树。
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;具体方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数,子树序列中不存在相同子树;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
Figure BDA0001604696550000061
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
Figure BDA0001604696550000062
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度。
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;问句对应的关键词指的是对问句进行问题解析得到的关键词列表中的关键词。
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath
Figure BDA0001604696550000071
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path_len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度,该依存路径长度通过候选答案句的依存关系图即可得到。如图3中的(a)中词项“陕西”和“首都”的依存路径长度为1,“西安”和“陕西”的依存路径长度为3。
步骤5,根据向量相似度、词形相似度和依存路径长度相似度,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数,在本实施例中,α=0.7,β=0.1,γ=0.1。
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
实施例:
本实施例使用了从百度知道中爬取并选择了5340个问句,一个问句对应多个答案,将每个问句的答案打破原有顺序重新混合,利用本发明的基于语义依存树的改进算法,获取问句的最佳答案句。
利用准确率和MRR(平均排序倒数)值衡量方法性能,并将本发明的方法与基于向量空间模型的算法和原始基于语义依存树的算法对比,其结果如表1所示,从表1可知,本发明的方法综合考虑向量相似度、词形相似度和依存路径长度相似度,相比于其他算法在选择最佳答案句的准确率上有较大提升。
表1
Figure BDA0001604696550000081

Claims (1)

1.一种基于语义依存树的答案抽取方法,其特征在于,包括以下步骤:
步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree
所述的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,子树序列中的任意两个子树不相同,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
Figure FDA0003145388500000011
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数;
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
Figure FDA0003145388500000021
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath
Figure FDA0003145388500000022
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path-len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;
步骤5,根据向量相似度Simtree、词形相似度Simword和依存路径长度相似度Simpath,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数;
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
CN201810239159.7A 2018-03-22 2018-03-22 一种基于语义依存树的答案抽取方法 Expired - Fee Related CN108595413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810239159.7A CN108595413B (zh) 2018-03-22 2018-03-22 一种基于语义依存树的答案抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810239159.7A CN108595413B (zh) 2018-03-22 2018-03-22 一种基于语义依存树的答案抽取方法

Publications (2)

Publication Number Publication Date
CN108595413A CN108595413A (zh) 2018-09-28
CN108595413B true CN108595413B (zh) 2021-11-09

Family

ID=63626974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810239159.7A Expired - Fee Related CN108595413B (zh) 2018-03-22 2018-03-22 一种基于语义依存树的答案抽取方法

Country Status (1)

Country Link
CN (1) CN108595413B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948143B (zh) * 2019-01-25 2023-04-07 网经科技(苏州)有限公司 社区问答***的答案抽取方法
CN111259653B (zh) * 2020-01-15 2022-06-24 重庆邮电大学 基于实体关系消歧的知识图谱问答方法、***以及终端
CN111666770B (zh) * 2020-06-02 2023-07-18 泰康保险集团股份有限公司 一种语义匹配方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298642A (zh) * 2011-09-15 2011-12-28 苏州大学 文本信息抽取方法和***
CN103226580A (zh) * 2013-04-02 2013-07-31 西安交通大学 一种面向交互文本的话题识别方法
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和***
CN106649266A (zh) * 2016-11-29 2017-05-10 北京科技大学 一种本体知识的逻辑推理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598445B (zh) * 2013-11-01 2019-05-10 腾讯科技(深圳)有限公司 自动问答***和方法
US10133728B2 (en) * 2015-03-20 2018-11-20 Microsoft Technology Licensing, Llc Semantic parsing for complex knowledge extraction

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298642A (zh) * 2011-09-15 2011-12-28 苏州大学 文本信息抽取方法和***
CN103226580A (zh) * 2013-04-02 2013-07-31 西安交通大学 一种面向交互文本的话题识别方法
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和***
CN106649266A (zh) * 2016-11-29 2017-05-10 北京科技大学 一种本体知识的逻辑推理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于网络的中文问答***及信息抽取算法研究;崔桓 等;《中文信息学报》;20040525;第18卷(第3期);第27-28页 *
自动问答***的研究与应用;王肖磊;《中国优秀硕士学位论文全文数据库信息科技辑》;20150815(第8期);第I138-1569页,第28-32页 *

Also Published As

Publication number Publication date
CN108595413A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN107229610B (zh) 一种情感数据的分析方法及装置
CN109948143B (zh) 社区问答***的答案抽取方法
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及***
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN104199965B (zh) 一种语义信息检索方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答***构建方法
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN107818164A (zh) 一种智能问答方法及其***
CN111949758A (zh) 医疗问答推荐方法、推荐***和计算机可读存储介质
CN111125334A (zh) 一种基于预训练的搜索问答***
CN106815252A (zh) 一种搜索方法和设备
CN108920599B (zh) 一种基于知识本体库的问答***答案精准定位和抽取方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN111625621B (zh) 一种文档检索方法、装置、电子设备及存储介质
CN112307182B (zh) 一种基于问答***的伪相关反馈的扩展查询方法
CN108595413B (zh) 一种基于语义依存树的答案抽取方法
CN104484380A (zh) 个性化搜索方法及装置
CN113220864B (zh) 智能问答数据处理***
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN108491407B (zh) 一种面向代码检索的查询扩展方法
CN111737420A (zh) 一种基于争议焦点的类案检索方法及***及装置及介质
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211109

CF01 Termination of patent right due to non-payment of annual fee