CN112613322A - 文本处理方法、装置、设备及存储介质 - Google Patents

文本处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112613322A
CN112613322A CN202011501996.6A CN202011501996A CN112613322A CN 112613322 A CN112613322 A CN 112613322A CN 202011501996 A CN202011501996 A CN 202011501996A CN 112613322 A CN112613322 A CN 112613322A
Authority
CN
China
Prior art keywords
understood
question
text
character
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011501996.6A
Other languages
English (en)
Other versions
CN112613322B (zh
Inventor
吴天博
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011501996.6A priority Critical patent/CN112613322B/zh
Publication of CN112613322A publication Critical patent/CN112613322A/zh
Priority to PCT/CN2021/097086 priority patent/WO2022127040A1/zh
Application granted granted Critical
Publication of CN112613322B publication Critical patent/CN112613322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本处理方法、装置、设备及存储介质,包括:获取待理解文本,待理解文本包括待理解问题和多个待理解文章片段;将所述待理解文本输入阅读理解模型,通过所述阅读理解模型的语义分析层确定出所述待理解问题所属的问题类型标注,各待理解文章片段所回答问题的问题类型标注,所述待理解文本中各字符的特征标注以及所述各字符的位置标注;通过所述阅读理解模型的语义匹配层确定所述待理解问题的回答文本的起始字符位置和终止字符位置,并确定出所述待理解问题的回答文本。采用本申请实施例,可提高机器阅读理解效率和正确率。

Description

文本处理方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理领域,尤其涉及一种文本处理方法、装置、设备及存储介质。
背景技术
目前,随着人工智能技术的发展,越来越多的推理模型被用于进行自然语言处理。以自然语言处理技术为核心的阅读理解模型可以帮助人们进行阅读理解、回答问题。片段抽取类式阅读理解是自然语言处理中的一个任务,它可以很好地从大量文本材料中抽取目标信息,而且可以保证输出结果为文本材料中的语句。目前,片段抽取类阅读理解模型的构建主要基于双向编码表示翻译(Bidirectional Encoder Representations fromTransformers,Bert)类技术。Bert模型作为目前主流的训练语言模型,可以在大多数语言训练任务中表现出一个较好的结果。但在阅读理解任务中,问题和文章在Bert模型中基于词汇进行语义编码,由于问题和文章信息量不匹配,Bert模型并不能通过词汇编码合理地分析出问题的含义。且因为问题长度有限,Bert模型难以通过词汇编码找到各个问题间的关联,使得阅读理解模型做出的回答针对性差,阅读理解的效率低。
发明内容
本申请实施例提供一种文本处理方法、装置、设备及存储介质,可基于对待理解文本的问题类型进行标注,以得到待理解问题与待理解文章在问题类型中的关联,可提高阅读理解效率和正确率,适用性高。
第一方面,本申请实施例供了一种文本处理方法,该方法包括:
获取待理解文本,上述待理解文本包括待理解问题和多个待理解文章片段;
将上述待理解文本输入阅读理解模型,通过上述阅读理解模型的语义分析层确定出上述待理解问题所属的问题类型标注,以及各待理解文章片段所回答问题的问题类型标注;
通过上述阅读理解模型的语义分析层确定出上述待理解文本中各字符的特征标注以及上述各字符的位置标注;
通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、上述各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,确定上述待理解问题的回答文本的起始字符位置和终止字符位置;
根据上述起始字符位置和上述终止字符位置从上述待理解文本中确定出上述待理解问题的回答文本。
在本申请实施例中,通过对待理解文本中待理解问题所属的问题类型以及各待理解文章片段所回答的问题类型进行标注,可以在问题类型维度上增强待理解问题和待理解文章在语义上的关联性;对确定了问题类型后的待理解文本中的各字符进行特征标注以及位置标注并输入语义匹配层,使得语义匹配层可以对待理解文本进行字符级别的阅读理解,在待理解文章中得到待理解问题的回答文本的起始字符位置和终止字符位置,从而得到上述待理解问题的回答文本,提高阅读理解的准确率。
结合第一方面,在一种可能的实施方式中,上述将上述待理解文本输入阅读理解模型之前,上述方法还包括:
采集多个阅读理解文本的样本片段,上述样本片段包括问题片段以及上述问题片段对应的答案片段;
确定各样本片段中各问题片段所属的问题类型标注,以及各答案片段所回答问题的问题类型标注;
确定上述各样本片段中各字符的特征标注以及上述各字符的位置标注;
基于上述各问题片段所属的问题类型标注、上述各答案片段所回答问题的问题类型标注、上述样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义分析层以及语义匹配层进行训练。
在本申请实施例中,通过对样本片段中问题片段所属的问题类型以及答案片段所回答的问题类型进行标注,并对语义分析层进行训练,可以增强问题片段和答案片段在语义分析层中的问题类型维度上的关联性。通过对分类标注后的样本片段进行语义标注,并对语义匹配层进行训练,可以使得语义匹配层对待理解文本进行字符级别的阅读理解在待理解文章中得到待理解问题的回答文本的起始字符位置和终止字符位置,从而得到上述待理解问题的回答文本,进一步提高阅读理解的准确率。
结合第一方面,在一种可能的实施方式中,上述基于上述各问题片段所属的问题类型标注、上述各答案片段所回答问题的问题类型标注、上述样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义分析层以及语义匹配层进行训练包括:
获取基于任一样本片段包括的问题片段所属的问题类型标注、上述问题片段对应的答案片段所回答问题的问题类型标注、上述任一样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义匹配层进行训练后得到的第一语义匹配层网络参数;
通过上述阅读理解模型的门控循环层确定上述第一语义匹配层网络参数的评分;
当上述第一语义匹配层网络参数的评分大于或等于阈值时,通过上述门控循环层将上述语义匹配层的网络参数确定为上述第一语义匹配层网络参数;
当上述第一语义匹配层网络参数的评分小于阈值时,通过上述门控循环层将上述语义匹配层的网络参数确定为第二语义匹配层网络参数;
其中,上述第二语义匹配层网络参数为基于在先样本片段包括的问题片段所属的问题类型标注、上述问题片段对应的答案片段所回答问题的问题类型标注、上述在先样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义匹配层进行训练后得到的语义匹配层网络参数,上述在先样本片段为在上述任一样本片段之前输入上述阅读理解模型的样本片段。
在本申请实施例中,通过阅读理解模型的门控循环层确定第一语义匹配层网络参数的评分,可以剔除质量较低的样本片段,将对语义匹配层训练贡献度不高的样本片段剔除,使得语义匹配层的语义匹配层网络参数更为精确,从而提高语义匹配层的训练效率,进一步提高阅读理解的准确率。
结合第一方面,在一种可能的实施方式中,上述通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、上述各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,确定上述待理解问题的回答文本的起始字符位置和终止字符位置包括:
通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,从上述待理解文章文本中确定出多个预选起始字符位置和多个预选终止字符位置,以得到多个预选回答文本;
通过上述语义匹配层基于各预选回答文本与上述待理解问题的匹配度,确定出上述各预选回答文本用于回答上述待理解问题的评分;
将上述各预选回答文本中评分最高的预选回答文本的预选起始字符位置和预选终止字符位置作为上述待理解问题的回答文本的起始字符位置和终止字符位置,以得到上述待理解问题的回答文本。
结合第一方面,在一种可能的实施方式中,上述根据上述起始字符位置和上述终止字符位置从上述待理解文本中确定出上述待理解问题的回答文本包括:
若上述待理解问题的回答文本的起始字符位置与终止字符位置的字符距离在阈值区间内,则从上述待理解文本中确定出上述起始字符位置和上述终止字符位置之间的文本作为上述待理解问题的回答文本,并输出上述待理解问题的回答文本。
在本申请实施例中,基于待理解问题的回答文本的起始字符位置和终止字符位置之间字符的长度可以对回答文本做出进一步筛选,可以进一步地限定回答文本的长度,剔除回答文本中与待理解问题无关的信息,从而减少回答文本的冗余,提高阅读理解的效率。
结合第一方面,在一种可能的实施方式中,上述采集多个阅读理解文本的样本片段包括:
从互联网中采集多个阅读理解文本的样本片段;和/或
从目标领域数据库中采集多个阅读理解文本的样本片段,上述目标领域数据库至少包括基于医疗领域的诊疗数据以及病理数据生成的医疗领域数据库;
其中,各阅读理解文本的样本片段包括问题片段以及上述问题片段对应的答案片段。
第二方面,本申请实施例提供了一种文本处理装置,该装置包括:
文本获取模块,用于获取待理解文本,上述待理解文本包括待理解问题和多个待理解文章片段;
分类标注模块,用于将上述待理解文本输入阅读理解模型,通过上述阅读理解模型的语义分析层确定出上述待理解问题所属的问题类型标注,以及各待理解文章片段所回答问题的问题类型标注;
语义标注模块,用于通过上述阅读理解模型的语义分析层确定出上述待理解文本中各字符的特征标注以及上述各字符的位置标注;
语义匹配模块,用于通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、上述各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,确定上述待理解问题的回答文本的起始字符位置和终止字符位置,并根据上述起始字符位置和上述终止字符位置从上述待理解文本中确定出上述待理解问题的回答文本。
结合第二方面,在一种可能的实施方式中,上述语义匹配模块包括:
文本确认单元,用于通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,从上述待理解文章文本中确定出多个预选起始字符位置和多个预选终止字符位置,以得到多个预选回答文本;
回答评分单元,用于通过上述语义匹配层基于各预选回答文本与上述待理解问题的匹配度,确定出上述各预选回答文本用于回答上述待理解问题的评分;
回答确认单元,用于将上述各预选回答文本中评分最高的预选回答文本的预选起始字符位置和预选终止字符位置作为上述待理解问题的回答文本的起始字符位置和终止字符位置,以得到上述待理解问题的回答文本。
结合第二方面,在一种可能的实施方式中,上述语义匹配模块还包括:
回答输出单元,用于若上述待理解问题的回答文本的起始字符位置与终止字符位置的字符距离在阈值区间内,则从上述待理解文本中确定出上述起始字符位置和上述终止字符位置之间的文本作为上述待理解问题的回答文本,并输出上述待理解问题的回答文本。
第三方面,本申请实施例提供了一种终端设备,该终端设备包括处理器和存储器,该处理器和存储器相互连接。该存储器用于存储支持该终端设备执行上述第一方面和/或第一方面任一种可能的实现方式提供的方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用上述程序指令,执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面和/或第一方面任一种可能的实施方式所提供的方法。
在本申请实施例中,通过对待理解文本中待理解问题所属的问题类型以及各待理解文章片段所回答的问题类型进行标注,可以在问题类型维度上增强待理解问题和待理解文章在语义上的关联性;对确定了问题类型后的待理解文本中的各字符进行特征标注以及位置标注并输入语义匹配层,使得语义匹配层可以对待理解文本进行字符级别的阅读理解,在待理解文章中得到待理解问题的回答文本的起始字符位置和终止字符位置,从而得到上述待理解问题的回答文本,提高阅读理解的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文本处理方法的一流程示意图;
图2是本申请实施例提供的对阅读理解模型进行训练的流程示意图;
图3是本申请实施例提供的文本处理方法的另一流程示意图;
图4是本申请实施例提供的文本处理装置的结构示意图;
图5是本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,自然语言处理主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。然而,实现自然语言处理是十分困难的,造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在着各种各样的歧义性或多义性。因此,进行自然语言处理必须消除歧义,也即需要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。许多的机器学习算法已经被应用于执行自然语言处理任务,但这些算法通常依靠生硬的规则类匹配实现。因此,越来越多的研究集中于自然语言处理模型,自然语言处理模型给予各个推理要素不同的权重,根据最后计算得到的概率进行决策。此类模型能够得到许多可能的答案,而不是只有一个相对的确定性,从而产生更可靠的结果,提高自然语言处理模型的适用性与兼容性。其中,Bert模型作为目前主流的自然语言处理模型,可以在大多数语言训练任务(例如,机器阅读理解(Machine Reading Comprehension,MRC)任务)中表现出一个较好的结果。从而可以利用Bert模型作为阅读理解模型根据给定的上下文回答问题,测试阅读理解模型对自然语言文本的理解程度。常见的MRC任务可以分为四种类型:完形填空、多项选择、片段抽取、自由回答。其中,片段抽取类阅读理解模型可以很好地从大量文本材料中抽取用户想要关注的目标信息,而且可以保证输出结果为材料原语句,与需要人工维护正则表达式的方法相比,大大降低了阅读理解模型的运行成本。通常,阅读理解模型由以下几个部分组成:嵌入(Embedding)、特征提取(Feature Extraction)、上下文交互(Context-QuestionInteraction)、答案预测(Answer Prediction)。其中,嵌入用于将单词映射为对应的词向量;特征提取用于抽取问题和文章的上下文信息;上下文交互用于提取文章和问题之间的相关性,通常引入注意力机制,以便于充分提取文章和问题之间的相关性;答案预测用于基于上述几个部分获得的信息输出最终答案(在执行片段抽取式任务的阅读理解模型中,最终答案即是回答文本)。本申请实施例提供的方法可由装载有基于阅读理解模型实现文本处理功能的***或终端设备执行,为表述方便,下面将以终端设备为执行主体,对本申请实施例提供的文本处理的方法进行描述。
以在医疗领域构建阅读理解模型(即阅读理解模型)对医疗问题进行片段抽取式阅读理解为例,终端设备可以对常用的阅读理解模型(例如Bert模型)进行改进或重新构建,具体可根据实际应用场景确定,在此不做限制。在本申请中,阅读理解模型包括但不限于语义分析层和语义匹配层,医疗问题的所属类别包括但不限于“肺炎”、“支气管炎”、“上呼吸道感染”、“肺结核”、“哮喘”等多个病种,医疗问题的具体类别包括但不限于地点问题、时间问题、人物问题、事件问题、原因问题以及方法问题等多种类别。终端设备对阅读理解模型进行构建,包括但不限于从互联网或者目标领域数据库中采集多个阅读理解文本的样本片段,并利用上述多个样本片段构建阅读理解模型。其中,目标领域数据库可以包括:基于医疗领域的诊疗数据以及病理数据生成的医疗领域数据库,或者基于医疗机构的现有设备数据以及地理位置数据生成的医疗设备领域数据库。上述样本片段中可包括问题片段(例如,问题片段1,问题片段2等)、以及问题片段在文章片段中对应的答案片段(例如,答案片段1,答案片段2等)。终端设备将各样本片段进行问题类别标注,以得到分类标注后的样本片段。终端设备将各样本片段进行问题类别标注包括对各样本片段中的问题片段所属的问题类型进行标注,并将一个问题片段所属的问题类型标注为该问题片段对应的答案片段所回答的问题类型。例如,终端设备将问题片段1(比如,感冒如何治疗?)的问题类型标注为“上呼吸道感染”和“方法问题”,将问题片段1对应的答案片段1(比如,建议患者卧床休息,清淡饮食)的问题类型标注为“上呼吸道感染”和“方法问题”。终端设备将问题片段2(比如,肺部发炎是什么原因引起的?)的问题类型标注为“肺炎”和“原因问题”,将问题片段2对应的答案片段2(比如,急性慢性的呼吸道的感染,支气管炎以及着凉感冒,甚至其他的细菌感染或者传染病等都会造成肺部的炎症)的问题类型标注为“肺炎”和“原因问题”。终端设备将分类标注后的样本片段进行语义标注,以得到样本片段,包括但不限于将样本片段中的各字符进行特征标注,以及对各字符的位置进行标注。例如,终端设备对样本片段中的各字符进行拼音标注,笔画数标注,以及字符位置标注。终端设备将问题片段1(感冒如何治疗?)进行语义标注为:感(gan,13,【1】)冒(mao,9,【2】)如(ru,6,【3】)何(he,7,【4】)治(zhi,8,【5】)疗(liao,7,【6】)?(##,#,【7】)。终端设备在问题片段1与答案片段1中间加入分隔符(位置在【8】),同时将问题片段1对应的答案片段1(建议患者卧床休息,清淡饮食)进行语义标注为:建(jian,8,【9】)议(yi,5,【10】)患(huan,11,【11】)者(zhe,8,【12】)卧(wo,8,【13】)床(chuang,7,【14】)休(xiu,6,【15】)息(xi,10,【16】),清(qing,11,【17】)淡(dan,12,【18】)饮(yin,7,【19】)食(shi,9,【20】)。进一步地,终端设备可利用分类标注后的样本片段对阅读理解模型的语义分析层以及语义匹配层进行训练,使得训练后的阅读理解模型可基于输入的任一文本输出该文本中包括的待理解问题的问题类型标注以及该文本中包括的待理解文章片段所回答问题的问题类型标注。
在一些可行的实施方式中,终端设备获取待理解文本,通过训练好的阅读理解模型对待理解文本进行问题类型标注和语义标注。例如,将待理解问题1(感冒如何治疗?)的问题类型标注为“上呼吸道感染”和“方法问题”,通过阅读理解模型将待理解文章片段1(感冒是一种常见的急性上呼吸道病毒性感染性疾病)所回答问题的问题类型标注为“上呼吸道感染”和“其他问题”。通过阅读理解模型可将待理解文章片段2(建议患者卧床休息,清淡饮食)所回答问题的问题类型标注为“上呼吸道感染”和“方法问题”。通过阅读理解模型还可对待理解文本中的各字符进行特征标注以及对各字符的位置进行标注。比如通过阅读理解模型对待理解文本中的待理解问题的各字符进行特征标注并对各字符的位置(在待理解文本中的位置)进行标注,可得到待理解问题1:感(gan,13,【1】)冒(mao,9,【2】)如(ru,6,【3】)何(he,7,【4】)治(zhi,8,【5】)疗(liao,7,【6】)?(##,#,【7】)。在待理解问题1与待理解文章片段1中间加入分隔符(位置在【8】)。通过阅读理解模型的语义分析层可得到语义标注后的待理解文章片段1:感(gan,13,【9】)冒(mao,9,【10】)是(shi,9,【11】)一(yi,1,【12】)种(zhong,9,【13】)常(chang,11,【14】)见(jian,4,【15】)的(de,8,【16】)急(ji,9,【17】)性(xing,8,【18】)上(shang,3,【19】)呼(hu,8,【20】)吸(xi,6,【21】)道(dao,11,【22】)病(bing,9,【23】)毒(du,9,【24】)性(xing,8,【25】)感(gan,13,【26】)染(ran,9,【27】)性(xing,8,【28】)疾(ji,10,【29】)病(bing,10,【30】)。在待理解文章片段1与待理解文章片段2中间加入分隔符(位置在【31】),用于区分待理解文章片段1和待理解文章片段2。通过阅读理解模型的语义分析层可得到语义标注后的待理解文章片段2:建(jian,8,【32】)议(yi,5,【33】)患(huan,11,【34】)者(zhe,8,【35】)卧(wo,8,【36】)床(chuang,7,【37】)休(xiu,6,【38】)息(xi,10,【39】),清(qing,11,【40】)淡(dan,12,【41】)饮(yin,7,【42】)食(shi,9,【43】)。将标注后的待理解问题和各待理解文章片段输入阅读理解模型进行语义匹配,通过阅读理解模型在待理解文章中确定待理解问题的回答文本的起始字符位置(【32】)和终止字符位置(【43】),以得到待理解问题的回答文本(建议患者卧床休息,清淡饮食)。
具体请参阅图1,图1是本申请实施例提供的文本处理方法的一流程示意图。本申请实施例提供的方法可包括获取待理解文本,待理解文本包括待理解问题(例如,待理解问题1等)和多个待理解文章片段(例如,待理解文章片段1,待理解文章片段2等)。终端设备将待理解文本输入阅读理解模型的语义分析层,通过上述语义分析层对待理解文本进行问题类型标注和语义标注,以得到标注后的待理解问题和各待理解文章片段。终端设备将标注后的待理解问题和各待理解文章片段输入语义匹配层进行语义匹配,通过语义匹配层在待理解文章中确定待理解问题的回答文本的起始字符位置和终止字符位置,以得到待理解问题的回答文本。为方便描述,下面将以在医疗领域构建阅读理解模型对医疗问题进行片段抽取式阅读理解为例,对本申请实施例提供的方法进行说明。本申请实施例提供的方法可包括如下步骤:
S101:终端设备获取待理解文本。
在一些可行的实施方式中,终端设备获取待理解文本,上述待理解文本包括待理解问题(例如,待理解问题1等)和多个待理解文章片段(例如,待理解文章片段1,待理解文章片段2等)。例如,终端设备可以获取待理解文本包括待理解问题1(比如,感冒如何治疗?),待理解文章片段1(比如,感冒是一种常见的急性上呼吸道病毒性感染性疾病)以及待理解文章片段2(建议患者卧床休息,清淡饮食)。在一些应用场景中,待理解文章的长度可能比较长,大于阅读理解模型限制的长度范围,终端设备则可以将待理解文章分割为多个待理解文章片段,将每个待理解文章片段与待理解问题组合,依次输入阅读理解模型进行阅读理解。具体可根据实际应用场景确定,在此不做限制。
S102:终端设备将上述待理解文本输入阅读理解模型,通过上述阅读理解模型的语义分析层确定出上述待理解问题所属的问题类型标注,以及各待理解文章片段所回答问题的问题类型标注。
在一些可行的实施方式中,终端设备可以将待理解文本输入训练好的阅读理解模型,通过阅读理解模型的语义分析层对待理解文本进行问题类型标注和语义标注。例如,通过阅读理解模型的语义分析层可将待理解问题1(感冒如何治疗?)所回答问题的问题类型标注为“上呼吸道感染”和“方法问题”,将待理解文章片段1(感冒是一种常见的急性上呼吸道病毒性感染性疾病)的问题类型标注为“上呼吸道感染”和“其他问题”,将待理解文章片段2(建议患者卧床休息,清淡饮食)所回答问题的问题类型标注为“上呼吸道感染”和“方法问题”。
S103:通过阅读理解模型的语义分析层确定出上述待理解文本中各字符的特征标注以及上述各字符的位置标注。
在一些可行的实施方式中,通过阅读理解模型的语义分析层可以同时对待理解文本中的各字符进行特征标注以及对各字符的位置进行标注,得到标注后的待理解问题和各待理解文章片段。上述语义标注包括但不限于将样本片段中的各字符进行特征标注,以及对各字符的位置进行标注。比如通过阅读理解模型对待理解文本中的待理解问题的各字符进行特征标注并对各字符的位置(在待理解文本中的位置)进行标注,可得到语义标注后的待理解问题1:感(gan,13,【1】)冒(mao,9,【2】)如(ru,6,【3】)何(he,7,【4】)治(zhi,8,【5】)疗(liao,7,【6】)?(##,#,【7】)。在待理解问题1与待理解文章片段1中间加入分隔符(位置在【8】)。通过阅读理解模型的语义分析层可得到语义标注后的待理解文章片段1:感(gan,13,【9】)冒(mao,9,【10】)是(shi,9,【11】)一(yi,1,【12】)种(zhong,9,【13】)常(chang,11,【14】)见(jian,4,【15】)的(de,8,【16】)急(ji,9,【17】)性(xing,8,【18】)上(shang,3,【19】)呼(hu,8,【20】)吸(xi,6,【21】)道(dao,11,【22】)病(bing,9,【23】)毒(du,9,【24】)性(xing,8,【25】)感(gan,13,【26】)染(ran,9,【27】)性(xing,8,【28】)疾(ji,10,【29】)病(bing,10,【30】)。在待理解文章片段1与待理解文章片段2中间加入分隔符(位置在【31】),用于区分待理解文章片段1和待理解文章片段2。通过阅读理解模型的语义分析层可得到语义标注后的待理解文章片段2:建(jian,8,【32】)议(yi,5,【33】)患(huan,11,【34】)者(zhe,8,【35】)卧(wo,8,【36】)床(chuang,7,【37】)休(xiu,6,【38】)息(xi,10,【39】),清(qing,11,【40】)淡(dan,12,【41】)饮(yin,7,【42】)食(shi,9,【43】)。
在一些可行的实施方式中,请一并参阅图2,图2是本申请实施例提供的对阅读理解模型进行训练的流程示意图。上述对阅读理解模型进行训练的方法可包括如下步骤S201至S208中各个步骤所提供的实现方式。
S201:终端设备采集多个阅读理解文本的样本片段。
在一些可行的实施方式中,终端设备采集多个阅读理解文本的样本片段的方法可以包括但不限于终端设备从互联网中采集多个阅读理解文本的样本片段,样本片段包括问题片段(例如,问题片段1,问题片段2等)、以及问题片段在文章片段中对应的答案片段(例如,答案片段1,答案片段2等)。
S202:终端设备确定各样本片段中各问题片段所属的问题类型标注,以及各答案片段所回答问题的问题类型标注。
在一些可行的实施方式中,终端设备可以将各样本片段进行问题类别标注,以得到分类标注后的样本片段。终端设备可以将各样本片段进行问题类别标注包括对各样本片段中的问题片段所属的问题类型进行标注,并将一个问题片段所属的问题类型标注为该问题片段对应的答案片段所回答的问题类型。将问题片段1(感冒如何治疗?)的问题类型标注为“上呼吸道感染”和“方法问题”,将问题片段1对应的答案片段1(建议患者卧床休息,清淡饮食)的问题类型标注为“上呼吸道感染”和“方法问题”。终端设备可以将问题片段2(肺部发炎是什么原因引起的?)的问题类型标注为“肺炎”和“原因问题”,将问题片段2对应的答案片段2(急性慢性的呼吸道的感染,支气管炎以及着凉感冒,甚至其他的细菌感染或者传染病等都会造成肺部的炎症。)的问题类型标注为“肺炎”和“原因问题”。
S203:终端设备确定上述各样本片段中各字符的特征标注以及上述各字符的位置标注。
在一些可行的实施方式中,终端设备可以将分类标注后的样本片段进行语义标注,以得到语义标注后的样本片段。终端设备可以将分类标注后的各样本片段中的各字符进行特征标注,以及对各字符的位置进行标注。例如,通过对分类标注后的样本片段中的各字符进行拼音标注,笔画数标注,以及字符位置标注,可将问题片段1(感冒如何治疗?)进行语义标注为:感(gan,13,【1】)冒(mao,9,【2】)如(ru,6,【3】)何(he,7,【4】)治(zhi,8,【5】)疗(liao,7,【6】)?(##,#,【7】)。在问题片段1与答案片段1中间加入分隔符(位置在【8】),同时将问题片段1对应的答案片段1(建议患者卧床休息,清淡饮食)进行语义标注为:建(jian,8,【9】)议(yi,5,【10】)患(huan,11,【11】)者(zhe,8,【12】)卧(wo,8,【13】)床(chuang,7,【14】)休(xiu,6,【15】)息(xi,10,【16】),清(qing,11,【17】)淡(dan,12,【18】)饮(yin,7,【19】)食(shi,9,【20】)。
S204:终端设备将上述各问题片段所属的问题类型标注、上述各答案片段所回答问题的问题类型标注、上述样本片段中各字符的特征标注以及上述各字符的位置标注,输入语义分析层以及语义匹配层。
S205:门控循环层获取基于任一样本片段对上述阅读理解模型的语义匹配层进行训练后得到的第一语义匹配层网络参数。
S206:门控循环层确定上述第一语义匹配层网络参数的评分。
S207:当上述第一语义匹配层网络参数的评分大于或等于阈值时,门控循环层将上述语义匹配层的网络参数确定为上述第一语义匹配层网络参数。
S208:当上述第一语义匹配层网络参数的评分小于阈值时,门控循环层将上述语义匹配层的网络参数确定为第二语义匹配层网络参数。
在一些可行的实施方式中,在一个样本片段输入上述语义匹配层,通过该样本片段对语义匹配进行训练之后,门控循环层可以获取上述语义匹配层的语义匹配层网络参数(假设为第一语义匹配层网络参数)。通过门控循环层确定上述语义匹配层网络参数的评分,并对上述语义匹配层网络参数的评分进行判断。当上述语义匹配层网络参数的评分大于或等于阈值时,门控循环层通过其更新门将上述语义匹配层的网络参数确定为上述第一语义匹配层网络参数。当上述语义匹配层网络参数的评分小于阈值时,门控循环层通过重置门将上述语义匹配层的网络参数确定为第二语义匹配层网络参数。其中,上述第二语义匹配层网络参数为基于在先样本片段包括的问题片段所属的问题类型标注、上述问题片段对应的答案片段所回答问题的问题类型标注、上述在先样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义匹配层进行训练后得到的语义匹配层网络参数。这里,上述在先样本片段为在上述任一样本片段之前输入上述阅读理解模型,用于对上述语义匹配层进行训练的样本片段。
在一些可行的实施方式中,在一个样本片段输入上述语义匹配层之后,门控循环层可以获取上述语义匹配层的语义匹配层网络参数(假设为第一语义匹配层网络参数)并存储在门控循环层中,对存储在门控循环层中的n个(n为大于1的正整数,可以由用户自由设定)样本片段输入语义匹配层后的语义匹配层网络参数进行综合评分,并对上述语义匹配层网络参数的综合评分进行判断。当上述语义匹配层网络参数的综合评分大于或等于阈值时,门控循环层通过更新门将上述语义匹配层的网络参数确定为上述第一语义匹配层网络参数。当上述语义匹配层网络参数的综合评分小于阈值时,门控循环层通过重置门将上述语义匹配层的网络参数确定为第二语义匹配层网络参数。其中,上述第二语义匹配层网络参数为基于在先样本片段包括的问题片段所属的问题类型标注、上述问题片段对应的答案片段所回答问题的问题类型标注、上述在先样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义匹配层进行训练后得到的语义匹配层网络参数,上述在先样本片段为在上述n个样本片段之前输入上述阅读理解模型的样本片段。
具体地,获取上述语义匹配层在第i个(i为正整数)样本片段输入之后的语义匹配层网络参数,门控循环层确定语义匹配层网络参数的评分,并对语义匹配层网络参数进行还原或者更新,得到第i组语义匹配层网络参数。当将第i+1个样本片段输入语义匹配层时,利用第i组语义匹配层网络参数对上述语义匹配层进行训练,从而确保第i时刻通过门控循环层控制的语义匹配层网络参数可以在第i+1时刻被应用到对语义匹配层的训练中。
S104:通过上述阅读理解模型的语义匹配层基于标注后的上述待理解文本,确定上述待理解问题的回答文本的起始字符位置和终止字符位置,并确定出上述待理解问题的回答文本。
在一些可行的实施方式中,将标注后的待理解问题和各待理解文章片段输入阅读理解模型进行语义匹配,通过阅读理解模型在待理解文章中确定待理解问题的回答文本的起始字符位置(【32】)和终止字符位置(【43】),以得到待理解问题的回答文本(建议患者卧床休息,清淡饮食)。
在本申请实施例中,通过对待理解文本中待理解问题所属的问题类型以及各待理解文章片段所回答的问题类型进行标注,可以在问题类型维度上增强待理解问题和待理解文章在语义上的关联性;对确定了问题类型后的待理解文本中的各字符进行特征标注以及位置标注并输入语义匹配层,使得语义匹配层可以对待理解文本进行字符级别的阅读理解,在待理解文章中得到待理解问题的回答文本的起始字符位置和终止字符位置,从而得到上述待理解问题的回答文本,提高阅读理解的准确率。
请参阅图3,图3是本申请实施例提供的文本处理方法的另一流程示意图。
S301:终端设备获取待理解文本。
在一些可行的实施方式中,终端设备获取待理解文本,上述待理解文本包括待理解问题(例如,待理解问题1等)和多个待理解文章片段(例如,待理解文章片段1,待理解文章片段2等)。例如,终端设备可以获取待理解文本包括待理解问题1(感冒如何治疗?),待理解文章片段1(感冒是一种常见的急性上呼吸道病毒性感染性疾病)以及待理解文章片段2(建议患者卧床休息,清淡饮食)。在一些应用场景中,待理解文章的长度可能比较长,大于阅读理解模型限制的长度范围,则可以将待理解文章分割为多个待理解文章片段,将每个待理解文章片段与待理解问题组合,依次输入阅读理解模型进行阅读理解。具体可根据实际应用场景确定,在此不做限制。
S302:终端设备将上述待理解文本输入阅读理解模型,通过上述阅读理解模型的语义分析层确定出上述待理解问题所属的问题类型标注,以及各待理解文章片段所回答问题的问题类型标注。
在一些可行的实施方式中,终端设备可以将待理解文本输入训练好的阅读理解模型,通过阅读理解模型的语义分析层对待理解文本进行问题类型标注和语义标注。例如,通过阅读理解模型的语义分析层可将待理解问题1(感冒如何治疗?)的问题类型标注为“上呼吸道感染”和“方法问题”,将待理解文章片段1(感冒是一种常见的急性上呼吸道病毒性感染性疾病)所回答问题的问题类型标注为“上呼吸道感染”和“其他问题”,将待理解文章片段2(建议患者卧床休息,清淡饮食)所回答问题的问题类型标注为“上呼吸道感染”和“方法问题”。
S303:通过阅读理解模型的语义分析层确定出上述待理解文本中各字符的特征标注以及上述各字符的位置标注。
在一些可行的实施方式中,通过阅读理解模型的语义分析层可以同时对待理解文本中的各字符进行特征标注以及对各字符的位置进行标注,得到标注后的待理解问题和各待理解文章片段。上述语义标注包括但不限于将样本片段中的各字符进行特征标注,以及对各字符的位置进行标注。比如通过阅读理解模型对待理解文本中的待理解问题的各字符进行特征标注并对各字符的位置(在待理解文本中的位置)进行标注,可得到语义标注后的待理解问题1:感(gan,13,【1】)冒(mao,9,【2】)如(ru,6,【3】)何(he,7,【4】)治(zhi,8,【5】)疗(liao,7,【6】)?(##,#,【7】)。在待理解问题1与待理解文章片段1中间加入分隔符(位置在【8】)。通过阅读理解模型的语义分析层可得到语义标注后的待理解文章片段1:感(gan,13,【9】)冒(mao,9,【10】)是(shi,9,【11】)一(yi,1,【12】)种(zhong,9,【13】)常(chang,11,【14】)见(jian,4,【15】)的(de,8,【16】)急(ji,9,【17】)性(xing,8,【18】)上(shang,3,【19】)呼(hu,8,【20】)吸(xi,6,【21】)道(dao,11,【22】)病(bing,9,【23】)毒(du,9,【24】)性(xing,8,【25】)感(gan,13,【26】)染(ran,9,【27】)性(xing,8,【28】)疾(ji,10,【29】)病(bing,10,【30】)。在待理解文章片段1与待理解文章片段2中间加入分隔符(位置在【31】),用于区分待理解文章片段1和待理解文章片段2。通过阅读理解模型的语义分析层可得到语义标注后的待理解文章片段2:建(jian,8,【32】)议(yi,5,【33】)患(huan,11,【34】)者(zhe,8,【35】)卧(wo,8,【36】)床(chuang,7,【37】)休(xiu,6,【38】)息(xi,10,【39】),清(qing,11,【40】)淡(dan,12,【41】)饮(yin,7,【42】)食(shi,9,【43】)。
S304:通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,从上述待理解文章文本中确定出多个预选起始字符位置和多个预选终止字符位置,以得到多个预选回答文本。
S305:通过上述语义匹配层基于各预选回答文本与上述待理解问题的匹配度,确定出上述各预选回答文本用于回答上述待理解问题的评分。
在一些可行的实施方式中,可以将预选回答文本和待理解问题进行矩阵向量化,并计算两个矩阵的相似度,作为预选回答文本与待理解问题的匹配度。
特别地,也可以将预选回答文本和待理解问题进行矩阵向量化,并计算出待理解问题的特征矩阵,特征矩阵代表的含义可以为待理解问题中的关键词,计算预选回答文本矩阵与待理解问题的特征矩阵的相似度,作为预选回答文本与待理解问题的匹配度。
S306:将上述各预选回答文本中评分最高的预选回答文本的预选起始字符位置和预选终止字符位置作为上述待理解问题的回答文本的起始字符位置和终止字符位置,以得到上述待理解问题的回答文本。
在一些可行的实施方式中,可以判断上述待理解问题的回答文本的起始字符位置与终止字符位置的字符距离是否在阈值区间内,若是,则根据上述起始字符位置和上述终止字符位置从上述待理解文本中确定出上述待理解问题的回答文本,并输出上述待理解问题的回答文本;若否,则输出回答文本不存在。可以进一步地限定回答文本的长度,剔除回答文本中与待理解问题无关的信息,从而减少回答文本的冗余,进一步提高阅读理解的效率。
在本申请实施例中,通过对待理解文本中待理解问题所属的问题类型以及各待理解文章片段所回答的问题类型进行标注,可以在问题类型维度上增强待理解问题和待理解文章在语义上的关联性;对确定了问题类型后的待理解文本中的各字符进行特征标注以及位置标注并输入语义匹配层,使得语义匹配层可以对待理解文本进行字符级别的阅读理解,在待理解文章中得到待理解问题的回答文本的起始字符位置和终止字符位置,从而得到上述待理解问题的回答文本,提高阅读理解的准确率。
请参阅图4,图4是本申请实施例提供的文本处理装置的结构示意图。
文本获取模块401,用于获取待理解文本,待理解文本包括待理解问题和多个待理解文章片段。
在一些可行的实施方式中,通过文本获取模块401获取待理解文本,上述待理解文本包括待理解问题和多个待理解文章片段。例如,文本获取模块401获取待理解文本包括待理解问题1(感冒如何治疗?),待理解文章片段1(感冒是一种常见的急性上呼吸道病毒性感染性疾病)以及待理解文章片段2(建议患者卧床休息,清淡饮食)。在一些应用场景中,待理解文章的长度可能比较长,大于阅读理解模型限制的长度范围,则可以将待理解文章分割为多个待理解文章片段,将每个待理解文章片段与待理解问题组合,依次输入阅读理解模型进行阅读理解。具体可根据实际应用场景确定,在此不做限制。
分类标注模块402,用于将待理解文本输入语义分析层,对待理解文本进行问题类型标注和语义标注,以得到标注后的待理解问题和各待理解文章片段,其中,问题类型标注包括对待理解问题所属的问题类型进行标注,以及对各待理解文章片段所回答的问题类型进行标注,语义标注包括对待理解文本中的各字符进行特征标注以及对各字符的位置进行标注。
在一些可行的实施方式中,可以通过分类标注模块402对待理解文本进行问题类型标注和语义标注。将待理解问题1(感冒如何治疗?)的问题类型标注为“上呼吸道感染”和“方法问题”,将待理解文章片段1(感冒是一种常见的急性上呼吸道病毒性感染性疾病)所回答问题的问题类型标注为“上呼吸道感染”和“其他问题”,将待理解文章片段2(建议患者卧床休息,清淡饮食)所回答问题的问题类型标注为“上呼吸道感染”和“方法问题”。
语义标注模块403,用于通过上述阅读理解模型的语义分析层确定出上述待理解文本中各字符的特征标注以及上述各字符的位置标注。
在一些可行的实施方式中,语义标注模块403可以同时对待理解文本中的各字符进行特征标注以及对各字符的位置进行标注,得到标注后的待理解问题和各待理解文章片段。上述语义标注包括但不限于将样本片段中的各字符进行特征标注,以及对各字符的位置进行标注。比如通过语义标注模块403对待理解文本中的待理解问题的各字符进行特征标注并对各字符的位置(在待理解文本中的位置)进行标注,可得到语义标注后的待理解问题1:感(gan,13,【1】)冒(mao,9,【2】)如(ru,6,【3】)何(he,7,【4】)治(zhi,8,【5】)疗(liao,7,【6】)?(##,#,【7】)。在待理解问题1与待理解文章片段1中间加入分隔符(位置在【8】)。得到语义标注后的待理解文章片段1:感(gan,13,【9】)冒(mao,9,【10】)是(shi,9,【11】)一(yi,1,【12】)种(zhong,9,【13】)常(chang,11,【14】)见(jian,4,【15】)的(de,8,【16】)急(ji,9,【17】)性(xing,8,【18】)上(shang,3,【19】)呼(hu,8,【20】)吸(xi,6,【21】)道(dao,11,【22】)病(bing,9,【23】)毒(du,9,【24】)性(xing,8,【25】)感(gan,13,【26】)染(ran,9,【27】)性(xing,8,【28】)疾(ji,10,【29】)病(bing,10,【30】)。在待理解文章片段1与待理解文章片段2中间加入分隔符(位置在【31】),用于区分待理解文章片段1和待理解文章片段2。通过阅读理解模型的语义分析层可得到语义标注后的待理解文章片段2:建(jian,8,【32】)议(yi,5,【33】)患(huan,11,【34】)者(zhe,8,【35】)卧(wo,8,【36】)床(chuang,7,【37】)休(xiu,6,【38】)息(xi,10,【39】),清(qing,11,【40】)淡(dan,12,【41】)饮(yin,7,【42】)食(shi,9,【43】)。
语义匹配模块404,用于通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、上述各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,确定上述待理解问题的回答文本的起始字符位置和终止字符位置,并根据上述起始字符位置和上述终止字符位置从上述待理解文本中确定出上述待理解问题的回答文本。
在一些可行的实施方式中,语义匹配模块404可以将预选回答文本和待理解问题进行矩阵向量化,并计算两个矩阵的相似度,作为预选回答文本与待理解问题的匹配度。
特别地,语义匹配模块404也可以将预选回答文本和待理解问题进行矩阵向量化,并计算出待理解问题的特征矩阵,特征矩阵代表的含义可以为待理解问题中的关键词,计算预选回答文本矩阵与待理解问题的特征矩阵的相似度,作为预选回答文本与待理解问题的匹配度。进而可以将评分最高的预选回答文本的预选起始字符位置和预选终止字符位置,作为待理解问题的回答文本的起始字符位置和终止字符位置,以得到待理解问题的回答文本,此时,回答文本与待理解问题匹配度最高。
在一些可行的实施方式中,上述语义匹配模块404包括:
文本确认单元,用于通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,从上述待理解文章文本中确定出多个预选起始字符位置和多个预选终止字符位置,以得到多个预选回答文本。
回答评分单元,用于通过上述语义匹配层基于各预选回答文本与上述待理解问题的匹配度,确定出上述各预选回答文本用于回答上述待理解问题的评分。
回答确认单元,用于将上述各预选回答文本中评分最高的预选回答文本的预选起始字符位置和预选终止字符位置作为上述待理解问题的回答文本的起始字符位置和终止字符位置,以得到上述待理解问题的回答文本。
在一些可行的实施方式中,上述语义匹配模块404还包括:
回答输出单元,用于若上述待理解问题的回答文本的起始字符位置与终止字符位置的字符距离在阈值区间内,则从上述待理解文本中确定出上述起始字符位置和上述终止字符位置之间的文本作为上述待理解问题的回答文本,并输出上述待理解问题的回答文本。
在本申请实施例中,通过对待理解文本中待理解问题所属的问题类型以及各待理解文章片段所回答的问题类型进行标注,可以在问题类型维度上增强待理解问题和待理解文章在语义上的关联性;对确定了问题类型后的待理解文本中的各字符进行特征标注以及位置标注并输入语义匹配层,使得语义匹配层可以对待理解文本进行字符级别的阅读理解,在待理解文章中得到待理解问题的回答文本的起始字符位置和终止字符位置,从而得到上述待理解问题的回答文本,提高阅读理解的准确率。
参见图5,图5是本申请实施例提供的终端设备的结构示意图。如图5所示,本实施例中的终端设备可以包括:一个或多个处理器501和存储器502。上述处理器501和存储器502通过总线503连接。存储器502用于存储计算机程序,该计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令,执行如下操作:
获取待理解文本,上述待理解文本包括待理解问题和多个待理解文章片段;
将上述待理解文本输入阅读理解模型,通过上述阅读理解模型的语义分析层确定出上述待理解问题所属的问题类型标注,以及各待理解文章片段所回答问题的问题类型标注;
通过上述阅读理解模型的语义分析层确定出上述待理解文本中各字符的特征标注以及上述各字符的位置标注;
通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、上述各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,确定上述待理解问题的回答文本的起始字符位置和终止字符位置;
根据上述起始字符位置和上述终止字符位置从上述待理解文本中确定出上述待理解问题的回答文本。
在一些可行的实施方式中,上述处理器501还用于:
采集多个阅读理解文本的样本片段,上述样本片段包括问题片段以及上述问题片段对应的答案片段;
确定各样本片段中各问题片段所属的问题类型标注,以及各答案片段所回答问题的问题类型标注;
确定上述各样本片段中各字符的特征标注以及上述各字符的位置标注;
基于上述各问题片段所属的问题类型标注、上述各答案片段所回答问题的问题类型标注、上述样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义分析层以及语义匹配层进行训练。
在一些可行的实施方式中,上述处理器501用于:
获取基于任一样本片段包括的问题片段所属的问题类型标注、上述问题片段对应的答案片段所回答问题的问题类型标注、上述任一样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义匹配层进行训练后得到的第一语义匹配层网络参数;
通过上述阅读理解模型的门控循环层确定上述第一语义匹配层网络参数的评分;
当上述第一语义匹配层网络参数的评分大于或等于阈值时,通过上述门控循环层将上述语义匹配层的网络参数确定为上述第一语义匹配层网络参数;
当上述第一语义匹配层网络参数的评分小于阈值时,通过上述门控循环层将上述语义匹配层的网络参数确定为第二语义匹配层网络参数;
其中,上述第二语义匹配层网络参数为基于在先样本片段包括的问题片段所属的问题类型标注、上述问题片段对应的答案片段所回答问题的问题类型标注、上述在先样本片段中各字符的特征标注以及上述各字符的位置标注,对上述阅读理解模型的语义匹配层进行训练后得到的语义匹配层网络参数,上述在先样本片段为在上述任一样本片段之前输入上述阅读理解模型的样本片段。
在一些可行的实施方式中,上述处理器501用于:
通过上述阅读理解模型的语义匹配层基于上述待理解问题所属的问题类型标注、各待理解文章片段所回答问题的问题类型标注、上述待理解文本中各字符的特征标注以及上述各字符的位置标注,从上述待理解文章文本中确定出多个预选起始字符位置和多个预选终止字符位置,以得到多个预选回答文本;
通过上述语义匹配层基于各预选回答文本与上述待理解问题的匹配度,确定出上述各预选回答文本用于回答上述待理解问题的评分;
将上述各预选回答文本中评分最高的预选回答文本的预选起始字符位置和预选终止字符位置作为上述待理解问题的回答文本的起始字符位置和终止字符位置,以得到上述待理解问题的回答文本。
在一些可行的实施方式中,上述处理器501用于:
若上述待理解问题的回答文本的起始字符位置与终止字符位置的字符距离在阈值区间内,则从上述待理解文本中确定出上述起始字符位置和上述终止字符位置之间的文本作为上述待理解问题的回答文本,并输出上述待理解问题的回答文本。
在一些可行的实施方式中,上述处理器501用于:
从互联网中采集多个阅读理解文本的样本片段;和/或
从目标领域数据库中采集多个阅读理解文本的样本片段,上述目标领域数据库至少包括基于医疗领域的诊疗数据以及病理数据生成的医疗领域数据库;
其中,各阅读理解文本的样本片段包括问题片段以及上述问题片段对应的答案片段。
在一些可行的实施方式中,上述处理器501可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器502可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如,存储器502还可以存储设备类型的信息。
具体实现中,上述终端设备可通过其内置的各个功能模块执行如上述图1至图3中各个步骤所提供的实现方式,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
在本申请实施例中,通过对待理解文本中待理解问题所属的问题类型以及各待理解文章片段所回答的问题类型进行标注,可以在问题类型维度上增强待理解问题和待理解文章在语义上的关联性;对确定了问题类型后的待理解文本中的各字符进行特征标注以及位置标注并输入语义匹配层,使得语义匹配层可以对待理解文本进行字符级别的阅读理解,在待理解文章中得到待理解问题的回答文本的起始字符位置和终止字符位置,从而得到上述待理解问题的回答文本,提高阅读理解的准确率。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1至图3中各个步骤所提供的方法,具体可参见上述各个步骤所提供的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例提供的基于预测模型的用户行为识别装置或者上述终端设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flashcard)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请的权利要求书和说明书及附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种文本处理方法,其特征在于,所述方法包括:
获取待理解文本,所述待理解文本包括待理解问题和多个待理解文章片段;
将所述待理解文本输入阅读理解模型,通过所述阅读理解模型的语义分析层确定出所述待理解问题所属的问题类型标注,以及各待理解文章片段所回答问题的问题类型标注;
通过所述阅读理解模型的语义分析层确定出所述待理解文本中各字符的特征标注以及所述各字符的位置标注;
通过所述阅读理解模型的语义匹配层基于所述待理解问题所属的问题类型标注、所述各待理解文章片段所回答问题的问题类型标注、所述待理解文本中各字符的特征标注以及所述各字符的位置标注,确定所述待理解问题的回答文本的起始字符位置和终止字符位置;
根据所述起始字符位置和所述终止字符位置从所述待理解文本中确定出所述待理解问题的回答文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述待理解文本输入阅读理解模型之前,所述方法还包括:
采集多个阅读理解文本的样本片段,所述样本片段包括问题片段以及所述问题片段对应的答案片段;
确定各样本片段中各问题片段所属的问题类型标注,以及各答案片段所回答问题的问题类型标注;
确定所述各样本片段中各字符的特征标注以及所述各字符的位置标注;
基于所述各问题片段所属的问题类型标注、所述各答案片段所回答问题的问题类型标注、所述样本片段中各字符的特征标注以及所述各字符的位置标注,对所述阅读理解模型的语义分析层以及语义匹配层进行训练。
3.根据权利要求2所述的方法,其特征在于,所述基于所述各问题片段所属的问题类型标注、所述各答案片段所回答问题的问题类型标注、所述样本片段中各字符的特征标注以及所述各字符的位置标注,对所述阅读理解模型的语义分析层以及语义匹配层进行训练包括:
获取基于任一样本片段包括的问题片段所属的问题类型标注、所述问题片段对应的答案片段所回答问题的问题类型标注、所述任一样本片段中各字符的特征标注以及所述各字符的位置标注,对所述阅读理解模型的语义匹配层进行训练后得到的第一语义匹配层网络参数;
通过所述阅读理解模型的门控循环层确定所述第一语义匹配层网络参数的评分;
当所述第一语义匹配层网络参数的评分大于或等于阈值时,通过所述门控循环层将所述语义匹配层的网络参数确定为所述第一语义匹配层网络参数;
当所述第一语义匹配层网络参数的评分小于阈值时,通过所述门控循环层将所述语义匹配层的网络参数确定为第二语义匹配层网络参数;
其中,所述第二语义匹配层网络参数为基于在先样本片段包括的问题片段所属的问题类型标注、所述问题片段对应的答案片段所回答问题的问题类型标注、所述在先样本片段中各字符的特征标注以及所述各字符的位置标注,对所述阅读理解模型的语义匹配层进行训练后得到的语义匹配层网络参数,所述在先样本片段为在所述任一样本片段之前输入所述阅读理解模型的样本片段。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述通过所述阅读理解模型的语义匹配层基于所述待理解问题所属的问题类型标注、所述各待理解文章片段所回答问题的问题类型标注、所述待理解文本中各字符的特征标注以及所述各字符的位置标注,确定所述待理解问题的回答文本的起始字符位置和终止字符位置包括:
通过所述阅读理解模型的语义匹配层基于所述待理解问题所属的问题类型标注、各待理解文章片段所回答问题的问题类型标注、所述待理解文本中各字符的特征标注以及所述各字符的位置标注,从所述待理解文章文本中确定出多个预选起始字符位置和多个预选终止字符位置,以得到多个预选回答文本;
通过所述语义匹配层基于各预选回答文本与所述待理解问题的匹配度,确定出所述各预选回答文本用于回答所述待理解问题的评分;
将所述各预选回答文本中评分最高的预选回答文本的预选起始字符位置和预选终止字符位置作为所述待理解问题的回答文本的起始字符位置和终止字符位置。
5.根据权利要求4所述的方法,其特征在于,所述根据所述起始字符位置和所述终止字符位置从所述待理解文本中确定出所述待理解问题的回答文本包括:
若所述待理解问题的回答文本的起始字符位置与终止字符位置的字符距离在阈值区间内,则从所述待理解文本中确定出所述起始字符位置和所述终止字符位置之间的文本作为所述待理解问题的回答文本,并输出所述待理解问题的回答文本。
6.根据权利要求2所述的方法,其特征在于,所述采集多个阅读理解文本的样本片段包括:
从互联网中采集多个阅读理解文本的样本片段;和/或
从目标领域数据库中采集多个阅读理解文本的样本片段,所述目标领域数据库至少包括基于医疗领域的诊疗数据以及病理数据生成的医疗领域数据库;
其中,各阅读理解文本的样本片段包括问题片段以及所述问题片段对应的答案片段。
7.一种文本处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取待理解文本,所述待理解文本包括待理解问题和多个待理解文章片段;
分类标注模块,用于将所述待理解文本输入阅读理解模型,通过所述阅读理解模型的语义分析层确定出所述待理解问题所属的问题类型标注,以及各待理解文章片段所回答问题的问题类型标注;
语义标注模块,用于通过所述阅读理解模型的语义分析层确定出所述待理解文本中各字符的特征标注以及所述各字符的位置标注;
语义匹配模块,用于通过所述阅读理解模型的语义匹配层基于所述待理解问题所属的问题类型标注、所述各待理解文章片段所回答问题的问题类型标注、所述待理解文本中各字符的特征标注以及所述各字符的位置标注,确定所述待理解问题的回答文本的起始字符位置和终止字符位置,并根据所述起始字符位置和所述终止字符位置从所述待理解文本中确定出所述待理解问题的回答文本。
8.根据权利要求7所述的装置,其特征在于,所述语义匹配模块包括:
文本确认单元,用于通过所述阅读理解模型的语义匹配层基于所述待理解问题所属的问题类型标注、各待理解文章片段所回答问题的问题类型标注、所述待理解文本中各字符的特征标注以及所述各字符的位置标注,从所述待理解文章文本中确定出多个预选起始字符位置和多个预选终止字符位置,以得到多个预选回答文本;
回答评分单元,用于通过所述语义匹配层基于各预选回答文本与所述待理解问题的匹配度,确定出所述各预选回答文本用于回答所述待理解问题的评分;
回答确认单元,用于将所述各预选回答文本中评分最高的预选回答文本的预选起始字符位置和预选终止字符位置作为所述待理解问题的回答文本的起始字符位置和终止字符位置。
9.一种终端设备,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
CN202011501996.6A 2020-12-17 2020-12-17 文本处理方法、装置、设备及存储介质 Active CN112613322B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011501996.6A CN112613322B (zh) 2020-12-17 2020-12-17 文本处理方法、装置、设备及存储介质
PCT/CN2021/097086 WO2022127040A1 (zh) 2020-12-17 2021-05-31 文本处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011501996.6A CN112613322B (zh) 2020-12-17 2020-12-17 文本处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112613322A true CN112613322A (zh) 2021-04-06
CN112613322B CN112613322B (zh) 2023-10-24

Family

ID=75241022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011501996.6A Active CN112613322B (zh) 2020-12-17 2020-12-17 文本处理方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112613322B (zh)
WO (1) WO2022127040A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139033A (zh) * 2021-05-13 2021-07-20 平安国际智慧城市科技股份有限公司 文本处理方法、装置、设备及存储介质
WO2022127040A1 (zh) * 2020-12-17 2022-06-23 平安科技(深圳)有限公司 文本处理方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992600B (zh) * 2024-04-07 2024-06-11 之江实验室 一种业务执行方法、装置、存储介质以及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US20090287678A1 (en) * 2008-05-14 2009-11-19 International Business Machines Corporation System and method for providing answers to questions
US20180286383A1 (en) * 2017-03-31 2018-10-04 Wipro Limited System and method for rendering textual messages using customized natural voice
CN110309305A (zh) * 2019-06-14 2019-10-08 中国电子科技集团公司第二十八研究所 基于多任务联合训练的机器阅读理解方法及计算机存储介质
CN110609886A (zh) * 2019-09-18 2019-12-24 北京金山数字娱乐科技有限公司 一种文本分析方法及装置
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111046158A (zh) * 2019-12-13 2020-04-21 腾讯科技(深圳)有限公司 问答匹配方法及模型训练方法、装置、设备、存储介质
CN111046674A (zh) * 2019-12-20 2020-04-21 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992665A (zh) * 2019-03-14 2019-07-09 广州智语信息科技有限公司 一种基于问题目标特征扩展的分类方法
CN112613322B (zh) * 2020-12-17 2023-10-24 平安科技(深圳)有限公司 文本处理方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US20090287678A1 (en) * 2008-05-14 2009-11-19 International Business Machines Corporation System and method for providing answers to questions
US20180286383A1 (en) * 2017-03-31 2018-10-04 Wipro Limited System and method for rendering textual messages using customized natural voice
CN110309305A (zh) * 2019-06-14 2019-10-08 中国电子科技集团公司第二十八研究所 基于多任务联合训练的机器阅读理解方法及计算机存储介质
CN110609886A (zh) * 2019-09-18 2019-12-24 北京金山数字娱乐科技有限公司 一种文本分析方法及装置
CN111027327A (zh) * 2019-10-29 2020-04-17 平安科技(深圳)有限公司 机器阅读理解方法、设备、存储介质及装置
CN111046158A (zh) * 2019-12-13 2020-04-21 腾讯科技(深圳)有限公司 问答匹配方法及模型训练方法、装置、设备、存储介质
CN111046674A (zh) * 2019-12-20 2020-04-21 科大讯飞股份有限公司 语义理解方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022127040A1 (zh) * 2020-12-17 2022-06-23 平安科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN113139033A (zh) * 2021-05-13 2021-07-20 平安国际智慧城市科技股份有限公司 文本处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112613322B (zh) 2023-10-24
WO2022127040A1 (zh) 2022-06-23

Similar Documents

Publication Publication Date Title
CN111027327B (zh) 机器阅读理解方法、设备、存储介质及装置
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN112613322B (zh) 文本处理方法、装置、设备及存储介质
WO2021072852A1 (zh) 序列标注方法、***和计算机设备
KR102271361B1 (ko) 자동 질의응답 장치
CN111460820A (zh) 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN112614559A (zh) 病历文本处理方法、装置、计算机设备和存储介质
CN116127056A (zh) 一种多层次特征增强的医疗对话摘要方法
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN115238026A (zh) 一种基于深度学习的医疗文本主题分割方法和装置
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN110633456A (zh) 语种识别方法、装置、服务器及存储介质
CN114220505A (zh) 病历数据的信息抽取方法、终端设备及可读存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN117113998A (zh) 统一信息抽取方法和装置
CN116595994A (zh) 基于提示学习的矛盾信息预测方法、装置、设备及介质
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN117113937A (zh) 一种基于大规模语言模型的电力领域阅读理解方法和***
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
CN113590786B (zh) 一种数据预测方法、装置、设备及存储介质
CN111949769B (zh) 一种增强阅读理解***鲁棒性的方法及装置
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN114676237A (zh) 语句相似度确定方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant