CN113032531A - 文本处理方法及装置 - Google Patents

文本处理方法及装置 Download PDF

Info

Publication number
CN113032531A
CN113032531A CN202110556481.4A CN202110556481A CN113032531A CN 113032531 A CN113032531 A CN 113032531A CN 202110556481 A CN202110556481 A CN 202110556481A CN 113032531 A CN113032531 A CN 113032531A
Authority
CN
China
Prior art keywords
text
answer
candidate
question
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110556481.4A
Other languages
English (en)
Other versions
CN113032531B (zh
Inventor
白静
李长亮
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Software Co Ltd
Original Assignee
Beijing Kingsoft Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Software Co Ltd filed Critical Beijing Kingsoft Software Co Ltd
Priority to CN202111294843.3A priority Critical patent/CN113887244A/zh
Priority to CN202110556481.4A priority patent/CN113032531B/zh
Publication of CN113032531A publication Critical patent/CN113032531A/zh
Application granted granted Critical
Publication of CN113032531B publication Critical patent/CN113032531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供文本处理方法及装置,其中所述文本处理方法包括:获取问题文本以及包含所述问题文本对应的候选答案的目标文本;在所述目标文本中提取包含所述候选答案的候选语句;根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。通过考虑上下文语义信息对问题文本的答案的影响,更进一步的提高了确定目标答案文本的精准度。

Description

文本处理方法及装置
技术领域
本申请涉及人工智能技术领域,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,越来越多的问答***应运而生,而为了能够针对用户提出的问题进行精准的回答,通常在问答***中抽取答案之前,都需要对用户提出的问题进行语义理解和解析,之后通过语义理解的信息再进行答案的查询和排序,以筛选出正确的答案向用户进行反馈。而当前问题***对答案的排序一般利用一些特征进行排序,文档段落级别的特征一般用并交比等计算文档和问题的相似度,同时结合答案的类型作特征向量等,而答案的特征一般是使用问答模型给出答案置信度,答案中含有的实体类型、分类标签等向量化后再进行特征融合,以此推到出正确答案。然而此方法筛选答案的精准度有限,很容易造成回答错误的问题,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
在所述目标文本中提取包含所述候选答案的候选语句;
根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
可选地,所述获取问题文本以及包含所述问题文本对应的候选答案的目标文本,包括:
获取所述问题文本;
将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的所述候选答案;
根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的所述目标文本。
可选地,所述在所述目标文本中提取包含所述候选答案的候选语句,包括:
确定所述候选答案在所述目标文本中的答案位置;
基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句。
可选地,所述确定所述候选答案在所述目标文本中的答案位置,包括:
对所述候选答案进行解析获得所述候选答案对应的属性信息;
根据所述属性信息在所述目标文本中进行位置定位,根据定位结果确定所述候选答案在所述目标文本中的所述答案位置。
可选地,所述基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句,包括:
基于所述答案位置在所述目标文本中识别第一段落符和第二段落符,并根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句;
或者,
在所述目标文本中提取所述候选答案前后设定字数的第一段落文本和第二段落文本,根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句。
可选地,所述根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,包括:
提取所述目标文本的文本特征;
将所述文本特征、所述候选语句以及所述问题文本进行拼接,获得所述候选答案对应的所述候选答案特征。
可选地,所述基于所述候选答案特征确定所述问题文本对应的目标答案文本,包括:
将所述候选答案特征输入至文本处理模块,通过所述文本处理模块中的深度语言模型进行编码处理,获得编码特征;
将所述编码特征输入至所述文本处理模块中的分类网络进行打分处理,获得所述编码特征对应的特征分值;
根据所述特征分值确定所述候选答案对应的答案分值,并基于所述答案分值从所述候选答案中筛选出所述目标答案文本;
通过所述文本处理模块输出所述目标答案文本。
可选地,还包括:
获取初始语言模型以及样本问题文本;
确定所述样本问题文本对应的样本答案文本,并基于所述样本问题文本和所述样本答案文本构建样本对;
基于所述样本对对所述初始语言模型进行训练,直至所述初始语言模型满足训练停止条件,获得所述深度语言模型。
可选地,所述基于所述答案分值从所述候选答案中筛选出所述目标答案文本,包括:
根据所述答案分值对所述候选答案中的各个子候选答案进行排序,获得候选答案序列;
按照预设的筛选规则在所述候选答案序列中筛选出所述目标答案文本。
可选地,所述文本特征包括下述至少一项:
文本标题、文本关键词、文本语义信息。
可选地,所述将所述文本特征、所述候选语句以及所述问题文本进行拼接,获得所述候选答案对应的所述候选答案特征,包括:
根据所述文本处理模块的输入策略对所述文本特征、所述候选语句和所述问题文本进行拼接处理,根据拼接处理结果得到所述候选答案特征。
根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
获取模块,被配置为获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
提取模块,被配置为在所述目标文本中提取包含所述候选答案的候选语句;
确定模块,被配置为根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
本申请提供的文本处理方法,在获取到问题文本后,将确定所述问题文本对应的候选答案,同时获取包含所述候选答案的目标文本;之后在所述目标文本中提取包含候选答案的候选语句,以实现后续可以结合候选答案的上下文信息预测正确的答案。其次将基于目标文本、候选语句和问题文本构建候选答案特征,最后基于候选答案特征确定所述目标答案文本,实现了在对问题文本的答案进行筛选时,通过考虑上下文语义信息对预测问题文本的答案的影响,有效的提高了确定目标答案文本的准确性,更进一步的提高了回答精准度。
附图说明
图1是本申请一实施例提供的一种文本处理方法的流程图;
图2是本申请一实施例提供的一种应用于问题答复场景中的文本处理方法的处理流程图;
图3是本申请一实施例提供的一种文本处理装置的结构示意图;
图4是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
BERT模型:(BidirectionalEncoder Representations from Transformer),是基于Transformer 的双向编码器表征,BERT模型的根基就是Transformer,来源于attentionis all you need。其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。
问答***(Question Answering System,QA):是信息检索***的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。
置信度:一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数测量值的可信程度范围,即前面所要求的“一定概率”。这个概率被称为置信水平。
在本申请中,提供了一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种文本处理方法的流程图,具体包括以下步骤:
步骤S102,获取问题文本以及包含所述问题文本对应的候选答案的目标文本。
具体的,所述问题文本具体是指接收来自于用户提交的待回答的问题所对应的文本;相应的,所述候选答案具体是指针对所述问题文本进行初步答案筛选后所确定的答案,所述候选答案的数量至少为一个,以用于后续可以在候选答案中筛选出与所述问题文本匹配的正确答案所对应的文本。所述目标文本具体是指包含所述候选答案的文章或者文本段落,实现后续可以从所述目标文本中提取包含候选答案的语句(上下文信息),以提高筛选目标答案文本的精准度。
基于此,为了能够向用户反馈精准度较高的正确答案,将在获取到候选答案后,结合上下文信息对筛选答案精准度的影响,对目标答案文本进行预测,从而实现更精准的确定所述目标答案文本。而在此过程中,在获取到用户提交的问题文本后,还将确定所述问题文本对应的候选答案,以此才能实现候选的目标答案文本的筛选,本实施例中,具体实现方式如下所述:
获取所述问题文本;
将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的所述候选答案;
根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的所述目标文本。
具体的,所述问答模块具体是指能够针对所述问题文本进行初步答复的问答***,即将用户提交的问题文本输入至问答模块后,问答模块将初步确定回答问题文本的候选答案,以用于后续的文本处理过程。需要说明的是,本申请提供的文本处理方法应用于自然语言处理场景,也就是说,当需要针对问题文本进行答复时,需要从相应的文章中提取答案进行反馈。基于此,所述问答模块在针对所述问题文本进行初步答复时,将结合预设的文本库实现,所述文本库中存储有大量的按照领域划分的文章,以支持针对相同领域的问题文本进行答复。
基于此,为了能够使得后续可以在候选答案中筛选出正确的答案针对所述问题文本进行反馈,将在获取所述问题文本后,由所述问答模块对所述问题文本进行初步答复,获得所述问答模块输出的所述候选答案;而由于所述候选答案的数量可能较多,且来自于不同的文章,因此此时需要确定所述问答模块对应的文本库,之后从所述文本库中提取包含所述候选答案的文章作为所述目标文本,以用于后续提取上下文信息,实现针对所述问题文本进行答复处理的过程。
实际应用中,所述问答模块可以基于问答***(Question Answering System)创建,以支持针对用户的自然语言问题进行初步答复,并能够为后续进行筛选正确的答案打下基础,具体实施时,构建所述问答模块的问答***可以根据实际应用场景选择,本实施例在此不作任何限定。
举例说明,在获得用户针对足球领域上传的问题文本“甲是谁
Figure 718516DEST_PATH_IMAGE001
”之后,此时将问题文本输入至问答***QA中进行初步处理,获得问答***QA针对问题文本“甲是谁
Figure 651837DEST_PATH_IMAGE001
”输出的三个候选答案,分别为候选答案L1【A·甲】,候选答案L2【甲·B】以及候选答案L3【甲·C】。之后为了能够从三个候选答案中筛选出正确的答案向用户进行反馈,此时则需要在问答***QA对应的文本库中提取包含三个候选答案的文章,以用于后续进行筛选处理。
基于此,此时从文本库中提取包含候选答案L1的文章A1[…A·甲司职边锋/中锋,效力于Y足球俱乐部…];提取包含候选答案L2的文章A2[…甲·B出生在S地,职业足球运动员,司职前锋…];提取包含候选答案L3的文章A3[…甲·C,男子职业足球运动员,场上司职影锋/边锋/前腰…];以用于后续可以从文章内容出发对正确答案进行筛选并向用户进行反馈。
综上,为了能够有效的提高后续筛选正确答案的精准度,将在获取到问题文本后,同时获取问题文本对应的候选答案的目标文本,实现可以在后续结合目标文本的语义信息提高筛选目标答案文本的准确性。
步骤S104,在所述目标文本中提取包含所述候选答案的候选语句。
具体的,在上述获取到所述问题文本和包含候选答案的目标文本的基础上,进一步的,此时则可以从所述目标文本中提取包含候选答案的候选语句,以支持后续在预测正确答案时,可以考虑到目标文本中上下文语义信息对正确答案的影响,从而提高正确答案的筛选精准度。基于此,所述候选语句具体是指包含候选答案的段落或者设定字数的短文本。需要说明的是,所述由于所述候选答案可能是多个,因此获得的候选语句也是与所述候选答案的数量是相同的,也就是说,候选答案分别来自于不同的目标文本,而在每个目标文本中均具有包含所述候选答案的候选语句。
进一步的,在从所述目标文本中提取包含所述候选答案的候选语句时,由于所述目标文本中包含的内容可能较多,即目标文本可能是一篇论文,一篇报道,或者一本书,因此需要精准的定位候选答案在所述目标文本中的位置,从而才能够从所述目标文本中提取出所述候选语句,本实施例中,具体实现方式如下所述:
步骤S1042:确定所述候选答案在所述目标文本中的答案位置。
具体的,所述答案位置具体是指所述候选答案在所述目标文本中的位置;基于此,由于所述目标文本包含的内容可能较多,因此只有在所述目标文本中精准对所述候选答案的位置进行定位,才能够准确的提取所述候选语句,以用于后续的文本处理过程,本实施例中,确定所述答案位置的过程如下所述:
对所述候选答案进行解析获得所述候选答案对应的属性信息;
根据所述属性信息在所述目标文本中进行位置定位,根据定位结果确定所述候选答案在所述目标文本中的所述答案位置。
具体的,所述属性信息具体是指所述候选答案的基本信息,包括但不限于所述候选答案的字数,字单元以及字单元的排列顺序等。
基于此,为了能够精准的对所述候选答案在所述目标文本中的位置进行定位,可以对所述候选答案进行解析,获得所述候选答案的属性信息,之后基于属性信息在所述目标文本中进行位置定位,最后即可根据定位结果从所述目标文本中确定所述候选答案的答案位置。
实际应用中,由于所述候选答案可能在所述目标文本中多次出现,此时如果再进行定位的话,可能会出现定位到多处答案位置,因此为了避免这一问题产生的影响,可以在定位到多个初始答案位置后,计算各个初始答案位置所属的语句与问题文本的匹配度,即计算各个初始答案位置所述的语句与所述问题文本之间的语义相似度,通过从语义层面映射位置与文本之间的匹配度,从而可以选择匹配度最高的作为所述候选答案的答案,以实现更加精准的对所述候选答案在所述目标文本中的位置进行定位,提高后续筛选正确答案的精准度。
步骤S1044,基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句。
具体的,在上述确定所述候选答案在所述目标文本中的答案位置后,即可根据所述答案位置从所述目标文本中提取包含所述候选答案的候选语句,而由于在不同的场景下候选语句的确定具有不同的需求,如目标文本中长句较多,如果候选答案正好落入长句,则此时提取到的候选语句包含的字单元将较多,后续再进行筛选答案时,可能会影响筛选精准度;再或者目标文本中的短句较多,如果候选答案正好落入短句,则此时提取到的候选语句包含的字单元将较少,后续再进行筛选答案时,也可能会影响筛选精准度,因此为了能够满足不同场景下对候选语句的确定,本实施例中,具体实现方式如下所述:
基于所述答案位置在所述目标文本中识别第一段落符和第二段落符,并根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句;或者,在所述目标文本中提取所述候选答案前后设定字数的第一段落文本和第二段落文本,根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句。
具体的,所述第一段落符具体是指在所述目标文本中向前距离所述答案位置最近的段落符号,所述第二段落符具体是指在所述目标文本中向后距离所述答案位置最近的段落符号,其中段落符号可以是逗号,句号,叹号或问号等(即用于断句的符号)。在确定所述目标文本包含较多的短句的情况下,可以选择识别段落符的方式确定所述候选语句,即通过在所述目标文本中选择所述第一段落符和所述第二段落符之间的内容,即可确定包含所述候选答案的所述候选语句。
所述第一段落文本具体是指基于所述答案位置在所述目标文本中向前设定字数的内容所组成的段落区间,所述第二段落文本具体是指基于所述答案位置在所述目标文本中向后设定字数的内容所组成的段落区间;在确定所述目标文本包含较多的长句的情况下,可以选择识别设定字数的段落文本的方式确定所述候选语句,即通过在所述目标文本中选择答案位置之前设定字数的第一段落文本,以及设定字数的第二段落文本,并结合所述答案位置的所述候选答案,即可组成所述候选语句,以用于后续针对正确的答案筛选过程。
沿用上例,在确定候选答案L1【A·甲】,候选答案L2【甲·B】以及候选答案L3【甲·C】的基础上,进一步的,通过对各个候选答案进行解析,确定候选答案L1的属性信息为{n1个字,字单元分别为“A”“甲”};确定候选答案L2的属性信息为{n2个字,字单元分别为“甲”“B”};确定候选答案L3的属性信息为{n3个字,字单元分别为“甲”“C”};之后根据候选答案L1的属性信息确定候选答案L1在文章A1中的位置是P1,根据候选答案L2的属性信息确定候选答案L2在文章A2中的位置是P2,根据候选答案L3的属性信息确定候选答案L3在文章A3中的位置是P3
进一步的,基于位置P1在文章A1中选择[A·甲司职边锋/中锋]作为候选答案L1对应的候选语句CS1;基于位置P2在文章A2中选择[甲·B出生在S地]作为候选答案L2对应的候选语句CS2;基于位置P3在文章A3中选择[甲·C男子职业足球运动员]作为候选答案L3对应的候选语句CS3;在确定各个候选答案对应的候选语句后,即可实现在后续结合候选答案的上下文信息对正确的答案进行筛选,以向用户反馈正确的答案文本。
综上所述,为了能够保证后续可以精准的对正确答案进行筛选,此时将结合答案位置在所述目标文本中提取包含候选答案的候选语句,以实现后续可以结合候选答案的上下文信息对目标正确答案进行精准的预测,从而提高回答问题文本的准确性。
步骤S106,根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
具体的,在上述从所述目标文本中提取出包含所述候选答案的候选语句的基础上,进一步的,为了能够提高确定目标答案文本的准确性,可以结合所述目标文本、所述候选语句以及所述问题文本生成所述候选答案特征,用于后续的正确答案预测,进而保证确定正确的答案的精准度。
进一步的,在基于所述目标文本、所述候选语句以及所述问题文本构建所述候选答案特征的过程中,考虑到可以将各个维度的特征以相同的表达形式完成目标答案文本的确定,因此需要进行拼接处理,本实施例中,具体实现方式如下所述:
提取所述目标文本的文本特征;
将所述文本特征、所述候选语句以及所述问题文本进行拼接,获得所述候选答案对应的所述候选答案特征。
具体的,所述文本特征具体是指能够表达所述目标文本中心思想的特征,包括但不限于文本标题、文本关键词、文本语义信息等,其中,所述文本标题是指所述目标文本的题目,所述文本关键词具体是指所述目标文本中的关键词汇,所述文本语义信息具体是指能够表达所述目标文本意图的相关信息;相应的,所述候选答案特征具体是指将所述文本特征、所述候选语句以及所述问题文本进行拼接后得到的特征表达,以用于后续输入至文本处理模块实现对正确答案的预测。
需要说明的是,所述文本关键词和所述文本语义信息可以通过LDA(LatentDirichlet Allocation)实现,也可以根据所述目标文本的描述信息确定,即所述目标文本的摘要所对应的关键词即可作为所述文本关键词,而所述文本语义信息即可根据所述目标文本的摘要确定。此外,所述文本关键词的确定还可以通过计算词单元概率的方式确定,以及所述文本语义信息也可以通过语法分析器确定。实际应用中,所述文本关键词和所述文本语义信息的确定方式可以根据实际应用场景选择,本实施例在此不作任何限定。
进一步的,由于文本处理模块的目的是从多个候选答案中筛选出与问题文本相关程度最高的候选答案作为所述目标答案文本,因此在通过所述文本处理模块处理前,需要将结合三个维度(文本特征,候选语句以及问题文本)的信息拼接为符合模块输入的特征表达,以支持后续进行筛选处理操作,本实施例中,具体实现方式如下所述:
根据所述文本处理模块的输入策略对所述文本特征、所述候选语句和所述问题文本进行拼接处理,根据拼接处理结果得到所述候选答案特征。
具体的,所述输入策略具体是指对三个维度的信息进行拼接时所需要遵从的策略,以实现将所述文本特征,所述候选语句以及所述问题文本可以拼接出满足所述文本处理模块输入表达的所述候选答案特征,即需要按照所述输入策略对所述文本特征、所述候选语句和所述问题文本进行拼接处理,以获得所述候选答案特征。
具体实施时,所述输入策略可以是将所述文本特征,所述候选语句以及所述问题文本分别转换为三个矩阵表达,之后将三个矩阵表达进行拼接处理,以得到矩阵形式的所述候选答案特征,用于后续输入至文本处理模块进行正确答案的筛选;还可以将文本特征,所述候选语句以及所述问题文本先进行拼接,即形成<文本特征><候选语句><问题文本>的表达式,之后将该表达式转换为矩阵作为所述候选答案特征,用于后续输入至文本处理模块进行正确答案的筛选。
沿用上例,确定文章A1的文本特征T1为<司职>,确定文章A2的文本特征T2为<简介>,确定文章A3的文本特征T3为<传记>;之后将文本特征T1(司职)、候选语句CS1(A·甲司职边锋/中锋)以及问题文本S(甲是谁)进行拼接,获得候选答案L1对应的候选答案特征AT1=[<T1>,<CS1>,<S>];将文本特征T2(简介)、候选语句CS2(甲·B出生在S地)以及问题文本S(甲是谁)进行拼接,获得候选答案L2对应的候选答案特征AT2=[<T2>,<CS2>,<S>];将文本特征T3(传记)、候选语句CS3(甲·C男子职业足球运动员)以及问题文本S(甲是谁)进行拼接,获得候选答案L3对应的候选答案特征AT3=[<T3>,<CS3>,<S>];以用于后续进行正确答案的预测。
综上所述,通过拼接出符合所述文本处理模块输入的候选答案特征,可以更进一步的提高后续进行答案预测的效率,从而实现快速的向用户反馈所述问题文本对应的正确答案。
在上述获得所述候选答案特征的基础上,进一步的,此时即可根据所述候选答案特征确定所述问题文本对应的目标答案文本;而在此过程中,为了能够充分结合上下文语义信息完成答案的确定,可以将所述候选答案特征输入至所述文本处理模块进行处理,实现通过所述文本处理模块从所述候选答案中精准的筛选出与所述问题文本相关程度较高的候选答案,作为所述目标答案文本,以实现针对所述问题文本进行正确的回答。
基于此,所述文本处理模块具体能够对候选答案特征进行编码处理,并对编码处理后的结果进行分类打分的模块,即所述文本处理模块中集成有深度语言模型以及分类网络,实现通过所述深度语言模型完成编码处理,通过所述分类网络完成二分类打分,实现对多个候选答案进行排序,以根据排序结果筛选出正确答案作为所述目标答案文本进行反馈。相应的,所述目标答案文本具体是指从所述候选答案中筛选出与所述问题文本匹配度较高的,可以作为所述问题文本正确答案的文本。
进一步的,由于所述候选答案特征中结合的目标文本的文本特征,所述候选答案所属的候选语句,以及所述问题文本,因此需要经过所述文本处理模块中的深度语言模型进行编码处理,当编码处理后,即实现了结合候选答案的上下文语义信息,之后再通过分类网络进行打分处理即可,以实现确定所述目标答案文本。
实际应用中,所述深度语言模型具体是指通过问答任务对已有的初始语言模型进行微调后的模型,如所述初始语言模型为BERT模型,当需要应用到自然语言问答场景下的情况下,即可通过问答任务对BERT模型进行微调,以根据微调结果得到深度语言模型,实现可以对候选答案特征进行编码,用于后续的打分处理过程,其中,所述问答任务具体是指使用样本问题文本对BERT模型进行训练时所创建的任务,通过该任务可以实现对候选答案特征进行编码处理,本实施例中,通过问答任务对初始语言模型进行微调的过程如下所述:
获取初始语言模型以及样本问题文本;
确定所述样本问题文本对应的样本答案文本,并基于所述样本问题文本和所述样本答案文本构建样本对;
基于所述样本对对所述初始语言模型进行训练,直至所述初始语言模型满足训练停止条件,获得所述深度语言模型。
具体的,所述样本问题文本和所述样本答案文本具体是指对所述初始语言模型进行微调时所使用的样本数据,相应的,所述初始语言模型具体是指还未经过问答任务进行微调,但相应参数都设定好的语言模型,所述初始语言模型可以是BERT模型。
基于此,在得到所述初始语言模型和所述样本问题文本后,可以先确定所述样本问题文本对应的多个样本候选答案,并提取包含各个样本候选答案的样本目标文本,之后在各个样本目标文本中提取包含样本候选答案的样本候选语句,之后将样本目标文本的样本文本特征,样本候选语句和样本问题文本进行拼接,得到样本候选答案特征,之后将其输出至初始语言模型进行训练,根据训练结果得到模型输出的预测答案文本,此时可以基于预测答案文本与样本答案文本计算损失值,根据损失值判断当前阶段的初始语言模型是否满足训练停止条件,若满足,则将其作为深度语言模型用于后续的编码处理即可,若不满足,则选择新的样本对其进行继续训练即可,直至满足训练停止条件,将其整合到文本处理模块进行使用即可。
更进一步的,本实施例中通过集成深度语言模型和分类网络的文本处理模块进行目标答案文本筛选的过程,具体实现方式如下所述:
将所述候选答案特征输入至文本处理模块,通过所述文本处理模块中的深度语言模型进行编码处理,获得编码特征;
将所述编码特征输入至所述文本处理模块中的分类网络进行打分处理,获得所述编码特征对应的特征分值;
根据所述特征分值确定所述候选答案对应的答案分值,并基于所述答案分值从所述候选答案中筛选出所述目标答案文本;
通过所述文本处理模块输出所述目标答案文本。
具体的,所述编码特征具体是指对候选答案特征进行编码处理后得到的特征表达,相应的,所述特征分值具体是指对各个候选答案对应的编码特征进行打分处理后得到的分值,相应的,所述答案分值即为各个候选答案所对应的分值,所述目标答案文本具体是指所述回答所述问题文本的答案所对应的文本,需要说明的是,所述目标答案文本是从所述候选答案中筛选出的结果。
实际应用中,所述分类网络具体是指能够对编码特征进行打分处理的网络,所述分类网络可以采用LGBM分类器构建,需要说明的是,所述特征分值是计算候选答案是否能够作为所述目标答案文本的分值,所述特征分值越高,说明候选答案与所述问题文本的匹配度越高,作为所述目标答案文本的概率也就越高;反之,所述特征分值越低,说明候选答案与所述问题文本的匹配度越低,作为所述目标答案文本的概率也就越低;因此在计算完成所述特征分值后,即可分析出各个候选答案的答案分值,以此为基础即可从所述候选答案中筛选出所述目标答案文本,通过所述文本处理模块进行输出并反馈即可。
基于此,在获得各个候选答案对应的候选答案特征之后,即可将其输入至文本处理模块,通过所述文本处理模块中的深度语言模型对其进行编码处理,即可得到各个候选答案对应的编码特征,之后在将其输入至文本处理模块中的分类网络进行打分处理,即可得到各个候选答案对应的编码特征的特征分值,将其作为候选答案的答案分值,基于答案分值即可从候选答案中筛选出所述目标答案文本,并通过所述文本处理模型输出即可。
更进一步的,在基于所述答案分值从所述候选答案中筛选出所述目标答案文本的过程中,由于不同场景下具有不同的需求,因此可以根据场景需求设定的筛选规则确定所述目标答案文本,本实施例中,具体实现方式如下所述:
根据所述答案分值对所述候选答案中的各个子候选答案进行排序,获得候选答案序列;
按照预设的筛选规则在所述候选答案序列中筛选出所述目标答案文本。
具体的,所述子候选答案即为各个候选答案,所述候选答案序列即为按照候选分值的大小关系对候选答案进行排序后得到的序列。
沿用上例,在得到候选答案特征AT1、AT2和AT3之后,即可将候选答案特征AT1、AT2和AT3分别输入至文本处理模块中经过问答任务微调后的BERT模型进行编码处理,根据处理结果将获得BERT模型输出的候选答案L1对应的编码特征ATcode1,候选答案L2对应的编码特征ATcode2,候选答案L3对应的编码特征ATcode3
进一步的,将各个编码特征输入至分类网络进行打分处理,即实现对各个编码特征进行二分类打分,根据打分结果确定ATcode1的特征分值为Score1,根据打分结果确定ATcode2的特征分值为Score2,根据打分结果确定ATcode3的特征分值为Score3,其中,特征分值Score2>特征分值Score1>特征分值Score3,之后基于特征分值对候选答案L1【A·甲】,候选答案L2【甲·B】以及候选答案L3【甲·C】进行排序,确定候选答案L2【甲·B】的分值最高,则可以选择候选答案L2作为问题文本“甲是谁
Figure 992819DEST_PATH_IMAGE001
”的目标答案文本,并向用户进行反馈即可。
综上所述,通过使用微调的语言模型进行编码处理,可以有效提高预测所述目标答案文本的效率,同时结合分类网络进行打分,并对打分后的候选答案进行排序,可以更进一步的提高预测精准度,从而针对所述问题文本确定正确的答案。
本申请提供的文本处理方法,在获取到问题文本后,将确定所述问题文本对应的候选答案,同时获取包含所述候选答案的目标文本;之后在所述目标文本中提取包含候选答案的候选语句,以实现后续可以结合候选答案的上下文信息预测正确的答案。其次将基于目标文本、候选语句和问题文本构建候选答案特征,最后基于候选答案特征确定所述目标答案文本,实现了在对问题文本的答案进行筛选时,通过考虑上下文语义信息对预测问题文本的答案的影响,有效的提高了确定目标答案文本的准确性,更进一步的提高了回答精准度。
下述结合附图2,以本申请提供的文本处理方法在问题答复场景中应用为例,对所述文本处理方法进行进一步说明。其中,图2示出了本申请一实施例提供的一种应用于问题答复场景中的文本处理方法的处理流程图,具体包括以下步骤:
步骤S202,获取用户上传的问题文本。
本实施例以所述问题文本为“西施咏的作者是谁
Figure 517342DEST_PATH_IMAGE001
”为例对所述文本处理方法进行说明。
步骤S204,基于预设的问题***确定问题文本在不同文章中的候选答案。
在得到问题文本“西施咏的作者是谁
Figure 6092DEST_PATH_IMAGE001
”之后,基于预设的问题***确定问题文本在文章A1[…西施咏一首讽刺诗,通过借咏西施而抒发现世感愤不平…]中的候选答案L1是【西施】。问题文本在文章A2[…美女西施嫁给吴王夫差,是有一定政治目的的,但王维并未取材政治原因,而是用她入官后艳色凌人…]中的候选答案L2是【吴王】。问题文本在文章A3[…西施咏是唐代诗人王维创作的一首诗。此诗借西施从平民到宫廷宠妃的历史典故,揭示人生浮沉全凭际遇的炎凉世态…]中的候选答案L3是【王维】。问题文本在文章A4[…昔日一起在越溪浣纱的女伴,再不能与她同车去来同车归;奉告那盲目效颦的邻人东施,光学皱眉而想取宠并非容易…]中的候选答案L4是【东施】。
需要说明的是,实际应用中不同的文章具有不同的长度,本申请为了能够方便对文本处理过程描述,将选取文章中的部分内容作为各个文章的表征。
步骤S206,确定候选答案在所属文章中的答案位置,并基于答案位置在文章中抽取上下文信息。
在确定候选答案分别为:候选答案L1【西施】、候选答案L2【吴王】、候选答案L3【王维】、候选答案L4【东施】后,此时为了能够提高后续针对问题文本进行回答的正确性,将结合候选答案的上下文信息提高确定正确答案的精准度。
基于此,首先确定各个候选答案在所属的文章中的答案位置,即确定候选答案L1【西施】在文章A1中的位置是P1xs;确定候选答案L2【吴王】在文章A2中的位置是P2ww;确定候选答案L3【王维】在文章A3中的位置是P3ww;确定候选答案L4【东施】在文章A4中的位置是P4ds
进一步的,将根据答案位置在各个文章中抽取各个候选答案对应的上下文信息,即在每个文章中选择包含候选答案的语句作为各个候选答案对应的上下文信息,用于后续进行正确答案的确定。也就是说,基于答案位置P1xs可以在文章A1中选择[通过借咏西施而抒发现世感愤不平]作为候选答案L1【西施】对应的上下文信息DP1;基于答案位置P2ww可以在文章A2中选择[美女西施嫁给吴王夫差]作为候选答案L2【吴王】对应的上下文信息DP2;基于答案位置P3ww可以在文章A3中选择[西施咏是唐代诗人王维创作的一首诗]作为候选答案L3【王维】对应的上下文信息DP3;基于答案位置P4ds可以在文章A4中选择[奉告那盲目效颦的邻人东施]作为候选答案L4【东施】对应的上下文信息DP4
步骤S208,获取候选答案所属文章的文章特征,并将文章特征、问题文本以及上下文信息进行拼接,获得答案文本特征。
为了能够更进一步的提高确定所述问题文本的正确答案,此时还可以结合候选答案所属文章的文章特征,之后通过文章特征、问题文本以及上下文信息进行拼接,再用于后续的正确答案预测,进而保证确定正确的答案的精准度。
进一步的,可以选择候选答案所属文章的关键词作为所述文章特征,用于后续拼接出所述答案文本特征。基于此,确定文章A1的关键词kw1为<讽刺诗>和<抒发>;确定文章A2的关键词kw2为<嫁>和<政治>;确定文章A3的关键词kw3为<创作诗>和<揭示>;确定文章A4的关键词kw4为<浣纱>和<效颦>。
更进一步的,在得到候选答案所属文章的文章特征后,此时将对文章特征、问题文本以及上下文信息进行拼接,以获得所述答案文本特征。即:将文章A1的关键词kw1(讽刺诗和抒发)、问题文本S(西施咏的作者是谁)以及候选答案L1(西施)对应的上下文信息DP1(通过借咏西施而抒发现世感愤不平)进行拼接,获得候选答案L1对应的答案文本特征AT1=[<kw1>,<S>,<DP1>];
将文章A2的关键词kw2(嫁和政治)、问题文本S(西施咏的作者是谁)以及候选答案L2(吴王)对应的上下文信息DP2(美女西施嫁给吴王夫差)进行拼接,获得候选答案L2对应的答案文本特征AT2=[<kw2>,<S>,<DP2>];
将文章A3的关键词kw3(创作诗和揭示)、问题文本S(西施咏的作者是谁)以及候选答案L3(王维)对应的上下文信息DP3(西施咏是唐代诗人王维创作的一首诗)进行拼接,获得候选答案L3对应的答案文本特征AT3=[<kw3>,<S>,<DP3>];
将文章A4的关键词kw3(浣纱和效颦)、问题文本S(西施咏的作者是谁)以及候选答案L4(东施)对应的上下文信息DP4(奉告那盲目效颦的邻人东施)进行拼接,获得候选答案L4对应的答案文本特征AT4=[<kw4>,<S>,<DP4>];以用于后续进行正确答案的预测。
步骤S210,将答案文本特征输入至文本处理模块,通过文本处理模块中经过问答任务微调的深度语言模型进行编码处理,获得答案文本编码特征。
具体的,文本处理模块具体是指整合微调后的深度语言模型和分类网络的模块,其中经过问答任务微调后的深度语言模型具体是指:根据发布者已发布的初步训练好的网络参数对应的初始语言模型,结合当前问答场景,采用问答任务对该初始语言模型进行微调,以得到文本处理模块中的深度语言模型。也就是说,为了能够将初始语言模型可以应用到当前问答场景,将结合场景的需求,采用问答任务对其进行微调,其中问答任务是指给定设定数量的问题以及各个问题相关的文章,文章中包含各个问题的答案的语句,用于预测语句中答案文本的范围,以实现后续可以使用微调后的深度语言模型对答案文本特征进行编码处理,为后续的排序任务打下基础。
基于此,在得到由文章特征、上下文信息以及问题文本构建的答案文本特征后,此时可以将答案文本特征输入至文本处理模块,通过文本处理模块中经过问答任务微调的深度语言模型进行编码处理,以得到候选答案对应的答案文本特征的语义的编码特征表达,实现后续可以通过打分排序的方式从多个候选答案中筛选出正确答案向用户进行反馈。
基于此,在得到候选答案L1对应的答案文本特征AT1=[<kw1>,<S>,<DP1>]、候选答案L2对应的答案文本特征AT2=[<kw2>,<S>,<DP2>]、候选答案L3对应的答案文本特征AT3=[<kw3>,<S>,<DP3>]以及候选答案L4对应的答案文本特征AT4=[<kw4>,<S>,<DP4>]后,可以将答案文本特征AT1~AT4分别输入至文本处理模块中经过问答任务微调后的BERT模型进行编码处理,根据处理结果将获得BERT模型输出的候选答案L1对应的答案文本编码特征ATcode1,候选答案L2对应的答案文本编码特征ATcode2,候选答案L3对应的答案文本编码特征ATcode3,候选答案L4对应的答案文本编码特征ATcode4
步骤S212,将答案文本编码特征输入至文本处理模块中的分类网络进行打分处理获得答案分值,将答案分值作为候选答案对应的排序分值。
步骤S214,根据排序分值对候选答案进行排序,根据排序结果选择目标答案由文本处理模块输出,并向用户进行反馈。
在得到各个候选答案对应的答案文本编码特征之后,即可将各个答案文本编码特征输入至文本处理模块中的分类网络进行打分处理,实现对各个特征进行二分类打分,以得到各个答案文本编码特征对应的分值,由于分值越高表明候选答案与问题文本的相近程度就越高(候选答案为正确答案的概率越高),因此可以将打分后获得的答案分值作为各个候选答案的排序分值,以用于后续可以对候选答案进行排序,从而得到与问题文本最接近的候选答案作为正确答案向用户进行反馈。
进一步的,在确定候选答案L1对应的答案文本编码特征ATcode1,候选答案L2对应的答案文本编码特征ATcode2,候选答案L3对应的答案文本编码特征ATcode3,候选答案L4对应的答案文本编码特征ATcode4后,即可将各个答案文本编码特征输入至分类网络进行打分处理,即实现对各个答案文本编码特征进行二分类打分,根据打分结果确定答案文本编码特征ATcode1的答案分值为Score1,答案文本编码特征ATcode2的答案分值为Score2,答案文本编码特征ATcode3的答案分值为Score3,答案文本编码特征ATcode4的答案分值为Score4
更进一步的,此时即可将答案分值Score1作为候选答案L1【西施】的排序分值,将答案分值Score2作为候选答案L2【吴王】的排序分值,将答案分值Score3作为候选答案L3【王维】的排序分值,将答案分值Score4作为候选答案L1【东施】的排序分值。其中答案分值Score3>答案分值Score2>答案分值Score1>答案分值Score4
最后再按照排序分值对候选答案进行排序即可,得到的排序结果为【王维>吴王>西施>东施】,根据排序结果确定候选答案L3【王维】的分值最高,则可以选择候选答案L3【王维】作为问题文本对应的正确答案,之后将正确答案【王维】由文本处理模块输出,并将其向用户进行反馈即可,以实现告知用户问题文本“西施咏的作者是谁
Figure 664475DEST_PATH_IMAGE002
”的答案是“王维”。
综上所述,考虑到上下文语义信息对确定问题文本的答案的影响,为了能够提高确定问题文本正确答案的精准度,将在对问题文本进行答案筛选时,结合上下文信息、文章特征以及问题文本等特征,利用微调的深度语言模型进行特征融合,最后再通过打分处理的方式选择出所述问题文本的正确答案,进而有效的提高了回答精准度,提高用户的体验效果。
与上述方法实施例相对应,本申请还提供了文本处理装置实施例,图3示出了本申请一实施例提供的一种文本处理装置的结构示意图。如图3所示,该装置包括:
获取模块302,被配置为获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
提取模块304,被配置为在所述目标文本中提取包含所述候选答案的候选语句;
确定模块306,被配置为根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
可选地,所述获取模块302进一步被配置为:
获取所述问题文本;将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的所述候选答案;根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的所述目标文本。
可选地,所述提取模块304进一步被配置为:
确定所述候选答案在所述目标文本中的答案位置;基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句。
可选地,所述提取模块304进一步被配置为:
对所述候选答案进行解析获得所述候选答案对应的属性信息;根据所述属性信息在所述目标文本中进行位置定位,根据定位结果确定所述候选答案在所述目标文本中的所述答案位置。
可选地,所述提取模块304进一步被配置为:
基于所述答案位置在所述目标文本中识别第一段落符和第二段落符,并根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句;或者,在所述目标文本中提取所述候选答案前后设定字数的第一段落文本和第二段落文本,根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句。
可选地,所述确定模块306进一步被配置为:
提取所述目标文本的文本特征;将所述文本特征、所述候选语句以及所述问题文本进行拼接,获得所述候选答案对应的所述候选答案特征。
可选地,所述确定模块306进一步被配置为:
将所述候选答案特征输入至文本处理模块,通过所述文本处理模块中的深度语言模型进行编码处理,获得编码特征;将所述编码特征输入至所述文本处理模块中的分类网络进行打分处理,获得所述编码特征对应的特征分值;根据所述特征分值确定所述候选答案对应的答案分值,并基于所述答案分值从所述候选答案中筛选出所述目标答案文本;通过所述文本处理模块输出所述目标答案文本。
可选地,确定模块306进一步被配置为:
获取初始语言模型以及样本问题文本;确定所述样本问题文本对应的样本答案文本,并基于所述样本问题文本和所述样本答案文本构建样本对;基于所述样本对对所述初始语言模型进行训练,直至所述初始语言模型满足训练停止条件,获得所述深度语言模型。
可选地,确定模块306进一步被配置为:
根据所述答案分值对所述候选答案中的各个子候选答案进行排序,获得候选答案序列;按照预设的筛选规则在所述候选答案序列中筛选出所述目标答案文本。
可选地,所述文本特征包括下述至少一项:
文本标题、文本关键词、文本语义信息。
可选地,确定模块306进一步被配置为:
根据所述文本处理模块的输入策略对所述文本特征、所述候选语句和所述问题文本进行拼接处理,根据拼接处理结果得到所述候选答案特征。
本实施例提供的文本处理装置,在获取到问题文本后,将确定所述问题文本对应的候选答案,同时获取包含所述候选答案的目标文本;之后在所述目标文本中提取包含候选答案的候选语句,以实现后续可以结合候选答案的上下文信息预测正确的答案。其次将基于目标文本、候选语句和问题文本构建候选答案特征,最后基于候选答案特征确定所述目标答案文本,实现了在对问题文本的答案进行筛选时,通过考虑上下文语义信息对预测问题文本的答案的影响,有效的提高了确定目标答案文本的准确性,更进一步的提高了回答精准度。
上述为本实施例的一种文本处理装置的示意性方案。需要说明的是,该文本处理装置的技术方案与上述的文本处理方法的技术方案属于同一构思,文本处理装置的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图4示出了根据本申请一实施例提供的一种计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
计算设备400还包括接入设备440,接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备400还可以是移动式或静止式的服务器。
其中,处理器420用于执行如下计算机可执行指令:
获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
在所述目标文本中提取包含所述候选答案的候选语句;
根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的文本处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
在所述目标文本中提取包含所述候选答案的候选语句;
根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的文本处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述文本处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种文本处理方法,其特征在于,包括:
获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
在所述目标文本中提取包含所述候选答案的候选语句;
根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述获取问题文本以及包含所述问题文本对应的候选答案的目标文本,包括:
获取所述问题文本;
将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的所述候选答案;
根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的所述目标文本。
3.根据权利要求1所述的文本处理方法,其特征在于,所述在所述目标文本中提取包含所述候选答案的候选语句,包括:
确定所述候选答案在所述目标文本中的答案位置;
基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句。
4.根据权利要求3所述的文本处理方法,其特征在于,所述确定所述候选答案在所述目标文本中的答案位置,包括:
对所述候选答案进行解析获得所述候选答案对应的属性信息;
根据所述属性信息在所述目标文本中进行位置定位,根据定位结果确定所述候选答案在所述目标文本中的所述答案位置。
5.根据权利要求3所述的文本处理方法,其特征在于,所述基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句,包括:
基于所述答案位置在所述目标文本中识别第一段落符和第二段落符,并根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句;
或者,
在所述目标文本中提取所述候选答案前后设定字数的第一段落文本和第二段落文本,根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句。
6.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,包括:
提取所述目标文本的文本特征;
将所述文本特征、所述候选语句以及所述问题文本进行拼接,获得所述候选答案对应的所述候选答案特征。
7.根据权利要求6所述的文本处理方法,其特征在于,所述基于所述候选答案特征确定所述问题文本对应的目标答案文本,包括:
将所述候选答案特征输入至文本处理模块,通过所述文本处理模块中的深度语言模型进行编码处理,获得编码特征;
将所述编码特征输入至所述文本处理模块中的分类网络进行打分处理,获得所述编码特征对应的特征分值;
根据所述特征分值确定所述候选答案对应的答案分值,并基于所述答案分值从所述候选答案中筛选出所述目标答案文本;
通过所述文本处理模块输出所述目标答案文本。
8.根据权利要求7所述的文本处理方法,其特征在于,还包括:
获取初始语言模型以及样本问题文本;
确定所述样本问题文本对应的样本答案文本,并基于所述样本问题文本和所述样本答案文本构建样本对;
基于所述样本对对所述初始语言模型进行训练,直至所述初始语言模型满足训练停止条件,获得所述深度语言模型。
9.根据权利要求7所述的文本处理方法,其特征在于,所述基于所述答案分值从所述候选答案中筛选出所述目标答案文本,包括:
根据所述答案分值对所述候选答案中的各个子候选答案进行排序,获得候选答案序列;
按照预设的筛选规则在所述候选答案序列中筛选出所述目标答案文本。
10.根据权利要求6所述的文本处理方法,其特征在于,所述文本特征包括下述至少一项:
文本标题、文本关键词、文本语义信息。
11.根据权利要求7所述的文本处理方法,其特征在于,所述将所述文本特征、所述候选语句以及所述问题文本进行拼接,获得所述候选答案对应的所述候选答案特征,包括:
根据所述文本处理模块的输入策略对所述文本特征、所述候选语句和所述问题文本进行拼接处理,根据拼接处理结果得到所述候选答案特征。
12.一种文本处理装置,其特征在于,包括:
获取模块,被配置为获取问题文本以及包含所述问题文本对应的候选答案的目标文本;
提取模块,被配置为在所述目标文本中提取包含所述候选答案的候选语句;
确定模块,被配置为根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
13.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至11任意一项所述文本处理方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至11任意一项所述文本处理方法的步骤。
CN202110556481.4A 2021-05-21 2021-05-21 文本处理方法及装置 Active CN113032531B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111294843.3A CN113887244A (zh) 2021-05-21 2021-05-21 文本处理方法及装置
CN202110556481.4A CN113032531B (zh) 2021-05-21 2021-05-21 文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110556481.4A CN113032531B (zh) 2021-05-21 2021-05-21 文本处理方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111294843.3A Division CN113887244A (zh) 2021-05-21 2021-05-21 文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN113032531A true CN113032531A (zh) 2021-06-25
CN113032531B CN113032531B (zh) 2021-11-30

Family

ID=76455794

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110556481.4A Active CN113032531B (zh) 2021-05-21 2021-05-21 文本处理方法及装置
CN202111294843.3A Pending CN113887244A (zh) 2021-05-21 2021-05-21 文本处理方法及装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202111294843.3A Pending CN113887244A (zh) 2021-05-21 2021-05-21 文本处理方法及装置

Country Status (1)

Country Link
CN (2) CN113032531B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371404A (zh) * 2023-12-08 2024-01-09 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114925683A (zh) * 2022-06-24 2022-08-19 北京有竹居网络技术有限公司 一种文本数据挖掘方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140258286A1 (en) * 2008-05-14 2014-09-11 International Business Machines Corporation System and method for providing answers to questions
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN111125335A (zh) * 2019-12-27 2020-05-08 北京百度网讯科技有限公司 问答处理方法、装置、电子设备和存储介质
CN111460089A (zh) * 2020-02-18 2020-07-28 北京邮电大学 一种多段落阅读理解候选答案排序方法和装置
CN111524593A (zh) * 2020-04-23 2020-08-11 厦门大学 基于上下文语言模型和知识嵌入的医疗问答方法及***
CN112417105A (zh) * 2020-10-16 2021-02-26 泰康保险集团股份有限公司 问答处理方法、装置、存储介质和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929015B (zh) * 2019-12-06 2024-04-02 北京金山数字娱乐科技有限公司 一种多文本分析方法及装置
CN112527999B (zh) * 2020-12-22 2024-05-14 江苏省农业科学院 引入农业领域知识的抽取式智能问答方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140258286A1 (en) * 2008-05-14 2014-09-11 International Business Machines Corporation System and method for providing answers to questions
CN106844741A (zh) * 2017-02-13 2017-06-13 哈尔滨工业大学 一种面向特定领域的问题解答方法
CN111125335A (zh) * 2019-12-27 2020-05-08 北京百度网讯科技有限公司 问答处理方法、装置、电子设备和存储介质
CN111460089A (zh) * 2020-02-18 2020-07-28 北京邮电大学 一种多段落阅读理解候选答案排序方法和装置
CN111524593A (zh) * 2020-04-23 2020-08-11 厦门大学 基于上下文语言模型和知识嵌入的医疗问答方法及***
CN112417105A (zh) * 2020-10-16 2021-02-26 泰康保险集团股份有限公司 问答处理方法、装置、存储介质和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371404A (zh) * 2023-12-08 2024-01-09 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置
CN117371404B (zh) * 2023-12-08 2024-02-27 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置

Also Published As

Publication number Publication date
CN113887244A (zh) 2022-01-04
CN113032531B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN107077463A (zh) 远程监督关系提取器
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN113032531B (zh) 文本处理方法及装置
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN113221545B (zh) 一种文本处理方法、装置、设备及介质、程序产品
CN115292457B (zh) 知识问答方法、装置、计算机可读介质及电子设备
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
CN113011126B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
EP3762876A1 (en) Intelligent knowledge-learning and question-answering
CN111242710A (zh) 业务的分类处理方法、装置、服务平台及存储介质
CN116529702A (zh) 自动文档草图制作
CN117407502A (zh) 问答对抽取方法、装置、电子设备及存储介质
CN113392341A (zh) 封面选择方法、模型训练方法、装置、设备及存储介质
CN115905487A (zh) 文档问答方法、***、电子设备及存储介质
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN115510193B (zh) 查询结果向量化方法、查询结果确定方法及相关装置
Gong et al. Improving extractive document summarization with sentence centrality
CN115718904A (zh) 文本处理方法及装置
CN109710751A (zh) 法律文件的智能推荐方法、装置、设备及存储介质
CN111046662A (zh) 分词模型的训练方法、装置、***和存储介质
CN115455152A (zh) 写作素材的推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant