CN115577713B

CN115577713B - 一种基于知识图谱的文本处理方法

Info

Publication number: CN115577713B
Application number: CN202211565438.5A
Authority: CN
Inventors: 张正义; 刘羽; 刘宸; 傅晓航
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-03-17
Anticipated expiration: 2042-12-07
Also published as: CN115577713A

Abstract

本申请涉及电数字数据处理技术领域，特别是涉及一种基于知识图谱的文本处理方法。该方法包括以下步骤：S100，获取目标文本中的实体集合{A，B}；S200，获取目标文本的三元组集合{TAA，TBB，TAB}；S300，如果TAA≠∅，则根据IDAA获取目标文本的主语对应的组成实体ZA；S400，如果TBB≠∅，则根据IDBB获取目标文本的宾语对应的组成实体ZB；S500，获取目标文本的目标三元组T=(X₁,EAB,X₂)。本发明提高了获取目标文本的语义关系的准确性。

Description

一种基于知识图谱的文本处理方法

技术领域

本发明涉及电数字数据处理技术领域，特别是涉及一种基于知识图谱的文本处理方法。

背景技术

现有的实体识别方法可以自动识别一个语句中的实体，现有的关系抽取方法可以自动识别该语句中实体之间的某种语义关系，如黑色的手机14为经典款这个语句，利用实体识别方法可以识别出该语句中的黑色、手机14和经典款三个实体，利用关系抽取方法可以识别出上述语句中存在的语义关系为：黑色是手机14的颜色以及手机14为经典款。然而，上述语句表达的意思是黑色的手机14是经典款，而至于其他颜色的手机14是不是经典款是不知道的。可见，当一个语句的结构较为复杂时，利用现有的关系抽取方法得到的语义关系可能并不准确。如何提高获取语句的语义关系的准确性，是亟待解决的问题。

发明内容

本发明目的在于，提供一种基于知识图谱的文本处理方法，以提高获取目标文本的语义关系的准确性。

根据本发明，提供了一种基于知识图谱的文本处理方法，包括以下步骤：

S100，获取目标文本中的实体集合{A，B}，A=(A₁，A₂，…，A_n，…，A_N)，A_n为目标文本的主语中由前往后识别的第n个实体，n的取值范围为1到N，N为目标文本的主语包括的实体数量，N≥1；B=(B₁，B₂，…，B_m，…，B_M)，B_m为目标文本的宾语中由前往后识别的第m个实体，m的取值范围为1到M，M为目标文本的宾语包括的实体数量，M≥1；所述目标文本为一个包括主语、谓语和宾语的语句。

S200，获取目标文本的三元组集合{TAA，TBB，TAB}，其中：

TAA=∅或者TAA={TAA₁，TAA₂，…，TAA_i，…，TAA_QA}≠∅，TAA_i为目标文本的主语对应的第i个三元组，i的取值范围为1到QA，QA为目标文本的主语对应的三元组数量；TAA_i=(A_i,1,EA_i,A_i,2)，A_i,1为TAA_i包括的第一个实体，A_i,2为TAA_i包括的第二个实体，EA_i为实体A_i,1和实体A_i,2之间的关系。

TBB=∅或者TBB={TBB₁，TBB₂，…，TBB_j，…，TBB_QB}≠∅，TBB_j为目标文本的宾语对应的第j个三元组，j的取值范围为1到QB，QB为目标文本的宾语对应的三元组数量；TBB_j=(B_j,1,EB_j,B_j,2)，B_j,1为TBB_j包括的第一个实体，B_j,2为TBB_j包括的第二个实体，EB_j为实体B_j,1和实体B_j,2之间的关系。

TAB=(A_N,EAB,B_M)，A_N为目标文本的主语中的第N个实体，B_M为目标文本的宾语中的第M个实体，EAB为实体A_N和实体B_M之间的关系。

S300，如果TAA≠∅，则根据IDAA获取目标文本的主语对应的组成实体ZA；IDAA=(IDAA₁，IDAA₂，…，IDAA_i，…，IDAA_QA)，IDAA_i为TAA_i的编号，该编号用于唯一标识TAA_i。

S400，如果TBB≠∅，则根据IDBB获取目标文本的宾语对应的组成实体ZB；IDBB=(IDBB₁，IDBB₂，…，IDBB_j，…，IDBB_QB)，IDBB_j为TBB_j的编号，该编号用于唯一标识TBB_j。

S500，获取目标文本的目标三元组T=(X₁,EAB,X₂)，当TAA≠∅时，X₁=ZA；当TAA=∅且N=1时，X₁=A₁；当TBB≠∅时，X₂=ZB；当TBB=∅且M=1时，X₂=B₁。

本发明与现有技术相比具有明显的有益效果，借由上述技术方案，本发明提供的基于知识图谱的文本处理方法可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：

本发明获取了目标文本中的所有实体，也获取了目标文本的所有三元组集合，这些三元组集合中可能存在同为主语中实体的三元组和同为宾语中实体的三元组；对于这样的三元组，本发明将其对应的编号作为进一步构建三元组的一个实体，该编号代表的是其对应的三元组整体，由此，目标文本中的复杂的语法结构基于三元组就可以被准确的表示出来，解决了现有技术中利用关系抽取方法获取复杂语法结构的语句的语义关系时可能不准确的问题，提高了获取目标文本的语义关系的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于知识图谱的文本处理方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

可选的，利用基于机器学习的识别算法识别目标文本中的实体，例如基于LSTM+CRF的模型识别目标文本中的实体。本领域技术人员知悉，现有技术中任何实体识别的方法均落入本发明的保护范围。

需要说明的是，本发明按照实体在目标文本中出现的先后顺序确定实体在实体集合中的位置，实体在目标文本中出现的越早，对应在实体集合中的位置越靠前。

S200，获取目标文本的三元组集合{TAA，TBB，TAB}，其中：TAA=∅或者TAA={TAA₁，TAA₂，…，TAA_i，…，TAA_QA}≠∅，TAA_i为目标文本的主语对应的第i个三元组，i的取值范围为1到QA，QA为目标文本的主语对应的三元组数量；TAA_i=(A_i,1,EA_i,A_i,2)，A_i,1为TAA_i包括的第一个实体，A_i,2为TAA_i包括的第二个实体，EA_i为实体A_i,1和实体A_i,2之间的关系。

根据本发明，TBB=∅或者TBB={TBB₁，TBB₂，…，TBB_j，…，TBB_QB}≠∅，TBB_j为目标文本的宾语对应的第j个三元组，j的取值范围为1到QB，QB为目标文本的宾语对应的三元组数量；TBB_j=(B_j,1,EB_j,B_j,2)，B_j,1为TBB_j包括的第一个实体，B_j,2为TBB_j包括的第二个实体，EB_j为实体B_j,1和实体B_j,2之间的关系。

根据本发明，TAB=(A_N,EAB,B_M)，A_N为目标文本的主语中的第N个实体，B_M为目标文本的宾语中的第M个实体，EAB为实体A_N和实体B_M之间的关系。

可以理解的是，现有的关系抽取方法可自动识别实体之间的某种语义关系。可选的，本发明利用现有的基于神经网络的关系抽取方法获取目标文本中两实体之间的关系。本领域技术人员知悉，现有技术中任何关系抽取的方法均落入本发明的保护范围。

可以理解的是，现有的句法分析方法可以识别一个句子的句法结构，例如一个句子的主语和宾语。可选的，本发明利用现有的句法分析工具识别目标文本中实体是位于主语还是宾语中。

根据本发明，基于关系抽取方法和句法分析方法就可以获取目标文本中各实体之间的关系以及实体是位于目标文本的主语还是宾语中，由此就可以分别获取目标文本的主语对应的三元组集合TAA、目标文本的宾语对应的三元组集合TBB以及目标文本对应的包括主语中实体和宾语中实体的三元组TAB。应当理解的是，既可能不存在同在主语中的实体的三元组，也可能存在1个或两个以上的同在主语中的实体的三元组；既可能不存在同在宾语中的实体的三元组，也可能存在1个或两个以上的同在宾语中的实体的三元组。

根据本发明，如果A中实体均在TAA中，则ZA=ZA₁，ZA₁为目标文本的主语对应的第一组成实体；当QA=1时，ZA₁为IDAA₁；当QA≥2时，ZA₁为IDSA_1,QA；IDSA_1,QA的获取方法包括：

S310，获取三元组(IDAA₁,E₀,IDAA₂)的编号IDSA_1,2，该编号用于唯一标识(IDAA₁,E₀,IDAA₂)，E₀为第一预设关系，IDAA₁为TAA₁的编号，TAA₁为目标文本的主语对应的第1个三元组，IDAA₂为TAA₂的编号，TAA₂为目标文本的主语对应的第2个三元组；如果QA=2，IDSA_1,QA为IDSA_1,2；如果QA>2，则进入S320。

根据本发明，如果某三元组对应的两实体均在目标文本的主语中，那么赋予该三元组一个对应的编号，该编号可用于指代该三元组。而且，以该编号构建一个实体，该实体可参与后续的三元组构建，由此最终构建的知识图谱可准确表示目标文本的语义。

根据本发明，第一预设关系用于指示对应的两实体为共主语关系，表示两实体均为主语。

S320，获取三元组(IDSA_1,QA-1,E₀,IDAA_QA)的编号IDSA_1,QA，该编号用于唯一标识(IDSA_1,QA-1,E₀,IDAA_QA)；IDAA_QA为TAA_QA的编号，TAA_QA为目标文本的主语对应的第QA个三元组。

应当理解是，获取IDSA_1,2之后，还可以依次获取IDSA_1,3、…、IDSA_1,QA，其中IDSA_1,3为三元组(IDSA_1,2,E₀,IDAA₃)的编号，IDSA_1,QA为三元组(IDSA_1,QA-1,E₀,IDAA_QA)的编号，IDAA₃为TAA₃的编号，TAA₃为目标文本的主语对应的第3个三元组，IDSA_1,QA-1为获取的(IDSA_1,QA-1,E₀,IDAA_QA)的上一三元组(IDSA_1,QA-2,E₀,IDAA_QA-1)的编号，IDSA_1,QA-2为三元组(IDSA_1,QA-3,E₀,IDAA_QA-2)的编号，以此类推。

根据本发明，如果A中存在实体不在TAA中，且A中不在TAA中实体的数量PA≥2，则ZA为三元组(ZA₁,E₀,IDN_PA)的编号，IDN_PA的获取方法包括：

S311，获取三元组(NA₁,E₀,NA₂)的编号IDN₂，该编号用于唯一标识(NA₁,E₀,NA₂)，NA₁为A中第1个不在TAA中的实体，NA₂为A中第2个不在TAA中的实体，如果PA=2，IDN_PA为IDN₂；如果PA>2，则进入S312。

S312，获取三元组(IDN_PA-1,E₀,NA_PA)的编号IDN_PA，该编号用于唯一标识(IDN_PA-1,E₀,NA_PA)，NA_PA为A中第PA个不在TAA中的实体；IDN_PA-1为获取的(IDN_PA-1,E₀,NA_PA)对应的上一三元组的编号。

应当理解的是，获取IDN₂ 之后，还可以依次获取IDN₃、…、IDN_PA，其中IDN₃为三元组(IDN₂,E₀,NA₃)的编号，IDN_PA为三元组(IDN_PA-1,E₀,NA_PA)的编号，NA₃为A中第3个不在TAA中的实体，IDN_PA-1为(IDN_PA-1,E₀,NA_PA)对应的上一三元组(IDN_PA-2,E₀,NA_PA-1)的编号，IDN_PA-2为三元组(IDN_PA-3,E₀,NA_PA-2)的编号，以此类推。

根据本发明，如果A中存在实体不在TAA中，且PA=1，则ZA为三元组(ZA₁,E₀,NA₁)的编号。

根据本发明，如果B中实体均在TBB中，则ZB=ZB₁，ZB₁为目标文本的宾语对应的第一组成实体；当QB=1时，ZB₁为IDBB₁；当QB≥2时，ZB₁为IDSB_1,QB；IDSB_1,QB的获取方法包括：

S410，获取三元组(IDBB₁,E₁,IDBB₂)的编号IDSB_1,2，该编号用于唯一标识(IDBB₁,E₁,IDBB₂)，E₁为第二预设关系，IDBB₁为TBB₁的编号，TBB₁为目标文本的宾语对应的第1个三元组，IDBB₂为TBB₂的编号，TBB₂为目标文本的宾语对应的第2个三元组；如果QB=2，IDSB_1,QB为IDSB_1,2；如果QB>2，则进入S420。

根据本发明，如果某三元组对应的两实体均在目标文本的宾语中，那么赋予该三元组一个对应的编号，该编号可用于指代该三元组。而且，以该编号构建一个实体，该实体可参与后续的三元组构建，由此最终构建的知识图谱可准确表示目标文本的语义。

根据本发明，第二预设关系用于指示对应的两实体为共宾语关系，表示两实体均为宾语。

S420，获取三元组(IDSB_1,QB-1,E₁,IDBB_QB)的编号IDSB_1,QB，该编号用于唯一标识(IDSB_1,QB-1,E₁,IDBB_QB)；IDSB_1,QB-1为(IDSB_1,QB-1,E₁,IDBB_QB)对应的上一三元组的编号，IDBB_QB为TBB_QB的编号，TBB_QB为目标文本的宾语对应的第QB个三元组。

应当理解是，获取IDSB_1,2之后，还可以依次获取IDSB_1,3、…、IDSB_1,QB，其中IDSB_1,3为(IDSB_1,2,E₁,IDBB₃)的编号，IDSB_1,QB为(IDSB_1,QB-1,E₁,IDBB_QB)的编号，其中IDBB₃为TBB₃的编号，TBB₃为目标文本的宾语对应的第3个三元组，IDSB_1,QB-1为(IDSB_1,QB-1,E₁,IDBB_QB)对应的上一三元组(IDSB_1,QB-2,E₁,IDBB_QB-1)的编号，IDSB_1,QB-2为三元组(IDSB_1,QB-3,E₁,IDBB_QB-2)的编号，以此类推。

根据本发明，如果B中存在实体不在TBB中，且B中不在TBB中实体的数量PB≥2，则ZB为三元组(ZB₁,E₁,IDNB_PB)的编号，IDNB_PB的获取方法包括：

S411，获取三元组(NB₁,E₁,NB₂)的编号IDNB₂，该编号用于唯一标识(NB₁,E₁,NB₂)，NB₁为B中第1个不在TBB中的实体，NB₂为B中第2个不在TBB中的实体，如果PB=2，IDNB_PB为IDNB₂；如果PB>2，则进入S412。

S412，获取三元组(IDNB_PB-1,E₁,NB_PB)的编号IDNB_PB，该编号用于唯一标识(IDNB_PB-1,E₁,NB_PB)，NB_PB为B中第PB个不在TBB中的实体；IDNB_PB-1为获取的(IDNB_PB-1,E₁,NB_PB)的上一三元组的编号。

应当理解的是，获取IDNB₂之后，还可以依次获取IDNB₃、…、IDNB_PB，其中IDNB₃为三元组(IDNB₂,E₁,NB₃)的编号，IDNB_PB为三元组(IDNB_PB-1,E₁,NB_PB)的编号，NB₃为B中第3个不在TBB中的实体，IDNB_PB-1为获取的(IDNB_PB-1,E₁,NB_PB)的上一三元组 (IDNB_PB-2,E₁,NB_PB-1)的编号，IDNB_PB-2为三元组(IDNB_PB-3,E₁,NB_PB-2)的编号，以此类推。

根据本发明，如果B中存在实体不在TBB中，且PB=1，则ZB为三元组(ZB₁,E₁,NB₁)的编号。

根据本发明，当TAA=∅且N≥2时，X₁=ID_A,N，ID_A,N的获取方法包括：

S510，获取三元组(A₁,E₀,A₂)的编号ID_A,2，该编号用于唯一标识(A₁,E₀,A₂)，A₁为A中第1个实体，A₂为A中第2个实体，如果N=2，ID_A,N为ID_A,2；如果N>2，则进入S520。

S520，获取三元组(ID_A,N-1,E₀,A_N)的编号ID_A,N，该编号用于唯一标识(ID_A,N-1,E₀,A_N)，A_N为A中第N个实体；ID_A,N-1为获取的(ID_A,N-1,E₀,A_N)对应的上一三元组的编号。

应当理解的是，获取ID_A,2之后，还可以依次获取ID_A,3、…、ID_A,N，其中ID_A,3为三元组(ID_A,2,E₀,A₃)的编号，ID_A,N为三元组(ID_A,N-1,E₀,A_N)的编号，A₃为A中第3个实体，ID_A,N-1为(ID_A,N-1,E₀,A_N)的上一三元组(ID_A,N-2,E₀,A_N-1)的编号，ID_A,N-2为三元组(ID_A,N-3,E₀,A_N-2)的编号，以此类推。

根据本发明，当TBB=∅且M≥2时，X₂=ID_B,M，ID_B,M的获取方法包括：

S511，获取三元组(B₁,E₁,B₂)的编号ID_B,2，该编号用于唯一标识(B₁,E₁,B₂)，B₁为B中第1个实体，B₂为B中第2个实体，如果M=2，ID_B,M为ID_B,2；如果M>2，则进入S521。

S521，获取三元组(ID_B,M-1,E₁,B_M)的编号ID_B,M，该编号用于唯一标识(ID_B,M-1,E₁,B_M)，B_M为B中第M个实体；ID_B,M-1为获取的(ID_B,M-1,E₁,B_M)对应的上一三元组的编号。

应当理解的是，获取ID_B,2之后，还可以依次获取ID_B,3、…、ID_B,M，其中ID_B,3为三元组(ID_B,2,E₁,B₃)的编号，ID_B,M为三元组(ID_B,M-1,E₁,B_M)的编号ID_B,M，B₃为B中第3个实体，ID_B,M-1为(ID_B,M-1,E₁,B_M)的上一三元组(ID_B,M-2,E₁,B_M-1)的编号，ID_B,M-2为三元组(ID_B,M-3,E₁,B_M-2)的编号，以此类推。

作为第一具体实施方式，目标文本为：紫色的手机是乔指定的限定款，其中，紫色的手机是目标文本的主语，乔指定的限定款是目标文本的宾语；S100中，获取A=(紫色，手机)，N=2，B=(乔，限定款)，M=2；S200，利用句法分析模型和关系抽取模型可获取：TAA={手机,颜色,紫色)}，QA=1，TBB={(乔,指定,限定款)}，QB=1，TAB=(手机,是,限定款)；S300，如三元组(手机,颜色,紫色)的编号为1，那么ZA₁即为编号1，ZA也为编号1；S400，如三元组(乔,指定,限定款)的编号为2，那么ZB即为编号2；S500，获取T=(编号1,是,编号2)，应当理解的是，编号1指的是紫色的手机，编号2指的是乔指定的限定款。

作为第二具体实施方式，目标文本为：2014年紫色的手机是乔指定的限定款，其中，2014年紫色的手机是目标文本的主语，乔指定的限定款是目标文本的宾语；S100中，获取A=(2014年，紫色，手机)，N=3，B=(乔，限定款)，M=2；S200，利用句法分析模型和关系抽取模型可获取：TAA={(手机,颜色,紫色)}，QA=1，TBB={(乔,指定,限定款)}，QB=1，TAB=(手机,是,限定款)；S300，如三元组(手机,颜色,紫色)的编号为1，那么ZA₁即为编号1，ZA即为三元组(ZA₁,E₀,2014年)的编号，如三元组(ZA₁,E₀,2014年)的编号为编号3，那么ZA即为编号3；S400，如三元组(乔,指定,限定款)的编号为2，那么ZB即为编号2；S500，获取T=(编号3,是,编号2)，应当理解的是，编号3指的是2014年紫色的手机，编号2指的是乔指定的限定款。

作为第三具体实施方式，目标文本为：紫色的手机是限定款，其中，紫色的手机是目标文本的主语，限定款是目标文本的宾语；S100中，获取A=(紫色，手机)，N=2，B=(限定款)，M=2；S200，利用句法分析模型和关系抽取模型可获取：TAA={(手机,颜色,紫色)}，QA=1，TBB=∅；S300，如三元组(手机,颜色,紫色)的编号为1，那么ZA₁即为编号1，ZA也为编号1；S400，ZB即为限定款；S500，获取T=(编号1,是,限定款)，应当理解的是，编号1指的是紫色的手机。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员还应理解，可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims

1.一种基于知识图谱的文本处理方法，其特征在于，包括以下步骤：

S100，获取目标文本中的实体集合{A，B}，A=(A₁，A₂，…，A_n，…，A_N)，A_n为目标文本的主语中由前往后识别的第n个实体，n的取值范围为1到N，N为目标文本的主语包括的实体数量，N≥1；B=(B₁，B₂，…，B_m，…，B_M)，B_m为目标文本的宾语中由前往后识别的第m个实体，m的取值范围为1到M，M为目标文本的宾语包括的实体数量，M≥1；所述目标文本为一个包括主语、谓语和宾语的语句；

S200，获取目标文本的三元组集合{TAA，TBB，TAB}，其中：

TAA=∅或者TAA={TAA₁，TAA₂，…，TAA_i，…，TAA_QA}≠∅，TAA_i为目标文本的主语对应的第i个三元组，i的取值范围为1到QA，QA为目标文本的主语对应的三元组数量；TAA_i=(A_i,1,EA_i,A_i,2)，A_i,1为TAA_i包括的第一个实体，A_i,2为TAA_i包括的第二个实体，EA_i为实体A_i,1和实体A_i,2之间的关系；

TBB=∅或者TBB={TBB₁，TBB₂，…，TBB_j，…，TBB_QB}≠∅，TBB_j为目标文本的宾语对应的第j个三元组，j的取值范围为1到QB，QB为目标文本的宾语对应的三元组数量；TBB_j=(B_j,1,EB_j,B_j,2)，B_j,1为TBB_j包括的第一个实体，B_j,2为TBB_j包括的第二个实体，EB_j为实体B_j,1和实体B_j,2之间的关系；

TAB=(A_N,EAB,B_M)，A_N为目标文本的主语中的第N个实体，B_M为目标文本的宾语中的第M个实体，EAB为实体A_N和实体B_M之间的关系；

S300，如果TAA≠∅，则根据IDAA获取目标文本的主语对应的组成实体ZA；IDAA=(IDAA₁，IDAA₂，…，IDAA_i，…，IDAA_QA)，IDAA_i为TAA_i的编号，该编号用于唯一标识TAA_i；

S400，如果TBB≠∅，则根据IDBB获取目标文本的宾语对应的组成实体ZB；IDBB=(IDBB₁，IDBB₂，…，IDBB_j，…，IDBB_QB)，IDBB_j为TBB_j的编号，该编号用于唯一标识TBB_j；

S500，获取目标文本的目标三元组T=(X₁,EAB,X₂)，当TAA≠∅时，X₁=ZA；当TAA=∅且N=1时，X₁=A₁；当TBB≠∅时，X₂=ZB；当TBB=∅且M=1时，X₂=B₁；

S300中，所述根据IDAA获取目标文本的主语对应的组成实体ZA，包括：如果A中实体均在TAA中，则ZA=ZA₁，ZA₁为目标文本的主语对应的第一组成实体；当QA=1时，ZA₁为IDAA₁；当QA≥2时，ZA₁为IDSA_1,QA；IDSA_1,QA的获取方法包括：

S310，获取三元组(IDAA₁,E₀,IDAA₂)的编号IDSA_1,2，该编号用于唯一标识(IDAA₁,E₀,IDAA₂)，E₀为第一预设关系；如果QA=2，IDSA_1,QA为IDSA_1,2；如果QA>2，则进入S320；

S320，获取三元组(IDSA_1,QA-1,E₀,IDAA_QA)的编号IDSA_1,QA，该编号用于唯一标识(IDSA_1,QA-1,E₀,IDAA_QA)；IDSA_1,QA-1为获取的(IDSA_1,QA-2,E₀,IDAA_QA-1)的编号，该编号用于唯一标识(IDSA_1,QA-2,E₀,IDAA_QA-1)，IDSA_1,QA-2为采用和获取IDSA_1,QA-1相同的方法获取的三元组的编号；

S300中，所述根据IDAA获取目标文本的主语对应的组成实体ZA，包括：如果A中存在实体不在TAA中，且A中不在TAA中实体的数量PA≥2，则ZA为三元组(ZA₁,E₀,IDN_PA)的编号，该编号用于唯一标识(ZA₁,E₀,IDN_PA)，IDN_PA的获取方法包括：

S311，获取三元组(NA₁,E₀,NA₂)的编号IDN₂，该编号用于唯一标识(NA₁,E₀,NA₂)，NA₁为A中第1个不在TAA中的实体，NA₂为A中第2个不在TAA中的实体，如果PA=2，IDN_PA为IDN₂；如果PA>2，则进入S312；

S312，获取三元组(IDN_PA-1,E₀,NA_PA)的编号IDN_PA，该编号用于唯一标识(IDN_PA-1,E₀,NA_PA)，NA_PA为A中第PA个不在TAA中的实体；IDN_PA-1为(IDN_PA-2,E₀,NA_PA-1)的编号，该编号用于唯一标识(IDN_PA-2,E₀,NA_PA-1)，IDN_PA-2为采用和获取IDN_PA-1相同的方法获取的三元组的编号；

S300中，所述根据IDAA获取目标文本的主语对应的组成实体ZA，包括：如果A中存在实体不在TAA中，且PA=1，则ZA为三元组(ZA₁,E₀,NA₁)的编号，该编号用于唯一标识(ZA₁,E₀,NA₁)；

S400中，所述根据IDBB获取目标文本的宾语对应的组成实体ZB，包括：如果B中实体均在TBB中，则ZB=ZB₁，ZB₁为目标文本的宾语对应的第一组成实体；当QB=1时，ZB₁为IDBB₁；当QB≥2时，ZB₁为IDSB_1,QB；IDSB_1,QB的获取方法包括：

S410，获取三元组(IDBB₁,E₁,IDBB₂)的编号IDSB_1,2，该编号用于唯一标识(IDBB₁,E₁,IDBB₂)，E₁为第二预设关系；如果QB=2，IDSB_1,QB为IDSB_1,2；如果QB>2，则进入S420；

S420，获取三元组(IDSB_1,QB-1,E₁,IDBB_QB)的编号IDSB_1,QB，该编号用于唯一标识(IDSB_1,QB-1,E₁,IDBB_QB)；IDSB_1,QB-1为(IDSB_1,QB-2,E₁,IDBB_QB-1)的编号，该编号用于唯一标识(IDSB_1,QB-2,E₁,IDBB_QB-1)，IDSB_1,QB-2为采用和获取IDSB_1,QB-1相同的方法获取的三元组的编号。

2.根据权利要求1所述的方法，其特征在于，所述第一预设关系用于指示对应的两实体为共主语关系。

3.根据权利要求1所述的方法，其特征在于，S500还包括：当TAA=∅且N≥2时，X₁=ID_A,N，ID_A,N的获取方法包括：

S510，获取三元组(A₁,E₀,A₂)的编号ID_A,2，该编号用于唯一标识(A₁,E₀,A₂)，如果N=2，ID_A,N为ID_A,2；如果N>2，则进入S520；

S520，获取三元组(ID_A,N-1,E₀,A_N)的编号ID_A,N，该编号用于唯一标识(ID_A,N-1,E₀,A_N)；ID_A,N-1为(ID_A,N-2,E₀,A_N-1)的编号，该编号用于唯一标识(ID_A,N-2,E₀,A_N-1)，ID_A,N-2为采用和获取ID_A,N-1相同的方法获取的三元组的编号。

4.根据权利要求1所述的方法，其特征在于，所述第二预设关系用于指示对应的两实体为共宾语关系。

5.根据权利要求1所述的方法，其特征在于，S500还包括：当TBB=∅且M≥2时，X₂=ID_B,M，ID_B,M的获取方法包括：

S511，获取三元组(B₁,E₁,B₂)的编号ID_B,2，该编号用于唯一标识(B₁,E₁,B₂)，如果M=2，ID_B,M为ID_B,2；如果M>2，则进入S521；

S521，获取三元组(ID_B,M-1,E₁,B_M)的编号ID_B,M，该编号用于唯一标识(ID_B,M-1,E₁,B_M)；ID_B,M-1为(ID_B,M-2,E₁,B_M-1)的编号，该编号用于唯一标识(ID_B,M-2,E₁,B_M-1)，ID_B,M-2为采用和获取ID_B,M-1相同的方法获取的三元组的编号。