CN115577713B - 一种基于知识图谱的文本处理方法 - Google Patents

一种基于知识图谱的文本处理方法 Download PDF

Info

Publication number
CN115577713B
CN115577713B CN202211565438.5A CN202211565438A CN115577713B CN 115577713 B CN115577713 B CN 115577713B CN 202211565438 A CN202211565438 A CN 202211565438A CN 115577713 B CN115577713 B CN 115577713B
Authority
CN
China
Prior art keywords
entity
taa
target text
tbb
idaa
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211565438.5A
Other languages
English (en)
Other versions
CN115577713A (zh
Inventor
张正义
刘羽
刘宸
傅晓航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yuchen Technology Co Ltd
Original Assignee
Zhongke Yuchen Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Yuchen Technology Co Ltd filed Critical Zhongke Yuchen Technology Co Ltd
Priority to CN202211565438.5A priority Critical patent/CN115577713B/zh
Publication of CN115577713A publication Critical patent/CN115577713A/zh
Application granted granted Critical
Publication of CN115577713B publication Critical patent/CN115577713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及电数字数据处理技术领域,特别是涉及一种基于知识图谱的文本处理方法。该方法包括以下步骤:S100,获取目标文本中的实体集合{A,B};S200,获取目标文本的三元组集合{TAA,TBB,TAB};S300,如果TAA≠∅,则根据IDAA获取目标文本的主语对应的组成实体ZA;S400,如果TBB≠∅,则根据IDBB获取目标文本的宾语对应的组成实体ZB;S500,获取目标文本的目标三元组T=(X1,EAB,X2)。本发明提高了获取目标文本的语义关系的准确性。

Description

一种基于知识图谱的文本处理方法
技术领域
本发明涉及电数字数据处理技术领域,特别是涉及一种基于知识图谱的文本处理方法。
背景技术
现有的实体识别方法可以自动识别一个语句中的实体,现有的关系抽取方法可以自动识别该语句中实体之间的某种语义关系,如黑色的手机14为经典款这个语句,利用实体识别方法可以识别出该语句中的黑色、手机14和经典款三个实体,利用关系抽取方法可以识别出上述语句中存在的语义关系为:黑色是手机14的颜色以及手机14为经典款。然而,上述语句表达的意思是黑色的手机14是经典款,而至于其他颜色的手机14是不是经典款是不知道的。可见,当一个语句的结构较为复杂时,利用现有的关系抽取方法得到的语义关系可能并不准确。如何提高获取语句的语义关系的准确性,是亟待解决的问题。
发明内容
本发明目的在于,提供一种基于知识图谱的文本处理方法,以提高获取目标文本的语义关系的准确性。
根据本发明,提供了一种基于知识图谱的文本处理方法,包括以下步骤:
S100,获取目标文本中的实体集合{A,B},A=(A1,A2,…,An,…,AN),An为目标文本的主语中由前往后识别的第n个实体,n的取值范围为1到N,N为目标文本的主语包括的实体数量,N≥1;B=(B1,B2,…,Bm,…,BM),Bm为目标文本的宾语中由前往后识别的第m个实体,m的取值范围为1到M,M为目标文本的宾语包括的实体数量,M≥1;所述目标文本为一个包括主语、谓语和宾语的语句。
S200,获取目标文本的三元组集合{TAA,TBB,TAB},其中:
TAA=∅或者TAA={TAA1,TAA2,…,TAAi,…,TAAQA}≠∅,TAAi为目标文本的主语对应的第i个三元组,i的取值范围为1到QA,QA为目标文本的主语对应的三元组数量;TAAi=(Ai,1,EAi,Ai,2),Ai,1为TAAi包括的第一个实体,Ai,2为TAAi包括的第二个实体,EAi为实体Ai,1和实体Ai,2之间的关系。
TBB=∅或者TBB={TBB1,TBB2,…,TBBj,…,TBBQB}≠∅,TBBj为目标文本的宾语对应的第j个三元组,j的取值范围为1到QB,QB为目标文本的宾语对应的三元组数量;TBBj=(Bj,1,EBj,Bj,2),Bj,1为TBBj包括的第一个实体,Bj,2为TBBj包括的第二个实体,EBj为实体Bj,1和实体Bj,2之间的关系。
TAB=(AN,EAB,BM),AN为目标文本的主语中的第N个实体,BM为目标文本的宾语中的第M个实体,EAB为实体AN和实体BM之间的关系。
S300,如果TAA≠∅,则根据IDAA获取目标文本的主语对应的组成实体ZA;IDAA=(IDAA1,IDAA2,…,IDAAi,…,IDAAQA),IDAAi为TAAi的编号,该编号用于唯一标识TAAi
S400,如果TBB≠∅,则根据IDBB获取目标文本的宾语对应的组成实体ZB;IDBB=(IDBB1,IDBB2,…,IDBBj,…,IDBBQB),IDBBj为TBBj的编号,该编号用于唯一标识TBBj
S500,获取目标文本的目标三元组T=(X1,EAB,X2),当TAA≠∅时,X1=ZA;当TAA=∅且N=1时,X1=A1;当TBB≠∅时,X2=ZB;当TBB=∅且M=1时,X2=B1
本发明与现有技术相比具有明显的有益效果,借由上述技术方案,本发明提供的基于知识图谱的文本处理方法可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有以下有益效果:
本发明获取了目标文本中的所有实体,也获取了目标文本的所有三元组集合,这些三元组集合中可能存在同为主语中实体的三元组和同为宾语中实体的三元组;对于这样的三元组,本发明将其对应的编号作为进一步构建三元组的一个实体,该编号代表的是其对应的三元组整体,由此,目标文本中的复杂的语法结构基于三元组就可以被准确的表示出来,解决了现有技术中利用关系抽取方法获取复杂语法结构的语句的语义关系时可能不准确的问题,提高了获取目标文本的语义关系的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于知识图谱的文本处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明,提供了一种基于知识图谱的文本处理方法,包括以下步骤:
S100,获取目标文本中的实体集合{A,B},A=(A1,A2,…,An,…,AN),An为目标文本的主语中由前往后识别的第n个实体,n的取值范围为1到N,N为目标文本的主语包括的实体数量,N≥1;B=(B1,B2,…,Bm,…,BM),Bm为目标文本的宾语中由前往后识别的第m个实体,m的取值范围为1到M,M为目标文本的宾语包括的实体数量,M≥1;所述目标文本为一个包括主语、谓语和宾语的语句。
可选的,利用基于机器学习的识别算法识别目标文本中的实体,例如基于LSTM+CRF的模型识别目标文本中的实体。本领域技术人员知悉,现有技术中任何实体识别的方法均落入本发明的保护范围。
需要说明的是,本发明按照实体在目标文本中出现的先后顺序确定实体在实体集合中的位置,实体在目标文本中出现的越早,对应在实体集合中的位置越靠前。
S200,获取目标文本的三元组集合{TAA,TBB,TAB},其中:TAA=∅或者TAA={TAA1,TAA2,…,TAAi,…,TAAQA}≠∅,TAAi为目标文本的主语对应的第i个三元组,i的取值范围为1到QA,QA为目标文本的主语对应的三元组数量;TAAi=(Ai,1,EAi,Ai,2),Ai,1为TAAi包括的第一个实体,Ai,2为TAAi包括的第二个实体,EAi为实体Ai,1和实体Ai,2之间的关系。
根据本发明,TBB=∅或者TBB={TBB1,TBB2,…,TBBj,…,TBBQB}≠∅,TBBj为目标文本的宾语对应的第j个三元组,j的取值范围为1到QB,QB为目标文本的宾语对应的三元组数量;TBBj=(Bj,1,EBj,Bj,2),Bj,1为TBBj包括的第一个实体,Bj,2为TBBj包括的第二个实体,EBj为实体Bj,1和实体Bj,2之间的关系。
根据本发明,TAB=(AN,EAB,BM),AN为目标文本的主语中的第N个实体,BM为目标文本的宾语中的第M个实体,EAB为实体AN和实体BM之间的关系。
可以理解的是,现有的关系抽取方法可自动识别实体之间的某种语义关系。可选的,本发明利用现有的基于神经网络的关系抽取方法获取目标文本中两实体之间的关系。本领域技术人员知悉,现有技术中任何关系抽取的方法均落入本发明的保护范围。
可以理解的是,现有的句法分析方法可以识别一个句子的句法结构,例如一个句子的主语和宾语。可选的,本发明利用现有的句法分析工具识别目标文本中实体是位于主语还是宾语中。
根据本发明,基于关系抽取方法和句法分析方法就可以获取目标文本中各实体之间的关系以及实体是位于目标文本的主语还是宾语中,由此就可以分别获取目标文本的主语对应的三元组集合TAA、目标文本的宾语对应的三元组集合TBB以及目标文本对应的包括主语中实体和宾语中实体的三元组TAB。应当理解的是,既可能不存在同在主语中的实体的三元组,也可能存在1个或两个以上的同在主语中的实体的三元组;既可能不存在同在宾语中的实体的三元组,也可能存在1个或两个以上的同在宾语中的实体的三元组。
S300,如果TAA≠∅,则根据IDAA获取目标文本的主语对应的组成实体ZA;IDAA=(IDAA1,IDAA2,…,IDAAi,…,IDAAQA),IDAAi为TAAi的编号,该编号用于唯一标识TAAi
根据本发明,如果A中实体均在TAA中,则ZA=ZA1,ZA1为目标文本的主语对应的第一组成实体;当QA=1时,ZA1为IDAA1;当QA≥2时,ZA1为IDSA1,QA;IDSA1,QA的获取方法包括:
S310,获取三元组(IDAA1,E0,IDAA2)的编号IDSA1,2,该编号用于唯一标识(IDAA1,E0,IDAA2),E0为第一预设关系,IDAA1为TAA1的编号,TAA1为目标文本的主语对应的第1个三元组,IDAA2为TAA2的编号,TAA2为目标文本的主语对应的第2个三元组;如果QA=2,IDSA1,QA为IDSA1,2;如果QA>2,则进入S320。
根据本发明,如果某三元组对应的两实体均在目标文本的主语中,那么赋予该三元组一个对应的编号,该编号可用于指代该三元组。而且,以该编号构建一个实体,该实体可参与后续的三元组构建,由此最终构建的知识图谱可准确表示目标文本的语义。
根据本发明,第一预设关系用于指示对应的两实体为共主语关系,表示两实体均为主语。
S320,获取三元组(IDSA1,QA-1,E0,IDAAQA)的编号IDSA1,QA,该编号用于唯一标识(IDSA1,QA-1,E0,IDAAQA);IDAAQA为TAAQA的编号,TAAQA为目标文本的主语对应的第QA个三元组。
应当理解是,获取IDSA1,2之后,还可以依次获取IDSA1,3、…、IDSA1,QA,其中IDSA1,3为三元组(IDSA1,2,E0,IDAA3)的编号,IDSA1,QA为三元组(IDSA1,QA-1,E0,IDAAQA)的编号,IDAA3为TAA3的编号,TAA3为目标文本的主语对应的第3个三元组,IDSA1,QA-1为获取的(IDSA1,QA-1,E0,IDAAQA)的上一三元组(IDSA1,QA-2,E0,IDAAQA-1)的编号,IDSA1,QA-2为三元组(IDSA1,QA-3,E0,IDAAQA-2)的编号,以此类推。
根据本发明,如果A中存在实体不在TAA中,且A中不在TAA中实体的数量PA≥2,则ZA为三元组(ZA1,E0,IDNPA)的编号,IDNPA的获取方法包括:
S311,获取三元组(NA1,E0,NA2)的编号IDN2,该编号用于唯一标识(NA1,E0,NA2),NA1为A中第1个不在TAA中的实体,NA2为A中第2个不在TAA中的实体,如果PA=2,IDNPA为IDN2;如果PA>2,则进入S312。
S312,获取三元组(IDNPA-1,E0,NAPA)的编号IDNPA,该编号用于唯一标识(IDNPA-1,E0,NAPA),NAPA为A中第PA个不在TAA中的实体;IDNPA-1为获取的(IDNPA-1,E0,NAPA)对应的上一三元组的编号。
应当理解的是,获取IDN2 之后 ,还可以依次获取IDN3、…、IDNPA,其中IDN3为三元组(IDN2,E0,NA3)的编号,IDNPA为三元组(IDNPA-1,E0,NAPA)的编号,NA3为A中第3个不在TAA中的实体,IDNPA-1为(IDNPA-1,E0,NAPA)对应的上一三元组(IDNPA-2,E0,NAPA-1)的编号,IDNPA-2为三元组(IDNPA-3,E0,NAPA-2)的编号,以此类推。
根据本发明,如果A中存在实体不在TAA中,且PA=1,则ZA为三元组(ZA1,E0,NA1)的编号。
S400,如果TBB≠∅,则根据IDBB获取目标文本的宾语对应的组成实体ZB;IDBB=(IDBB1,IDBB2,…,IDBBj,…,IDBBQB),IDBBj为TBBj的编号,该编号用于唯一标识TBBj
根据本发明,如果B中实体均在TBB中,则ZB=ZB1,ZB1为目标文本的宾语对应的第一组成实体;当QB=1时,ZB1为IDBB1;当QB≥2时,ZB1为IDSB1,QB;IDSB1,QB的获取方法包括:
S410,获取三元组(IDBB1,E1,IDBB2)的编号IDSB1,2,该编号用于唯一标识(IDBB1,E1,IDBB2),E1为第二预设关系,IDBB1为TBB1的编号,TBB1为目标文本的宾语对应的第1个三元组,IDBB2为TBB2的编号,TBB2为目标文本的宾语对应的第2个三元组;如果QB=2,IDSB1,QB为IDSB1,2;如果QB>2,则进入S420。
根据本发明,如果某三元组对应的两实体均在目标文本的宾语中,那么赋予该三元组一个对应的编号,该编号可用于指代该三元组。而且,以该编号构建一个实体,该实体可参与后续的三元组构建,由此最终构建的知识图谱可准确表示目标文本的语义。
根据本发明,第二预设关系用于指示对应的两实体为共宾语关系,表示两实体均为宾语。
S420,获取三元组(IDSB1,QB-1,E1,IDBBQB)的编号IDSB1,QB,该编号用于唯一标识(IDSB1,QB-1,E1,IDBBQB);IDSB1,QB-1为(IDSB1,QB-1,E1,IDBBQB)对应的上一三元组的编号,IDBBQB为TBBQB的编号,TBBQB为目标文本的宾语对应的第QB个三元组。
应当理解是,获取IDSB1,2之后,还可以依次获取IDSB1,3、…、IDSB1,QB,其中IDSB1,3为(IDSB1,2,E1,IDBB3)的编号,IDSB1,QB为(IDSB1,QB-1,E1,IDBBQB)的编号,其中IDBB3为TBB3的编号,TBB3为目标文本的宾语对应的第3个三元组,IDSB1,QB-1为(IDSB1,QB-1,E1,IDBBQB)对应的上一三元组(IDSB1,QB-2,E1,IDBBQB-1)的编号,IDSB1,QB-2为三元组(IDSB1,QB-3,E1,IDBBQB-2)的编号,以此类推。
根据本发明,如果B中存在实体不在TBB中,且B中不在TBB中实体的数量PB≥2,则ZB为三元组(ZB1,E1,IDNBPB)的编号,IDNBPB的获取方法包括:
S411,获取三元组(NB1,E1,NB2)的编号IDNB2,该编号用于唯一标识(NB1,E1,NB2),NB1为B中第1个不在TBB中的实体,NB2为B中第2个不在TBB中的实体,如果PB=2,IDNBPB为IDNB2;如果PB>2,则进入S412。
S412,获取三元组(IDNBPB-1,E1,NBPB)的编号IDNBPB,该编号用于唯一标识(IDNBPB-1,E1,NBPB),NBPB为B中第PB个不在TBB中的实体;IDNBPB-1为获取的(IDNBPB-1,E1,NBPB)的上一三元组的编号。
应当理解的是,获取IDNB2之后,还可以依次获取IDNB3、…、IDNBPB,其中IDNB3为三元组(IDNB2,E1,NB3)的编号,IDNBPB为三元组(IDNBPB-1,E1,NBPB)的编号,NB3为B中第3个不在TBB中的实体,IDNBPB-1为获取的(IDNBPB-1,E1,NBPB)的上一三元组 (IDNBPB-2,E1,NBPB-1)的编号,IDNBPB-2为三元组(IDNBPB-3,E1,NBPB-2)的编号,以此类推。
根据本发明,如果B中存在实体不在TBB中,且PB=1,则ZB为三元组(ZB1,E1,NB1)的编号。
S500,获取目标文本的目标三元组T=(X1,EAB,X2),当TAA≠∅时,X1=ZA;当TAA=∅且N=1时,X1=A1;当TBB≠∅时,X2=ZB;当TBB=∅且M=1时,X2=B1
根据本发明,当TAA=∅且N≥2时,X1=IDA,N,IDA,N的获取方法包括:
S510,获取三元组(A1,E0,A2)的编号IDA,2,该编号用于唯一标识(A1,E0,A2),A1为A中第1个实体,A2为A中第2个实体,如果N=2,IDA,N为IDA,2;如果N>2,则进入S520。
S520,获取三元组(IDA,N-1,E0,AN)的编号IDA,N,该编号用于唯一标识(IDA,N-1,E0,AN),AN为A中第N个实体;IDA,N-1为获取的(IDA,N-1,E0,AN)对应的上一三元组的编号。
应当理解的是,获取IDA,2之后,还可以依次获取IDA,3、…、IDA,N,其中IDA,3为三元组(IDA,2,E0,A3)的编号,IDA,N为三元组(IDA,N-1,E0,AN)的编号,A3为A中第3个实体,IDA,N-1为(IDA,N-1,E0,AN)的上一三元组(IDA,N-2,E0,AN-1)的编号,IDA,N-2为三元组(IDA,N-3,E0,AN-2)的编号,以此类推。
根据本发明,当TBB=∅且M≥2时,X2=IDB,M,IDB,M的获取方法包括:
S511,获取三元组(B1,E1,B2)的编号IDB,2,该编号用于唯一标识(B1,E1,B2),B1为B中第1个实体,B2为B中第2个实体,如果M=2,IDB,M为IDB,2;如果M>2,则进入S521。
S521,获取三元组(IDB,M-1,E1,BM)的编号IDB,M,该编号用于唯一标识(IDB,M-1,E1,BM),BM为B中第M个实体;IDB,M-1为获取的(IDB,M-1,E1,BM)对应的上一三元组的编号。
应当理解的是,获取IDB,2之后,还可以依次获取IDB,3、…、IDB,M,其中IDB,3为三元组(IDB,2,E1,B3)的编号,IDB,M为三元组(IDB,M-1,E1,BM)的编号IDB,M,B3为B中第3个实体,IDB,M-1为(IDB,M-1,E1,BM)的上一三元组(IDB,M-2,E1,BM-1)的编号,IDB,M-2为三元组(IDB,M-3,E1,BM-2)的编号,以此类推。
作为第一具体实施方式,目标文本为:紫色的手机是乔指定的限定款,其中,紫色的手机是目标文本的主语,乔指定的限定款是目标文本的宾语;S100中,获取A=(紫色,手机),N=2,B=(乔,限定款),M=2;S200,利用句法分析模型和关系抽取模型可获取:TAA={手机,颜色,紫色)},QA=1,TBB={(乔,指定,限定款)},QB=1,TAB=(手机,是,限定款);S300,如三元组(手机,颜色,紫色)的编号为1,那么ZA1即为编号1,ZA也为编号1;S400,如三元组(乔,指定,限定款)的编号为2,那么ZB即为编号2;S500,获取T=(编号1,是,编号2),应当理解的是,编号1指的是紫色的手机,编号2指的是乔指定的限定款。
作为第二具体实施方式,目标文本为:2014年紫色的手机是乔指定的限定款,其中,2014年紫色的手机是目标文本的主语,乔指定的限定款是目标文本的宾语;S100中,获取A=(2014年,紫色,手机),N=3,B=(乔,限定款),M=2;S200,利用句法分析模型和关系抽取模型可获取:TAA={(手机,颜色,紫色)},QA=1,TBB={(乔,指定,限定款)},QB=1,TAB=(手机,是,限定款);S300,如三元组(手机,颜色,紫色)的编号为1,那么ZA1即为编号1,ZA即为三元组(ZA1,E0,2014年)的编号,如三元组(ZA1,E0,2014年)的编号为编号3,那么ZA即为编号3;S400,如三元组(乔,指定,限定款)的编号为2,那么ZB即为编号2;S500,获取T=(编号3,是,编号2),应当理解的是,编号3指的是2014年紫色的手机,编号2指的是乔指定的限定款。
作为第三具体实施方式,目标文本为:紫色的手机是限定款,其中,紫色的手机是目标文本的主语,限定款是目标文本的宾语;S100中,获取A=(紫色,手机),N=2,B=(限定款),M=2;S200,利用句法分析模型和关系抽取模型可获取:TAA={(手机,颜色,紫色)},QA=1,TBB=∅;S300,如三元组(手机,颜色,紫色)的编号为1,那么ZA1即为编号1,ZA也为编号1;S400,ZB即为限定款;S500,获取T=(编号1,是,限定款),应当理解的是,编号1指的是紫色的手机。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。

Claims (5)

1.一种基于知识图谱的文本处理方法,其特征在于,包括以下步骤:
S100,获取目标文本中的实体集合{A,B},A=(A1,A2,…,An,…,AN),An为目标文本的主语中由前往后识别的第n个实体,n的取值范围为1到N,N为目标文本的主语包括的实体数量,N≥1;B=(B1,B2,…,Bm,…,BM),Bm为目标文本的宾语中由前往后识别的第m个实体,m的取值范围为1到M,M为目标文本的宾语包括的实体数量,M≥1;所述目标文本为一个包括主语、谓语和宾语的语句;
S200,获取目标文本的三元组集合{TAA,TBB,TAB},其中:
TAA=∅或者TAA={TAA1,TAA2,…,TAAi,…,TAAQA}≠∅,TAAi为目标文本的主语对应的第i个三元组,i的取值范围为1到QA,QA为目标文本的主语对应的三元组数量;TAAi=(Ai,1,EAi,Ai,2),Ai,1为TAAi包括的第一个实体,Ai,2为TAAi包括的第二个实体,EAi为实体Ai,1和实体Ai,2之间的关系;
TBB=∅或者TBB={TBB1,TBB2,…,TBBj,…,TBBQB}≠∅,TBBj为目标文本的宾语对应的第j个三元组,j的取值范围为1到QB,QB为目标文本的宾语对应的三元组数量;TBBj=(Bj,1,EBj,Bj,2),Bj,1为TBBj包括的第一个实体,Bj,2为TBBj包括的第二个实体,EBj为实体Bj,1和实体Bj,2之间的关系;
TAB=(AN,EAB,BM),AN为目标文本的主语中的第N个实体,BM为目标文本的宾语中的第M个实体,EAB为实体AN和实体BM之间的关系;
S300,如果TAA≠∅,则根据IDAA获取目标文本的主语对应的组成实体ZA;IDAA=(IDAA1,IDAA2,…,IDAAi,…,IDAAQA),IDAAi为TAAi的编号,该编号用于唯一标识TAAi
S400,如果TBB≠∅,则根据IDBB获取目标文本的宾语对应的组成实体ZB;IDBB=(IDBB1,IDBB2,…,IDBBj,…,IDBBQB),IDBBj为TBBj的编号,该编号用于唯一标识TBBj
S500,获取目标文本的目标三元组T=(X1,EAB,X2),当TAA≠∅时,X1=ZA;当TAA=∅且N=1时,X1=A1;当TBB≠∅时,X2=ZB;当TBB=∅且M=1时,X2=B1
S300中,所述根据IDAA获取目标文本的主语对应的组成实体ZA,包括:如果A中实体均在TAA中,则ZA=ZA1,ZA1为目标文本的主语对应的第一组成实体;当QA=1时,ZA1为IDAA1;当QA≥2时,ZA1为IDSA1,QA;IDSA1,QA的获取方法包括:
S310,获取三元组(IDAA1,E0,IDAA2)的编号IDSA1,2,该编号用于唯一标识(IDAA1,E0,IDAA2),E0为第一预设关系;如果QA=2,IDSA1,QA为IDSA1,2;如果QA>2,则进入S320;
S320,获取三元组(IDSA1,QA-1,E0,IDAAQA)的编号IDSA1,QA,该编号用于唯一标识(IDSA1,QA-1,E0,IDAAQA);IDSA1,QA-1为获取的(IDSA1,QA-2,E0,IDAAQA-1)的编号,该编号用于唯一标识(IDSA1,QA-2,E0,IDAAQA-1),IDSA1,QA-2为采用和获取IDSA1,QA-1相同的方法获取的三元组的编号;
S300中,所述根据IDAA获取目标文本的主语对应的组成实体ZA,包括:如果A中存在实体不在TAA中,且A中不在TAA中实体的数量PA≥2,则ZA为三元组(ZA1,E0,IDNPA)的编号,该编号用于唯一标识(ZA1,E0,IDNPA),IDNPA的获取方法包括:
S311,获取三元组(NA1,E0,NA2)的编号IDN2,该编号用于唯一标识(NA1,E0,NA2),NA1为A中第1个不在TAA中的实体,NA2为A中第2个不在TAA中的实体,如果PA=2,IDNPA为IDN2;如果PA>2,则进入S312;
S312,获取三元组(IDNPA-1,E0,NAPA)的编号IDNPA,该编号用于唯一标识(IDNPA-1,E0,NAPA),NAPA为A中第PA个不在TAA中的实体;IDNPA-1为(IDNPA-2,E0,NAPA-1)的编号,该编号用于唯一标识(IDNPA-2,E0,NAPA-1),IDNPA-2为采用和获取IDNPA-1相同的方法获取的三元组的编号;
S300中,所述根据IDAA获取目标文本的主语对应的组成实体ZA,包括:如果A中存在实体不在TAA中,且PA=1,则ZA为三元组(ZA1,E0,NA1)的编号,该编号用于唯一标识(ZA1,E0,NA1);
S400中,所述根据IDBB获取目标文本的宾语对应的组成实体ZB,包括:如果B中实体均在TBB中,则ZB=ZB1,ZB1为目标文本的宾语对应的第一组成实体;当QB=1时,ZB1为IDBB1;当QB≥2时,ZB1为IDSB1,QB;IDSB1,QB的获取方法包括:
S410,获取三元组(IDBB1,E1,IDBB2)的编号IDSB1,2,该编号用于唯一标识(IDBB1,E1,IDBB2),E1为第二预设关系;如果QB=2,IDSB1,QB为IDSB1,2;如果QB>2,则进入S420;
S420,获取三元组(IDSB1,QB-1,E1,IDBBQB)的编号IDSB1,QB,该编号用于唯一标识(IDSB1,QB-1,E1,IDBBQB);IDSB1,QB-1为(IDSB1,QB-2,E1,IDBBQB-1)的编号,该编号用于唯一标识(IDSB1,QB-2,E1,IDBBQB-1),IDSB1,QB-2为采用和获取IDSB1,QB-1相同的方法获取的三元组的编号。
2.根据权利要求1所述的方法,其特征在于,所述第一预设关系用于指示对应的两实体为共主语关系。
3.根据权利要求1所述的方法,其特征在于,S500还包括:当TAA=∅且N≥2时,X1=IDA,N,IDA,N的获取方法包括:
S510,获取三元组(A1,E0,A2)的编号IDA,2,该编号用于唯一标识(A1,E0,A2),如果N=2,IDA,N为IDA,2;如果N>2,则进入S520;
S520,获取三元组(IDA,N-1,E0,AN)的编号IDA,N,该编号用于唯一标识(IDA,N-1,E0,AN);IDA,N-1为(IDA,N-2,E0,AN-1)的编号,该编号用于唯一标识(IDA,N-2,E0,AN-1),IDA,N-2为采用和获取IDA,N-1相同的方法获取的三元组的编号。
4.根据权利要求1所述的方法,其特征在于,所述第二预设关系用于指示对应的两实体为共宾语关系。
5.根据权利要求1所述的方法,其特征在于,S500还包括:当TBB=∅且M≥2时,X2=IDB,M,IDB,M的获取方法包括:
S511,获取三元组(B1,E1,B2)的编号IDB,2,该编号用于唯一标识(B1,E1,B2),如果M=2,IDB,M为IDB,2;如果M>2,则进入S521;
S521,获取三元组(IDB,M-1,E1,BM)的编号IDB,M,该编号用于唯一标识(IDB,M-1,E1,BM);IDB,M-1为(IDB,M-2,E1,BM-1)的编号,该编号用于唯一标识(IDB,M-2,E1,BM-1),IDB,M-2为采用和获取IDB,M-1相同的方法获取的三元组的编号。
CN202211565438.5A 2022-12-07 2022-12-07 一种基于知识图谱的文本处理方法 Active CN115577713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211565438.5A CN115577713B (zh) 2022-12-07 2022-12-07 一种基于知识图谱的文本处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211565438.5A CN115577713B (zh) 2022-12-07 2022-12-07 一种基于知识图谱的文本处理方法

Publications (2)

Publication Number Publication Date
CN115577713A CN115577713A (zh) 2023-01-06
CN115577713B true CN115577713B (zh) 2023-03-17

Family

ID=84590059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211565438.5A Active CN115577713B (zh) 2022-12-07 2022-12-07 一种基于知识图谱的文本处理方法

Country Status (1)

Country Link
CN (1) CN115577713B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699663B (zh) * 2013-12-27 2017-02-08 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN110347798B (zh) * 2019-07-12 2021-06-01 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解***
CN111639171B (zh) * 2020-06-08 2023-10-27 吉林大学 一种知识图谱问答方法及装置
CN112906368B (zh) * 2021-02-19 2022-09-02 北京百度网讯科技有限公司 行业文本增量方法、相关装置及计算机程序产品
CN113407678B (zh) * 2021-06-30 2023-08-01 竹间智能科技(上海)有限公司 知识图谱构建方法、装置和设备

Also Published As

Publication number Publication date
CN115577713A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
Karian et al. Fitting statistical distributions: the generalized lambda distribution and generalized bootstrap methods
National Research Council et al. The evaluation of forensic DNA evidence
CN106372072B (zh) 一种基于位置的移动社会网络用户关系的识别方法
US10296710B2 (en) Family networks
CN107633060B (zh) 一种信息处理方法及电子设备
Windham et al. Chromosome studies of cheilanthoid ferns (Pteridaceae: Cheilanthoideae) from the western United States and Mexico
O'Fallon et al. A continuous-state coalescent and the impact of weak selection on the structure of gene genealogies
Kell et al. Validation of stock assessment methods: is it me or my model talking?
CN114676704B (zh) 句子情感分析方法、装置、设备以及存储介质
CN111949802A (zh) 医学领域知识图谱的构建方法、装置、设备及存储介质
CN110069776B (zh) 客户满意度评估方法及装置、计算机可读存储介质
Duchen et al. On the effect of asymmetrical trait inheritance on models of trait evolution
CN111897961A (zh) 一种宽度神经网络模型的文本分类方法及相关组件
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN112906349A (zh) 一种数据标注的方法、***、设备及可读存储介质
CN111079433B (zh) 一种事件抽取方法、装置及电子设备
CN115577713B (zh) 一种基于知识图谱的文本处理方法
Firneno Jr et al. Delimitation despite discordance: Evaluating the species limits of a confounding species complex in the face of mitonuclear discordance
CN113486166B (zh) 智能客服机器人的构建方法、装置、设备以及存储介质
Parag et al. Exact Bayesian inference for phylogenetic birth-death models
Roca et al. Genomic inferences from Afrotheria and the evolution of elephants
CN111177771A (zh) 一种人员简历的生成方法及装置
Armero et al. Two-stage Bayesian approach for GWAS with known genealogy
Freeman et al. On the use of timed species counts to estimate avian abundance indices in species‐rich communities
Sahoo et al. Long runs of homozygosity are correlated with marriage preferences across global population samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant