CN115062137B - 一种基于主动学习确定异常文本的数据处理*** - Google Patents
一种基于主动学习确定异常文本的数据处理*** Download PDFInfo
- Publication number
- CN115062137B CN115062137B CN202210976431.6A CN202210976431A CN115062137B CN 115062137 B CN115062137 B CN 115062137B CN 202210976431 A CN202210976431 A CN 202210976431A CN 115062137 B CN115062137 B CN 115062137B
- Authority
- CN
- China
- Prior art keywords
- text
- argument
- priority
- obtaining
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及文本处理领域,提供了一种基于主动学习确定异常文本的数据处理***,***包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理时,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断时,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。
Description
技术领域
本发明涉及文本处理领域,特别是涉及一种基于主动学习确定异常文本的数据处理***。
背景技术
现有的获取异常文本的方法,大多是通过抽取文本中的事件得到的,现有的抽取事件的方法大多为将文本输入到预先训练好的事件抽取模型中,通过事件抽取模型获取待抽取文本中的数据的类别标签,其中,文本中的类别标签包括文本中存在的事件触发词类型标签和事件论元类型的标签。
但上述方法也存在以下技术问题:
在对文本进行处理的过程中,使用一种事件抽取模型抽取出所有的文本单元的类别标签,存在触发词和论元抽取错误的的情况,在对异常文本进行判断的过程中,只能通过一种方式根据从文本中抽取出事件的触发词或者论元确定出是否为异常文本,对异常文本的判断准确度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
一种基于主动学习确定异常文本的数据处理***,***包括:数据库、处理器和存储有计算机程序的存储器,其中,数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量。
S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词。
S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={C1 ij,……,Ce ij,……,Cf ij},Ce ij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量。
S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij={D1 ij,……,De ij,……,Df ij},De ij为Ce ij与Bij之间的论元角色。
S500、根据Bi,获取Hi对应的第一优先级F1 i。
S600、当F1 i<F1 0,确定Hi为异常文本,其中,F1 0为预设的第一优先级阈值。
S700、当F1 i≥F1 0,执行S800。
S800,根据Ci,获取Hi对应的第二优先级F2 i。
S900、当F2 i<F2 0,确定Hi为异常文本,其中,F2 0为预设的第二优先级阈值。
S1000、当F2 i≥F2 0,执行S1100。
S1100、根据Di,获取Hi对应的第三优先级F3 i。
S1200、当F3 i<F3 0,确定Hi为异常文本,其中,F3 0为预设的第三优先级阈值。
S1300、当F3 i≥F3 0,确定Hi为正常文本。
本发明至少具有以下有益效果:
本发明提供了一种基于主动学习确定异常文本的数据处理***,***包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元及对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理的过程中,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断的过程中,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于主动学习确定异常文本的数据处理***执行计算机程序的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本实施例提供了一种基于主动学习确定异常文本的数据处理***,所述***包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤,如图1所示:
S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量,其中,本领域技术人员知晓,通过文本获取事件摘要的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词,其中,本领域技术人员知晓,通过事件摘要获取触发词的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={C1 ij,……,Ce ij,……,Cf ij},Ce ij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量,其中,本领域技术人员知晓,通过事件摘要获取论元的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij={D1 ij,……,De ij,……,Df ij},De ij为Ce ij与Bij之间的论元角色,其中,本领域技术人员知晓,通过事件摘要获取论元角色的现有技术中任一方法均属于本实施例的保护范围,在此不再赘述。
S500、根据Bi,获取Hi对应的第一优先级F1 i。
具体地,在S500中还包括如下步骤:
S501、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
S503、将A'ij输入至预设的第一学习模型中,获取A'ij对应的第一概率集Gij={G1 ij,……,Gr ij,……,Gs(j) ij},Gr ij={Gr1 ij,……,Grx ij,……,Grp ij},Grx ij为A'r ij对应的第x类触发词的概率值,可以理解为:文本字符A'r ij为x类触发词的概率,x=1……p,p为触发词的类型数量。
具体地,∑p x=1(Grx ij)=1。
S505、当Grx ij对应的触发词的类型为第一非标准类型时,将从Gr ij中删除Grx ij,构建Gr ij对应的第一目标概率列表G'r ij={G'r1 ij,……,G'rα ij,……,G'rp-1 ij},G'rα ij为A'r ij对应的第α类触发词的概率值,可以理解为:文本字符A'r ij为α类触发词的概率,α=1……p-1。
具体地,所述第一非标准类型为非预设的触发词的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设触发词的类型。
S507、当G'rα ij≥G0时,获取Bij对应的第一中间数据列表G0 ij={G01 ij,……,G0 β ij,……,G0γ ij},G0β ij为Bij对应的第β个第一目标字符的概率值,可以理解为:Bij为第β个第一目标字符的概率,β=1……γ,γ为Bij对应的第一目标字符的数量,其中,G0为预设的第一概率阈值。
具体地,第一目标字符可以理解为:在A'ij中满足当G'rα ij≥G0时的文本字符。
具体地,G0的取值范围为0.5-0.6。
S509、根据G0 ij,获取F1 i。
进一步的,F1 i符合如下条件:
上述,在确定事件摘要的触发词时,采用第一学习模型,将文本中的所有事件的触发词抽取出来,能够准确无误的获取到事件的触发词,提高了模型抽取事件的准确度,进而可以准确的通过触发词的概率,确定文本是否为异常文本。
在另一个具体的实施例中,在S509中还通过如下步骤获取F1 i:
S5091、根据G0 ij,获取Bij对应的优先级F1 ij,其中,F1 ij符合如下条件:
S5093、根据F1 ij,获取Bij对应的第一类触发词的优先级列表F'ij={F'1 ij,……,F't ij,……,F'k ij},F't ij为Bij对应的第t个第一类触发词的优先级,t=1……k,k为Bij对应的第一类触发词的数量。
S5095、根据F'ij,获取Hi对应的第一优先级列表,其中,任一Hi对应的第一优先级F1符合如下条件:
S5097、遍历所述第一优先级列表且将所述第一优先级列表中最小的第一优先级作为F1 i。
进一步的,Bij对应的第一类触发词包括Bij和在Bi中与Bij对应的触发词的类型一致的触发词。
相较于上述实施例,在本实施例中在确定事件摘要的触发词时,对获取到的事件摘要的触发词进行了分类处理,根据触发词的类型确定出任一触发词的类型的概率值,进而确定触发词的类型。
S600、当F1 i<F1 0,确定Hi为异常文本,其中,F1 0为预设的第一优先级阈值。
S700、当F1 i≥F1 0,执行S800。
具体地,F1 0的取值范围为0.8-1。
S800,根据Ci,获取Hi对应的第二优先级F2 i。
具体地,在S800中还包括如下步骤:
S801、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
S803、将A'ij输入至预设的第二学习模型中,获取A'ij对应的第二概率集Uij={U1 ij,……,Ur ij,……,Us(j) ij},Ur ij={Ur1 ij,……,Ury ij,……,Urq ij},Ury ij为A'r ij对应的第y类论元的概率值,可以理解为:文本字符A'r ij为y类论元的概率,y=1……q,q为论元的类型数量。
具体地,∑q y=1(Ury ij)=1。
S805、当Ury ij对应的论元的类型为第二非标准类型时,将从Ur ij中删除Ury ij,构建Ur ij对应的第二目标概率列表U'r ij={U'r1 ij,……,U'rδ ij,……,U'rq-1 ij},U'rδ ij为A'r ij对应的第δ类论元的概率值,可以理解为:文本字符A'r ij为δ类论元的概率,δ=1……q-1。
具体地,所述第二非标准类型为非预设的论元的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设论元的类型。
S807、当U'rδ ij≥U0时,获取Ce ij对应的第二中间数据列表Ue0 ij={Ue01 ij,……,Ue0 ε ij,……,Ue0η ij},Ue0η ij为Ce ij对应的第ε个第二目标字符的概率值,可以理解为:Ce ij为第ε个第二目标字符的概率,ε=1……η,η为Ce ij对应的第二目标字符的数量,其中,U0为预设的第二概率阈值。
具体地,所述第二目标字符可以理解为:在A'ij中满足当U'rδ ij≥U0时的文本字符。
具体地,U0的取值范围为0.5-0.6。
S809、根据Ue0 ij,获取F2 i。
进一步的,F2 i符合如下条件:
上述,在确定事件摘要的论元时,采用第二学习模型,将文本中的所有事件的论元抽取出来,能够准确无误的获取到事件的论元,提高了模型抽取事件的准确度,进而可以准确的通过论元的概率,确定文本是否为异常文本。
在一个具体的实施例中,在S809中还通过如下步骤获取F1 i:
S8091、根据Ue0 ij,获取Cij对应的第一中间优先级列表W2 ij={W12 ij,……,We2 ij,……,Wf2 ij},We2 ij为Ce ij对应的第一中间优先级,其中,We2 ij符合如下条件:
S8093、遍历W2 ij且从W2 ij中获取最小的第一中间优先级,构建Ci对应的第二中间优先级列表。
S8095、遍历所述第二中间优先级列表且将所述第二中间优先级列表中最小的第二中间优先级作为F2 i。
相较于上述实施例,在本实施例中在确定事件摘要的论元时,对获取到的事件摘要的论元进行了分类处理,根据论元的类型确定出任一论元的类型的概率值,进而确定论元的类型。
在另一个具体的实施例中,在S809中还通过如下步骤获取F2 i:
S8091、根据Ue0 ij,获取Ci对应论元优先级列表W2 i={W2 i1,……,W2 ij,……,W2 in(i)},W2 ij={W12 ij,……,We2 ij,……,Wf2 ij},We2 ij为Ce ij对应的第一中间优先级,其中,We2 ij符合如下条件:
S8093、根据We2 ij,获取Ce ij对应的第二类论元的优先级列表W'e ij={W'e1 ij,……,W'ev ij,……,W'eh ij},W'ev ij为Ce ij对应的第v个第一类论元的优先级,v=1……h,h为Ce ij对应的第一类论元的数量。
S8095、根据W'ij,获取Hi对应的第二优先级列表,其中,任一Hi对应的第二优先级F2符合如下条件:
S8097、遍历所述第二优先级列表且将所述第二优先级列表中最小的第二优先级作为F2 i。
相较于上述实施例,在本实施例中在确定事件摘要的论元时,对获取到的事件摘要的论元,按照所属初始文本进行划分处理,之后再对初始文本中的论元进行分类处理,进而确定文本是否为异常文本。
进一步的,Ce ij对应的第二类论元包括Ce ij和在Ci中与Ce ij对应的论元的类型一致的论元。
S900、当F2 i<F2 0,确定Hi为异常文本,其中,F2 0为预设的第二优先级阈值。
S1000、当F2 i≥F2 0,执行S1100。
具体地,F2 0的取值范围为0.8-1。
S1100、根据Bi和Ci,获取Hi对应的第三优先级F3 0。
具体地,在S1100中还包括如下步骤:
S1101、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量。
S1103、将A'ij输入至预设的第三学习模型中,获取A'ij对应的第三概率集Lij={L1 ij,……,Lr ij,……,Ls(j) ij},Lr ij={Lr1 ij,……,Lrz ij,……,Lrg ij},Lrz ij为A'r ij对应的第z类论元角色的概率值,可以理解为:文本字符A'r ij为z类论元角色的概率,z=1……g,g为论元角色的类型数量。
具体地,∑g z=1(Lrz ij)=1。
S1105、当Lrz ij对应的论元角色的类型为第三非标准类型时,将从Lr ij中删除Lrz ij,构建Lr ij对应的第三目标概率列表L'r ij={L'r1 ij,……,L'rθ ij,……,L'rg-1 ij},L'rθ ij为A'r ij对应的第θ类论元的概率值,可以理解为:文本字符A'r ij为θ类论元角色的概率,θ=1……g-1。
具体地,所述第三非标准类型为非预设的论元角色的类型,其中,本领域技术人员知晓,可以根据实际需求设置预设论元角色的类型。
S1107、当L'rθ ij≥L0时,获取De ij对应的第三中间数据列表Le0 ij={Le01 ij,……,Le0 ψ ij,……,Le0η ij},Le0ψ ij为De ij对应的第ψ个第三目标字符的概率值,可以理解为:De ij为第ψ个第三目标字符的概率,ψ=1……ξ,ξ为De ij对应的第三目标字符的数量,其中,De ij为Ce ij与Bij之间的论元角色,L0为预设的第三概率阈值。
具体地,所述第三目标字符可以理解为:在A'ij中满足当L'rθ ij≥L0时的文本字符。
具体地,L0的取值范围为0.5-0.6。
S1109、根据Le0 ij,获取F3 i。
进一步的,F3 i符合如下条件:
上述,在确定事件摘要的论元角色时,采用第三学习模型,将文本中的所有事件的论元角色抽取出来,能够准确无误的获取到事件的论元角色,提高了模型抽取事件的准确度,进而可以准确的通过论元角色的概率,确定文本是否为异常文本。
在一个具体的实施例中,在S1109中还通过如下步骤获取F3 i:
S11091、根据Le0 ij,获取Dij对应的第三中间优先级列表T2 ij={T12 ij,……,Te2 ij,……,Tf2 ij},Te2 ij为De ij对应的第三中间优先级,其中,Te2 ij符合如下条件:
S11093、遍历T2 ij且从T2 ij中获取最小的第三中间优先级,构建Di对应的第四中间优先级列表。
S11095、遍历所述第四中间优先级列表且将所述第四中间优先级列表中最小的第四中间优先级作为F3 i。
相较于上述实施例,在本实施例中在确定事件摘要的论元角色时,对获取到的事件摘要的论元角色进行了分类处理,根据论元角色的类型确定出任一论元角色的类型的概率值,进而确定论元角色的类型。
在另一个具体的实施例中,在S1109中还通过如下步骤获取F3 i:
S11091、根据Le0 ij,获取Di对应论元角色优先级列表T2 i={T2 i1,……,T2 ij,……,T2 in(i)},T2 ij={T12 ij,……,Te2 ij,……,Tf2 ij},Te2 ij为De ij对应的第三中间优先级,其中,Te2 ij符合如下条件:
S11093、根据Te2 ij,获取De ij对应的第二类论元角色的优先级列表T'e ij={T'e1 ij,……,T'ed ij,……,T'el ij},T'ed ij为De ij对应的第d个第一类论元角色的优先级,d=1……l,l为Ce ij对应的第一类论元角色的数量。
S11095、根据T'ij,获取Hi对应的第三优先级列表,其中,任一Hi对应的第三优先级F3符合如下条件:
S11097、遍历所述第三优先级列表且将所述第三优先级列表中最小的第三优先级作为F3 i。
相较于上述实施例,在本实施例中在确定事件摘要的论元角色时,对获取到的事件摘要的论元角色,按照所属初始文本进行划分处理,之后再对初始文本中的论元角色进行分类处理,进而确定文本是否为异常文本。
进一步的,De ij对应的第二类论元角色包括De ij和在Di中与De ij对应的论元角色的类型一致的论元角色。
S1200、当F3 i<F3 0,确定Hi为异常文本,其中,F3 0为预设的第三优先级阈值。
S1300、当F3 i≥F3 0,确定Hi为正常文本。
具体地,F3 0的取值范围为0.8-1。
具体地,所述第一学习模型为针对触发词的主动学习模型,所述第二学习模型为针对论元的主动学习模型,所述第三学习模型为针对论元角色的主动学习模型,其中,本领域技术人员知晓,现有技术中任一主动学习模型均属于本实施例的保护范围,在此不再赘述。
优选地,G0=U0=L0=0.5,能够避免阈值设置过高,导致一些数据被删除,进而导致事件摘要的触发词、论元以及论元角色抽取遗漏,对异常文本判断错误。
优选地,F1 0取值为1,F2 0取值为0.9,F3 0取值为0.8,能够准确的抽取出触发词,避免针对触发词对论元和论元角色抽取错误或遗漏,能够更加准确的对异常文本进行判断。
本发明提供了一种基于主动学习确定异常文本的数据处理***,***包括:数据库、处理器和存储有计算机程序的存储器,数据库包括:初始文本列表,当计算机程序被处理器执行时,实现以下步骤:获取初始文本对应的事件摘要列表;获取事件摘要对应的触发词列表;获取触发词对应的论元集;获取论元及对应的论元角色集;根据事件摘要的触发词、论元和论元角色确定异常文本;可知,本发明一方面能够在对文本进行处理的过程中,使用三种学习模型分别抽取出文本中的触发词、论元以及论元角色;另一方面能够在对异常文本进行判断的过程中,通过不同的方式根据事件的触发词、论元以及论元角色确定出是否为异常文本,提高了确定异常文本的准确度。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。
Claims (6)
1.一种基于主动学习确定异常文本的数据处理***,其特征在于,所述***包括:数据库、处理器和存储有计算机程序的存储器,其中,所述数据库包括:初始文本列表H={H1,……,Hi,……,Hm},Hi为第i个初始文本,i=1……m,m为初始文本的数量,当所述计算机程序被处理器执行时,实现以下步骤:
S100、根据Hi,获取Hi对应的事件摘要列表Ai={Ai1,……,Aij,……,Ain(i)},Aij为Hi中第j个事件摘要,j=1……n(i),n(i)为Hi中的事件的数量;
S200、遍历Ai,获取Hi对应的触发词列表Bi={Bi1,……,Bij,……,Bin(i)},Bij为Aij对应的触发词;
S300、根据Bi,获取Bi对应的论元集Ci={Ci1,……,Cij,……,Cin(i)},Cij={C1 ij,……,Ce ij,……,Cf ij},Ce ij为Bij对应的第e个论元,e=1……f,f为Bij对应的论元的数量;
S400、根据Bi和Ci,获取Ci对应的论元角色集Di={Di1,……,Dij,……,Din(i)},Dij={D1 ij,……,De ij,……,Df ij},De ij为Ce ij与Bij之间的论元角色;
S500、根据Bi,获取Hi对应的第一优先级F1 i;其中,在S500中还包括如下步骤:
S501、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量;
S503、将A'ij输入至预设的第一学习模型中,获取A'ij对应的第一概率集Gij={G1 ij,……,Gr ij,……,Gs(j) ij},Gr ij={Gr1 ij,……,Grx ij,……,Grp ij},Grx ij为A'r ij对应的第x类触发词的概率值,x=1……p,p为触发词的类型数量;
S505、当Grx ij对应的触发词的类型为第一非标准类型时,将从Gr ij中删除Grx ij,构建Gr ij对应的第一目标概率列表G'r ij={G'r1 ij,……,G'rα ij,……,G'rp-1 ij},G'rα ij为A'r ij对应的第α类触发词的概率值,α=1……p-1;
S507、当G'rα ij≥G0时,获取Bij对应的第一中间数据列表G0 ij={G01 ij,……,G0β ij,……,G0 γ ij},G0β ij为Bij对应的第β个第一目标字符的概率值,β=1……γ,γ为Bij对应的第一目标字符的数量,其中,G0为预设的第一概率阈值;
S509、根据G0 ij,获取F1 i;其中,F1 i符合如下条件:
S600、当F1 i<F1 0,确定Hi为异常文本,其中,F1 0为预设的第一优先级阈值;
S700、当F1 i≥F1 0,执行S800;
S800,根据Ci,获取Hi对应的第二优先级F2 i;其中,在S800中还包括如下步骤:
S801、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量;
S803、将A'ij输入至预设的第二学习模型中,获取A'ij对应的第二概率集Uij={U1 ij,……,Ur ij,……,Us(j) ij},Ur ij={Ur1 ij,……,Ury ij,……,Urq ij},Ury ij为A'r ij对应的第y类论元的概率值,y=1……q,q为论元的类型数量;
S805、当Ury ij对应的论元的类型为第二非标准类型时,将从Ur ij中删除Ury ij,构建Ur ij对应的第二目标概率列表U'r ij={U'r1 ij,……,U'rδ ij,……,U'rq-1 ij},U'rδ ij为A'r ij对应的第δ类论元的概率值,δ=1……q-1;
S807、当U'rδ ij≥U0时,获取Ce ij对应的第二中间数据列表Ue0 ij={Ue01 ij,……,Ue0 ε ij,……,Ue0η ij},Ue0ε ij为Ce ij对应的第ε个第二目标字符的概率值,ε=1……η,η为Ce ij对应的第二目标字符的数量,其中,U0为预设的第二概率阈值;
S809、根据Ue0 ij,获取F2 i;其中,F2 i符合如下条件:
S900、当F2 i<F2 0,确定Hi为异常文本,其中,F2 0为预设的第二优先级阈值;
S1000、当F2 i≥F2 0,执行S1100;
S1100、根据Di,获取Hi对应的第三优先级F3 i;其中,在S1100中还包括如下步骤:
S1101、获取Aij对应的文本字符串A'ij=(A'1 ij,……,A'r ij,……,A's(j) ij),A'r ij为Aij中第r个文本字符,r=1……s(j),s(j)为Aij对应的文本字符的数量;
S1103、将A'ij输入至预设的第三学习模型中,获取A'ij对应的第三概率集Lij={L1 ij,……,Lr ij,……,Ls(j) ij},Lr ij={Lr1 ij,……,Lrz ij,……,Lrg ij},Lrz ij为A'r ij对应的第z类论元角色的概率值且∑g z=1(Lrz ij)=1;
S1105、当Lrz ij对应的论元角色的类型为第三非标准类型时,将从Lr ij中删除Lrz ij,构建Lr ij对应的第三目标概率列表L'r ij={L'r1 ij,……,L'rθ ij,……,L'rg-1 ij},L'rθ ij为A'rij对应的第θ类论元的概率值,θ=1……g-1;
S1107、当L'rθ ij≥L0时,获取De ij对应的第三中间数据列表Le0 ij={Le01 ij,……,Le0 ψ ij,……,Le0η ij},Le0ψ ij为De ij对应的第ψ个第三目标字符的概率值,ψ=1……ξ,ξ为De ij对应的第三目标字符的数量,其中,De ij为Ce ij与Bij之间的论元角色,L0为预设的第三概率阈值;
S1109、根据Le0 ij,获取F3 i;其中,F3 i符合如下条件:
S1200、当F3 i<F3 0,确定Hi为异常文本,其中,F3 0为预设的第三优先级阈值;
S1300、当F3 i≥F3 0,确定Hi为正常文本。
2.根据权利要求1所述的基于主动学习确定异常文本的数据处理***,其特征在于,在S509中还通过如下步骤获取F1 i:
S5091、根据G0 ij,获取Bij对应的优先级F1 ij,其中,F1 ij符合如下条件:
S5093、根据F1 ij,获取Bij对应的第一类触发词的优先级列表F'ij={F'1 ij,……,F't ij,……,F'k ij},F't ij为Bij对应的第t个第一类触发词的优先级,t=1……k,k为Bij对应的第一类触发词的数量;
S5095、根据F'ij,获取Hi对应的第一优先级列表,其中,任一Hi对应的第一优先级F1符合如下条件:
S5097、遍历所述第一优先级列表且将所述第一优先级列表中最小的第一优先级作为F1 i。
3.根据权利要求2所述的基于主动学习确定异常文本的数据处理***,其特征在于,Bij对应的第一类触发词包括Bij和在Bi中与Bij对应的触发词的类型一致的触发词。
5.根据权利要求1所述的基于主动学习确定异常文本的数据处理***,其特征在于,在S809中还通过如下步骤获取F2 i:
S8091、根据Ue0 ij,获取Ci对应论元优先级列表W2 i={W2 i1,……,W2 ij,……,W2 in(i)},W2 ij={W12 ij,……,We2 ij,……,Wf2 ij},We2 ij为Ce ij对应的第一中间优先级,其中,We2 ij符合如下条件:
S8093、根据We2 ij,获取Ce ij对应的第二类论元的优先级列表W'e ij={W'e1 ij,……,W'ev ij,……,W'eh ij},W'ev ij为Ce ij对应的第v个第一类论元的优先级,v=1……h,h为Ce ij对应的第一类论元的数量;
S8095、根据W'ij,获取Hi对应的第二优先级列表,其中,任一Hi对应的第二优先级F2符合如下条件:
S8097、遍历所述第二优先级列表且将所述第二优先级列表中最小的第二优先级作为F2 i。
6.根据权利要求5所述的基于主动学习确定异常文本的数据处理***,其特征在于,Ce ij对应的第二类论元包括Ce ij和在Ci中与Ce ij对应的论元的类型一致的论元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210976431.6A CN115062137B (zh) | 2022-08-15 | 2022-08-15 | 一种基于主动学习确定异常文本的数据处理*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210976431.6A CN115062137B (zh) | 2022-08-15 | 2022-08-15 | 一种基于主动学习确定异常文本的数据处理*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115062137A CN115062137A (zh) | 2022-09-16 |
CN115062137B true CN115062137B (zh) | 2022-11-04 |
Family
ID=83207380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210976431.6A Active CN115062137B (zh) | 2022-08-15 | 2022-08-15 | 一种基于主动学习确定异常文本的数据处理*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062137B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435697B (zh) * | 2023-12-21 | 2024-03-22 | 中科雨辰科技有限公司 | 一种获取核心事件的数据处理*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468433A (zh) * | 2021-09-02 | 2021-10-01 | 中科雨辰科技有限公司 | 目标事件抽取数据处理*** |
CN113704476A (zh) * | 2021-09-02 | 2021-11-26 | 中科雨辰科技有限公司 | 目标事件抽取数据处理*** |
CN113722462A (zh) * | 2021-09-02 | 2021-11-30 | 中科雨辰科技有限公司 | 目标论元信息抽取数据处理*** |
CN113722461A (zh) * | 2021-09-02 | 2021-11-30 | 中科雨辰科技有限公司 | 目标事件抽取数据处理*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507700A (zh) * | 2020-11-26 | 2021-03-16 | 北京百度网讯科技有限公司 | 事件抽取方法、装置、电子设备及存储介质 |
-
2022
- 2022-08-15 CN CN202210976431.6A patent/CN115062137B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468433A (zh) * | 2021-09-02 | 2021-10-01 | 中科雨辰科技有限公司 | 目标事件抽取数据处理*** |
CN113704476A (zh) * | 2021-09-02 | 2021-11-26 | 中科雨辰科技有限公司 | 目标事件抽取数据处理*** |
CN113722462A (zh) * | 2021-09-02 | 2021-11-30 | 中科雨辰科技有限公司 | 目标论元信息抽取数据处理*** |
CN113722461A (zh) * | 2021-09-02 | 2021-11-30 | 中科雨辰科技有限公司 | 目标事件抽取数据处理*** |
Non-Patent Citations (1)
Title |
---|
基于语义的中文事件触发词抽取联合模型;李培峰 等;《软件学报》;20160229;第27卷(第2期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115062137A (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111046152B (zh) | Faq问答对自动构建方法、装置、计算机设备及存储介质 | |
WO2021135910A1 (zh) | 基于机器阅读理解的信息抽取方法、及其相关设备 | |
US11900056B2 (en) | Stylistic text rewriting for a target author | |
US20230021852A1 (en) | Multi-Turn Dialogue Response Generation Via Mutual Information Maximization | |
WO2021212968A1 (zh) | 一种非结构化数据的处理方法、装置、设备及介质 | |
WO2020134657A1 (zh) | ***日志脱敏方法、脱敏***、计算机设备及存储介质 | |
US7016827B1 (en) | Method and system for ensuring robustness in natural language understanding | |
WO2022121178A1 (zh) | 文本纠错模型训练方法、识别方法、装置及计算机设备 | |
CN115048925B (zh) | 一种确定异常文本的数据处理*** | |
CN110232923B (zh) | 一种语音控制指令生成方法、装置及电子设备 | |
CN115062137B (zh) | 一种基于主动学习确定异常文本的数据处理*** | |
WO2022095375A1 (zh) | 事件脉络生成方法、装置、终端设备及存储介质 | |
WO2021004118A1 (zh) | 一种相关值确定方法及装置 | |
CN112131871A (zh) | 识别中文人名的方法、装置、设备及存储介质 | |
US20100125725A1 (en) | Method and system for automatically detecting keyboard layout in order to improve the quality of spelling suggestions and to recognize a keyboard mapping mismatch between a server and a remote user | |
US20110229036A1 (en) | Method and apparatus for text and error profiling of historical documents | |
CN113177405A (zh) | 基于bert的数据纠错方法、装置、设备及存储介质 | |
US20020156628A1 (en) | Speech recognition system, training arrangement and method of calculating iteration values for free parameters of a maximum-entropy speech model | |
CN114530145A (zh) | 语音识别结果纠错方法及装置、计算机可读存储介质 | |
CN114676755A (zh) | 基于图卷积网络的无监督域自适应的分类方法 | |
CN114817523A (zh) | 摘要生成方法、装置、计算机设备和存储介质 | |
CN110543634B (zh) | 语料数据集的处理方法、装置、电子设备及存储介质 | |
CN107729817B (zh) | 一种基于规则的划分识别多候选项可信度的方法 | |
CN111597310A (zh) | 一种敏感内容检测方法、装置、设备、介质 | |
CN117332768B (zh) | 一种获取文本生成模板的数据处理*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |