CN110134940B - 一种训练文本识别模型、文本连贯性的方法及装置 - Google Patents

一种训练文本识别模型、文本连贯性的方法及装置 Download PDF

Info

Publication number
CN110134940B
CN110134940B CN201910147725.6A CN201910147725A CN110134940B CN 110134940 B CN110134940 B CN 110134940B CN 201910147725 A CN201910147725 A CN 201910147725A CN 110134940 B CN110134940 B CN 110134940B
Authority
CN
China
Prior art keywords
text
training
characteristic information
recognized
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910147725.6A
Other languages
English (en)
Other versions
CN110134940A (zh
Inventor
罗彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Electrical Engineering of CAS
Original Assignee
Institute of Electrical Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Electrical Engineering of CAS filed Critical Institute of Electrical Engineering of CAS
Priority to CN201910147725.6A priority Critical patent/CN110134940B/zh
Publication of CN110134940A publication Critical patent/CN110134940A/zh
Application granted granted Critical
Publication of CN110134940B publication Critical patent/CN110134940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种训练文本识别模型、文本连贯性识别方法及装置,其中训练文本识别模型的方法包括:获取第一训练文本和第二训练文本,第二训练文本为与第一训练文本对应的参考训练文本;从第一训练文本中提取第一训练特征信息,和,从第二训练文本中提取第二训练特征信息,第一训练特征信息为语序错乱的文本特征,第二训练特征信息为语序连贯的文本特征;利用第一训练特征信息以及第二训练特征信息对支持向量机模型进行训练,得到文本识别模型。本发明通过训练文本特征信息的提取形成文本识别模型可快速识别待识别文本的连贯性,明显提高了文本连贯性的识别效率,可替代人工识别文本连贯性,进而减少了人工大量的精力。

Description

一种训练文本识别模型、文本连贯性的方法及装置
技术领域
本发明涉及文本识别技术领域,具体涉及一种训练文本识别模型、文本连贯性识别的方法及装置。
背景技术
文本连贯性是指语句之间的自然语义联系,即整个话语活动中各成分间、各层次间表现出来的某种一致的指向性。文本连贯性对衡量文章或短文是否表达清楚或存在语句逻辑关联性具有重要作用。
目前现有的文本连贯性通常利用人工对整段文章或整段对话进行连贯性识别,虽然,人工识别文本连贯性的准确性较高,但是由于人工识别需要耗费大量的时间,因此,人工识别文本连贯性会消耗人工大量的精力,并且其识别效率也较低。
发明内容
有鉴于此,本发明实施例提供了一种训练文本识别模型的方法,以解决现有人工识别文本连贯性会消耗人工大量的精力,并且其识别效率也较低的问题。
根据第一方面,本发明实施例提供了一种训练文本识别模型的方法,包括:
获取第一训练文本和第二训练文本,所述第二训练文本为与所述第一训练文本对应的参考训练文本;
从所述第一训练文本中提取第一训练特征信息,和,从所述第二训练文本中提取第二训练特征信息,所述第一训练特征信息为语序错乱的文本特征,所述第二训练特征信息为语序连贯的文本特征;
利用所述第一训练特征信息以及所述第二训练特征信息对支持向量机模型进行训练,得到文本识别模型。
结合第一方面,在第一方面第一实施方式中,所述从所述第一训练文本中提取第一训练特征信息,和,从所述第二训练文本中提取第二训练特征信息的步骤还包括:
对所述第一训练文本进行分词得到第一分词结果,和,对所述第二训练文本进行分词得到第二分词结果;
根据所述第一分词结果,获取所述第一训练文本中的多个实体名词,和,根据所述第二分词结果,获取所述第二训练文本中的多个实体名词;
确认所述第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,确认所述第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型;
根据所述第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到所述第一训练文本的第一变换矩阵,和,根据所述第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到所述第二训练文本的第二变换矩阵;
根据所述第一变换矩阵,计算所述第一训练文本中的每种类型的语句结构的第一概率矩阵得到所述第一训练特征信息,和,根据第二变换矩阵,计算所述第二训练文本中的每种类型的语句结构的第二概率矩阵得到所述第二训练特征信息。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述对所述第一训练文本进行分词得到第一分词结果,和,对所述第二训练文本进行分词得到第二分词结果的步骤还包括:
识别所述第一训练文本中的每个词语的词性和/或每个语句的语句结构得到所述第一分词结果,和,识别所述第二训练文本中的每个词语的词性和/或每个语句的语句结构得到所述第二分词结果。
结合第一方面第一实施方式,在第一方面第三实施方式中,所述根据所述第一变换矩阵,计算所述第一训练文本中的每种类型的语句结构的第一概率矩阵得到所述第一训练特征信息,和,根据第二变换矩阵,计算所述第二训练文本中的每种类型的语句结构的第二概率矩阵得到所述第二训练特征信息的步骤还包括:
统计所述第一训练文本的每种类型的语句结构的第一数量,和,统计所述第二训练文本的每种类型的语句结构的第二数量;
统计所述第一训练文本的多种类型的语句结构的第三数量,和,统计所述第二训练文本的每种类型的语句结构的第四数量;
根据所述第一数量和所述第三数量,计算所述第一数量和所述第三数量的比例得到所述第一概率矩阵,和,根据所述第二数量和所述第四数量,计算所述第二数量和所述第四数量的比例得到所述第二概率矩阵。
结合第一方面,在第一方面第四实施方式中,所述利用所述第一训练特征信息以及所述第二训练特征信息对支持向量机模型进行训练,得到文本识别模型的步骤还包括:
将所述第一训练特征信息和所述第二训练特征信息输入至所述支持向量机模型中;
通过将第一训练特征信息与第二训练特征信息进行比对评分得到所述文本识别模型。
根据第二方面,本发明实施例提供了一种识别文本连贯性的方法,包括:
获取待识别文本和语序连贯文本,所述语序连贯文本为与所述待识别文本对应的参考文本;
根据所述待识别文本生成的第一特征信息,和,根据所述语序连贯文本生成第二特征信息;
通过将所述第一特征信息以及所述第二特征信息输入至所述的文本识别模型以得到所述待识别文本对应的结果信息,其中,所述结果信息用于识别所述待识别文本是否具有连贯性。
结合第二方面,在第二方面第一实施方式中,所述根据所述待识别文本生成的第一特征信息,和,根据所述语序连贯文本生成第二特征信息的步骤还包括:
对所述待识别文本进行分词得到第一分词结果,和,对所述语序连贯文本进行分词得到第二分词结果;
根据所述第一分词结果,获取所述第一训练文本中的多个实体名词,和,根据所述第二分词结果,获取所述第二训练文本中的多个实体名词;
确认所述待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,根据所述第二分词结果,确认所述语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型;
根据所述待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到所述待识别文本的第一变换矩阵,和,根据所述语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到所述语序连贯文本的第二变换矩阵;
根据所述第一变换矩阵,计算所述待识别文本中的每种类型的语句结构的第一概率矩阵得到所述第一特征信息,和,根据第二变换矩阵,计算所述语序连贯文本中的每种类型的语句结构的第二概率矩阵得到所述第二特征信息。
根据第三方面,本发明实施例提供了一种训练文本识别模型的装置,包括:
第一获取模块,用于获取第一训练文本和第二训练文本,所述第二训练文本为与所述第一训练文本对应的参考训练文本;
提取模块,用于从所述第一训练文本中提取第一训练特征信息,和,从所述第二训练文本中提取第二训练特征信息,所述第一训练特征信息为语序错乱的文本特征,所述第二训练特征信息为语序连贯的文本特征;
训练模块,用于利用所述第一训练特征信息以及所述第二训练特征信息对支持向量机模型进行训练,得到文本识别模型。
根据第四方面,本发明实施例提供了一种识别文本连贯性的装置,包括:
第二获取模块,用于获取待识别文本和语序连贯文本,所述语序连贯文本为与所述待识别文本对应的参考文本;
生成模块,用于根据所述待识别文本生成的第一特征信息,和,根据所述语序连贯文本生成第二特征信息;
结果确定模块,,用于通过文本识别模型以得到所述待识别文本对应的结果信息,其中,所述结果信息用于识别所述待识别文本是否具有连贯性。
根据第五方面,本发明实施例提供一种存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面或者第一方面的任意一种实施方式中所述的训练文本识别模型的方法;或,现第二方面或者第二方面的任意一种实施方式中所述的识别文本连贯性的方法。
根据第六方面,本发明实施例提供了一种文本识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面或者第一方面的任意一种实施方式中所述的训练文本识别模型的方法;或,实现第二方面或者第二方面的任意一种实施方式中所述的识别文本连贯性的方法。
本发明公开一种训练文本识别模型、文本连贯性识别方法及装置,其中训练文本识别模型的方法包括:获取第一训练文本和第二训练文本,第二训练文本为与第一训练文本对应的参考训练文本;从第一训练文本中提取第一训练特征信息,和,从第二训练文本中提取第二训练特征信息,第一训练特征信息为语序错乱的文本特征,第二训练特征信息为语序连贯的文本特征;利用第一训练特征信息以及第二训练特征信息对支持向量机模型进行训练,得到文本识别模型。本发明通过训练文本特征信息的提取形成文本识别模型可快速识别待识别文本的连贯性,明显提高了文本连贯性的识别效率,可替代人工识别文本连贯性,进而减少了人工大量的精力。
本发明提供一种训练文本识别模型、文本连贯性识别方法及装置,其中文本连贯性识别的方法,包括:获取待识别文本和语序连贯文本,语序连贯文本为与待识别文本对应的参考文本;根据待识别文本生成的第一特征信息,和,根据语序连贯文本生成第二特征信息;通过将第一特征信息以及第二特征信息输入至文本识别模型以得到待识别文本对应的结果信息,其中,结果信息用于识别待识别文本是否具有连贯性。本发明通过向文本识别模型中输入待识别文本的第一特征信息以及与其对应的语序连贯文本的第二特征信息,形成文本识别模型可快速识别待识别文本的连贯性,明显提高了文本连贯性的识别效率,可替代人工识别文本连贯性,进而减少了人工大量的精力。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中训练文本识别模型的方法的第一流程图;
图2为本发明实施例中训练文本识别模型的方法的第二流程图;
图3A为本发明实施例中识别第一训练文本的示意图;
图3B为本发明实施例中识别第二训练文本的示意图;
图4为本发明实施例中训练文本识别模型的方法的第三流程图;
图5为本发明实施例中训练文本识别模型的方法的第五流程图;
图6为本发明实施例中识别文本连贯性的方法的第一流程图;
图7为本发明实施例中识别文本连贯性的方法的第二流程图;
图8为本发明实施例中训练文本识别模型的装置的结构框图;
图9为本发明实施例中识别文本连贯性的装置的结构框图;
图10为本发明实施例中识别文本设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供一种训练文本识别模型的方法,如图1所示,包括:
步骤S1:获取第一训练文本和第二训练文本,第二训练文本为与第一训练文本对应的参考训练文本。此处的第一训练文本代表多个训练文本组成的训练文本集合,每个第一训练文本都分别对应一个参考训练文本,参考训练文本即为第二训练文本。例如:第一训练文本为5个,第二训练文本也为5个,每个第一训练文本分别对应一个第二训练文本。具体地,例如:第一训练文本为100字的小散文,则第二训练文本为该100字小散文的参考文本,第二训练文本中的100字小散文通常用来验证第一训练文本中的100字小散文的连贯性;例如;第一训练文本为500字的历史记录,则第二训练文本为该500字的历史记录的参考文本,第二训练文本中的500字的历史记录通常为了验证第一训练文本中500字的历史记录的连贯性;例如:第一训练文本为10000字的人物撰写记录,则第二训练文本为该10000字的人物撰写记录的参考文本,第二训练文本中的10000字的人物撰写为了验证第一训练文本中的10000字的人物撰写的连贯性;例如:第一训练文本为50字的歌词,则第二训练文本为该50字歌词的参考文本,第二训练文本中的50字的歌词为了验证第一训练文本中的50字歌词的连贯性;例如:第五训练文本为60字的英文介绍,则第二训练文本为该60字的英文介绍的参考文本,第二训练文本中的60字的英文介绍为了验证第一训练文本中60字的英文介绍的连贯性。因此,本实施例中的第一训练文本和第二训练文本均是成对且对应出现,可表示同一篇文本,只不过第二训练文本作为该篇文本的标准连贯性文本。
步骤S2:从第一训练文本中提取第一训练特征信息,和,从第二训练文本中提取第二训练特征信息,第一训练特征信息为语序错乱的文本特征,第二训练特征信息为语序连贯的文本特征。第一训练特征信息来自第一训练文本,通常代表通语序不连贯的文本特征信息,由于第一训练文本与第二训练文本对应,所以,第二训练特征信息来自第二训练文本,通常代表语序连贯的文本特征信息,与第一训练特征信息相对应。例如:第二训练文本为如下的60字的英文介绍,其作为标准连贯性的参考文本,“Hello!My name is ChenDanqing.My English name is Joy.I'm 14years old.I'm a happy girl.I have ahappy family.My father and my mother are both office workers.They're busy.Butat weekends,they always cook nice food for me.I'm happy in the family.I lovemy parents and they love me very much.”如果将该60字的英文介绍顺序打乱可作为第一训练文本,从语序错乱的第一训练文本的60字英文介绍中提取第一训练特征信息,和,从语序连贯的第二训练文本的60字英文介绍中提取第二训练特征信息。
在一具体实施例中,如图2所示,上述步骤S2在执行的过程中可包括如下步骤:
步骤S21:对第一训练文本进行分词得到第一分词结果,和,对第二训练文本进行分词得到第二分词结果。此处的分词主要是利用分词工具识别语句结构或词语的词性,将其进行分词。具体地,识别第一训练文本中的每个词语的词性和/或每个语句的语句结构得到第一分词结果,例如:第一训练文本中的一个语句为I very much like this fish,通过识别每个词语的词性对其进行分词得到的第一分词结果为人称代名词、副词、动词和名词,其分别对应的句子成分为主语、状语、谓语、宾语。例如:第一训练文本中一个语句为Shesaid she would be a doctor in the future,通过识别该语句的语句结构对其进行分词得到的第一分词结果为主句+从句,对She said she would be a doctor in the future,对这句话进行详细分词,再通过识别每个词语的词性对其进行分词得到的第一分词结果为主句中的人称代词、主句中的动词、从句中的人称代词、从句中的动词、从句中的名词、从句中的名词,其分别对应的句子成分为主句的主语、主句中的谓语、从句中的主语、从句中的谓语、从句中的宾语。第二训练文本的分词方式与第一训练文本的分词方式相同,在此不再赘述。
步骤S22:根据第一分词结果,获取第一训练文本中的多个实体名词,和,根据第二分词结果,获取第二训练文本中的多个实体名词。在上述步骤S21中,例如:对第一训练文本中的一个语句为I very much like this fish,通过识别每个词语的词性对其进行分词得到的第一分词结果为人称代名词、副词、动词和名词,其分别对应的句子成分为主语、状语、谓语、宾语,根据该第一分词结果获取多个实体名词。
步骤S23:确认第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,确认第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型。
在一具体实施例中,确认第一训练文本中的每个实体名词在相邻的两语句中的语句结构类型的步骤S23。此处的语句结构类型是根据分析第一训练文本中的每个词语的词性并进行筛选后得到的实体名词,通过该实体名词在相邻的两语句中扮演的主语或宾语或表语或其它成分的语句结构。例如:将第一分词结果中作为实体名词的代名词和名词被提取出来,并将实体名词中的主语用A表示,实体名词中的其它成分或该实体名词在当前语句中未出现用B表示,实体名词中的宾语或表语用C表示。
对于第一训练文本中的一个语句为主句+从句,将主语中实体名词中的主语用AA表示,主句中实体名词中的其它成分或该实体名词在当前语句中未出现用AB表示,主句中实体名词中的宾语或表语用AC表示,将从句中实体名词中的主语用CA表示,从句中实体名词中的其它成分或该实体名词在当前语句中未出现用CB表示,从句中实体名词中的宾语或表语用CC表示,对于He is Tom,Tom is my friend,这两句为相邻的两语句,则对于每个实体名词在相邻的两语句中的语句结构类型具有如下9种结构类型:AA,AB,AC,BA,BB,BC,CA,CB,CC。因此,根据第一分词结果得到第一训练文本中的多个实体名词后,可确认第一训练文本中的每个实体名词在相邻的两语句中的结构类型。
在一具体实施例中,确认第一训练文本中的每个实体名词在相邻的三语句中的语句结构类型的步骤S23。此处的语句结构类型是根据分析第一训练文本中的每个词语的词性并进行筛选后得到的实体名词,以及该实体名词在句中扮演的主语或宾语或表语或其它成分的语句结构,实体名词中的主语用A表示,实体名词中的其它成分或该实体名词在当前句中未出现用B表示,实体名词中的宾语或表语用C表示。例如:He is Tom,Tom is myfriend,Tom studies very hard,这三句为相邻的三语句,如果将实体名词中的主语用A表示,实体名词中的其它成分或该实体名词在当前语句中未出现用B表示,实体名词中的宾语或表语用C表示,则对于每个实体名词在相邻的三语句中的语句结构类型具有如下27种结构类型:AAA,AAC,AAB,ACA,ACC,ACB,ABA,ABC,ABB,CAA,CAC,CAB,CCA,CCC,CCB,CBA,CBC,CBB,BAA,BAC,BAB,BCA,BCC,BCB,BBA,BBC,BBB。因此,根据第一分词结果得到第一训练文本中的多个实体名词后,可确认第一训练文本中的每个实体名词在相邻的三语句中的结构类型。
在一具体实施例中,确认第一训练文本中的每个实体名词在相邻的两语句中的语句结构类型的步骤S23。此处的语句结构类型是根据分析第一训练文本中的每个语句结构并进行筛选后得到不同语句中的实体名词,通过该实体名词在相邻的两句中扮演的主语或宾语或表语或其它成分的语句结构。例如:通过识别该语句的语句结构对其进行分词得到的第一分词结果为主句+从句,主句中实体名词的主语用AA表示,主句中实体名词的其它成分或该实体名词未在当前句中出现用AB表示,主句中实体名词的宾语或表语用AC,从句中实体名词的主语用CA表示,从句中其它成分或在当前句中未出现用CB表示,从句中实体名词的宾语或表语用CC,则对于每个实体名词在相邻的包含主从顺序的两语句中的语句结构类型具有如下36种结构类型:AABAA,AABBC,AABAC,AABCA,AABCC,AABCB,ACBAA,ACBAC,ACBAB,ACBCA,ACBCC,ACBCB,ABBAA,ABBAC,ABBAB,ABBCA,ABBCC,ABBCB,CABAA,CABAC,CABAB,CABCA,CABCC,CABCB,CCBAA,CCBAC,CCBAB,CCBCA,CCBCC,CCBCB,CBBAA,CBBAC,CBBAB,CBBCA,CBBCC,CBBCA。
同理,上述步骤S23中,确认第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型。此处,第二训练文本的具体确认每个实体名词在相邻的至少两语句中的语句结构类型的过程同第一训练文本的确认过程相同,在此不再赘述。
步骤S24:根据第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到第一训练文本的第一变换矩阵,和,根据第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到第二训练文本的第二变换矩阵。
例如:对于第一训练文本中相邻的三语句:
Tom is a doctor,he loves art very much,he is Tom.
首先,对这三语句进行分词,然后,根据分词结果得到多个实体名词,其分别为HeTom Doctor Art,这多个实体名词在相邻的三语句中的语句结构类型为:BAA、ABC、CBB、BCB。
第一训练文本的第一变换矩阵为:
Figure BDA0001980559450000141
具体地,如图3A所示。
因为第一训练文本中包含3个语句,其对应的第二训练文本中也包含3个语句,其作为第一训练文本的语序连贯文本,其为:
He is Tom,Tom is a doctor,he loves art very much.首先,对这三语句进行分词,然后,根据分词结果得到多个实体名词,其分别为He Tom Doctor Art,这多个实体名词在相邻的三语句中的语句结构类型为:ABA、CAB、BCB、BBC。
第二训练文本的第二变换矩阵为:
Figure BDA0001980559450000142
Figure BDA0001980559450000151
具体地,如图3B所示。
步骤S25:根据第一变换矩阵,计算第一训练文本中的每种类型的语句结构的第一概率矩阵得到第一训练特征信息,和,根据第二变换矩阵,计算第二训练文本中的每种类型的语句结构的第二概率矩阵得到第二训练特征信息。此处的第一训练特征信息与第二训练特征信息成对出现。
在一具体实施例中,上述步骤S25在执行的过程中,如图4所示,可具体包括如下步骤:
步骤S251:统计第一训练文本的每种类型的语句结构的第一数量,和,统计第二训练文本的每种类型的语句结构的第二数量。例如:第一训练文本具有20个语句,就存在20个语句结构类型,分别为:3个ABA语句结构类型,5个BBA语句结构类型,4个CBB语句结构类型,3个BBB语句结构类型,5个BBC语句结构类型,所以,这20个语句结构类型当然具有相同的结构类型。统计出第一训练文本中每种类型的语句结构的数量作为第一数量。同理,统计出第二训练文本中每种类型的语句结构的数量作为第二数量。
步骤S252:统计第一训练文本的多种类型的语句结构的第三数量,和,统计第二训练文本的每种类型的语句结构的第四数量。例如:第一训练文本中多种类型的语句结构为5种,这5种包含相同类型的语句结构,统计的多种类型的语句结构为50个,将这50个作为第三数量,同理,例如:第二训练文本中多种类型的语句结构为5种,这5种包含相同类型的语句结构,统计的多种类型的语句结构为50个,将这50个作为第四数量。
步骤S253:根据第一数量和第三数量,计算第一数量和第三数量的比例得到第一概率矩阵,和,根据第二数量和第四数量,计算第二数量和第四数量的比例得到第二概率矩阵。例如:如下表1所示。
表1
Figure BDA0001980559450000161
步骤S3:利用第一训练特征信息以及第二训练特征信息对支持向量机模型进行训练,得到文本识别模型。通过第一概率矩阵得到的第一训练特征信息,和通过第二概率矩阵得到的第二训练特征信息输入支持向量机中模型中进行训练学习得到文本识别模型。支持向量机模型(Support Vector Machine简称SVM),支持向量机是一种建立在统计学习理论和结构风险最小化原理基础上的新型学习机器,它根据有限的样本信息在模型的复杂性(即对特定训练样本的精度)与学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以获得最强的分类能力。
在一具体实施例中,上述步骤S3在执行的过程中,如图5所示,可具体包括如下步骤
步骤S31:将第一训练特征信息和第二训练特征信息输入至支持向量机模型中。此处,是通过第一概率矩阵得到的第一训练特征信息,与通过第二概率矩阵得到的第二训练特征信息输入至支持向量机模型,第一训练特征信息与第二训练特征信息是对应成对出现。
步骤S32:通过将第一训练特征信息与第二训练特征信息进行比对评分得到文本识别模型。因为第二训练特征信息作为第一训练特征信息的参考文本,所以,以第二训练特征文本为参考标准,第一训练特征信息与第二训练特征信息进行比较,对第一训练特征信息进行评分得到文本识别模型,该文本识别模型可用于识别待识别文本的文本连贯性。
本发明实施例中的训练文本识别模型的方法,通过分别向支持向量机中输入语序错乱的第一训练文本以及与其对应的语序连贯的第二训练文本,得到第一训练特征信息和第二训练特征信息,形成文本识别模型可快速识别待识别文本,明显提高了文本连贯性的识别效率,可替代人工识别文本连贯性,进而减少了人工大量的精力。
实施例2
本发明实施例提供一种识别文本连贯性的方法,如图6所示,包括:
步骤S61:获取待识别文本和语序连贯文本,语序连贯文本为与待识别文本对应的参考文本。此处的待识别文本为即将想要确定其文本连贯性的文本语句,此处的待识别文本可以是散文文本,也可以是历史记录文本,也可以是英文小短文,也可以是人物撰写文本,还可以是其它类型的文本,不以此为限制。语序连贯文本作为待识别文本的参考文本,以语序连贯文本为待识别文本的参考对象。
步骤S62:根据待识别文本生成的第一特征信息,和,根据语序连贯文本生成第二特征信息。第一特征信息来自待识别文本,通常代表通语序连贯性不确定的文本特征信息,由于待识别文本与语序连贯文本对应,所以,第二特征信息来自语序连贯文本,通常代表语序连贯的文本特征信息,与待识别文本信息相对应。
在一具体实施例中,上述步骤S62在执行的过程中,如图7所示,可具体包括如下步骤:
步骤S621:对待识别文本进行分词得到第一分词结果,和,对语序连贯文本进行分词得到第二分词结果。此处的分词包括主要是利用分词工具识别语句结构或词语的词性,将其进行分词。具体地,识别第一训练文本中的每个词语的词性和/或每个语句的语句结构得到第一分词结果,同理,第二分词结果也同第一分词结果一样。
步骤S622:根据第一分词结果,获取待识别文本中的多个实体名词,和,根据第二分词结果,获取语序连贯文本中的多个实体名词。例如:对待识别文本中的一个语句为Ivery much like this fish,通过识别每个词语的词性对其进行分词得到的第一分词结果为人称代名词、副词、动词和名词,其分别对应的句子成分为主语、状语、谓语、宾语,根据该第一分词结果获取多个实体名词。
步骤S623:确认待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,确认语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型。
在一具体实施例中,确认待识别文本中的每个实体名词在相邻的两语句中的语句结构类型的步骤S623。此处的语句结构类型是根据对待识别文本中的每个词语进行分词得到每个实体名词在相邻的两语句中结构类型.例如;He is Tom,Tom is a doctor.这两句为相邻的两语句。如果将实体名词中的主语用A表示,实体名词中的其它成分或该实体名词未在当前语句中出现用B表示,实体名词中的宾语或表语用C表示,则对于每个实体名词在相邻的两语句中的语句结构类型具有如下9种结构类型:AA,AB,AC,BA,BB,BC,CA,CB,CC。因此,根据第一分词结果,可确认待识别文本中的每个实体名词在相邻的两语句中的结构类型。
在一具体实施例中,确认待识别文本中的每个实体名词在相邻的三语句中的语句结构类型的步骤S623。此处的语句结构类型是根据对待识别文本中的每个词语进行分词得到每个实体名词在相邻的两语句中结构类型。例如:He is Tom,Tom is a doctor,heloves art very much.实体名词中的主语用A表示,实体名词中的其它成分或在该实体名词在当前句中未出现用B表示,宾语或表语用C表示。这三句为相邻的三语句。如果将实体名词中的主语用A表示,其它成分或者该实体名词在该句子未出现用B表示,实体名词中的宾语或表语用C表示,则对于每个实体名词在相邻的三语句中的语句结构类型具有如下27种结构类型:AAA,AAC,AAB,ACA,ACC,ACB,ABA,ABC,ABB,CAA,CAC,CAB,CCA,CCC,CCB,CBA,CBC,CBB,BAA,BAC,BAB,BCA,BCC,BCB,BBA,BBC,BBB。因此,根据第一分词结果,可确认待识别文本中的每个实体名词在相邻的三语句中的结构类型。
在一具体实施例中,确认待识别文本中的每个实体名词在相邻的两语句中的语句结构类型的步骤S623。此处的语句结构类型是根据对待识别文本中的每个词语进行分词得到每个实体名词在相邻的两语句中结构类型,主句中实体名词的主语用AA表示,主句中实体名词的宾语AC,主句中实体名词的其它成分或该实体名词在当前句中未出现用AB表示,从句中实体名词的主语用CA表示,从句中实体名词的宾语CC,从句中实体名词的其它成分用CB表示。则对于每个实体名词在相邻的包含主从顺序的两语句中的语句结构类型具有如下36种结构类型:AABAA,AABBC,AABAC,AABCA,AABCC,AABCB,ACBAA,ACBAC,ACBAB,ACBCA,ACBCC,ACBCB,ABBAA,ABBAC,ABBAB,ABBCA,ABBCC,ABBCB,CABAA,CABAC,CABAB,CABCA,CABCC,CABCB,CCBAA,CCBAC,CCBAB,CCBCA,CCBCC,CCBCB,CBBAA,CBBAC,CBBAB,CBBCA,CBBCC,CBBCA。
同理,上述步骤S623中,确认语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型。此处,语序连贯文本的具体分词过程同待识别文本的分词过程,在此不再赘述。
步骤S624:根据待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到待识别文本的第一变换矩阵,和,根据语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到语序连贯文本的第二变换矩阵。例如:待识别文本包含6个语句,分别确认待识别文本中的实体名词Tom,Doctor,Art在相邻的两语句中的语句结构分别为BAC、CBC、CCB。
例如:语序连贯文本为He is Tom,Tom is a doctor,he loves art very much.可以将语序连贯文本以整句为单位随机打乱顺序作为待识别文本,其为:
Tom is a doctor,he loves art very much,he is Tom.
首先,对这三语句进行分词,然后,根据分词结果得到多个实体名词,其分别为HeTom Doctor Art,这多个实体名词在相邻的三语句中的语句结构类型为:BAA、ABC、CBB、BCB。
待识别文本的第一变换矩阵为:
Figure BDA0001980559450000211
因为待识别文本中包含3个语句,其对应的第二训练文本中也包含3个语句,其作为待识别文本的语序连贯文本,其为:
He is Tom,Tom is a doctor,he loves art very much.首先,对这三语句进行分词,然后,根据分词结果得到多个实体名词,其分别为He Tom Doctor Art,这多个实体名词在相邻的三语句中的语句结构类型为:ABA、CAB、BCB、BBC。
语序连贯文本的第二变换矩阵为:
Figure BDA0001980559450000221
步骤S625:根据第一变换矩阵,计算待识别文本中的每种类型的语句结构的第一概率矩阵得到第一特征信息,和,根据第二变换矩阵,计算语序连贯文本中的每种类型的语句结构的第二概率矩阵得到第二特征信息。此处具体计算方式同实施例1中的训练文本识别模型的方法中根据第一变换矩阵计算第一概率矩阵得到第一训练特征信息,以及根据第二变换矩阵计算第二概率矩阵得到第二训练特征信息的计算方式相同,详见实施例1,在此不再赘述。
步骤S63:通过将第一特征信息以及第二特征信息输入至实施例1中的文本识别模型以得到待识别文本对应的结果信息,其中,结果信息用于识别待识别文本是否具有连贯性。通过文本识别模型可以快速识别出待识别文本的连贯性,提高了文本识别的效率,减少了人工的工作量。
本发明实施例中的识别文本连贯性的方法,通过向文本识别模型中输入待识别文本的第一特征信息以及与其对应的语序连贯文本的第二特征信息,形成文本识别模型可快速识别待识别文本的连贯性,明显提高了文本连贯性的识别效率,可替代人工识别文本连贯性,进而减少了人工大量的精力。
实施例3
本发明实施例提供一种训练文本识别模型的装置,如图8所示,包括:
第一获取模块81,用于获取第一训练文本和第二训练文本,第二训练文本为与第一训练文本对应的参考训练文本。
提取模块82,用于从第一训练文本中提取第一训练特征信息,和,从第二训练文本中提取第二训练特征信息,第一训练特征信息为语序错乱的文本特征,第二训练特征信息为语序连贯的文本特征。
训练模块83,用于利用第一训练特征信息以及第二训练特征信息对支持向量机模型进行训练,得到文本识别模型。
本发明实施例中的训练文本识别模型的装置,在图8中,提取模块82还包括:
分词子模块821,用于对第一训练文本进行分词得到第一分词结果,和,对第二训练文本进行分词得到第二分词结果;
获取子模块822,用于根据第一分词结果,获取第一训练文本中的多个实体名词,和,根据第二分词结果,获取第二训练文本中的多个实体名词;确认子模块823,用于确认第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,确认第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型;
矩阵变换模块824,用于根据第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到第一训练文本的第一变换矩阵,和,根据第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到第二训练文本的第二变换矩阵;
矩阵计算模块825,用于根据第一变换矩阵,计算第一训练文本中的每种类型的语句结构的第一概率矩阵得到第一训练特征信息,和,根据第二变换矩阵,计算第二训练文本中的每种类型的语句结构的第二概率矩阵得到第二训练特征信息。
本发明实施例中的训练文本识别模型的装置,确认子模块823还包括:
识别单元,用于识别第一训练文本中的每个词语的词性和/或每个语句的语句结构得到第一分词结果,和,识别第二训练文本中的每个词语的词性和/或每个语句的语句结构得到第二分词结果。
本发明实施例中的训练文本识别模型的装置,矩阵计算模块825还包括:
第一统计单元,用于统计第一训练文本的每种类型的语句结构的第一数量,和,统计第二训练文本的每种类型的语句结构的第二数量;
第二统计单元,用于统计第一训练文本的多种类型的语句结构的第三数量,和,统计第三训练文本的每种类型的语句结构的第四数量;
计算单元,用于根据第一数量和第三数量,计算第一数量和第三数量的比例得到第一概率矩阵,和,根据第二数量和第四数量,计算第二数量和第四数量的比例得到第二概率矩阵。
本发明实施例中的训练文本识别模型的装置,在图8中,训练模块83还包括:
输入子模块831,用于将第一训练特征信息和第二训练特征信息输入至支持向量机模型中;
比对子模块832,用于通过将第一训练特征信息与第二训练特征信息进行比对评分得到文本识别模型。
本发明实施例中的训练文本识别模型的装置,通过分别向支持向量机中输入语序错乱的第一训练文本以及与其对应的语序连贯的第二训练文本,得到第一训练特征信息和第二训练特征信息,形成文本识别模型可快速识别待识别文本,明显提高了文本连贯性的识别效率,可替代人工识别文本连贯性,进而减少了人工大量的精力。
实施例4
本发明实施例提供一种识别文本连贯性的装置,如图9所示,包括:
第二获取模块91,用于获取待识别文本和语序连贯文本,语序连贯文本为与待识别文本对应的参考文本;
生成模块92,用于根据待识别文本生成的第一特征信息,和,根据语序连贯文本生成第二特征信息;
结果确定模块93,用于通过文本识别模型以得到待识别文本对应的结果信息,其中,结果信息用于识别待识别文本是否具有连贯性。
本发明实施例中的识别文本连贯性的装置,生成模块92还包括:
分词子模块921,用于对待识别文本进行分词得到第一分词结果,和,对语序连贯文本进行分词得到第二分词结果;
获取子模块922,用于根据第一分词结果,获取待识别文本中的多个实体名词,和,根据第二分词结果,获取语序连贯文本中的多个实体名词;
确认子模块923,用于根据第一分词结果,确认待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,根据第二分词结果,确认语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型;
矩阵变换子模块924,用于根据待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到待识别文本的第一变换矩阵,和,根据语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到语序连贯文本的第二变换矩阵;
计算子模块925,用于根据第一变换矩阵,计算待识别文本中的每种类型的语句结构的第一概率矩阵得到第一特征信息,和,根据第二变换矩阵,计算语序连贯文本中的每种类型的语句结构的第二概率矩阵得到第二特征信息。
本发明实施例中的识别文本连贯性的装置,通过向文本识别模型中输入待识别文本的第一特征信息以及与其对应的语序连贯文本的第二特征信息,形成文本识别模型可快速识别待识别文本的连贯性,明显提高了文本连贯性的识别效率,可替代人工识别文本连贯性,进而减少了人工大量的精力。
实施例5
本发明实施例提供一种存储介质,其上存储有计算机指令,该指令被处理器执行时实现实施例1或实施例2中的方法的步骤。该存储介质上还存储有第一训练文本和第二训练文本,第一训练特征信息和第二训练特征信息,第一分词结果,第二分词结果,第一变换矩阵和第二变换矩阵,第一概率矩阵以及第二概率矩阵等。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
实施例6
本发明实施例提供一种文本识别设备,如图10所示,包括存储器1020、处理器1010及存储在存储器1020上并可在处理器1010上运行的计算机程序,处理器1010执行程序时实现实施例1或实施例2中方法的步骤。
图10是本发明实施例提供的执行列表项操作的处理方法的文本识别设备的硬件结构示意图,如图10所示,该文本识别设备包括一个或多个处理器1010以及存储器1020,图10中以一个处理器1010为例。
执行列表项操作的处理方法的文本识别设备还可以包括:输入装置1030和输出装置1040。
处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接,图10中以通过总线连接为例。
处理器1010可以为中央处理器(Central Processing Unit,CPU)。处理器1010还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (9)

1.一种训练文本识别模型的方法,其特征在于,包括:
获取第一训练文本和第二训练文本,所述第二训练文本为与所述第一训练文本对应的参考训练文本;
从所述第一训练文本中提取第一训练特征信息,和,从所述第二训练文本中提取第二训练特征信息,所述第一训练特征信息为语序错乱的文本特征,所述第二训练特征信息为语序连贯的文本特征;
利用所述第一训练特征信息以及所述第二训练特征信息对支持向量机模型进行训练,得到文本识别模型;
所述从所述第一训练文本中提取第一训练特征信息,和,从所述第二训练文本中提取第二训练特征信息的步骤还包括:
对所述第一训练文本进行分词得到第一分词结果,和,对所述第二训练文本进行分词得到第二分词结果;
根据所述第一分词结果,获取所述第一训练文本中的多个实体名词,和,根据所述第二分词结果,获取所述第二训练文本中的多个实体名词;
确认所述第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,确认所述第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型;
根据所述第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到所述第一训练文本的第一变换矩阵,和,根据所述第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到所述第二训练文本的第二变换矩阵;
根据所述第一变换矩阵,计算所述第一训练文本中的每种类型的语句结构的第一概率矩阵得到所述第一训练特征信息,和,根据第二变换矩阵,计算所述第二训练文本中的每种类型的语句结构的第二概率矩阵得到所述第二训练特征信息。
2.根据权利要求1所述的训练文本识别模型的方法,其特征在于,所述对所述第一训练文本进行分词得到第一分词结果,和,对所述第二训练文本进行分词得到第二分词结果的步骤还包括:
识别所述第一训练文本中的每个词语的词性和/或每个语句的语句结构得到所述第一分词结果,和,识别所述第二训练文本中的每个词语的词性和/或每个语句的语句结构得到所述第二分词结果。
3.根据权利要求1所述的训练文本识别模型的方法,其特征在于,所述根据所述第一变换矩阵,计算所述第一训练文本中的每种类型的语句结构的第一概率矩阵得到所述第一训练特征信息,和,根据第二变换矩阵,计算所述第二训练文本中的每种类型的语句结构的第二概率矩阵得到所述第二训练特征信息的步骤还包括:
统计所述第一训练文本的每种类型的语句结构的第一数量,和,统计所述第二训练文本的每种类型的语句结构的第二数量;
统计所述第一训练文本的多种类型的语句结构的第三数量,和,统计所述第二训练文本的每种类型的语句结构的第四数量;
根据所述第一数量和所述第三数量,计算所述第一数量和所述第三数量的比例得到所述第一概率矩阵,和,根据所述第二数量和所述第四数量,计算所述第二数量和所述第四数量的比例得到所述第二概率矩阵。
4.根据权利要求1所述的训练文本识别模型的方法,其特征在于,所述利用所述第一训练特征信息以及所述第二训练特征信息对支持向量机模型进行训练,得到文本识别模型的步骤还包括:
将所述第一训练特征信息和所述第二训练特征信息输入至所述支持向量机模型中;
通过将第一训练特征信息与第二训练特征信息进行比对评分得到所述文本识别模型。
5.一种识别文本连贯性的方法,其特征在于,包括:
获取待识别文本和语序连贯文本,所述语序连贯文本为与所述待识别文本对应的参考文本;
根据所述待识别文本生成的第一特征信息,和,根据所述语序连贯文本生成第二特征信息;
通过将所述第一特征信息以及所述第二特征信息输入至权利要求1-4中任一项所述的文本识别模型以得到所述待识别文本对应的结果信息,其中,所述结果信息用于识别所述待识别文本是否具有连贯性;所述根据所述待识别文本生成的第一特征信息,和,根据所述语序连贯文本生成第二特征信息的步骤还包括:
对所述待识别文本进行分词得到第一分词结果,和,对所述语序连贯文本进行分词得到第二分词结果;
根据所述第一分词结果,获取所述第一训练文本中的多个实体名词,和,根据所述第二分词结果,获取所述第二训练文本中的多个实体名词;
确认所述待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,确认所述语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型;
根据所述待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到所述待识别文本的第一变换矩阵,和,根据所述语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到所述语序连贯文本的第二变换矩阵;
根据所述第一变换矩阵,计算所述待识别文本中的每种类型的语句结构的第一概率矩阵得到所述第一特征信息,和,根据第二变换矩阵,计算所述语序连贯文本中的每种类型的语句结构的第二概率矩阵得到所述第二特征信息。
6.一种训练文本识别模型的装置,其特征在于,包括:
第一获取模块,用于获取第一训练文本和第二训练文本,所述第二训练文本为与所述第一训练文本对应的参考训练文本;
提取模块,用于从所述第一训练文本中提取第一训练特征信息,和,从所述第二训练文本中提取第二训练特征信息,所述第一训练特征信息为语序错乱的文本特征,所述第二训练特征信息为语序连贯的文本特征;
训练模块,用于利用所述第一训练特征信息以及所述第二训练特征信息对支持向量机模型进行训练,得到文本识别模型;
提取模块还包括:
分词子模块,用于对第一训练文本进行分词得到第一分词结果,和,对第二训练文本进行分词得到第二分词结果;
获取子模块,用于根据第一分词结果,获取第一训练文本中的多个实体名词,和,根据第二分词结果,获取第二训练文本中的多个实体名词;
确认子模块,用于确认第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,确认第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型;
矩阵变换模块,用于根据第一训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到第一训练文本的第一变换矩阵,和,根据第二训练文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到第二训练文本的第二变换矩阵;
矩阵计算模块,用于根据第一变换矩阵,计算第一训练文本中的每种类型的语句结构的第一概率矩阵得到第一训练特征信息,和,根据第二变换矩阵,计算第二训练文本中的每种类型的语句结构的第二概率矩阵得到第二训练特征信息。
7.一种识别文本连贯性的装置,其特征在于,包括:
第二获取模块,用于获取待识别文本和语序连贯文本,所述语序连贯文本为与所述待识别文本对应的参考文本;
生成模块,用于根据所述待识别文本生成的第一特征信息,和,根据所述语序连贯文本生成第二特征信息;
结果确定模块,用于通过文本识别模型以得到所述待识别文本对应的结果信息,其中,所述结果信息用于识别所述待识别文本是否具有连贯性;
生成模块还包括:
分词子模块,用于对待识别文本进行分词得到第一分词结果,和,对语序连贯文本进行分词得到第二分词结果;
获取子模块,用于根据第一分词结果,获取待识别文本中的多个实体名词,和,根据第二分词结果,获取语序连贯文本中的多个实体名词;
确认子模块,用于根据第一分词结果,确认待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,和,根据第二分词结果,确认语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型;
矩阵变换子模块,用于根据待识别文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到待识别文本的第一变换矩阵,和,根据语序连贯文本中的每个实体名词在相邻的至少两语句中的语句结构类型,得到语序连贯文本的第二变换矩阵;
计算子模块,用于根据第一变换矩阵,计算待识别文本中的每种类型的语句结构的第一概率矩阵得到第一特征信息,和,根据第二变换矩阵,计算语序连贯文本中的每种类型的语句结构的第二概率矩阵得到第二特征信息。
8.一种存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-4任一项所述的训练文本识别模型的方法的步骤;或,实现权利要求5所述的识别文本连贯性的方法的步骤。
9.一种文本识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-4任一项所述的训练文本识别模型的方法的步骤;或,实现权利要求5所述的识别文本连贯性的方法的步骤。
CN201910147725.6A 2019-02-27 2019-02-27 一种训练文本识别模型、文本连贯性的方法及装置 Active CN110134940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910147725.6A CN110134940B (zh) 2019-02-27 2019-02-27 一种训练文本识别模型、文本连贯性的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910147725.6A CN110134940B (zh) 2019-02-27 2019-02-27 一种训练文本识别模型、文本连贯性的方法及装置

Publications (2)

Publication Number Publication Date
CN110134940A CN110134940A (zh) 2019-08-16
CN110134940B true CN110134940B (zh) 2023-04-07

Family

ID=67568504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910147725.6A Active CN110134940B (zh) 2019-02-27 2019-02-27 一种训练文本识别模型、文本连贯性的方法及装置

Country Status (1)

Country Link
CN (1) CN110134940B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111046658B (zh) * 2019-12-18 2023-05-09 支付宝(杭州)信息技术有限公司 一种乱序文本识别方法、装置及设备
CN111428470B (zh) * 2020-03-23 2022-04-22 北京世纪好未来教育科技有限公司 文本连贯性判定及其模型训练方法、电子设备及可读介质
CN114004234A (zh) * 2020-07-28 2022-02-01 深圳Tcl数字技术有限公司 一种语义识别方法、存储介质及终端设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294663A (zh) * 2013-05-03 2013-09-11 苏州大学 一种文本连贯性检测方法和装置
CN107341143A (zh) * 2017-05-26 2017-11-10 北京奇艺世纪科技有限公司 一种句子连贯性判断方法及装置和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9837069B2 (en) * 2015-12-22 2017-12-05 Intel Corporation Technologies for end-of-sentence detection using syntactic coherence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294663A (zh) * 2013-05-03 2013-09-11 苏州大学 一种文本连贯性检测方法和装置
CN107341143A (zh) * 2017-05-26 2017-11-10 北京奇艺世纪科技有限公司 一种句子连贯性判断方法及装置和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
实体驱动的双向LSTM篇章连贯性建模;杜舒静等;《中文信息学报》;20171115;第31卷(第06期);第67-74页 *

Also Published As

Publication number Publication date
CN110134940A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
JP6150282B2 (ja) ノン・ファクトイド型質問応答システム及びコンピュータプログラム
RU2607975C2 (ru) Построение корпуса сравнимых документов на основе универсальной меры похожести
CN110134940B (zh) 一种训练文本识别模型、文本连贯性的方法及装置
TW201222291A (en) Method and device for providing text segmentation results with multiple granularity levels
Atia et al. Increasing the accuracy of opinion mining in Arabic
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
CN110297893A (zh) 自然语言问答方法、装置、计算机装置及存储介质
Islam et al. Bangla sentence correction using deep neural network based sequence to sequence learning
Hasan et al. Sentiment classification in bangla textual content: A comparative study
CN113282762A (zh) 知识图谱构建方法、装置、电子设备和存储介质
Das et al. Comparison of different graph distance metrics for semantic text based classification
Villavicencio et al. Discovering multiword expressions
KR102400689B1 (ko) 의미 관계 학습 장치, 의미 관계 학습 방법, 및 의미 관계 학습 프로그램
Bestgen CECL: a new baseline and a non-compositional approach for the sick benchmark
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
US20230081077A1 (en) Document creation support apparatus, document creation support method and document creation support program
KR20200057206A (ko) 문서 내 언급되지 않은 정보를 가시화하기 위한 방법 및 시스템
WO2008017188A1 (fr) Système et procédé pour réaliser un support d'enseignement de cours de langue
US10445353B2 (en) Sentence retrieval method and sentence retrieval system
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
KR102609227B1 (ko) 전자 문서 내 인공지능 기반 안전정보 탐지 방법 및 장치
CN114707489B (zh) 标注数据集获取方法、装置、电子设备及存储介质
JP5998779B2 (ja) 検索装置、検索方法、及びプログラム
JP2011257790A (ja) 関係情報抽出装置、その方法及びプログラム
US20230205997A1 (en) Information processing apparatus, operation method of information processing apparatus, and operation program of information processing apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant