CN111814461A - 文本处理方法、相关设备及可读存储介质 - Google Patents

文本处理方法、相关设备及可读存储介质 Download PDF

Info

Publication number
CN111814461A
CN111814461A CN202010656329.9A CN202010656329A CN111814461A CN 111814461 A CN111814461 A CN 111814461A CN 202010656329 A CN202010656329 A CN 202010656329A CN 111814461 A CN111814461 A CN 111814461A
Authority
CN
China
Prior art keywords
text
processed
character
determining
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010656329.9A
Other languages
English (en)
Other versions
CN111814461B (zh
Inventor
王硕
盛志超
郭冬杰
李�浩
李永帅
段纪丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202010656329.9A priority Critical patent/CN111814461B/zh
Publication of CN111814461A publication Critical patent/CN111814461A/zh
Application granted granted Critical
Publication of CN111814461B publication Critical patent/CN111814461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Input (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本处理方法、相关设备及可读存储介质,在获取待处理文本之后,确定该待处理文本包含的对象集合,针对对象集合中每一对象,确定与该对象对应的属性,并将该属性与该对象组合,得到目标对象。本申请中采用对文本进行处理识别目标对象的方法,相对于人工的方式,可以节省人力和时间。进一步的,本申请中,通过不同的对象属性能够明确目标对象的具体指代关系,能够使识别的目标对象准确度更高。

Description

文本处理方法、相关设备及可读存储介质
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本处理方法、相关设备及可读存储介质。
背景技术
在一些场景中,往往需要从文本中识别某种对象,比如,在司法领域,需要从司法卷宗中的文书(如,起诉意见书、鉴定报告、询问笔录、勘验笔录、辨认笔录等)中识别属于赃物的物体。
目前,多采用人工的方式,从文本中识别某种对象,然而,人工的方式,将消耗大量的人力及时间,效率低,识别准确度低。
发明内容
鉴于上述问题,本申请提出了一种文本处理方法、相关设备及可读存储介质。具体方案如下:
一种文本处理方法,包括:
获取待处理文本;
确定所述待处理文本包含的对象集合;
针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
可选地,所述确定所述待处理文本包含的对象集合,包括:
确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征;
对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征;
对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果;
基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。
可选地,所述针对所述对象集合中每一对象,确定与所述对象对应的属性,包括:
获取所述待处理文本中各个字符之间的依存句法关系;
针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征;
对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。
可选地,所述针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征,包括:
根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征;
根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。
可选地,所述待处理文本为多个,所述方法还包括:
将各待处理文本对应的目标对象进行同一对象的关联。
可选地,所述将各待处理文本对应的目标对象进行同一对象的关联,包括:
从各待处理文本对应的目标对象中,确定两个待判定的目标对象,所述两个待判定的目标对象分别包含于不同的待处理文本;
判断所述两个待判定的目标对象是否匹配;
如果匹配,则确定所述两个待判定的目标对象是同一对象。
可选地,所述判断所述两个待判定的目标对象是否匹配,包括:
利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果,所述匹配判定模型是以目标对象对为训练样本,以目标对象对标注的是否匹配的判定结果为样本标签为训练得到的。
可选地,所述利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果的过程,包括:
利用所述匹配判定模型的第一匹配判定模块,比较所述两个待判定的目标对象,得出第一匹配判定结果;
利用所述匹配判定模型的第二匹配判定模块,比较所述两个待判定的目标对象中的相同对象属性,得出第二匹配判定结果;
利用所述匹配判定模型的综合匹配判定模块,基于所述第一匹配判定结果和所述第二匹配判定结果,确定所述两个待判定的目标对象是否匹配。
一种文本处理装置,包括:
获取单元,用于获取待处理文本;
对象集合确定单元,用于确定所述待处理文本包含的对象集合;
目标对象确定单元,用于针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
可选地,所述对象集合确定单元,包括:
特征确定单元,用于确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征;
特征拼接单元,用于对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征;
特征识别单元,用于对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果;
对象集合确定子单元,用于基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。
可选地,所述目标对象确定单元,包括:
依存句法关系获取单元,用于获取所述待处理文本中各个字符之间的依存句法关系;
对象属性特征确定单元,用于针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征;
对象属性特征识别单元,用于对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。
可选地,对象属性特征确定单元,包括:
对象识别特征确定单元,用于根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征;
对象属性特征确定子单元,用于根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。
可选地,所述待处理文本为多个,所述装置还包括:
对象关联单元,用于将各待处理文本对应的目标对象进行同一对象的关联。
可选地,所述对象关联单元,包括:
待判定的目标对象确定单元,用于从各待处理文本对应的目标对象中,确定两个待判定的目标对象,所述两个待判定的目标对象分别包含于不同的待处理文本;
判断单元,用于判断所述两个待判定的目标对象是否匹配;如果匹配,则确定所述两个待判定的目标对象是同一对象。
可选地,所述判断单元,具体用于:
利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果,所述匹配判定模型是以目标对象对为训练样本,以目标对象对标注的是否匹配的判定结果为样本标签为训练得到的。
可选地,所述利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果的过程,包括:
利用所述匹配判定模型的第一匹配判定模块,比较所述两个待判定的目标对象,得出第一匹配判定结果;
利用所述匹配判定模型的第二匹配判定模块,比较所述两个待判定的目标对象中的相同对象属性,得出第二匹配判定结果;
利用所述匹配判定模型的综合匹配判定模块,基于所述第一匹配判定结果和所述第二匹配判定结果,确定所述两个待判定的目标对象是否匹配。
一种文本处理设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的文本处理方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上所述的文本处理方法的各个步骤。
借由上述技术方案,本申请公开了一种文本处理方法、相关设备及可读存储介质,在获取待处理文本之后,确定该待处理文本包含的对象集合,针对对象集合中每一对象,确定与该对象对应的属性,并将该属性与该对象组合,得到目标对象。本申请中采用对文本进行处理识别目标对象的方法,相对于人工的方式,可以节省人力和时间。进一步的,本申请中,通过不同的对象属性能够明确目标对象的具体指代关系,能够使识别的目标对象准确度更高。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的一种文本处理方法的流程示意图;
图2为本申请实施例公开的一种对象识别模型的结构示意图;
图3为本申请实施例公开的一种文本中各个字符之间的依存句法关系示意图;
图4为本申请实施例公开的另一种文本处理方法的流程示意图;
图5为本申请实施例公开的一种匹配判定模型的结构示意图;
图6为本申请实施例公开的一种文本处理装置结构示意图;
图7为本申请实施例公开的一种文本处理设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的文本处理方法进行介绍。
参照图1,图1为本申请实施例公开的一种文本处理方法的流程示意图,该方法可以包括如下步骤:
步骤S101:获取待处理文本。
在本申请中,待处理文本可以由采用任意一种书面语言(比如,中文、英文等)表现的文字组成的。待处理文本可以为一个句子,也可以为一个段落,或一个篇章,对此,本申请不进行任何限定。
需要说明的是,待处理文本可以为基于语音识别、图片识别、输入法识别等技术得到的文本,也可以为具有特定格式的文书等,对此,本申请不进行任何限定。
为便于理解,本申请给出如下待处理文本示例:
“张三,3月4日在化肥厂偷了两辆电动车,一辆红色雅迪的,一辆黑色艾玛的;3月16日在隆庆小区偷了一台灰色联想电脑,然后又偷了一辆本田CB400摩托车。”
步骤S102:确定所述待处理文本包含的对象集合。
在本申请中,对象集合中包含至少一个对象。对象可以为文本中具有某类共性的字符,比如,对象可以为文本中出现的物体,对象也可以为文本中出现的人名、地名等。对此,本申请不进行任何限定。
为便于理解对象集合,本申请给出如下示例:
假设待处理文本为“张三,3月4日在化肥厂偷了两辆电动车,一辆红色雅迪的,一辆黑色艾玛的;3月16日在隆庆小区偷了一台灰色联想电脑,然后又偷了一辆本田CB400摩托车。”,对象为物体,则待处理文本包含的对象集合为“电动车、电脑、摩托车”。
需要说明的是,确定所述待处理文本包含的对象集合具体实现方式,将通过后面的实施例详细说明。
步骤S103:针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
在本申请中,不同的对象具有不同的对象属性,比如,对象为物体时,对象属性可以为颜色、品牌、型号等。目标对象是具有对象属性的对象,为便于理解,假设待处理文本为“张三,3月4日在化肥厂偷了两辆电动车,一辆红色雅迪的,一辆黑色艾玛的;3月16日在隆庆小区偷了一台灰色联想电脑,然后又偷了一辆本田CB400摩托车。”,待处理文本包含的对象集合为“电动车、电脑、摩托车”,与电动车对应的属性为红色、雅迪、黑色、艾玛,与电脑对应的属性为灰色、联想,与摩托车对应的属性为本田、CB400。在本申请中,将对象与属性组合,可以得到如下目标对象“红色雅迪电动车、黑色艾玛电动车、灰色联想电脑、本田CB400摩托车”。
需要说明的是,针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象的具体实现方式,将通过后面的实施例详细说明。
本实施例公开了一种文本处理方法,在获取待处理文本之后,确定该待处理文本包含的对象集合,针对对象集合中每一对象,确定与该对象对应的属性,并将该属性与该对象组合,得到目标对象。本申请中采用对文本进行处理识别目标对象的方法,相对于人工的方式,可以节省人力和时间。进一步的,本申请中,通过不同的对象属性能够明确目标对象的具体指代关系,能够使识别的目标对象准确度更高。
作为一种可实施方式,本申请中公开了一种确定待处理文本包含的对象集合的具体实现方式,该方式可以包括如下步骤:
步骤S201:确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征。
在本申请中,待处理文本中每个字符的字符级特征,可以为每个字符的语义信息,需要说明的是,不同的文本都有其独特性,对对象的表述也是不同的,为了提高对不同文本中对象识别的准确性,本发明中还进一步确定了所述待处理文本的文本级特征,待处理文本的文本级特征,可以为待处理文本的语义信息。
步骤S202:对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征。
为便于理解,假设字符“电”的字符级特征为c,待处理文本的文本级特征为h,则字符“电”拼接后的特征为c+h。
步骤S203:对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果。
需要说明的是,在本申请中,可以基于对象识别模型执行上述步骤S201至S203,作为一种可实施方式,可以将所述待处理文本输入对象识别模型,由对象识别模型输出所述待处理文本中包含的对象集合,对象识别模型是以训练文本为训练样本,以训练文本标注的对象集合为样本标签训练得到的。
下面对基于对象识别模型确定待处理文本包含的对象集合的具体实现方式进行详细介绍。
请参阅附图2,图2为本申请实施例公开的一种对象识别模型的结构示意图,该对象识别模型包括:字符级特征确定模块、文本级特征确定模块、特征拼接模块、识别模块。
其中,将待处理文本输入对象识别模型之后,利用字符级特征确定模块对待处理文本进行处理,得到字符级特征确定模块输出的所述待处理文本中每个字符的字符级特征。利用文本级特征确定模块对待处理文本进行处理,得到文本级特征确定模块输出的所述待处理文本的文本级特征。在得到所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征之后,将所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征输入拼接模块,得到所述待处理文本中每个字符拼接后的特征。最后,将待处理文本中每个字符拼接后的特征输入识别模块,识别模块输出每个字符的对象识别结果。
其中,字符级特征确定模块可以基于BERT(Bidirectional EncoderRepresentations from Transformers,来自变换器的双向编码器表征量)模型、RoBERTa模型、RoBERTa-large中文预训练模型、RoBERTa-wwm-ext、RoBERTa-wwm-large-ext中的任意一个实现。
文本级特征确定模型可以基于LSTM(Long Short-Term Memory,长短期记忆)网络实现,LSTM网络能够对待处理文本进行编码,得到待处理文本的文本级特征。对此,本申请不进行任何限定。
识别模块可以包括全连接层,以及,二分类层,则,每个字符的对象识别结果,即为二分类层输出的二分类结果。最后,基于二分类层输出的二分类结果,即可确定所述待处理文本中包含的对象集合。
为便于理解,假设待处理文本为“张三,3月4日在化肥厂偷了两辆电动车,一辆红色雅迪的,一辆黑色艾玛的;3月16日在隆庆小区偷了一台灰色联想电脑,然后又偷了一辆本田CB400摩托车”,假设,字符为对象时,二分类层的输出为1,字符不为对象时,二分类层的输出为0,则二分类层的输出为“0000000000000001110000000000000000000000000000000000011000000000000000111”。
步骤S204:基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。
基于上述二分类层的输出,确定待处理文本中包含的对象集合为“电动车、电脑、摩托车”。
作为一种可实施方式,本申请中公开了一种针对所述对象集合中每一对象,确定与所述对象对应的属性的具体实现方式,该方式可以包括如下步骤:
步骤S301:获取所述待处理文本中各个字符之间的依存句法关系。
需要说明的是,依存句法关系可以基于目前常用的依存句法关系获取方法获取,对此,本申请不再详细描述。
为便于理解,假设待处理文本为“张三在化肥厂偷了两辆电动车,一辆红色雅迪的,一辆黑色艾玛的”,则待处理文本中各个字符之间的依存句法关系如图3所示。
步骤S302:针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。
作为一种可实施方式,所述针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征,包括:
步骤S3021:根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征。
在本申请中,所述待处理文本中的每个字符的字符级特征可以利用上述对象识别模型的字符级特征确定模块对待处理文本进行处理得到,此处不再赘述。所述字符的对象识别结果可以利用上述对象识别模型的识别模块得到,所述字符的对象识别结果用于指示所述字符是否为所述对象集合中对象,作为一种示例,如果所述字符为所述对象集合中对象,则所述字符的对象识别结果为1,如果所述字符不为所述对象集合中对象,则所述字符的对象识别结果为0。
作为一种可实施方式,可以基于BiLSTM(Bi-directional Long Short-TermMemory。双向长短期记忆)网络对所述字符的字符级特征、所述字符的对象识别结果进行编码,得到所述字符的对象识别特征。
步骤S3022:根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。
在本申请中,根据所述待处理文本中各个字符之间的依存句法关系,确定所述字符的依存句法特征的具体实现方式可以为:根据所述待处理文本中各个字符之间的依存句法关系,确定所述字符对应的依存句法字符,以及所述字符和其对应的依存句法字符之间的依存句法特征,将所述字符的对象识别特征、所述字符对应的依存句法字符的对象识别特征、所述字符和其对应的依存句法字符之间的依存句法特征进行拼接,得到所述字符的对象属性特征。
为便于理解,假设待处理文本中字符xh和xi具有依存句法关系r,对于字符xh来说其对应的依存句法字符为xi。则字符xh的依存句法特征ui=[wi,wh,vr],其中wh是xh的对象识别特征,wi是xi的对象识别特征,vr是r的特征。
依存句法关系共有14种,本申请中可以预置一个14*200的二维矩阵,每个依存句法特征为一个1*200的向量。在本申请中,可以预置各个依存句法关系的索引(比如,0至13),在确定具有依存句法关系r的字符为xh和xi之后,根据依存句法关系r的索引确定字符xh和xi之间的依存句法特征。
步骤S303:对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。
在本申请中,待处理文本中各个字符的对象属性特征中融入了待处理文本中各个字符之间的依存句法关系,基于各个字符之间的依存句法关系可以确定出不同对象对应的属性。比如,由图3可以看出,偷和电动车之间是宾语的关系(以图3中所示VOB表示),偷雅迪和艾玛之间都是并列关系(以图3中所示COO表示),根据VOB和COO可以确定雅迪和艾玛是被电动车包含的,且雅迪和艾玛之间是并列关系。
需要说明的是,作为一种可实施方式,本申请中可以基于目标对象确定模型实现“针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象”这一步骤。目标对象确定模型是以训练文本为训练样本,以训练文本标注的目标对象为样本标签训练得到的。目标确定模型具体用于执行上述步骤S301至S303。
在一些场景中,往往需要从众多文本中识别某种对象,并对识别出的对象进行同一对象关联。比如,在司法领域,赃物链完整是起诉嫌疑人的必要条件之一,因此,为了确定司法卷宗对应的赃物链是否完整,需要从司法卷宗中的多个文书(如,起诉意见书、鉴定报告、询问笔录、勘验笔录、辨认笔录等)中识别赃物,并对识别出的各个赃物进行同一赃物关联,从而判定司法卷宗对应的赃物链是否完整。
目前,多采用人工的方式,从众多文本中识别某种对象,并对识别出的对象进行同一对象的关联。比如,在司法领域,需要司法从业人员从司法卷宗中的多个文书中识别赃物,并对识别出的各个赃物进行同一赃物关联,从而判定司法卷宗对应的赃物链是否完整。然而,人工的方式,将消耗大量的人力及时间,效率低。
为解决上述问题,在本申请中公开了另一种文本处理方法。
参照图4,图4为本申请实施例公开的另一种文本处理方法的流程示意图,该方法可以包括如下步骤:
步骤S401:获取多个待处理文本。
在本申请中,多个待处理文本可以为具有某种关联关系的文本,比如,多个待处理文本可以为司法卷宗中的多个文书(如,起诉意见书、鉴定报告、询问笔录、勘验笔录、辨认笔录等)。
步骤S402:对每个待处理文本,确定所述待处理文本包含的对象集合,,针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到所述待处理文本对应的目标对象。
需要说明的是,在本申请中,对每个待处理文本的处理方式,可以参照上述步骤S102和步骤S103的相关描述,此处不再赘述。
步骤S403:将各待处理文本对应的目标对象进行同一对象的关联。
在本申请中,将各待处理文本对应的目标对象进行同一对象的关联可以将各待处理文本中是同一对象的目标对象确定出来,具体实现方式将通过后面的实施例详细说明。
作为一种可实施方式,本申请中公开了一种将各待处理文本对应的组合后目标对象进行同一对象的关联的具体实现方式,该方式可以包括以下步骤:
步骤S501:从各待处理文本对应的目标对象中,确定两个待判定的目标对象,所述两个待判定的目标对象分别包含于不同的待处理文本。
比如,在司法领域,一个完整的赃物链需要满足起诉意见书中提及的赃物在鉴定报告、讯问笔录和辨认笔录中都存在,则两个待判定的目标对象可以分别为包含于起诉意见书中的和包含于鉴定报告中的赃物。为便于理解,两个待判定的目标对象可以为“一辆黑色48V的雅迪电动车”、“一辆红色48V的雅迪电动车”。
步骤S502:判断所述两个待判定的目标对象是否匹配;如果匹配,则执行步骤S503,如果不匹配,则执行步骤S504。
在本申请中,判断所述两个待判定的目标对象是否匹配可以基于神经网络结构实现,具体的,可以利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果,所述匹配判定模型是以目标对象对为训练样本,以目标对象对标注的是否匹配的判定结果为样本标签为训练得到的。
步骤S503:确定所述两个待判定的目标对象是同一对象。
步骤S504:确定所述两个待判定的目标对象不是同一对象。
在本申请的另一个实施例中,对基于匹配判定模型判断所述两个待判定的目标对象是否匹配的具体实现方式进行介绍。
请参阅附图5,图5为本申请实施例公开的一种匹配判定模型的结构示意图,该匹配判定模型包括:第一匹配判定模块、第二匹配判定模块和综合匹配判定模块。
基于上述匹配判定模型的结构,所述利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果的过程,包括:
S601:利用所述匹配判定模型的第一匹配判定模块,比较所述两个待判定的目标对象,得出第一匹配判定结果。
在本申请中,可以确定每个待判定的目标对象的特征,比较两个待判定的目标对象的特征的相似度,得出第一匹配判定结果。
针对每个待判定的目标对象,确定所述待判定的目标对象的特征的具体实现方式可以为:确定所述待判定的目标对象中每个字符的特征,以及,所述待判定的目标对象中每个字符对应的对象属性特征;对所述待判定的目标对象中每个字符对应的对象属性特征进行加权处理,得到所述待判定的目标对象中每个字符对应的对象属性的加权后的特征;将所述待判定的目标对象中每个字符的特征,以及所述待判定的目标对象中每个字符对应的对象属性的加权后的特征进行拼接,得到所述待判定的目标对象中每个字符拼接后的特征;根据所述待判定的目标对象中各个字符拼接后的特征,即可得到所述待判定的目标对象的特征。
S602:利用所述匹配判定模型的第二匹配判定模块,比较所述两个待判定的目标对象中的相同对象属性,得出第二匹配判定结果。
在本申请中,可以确定所述两个待判定的目标对象中的相同对象属性,然后每个待判定的目标对象中对应所述相同对象属性的字符的特征,比较两个待判定的目标对象中对应所述相同对象属性的字符的特征的相似度,得出第二匹配判定结果。
为便于理解,假设两个待判定的目标对象分别为“一辆黑色48V的雅迪电动车”和“一辆红色48V的雅迪电动车”,则两个待判定的目标对象中的相同对象属性为“48V”和“雅迪”。
在本申请中,确定每个待判定的目标对象对应所述相同对象属性的字符的特征的具体实现方式可以为:根据所述待判定的目标对象中对应所述相同对象属性的字符的拼接后的特征,确定所述待判定的目标对象对应所述相同对象属性的字符的特征。
S603:利用所述匹配判定模型的综合匹配判定模块,基于所述第一匹配判定结果和所述第二匹配判定结果,确定所述两个待判定的目标对象是否匹配。
在本申请中,可以预置第一匹配判定结果和所述第二匹配判定结果的权重,基于权重得出最终的匹配判定结果,根据最终的匹配判定结果与预置的判定阈值,即可确定两个待判定的目标对象是否匹配。
进一步需要说明的是,将各待处理文本对应的目标对象进行同一对象的关联之后,可以依据关联结果进行其他处理,作为一种可实施方式,可以依据关联结果确定各个文本中缺失的目标对象。比如,在司法领域,对司法卷宗中的各个文书中的赃物进行同一赃物关联之后,可以确定鉴定报告、询问笔录、勘验笔录、辨认笔录等中是否缺失起诉意见书中的赃物。
下面对本申请实施例公开的文本处理装置进行描述,下文描述的文本处理装置与上文描述的文本处理方法可相互对应参照。
参照图6,图6为本申请实施例公开的一种文本处理装置结构示意图。如图6所示,该文本处理装置可以包括:
获取单元11,用于获取待处理文本;
对象集合确定单元12,用于确定所述待处理文本包含的对象集合;
目标对象确定单元13,用于针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
可选地,所述对象集合确定单元,包括:
特征确定单元,用于确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征;
特征拼接单元,用于对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征;
特征识别单元,用于对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果;
对象集合确定子单元,用于基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。
可选地,所述目标对象确定单元,包括:
依存句法关系获取单元,用于获取所述待处理文本中各个字符之间的依存句法关系;
对象属性特征确定单元,用于针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征;
对象属性特征识别单元,用于对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。
可选地,对象属性特征确定单元,包括:
对象识别特征确定单元,用于根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征;
对象属性特征确定子单元,用于根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。
可选地,所述待处理文本为多个,所述装置还包括:
对象关联单元,用于将各待处理文本对应的目标对象进行同一对象的关联。
可选地,所述对象关联单元,包括:
待判定的目标对象确定单元,用于从各待处理文本对应的目标对象中,确定两个待判定的目标对象,所述两个待判定的目标对象分别包含于不同的待处理文本;
判断单元,用于判断所述两个待判定的目标对象是否匹配;如果匹配,则确定所述两个待判定的目标对象是同一对象。
可选地,所述判断单元,具体用于:
利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果,所述匹配判定模型是以目标对象对为训练样本,以目标对象对标注的是否匹配的判定结果为样本标签为训练得到的。
可选地,所述利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果的过程,包括:
利用所述匹配判定模型的第一匹配判定模块,比较所述两个待判定的目标对象,得出第一匹配判定结果;
利用所述匹配判定模型的第二匹配判定模块,比较所述两个待判定的目标对象中的相同对象属性,得出第二匹配判定结果;
利用所述匹配判定模型的综合匹配判定模块,基于所述第一匹配判定结果和所述第二匹配判定结果,确定所述两个待判定的目标对象是否匹配。
参照图7,图7为本申请实施例提供的文本处理设备的硬件结构框图,参照图7,文本处理设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待处理文本;
确定所述待处理文本包含的对象集合;
针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待处理文本;
确定所述待处理文本包含的对象集合;
针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物体或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物体或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物体或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本;
确定所述待处理文本包含的对象集合;
针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本包含的对象集合,包括:
确定所述待处理文本中每个字符的字符级特征,以及,所述待处理文本的文本级特征;
对待处理文本中每个字符,将该字符的字符级特征与所述待处理文本的文本级特征进行拼接,得到该字符拼接后的特征;
对各个字符拼接后的特征进行识别,得到每个字符的对象识别结果;
基于各个字符的对象识别结果,确定所述待处理文本中包含的对象集合。
3.根据权利要求2所述的方法,其特征在于,所述针对所述对象集合中每一对象,确定与所述对象对应的属性,包括:
获取所述待处理文本中各个字符之间的依存句法关系;
针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征;
对所述待处理文本中各个字符的对象属性特征进行识别,确定所述对象集合中每一对象对应的属性。
4.根据权利要求3所述的方法,其特征在于,所述针对所述待处理文本中的每个字符,根据所述字符的字符级特征、所述字符的对象识别结果、所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征,包括:
根据所述字符的字符级特征、所述字符的对象识别结果,生成所述字符的对象识别特征;
根据所述待处理文本中各个字符的对象识别特征,以及,所述待处理文本中各个字符之间的依存句法关系,确定所述字符的对象属性特征。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述待处理文本为多个,所述方法还包括:
将各待处理文本对应的目标对象进行同一对象的关联。
6.根据权利要求5所述的方法,其特征在于,所述将各待处理文本对应的目标对象进行同一对象的关联,包括:
从各待处理文本对应的目标对象中,确定两个待判定的目标对象,所述两个待判定的目标对象分别包含于不同的待处理文本;
判断所述两个待判定的目标对象是否匹配;
如果匹配,则确定所述两个待判定的目标对象是同一对象。
7.根据权利要求6所述的方法,其特征在于,所述判断所述两个待判定的目标对象是否匹配,包括:
利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果,所述匹配判定模型是以目标对象对为训练样本,以目标对象对标注的是否匹配的判定结果为样本标签为训练得到的。
8.根据权利要求7所述的方法,其特征在于,所述利用匹配判定模型处理所述两个待判定的目标对象,得到所述匹配判定模型输出的所述两个待判定的目标对象是否匹配的判定结果的过程,包括:
利用所述匹配判定模型的第一匹配判定模块,比较所述两个待判定的目标对象,得出第一匹配判定结果;
利用所述匹配判定模型的第二匹配判定模块,比较所述两个待判定的目标对象中的相同对象属性,得出第二匹配判定结果;
利用所述匹配判定模型的综合匹配判定模块,基于所述第一匹配判定结果和所述第二匹配判定结果,确定所述两个待判定的目标对象是否匹配。
9.一种文本处理装置,其特征在于,包括:
获取单元,用于获取待处理文本;
对象集合确定单元,用于确定所述待处理文本包含的对象集合;
目标对象确定单元,用于针对所述对象集合中每一对象,确定与所述对象对应的属性,并将该属性与所述对象组合,得到目标对象。
10.一种文本处理设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至8中任一项所述的文本处理方法的各个步骤。
11.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的文本处理方法的各个步骤。
CN202010656329.9A 2020-07-09 2020-07-09 文本处理方法、相关设备及可读存储介质 Active CN111814461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010656329.9A CN111814461B (zh) 2020-07-09 2020-07-09 文本处理方法、相关设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010656329.9A CN111814461B (zh) 2020-07-09 2020-07-09 文本处理方法、相关设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111814461A true CN111814461A (zh) 2020-10-23
CN111814461B CN111814461B (zh) 2024-05-31

Family

ID=72843145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010656329.9A Active CN111814461B (zh) 2020-07-09 2020-07-09 文本处理方法、相关设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111814461B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040006457A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-classification system and method
US20100150448A1 (en) * 2008-12-17 2010-06-17 Xerox Corporation Method of feature extraction from noisy documents
JP2011159078A (ja) * 2010-01-29 2011-08-18 Fujitsu Ltd 情報処理装置、判定プログラム及び判定方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
US20140343923A1 (en) * 2013-05-16 2014-11-20 Educational Testing Service Systems and Methods for Assessing Constructed Recommendations
CN109800414A (zh) * 2018-12-13 2019-05-24 科大讯飞股份有限公司 语病修正推荐方法及***
CN110069631A (zh) * 2019-04-08 2019-07-30 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110210032A (zh) * 2019-05-31 2019-09-06 北京神州泰岳软件股份有限公司 文本处理方法及装置
CN110348012A (zh) * 2019-07-01 2019-10-18 北京明略软件***有限公司 确定目标字符的方法、装置、存储介质及电子装置
CN110532558A (zh) * 2019-08-29 2019-12-03 杭州涂鸦信息技术有限公司 一种基于句子结构深层解析的多意图识别方法及***
CN110569500A (zh) * 2019-07-23 2019-12-13 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110597082A (zh) * 2019-10-23 2019-12-20 北京声智科技有限公司 智能家居设备控制方法、装置、计算机设备及存储介质
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110765235A (zh) * 2019-09-09 2020-02-07 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN111128394A (zh) * 2020-03-26 2020-05-08 腾讯科技(深圳)有限公司 医疗文本语义识别方法、装置、电子设备及可读存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040006457A1 (en) * 2002-07-05 2004-01-08 Dehlinger Peter J. Text-classification system and method
US20100150448A1 (en) * 2008-12-17 2010-06-17 Xerox Corporation Method of feature extraction from noisy documents
JP2011159078A (ja) * 2010-01-29 2011-08-18 Fujitsu Ltd 情報処理装置、判定プログラム及び判定方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
US20140343923A1 (en) * 2013-05-16 2014-11-20 Educational Testing Service Systems and Methods for Assessing Constructed Recommendations
CN109800414A (zh) * 2018-12-13 2019-05-24 科大讯飞股份有限公司 语病修正推荐方法及***
CN110069631A (zh) * 2019-04-08 2019-07-30 腾讯科技(深圳)有限公司 一种文本处理方法、装置以及相关设备
CN110210032A (zh) * 2019-05-31 2019-09-06 北京神州泰岳软件股份有限公司 文本处理方法及装置
CN110348012A (zh) * 2019-07-01 2019-10-18 北京明略软件***有限公司 确定目标字符的方法、装置、存储介质及电子装置
CN110569500A (zh) * 2019-07-23 2019-12-13 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110598206A (zh) * 2019-08-13 2019-12-20 平安国际智慧城市科技股份有限公司 文本语义识别方法、装置、计算机设备和存储介质
CN110532558A (zh) * 2019-08-29 2019-12-03 杭州涂鸦信息技术有限公司 一种基于句子结构深层解析的多意图识别方法及***
CN110765235A (zh) * 2019-09-09 2020-02-07 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN110597082A (zh) * 2019-10-23 2019-12-20 北京声智科技有限公司 智能家居设备控制方法、装置、计算机设备及存储介质
CN111128394A (zh) * 2020-03-26 2020-05-08 腾讯科技(深圳)有限公司 医疗文本语义识别方法、装置、电子设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SIJUN QIN等: "Feature selection for text classification based on part of speech filter and synonym merge", IEEE *
伍大勇;赵世奇;刘挺;张宇;: "融合多类特征的Web查询意图识别", 模式识别与人工智能, no. 03 *

Also Published As

Publication number Publication date
CN111814461B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN109947909B (zh) 智能客服应答方法、设备、存储介质及装置
CN109033229B (zh) 问答处理方法和装置
CN107436922A (zh) 文本标签生成方法和装置
CN110334217B (zh) 一种要素抽取方法、装置、设备及存储介质
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN112270188B (zh) 一种提问式的分析路径推荐方法、***及存储介质
CN110765889B (zh) 法律文书的特征提取方法、相关装置及存储介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN109033478B (zh) 一种用于搜索引擎的文本信息规律分析方法与***
CN113886604A (zh) 一种职位知识图谱生成方法和***
CN111382248A (zh) 一种问题回复方法、装置、存储介质及终端设备
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN113590945B (zh) 一种基于用户借阅行为-兴趣预测的图书推荐方法和装置
CN112765965A (zh) 文本多标签分类方法、装置、设备和存储介质
CN111814461A (zh) 文本处理方法、相关设备及可读存储介质
CN116050382A (zh) 章节检测方法、装置、电子设备和存储介质
CN112507709B (zh) 文档匹配方法以及电子设备、存储装置
CN114741494A (zh) 问答方法、装置、设备及介质
CN114328930A (zh) 基于实体抽取的文本分类方法及***
CN113722421B (zh) 一种合同审计方法和***,及计算机可读存储介质
CN112199948A (zh) 文本内容识别和违规广告识别方法、装置及电子设备
CN114077834A (zh) 确定相似文本的方法、装置以及存储介质
CN110825847A (zh) 目标人物间亲密度识别方法、装置、电子设备及存储介质
CN116796723B (zh) 文本集匹配方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant