CN113761880B - 一种用于文本校验的数据处理方法、电子设备及存储介质 - Google Patents

一种用于文本校验的数据处理方法、电子设备及存储介质 Download PDF

Info

Publication number
CN113761880B
CN113761880B CN202111310983.5A CN202111310983A CN113761880B CN 113761880 B CN113761880 B CN 113761880B CN 202111310983 A CN202111310983 A CN 202111310983A CN 113761880 B CN113761880 B CN 113761880B
Authority
CN
China
Prior art keywords
text
data
target
list
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111310983.5A
Other languages
English (en)
Other versions
CN113761880A (zh
Inventor
刘远
陈旻晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Clp Suzhou Shared Services Co ltd
Beijing Zhongdian Huizhi Technology Co ltd
Original Assignee
Clp Suzhou Shared Services Co ltd
Beijing Zhongdian Huizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clp Suzhou Shared Services Co ltd, Beijing Zhongdian Huizhi Technology Co ltd filed Critical Clp Suzhou Shared Services Co ltd
Priority to CN202111310983.5A priority Critical patent/CN113761880B/zh
Publication of CN113761880A publication Critical patent/CN113761880A/zh
Application granted granted Critical
Publication of CN113761880B publication Critical patent/CN113761880B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种用于文本校验的数据处理方法、电子设备及存储介质,所述方法包括如下步骤:从文本数据库获取样本文本列表并当任一样本文本中存在与预设关键词列表中任一预设关键词一致的关键词时,将样本文本的关键词位置标记为指定起始位置和将样本文本的结束位置标记为指定结束位置,且将指定起始位置和指定结束位置之间的语段作为的目标语段,以基于存在目标语段的样本文本作为训练集数据,构建成训练集;将训练集输入至预设的语言模型中进行训练,得到已训练的语言模型;通过已训练的语言模型,获取目标文本的知识图谱,以使得根据知识图谱与预设的校验数据进行比对。本发明能够提高结构化文本数据和半结构化文本数据比对的准确性格效率。

Description

一种用于文本校验的数据处理方法、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于文本校验的数据处理方法、电子设备及存储介质。
背景技术
现有技术中,将文本数据划分成三种类型分别为:结构化文本数据,随机文本数据和半结构化文本数据;其中,结构化文本数据中,特定位置的文本数据具有特定含义,易于被转化为关系型数据库中的表结构,例如cvs格式的文本数据、OCR处理后的***文本数据或电力***特定领域的结算单数据等;随机文本数据中,各文本位置处的文本数据具有随机含义,例如,互联网上传播的新闻、小说、散文等文学作品等文本数据;半结构化文本数据介于结构化文本数据和随机文本数据之间,特定位置的文本数据可具有特定含义,但难于被转化为关系型数据库中的表结构,例如,电力***等特定领域的合同中的结算条款等。
在一些应用场景中,尤其是电力***的结算审核场景中,需要对结构化文本数据和半结构化文本数据进行比对,即判断结算单据中的结构化数据是否符合合同中的半结构化的结算条款的要求,但是由于半结构化文本数据难于转换为关系型数据库的表结构,因此现有技术中通常采用人工方式进行比对,会导致数据比对的效率和准确率均较低,影响到数据的校验过程。
发明内容
针对上述技术问题,本申请采用的技术方案为一种用于文本校验的数据处理方法、电子设备及存储介质,所述方法包括如下步骤:
S100、从文本数据库的第一文本集中获取m个第一文本均作为样本文本,构建成样本文本列表A=(A1,A2,A3,……,Am),Ai是指第i个样本文本,i=1……m,并当Ai中存在与预设关键词列表中任一预设关键词一致的关键词时,将Ai的关键词位置标记为指定起始位置和将Ai的结束位置标记为指定结束位置,且将所述指定起始位置和所述指定结束位置之间的语段作为Ai的目标语段,以基于存在所述目标语段的Ai作为训练集数据,构建成训练集;
S200、将所述训练集输入至预设的语言模型中进行训练,得到已训练的语言模型;
S300、获取目标文本且将所述目标文本输入至已训练的语言模型中,获取目标文本对应的目标数据列表B=(B1,B2,B3,……,Bn),Bj是指第j个目标数据,j=2……n,n为目标数据数量,并将B中每一Bj以若干个预设的三元组构架,获取所述目标文本对应的目标知识图谱;
S400、获取目标文本的文本ID,并根据目标文本的文本ID,从校验数据列表中获取所述目标文本的文本ID对应的所有校验数据,以每一所述校验数据作为第一中间数据构建成第一中间数据列表;
S500、遍历所述目标知识图谱且当所述目标知识图谱中任一目标数据与所述第一中间数据列表中对应的第一中间数据不一致时,将所述第一中间数据替换为对应的所述目标数据。
本发明还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种获取目标位置的数据处理***可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明获取样本文本列表且当样本文本中存在与预设关键词列表中任一预设关键词一致的关键词时,将样本文本的关键词位置标记为指定起始位置和将样本文本的结束位置标记为指定结束位置,且将所述指定起始位置和所述指定结束位置之间的语段作为样本文本的目标语段,以基于存在所述目标语段的样本文本作为训练集数据,构建成训练集;将所述训练集输入至预设的语言模型中进行训练,得到已训练的语言模型;
实现对语言模型进行优化,能够准确和高效率的确定出可以提取特定含义数据的目标语段,减少全文本数据的提取和其他数据的干扰,便于文本中数据的比对;
同时,将目标文本输入至已训练的语言模型中,获取目标文本对应的特征值列表且将每一特征值以若干个预设的三元组构架,获取目标文本对应的目标知识图谱;能够将半结构化的文本中数据以知识图谱的形式进行存储,优化了存储方式和便于文本中数据的比对,提高了结构化文本数据和半结构化文本数据校验的效率和准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的用于文本校验的数据处理方法的流程图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于文本校验的数据处理方法、电子设备及存储介质的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种用于文本校验的数据处理方法,所述方法还包括如下步骤,如图1所示:
S100、从文本数据库的第一文本集中获取m个第一文本均作为样本文本,构建成样本文本列表A=(A1,A2,A3,……,Am),Ai是指第i个样本文本,i=1……m,并当Ai中存在与预设关键词列表中任一预设关键词一致的关键词时,将Ai的关键词位置标记为指定起始位置和将Ai的结束位置标记为指定结束位置,且将所述指定起始位置和所述指定结束位置之间的语段作为Ai的目标语段,以基于存在所述目标语段的Ai作为训练集数据,构建成训练集。
具体地,在S100步骤中之前还包括如下步骤:
获取所有第一文本的文本类型,并按照预设的文本划分规则,以将相同类型的第一文本进行归类处理,构建成若干个第一文本集,本实施例中可以采取现有的文本归类处理方法,在此不再赘述。
优先地,所述文本划分规则是指预先设置的第一文本的文本类型进行划分文本的规则,其中,第一文本的文本类型例如采购文本、统计文本或者订单文本等。
具体地,所述第一文本是指存储半结构化数据的文本,其中,基于第一文本集构建的A中所有的样本文本均为同一类型的文本,便于预设的语言模型能够进行训练,提高模型训练的准确性,进而提高了结构化文本数据和半结构化文本数据比对的准确性和效率。
具体地,在S100步骤中,Ai中的关键词通过自然语言处理方法进行确定,能够在样本文本中提取出关键词用于确定出能够获取关键数据的语段,提高结构化文本数据和半结构化文本数据比对的准确性和效率,本实施例中采取现有的自然语言处理方法,在此不再赘述。
优先地,预设关键词列表为预先设置的关键词列表且所述关键词列表字段中包括任一所述第一文本的文本类型对应的关键词,可以理解为:在S100步骤中,遍历Ai且根据Ai文本类型,从预设关键词列表中获取Ai文本类型对应的所有预设关键词作为目标关键词,以将Ai的关键词与所有的目标关键词进行对比,能够有利于样本文本中关键词的比对,确定出能够获取关键数据的语段,提高结构化文本数据和半结构化文本数据比对的准确性和效率。
具体地,所述关键数据是指样本文本中局域特殊含义的数据,所述特殊含义需要根据文本类型进行确定,在此不再赘述。
S200、将所述训练集输入至预设的语言模型中进行训练,得到已训练的语言模型。
具体地,在S200步骤中还包括如下步骤:
S201、将所述训练集中Ai输入至预设的语言模型中,获取Ai对应的关键数据,构建成关键数据列表Si,本实施例中可以采取本领域中任一语言模型获取特征值的方法,在此不再赘述;
S203、获取Ai对应的文本ID,并根据Ai对应的文本ID,从校验数据列表中获取所述Ai对应的文本ID的所有校验数据,以每一所述校验数据作为第二中间数据构建成第二中间数据列表;
S205、遍历Ai对应的关键数据列表且根据所述Ai对应的关键数据列表和Ai对应的第二中间数据列表,确定出A的概率值F,F符合如下条件:
Figure 686718DEST_PATH_IMAGE001
,其中,Si为所述Ai对应的关键数据列表中关键数据的数量,
Figure 541542DEST_PATH_IMAGE002
为 所述Ai对应的关键数据列表中与所述第二中间数据列表中对应的第二中间数据不一致的 数据数量;
S207、遍历A且当F≥预设的概率阈值时,得到已训练的语言模型;
S209、F<预设的概率阈值时,重新获取样本文本列表
Figure 491918DEST_PATH_IMAGE003
,以根据
Figure 824810DEST_PATH_IMAGE004
进行迭代至 F≥预设的概率阈值时,得到已训练的语言模型,其中,迭代的过程为基于
Figure 311286DEST_PATH_IMAGE005
执行S100步骤 处理后,重新获取
Figure 71432DEST_PATH_IMAGE005
对应的概率的过程,在此不再赘述。
进一步地,所述文本ID是指识别文本的唯一标识。
优先地,所述语言模型为Bert模型。
优先地,在S209步骤中,
Figure 135203DEST_PATH_IMAGE005
与A可具有相同的样本文本,进一步可以理解为:当对 所述语言模型进行重新训练时,需要重新获取的
Figure 770321DEST_PATH_IMAGE006
与A为相同的文本类型,并
Figure 111304DEST_PATH_IMAGE005
中包括Ai 对应的概率Fi<预设的概率阈值的样本文本且不包括Ai对应的概率Fi≥预设的概率阈值的 样本文本,其中,Fi符合如下条件:
Figure 776772DEST_PATH_IMAGE007
进一步地,所述概率阈值范围为90~98%,优先地,所述概率阈值为90%。
在另一具体的实施例中,包括如下步骤:
获取相同的样本文本列表A,并将所述训练集中Ai输入至预设的语言模型中,获取Ai对应的关键数据,构建成关键数据列表;
获取Ai对应的文本ID,并根据Ai对应的文本ID,从校验数据列表中获取所述Ai对应的文本ID的所有校验数据,以每一所述校验数据作为第二中间数据构建成第二中间数据列表;
遍历Ai对应的关键数据列表且根据所述Ai对应的关键数据列表和Ai对应的第二中 间数据列表,确定出A的概率值
Figure 100002_DEST_PATH_IMAGE008
采用上述实施例的方法获取的大量实验数据可知,在采用相同的样本文本列表的 情况下,
Figure 639423DEST_PATH_IMAGE008
相对于F至少减少了10%,即未对样本文本进行目标语段标记对应的F与对样本 文本进行目标语段标记对应的F减少了10%,能够进一步说明本实施中通过核对目标语段的 确定,减少全文本数据的提取和其他数据的干扰,有利于文本中数据的比对。
S300、获取目标文本且将所述目标文本输入至已训练的语言模型中,获取目标文本对应的目标数据列表B=(B1,B2,B3,……,Bn),Bj是指第j个目标数据,j=2……n,n为目标数据数量,并将B中每一Bj以若干个预设的三元组构架,获取所述目标文本对应的目标知识图谱。
具体地,在S300步骤中还包括如下步骤:
将所有Bj均作为实体***至每一预设的三元组构架,构建成若干个所述目标文本的知识图谱,且将若干个所述目标文本的知识图谱中***最大数量Bj的知识图谱作为目标知识图谱,可以理解为:每一种第一文本的文本类型对应若干个预设的三元组构架,并将Bj作为实体***至每一预设的三元组构架,且满足B中最大目标数据***的预设的三元组构架,构建的知识图谱作为目标知识图谱,能够快速构建出适合的知识图谱,以存储数据,同时也有利于根据知识图谱与校验数据进行比对,即半结构化文本数据和结构化文本数据的比对;其中,所述目标数据是指目标文本中特殊含义的数据,所述特殊含义需要根据文本类型进行确定,在此不再赘述。
具体地,所述目标文本是指在文本数据库中除样本文本之外的任一第一文本,且所述目标文本与用于训练所述语言模型的训练集中样本文本的文本类型一致,可以理解为:所述目标文本与A中所有样本文本的文本类型一致,同时所述目标文本无需标记语段的起始位置。
S400、获取目标文本的文本ID,并根据目标文本的文本ID,从校验数据列表中获取所述目标文本的文本ID对应的所有校验数据,以每一所述校验数据作为第一中间数据构建成第一中间数据列表。
具体地,在S400步骤中还包括如下步骤:
根据第一文本的文本ID,从文本数据库中获取第一文本的文本ID对应的若干个第二文本,并将所有的第二文本进行预处理,从所述第二文本中获取指定数据作为第一文本的校验数据,以根据所有第一文本的校验数据和第一文本的文本ID,构建成校验数据列表,其中,所述第二文本是指记录了用于校验第一文本的数据对应的文本,所述第二文本为结构化的文本。
S500、遍历所述目标知识图谱且当所述目标知识图谱中任一目标数据与所述第一中间数据列表中对应的第一中间数据不一致时,将所述第一中间数据替换为对应的所述目标数据。
具体地,在S500步骤中还包括如下步骤:
S501、遍历所述目标知识图谱且从所述目标知识图谱中获取目标三元组架构中每一实体对应的目标数据,其中,S501步骤中的所述目标三元组架构是指所述目标知识图谱对应的三元组架构;
S502、根据所述目标三元组架构的实体,从所述第一中级数据列表中获取所述实体对应的第一中间数据,可以理解为:所述目标三元组架构中实体为校验数据列表中的字段名;
S503、将所述目标数据与对应的所述第一中间数据进行比对;
S505、当所述目标数据与对应的所述第一中间数据不一致时,将所述第一中间数据替换为对应的所述目标数据。
上述实施例中,能够实现结构化数据对半结构化数据的比对,高了结构化数据对半结构化数据校验的效率和准确率。
本实施例获取样本文本列表且当样本文本中存在与预设关键词列表中任一预设关键词一致的关键词时,将样本文本的关键词位置标记为指定起始位置和将样本文本的结束位置标记为指定结束位置,且将所述指定起始位置和所述指定结束位置之间的语段作为样本文本的目标语段,以基于存在所述目标语段的样本文本作为训练集数据,构建成训练集;将所述训练集输入至预设的语言模型中进行训练,得到已训练的语言模型,实现对语言模型进行优化,能够准确和高效率的确定出可以提取特定含义数据的目标语段,减少全文本数据的提取和其他数据的干扰,便于文本中数据的比对。
同时,将目标文本输入至已训练的语言模型中,获取目标文本对应的特征值列表且将每一特征值以若干个预设的三元组构架,获取目标文本对应的目标知识图谱,能够将半结构化的文本中数据以知识图谱的形式进行存储,优化了存储方式和便于文本中数据的比对,提高了数据校验的效率和准确率。
本申请的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本申请的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (8)

1.一种用于文本校验的数据处理方法,其特征在于,所述方法还包括如下步骤:
S100、从文本数据库的第一文本集中获取m个第一文本均作为样本文本,构建成样本文本列表A=(A1,A2,A3,……,Am),Ai是指第i个样本文本,i=1……m,并当Ai中存在与预设关键词列表中任一预设关键词一致的关键词时,将Ai的关键词位置标记为指定起始位置和将Ai的结束位置标记为指定结束位置,且将所述指定起始位置和所述指定结束位置之间的语段作为Ai的目标语段,以基于存在所述目标语段的Ai作为训练集数据,构建成训练集,其中,所述第一文本是指存储半结构化数据的文本;
S200、将所述训练集输入至预设的语言模型中进行训练,得到已训练的语言模型,在S200步骤中还包括如下步骤:
S201、将所述训练集中Ai输入至预设的语言模型中,获取Ai对应的关键数据,构建成关键数据列表Si
S203、获取Ai对应的文本ID,并根据Ai对应的文本ID,从校验数据列表中获取所述Ai对应的文本ID的所有校验数据,以每一所述校验数据作为第二中间数据构建成第二中间数据列表;
S205、遍历Ai对应的关键数据列表且根据所述Ai对应的关键数据列表和Ai对应的第二中间数据列表,确定出A的概率值F,F符合如下条件:
Figure 279823DEST_PATH_IMAGE002
,其中,Si为所述Ai对应的关键数据列表中关键数据的数量,
Figure 774389DEST_PATH_IMAGE004
为所述Ai对应的关键数据列表中与所述第二中间数据列表中对应的第二中间数据不一致的数据数量;
S207、遍历A且当F≥预设的概率阈值时,得到已训练的语言模型;
S209、F<预设的概率阈值时,重新获取样本文本列表
Figure DEST_PATH_IMAGE006
,以根据
Figure 117121DEST_PATH_IMAGE006
进行迭代至F≥预设的概率阈值时,得到已训练的语言模型;
在S209步骤中包括:
Figure 253705DEST_PATH_IMAGE006
与A可具有相同的样本文本,当对所述语言模型进行重新训练时,需要重新获取的
Figure 860266DEST_PATH_IMAGE006
与A为相同的文本类型,并
Figure 791313DEST_PATH_IMAGE006
中包括Ai对应的概率Fi<预设的概率阈值的样本文本且不包括Ai对应的概率Fi≥预设的概率阈值的样本文本,其中,
Fi符合如下条件:
Figure DEST_PATH_IMAGE008
S300、获取目标文本且将所述目标文本输入至已训练的语言模型中,获取目标文本对应的目标数据列表B=(B1,B2,B3,……,Bn),Bj是指第j个目标数据,j=2……n,n为目标数据数量,并将B中每一Bj以若干个预设的三元组构架,获取所述目标文本对应的目标知识图谱;
S400、获取目标文本的文本ID,并根据目标文本的文本ID,从校验数据列表中获取所述目标文本的文本ID对应的所有校验数据,以每一所述校验数据作为第一中间数据构建成第一中间数据列表,其中,所述目标文本是指在文本数据库中除样本文本之外的任一第一文本;
其中,在S400步骤中还包括如下步骤:根据第一文本的文本ID,从文本数据库中获取第一文本的文本ID对应的若干个第二文本,并将所有的第二文本进行预处理,从所述第二文本中获取指定数据作为第一文本的校验数据,以根据所有第一文本的校验数据和第一文本的文本ID,构建成校验数据列表,其中,所述第二文本是指记录了用于校验第一文本的数据对应的文本,所述第二文本为结构化的文本;
S500、遍历所述目标知识图谱且当所述目标知识图谱中任一目标数据与所述第一中间数据列表中对应的第一中间数据不一致时,将所述第一中间数据替换为对应的所述目标数据。
2.根据权利要求1所述的用于文本校验的数据处理方法,其特征在于,在S100步骤中,Ai中的关键词通过自然语言处理方法进行确定。
3.根据权利要求1所述的用于文本校验的数据处理方法,其特征在于,在S300步骤中还包括如下步骤:
将所有Bj均作为实体***至每一预设的三元组构架,构建成若干个所述目标文本的知识图谱,且将若干个所述目标文本的知识图谱中***最大数量Bj的知识图谱作为目标知识图谱。
4.根据权利要求1所述的用于文本校验的数据处理方法,其特征在于,所述目标文本是指在文本数据库中除样本文本之外的任一第一文本。
5.根据权利要求1所述的用于文本校验的数据处理方法,其特征在于,在S400步骤中还包括如下步骤:
根据第一文本的文本ID,从文本数据库中获取第一文本的文本ID对应的若干个第二文本,并将所有的第二文本进行预处理,提取出关键数据作为第一文本的校验数据,以根据所有第一文本的校验数据和第一文本的文本ID,构建成校验数据列表。
6.根据权利要求5所述的用于文本校验的数据处理方法,其特征在于,所述第二文本是指记录了用于校验第一文本的数据对应的文本。
7.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~6中任意一项的所述方法。
8.一种电子设备,其特征在于,包括处理器和权利要求7中的非瞬时性计算机可读存储介质。
CN202111310983.5A 2021-11-08 2021-11-08 一种用于文本校验的数据处理方法、电子设备及存储介质 Active CN113761880B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111310983.5A CN113761880B (zh) 2021-11-08 2021-11-08 一种用于文本校验的数据处理方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111310983.5A CN113761880B (zh) 2021-11-08 2021-11-08 一种用于文本校验的数据处理方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113761880A CN113761880A (zh) 2021-12-07
CN113761880B true CN113761880B (zh) 2022-03-04

Family

ID=78784725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111310983.5A Active CN113761880B (zh) 2021-11-08 2021-11-08 一种用于文本校验的数据处理方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113761880B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168608B (zh) * 2021-12-16 2022-07-15 中科雨辰科技有限公司 一种用于更新知识图谱的数据处理***
CN114021200B (zh) * 2022-01-07 2022-04-15 每日互动股份有限公司 一种用于pkg模糊化的数据处理***
CN115858208B (zh) * 2022-09-29 2024-05-14 杭州中电安科现代科技有限公司 一种获取目标数据提取文本列表的方法
CN115544974A (zh) * 2022-11-28 2022-12-30 药融云数字科技(成都)有限公司 一种文本数据提取方法、***、存储介质及终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200364233A1 (en) * 2019-05-15 2020-11-19 WeR.AI, Inc. Systems and methods for a context sensitive search engine using search criteria and implicit user feedback
CN111753086A (zh) * 2020-06-11 2020-10-09 北京天空卫士网络安全技术有限公司 一种垃圾邮件识别方法和装置
CN113239208A (zh) * 2021-05-06 2021-08-10 广东博维创远科技有限公司 一种基于知识图谱的标注训练模型
CN113254667A (zh) * 2021-06-07 2021-08-13 成都工物科云科技有限公司 基于深度学习模型的科技人物知识图谱构建方法、装置及终端

Also Published As

Publication number Publication date
CN113761880A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN113761880B (zh) 一种用于文本校验的数据处理方法、电子设备及存储介质
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
JP5785617B2 (ja) データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品
EP3819785A1 (en) Feature word determining method, apparatus, and server
US10163063B2 (en) Automatically mining patterns for rule based data standardization systems
US9852122B2 (en) Method of automated analysis of text documents
CN107102993B (zh) 一种用户诉求分析方法和装置
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN112381038B (zh) 一种基于图像的文本识别方法、***和介质
CN108153728B (zh) 一种关键词确定方法及装置
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN107958068B (zh) 一种基于实体知识库的语言模型平滑方法
CN114266256A (zh) 一种领域新词的提取方法及***
CN111209373A (zh) 基于自然语义的敏感文本识别方法和装置
CN109344233B (zh) 一种中文人名识别方法
CN110909532B (zh) 用户名称匹配方法、装置、计算机设备和存储介质
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN113420564B (zh) 一种基于混合匹配的电力铭牌语义结构化方法及***
CN112989040B (zh) 一种对话文本标注方法、装置、电子设备及存储介质
CN111341404B (zh) 一种基于ernie模型的电子病历数据组解析方法及***
WO2021056740A1 (zh) 语言模型构建方法、***、计算机设备及可读存储介质
CN105824871A (zh) 一种图片检测方法与设备
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant