CN113887202A - 文本纠错方法、装置、计算机设备及存储介质 - Google Patents

文本纠错方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113887202A
CN113887202A CN202111150351.7A CN202111150351A CN113887202A CN 113887202 A CN113887202 A CN 113887202A CN 202111150351 A CN202111150351 A CN 202111150351A CN 113887202 A CN113887202 A CN 113887202A
Authority
CN
China
Prior art keywords
score
gram model
information
text
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111150351.7A
Other languages
English (en)
Inventor
莫琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202111150351.7A priority Critical patent/CN113887202A/zh
Publication of CN113887202A publication Critical patent/CN113887202A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请属于人工智能领域,涉及一种文本纠错方法包括获取文本信息;采用前向最大匹配法处理文本信息,得到分词集合;通过N‑gram模型判断所述分词集合中各分词是否有错别字,其中N‑gram模型基于背景信息训练得到;当所述分词集合中的分词有错别字时,获取带有错别字的目标分词位置;通过自定义词典召回候选词集合;对所述候选词集合进行筛选处理,获取符合预设筛选条件的候选词作为正确候选词,在所述目标分词位置处将所述错别字替换为所述正确候选词。本申请还提供一种文本纠错装置、设备及存储介质。此外,本申请还涉及区块链技术,N‑gram模型和自定义词典可存储于区块链中。采用本发明有效提高中文本纠错响应速率。

Description

文本纠错方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及文本纠错方法、装置、计算机 设备及存储介质。
背景技术
文本纠错是指对中文语句进行自动检查、自动纠错,其目的在于提高语 言准确性的同时减少人工校验成本。现有技术中常用pycorrector方法实现 文本纠错,虽然自定义词典(包括近音词典、近形词典和混淆词典)中词汇 量越大,错误检索成功率就越高,但pycorrector方法采用全局遍历的方式 进行错误检测,自定义词典词汇量越大,相应的检索所需也大大延长,线上 文本纠错响应速率低。
发明内容
本申请实施例的目的在于提出一种文本纠错方法、装置、计算机设备及 存储介质,以解决现有技术中文本纠错响应速率低的问题。
为了解决上述技术问题,本申请实施例提供一种文本纠错方法,采用了 如下所述的技术方案:
获取文本信息;
采用前向最大匹配法处理所述文本信息,得到分词集合,其中所述分词 集合包括多个分词;
通过N-gram模型判断所述分词集合中各分词是否有错别字,其中所述 N-gram模型基于背景信息训练得到,且N≧1,所述背景信息包括行业领域信 息、通用语料信息和地区信息中的至少一种;
当所述分词集合中的分词有错别字时,获取带有错别字的目标分词位置;
通过自定义词典召回候选词集合,其中所述自定义词典包括近音词典、 近形词典、混淆词典中的至少一种,所述候选词集合包括至少一个候选词;
对所述候选词集合进行筛选处理,获取符合预设筛选条件的候选词作为 正确候选词,在所述目标分词位置处将所述错别字替换为所述正确候选词。
进一步的,在获取文本信息的步骤之后、在采用前向最大匹配法处理所 述文本信息的步骤之前还包括:
对所述文本信息进行分句处理。
进一步的,采用前向最大匹配法处理所述文本信息的步骤包括:
步骤A:根据预设的最大输入字符长度对所述文本信息进行切分处理,得 到字符组和剩余文本信息,其中所述字符组包括至少一个字符;
步骤B:通过预设的分词词典对所述字符组进行匹配处理,判断所述字符 组是否为所述分词词典中的词组;
步骤C:当所述字符组为所述分词词典中的词组时,将所述字符组作为分 词,并将所述剩余文本信息替换所述文本信息,重复执行所述步骤A,直至所 述文本信息中最末端字符已被切分处理;
步骤D:当所述字符组不为分词词典中的词组时,将所述字符组最末端的 字符去除,将已去除最末端字符的字符组作为次字符组,并将去除的字符加 入至所述剩余文本信息的最首端,得到次剩余文本信息,将所述次字符组替 换所述字符组和将所述次剩余文本信息替换所述剩余文本信息后,重复执行 所述步骤B,直至所述文本信息中最末端字符已被切分处理;
步骤E:当所述文本信息中最末端字符已被切分处理后,将得到的所有分 词汇合形成所述分词集合。
进一步的,所述N-gram模型包括2-gram模型和3-gram模型,通过N-gram 模型判断分词集合中各分词是否有错别字的步骤包括:
通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的 分词进行打分处理,得到所属所述2-gram模型的第一分值和所属所述3-gram 模型的第二分值;
判断所述第一分值和所述第二分值是否均低于预设阈值;
若所述第一分值和所述第二分值均低于所述预设阈值,则确定所述分词 集合中有错别字;
若所述第一分值和所述第二分值均不低于所述预设阈值,则确定所述分 词集合中无错别字。
进一步的,所述N-gram模型包括至少两个2-gram模型和至少两个3-gram 模型;通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻 的分词进行打分处理,得到所属所述2-gram模型的第一分值和所属所述 3-gram模型的第二分值的步骤包括:
每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理,得 到第一子分值,所述第一分值包括多个第一子分值,其中每个所述2-gram模 型的背景信息不同;
每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理,得 到第二子分值,所述第二分值包括多个第二子分值,其中每个所述3-gram模 型的背景信息不同。
进一步的,在每个所述2-gram模型均对所述分词集合中相邻的分词进行 打分处理,得到第一子分值,;每个所述3-gram模型均对所述分词集合中相 邻的分词进行打分处理,得到第二子分值,的步骤之前包括:
确定所述分词集合中相邻的分词所属行业领域信息是否为预设行业领域, 得到判断结果;
基于所述判断结果确定是否对获得的所述第一子分值和所述第二子分值 加权处理。
进一步的,对所述候选词集合进行筛选处理的步骤包括:
通过逻辑回归模型对所述候选词集合进行粗筛选处理;
通过Xgboost模型对经过粗筛选的所述候选词集合进行精筛选处理。
为了解决上述技术问题,本申请实施例还提供一种文本纠错装置,采用 了如下所述的技术方案:
获取模块,用于获取文本信息;
分词模块,用于采用前向最大匹配法处理所述文本信息,得到分词集合, 其中所述分词集合包括多个分词;
检测模块,用于通过N-gram模型判断所述分词集合中各分词是否有错别 字,其中所述N-gram模型基于背景信息训练得到,且N≧1,所述背景信息包 括行业领域信息、通用语料信息和地区信息中的至少一种;
定位模块,用于当所述分词集合中的分词有错别字时,获取带有错别字 的目标分词位置;
候选召回模块,用于通过自定义词典召回候选词集合,其中所述自定义 词典包括近音词典、近形词典、混淆词典中的至少一种,所述候选词集合包 括至少一个候选词;
替换模块,用于对所述候选词集合进行筛选处理,获取符合预设筛选条 件的候选词作为正确候选词,在所述目标分词位置处将所述错别字替换为所 述正确候选词。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了 如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理 器执行所述计算机可读指令时实现如上所述的文本纠错方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质, 采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指 令被处理器执行时实现如上所述的文本纠错方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请通过获取文本信息,采用前向最大匹配法处理所述文本信息,得 到分词集合,其中所述分词集合包括多个分词,然后通过N-gram模型判断所 述分词集合中各分词是否有错别字,其中所述N-gram模型基于背景信息训练 得到,且N≧1,背景信息包括行业领域信息、通用语料信息和地区信息中的 至少一种,当所述分词集合中的分词有错别字时,获取带有错别字的目标分 词位置,通过自定义词典召回候选词集合,其中所述候选词集合包括至少一 个候选词,对所述候选词集合进行筛选处理,获取符合预设筛选条件的候选词作为正确候选词,在所述目标分词位置处将所述错别字替换为所述正确候 选词;本申请采用前向最大匹配算法进行分词,并通过基于背景信息训练得 到的N-gram模型对分词集合中的各分词进行错误检索,以实现对文本的针对 性检索的目的,有利于减少错误词检索所需耗时的同时,保证了错误词检索 准确率,提升文本线上错别字纠错的响应速率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需 要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2根据本申请的文本纠错方法的一个实施例的流程图;
图3是根据本申请的文本纠错装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技 术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的 术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的 说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们 的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或 上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描 述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或 特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该 短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备 选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施 例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对 本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,***架构100可以包括终端设备101、102、103,网络104 和服务器105。网络104用以在终端设备101、102、103和服务器105之间提 供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信 链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互, 以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户 端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、 邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电 子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面 3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家 压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、 103上显示的页面提供支持的后台服务器。服务器可以是独立的服务器,也可 以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、 中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network, CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例所提供的文本纠错方法一般由服务器/终端 设备执行,相应地,文本纠错装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。 根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的文本纠错方法的一个实施例的流程图。 所述的文本纠错方法,包括以下步骤:
步骤201:获取文本信息。
具体地,用户通过输入设备向上述终端设备/服务器输入文本信息(如中 文文本)。
其中,输入设备包括虚拟键盘、实体键盘、语音输入装置中的一种或多 种。
步骤202:采用前向最大匹配法处理所述文本信息,得到分词集合,其中 所述分词集合包括多个分词。
具体地,对文本信息采用前向最大匹配法处理之前,预先定义最大输入 字符的长度(一般而言最大输入字符长度为词典中最长的词组长度,当然最 大输入字符长度也可由用户自行定义);在实际应用中,采用前向最大匹配法 对文本进行分词处理,以预先定义的最大输入字符长度为基准对文本信息进 行分切,得到多个分词,并由上述多个分词汇合形成所述分词集合。
步骤203:通过N-gram模型判断所述分词集合中各分词是否有错别字, 其中所述N-gram模型基于背景信息训练得到,且N≧1,所述背景信息包括行 业领域信息、通用语料信息和地区信息中的至少一种。
具体地,行业领域信息:以金融领域为例,如在股票市场中,“蒸发”的 词组含义指的是股票市值蒸发,一般是指某个时点(比如以年或月为计算单 位)的股票市值与之前的股票市值对比,由于股价的下跌,导致市值也降低, 此时市值的缩水就叫股票市值蒸发;但在日常生活中,“蒸发”的词组含义为 用于形容液体转化为气体的现象,因此引入行业领域信息对N-gram模型进行 训练,能够基于行业领域的差异进行更细致的分类,提升分词中错别字的检 错准确率;当然行业领域信息还可为行业垂直领域信息,对主领域划分为多 个分支领域,如金融领域,细致划分为证券、银行、保险等子领域,这样以 进一步的提升分词中错别字的检错准确率。
通用语料信息:如“贷款”的词组含义是银行或其他金融机构按一定利 率和必须归还等条件出借货币资金的一种信用活动形式,简单通俗的理解就 是需要利息的借钱,此“贷款”词组在各行业领域中的意思相同或相近,因 此引入通用语料信息对N-gram模型进行训练,以提升N-gram模型的适用性。
地区信息:以金融领域为例,如“押金”为A地区上的词组,“按金”为 B地区上的词组,但“押金”和“按金”二者的含义一致,均表示一方当事人 将一定费用存放在对方处保证自己的行为不会对对方利益造成损害,如果造 成损害的可以以此费用据实支付或另行赔偿,因此引入通用地区信息对 N-gram模型进行训练,以进一步N-gram模型的适用性。
进一步说明的是,背景信息包括行业领域信息、通用语料信息和地区信 息中的一种或多种,即背景信息可为行业领域信息、通用语料信息和地区信 息中的其中一个,或行业领域信息、通用语料信息和地区信息中的至少两个, 以满足不同的场景使用需求,提升N-gram模型的适用性。
N-gram模型基于背景信息训练得到,可基于当前背景信息的差异性,选 取符合需求的N-gram模型,以提高错别字检索的准确性,同时也减少错别字 检索的耗时;如在金融领域内,可基于金融领域的垂直领域、通用预料、各 地区上用词的差异训练N-gram模型。
步骤204:当所述分词集合中的分词有错别字时,获取带有错别字的目标 分词位置。
具体地,带有错别字的目标分词位置可通过标记定位,如采用字体加粗、 颜色修改(如字体颜色从黑色修改成红色)、划线标记(如添加下划线、波浪 线、锯齿线等)、字体缩放(通过放大或缩小方式改变字体的字号)、字体主 题修改(如原字体为宋体主题修改成楷体主题)中的一种或多种。
步骤205:通过自定义词典召回候选词集合,其中所述自定义词典包括近 音词典、近形词典、混淆词典中的至少一种,所述候选词集合包括至少一个 候选词。
具体地,混淆词典为编辑距离的1-gram模型、2-gram模型混淆词典,为 了提高字典的索引效率及减少搜索时间,将1gram模型词及词频和1gram模 型近音词词典使用双数组字典树存储,而2-gram模型词典采用CSR数据结构 存储,同时2-gram模型的近音混淆词可以从以上词典里恢复出来。而为了进 行编辑距离召回候选词集合,通过建立分层倒排索引词典从而提高搜索效率。
进一步的,近音词典如[凶、熊、兄、雄],若检测出“凶”出现错误, 则候选词为[熊、兄、雄]。近形词典如[验、检、捡、俭],若检测出“验” 出现错误,则候选词为[检、捡、俭]。混淆字典如[正加、增加],若检测出 “正加”出现错误,则候选词为[增加]。
步骤206:对所述候选词集合进行筛选处理,获取符合预设筛选条件的候 选词作为正确候选词,在所述目标分词位置处将所述错别字替换为所述正确 候选词。
具体地,筛选条件为比较各候选词的分数,选取分数最高且排名第一的 候选词作为正确候选词,并用所述正确候选词替换目标分词中的错别字。
在本实施例的一些可选的实现方式中,在步骤201之后,步骤202之前, 还包括:
对所述文本信息进行分句处理。
具体地,如基于标点符号对文本进行分句处理;进一步的,如在手持设 备或便携式设备中,通过JAVA语言内置的函数完成句子的拆分。
在本实施例的一些可选的实现方式中,在步骤202中,采用前向最大匹 配法处理所述文本信息的步骤包括:
根据预先定义的最大输入字符长度对所述文本信息进行切分处理,得到 字符组和剩余文本信息,其中所述字符组包括至少一个字符;
步骤A:根据预设的最大输入字符长度对所述文本信息进行切分处理,得 到字符组和剩余文本信息,其中所述字符组包括至少一个字符;
步骤B:通过预设的分词词典对所述字符组进行匹配处理,判断所述字符 组是否为所述分词词典中的词组;
步骤C:当所述字符组为所述分词词典中的词组时,将所述字符组作为分 词,并将所述剩余文本信息替换所述文本信息,重复执行所述步骤A,直至所 述文本信息中最末端字符已被切分处理;
步骤D:当所述字符组不为分词词典中的词组时,将所述字符组最末端的 字符去除,将已去除最末端字符的字符组作为次字符组,并将去除的字符加 入至所述剩余文本信息的最首端,得到次剩余文本信息,将所述次字符组替 换所述字符组和将所述次剩余文本信息替换所述剩余文本信息后,重复执行 所述步骤B,直至所述文本信息中最末端字符已被切分处理;
步骤E:当所述文本信息中最末端字符已被切分处理后,将得到的所有分 词汇合形成所述分词集合。
具体地,以下以预设的最大输入字符长度(MAX_LENGTH)为3,并结合金 融场景中身份证错误提示语句进行举例说明:如文本信息为“***提示身份 证号码不正确”,通过预设的最大输入字符长度(MAX_LENGTH)将“***提示 身份证号码不正确”进行切分,得到“***提”的字符组、和“示身份证号 码不正确”的剩余文本信息;之后通过分词词典对“***提”的字符组进行 匹配处理,经分词词典检索,“***提”的字符组与分词词典中的任一词组匹 配不成功,则将“***提”字符组中的“提”字符去除,得到“***”次字 符组和“提”字符,“提”字符则加入“示身份证号码不正确”的剩余文本信 息的最首段,得到“提示身份证号码不正确”的次剩余文本信息,之后将“系 统”次字符组替换字符组和将“提示身份证号码不正确”的次剩余文本信息 体替换剩余文本信息后,再次通过分词词典对“***”的字符组进行匹配处 理,直至所述文本信息中最末端字符已被切分处理,当“***”字符组与分词词典中的任一词组匹配成功时,则将“***”的字符组作为分词,之后通 过预设的最大输入字符长度(MAX_LENGTH)对已被所述剩余文本信息替换的 所述文本信息进行切分处理,重复上述分词词典的匹配步骤,如此类推,直 至剩余文本信息中最末端字符已被切分处理,之后将得到的所有分词汇合形 成所述分词集合。
具体地,分词词典包括多个词组,用于供字符组进行词组匹配,可理解 为,若字符组为“***提”时,经与分词词典匹配,查无此字符组后,则去 除“提”字,得到“***”的次字符组,后再与分词词典匹配,经与分词词 典匹配成功后,则输出该次字符组,并记为分词。
在一些可选的实现方式中,在步骤203中,所述N-gram模型包括2-gram 模型和3-gram模型,通过N-gram模型判断分词集合中是否有错别字,包括:
通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的 分词进行打分处理,得到所属所述2-gram模型的第一分值和所属所述3-gram 模型的第二分值;
判断所述第一分值和所述第二分值是否均低于预设阈值;
若所述第一分值和所述第二分值均低于所述预设阈值,则确定所述分词 集合中有错别字;
若所述第一分值和所述第二分值均不低于所述预设阈值,则确定所述分 词集合中无错别字。
具体地,以金融领域为例,若语句为“个人证券帐户”,则经过步骤S2 的分词处理后,得到包括有“个人”、“证券”、“帐户”分词集合,对于2-gram 模型中,将[个人、证券]和[证券、帐户]分别导入2-gram模型中,得到第一 分值A1和第一分值A2,同时对于3-gram模型中将[个人、证券、帐户]导入 3-gram模型中,得到第二分值,判断第一分值A1、第一分值A2和第二分值 是否低于预设阈值,基本规律是,当第一分值和第二分值均低于预设阈值时, 即判断分词中有错别字,并定位错别字的位置,即定位分词“帐户”中“帐” 的位置。
在一些可选的实现方式中,所述N-gram模型包括至少两个2-gram模型 和至少两个3-gram模型;通过所述2-gram模型和所述3-gram模型分别对所 述分词集合中相邻的分词进行打分处理,得到所属所述2-gram模型的第一分 值和所属所述3-gram模型的第二分值的步骤包括:
每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理,得 到第一子分值,所述第一分值包括多个第一子分值,其中每个所述2-gram模 型的背景信息不同;
每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理,得 到第二子分值,所述第二分值包括多个第二子分值,其中每个所述3-gram模 型的背景信息不同。
具体地,以两个2-gram模型为例,该两个2-gram模型的背景信息可为 行业领域信息、通用语料信息和地区信息中的任意一种,只需满足两个2-gram 模型的背景信息不同即可,即可理解为两个2-gram模型的背景信息分别为行 业领域信息和通用语料信息,又或行业领域信息和地区信息,又或通用语料 信息和地区信息;在实际应用中,如上述的[个人、证券]中,两个2-gram模 型均加载相邻分词[个人、证券]并进行打分处理,获得所属背景信息的第一 子分值,当第一分值与预设阈值比对时,具体是将第一分值中的各第一子分 值与预设阈值进行一一比对,得到第一分值的比对结果,并结合第二分值与 预设阈值的比对结果判断分词集合中是否有错别字,具体第一分值和第二分 值与预设阈值的比对方法请参见上文描述。
同理,当基于所述背景信息分别训练至少两个3-gram模型时,各3-gram 模型的计算过程原理与2-gram模型相同。
在一些可选的实现方式中,在每个所述2-gram模型均对所述分词集合中 相邻的分词进行打分处理,得到第一子分值;每个所述3-gram模型均对所述 分词集合中相邻的分词进行打分处理,得到第二子分值的步骤之前包括:
确定所述分词集合中相邻的分词所属行业领域信息是否为预设行业领域, 得到判断结果;
基于所述判断结果确定是否对获得的所述第一子分值和所述第二子分值 加权处理。
具体地,以两个2-gram模型为例,该两个2-gram模型的背景信息可为 行业领域信息、通用语料信息和地区信息中的任意一种,只需满足两个2-gram 模型的背景信息不同即可,即可理解为两个2-gram模型的背景信息分别为行 业领域信息和通用语料信息,又或行业领域信息和地区信息,又或通用语料 信息和地区信息;在对分词集合中相邻的分词进行打分处理之前,先确定分 词集合中相邻的分词所属行业领域信息是否为预设行业领域,得到判断结果, 而判断结果有两种,结果一:若预设行业领域为金融领域,当分词集合中相邻的分词所属行业领域信息不为金融领域时,则将各第一子分值与预设阈值 一一比对判断,具体比对过程实则为第一分值与预设阈值的比对过程(具体 请参见上文描述),这样以减少由于行业差异、地区差异、词库适应性差的影 响,进一步的提升错别字的检测错误率;结果二:当分词集合中相邻的分词 所属行业领域信息为金融领域时,基于背景信息中行业领域信息、通用语料 信息和地区信息各者所占比例,对获得各第一子分值进行预加权处理后,再 一一与预设阈值进行比对判断,具体比对过程实则为第一分值与预设阈值的 比对过程(具体请参见上文描述),这样以进一步的减少背景信息中各项差异 的影响,更进一步的提升错别字的检测错误率。对于分词集合中相邻的分词 所属行业领域信息是否为预设行业领域的判断,可通过操作人员进行判断, 也可为自动识别,当分词属于预设行业领域信息的词组时,则由结果一的处 理方式切换至结果二的处理方式。
同理,当基于所述背景信息分别训练至少两个3-gram模型时,各3-gram 模型的背景信息确认和计算过程原理与2-gram模型相同。
在一些可选的实现方式中,在步骤206中,对所述候选词集合进行筛选 处理的步骤包括:
通过逻辑回归模型对所述候选词集合进行粗筛选处理;
通过Xgboost模型对经过粗筛选的所述候选词集合进行精筛选处理。
具体地,采用逻辑回归模型算法进行特征抽取,过滤候选词集合中明显 错误的候选词,得出符合预设筛选条件的候选词集合,之后通过Xgboost模 型对符合预设筛选条件的候选词集合进行打分,分数大于预设阈值且在符合 预设筛选条件的候选词集合中分数排名最高的候选词作为正确候选词,并用 所述正确候选词替换目标分词中的错别字;这样先经粗筛选处理过滤候选词 集合中明显错误的候选词,以候选词集合中候选词的数量,进而有效提高后 续的精筛选处理效率。
其中特征抽取包括词典统计特征(统计各个候选词在通用领域和行业领 域语料中出现的频次)、编辑距离(计算原始词和候选词之间的编辑距离)、 拼音jaccard距离(计算原始词和候选词之间拼音的jaccard距离)、统计语 言模型计算得分(计算候选词2-gram模型和3-gram模型的分数)。
本申请采用前向最大匹配算法进行分词,并通过基于背景信息训练得到 的N-gram模型对分词集合中的各分词进行错误检索,以实现对文本的针对性 检索的目的,有利于减少错误词检索所需耗时的同时,保证了错误词检索准 确率,提升文本线上错别字纠错的响应速率。
需要强调的是,为进一步保证信息的私密和安全性,上述实施例中N-gram 模型和自定义词典信息还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算 法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中 心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块 中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下 一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务 层等。
本申请可用于众多通用或专用的计算机***环境或配置中。例如:个人 计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系 统、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型 计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本 申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程 序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例 程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本 申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备 来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的 本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可 存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法 的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体 (Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显 示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有 明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序 执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多 个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在 不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或 者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种文 本纠错装置的一个实施例,该装置实施例与图所示的方法实施例相对应,该 装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的文本纠错装置300包括:获取模块301、分 词模块302、检测模块303、定位模块304、候选召回模块305以及替换模块 306。其中:
获取模块301,用于获取文本信息;
分词模块302,用于采用前向最大匹配法处理所述文本信息,得到分词集 合,其中所述分词集合包括多个分词;
检测模块303,用于通过N-gram模型判断所述分词集合中各分词是否有 错别字,其中所述N-gram模型基于背景信息训练得到,且N≧1,所述背景信 息包括行业领域信息、通用语料信息和地区信息中的至少一种;
定位模块304,用于当所述分词集合中的分词有错别字时,获取带有错别 字的目标分词位置;
候选召回模块305,用于通过自定义词典召回候选词集合,其中所述自定 义词典包括近音词典、近形词典、混淆词典中的至少一种,所述候选词集合 包括至少一个候选词;
替换模块306,用于对所述候选词集合进行筛选处理,获取符合预设筛选 条件的候选词作为正确候选词,在所述目标分词位置处将所述错别字替换为 所述正确候选词。
上述文本纠错装置,采用前向最大匹配算法进行分词,并通过基于背景 信息训练得到的N-gram模型对分词集合中的各分词进行错误检索,以实现对 文本的针对性检索的目的,有利于减少错误词检索所需耗时的同时,保证了 错误词检索准确率,提升文本线上错别字纠错的响应速率。
在本实施例的一些可选的实现方式中,还包括:分句模块307,用于对所 述文本信息进行分句处理。
在本实施例的一些可选的实现方式中,上述分词模块302包括:
切分单元,用于根据预设的最大输入字符长度对所述文本信息进行切分 处理,得到字符组和剩余文本信息,其中所述字符组包括至少一个字符;
匹配单元,用于通过预设的分词词典对所述字符组进行匹配处理,判断 所述字符组是否为所述分词词典中的词组;
第一判断单元,用于当所述字符组为所述分词词典中的词组时,将所述 字符组作为分词,并将所述剩余文本信息替换所述文本信息,重复执行所述 步骤A,直至所述文本信息中最末端字符已被切分处理。
第二判断单元,当所述字符组不为分词词典中的词组时,将所述字符组 最末端的字符去除,将已去除最末端字符的字符组作为次字符组,并将去除 的字符加入至所述剩余文本信息的最首端,得到次剩余文本信息,将所述次 字符组替换所述字符组和将所述次剩余文本信息替换所述剩余文本信息后, 重复执行所述步骤B,直至所述文本信息中最末端字符已被切分处理。
汇合单元,用于当所述文本信息中最末端字符已被切分处理后,将得到 的所有分词汇合形成所述分词集合。
在本实施例的一些可选的实现方式中,上述检测模块303包括:
打分单元,用于通过所述2-gram模型和所述3-gram模型分别对所述分 词集合中相邻的分词进行打分处理,得到所属所述2-gram模型的第一分值和 所属所述3-gram模型的第二分值;
第三判断单元,用于判断所述第一分值和所述第二分值是否均低于预设 阈值。
第一确定单元,用于若所述第一分值和所述第二分值均低于所述预设阈 值,则确定所述分词集合中有错别字;
第二确定单元,用于若所述第一分值和所述第二分值均不低于所述预设 阈值,则确定所述分词集合中无错别字。
在本实施例的一些可选的实现方式中,上述打分单元包括:
第一打分子单元,用于每个所述2-gram模型均对所述分词集合中相邻的 分词进行打分处理,得到第一子分值,所述第一分值包括多个第一子分值, 其中每个所述2-gram模型的背景信息不同;
第二打分子单元,用于每个所述3-gram模型均对所述分词集合中相邻的 分词进行打分处理,得到第二子分值,所述第二分值包括多个第二子分值, 其中每个所述3-gram模型的背景信息不同。
在本实施例的一些可选的实现方式中,上述检测模块303还包括:
第三确定单元,用于确定所述分词集合中相邻的分词所属行业领域信息 是否为预设行业领域,得到判断结果;
第四确定单元,用于基于所述判断结果确定是否对获得的所述第一子分 值和所述第二子分值加权处理。
在本实施例的一些可选的实现方式中,上述替换模块306包括:
粗筛选单元,用于通过逻辑回归模型对所述候选词集合进行粗筛选处理;
精筛选单元,用于通过Xgboost模型对经过粗筛选的所述候选词集合进 行精筛选处理。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4, 图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、 网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4, 但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者 更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一 种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备, 其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Program模型mable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设 备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器 等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板 或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包 括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D文本纠错存储器等)、 随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、 电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存 储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设 备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算 机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安 全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述 存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储 设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的 操作***和各类应用软件,例如文本纠错方法的程序代码等。此外,所述存 储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理 器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器 42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行所述文 本纠错方法的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43 通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
采用前向最大匹配算法进行分词,并通过基于背景信息训练得到的 N-gram模型对分词集合中的各分词进行错误检索,以实现对文本的针对性检 索的目的,有利于减少错误词检索所需耗时的同时,保证了错误词检索准确 率,提升文本线上错别字纠错的响应速率。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所 述计算机可读存储介质存储有文本纠错程序,所述文本纠错程序可被至少一 个处理器执行,以使所述至少一个处理器执行如上述的文本纠错方法的步骤。
采用前向最大匹配算法进行分词,并通过基于背景信息训练得到的 N-gram模型对分词集合中的各分词进行错误检索,以实现对文本的针对性检 索的目的,有利于减少错误词检索所需耗时的同时,保证了错误词检索准确 率,提升文本线上错别字纠错的响应速率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的 技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器, 空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的 实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。 本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使 对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进 行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体 实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替 换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在 其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种文本纠错方法,其特征在于,包括下述步骤:
获取文本信息;
采用前向最大匹配法处理所述文本信息,得到分词集合,其中所述分词集合包括多个分词;
通过N-gram模型判断所述分词集合中各分词是否有错别字,其中所述N-gram模型基于背景信息训练得到,且N≧1,所述背景信息包括行业领域信息、通用语料信息和地区信息中的至少一种;
当所述分词集合中的分词有错别字时,获取带有错别字的目标分词位置;
通过自定义词典召回候选词集合,其中所述自定义词典包括近音词典、近形词典、混淆词典中的至少一种,所述候选词集合包括至少一个候选词;
对所述候选词集合进行筛选处理,获取符合预设筛选条件的候选词作为正确候选词,在所述目标分词位置处将所述错别字替换为所述正确候选词。
2.根据权利要求1所述的文本纠错方法,其特征在于,在获取文本信息的步骤之后、在采用前向最大匹配法处理所述文本信息的步骤之前,还包括:
对所述文本信息进行分句处理。
3.根据权利要求1所述的文本纠错方法,其特征在于,采用前向最大匹配法处理所述文本信息的步骤包括:
步骤A:根据预设的最大输入字符长度对所述文本信息进行切分处理,得到字符组和剩余文本信息,其中所述字符组包括至少一个字符;
步骤B:通过预设的分词词典对所述字符组进行匹配处理,判断所述字符组是否为所述分词词典中的词组;
步骤C:当所述字符组为所述分词词典中的词组时,将所述字符组作为分词,并将所述剩余文本信息替换所述文本信息,重复执行所述步骤A,直至所述文本信息中最末端字符已被切分处理;
步骤D:当所述字符组不为分词词典中的词组时,将所述字符组最末端的字符去除,将已去除最末端字符的字符组作为次字符组,并将去除的字符加入至所述剩余文本信息的最首端,得到次剩余文本信息,将所述次字符组替换所述字符组和将所述次剩余文本信息替换所述剩余文本信息后,重复执行所述步骤B,直至所述文本信息中最末端字符已被切分处理;
步骤E:当所述文本信息中最末端字符已被切分处理后,将得到的所有分词汇合形成所述分词集合。
4.根据权利要求1至3中任一项所述的文本纠错方法,其特征在于,所述N-gram模型包括2-gram模型和3-gram模型,通过N-gram模型判断分词集合中各分词是否有错别字的步骤包括:
通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的分词进行打分处理,得到所属所述2-gram模型的第一分值和所属所述3-gram模型的第二分值;
判断所述第一分值和所述第二分值是否均低于预设阈值;
若所述第一分值和所述第二分值均低于所述预设阈值,则确定所述分词集合中有错别字;
若所述第一分值和所述第二分值均不低于所述预设阈值,则确定所述分词集合中无错别字。
5.根据权利要求4所述的文本纠错方法,其特征在于,所述N-gram模型包括至少两个2-gram模型和至少两个3-gram模型;通过所述2-gram模型和所述3-gram模型分别对所述分词集合中相邻的分词进行打分处理,得到所属所述2-gram模型的第一分值和所属所述3-gram模型的第二分值的步骤包括:
每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理,得到第一子分值,所述第一分值包括多个第一子分值,其中每个所述2-gram模型的背景信息不同;
每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理,得到第二子分值,所述第二分值包括多个第二子分值,其中每个所述3-gram模型的背景信息不同。
6.根据权利要求5所述的文本纠错方法,其特征在于,在每个所述2-gram模型均对所述分词集合中相邻的分词进行打分处理,得到第一子分值;每个所述3-gram模型均对所述分词集合中相邻的分词进行打分处理,得到第二子分值的步骤之前包括:
确定所述分词集合中相邻的分词所属行业领域信息是否为预设行业领域,得到判断结果;
基于所述判断结果确定是否对获得的所述第一子分值和所述第二子分值加权处理。
7.根据权利要求1至3中任一项所述的文本纠错方法,其特征在于,对所述候选词集合进行筛选处理的步骤包括:
通过逻辑回归模型对所述候选词集合进行粗筛选处理;
通过Xgboost模型对经过粗筛选的所述候选词集合进行精筛选处理。
8.一种文本纠错装置,其特征在于,包括:
获取模块,用于获取文本信息;
分词模块,用于采用前向最大匹配法处理所述文本信息,得到分词集合,其中所述分词集合包括多个分词;
检测模块,用于通过N-gram模型判断所述分词集合中各分词是否有错别字,其中所述N-gram模型基于背景信息训练得到,且N≧1,所述背景信息包括行业领域信息、通用语料信息和地区信息中的至少一种;
定位模块,用于当所述分词集合中的分词有错别字时,获取带有错别字的目标分词位置;
候选召回模块,用于通过自定义词典召回候选词集合,其中所述自定义词典包括近音词典、近形词典、混淆词典中的至少一种,所述候选词集合包括至少一个候选词;
替换模块,用于对所述候选词集合进行筛选处理,获取符合预设筛选条件的候选词作为正确候选词,在所述目标分词位置处将所述错别字替换为所述正确候选词。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的文本纠错方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的文本纠错方法的步骤。
CN202111150351.7A 2021-09-29 2021-09-29 文本纠错方法、装置、计算机设备及存储介质 Pending CN113887202A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111150351.7A CN113887202A (zh) 2021-09-29 2021-09-29 文本纠错方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111150351.7A CN113887202A (zh) 2021-09-29 2021-09-29 文本纠错方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113887202A true CN113887202A (zh) 2022-01-04

Family

ID=79007803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111150351.7A Pending CN113887202A (zh) 2021-09-29 2021-09-29 文本纠错方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113887202A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341543A (zh) * 2023-05-31 2023-06-27 安徽商信政通信息技术股份有限公司 一种人名识别与纠错的方法、***、设备及存储介质
CN117371445A (zh) * 2023-12-07 2024-01-09 深圳市慧动创想科技有限公司 一种信息纠错方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341543A (zh) * 2023-05-31 2023-06-27 安徽商信政通信息技术股份有限公司 一种人名识别与纠错的方法、***、设备及存储介质
CN116341543B (zh) * 2023-05-31 2023-09-19 安徽商信政通信息技术股份有限公司 一种人名识别与纠错的方法、***、设备及存储介质
CN117371445A (zh) * 2023-12-07 2024-01-09 深圳市慧动创想科技有限公司 一种信息纠错方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN111897970A (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111639489A (zh) 中文文本纠错***、方法、装置及计算机可读存储介质
US10997366B2 (en) Methods, devices and systems for data augmentation to improve fraud detection
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN106095972B (zh) 一种信息分类方法及装置
US11048934B2 (en) Identifying augmented features based on a bayesian analysis of a text document
CN113887202A (zh) 文本纠错方法、装置、计算机设备及存储介质
WO2021218027A1 (zh) 智能面试中专业术语的提取方法、装置、设备及介质
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN114626731A (zh) 风险识别方法、装置、电子设备及计算机可读存储介质
CN111723870A (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN112084779A (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN113240322A (zh) 气候风险披露质量方法、装置、电子设备及存储介质
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN111309901A (zh) 一种短文本分类方法及装置
CN112800771A (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN113505293B (zh) 信息推送方法、装置、电子设备及存储介质
CN115730237A (zh) 垃圾邮件检测方法、装置、计算机设备及存储介质
CN113051396B (zh) 文档的分类识别方法、装置和电子设备
CN103942188A (zh) 一种识别语料语言的方法和装置
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination