CN108829665B - 错别字检测方法、装置及计算机可读存储介质、终端设备 - Google Patents

错别字检测方法、装置及计算机可读存储介质、终端设备 Download PDF

Info

Publication number
CN108829665B
CN108829665B CN201810500356.XA CN201810500356A CN108829665B CN 108829665 B CN108829665 B CN 108829665B CN 201810500356 A CN201810500356 A CN 201810500356A CN 108829665 B CN108829665 B CN 108829665B
Authority
CN
China
Prior art keywords
probability
characters
threshold
character
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810500356.XA
Other languages
English (en)
Other versions
CN108829665A (zh
Inventor
李贤�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201810500356.XA priority Critical patent/CN108829665B/zh
Publication of CN108829665A publication Critical patent/CN108829665A/zh
Application granted granted Critical
Publication of CN108829665B publication Critical patent/CN108829665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种错别字检测方法、装置及计算机可读存储介质、终端设备,包括:接收待检测语句;根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率;将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值;根据所述文字序列、所述第一概率阈值和所述第二概率阈值,获得第一阈值K1、第二阈值K2和所述待检测文字的排列次序k;根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字。本发明能够提高错别字检测的准确率。

Description

错别字检测方法、装置及计算机可读存储介质、终端设备
技术领域
本发明涉及文本处理技术领域,尤其涉及一种错别字检测方法、装置及计算机可读存储介质、终端设备。
背景技术
文本是记载信息的重要载体,随着信息处理技术和互联网技术的高速发展,传统的文本工作已逐渐被计算机等电子设备所取代,文本的生成方式也相应的由人工书写变成了人工编辑,而人工编辑在实际操作时可能会出现操作失误的情况,导致人工编辑的文本中出现错别字,从而影响文本质量,因此,对错别字的检测具有十分重要的意义。
现有技术提供的错别字检测方法大都在接收到用户输入的文字后,对用户输入的文字进行一定的处理,然后计算得到处理之后的文字的概率并与预设的概率阈值进行比较,最后根据比较结果确定用户输入的文字是否为错别字,当计算得到文字的概率小于预设的概率阈值时,判定用户输入的文字为错别字,当计算得到文字的概率不小于预设的概率阈值时,判定用户输入的文字为正确字;由此可见,现有技术提供的技术方案在计算得到文字的概率之后往往只根据一个概率阈值来判断文字的正确性,判断方式较为简单,且没有考虑到文字所处的语句语境,因此,错别字的检测结果可能与实际情况不符,检测准确率低。
发明内容
本发明实施例所要解决的技术问题在于,提供一种错别字检测方法、装置及计算机可读存储介质、终端设备,能够提高错别字检测的准确率。
为了解决上述技术问题,本发明实施例提供了一种错别字检测方法,包括:
接收待检测语句;
根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率;其中,K≥1;
将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;
根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值;
根据所述文字序列、所述第一概率阈值和所述第二概率阈值,获得第一阈值K1、第二阈值K2和所述待检测文字的排列次序k;其中,所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件;
根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字。
与现有技术相比,本发明实施例提供了一种错别字检测方法,根据待检测语句中的每个文字获得待检测文字的文字概率和待检测文字的替换文字的文字概率,并将待检测文字和替换文字按照文字概率进行排序,根据排序后的文字序列中的至少一个文字的文字概率确定第一概率阈值和第二概率阈值,进而获得满足一定条件的第一阈值和第二阈值以及待检测文字的排列次序,根据第一阈值、第二阈值和待检测文字的排列次序判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。
进一步地,所述根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值,具体包括:
计算获得所述文字序列中的前N个文字的文字概率之和P;其中,N≥1;
根据所述文字概率之和P,确定所述第一概率阈值和所述第二概率阈值。
进一步地,所述根据所述文字概率之和P,确定所述第一概率阈值和所述第二概率阈值,具体包括:
当判定0.99≤P≤1时,确定所述第一概率阈值为0.97,所述第二概率阈值为0.998;
当判定0.95≤P<0.99时,确定所述第一概率阈值为0.965,所述第二概率阈值为0.995;
当判定0.65≤P<0.95时,确定所述第一概率阈值为0.96,所述第二概率阈值为0.992;
当判定0≤P<0.65时,确定所述第一概率阈值为0.95,所述第二概率阈值为0.99。
进一步地,所述所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件,具体包括:
所述第一阈值K1满足使得所述文字序列中的前K1-1个文字的文字概率之和小于所述第一概率阈值,且所述文字序列中的前K1个文字的文字概率之和大于所述第一概率阈值;
所述第二阈值K2满足使得所述文字序列中的前K2-1个文字的文字概率之和小于所述第二概率阈值,且所述文字序列中的前K2个文字的文字概率之和大于所述第二概率阈值。
进一步地,所述根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字,具体包括:
比较所述第一阈值K1与预设的第一候补阈值K3的大小,并在判定K1≥K3时,将所述第一阈值K1设置为第一最终阈值,在判定K1<K3时,将所述第一候补阈值K3设置为所述第一最终阈值;
比较所述第二阈值K2与预设的第二候补阈值K4的大小,并在判定K2≥K4时,将所述第二阈值K2设置为第二最终阈值,在判定K2<K4时,将所述第二候补阈值K4设置为所述第二最终阈值;
根据所述第一最终阈值、所述第二最终阈值和所述排列次序k,判断所述待检测文字是否为错别字。
进一步地,所述根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字,具体包括:
当判定K1≤k≤K2时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
根据所述待检测语句和每个所述混淆文字,判断所述待检测文字是否为错别字。
进一步地,所述方法还包括:
当k<K1时,判定所述待检测文字为正确字;
当k>K2时,判定所述待检测文字为错别字。
本发明实施例还提供了一种错别字检测装置,包括:
语句接收模块,用于接收待检测语句;
文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率;其中,K≥1;
文字序列获取模块,用于将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;
概率阈值获取模块,用于根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值;
比较阈值获取模块,用于根据所述文字序列、所述第一概率阈值和所述第二概率阈值,获得第一阈值K1、第二阈值K2和所述待检测文字的排列次序k;其中,所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件;以及,
文字判断模块,用于根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的错别字检测方法。
本发明实施例还提供了一种终端设备,包括至少一个存储器以及至少一个处理器;其中,
所述存储器包括存储的至少一个计算机程序;
所述处理器用于执行所述计算机程序,所述处理器在执行所述计算机程序时实现上述任一项所述的错别字检测方法。
与现有技术相比,本发明实施例提供了一种错别字检测方法、装置及计算机可读存储介质、终端设备,根据待检测语句中的每个文字获得待检测文字的文字概率和待检测文字的替换文字的文字概率,并将待检测文字和替换文字按照文字概率进行排序,根据排序后的文字序列中的至少一个文字的文字概率确定第一概率阈值和第二概率阈值,进而获得满足一定条件的第一阈值和第二阈值以及待检测文字的排列次序,根据第一阈值、第二阈值和待检测文字的排列次序判断待检测文字是否为错别字,可以解决现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,能够提高错别字检测的准确率。
附图说明
图1是本发明提供的错别字检测方法的一个优选实施例的流程图;
图2是本发明提供的错别字检测方法的步骤S14的一个优选实施例的具体流程图;
图3是本发明提供的错别字检测方法的步骤S1402的一个优选实施例的具体流程图;
图4是本发明提供的错别字检测方法的步骤S16的一个优选实施例的具体流程图;
图5是本发明提供的错别字检测方法的步骤S16的另一个优选实施例的具体流程图;
图6是本发明提供的错别字检测装置的一个优选实施例的结构框图;
图7是本发明提供的终端设备的一个优选实施例的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种错别字检测方法。
参见图1所示,是本发明提供的错别字检测方法的一个优选实施例的流程图,包括步骤S11至步骤S16:
步骤S11、接收待检测语句;
步骤S12、根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率;其中,K≥1;
步骤S13、将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;
步骤S14、根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值;
步骤S15、根据所述文字序列、所述第一概率阈值和所述第二概率阈值,获得第一阈值K1、第二阈值K2和所述待检测文字的排列次序k;其中,所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件;
步骤S16、根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字。
在本实施例中,当需要判断待检测文字是否为错别字时,首先获取该待检测文字所在的语句,即待检测语句;然后根据该待检测语句中的每个文字,分别计算获得上述待检测文字的文字概率和上述待检测文字的K个替换文字的文字概率;其中,替换文字为预先设置的字典集合中除了待检测文字之外的任意一个文字;将上述待检测文字和K个替换文字按照计算获得的文字概率从大到小的顺序排列,从而获得排序后的文字序列,并根据排序后的文字序列中的至少一个文字的文字概率确定第一概率阈值和第二概率阈值;最后根据排序后的文字序列、确定的第一概率阈值和确定的第二概率阈值,分别获得满足预先设置的第一条件的第一阈值K1、满足预先设置的第二条件的第二阈值K2和上述待检测文字在排序后的文字序列中的排列次序k,从而根据获得的第一阈值K1、第二阈值K2和上述待检测文字的排列次序k判断上述待检测文字是否为错别字。
需要说明的是,待检测文字的文字概率和替换文字的文字概率通过采用Bi-LSTM(Bi-directional Long Short Term Memory,双向长短期记忆)模型并调用softmax算法计算获得,且该双向长短期记忆模型为经过深度学习框架编码(如tensorflow)训练后的双向长短期记忆模型。
具体的,上述Bi-LSTM模型的最后一层与一个softmax层连接,将待检测语句输入该Bi-LSTM模型,经过softmax层调用softmax算法进行计算,即可根据待检测语句中的每个文字计算获得待检测文字的文字概率;在计算替换文字的文字概率时,需要将待检测语句中的待检测文字依次替换为各个替换文字,从而获得对应的替换语句,再分别将每个替换语句输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法即可分别根据每个替换语句中的每个文字对应计算获得每个替换文字的文字概率。
本发明实施例所提供的一种错别字检测方法,根据待检测语句中的每个文字分别获得待检测文字的文字概率和待检测文字的替换文字的文字概率,根据按照文字概率排序后的文字序列中的至少一个文字的文字概率确定第一概率阈值和第二概率阈值,进而获得满足一定条件的第一阈值和第二阈值以及待检测文字的排列次序,根据第一阈值、第二阈值和待检测文字的排列次序判断待检测文字是否为错别字,在计算文字概率时结合了文字所处的语句语境,并采用了一种文字概率排序判断的策略来进行错别字检测,解决了现有技术中判断方式简单,且没有考虑文字所处的语句语境,导致检测准确率低的问题,从而提高了错别字检测的准确率。
另外,采用经过训练的Bi-LSTM模型计算待检测文字的文字概率和替换文字的文字概率时,是根据待检测文字和替换文字所在的语句中的每个文字的信息进行计算,既能利用文字的前向信息,又能利用文字的后向信息,从而使得计算得到的文字概率更加精确。
参见图2所示,是本发明提供的错别字检测方法的步骤S14的一个优选实施例的具体流程图,所述根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值,具体包括步骤S1401至步骤S1402:
步骤S1401、计算获得所述文字序列中的前N个文字的文字概率之和P;其中,N≥1;
步骤S1402、根据所述文字概率之和P,确定所述第一概率阈值和所述第二概率阈值。
具体的,选取排序后的文字序列中的前N个文字,并计算前N个文字的文字概率之和P,其中,N可根据实际需要进行选取,例如,取N=3,即选取排序后的文字序列中的前3个文字,并计算前3个文字的文字概率之和P,则根据前3个文字的文字概率之和P确定第一概率阈值和第二概率阈值。
结合图3所示,是本发明提供的错别字检测方法的步骤S1402的一个优选实施例的具体流程图,所述根据所述文字概率之和P,确定所述第一概率阈值和所述第二概率阈值,具体包括步骤S1421至步骤S1424:
步骤S1421、当判定0.99≤P≤1时,确定所述第一概率阈值为0.97,所述第二概率阈值为0.998;
步骤S1422、当判定0.95≤P<0.99时,确定所述第一概率阈值为0.965,所述第二概率阈值为0.995;
步骤S1423、当判定0.65≤P<0.95时,确定所述第一概率阈值为0.96,所述第二概率阈值为0.992;
步骤S1424、当判定0≤P<0.65时,确定所述第一概率阈值为0.95,所述第二概率阈值为0.99。
本实施例为根据排序后的文字序列中的前N个文字的文字概率之和P确定第一概率阈值和第二概率阈值,当前N个文字的文字概率之和P满足不同的条件时,对应确定的第一概率阈值和第二概率阈值不同。
例如,取N=3,对排序后的文字序列中的前3个文字的文字概率之和P进行判断,当P满足0.99≤P≤1时,对应确定的第一概率阈值为0.97,第二概率阈值为0.998;当P满足0.95≤P<0.99时,对应确定的第一概率阈值为0.965,第二概率阈值为0.995;当P满足0.65≤P<0.95时,对应确定的第一概率阈值为0.96,第二概率阈值为0.992;当P满足0≤P<0.65时,对应确定的第一概率阈值为0.95,第二概率阈值为0.99。
本发明实施例所提供的一种错别字检测方法,根据排序后的文字序列中的前N个文字的文字概率之和P满足不同的条件对应确定不同的第一概率阈值和第二概率阈值,从而提高了第一概率阈值和第二概率阈值的适用性。
在另一个优选实施例中,所述所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件,具体包括:
所述第一阈值K1满足使得所述文字序列中的前K1-1个文字的文字概率之和小于所述第一概率阈值,且所述文字序列中的前K1个文字的文字概率之和大于所述第一概率阈值;
所述第二阈值K2满足使得所述文字序列中的前K2-1个文字的文字概率之和小于所述第二概率阈值,且所述文字序列中的前K2个文字的文字概率之和大于所述第二概率阈值。
本实施例为根据排序后的文字序列、第一概率阈值和第二概率阈值获得第一阈值K1和第二阈值K2的一种方法,具体的,对排序后的文字序列进行遍历,当检测到排列于该文字序列中的第k1位的文字满足前k1-1个文字的文字概率之和小于预先设置的第一概率阈值且前k1个文字的文字概率之和大于该第一概率阈值时,将此时的k1值作为上述第一阈值K1;同理,当检测到排列于该文字序列中的第k2位的文字满足前k2-1个文字的文字概率之和小于预先设置的第二概率阈值且前k2个文字的文字概率之和大于该第二概率阈值时,将此时的k2值作为上述第二阈值K2。
例如,取N=3,当排序后的文字序列中的前3个文字的文字概率之和P满足0.99≤P≤1时,对应确定的第一概率阈值为0.97,第二概率阈值为0.998,则当排序后的文字序列中的前K1-1个文字的文字概率之和小于0.97且前K1个文字的文字概率之和大于0.97时,则认为此时的K1满足预先设置的第一条件,因此将此时的K1作为第一阈值K1;当排序后的文字序列中的前K2-1个文字的文字概率之和小于0.998且前K2个文字的文字概率之和大于0.998时,则认为此时的K2满足预先设置的第二条件,因此将此时的K2作为第二阈值K2;当排序后的文字序列中的前3个文字的文字概率之和P满足其他条件时的情况同理。
参见图4所示,是本发明提供的错别字检测方法的步骤S16的一个优选实施例的具体流程图,所述根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字,具体包括步骤S1611至步骤S1613:
步骤S1611、比较所述第一阈值K1与预设的第一候补阈值K3的大小,并在判定K1≥K3时,将所述第一阈值K1设置为第一最终阈值,在判定K1<K3时,将所述第一候补阈值K3设置为所述第一最终阈值;
步骤S1612、比较所述第二阈值K2与预设的第二候补阈值K4的大小,并在判定K2≥K4时,将所述第二阈值K2设置为第二最终阈值,在判定K2<K4时,将所述第二候补阈值K4设置为所述第二最终阈值;
步骤S1613、根据所述第一最终阈值、所述第二最终阈值和所述排列次序k,判断所述待检测文字是否为错别字。
本实施例为对第一阈值K1和第二阈值K2进行进一步处理的一种方法,具体的,当根据排序后的文字序列、第一概率阈值和第二概率阈值获得对应的第一阈值K1和第二阈值K2之后,对于第一阈值K1,比较第一阈值K1与预先设置的第一候补阈值K3的大小,并选取第一阈值K1与预先设置的第一候补阈值K3中的较大值作为第一最终阈值;对于第二阈值K2,比较第二阈值K2与预先设置的第二候补阈值K4的大小,并选取第二阈值K2与预先设置的第二候补阈值K4中的较大值作为第二最终阈值;从而根据获得的第一最终阈值、第二最终阈值和待检测文字的排列次序k判断待检测文字是否为错别字。
例如,取N=3,当排序后的文字序列中的前3个文字的文字概率之和P满足0.99≤P≤1时,假设第一候补阈值为10,第二候补阈值为30,则第一最终阈值取第一阈值与10中的较大值,第二最终阈值取第二阈值与30中的较大值;当排序后的文字序列中的前3个文字的文字概率之和P满足0.95≤P<0.99时,假设第一候补阈值为20,第二候补阈值为40,则第一最终阈值取第一阈值与20中的较大值,第二最终阈值取第二阈值与40中的较大值;当排序后的文字序列中的前3个文字的文字概率之和P满足0.65≤P<0.95时,假设第一候补阈值为30,第二候补阈值为70,则第一最终阈值取第一阈值与30中的较大值,第二最终阈值取第二阈值与70中的较大值;当排序后的文字序列中的前3个文字的文字概率之和P满足0≤P<0.65时,假设第一候补阈值为50,第二候补阈值为100,则第一最终阈值取第一阈值与50中的较大值,第二最终阈值取第二阈值与100中的较大值。
本发明实施例所提供的一种错别字检测方法,通过对第一阈值和第二阈值进行进一步的限定处理,使得与检测文字的排列次序进行比较的阈值更加精确。
参见图5所示,是本发明提供的错别字检测方法的步骤S16的另一个优选实施例的具体流程图,所述根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字,具体包括步骤S1621至步骤S1622:
步骤S1621、当判定K1≤k≤K2时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
步骤S1622、根据所述待检测语句和每个所述混淆文字,判断所述待检测文字是否为错别字。
在本实施例中,当根据第一阈值K1、第二阈值K2和待检测文字的排列次序k判断待检测文字是否为错别字时,首先需要比较第一阈值K1、第二阈值K2和待检测文字的排列次序k的大小,当满足K1≤k≤K2时,获得待检测文字的混淆集,从而根据待检测语句和混淆集中的M个混淆文字进一步判断待检测文字是否为错别字。
需要说明的是,混淆文字为预先设置的字典集合中与待检测文字的拼音相同的文字,混淆集为由所有的混淆文字组成的集合。
具体的,首先根据待检测语句中的每个文字计算获得每个混淆文字的文字概率,将所有的混淆文字的文字概率按照从大到小的顺序排列,从而获得所有的混淆文字按照文字概率的排列次序,并选择文字概率最大的X个混淆文字作为目标混淆文字(X可根据实际需要进行选取);随后将待检测语句中的待检测文字依次替换为各个目标混淆文字,从而获得对应的X个目标混淆语句,并分别获得待检测语句中的每个文字的文字概率和X个目标混淆语句中的每个文字的文字概率,从而获得待检测语句的语句概率和X个目标混淆语句的语句概率;最后根据待检测语句的语句概率和X个目标混淆语句的语句概率进一步判断待检测文字是否为错别字。
其中,在计算混淆文字的文字概率时,需要将待检测语句中的待检测文字依次替换为各个混淆文字,从而获得对应的混淆语句,再分别将每个混淆语句输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法即可分别根据每个替换语句中的每个文字对应计算获得每个混淆文字的文字概率。
在计算任一语句A的语句概率时,首先要将语句A输入经过训练的Bi-LSTM模型,经过softmax层调用softmax算法分别计算获得语句A中的B个文字的文字概率Pai,然后根据预先设置的语句概率计算公式
Figure BDA0001669503940000121
进行计算,从而获得语句A的语句概率。
需要说明的是,将语句中的所有文字的文字概率的对数和作为该语句的语句概率,可以减小计算量,并且可以避免数字过小产生截断。
以待检测语句“中化人民”为例,其中,“化”字为待检测文字,假设预先设置的字典集合中共有7000个文字(包括待检测文字“化”),分别计算获得7000个文字的文字概率,并将这7000个文字按照文字概率从大到小的顺序排列,从而获得对应的文字序列。
选取文字序列中的前3个文字,并计算前3个文字的文字概率之和P,假设前3个文字的文字概率之和P满足0.95≤P<0.99,则对应确定的第一概率阈值为0.965,第二概率阈值为0.995。
根据文字序列、第一概率阈值和第二概率阈值分别获得第一阈值K1、第二阈值K2和“化”字的排列次序k,比较第一阈值K1、第二阈值K2和“化”字的排列次序k的大小,假设第一阈值K1为10,第二阈值K2为100,“化”字的排列次序k为50,满足K1≤k≤K2,则获得“化”字的混淆集,假设预先设置的字典集合中与“化”字的拼音相同的文字共有15个,分别计算获得15个混淆文字的文字概率,并将这15个混淆文字按照文字概率从大到小的顺序排列,选择文字概率排列位于前5位的混淆文字作为目标混淆文字,用这5个目标混淆文字依次替换待检测语句“中化人民”中的“化”字,从而得到对应的5个目标混淆语句。
分别计算获得待检测语句“中化人民”中的每个文字的文字概率和5个目标混淆语句中的每个文字的文字概率,从而获得待检测语句“中化人民”的语句概率和5个目标混淆语句的语句概率,例如,待检测语句“中化人民”中的四个文字的文字概率分别为Pa1=P=p1、Pa2=P=p2、Pa3=P=p3、和Pa4=P=p4,则待检测语句“中化人民”的语句概率为P中化人民=log p1+log p2+log p3+log p4,最后根据待检测语句“中化人民”的语句概率和5个目标混淆语句的语句概率进行进一步的处理。
根据待检测语句的语句概率和X个目标混淆语句的语句概率进一步判断待检测文字是否为错别字的一种方法具体为:
将待检测语句和X个目标替换语句按照语句概率从大到小的顺序排列,从而获得待检测语句的排列次序,并记为x;根据公式X1=(X+1)*7%计算得到X1的值,当x<X1时,说明待检测语句的语句概率排列于所有的语句概率的前7%,因此判定待检测文字为正确字;当x≥X1时,说明待检测语句的语句概率排列于所有的语句概率后93%,因此判定待检测文字为错别字。
需要说明的是,在根据公式计算X1时,如果计算得到的结果为小数,则取与计算结果最接近且大于计算结果的整数作为X1的值。
例如,将待检测语句“中化人民”和5个目标混淆语句共6个语句的语句概率按照从大到小的顺序排列,如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率的前7%,则认为“化”字为正确字;如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率的后93%,则认为“化”字为错别字。
根据待检测语句的语句概率和X个目标混淆语句的语句概率进一步判断待检测文字是否为错别字的另一种方法具体为:
将待检测语句和X个目标替换语句按照语句概率从大到小的顺序排列,从而获得待检测语句的排列次序,并记为x;当x=1时,说明待检测语句的语句概率在所有的语句概率中最大,因此判定待检测文字为正确字;当x≠1时,说明待检测语句的语句概率在所有的语句概率中不是最大,因此判定待检测文字为错别字。
例如,将待检测语句“中化人民”和5个目标混淆语句共6个语句的语句概率按照从大到小的顺序排列,如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率中最大,则认为“化”字为正确字;如果待检测语句“中化人民”对应的语句概率在6个语句的语句概率中不是最大,则认为“化”字为错别字。
本发明实施例所提供的一种错别字检测方法,在第一阈值、第二阈值和待检测文字的排列次序满足一定的条件时,获得待检测文字的混淆集,并根据待检测文字的混淆集中的混淆文字对应获得目标混淆语句,根据待检测语句的语句概率和目标混淆语句的语句概率判断待检测文字是否为错别字,在计算文字概率时结合了文字所处的语句语境,并采用了一种混淆集判断的策略来进一步判断待检测文字是否为错别字,从而进一步提高了错别字检测的准确率。
在又一个优选实施例中,所述方法还包括:
当k<K1时,判定所述待检测文字为正确字;
当k>K2时,判定所述待检测文字为错别字。
本实施例为比较第一阈值K1、第二阈值K2和待检测文字的排列次序k的大小所对应的另外两种情况,若满足k<K1,则判定待检测文字为正确字;若满足k>K2,则判定待检测文字为错别字。
可以理解的,对于图4实施例中的根据获得的第一最终阈值、第二最终阈值和待检测文字的排列次序k判断待检测文字是否为错别字,同理,首先比较第一最终阈值、第二最终阈值和待检测文字的排列次序k的大小,当待检测文字的排列次序k不小于第一最终阈值且不大于第二最终阈值时,获得待检测文字的混淆集,从而根据待检测语句和混淆集中的混淆文字进一步判断待检测文字是否为错别字,并且所用方法与图5实施例中所用方法的原理相同;当待检测文字的排列次序k小于第一最终阈值时,判定待检测文字为正确字;当待检测文字的排列次序k大于第二最终阈值时,判定待检测文字为错别字。
本发明实施例还提供了一种错别字检测装置,能够实现上述任一实施例中的错别字检测方法的所有流程,装置中的各个模块和单元的作用以及实现的技术效果分别与上述实施例中的错别字检测方法的的作用以及实现的技术效果对应相同,这里不再赘述。
参见图6所示,是本发明提供的错别字检测装置的一个优选实施例的结构框图,包括:
语句接收模块11,用于接收待检测语句;
文字概率获取模块12,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率;其中,K≥1;
文字序列获取模块13,用于将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;
概率阈值获取模块14,用于根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值;
比较阈值获取模块15,用于根据所述文字序列、所述第一概率阈值和所述第二概率阈值,获得第一阈值K1、第二阈值K2和所述待检测文字的排列次序k;其中,所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件;以及,
文字判断模块16,用于根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字。
优选地,所述概率阈值获取模块14具体包括:
概率和计算单元,用于计算获得所述文字序列中的前N个文字的文字概率之和P;其中,N≥1;以及,
概率阈值获取单元,用于根据所述文字概率之和P,确定所述第一概率阈值和所述第二概率阈值。
优选地,所述概率阈值获取单元具体包括:
第一概率阈值获取子单元,用于当判定0.99≤P≤1时,确定所述第一概率阈值为0.97,所述第二概率阈值为0.998;
第二概率阈值获取子单元,用于当判定0.95≤P<0.99时,确定所述第一概率阈值为0.965,所述第二概率阈值为0.995;
第三概率阈值获取子单元,用于当判定0.65≤P<0.95时,确定所述第一概率阈值为0.96,所述第二概率阈值为0.992;以及,
第四概率阈值获取子单元,用于当判定0≤P<0.65时,确定所述第一概率阈值为0.95,所述第二概率阈值为0.99。
优选地,所述所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件,具体包括:
所述第一阈值K1满足使得所述文字序列中的前K1-1个文字的文字概率之和小于所述第一概率阈值,且所述文字序列中的前K1个文字的文字概率之和大于所述第一概率阈值;
所述第二阈值K2满足使得所述文字序列中的前K2-1个文字的文字概率之和小于所述第二概率阈值,且所述文字序列中的前K2个文字的文字概率之和大于所述第二概率阈值。
优选地,所述文字判断模块15具体包括:
第一最终阈值获取单元,用于比较所述第一阈值K1与预设的第一候补阈值K3的大小,并在判定K1≥K3时,将所述第一阈值K1设置为第一最终阈值,在判定K1<K3时,将所述第一候补阈值K3设置为所述第一最终阈值;
第二最终阈值获取单元,用于比较所述第二阈值K2与预设的第二候补阈值K4的大小,并在判定K2≥K4时,将所述第二阈值K2设置为第二最终阈值,在判定K2<K4时,将所述第二候补阈值K4设置为所述第二最终阈值;以及,
第一文字判断模单元,用于根据所述第一最终阈值、所述第二最终阈值和所述排列次序k,判断所述待检测文字是否为错别字。
优选地,所述文字判断模块15具体包括:
混淆集获取单元,用于当判定K1≤k≤K2时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;以及,
第二文字判断模单元,用于根据所述待检测语句和每个所述混淆文字,判断所述待检测文字是否为错别字。
优选地,所述装置还包括:
第一文字判断模块,用于当k<K1时,判定所述待检测文字为正确字;以及,
第二文字判断模块,用于当k>K2时,判定所述待检测文字为错别字。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的错别字检测方法。
本发明实施例还提供了一种终端设备。
参见图7所示,是本发明提供的终端设备的一个优选实施例的结构框图,包括至少一个存储器10以及至少一个处理器20;其中:
所述存储器10包括存储的至少一个计算机程序;
所述处理器20用于执行所述计算机程序,所述处理器20在执行所述计算机程序时实现上述任一实施例所述的错别字检测方法。
需要说明的是,图7仅以该终端设备中的一个存储器和一个处理器相连接为例进行说明,在一些具体的实施例中,该终端设备中还可以包括多个存储器和/或多个处理器,其具体的数目及连接方式可根据实际情况需要进行设置和适应性调整。
综上,本发明实施例所提供的一种错别字检测方法、装置及计算机可读存储介质、终端设备,不仅在计算文字概率时结合了文字所处的语句语境,而且采用了一种文字概率排序判断和混淆集判断相结合的策略来代替简单的单一概率阈值判断的策略进行错别字检测,使得错别字判断策略更为灵活和有效,从而大大提高了错别字检测的准确率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (8)

1.一种错别字检测方法,其特征在于,包括:
接收待检测语句;
根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率;其中,K≥1;
将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;
根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值;
根据所述文字序列、所述第一概率阈值和所述第二概率阈值,获得第一阈值K1、第二阈值K2和所述待检测文字的排列次序k;其中,所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件;
根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字;
所述根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值,具体包括:
计算获得所述文字序列中的前N个文字的文字概率之和P;其中,N≥1;
根据所述文字概率之和P,确定所述第一概率阈值和所述第二概率阈值;
所述第一概率阈值小于所述第二概率阈值;
所述第一阈值K1满足使得所述文字序列中的前K1-1个文字的文字概率之和小于所述第一概率阈值,且所述文字序列中的前K1个文字的文字概率之和大于所述第一概率阈值;
所述第二阈值K2满足使得所述文字序列中的前K2-1个文字的文字概率之和小于所述第二概率阈值,且所述文字序列中的前K2个文字的文字概率之和大于所述第二概率阈值。
2.如权利要求1所述的错别字检测方法,其特征在于,所述根据所述文字概率之和P,确定所述第一概率阈值和所述第二概率阈值,具体包括:
当判定0.99≤P≤1时,确定所述第一概率阈值为0.97,所述第二概率阈值为0.998;
当判定0.95≤P<0.99时,确定所述第一概率阈值为0.965,所述第二概率阈值为0.995;
当判定0.65≤P<0.95时,确定所述第一概率阈值为0.96,所述第二概率阈值为0.992;
当判定0≤P<0.65时,确定所述第一概率阈值为0.95,所述第二概率阈值为0.99。
3.如权利要求1所述的错别字检测方法,其特征在于,所述根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字,具体包括:
比较所述第一阈值K1与预设的第一候补阈值K3的大小,并在判定K1≥K3时,将所述第一阈值K1设置为第一最终阈值,在判定K1<K3时,将所述第一候补阈值K3设置为所述第一最终阈值;
比较所述第二阈值K2与预设的第二候补阈值K4的大小,并在判定K2≥K4时,将所述第二阈值K2设置为第二最终阈值,在判定K2<K4时,将所述第二候补阈值K4设置为所述第二最终阈值;
根据所述第一最终阈值、所述第二最终阈值和所述排列次序k,判断所述待检测文字是否为错别字。
4.如权利要求1所述的错别字检测方法,其特征在于,所述根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字,具体包括:
当判定K1≤k≤K2时,获得所述待检测文字的混淆集;其中,所述混淆集中包含M个混淆文字,M≥1;
根据所述待检测语句和每个所述混淆文字,判断所述待检测文字是否为错别字。
5.如权利要求1所述的错别字检测方法,其特征在于,所述方法还包括:
当k<K1时,判定所述待检测文字为正确字;
当k>K2时,判定所述待检测文字为错别字。
6.一种错别字检测装置,其特征在于,包括:
语句接收模块,用于接收待检测语句;
文字概率获取模块,用于根据所述待检测语句中的每个文字,获得所述待检测语句中的待检测文字的文字概率和所述待检测文字的K个替换文字的文字概率;其中,K≥1;
文字序列获取模块,用于将所述待检测文字和每个所述替换文字按照文字概率从大到小的顺序排列,获得文字序列;
概率阈值获取模块,用于根据所述文字序列中的至少一个文字的文字概率,确定第一概率阈值和第二概率阈值;
比较阈值获取模块,用于根据所述文字序列、所述第一概率阈值和所述第二概率阈值,获得第一阈值K1、第二阈值K2和所述待检测文字的排列次序k;其中,所述第一阈值K1满足使得所述文字序列中的前K1个文字的文字概率符合预设的第一条件;所述第二阈值K2满足使得所述文字序列中的前K2个文字的文字概率符合预设的第二条件;以及,
文字判断模块,用于根据所述第一阈值K1、所述第二阈值K2和所述排列次序k,判断所述待检测文字是否为错别字;
所述概率阈值获取模块具体包括:
概率和计算单元,用于计算获得所述文字序列中的前N个文字的文字概率之和P;其中,N≥1;
概率阈值获取单元,用于根据所述文字概率之和P,确定所述第一概率阈值和所述第二概率阈值;
所述第一概率阈值小于所述第二概率阈值;
所述第一阈值K1满足使得所述文字序列中的前K1-1个文字的文字概率之和小于所述第一概率阈值,且所述文字序列中的前K1个文字的文字概率之和大于所述第一概率阈值;
所述第二阈值K2满足使得所述文字序列中的前K2-1个文字的文字概率之和小于所述第二概率阈值,且所述文字序列中的前K2个文字的文字概率之和大于所述第二概率阈值。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至5中任一项所述的错别字检测方法。
8.一种终端设备,其特征在于,包括至少一个存储器以及至少一个处理器;其中,
所述存储器包括存储的至少一个计算机程序;
所述处理器用于执行所述计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至5中任一项所述的错别字检测方法。
CN201810500356.XA 2018-05-22 2018-05-22 错别字检测方法、装置及计算机可读存储介质、终端设备 Active CN108829665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810500356.XA CN108829665B (zh) 2018-05-22 2018-05-22 错别字检测方法、装置及计算机可读存储介质、终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810500356.XA CN108829665B (zh) 2018-05-22 2018-05-22 错别字检测方法、装置及计算机可读存储介质、终端设备

Publications (2)

Publication Number Publication Date
CN108829665A CN108829665A (zh) 2018-11-16
CN108829665B true CN108829665B (zh) 2022-05-31

Family

ID=64147185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810500356.XA Active CN108829665B (zh) 2018-05-22 2018-05-22 错别字检测方法、装置及计算机可读存储介质、终端设备

Country Status (1)

Country Link
CN (1) CN108829665B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420483A (zh) * 2008-11-28 2009-04-29 深圳华为通信技术有限公司 错别字检测方法及移动终端
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN105045778A (zh) * 2015-06-24 2015-11-11 江苏科技大学 一种汉语同音词错误自动校对方法
CN105159871A (zh) * 2015-08-21 2015-12-16 小米科技有限责任公司 文本信息检测方法及装置
CN107633250A (zh) * 2017-09-11 2018-01-26 畅捷通信息技术股份有限公司 一种文字识别纠错方法、纠错***及计算机装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420483A (zh) * 2008-11-28 2009-04-29 深圳华为通信技术有限公司 错别字检测方法及移动终端
US9037967B1 (en) * 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
CN105045778A (zh) * 2015-06-24 2015-11-11 江苏科技大学 一种汉语同音词错误自动校对方法
CN105159871A (zh) * 2015-08-21 2015-12-16 小米科技有限责任公司 文本信息检测方法及装置
CN107633250A (zh) * 2017-09-11 2018-01-26 畅捷通信息技术股份有限公司 一种文字识别纠错方法、纠错***及计算机装置

Also Published As

Publication number Publication date
CN108829665A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
US6513005B1 (en) Method for correcting error characters in results of speech recognition and speech recognition system using the same
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
CN110781273B (zh) 文本数据处理方法、装置、电子设备及存储介质
CN108681541B (zh) 图片搜索方法、装置及计算机设备
CN110245557A (zh) 图片处理方法、装置、计算机设备及存储介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
WO2017005207A1 (zh) 一种输入方法、输入装置、服务器和输入***
CN111274785A (zh) 一种文本纠错方法、装置、设备及介质
CN111460793A (zh) 纠错方法、装置、设备及存储介质
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN114863429A (zh) 基于rpa和ai的文本纠错方法、训练方法及其相关设备
CN108874770B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN114093415B (zh) 肽段可检测性预测方法及***
CN114861635A (zh) 一种中文拼写纠错方法、装置、设备及存储介质
CN108694167B (zh) 候选词评估方法、候选词排序方法及装置
CN108628826B (zh) 候选词评估方法、装置、计算机设备和存储介质
CN113011164B (zh) 数据质量检测方法、装置、电子设备及介质
CN112988962B (zh) 文本纠错方法、装置、电子设备及存储介质
CN108984515B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN108829665B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN109670040B (zh) 写作辅助方法、装置及存储介质、计算机设备
CN108845984B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备
CN108681533B (zh) 候选词评估方法、装置、计算机设备和存储介质
CN108073567A (zh) 一种特征词提取处理方法、***及服务器
CN108829664B (zh) 错别字检测方法、装置及计算机可读存储介质、终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant