CN113420547A - 即时通信软件的错别字纠错方法及相关设备 - Google Patents

即时通信软件的错别字纠错方法及相关设备 Download PDF

Info

Publication number
CN113420547A
CN113420547A CN202110982075.4A CN202110982075A CN113420547A CN 113420547 A CN113420547 A CN 113420547A CN 202110982075 A CN202110982075 A CN 202110982075A CN 113420547 A CN113420547 A CN 113420547A
Authority
CN
China
Prior art keywords
words
vocabulary
word
selection
vocabularies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110982075.4A
Other languages
English (en)
Inventor
吴欣蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Haohua Technology Co ltd
Original Assignee
Shenzhen Haohua Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Haohua Technology Co ltd filed Critical Shenzhen Haohua Technology Co ltd
Priority to CN202110982075.4A priority Critical patent/CN113420547A/zh
Publication of CN113420547A publication Critical patent/CN113420547A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种即时通信软件的错别字纠错方法及相关设备,所述方法包括:终端接收用户在即时通信软件输入的拼音信息,依据该拼音信息确定前n个待选词汇;终端确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;终端将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句。本申请具有准确率高的优点。

Description

即时通信软件的错别字纠错方法及相关设备
技术领域
本申请属于互联网技术领域,具体涉及一种即时通信软件的错别字纠错方法及相关设备。
背景技术
Instant Messaging(即时通讯、IM),这是一种可以让使用者在网络上建立某种私人聊天室的实时通讯服务,大部分的即时通讯服务提供了状态信息的特性──显示联络人名单,联络人是否在线及能否与联络人交谈;
现有的IM具有通过文字输入以及语音输入进行聊天的方式,对于文字输入的聊天方式中,用户经常会因为错别字烦恼,现有的IM是无法对错别字进行纠错处理的,因此影响了用户聊天的效果。
发明内容
本申请实施例提供一种即时通信软件的错别字纠错方法及相关设备,以期提高IM的错别字的纠错,提高用户聊天的效果。
第一方面,本申请实施例提供一种即时通信软件的错别字纠错方法,包括:
终端接收用户在即时通信软件输入的拼音信息,依据该拼音信息确定前n个待选词汇;
终端确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;
终端将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句。
可选的,所述依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇具体包括:
终端确定多个词汇的选择方式是否为数字选择,将多个词汇中选择方式为数字选择的词汇确定为确认选择词汇,将多个词汇中选择方式为非数据选择的词汇确定为默认选择词汇。
可选的,所述依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇具体包括:
终端确定多个词汇的选择方式是否为默认方式,将多个词汇中选择方式为默认方式的词汇确定为默认选择词汇,将多个词汇中选择方式为非默认方式的词汇确定为确定选择词汇。
可选的,所述依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句具体包括:
对该正确词汇的x个词汇进行类型识别确定x个正确词汇对应的x个类型,获取x个词汇在输入语句中的x个位置,获取该待纠错的词汇的y个词汇,确定y个词汇在输入语句中y个位置,依据x个类型、x个位置和y个位置对y个词汇中每个词汇执行纠错处理得到纠错后词汇,采用纠错后的词汇替换对应位置的词汇得到调整后的语句。
可选的,所述执行纠错处理得到纠错后词汇具体包括:
提取y个词汇中的词汇i以及词汇位置i,对词汇i进行类型识别得到第i类型,从x个正确词汇中查询离位置i最接近的位置w,提取位置w对应的词汇w,对词汇w进行语音识别确定是否具有实际含义,若词汇w具有实际含义,确定词汇w对应的第w类型与第i类型是否相同,若第w类型与第i类型相同,确定词汇i为正确词汇,若词汇w不具有实际含义,从x个正确词汇确定词汇w之前具有实际含义的词汇w-h,获取词汇w-h对应的第w-h类型,若第w-h类型与第i类型相同,确定词汇i为正确词汇,若第w-h类型与第i类型不相同,确定词汇i为错误词汇,提取词汇i对应的输入拼音i,提取输入拼音i对应的n个候选词汇的n个类型,从n个类型中提取与第i类型相同的第α个词汇,将第α个词汇确定为词汇i的替换词汇。
可选的,所述方法还包括:
提取输入拼音i对应的n个候选词汇的n个类型,若n个类型中没有与第i类型相同的类型,确定输入拼音i相似拼音,若具有相似拼音,将该输入拼音i用相似拼音替换得到替换的拼音i’,提取拼音i’对应的n’个候选词汇的n’个类型,若n’个类型中有与第i类型相同的类型,确定该相同的类型对应的词汇为该词汇i的替换词汇。
可选的,所述相似拼音包括:前鼻音、后鼻音;
或所述相似拼音包括:平舌音和翘舌音。
可以看出,本申请提供的技术方案终端接收用户在即时通信软件输入的拼音信息,依据该拼音信息确定前n个待选词汇;终端确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;终端将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句,这样就能够实现对输入的错别字的纠错。具体的,对于用户输入的拼音的词汇大致分为两种,第一种为用户直接选择的词汇,例如,输入“shuru”,则会显示n个待选词汇(例如5个),以搜狗拼音输入法为例,具体可以为“输入、数、书、输、叔”等待选词汇,在实际中,可能依据用户的历史输入信息可能有所不同,对于用户确定的方式有2种,第一种确认方式是直接默认选择,以搜狗拼音输入法为例,一般“空格”表示默认选择第1个候选词汇,其他的选择为数字选择的确认选择词汇,一般通过数字按键来选择,因此本申请的方案将用户确认选择方式,例如非数字选择方式就可以确定为默认选择方式,将数字选择方式确定为用户确认选择方式,一般用户确认选择方式的字都是用户已经经过仔细确认过的字,出现错别字的概率较低,但是对于默认方式出现错别字的概率较高,因此确定为待纠错的错别字,这样就能够对IM的错别字进行纠错,提高准确率,进而提高用户输入的体验度。
第二方面,本申请实施例提供一种即时通信软件的错别字纠错***,所述***包括:
输入单元,用于接收用户在即时通信软件输入的拼音信息;
处理单元,用于依据该拼音信息确定前n个待选词汇;确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句。
可选的,
所述处理单元,具体用于对该正确词汇的x个词汇进行类型识别确定x个正确词汇对应的x个类型,获取x个词汇在输入语句中的x个位置,获取该待纠错的词汇的y个词汇,确定y个词汇在输入语句中y个位置,依据x个类型、x个位置和y个位置对y个词汇中每个词汇执行纠错处理得到纠错后词汇,采用纠错后的词汇替换对应位置的词汇得到调整后的语句。
第三方面,本申请实施例提供一种电子设备的结构示意图,如图所示,所述移动终端包括处理器、存储器和通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
附图说明
图1是本申请实施例提供的一种即时通信软件的错别字纠错方法的流程示意图;
图2是本申请实施例提供的一种电子设备的结构示意图;
图3是本申请实施例提供的一种即时通信软件的错别字纠错***的功能单元框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
IM为目前互联网的主要的通信方式,例如微信、QQ、脸书等等软件,现有的IM的输入方式大致分为两种,第一种为,文字输入,即通过输入法实现文字的输入,另一种为语音输入,此种输入方式通过语音的录入来实现信息的交互。本申请主要是针对不同的输入方式来实现错别字的纠错。
参阅图1,图1提供了一种即时通信软件的错别字纠错方法,该方法可以在终端设备内执行,该终端设备可以为智能手机、个人计算机、平板电脑等等,该方法如图1所示,包括如下步骤:
步骤S101、终端接收用户在即时通信软件输入的拼音信息,依据该拼音信息确定前n个待选词汇;
示例的,上述拼音信息具体可以为用户输入的拼音字符,该拼音字符可以为一个或多个。
步骤S102、终端确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;
上述n个待选词汇中的n为大于等于2的整数,上述第一词汇指的是确定的词汇,并不表示或限制第一词汇为n个待选词汇中的排名第一个的词汇。
步骤S103、终端将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句。
本申请提供的技术方案终端接收用户在即时通信软件输入的拼音信息,依据该拼音信息确定前n个待选词汇;终端确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;终端将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句,这样就能够实现对输入的错别字的纠错。具体的,对于用户输入的拼音的词汇大致分为两种,第一种为用户直接选择的词汇,例如,输入“shuru”,则会显示n个待选词汇(例如5个),以搜狗拼音输入法为例,具体可以为“输入、数、书、输、叔”等待选词汇,在实际中,可能依据用户的历史输入信息可能有所不同,对于用户确定的方式有2种,第一种确认方式是直接默认选择,以搜狗拼音输入法为例,一般“空格”表示默认选择第1个候选词汇,其他的选择为数字选择的确认选择词汇,一般通过数字按键来选择,因此本申请的方案将用户确认选择方式,例如非数字选择方式就可以确定为默认选择方式,将数字选择方式确定为用户确认选择方式,一般用户确认选择方式的字都是用户已经经过仔细确认过的字,出现错别字的概率较低,但是对于默认方式出现错别字的概率较高,因此确定为待纠错的错别字,这样就能够对IM的错别字进行纠错,进而提高用户输入的体验度。
示例的,上述依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇具体可以包括:
终端确定多个词汇的选择方式是否为数字选择,将多个词汇中选择方式为数字选择的词汇确定为确认选择词汇,将多个词汇中选择方式为非数据选择的词汇确定为默认选择词汇。
示例的,上述依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇具体可以包括:
终端确定多个词汇的选择方式是否为默认方式,将多个词汇中选择方式为默认方式的词汇确定为默认选择词汇,将多个词汇中选择方式为非默认方式的词汇确定为确定选择词汇。
示例的,上述默认方式包括但不限于:空格、回车、数字1等等。当然在实际应用中,还可以是其他的方式。
示例的,上述依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句具体可以包括:
对该正确词汇的x个词汇进行类型识别确定x个正确词汇对应的x个类型,获取x个词汇在输入语句中的x个位置,获取该待纠错的词汇的y个词汇,确定y个词汇在输入语句中y个位置,依据x个类型、x个位置和y个位置对y个词汇中每个词汇执行纠错处理得到纠错后词汇,采用纠错后的词汇替换对应位置的词汇得到调整后的语句。
示例的,上述执行纠错处理得到纠错后词汇具体可以包括:
提取y个词汇中的词汇i以及词汇位置i,对词汇i进行类型识别得到第i类型,从x个正确词汇中查询离位置i最接近的位置w,提取位置w对应的词汇w,对词汇w进行语音识别确定是否具有实际含义,若词汇w具有实际含义,确定词汇w对应的第w类型与第i类型是否相同,若第w类型与第i类型相同,确定词汇i为正确词汇,若词汇w不具有实际含义,从x个正确词汇确定词汇w之前具有实际含义的词汇w-h,获取词汇w-h对应的第w-h类型,若第w-h类型与第i类型相同,确定词汇i为正确词汇,若第w-h类型与第i类型不相同,确定词汇i为错误词汇,提取词汇i对应的输入拼音i,提取输入拼音i对应的n个候选词汇的n个类型,从n个类型中提取与第i类型相同的第α个词汇,将第α个词汇确定为词汇i的替换词汇。
示例的,上述确定是否具有实际含义可以通过自然语言分析算法来确定。上述自然语言分析算法来确定含义,然后依据该词的成份(属于定语、主语、谓语、补语等等)来确定其是否具有实际含义。例如,可以、包括等等比较广泛的词语可以确定为没有实际含义的词语,又如,房子、房租、成本、钱数等等即可以确定为又实际含义的词语。当然还可以通过其他的方式来区分是否具有实际含义,本申请并不限制上述实际含义的具体确认方式。
示例的,上述方法还可以包括:
提取输入拼音i对应的n个候选词汇的n个类型,若n个类型中没有与第i类型相同的类型,确定输入拼音i相似拼音,若具有相似拼音,将该输入拼音i用相似拼音替换得到替换的拼音i’,提取拼音i’对应的n’个候选词汇的n’个类型,若n’个类型中有与第i类型相同的类型,确定该相同的类型对应的词汇为该词汇i的替换词汇。
下面以一个例子来说明,假设输入语句为“成本可以包括人工和房主”,对应的确定词汇可以为“成本、可以、包括”,确定|“人工、房主”为待纠错的词汇,那么首先对人工进行识别处理,按上述方式类型识别确定后,可以确定成本、人工属于相同的类型,均属于“费用”类型,但是对于房主,其不属于相同的类型,那么确定房主的输入拼音为“fangzhu”,确定对应的n个候选词汇包括:“房主、放逐、防住、方柱、防蛀”,此n个类型均与费用无关,因此需要核对该输入拼音是否具有相似拼音,确定该zh与z为相似拼音,则将zh替换成z,确定拼音i’为“fangzu”,确定候选词汇“房租”与费用类型相同,则确定该替换词汇为房租。
上述类型的确定方式可以采用支持向量机或其他的类型识别方式,当然还可以采用其他的类型确定方式,本申请并不限定上述类型的具体实现方式。
示例的,上述相似拼音可以包括:前鼻音、后鼻音;当然还可以包括:平舌音和翘舌音等等。当然在实际应用中还可以为其他的相似音频。
与上述方法实施例一致的,请参阅图2,图2是本申请实施例提供的一种电子设备200的结构示意图,如图所示,所述电子设备200包括处理器210、存储器220和通信接口230以及一个或多个程序221,其中,所述一个或多个程序221被存储在上述存储器220中,并且被配置由上述处理器210执行,所述一个或多个程序221包括用于执行上述方法实施例中的任意步骤的指令。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图3是本申请实施例中所涉及的即时通信软件的错别字纠错***的功能单元组成框图。该***可以应用于服务器,包括:
输入单元301,用于接收用户在即时通信软件输入的拼音信息;
处理单元302,用于依据该拼音信息确定前n个待选词汇;确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句。
示例的,所述处理单元302,具体用于对该正确词汇的x个词汇进行类型识别确定x个正确词汇对应的x个类型,获取x个词汇在输入语句中的x个位置,获取该待纠错的词汇的y个词汇,确定y个词汇在输入语句中y个位置,依据x个类型、x个位置和y个位置对y个词汇中每个词汇执行纠错处理得到纠错后词汇,采用纠错后的词汇替换对应位置的词汇得到调整后的语句。
示例的,所述处理单元302,具体用于提取y个词汇中的词汇i以及词汇位置i,对词汇i进行类型识别得到第i类型,从x个正确词汇中查询离位置i最接近的位置w,提取位置w对应的词汇w,对词汇w进行语音识别确定是否具有实际含义,若词汇w具有实际含义,确定词汇w对应的第w类型与第i类型是否相同,若第w类型与第i类型相同,确定词汇i为正确词汇,若词汇w不具有实际含义,从x个正确词汇确定词汇w之前具有实际含义的词汇w-h,获取词汇w-h对应的第w-h类型,若第w-h类型与第i类型相同,确定词汇i为正确词汇,若第w-h类型与第i类型不相同,确定词汇i为错误词汇,提取词汇i对应的输入拼音i,提取输入拼音i对应的n个候选词汇的n个类型,从n个类型中提取与第i类型相同的第α个词汇,将第α个词汇确定为词汇i的替换词汇。
示例的,所述处理单元302,具体用于提取输入拼音i对应的n个候选词汇的n个类型,若n个类型中没有与第i类型相同的类型,确定输入拼音i相似拼音,若具有相似拼音,将该输入拼音i用相似拼音替换得到替换的拼音i’,提取拼音i’对应的n’个候选词汇的n’个类型,若n’个类型中有与第i类型相同的类型,确定该相同的类型对应的词汇为该词汇i的替换词汇。
其中,处理单元302可以是处理器或控制器,例如可以是中央处理器(CentralProcessing Unit,CPU),通用处理器,数字信号处理器(Digital Signal Processor,DSP),ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块51可以是收发器、RF电路或通信接口等。
其中,上述方法实施例涉及的各场景的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。上述处理单元可执行上述图1所示的即时通信软件的错别字纠错方法中电子设备所执行的步骤。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种即时通信软件的错别字纠错方法,其特征在于,所述方法包括如下步骤:
终端接收用户在即时通信软件输入的拼音信息,依据该拼音信息确定前n个待选词汇;
终端确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;
终端将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句。
2.根据权利要求1所述的方法,其特征在于,所述依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇具体包括:
终端确定多个词汇的选择方式是否为数字选择,将多个词汇中选择方式为数字选择的词汇确定为确认选择词汇,将多个词汇中选择方式为非数据选择的词汇确定为默认选择词汇。
3.根据权利要求1所述的方法,其特征在于,所述依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇具体包括:
终端确定多个词汇的选择方式是否为默认方式,将多个词汇中选择方式为默认方式的词汇确定为默认选择词汇,将多个词汇中选择方式为非默认方式的词汇确定为确定选择词汇。
4.根据权利要求1所述的方法,其特征在于,所述依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句具体包括:
对该正确词汇的x个词汇进行类型识别确定x个正确词汇对应的x个类型,获取x个词汇在输入语句中的x个位置,获取该待纠错的词汇的y个词汇,确定y个词汇在输入语句中y个位置,依据x个类型、x个位置和y个位置对y个词汇中每个词汇执行纠错处理得到纠错后词汇,采用纠错后的词汇替换对应位置的词汇得到调整后的语句。
5.根据权利要求4所述的方法,其特征在于,所述执行纠错处理得到纠错后词汇具体包括:
提取y个词汇中的词汇i以及词汇位置i,对词汇i进行类型识别得到第i类型,从x个正确词汇中查询离位置i最接近的位置w,提取位置w对应的词汇w,对词汇w进行语音识别确定是否具有实际含义,若词汇w具有实际含义,确定词汇w对应的第w类型与第i类型是否相同,若第w类型与第i类型相同,确定词汇i为正确词汇,若词汇w不具有实际含义,从x个正确词汇确定词汇w之前具有实际含义的词汇w-h,获取词汇w-h对应的第w-h类型,若第w-h类型与第i类型相同,确定词汇i为正确词汇,若第w-h类型与第i类型不相同,确定词汇i为错误词汇,提取词汇i对应的输入拼音i,提取输入拼音i对应的n个候选词汇的n个类型,从n个类型中提取与第i类型相同的第α个词汇,将第α个词汇确定为词汇i的替换词汇。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
提取输入拼音i对应的n个候选词汇的n个类型,若n个类型中没有与第i类型相同的类型,确定输入拼音i相似拼音,若具有相似拼音,将该输入拼音i用相似拼音替换得到替换的拼音i’,提取拼音i’对应的n’个候选词汇的n’个类型,若n’个类型中有与第i类型相同的类型,确定该相同的类型对应的词汇为该词汇i的替换词汇。
7.根据权利要求6所述的方法,其特征在于,
所述相似拼音包括:前鼻音、后鼻音;
或所述相似拼音包括:平舌音和翘舌音。
8.一种即时通信软件的错别字纠错***,其特征在于,所述***包括:
输入单元,用于接收用户在即时通信软件输入的拼音信息;
处理单元,用于依据该拼音信息确定前n个待选词汇;确定前n个待选词汇中的第一词汇,将第一词汇加入到即时通信软件的已有语句中得到输入语句;将输入语句划分为多个词汇,依据多个词汇的选择方式将多个词汇划分为确认选择词汇和默认选择词汇,终端将默认选择词汇确定待纠错的词汇,将确定选择词汇确定为正确词汇,依据该正确词汇对该待纠错的词汇进行错别字调整得到调整后的语句,将该调整后的语句替换该输入语句。
9.根据权利要求8所述的***,其特征在于,
所述处理单元,具体用于对该正确词汇的x个词汇进行类型识别确定x个正确词汇对应的x个类型,获取x个词汇在输入语句中的x个位置,获取该待纠错的词汇的y个词汇,确定y个词汇在输入语句中y个位置,依据x个类型、x个位置和y个位置对y个词汇中每个词汇执行纠错处理得到纠错后词汇,采用纠错后的词汇替换对应位置的词汇得到调整后的语句。
10.一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如权利要求1-7任意一项所述方法中所描述的部分或全部步骤。
CN202110982075.4A 2021-08-25 2021-08-25 即时通信软件的错别字纠错方法及相关设备 Pending CN113420547A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110982075.4A CN113420547A (zh) 2021-08-25 2021-08-25 即时通信软件的错别字纠错方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110982075.4A CN113420547A (zh) 2021-08-25 2021-08-25 即时通信软件的错别字纠错方法及相关设备

Publications (1)

Publication Number Publication Date
CN113420547A true CN113420547A (zh) 2021-09-21

Family

ID=77719404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110982075.4A Pending CN113420547A (zh) 2021-08-25 2021-08-25 即时通信软件的错别字纠错方法及相关设备

Country Status (1)

Country Link
CN (1) CN113420547A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136196A (zh) * 2008-04-18 2013-06-05 上海触乐信息科技有限公司 用于向电子设备输入文本和纠错的方法
CN104317780A (zh) * 2014-09-28 2015-01-28 无锡卓信信息科技有限公司 一种中文输入文本的快速纠错方法
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106710592A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种智能硬件设备中的语音识别纠错方法和装置
CN110489737A (zh) * 2019-05-23 2019-11-22 深圳龙图腾创新设计有限公司 词语纠错提示方法、装置、计算机设备及可读存储介质
CN113033185A (zh) * 2021-05-28 2021-06-25 中国电子技术标准化研究院 标准文本纠错方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136196A (zh) * 2008-04-18 2013-06-05 上海触乐信息科技有限公司 用于向电子设备输入文本和纠错的方法
CN104317780A (zh) * 2014-09-28 2015-01-28 无锡卓信信息科技有限公司 一种中文输入文本的快速纠错方法
CN104915264A (zh) * 2015-05-29 2015-09-16 北京搜狗科技发展有限公司 一种输入纠错方法和装置
CN106710592A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种智能硬件设备中的语音识别纠错方法和装置
CN110489737A (zh) * 2019-05-23 2019-11-22 深圳龙图腾创新设计有限公司 词语纠错提示方法、装置、计算机设备及可读存储介质
CN113033185A (zh) * 2021-05-28 2021-06-25 中国电子技术标准化研究院 标准文本纠错方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钟合: "《电脑打字20小时通》", 31 December 1996, 科学技术文献出版社 *

Similar Documents

Publication Publication Date Title
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
US9047868B1 (en) Language model data collection
US10686903B2 (en) Information push method and electronic device
CN109635305B (zh) 语音翻译方法及装置、设备及存储介质
US20210034622A1 (en) Method and system for enhanced search term suggestion
WO2015106646A1 (en) Method and computer system for performing audio search on social networking platform
US20120053937A1 (en) Generalizing text content summary from speech content
CN108052686B (zh) 一种摘要提取方法及相关设备
CN109582775B (zh) 信息录入方法、装置、计算机设备及存储介质
KR102030551B1 (ko) 인스턴트 메신저 구동 장치 및 그 동작 방법
CN105320641B (zh) 一种文本校验方法及用户终端
CN111858966B (zh) 知识图谱的更新方法、装置、终端设备及可读存储介质
CN108595141A (zh) 语音输入方法及装置、计算机装置和计算机可读存储介质
CN111078900B (zh) 一种数据的风险识别方法及***
CN107623620B (zh) 随机***互数据的处理方法、网络服务器及智能对话***
CN112949290A (zh) 文本纠错方法、装置及通信设备
CN107862035A (zh) 会议记录的网络读取方法、装置、智能平板和存储介质
CN113360127B (zh) 音频播放方法以及电子设备
CN113420547A (zh) 即时通信软件的错别字纠错方法及相关设备
CN113220949B (zh) 一种隐私数据识别***的构建方法及装置
JP6486789B2 (ja) 音声認識装置、音声認識方法、プログラム
CN107451285A (zh) 一种亲属关系的分析方法、装置、存储介质及智能终端
CN110674268B (zh) 人机对话方法及相关设备
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质
CN111985235B (zh) 文本处理方法、装置、计算机可读存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210921

RJ01 Rejection of invention patent application after publication