CN112905024B

CN112905024B - 单词的音节记录方法及装置

Info

Publication number: CN112905024B
Application number: CN202110079369.6A
Authority: CN
Inventors: 李博林
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2023-10-27
Anticipated expiration: 2041-01-21
Also published as: CN112905024A

Abstract

本申请适用于字母输入法技术领域，提供了一种单词的音节记录方法，包括从待处理的若干词语中获取至少一个单词，单词中包含至少三个字母，将单词按照预设单词拼读规则进行拆分得到训练集，训练集包括所述预设单词拼读规则的音节索引及每个字母在音节索引中的位置信息，对训练集进行切分确定单词中的至少两个字母及两个字母组合的字符串对应所述位置信息的条件概率，基于条件概率确定目标单词以及目标音节对应的目标音节索引，目标音节索引满足预设单词拼读规则。本申请还提供了单词的音节记录装置，保证数据库中对单词、单词音节进行有效管理，大大提高了单词记录的速度。

Description

单词的音节记录方法及装置

技术领域

本申请属于字母输入法技术领域，尤其涉及一种单词的音节记录方法及装置。

背景技术

发明内容

本申请实施例提供了一种单词的音节记录方法及装置，可以解决用户只需要问题。

第一方面，本申请实施例提供了一种单词的音节记录方法，包括：

从待处理的若干词语中获取至少一个单词，所述单词中包含至少三个字母；

将所述单词按照预设单词拼读规则进行拆分得到训练集，所述训练集包括所述预设单词拼读规则的音节索引及每个所述字母在所述音节索引中的位置信息；

对所述训练集进行切分确定所述单词中的至少两个字母及所述两个字母组合的字符串对应所述位置信息的条件概率；

基于所述条件概率确定目标单词以及所述目标音节对应的目标音节索引，所述目标音节索引满足所述预设单词拼读规则。

作为上述技术方案的进一步改进，所述基于所述条件概率确定目标单词以及所述目标音节对应的目标音节索引，包括：

获取所述字符串中的第一字母及所述第一字母对应的第一位置信息；

根据所述第一字母及所述第一位置信息确定与所述第一字母关联的第二字母；

计算所述第一字母、所述第一位置信息及所述第二字母同时存在于所述目标单词中的条件概率。

作为上述技术方案的进一步改进，所述计算所述第一字母、所述第一位置信息及所述第二字母同时存在于所述目标单词中的条件概率，包括：

将所述目标单词按照所述预设拼读规则进行切分得到切分结果，所述切分结果包括所述目标单词及所述目标单词对应的目标音节；

判断所述切分结果是否存在于数据库中；

若否，将所述目标音节、所述目标单词及所述目标音节索引存储至所述数据库。

作为上述技术方案的进一步改进，所述音节索引包括音节的开头、中段和结尾，所述音节的开头、中段和结尾对应所述单词中的至少一个字母。

作为上述技术方案的进一步改进，当所述单词的预设单词拼读规则对应的音节索引的数量为三，遍历所述单词的每个字母得到每个所述字母的第二位置信息、以及生成所述单词对应的第一训练集；

根据所述第二位置信息和所述音节索引得到第一字符串、第二字符串和第三字符串、以及所述第一字符串、第二字符串和第三字符串中的字母数值，其中每个字符串包含至少两个字母；

将所述第一字母串、所述第二字母串和所述第三字母串分别标记为开头音节、中段音节和结尾音节，根据每个字母串中的字母数值和所述第二位置信息对应标记每个字母。

作为上述技术方案的进一步改进，在生成所述单词第一训练集之后，包括：

采用隐马尔可夫模型对所述第一训练集进行自动切分，所述第一训练集对应的条件概率表示为：

其中，以所述第一训练集中存在于所述第一字母串的第一字母为例，那么 A、B分别表示为：

A：该字母为音节的首字母；

B：该字母为第一字母，且这个字母后面一个字母为第二；

统计出所述第一字母为首字母，且紧邻所述第一字母的第二字母的概率记为P(AB)，统计出所述第一字母为任意字母且所述第一字母的后面单词为第二字母的概率记为P(B)。

A：该字母为音节的首字母；

B：该字母为第一字母，且这个字母后面的一个字母为第二字母；

第二方面，本申请实施例提供了一种单词的音节记录装置，包括：

获取模块，用于从待处理的若干词语中获取至少一个单词，所述单词中包含至少三个字母；

拆分模块，用于将所述单词按照预设单词拼读规则进行拆分得到训练集，所述训练集包括所述预设单词拼读规则的音节索引及每个所述字母在所述音节索引中的位置信息；

计算模块，用于对所述训练集进行切分确定所述单词中的至少两个字母及所述两个字母组合的字符串对应所述位置信息的条件概率；

记录模块，用于基于所述条件概率确定目标单词以及所述目标音节对应的目标音节索引，所述目标音节索引满足所述预设单词拼读规则。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述方法。

本申请实施例与现有技术相比存在的有益效果是：

通过从待处理的若干词语中获取至少一个单词，所述单词中包含至少三个字母，将所述单词按照预设单词拼读规则进行拆分得到训练集，所述训练集包括所述预设单词拼读规则的音节索引及每个所述字母在所述音节索引中的位置信息，对所述训练集进行切分确定所述单词中的至少两个字母及所述两个字母组合的字符串对应所述位置信息的条件概率，基于所述条件概率确定目标单词以及所述目标音节对应的目标音节索引，所述目标音节索引满足所述预设单词拼读规则。由于本申请可以按照预设单词拼读规则将多音节单词进行拆分得到训练集，利用训练集对大量单词进行自动切分来确定单词中的至少两个字母和两个字母组合的字符串对应位置信息的条件概率，位置信息是预先根据音节索引对每个字母进行标记得到的，这样可以对统一单词中的每个字母进行精准定位，可以提高切分单词的效率，使得任意给出一个新单词，均能判断出该单词中所有字母的位置信息即状态，以达到能经过字母的状态将单词分成若干个音节并记录在数据库中，保证数据库中对单词、单词音节进行有效管理，大大提高了单词记录的速度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的单词的音节记录方法的实现流程示意图；

图2是本申请实施例二提供的单词的音节记录方法的实现流程示意图；

图3是本申请另一实施例提供的单词的音节记录方法的实现流程示意图；

图4是本申请实施例提供的单词的音节记录装置的结构示意图；

图5是本申请实施例提供的终端设备的结构示意图。

主要元件符号说明：

300-单词的音节记录装置；310-获取模块；320-拆分模块；330-计算模块； 340-记录模块；400-终端设备；410-存储器；420-处理器；430-计算机程序。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括” 指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，图1示出了本申请实施例一提供的单词的音节记录方法的实现过程示意图，所述单词的音节记录方法可以包括如下S101至S103：

S101：从待处理的若干词语中获取至少一个单词，所述单词中包含至少三个字母；

在本实施例中，通常英语单词是由字母组成的，字母构成音节，一个单词中有多少元音节就有多少音节，有的词只包括一个音节，有的词包括两个、三个或者更多音节，分别称为单音节词、双音节词和多音节词。音节中含有三个或三个以上的元音音素称为多音节单词。若干词语中可能包含英语词组、文字、符号等，便于后续对所有单词进行快速拆分。

S102：将所述单词按照预设单词拼读规则进行拆分得到训练集，所述训练集包括所述预设单词拼读规则的音节索引及每个所述字母在所述音节索引中的位置信息；

在本实施例中，字母是书写英语单词的最小单位，音素是语言中最小的发音单位，字母分为元音字母和辅音字母两种，单词中的字母和单词发音中的各个音素并不都存在对应关系，有时一个字母对应一个音素，有时两个或三个字母对应一个音素。音节的划分是指在一个词划分为音节时，有时根据其语音形式，有时根据其书写形式，以teach和nice为例，从书写形式上来看，teach中有两个元音字母，但这两个元音字母ea组合在一起发一个音，因此，teach智能算一个音节，nice中有两个元音字母，但词尾的e不发音，因此，nice也会单音节词。例如以英语单词different为例，将其拆分为“dif-fe-rent”的音节索引，可以将dif作为单词different的音节索引中的开头，将fe作为单词different的音节索引中的中段，将rent作为单词different的音节索引中的结尾，其中字母d的位置信息是指在音节索引中的开头的第一个字母，训练集包括“dif-fe-rent”的音节索引、每个字母在该音节索引中的位置信息，训练集越多，训练得到的结果也会越多，使得音节拆分训练过程更有效。

S103：对所述训练集进行切分确定所述单词中的至少两个字母及所述两个字母组合的字符串对应所述位置信息的条件概率；

可选地，当所述单词的预设单词拼读规则对应的音节索引的数量为三，遍历所述单词的每个字母得到每个所述字母的第二位置信息、以及生成所述单词对应的第一训练集；

在本实施例中，对训练集中的单词、音节索引进行切分，当所述单词为condition，将condition按照所述预设单词拼读规则进行拆分得到con-di-tion；

con中的三个字母依次标记为B、M、E，di中的两个字母依次标记为B、 E2，tion中的四个字母依次标记为B、M、M、E，以生成所述单词为condition 的第一训练集，其中，B表示Begin character，M表示Middle character，E表示 End character。

可选地，采用隐马尔可夫模型对所述第一训练集进行自动切分，所述第一训练集对应的条件概率表示为：

A：该字母为音节的首字母；

B：该字母为第一字母，且该字母后面的一个字母为第二字母；

采用隐马尔可夫模型对所述第一训练集进行自动切分，所述第一训练集对应的条件概率表示为：；

其中，以所述第一训练集中的字母c为例，那么A、B分别表示为：

A：该字母为音节的首字母；

B：该字母为字母c，且这个字母后面一个字母为o；

统计出字母c为首字母且字母c后面单词为o的概率记为P(AB)，统计出字母c为任意字母且字母后面单词为o的概率记为P(B)。

需要说明的是，上述利用字母c的后一个字母判断该字母的状态，实际操作中可以同时利用字母后一个字母o；或者以字母o为例，字母o的前一个字母等，对单词中一个字母的状态进行更加准确的判断。

应理解，隐马尔可夫模型(Hidden Markov Model，HMM)是统计模型，其具有双重随机过程，分别由一条隐藏状态的马尔科夫链和描述每个状态对应观测值的随机过程组成，它是用来描述一个含有隐含未知参数的马尔可夫过程，从可观察的参数中确定该过程的隐含参数，然后利用这些参数作进一步的分析。它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有相应概率密度分布的状态序列产生。通过隐马尔可夫模型可以对训练集进行自动切分得到多种结果，可以完善训练集，使得训练集切分即音节训练得更准确。

S104：基于所述条件概率确定目标单词以及所述目标音节对应的目标音节索引，所述目标音节索引满足所述预设单词拼读规则。

在本实施例中，再次以单词condition，con-di-tion为例，选取出音节索引中的首字母cdt，即字母c为音节索引的开头的第一个字母用字母，字母d为音节索引的中段的第一个字母，字母t为音节索引中的结尾的第一个字母，均采用字母B标记字母c、d、t。

图2示出了本申请实施例二提供的单词的音节记录方法的实现过程示意图，进一步地，S104还包括S1041～S1043，具体包括以下步骤：

S1041：获取所述字符串中的第一字母及所述第一字母对应的第一位置信息；

S1042：根据所述第一字母及所述第一位置信息确定与所述第一字母关联的第二字母；

S1043：计算所述第一字母、所述第一位置信息及所述第二字母同时存在于所述目标单词中的条件概率。

根据所述第二位置信息和所述音节索引得到第一字符串、第二字符串和第三字符串、以及所述第一字符串、所述第二字符串和所述第三字符串中的字母数值，其中所述第一字符串的字母数值为一，所述第二字符串和所述第三字符串包含至少两个字母；

将所述第一字母串中的字母标记为单音节对应的单字符，将所述第二字母串和所述第三字母串分别标记为开头字符、中段字符和结尾字符，根据所述第二字符串、所述第三字符串中的字母数值和所述第二位置信息对应标记每个字母。

在本实施例中，当所述单词为abandon，将abandon按照所述预设单词拼读规则进行拆分得到a-ban-don；

a为单个字母标记为S，ban中的三个字母依次标记为B、M、E，don中的三个字母依次标记为B、M、E，已生成所述单词为abandon的第二训练集，其中，S表示Singlecharacter，B表示Begin character，M表示Middle character， E表示End character。例如字典B存储所有带有begin标识的单词，训练单词 abandon之后，得到字典B为{aba＝1，ndn＝1}。第一字母可以是音节索引中的开头、中段或结尾中的任意一个字母，第一位置信息是该第一字母在整个单词中的状态，第二字母与第一字母存在关联即位置关系，如首字母a的后面一个字母b，b在音节索引中的第二位置信息为B标识的。

需要说明的是，以每个单词所有音节的首字母按序形成字符串，将按序排列的字符串归纳集合成总音节首字母索引，以总音节的26各自组组成的字母顺索引中的字符串对应形成具有与从总音节字母索引中按序排列的字符串的单词索引，单词索引中的所有单词与总音节首字母索引的所有字符串分别相对应，某些字符串包含有总音节首字母索引的某一个字符串相同的字母，且单词索引中的单词的字母的排序也与总音节首字母索引的某一个字符串的字母排序完全相同，总音节首字母索引作为一级索引与单词索引相关联，单词索引为从属于总音节首字母索引的二级索引，这样便于将多个单词通过音节索引进行关联，方便使用。

图3示出了本申请另一实施例提供的单词的音节记录方法的实现过程示意图，进一步地，S1043还包括E1～E3，具体包括以下步骤：

E1：将所述目标单词按照所述预设拼读规则进行切分得到切分结果，所述切分结果包括所述目标单词及所述目标单词对应的目标音节；

E2：判断所述切分结果是否存在于数据库中；

E3：若否，将所述目标音节、所述目标单词及所述目标音节索引存储至所述数据库。

在本实施例中，可以手动将若干词语进行切分并记录至数据库中，采用隐马尔可夫链作为原理，计算两个不同字母及其组合为该单词中音节开头、中段、结尾的概率，根据单词为音节的开头、中段、结尾的概率进行切分，切分结果存在数据库中没有记载的音节，将新音节、单词和单词的音节构成即音节索引加入数据库中；当判断切分出的所有单词存在于数据库中，将单词和单词的音节构成添加至数据库中，可以去除切分出来重复的音节，节省了数据库的存储空间。

参阅图4，本申请还提供了一种单词的音节记录装置300，包括：

获取模块310，用于从待处理的若干词语中获取至少一个单词，所述单词中包含至少三个字母；

拆分模块320，用于将所述单词按照预设单词拼读规则进行拆分得到训练集，所述训练集包括所述预设单词拼读规则的音节索引及每个所述字母在所述音节索引中的位置信息；

计算模块330，用于对所述训练集进行切分确定所述单词中的至少两个字母及所述两个字母组合的字符串对应所述位置信息的条件概率；

记录模块340，用于基于所述条件概率确定目标单词以及所述目标音节对应的目标音节索引，所述目标音节索引满足所述预设单词拼读规则。

本申请提供了一种单词的音节记录方法及装置，通过从待处理的若干词语中获取至少一个单词，所述单词中包含至少三个字母，将所述单词按照预设单词拼读规则进行拆分得到训练集，所述训练集包括所述预设单词拼读规则的音节索引及每个所述字母在所述音节索引中的位置信息，对所述训练集进行切分确定所述单词中的至少两个字母及所述两个字母组合的字符串对应所述位置信息的条件概率，基于所述条件概率确定目标单词以及所述目标音节对应的目标音节索引，所述目标音节索引满足所述预设单词拼读规则。由于本申请可以按照预设单词拼读规则将多音节单词进行拆分得到训练集，利用训练集对大量单词进行自动切分来确定单词中的至少两个字母和两个字母组合的字符串对应位置信息的条件概率，位置信息是预先根据音节索引对每个字母进行标记得到的，这样可以对统一单词中的每个字母进行精准定位，可以提高切分单词的效率，使得任意给出一个新单词，均能判断出该单词中所有字母的位置信息即状态，以达到能经过字母的状态将单词分成若干个音节并记录在数据库中，保证数据库中对单词、单词音节进行有效管理，大大提高了单词记录的速度。

请参阅图5，图5是本申请实施例还提供的终端设备的结构示意图，如图5 所示，终端设备400包括存储器410、至少一个处理器420以及存储在所述存储器410中并可在所述处理器420上运行的计算机程序430，所述处理器420 执行所述计算机程序430时实现上述的单词的音节记录方法。

终端设备400可以是桌上型计算机、手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

该终端设备400可包括但不仅限于处理器420、存储器410。本领域技术人员可以理解，图5仅仅是终端设备400的举例，并不构成对终端设备400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备等。

所称处理器420可以是中央处理单元(Central Processing Unit，CPU)，该处理器420还可以是其他通用处理器、数字信号处理器(Digital Signal Processor， DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器410在一些实施例中可以是终端设备400的内部存储单元，例如终端设备400的硬盘或内存。所述存储器410在另一些实施例中也可以是所述终端设备400的外部存储设备，例如终端设备400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器410还可以既包括终端设备400的内部存储单元也包括外部存储设备。所述存储器410用于存储操作***、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器410还可以用于暂时地存储已经输出或者将要输出的数据。

需要说明的是，上述表情包生成装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述辅助拍摄装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器 (RandomAccess Memory，RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种单词的音节记录方法，其特征在于，包括：

对所述训练集进行切分确定所述单词中的至少两个字母及所述两个字母组合的字母串对应所述位置信息的条件概率；

基于所述条件概率确定目标单词以及所述目标单词对应的目标音节索引，所述目标音节索引满足所述预设单词拼读规则；

其中，所述基于所述条件概率确定目标单词以及所述目标单词对应的目标音节索引，包括：

获取所述字母串中的第一字母及所述第一字母对应的第一位置信息；

2.根据权利要求1所述的单词的音节记录方法，其特征在于，所述计算所述第一字母、所述第一位置信息及所述第二字母同时存在于所述目标单词中的条件概率，包括：

将所述目标单词按照所述预设单词拼读规则进行切分得到切分结果，所述切分结果包括所述目标单词及所述目标单词对应的目标音节；

判断所述切分结果是否存在于数据库中；

3.根据权利要求1所述的单词的音节记录方法，其特征在于，包括：

所述音节索引包括音节的开头、中段和结尾，所述音节的开头、中段和结尾对应所述单词中的至少一个字母。

4.根据权利要求1所述的单词的音节记录方法，其特征在于，包括：

当所述单词的预设单词拼读规则对应的音节索引的数量为三，遍历所述单词的每个字母得到每个所述字母的第二位置信息、以及生成所述单词对应的第一训练集；

根据所述第二位置信息和所述音节索引得到第一字母串、第二字母串和第三字母串、以及所述第一字母串、第二字母串和第三字母串中的字母数值，其中每个字母串包含至少两个字母；

5.根据权利要求4所述的单词的音节记录方法，其特征在于，在生成所述单词第一训练集之后，包括：

其中，以所述第一训练集中存在于所述第一字母串的第一字母为例，那么A、B分别表示为：

A：该字母为音节的首字母；

6.根据权利要求5所述的单词的音节记录方法，其特征在于，包括：

根据所述第二位置信息和所述音节索引得到第一字母串、第二字母串和第三字母串、以及所述第一字母串、所述第二字母串和所述第三字母串中的字母数值，其中所述第一字母串的字母数值为一，所述第二字母串和所述第三字母串包含至少两个字母；

将所述第一字母串中的字母标记为单音节对应的单字符，将所述第一字母串、所述第二字母串和所述第三字母串分别标记为开头字符、中段字符和结尾字符，根据所述第二字母串、所述第三字母串中的字母数值和所述第二位置信息对应标记每个字母。

7.一种单词的音节记录装置，其特征在于，包括：

计算模块，用于对所述训练集进行切分确定所述单词中的至少两个字母及所述两个字母组合的字母串对应所述位置信息的条件概率；

记录模块，用于基于所述条件概率确定目标单词以及所述目标单词对应的目标音节索引，所述目标音节索引满足所述预设单词拼读规则；

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。