CN110750967B - 一种发音的标注方法、装置、计算机设备和存储介质 - Google Patents
一种发音的标注方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110750967B CN110750967B CN201911001943.5A CN201911001943A CN110750967B CN 110750967 B CN110750967 B CN 110750967B CN 201911001943 A CN201911001943 A CN 201911001943A CN 110750967 B CN110750967 B CN 110750967B
- Authority
- CN
- China
- Prior art keywords
- word
- pronunciation
- occurrence
- target
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种发音的标注方法、装置、计算机设备和存储介质,该方法包括:确定句子;若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词;确定目标词在所述句子中的词性,所述目标词为所述多音字所在的词;若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下代表词、共现词,所述共现词与所述代表词共现;在对所述句子标注发音时,根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,对所述多音字标注所述目标发音。目标词、代表词与共现词之间的运算多涉及向量,较为简单,无需复杂的神经网络,可降低耗费的资源,减少运算耗时。
Description
技术领域
本发明实施例涉及自然语言处理的技术,尤其涉及一种发音的标注方法、装置、计算机设备和存储介质。
背景技术
在自然语言处理(natural language processing,NLP)中,字音转换是中文语音合成、语言教育、办公文档等常用功能之一,大多数字具有确定的读音,但有很多字具有两种及两种以上的发音,该字也被称为多音字,字音转换的关键点和难点之一就是这些多音字的判别和消岐。
一般认为,多音字的读音通常和具体的上下文信息、语义以及语言习惯密切相关,通常使用深度学习标注读音。
例如,将多音字的特征输入至LSTM(Long Short Term Memory,长短期记忆网络)中,得到多音字的上下文信息,再将该上下文信息输入至声母、韵母和声调对应的深度神经网络中,获得该多音字发音对应的声母的概率、韵母的概率、声调的概率,从而组合发音的概率,以该发音的概率选择发音。
但是,深度学习的运算复杂度较高,耗费的资源较多、运算耗时较长。
发明内容
本发明实施例提供一种发音的标注方法、装置、计算机设备和存储介质,以解决使用深度学习标注多音字发音的运算复杂度较高的问题。
第一方面,本发明实施例提供了一种发音的标注方法,包括:
确定句子;
若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词;
确定目标词在所述句子中的词性,所述目标词为所述多音字所在的词;
若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下代表词、共现词,所述共现词与所述代表词共现;
在对所述句子标注发音时,根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,对所述多音字标注所述目标发音。
可选地,所述根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,包括:
基于所述目标词、所述代表词与所述共现词计算所述发音的总分数;
基于所述总分数从所述发音中确定目标发音。
可选地,所述基于所述目标词、所述代表词与所述共现词计算所述发音的总分数,包括:
确定所述目标词的词向量、所述代表词的词向量、所述共现词的词向量;
对所述目标词的词向量与所述代表词的词向量进行指数运算,获得第一子分数;
对所述目标词的词向量与所述共现词的词向量进行指数运算,获得第二子分数;
计算所述第一子分数与所有所述第二子分数之和,作为总分数。
可选地,还包括:
确定多音字的词性、所述多音字在所述词性下的发音;
若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下的代表词;
遍历预设的语料,以查找与所述代表词共现的共现词;
生成所述多音字、所述词性、所述发音、所述代表词、所述共现词之间的映射关系;
将所述代表词与所述共现词转换为词向量。
可选地,所述遍历预设的语料,以查找与所述代表词共现的共现词,包括:
在所述语料中,以所述代表词作为统计窗口的中点、确定在所述统计窗口与所述词共现的词;
统计所述代表词与所述词共现的次数;
基于所述共现的次数从所述词中选择所述代表词的共现词。
可选地,所述遍历预设的语料,以查找与所述代表词共现的共现词,还包括:
确定所述共现词的词性;
若所述词性为名词或动词,则确定所述共现词有效;
若所述词性为非名词与非动词,则确定所述共现词无效。
可选地,在所述确定目标词在所述句子中的词性之后,还包括:
若在所述词性下、所述多音字具有一个发音,则在对所述句子标注发音时,对所述字标注所述发音。
可选地,还包括:
确定多音字的词性、所述多音字在所述词性下的发音;
若在所述词性下、所述多音字具有一个发音,则生成所述多音字、所述词性、所述发音之间的映射关系。
可选地,在所述确定句子之后,还包括:
若所述句子中未包含多音字,则对所述句子标注发音。
第二方面,本发明实施例还提供了一种发音的标注装置,包括:
句子确定模块,用于确定句子;
分词模块,用于若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词;
词性确定模块,用于确定目标词在所述句子中的词性,所述目标词为所述多音字所在的词;
词确定模块,用于若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下代表词、共现词,所述共现词与所述代表词共现;
多发音标注模块,用于在对所述句子标注发音时,根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,对所述多音字标注所述目标发音。
可选地,所述多发音标注模块包括:
总分数计算子模块,用于基于所述目标词、所述代表词与所述共现词计算所述发音的总分数;
目标发音确定子模块,用于基于所述总分数从所述发音中确定目标发音。
可选地,所述总分数计算子模块包括:
词向量确定单元,用于确定所述目标词的词向量、所述代表词的词向量、所述共现词的词向量;
第一子分数计算单元,用于对所述目标词的词向量与所述代表词的词向量进行指数运算,获得第一子分数;
第二子分数计算单元,用于对所述目标词的词向量与所述共现词的词向量进行指数运算,获得第二子分数;
求和单元,用于计算所述第一子分数与所有所述第二子分数之和,作为总分数。
可选地,还包括:
词参数确定模块,用于确定多音字的词性、所述多音字在所述词性下的发音;
代表词确定模块,用于若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下的代表词;
共现词查找模块,用于遍历预设的语料,以查找与所述代表词共现的共现词;
多映射关系生成模块,用于生成所述多音字、所述词性、所述发音、所述代表词、所述共现词之间的映射关系;
词向量转换模块,用于将所述代表词与所述共现词转换为词向量。
可选地,所述共现词查找模块包括:
统计窗口遍历子模块,用于在所述语料中,以所述代表词作为统计窗口的中点、确定在所述统计窗口与所述词共现的词;
共现次数统计子模块,用于统计所述代表词与所述词共现的次数;
共现次数选择子模块,用于基于所述共现的次数从所述词中选择所述代表词的共现词。
可选地,所述共现词查找模块还包括:
共现词性确定子模块,用于确定所述共现词的词性;
有效确定子模块,用于若所述词性为名词或动词,则确定所述共现词有效;
无效确定子模块,用于若所述词性为非名词与非动词,则确定所述共现词无效。
可选地,还包括:
单发音标注模块,用于若在所述词性下、所述多音字具有一个发音,则在对所述句子标注发音时,对所述字标注所述发音。
可选地,还包括:
词信息确定模块,用于确定多音字的词性、所述多音字在所述词性下的发音;
单映射关系生成模块,用于若在所述词性下、所述多音字具有一个发音,则生成所述多音字、所述词性、所述发音之间的映射关系。
可选地,还包括:
句子标注模块,用于若所述句子中未包含多音字,则对所述句子标注发音。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的发音的标注方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一所述的发音的标注方法。
在本实施例中,对于待标注发音的句子,若句子中包含多音字,则对句子进行分词处理,获得多个词,确定目标词在句子中的词性,目标词为多音字所在的词,若在词性下、多音字具有多个发音,则确定多音字在发音下代表词、共现词,共现词与代表词共现,在对句子标注发音时,根据目标词、代表词与共现词从发音中确定目标发音,对多音字标注目标发音,以共现词作为环境信息,参考词性、代表词进行发音的标注,可消除发音的歧义、保证发音的正确性,并且,目标词、代表词与共现词之间的运算多涉及向量,较为简单,无需复杂的神经网络,可降低耗费的资源,减少运算耗时。
附图说明
图1为本发明实施例一提供的一种发音的标注方法的流程图;
图2为本发明实施例二提供的一种发音的标注方法的流程图;
图3为本发明实施例三提供的一种发音的标注方法的流程图;
图4为本发明实施例四提供的一种发音的标注方法的流程图;
图5为本发明实施例五提供的一种发音的标注装置的结构示意图;
图6为本发明实施例六提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种发音的标注方法的流程图,本实施例可适用于建立音字、词性、发音、代表词、共现词之间的映射关系的情况,该方法可以由发音的标注装置来执行,发音的标注装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,个人电脑、移动终端(如手机、平板灯)、服务器、工作站,等等,该方法具体包括如下步骤:
步骤101、确定多音字的词性、所述多音字在所述词性下的发音。
在具体实现中,可以收集字典,如新华字典,从该字典中搜集多音字。
其中,多音字为具有两个或两个以上发音的字。
对搜集到的多音字,记录其在不同词性时对应的发音,形成一个“多音字,词性,发音”的数据集合,数据集合中每个条目为“多音字,词性,发音”的格式。
例如,“地,名词,di4”,“地,助词,de”。
步骤102、若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下的代表词。
对于步骤101中得到的数据集合,若在同一词性下,某多音字具有多个发音(即两个或两个以上的发音),则每个发音选出一个具有代表性的词语,作为代表词。
例如,“曲”在词性为名词时,发音可以为“qu1”(表示“qū”),此时,代表词为“曲别针”,发音也可以为“qu3”(表示“qǔ”),此时代表词为“曲谱”。
步骤103、遍历预设的语料,以查找与所述代表词共现的共现词。
在本实际应用中,可以预先收集约1000万字或以上的语料,遍历在该语料中与代表词共现的词(即共现词),共现词即为体现了上下文语境关系的语境词。
在本发明的一种优选实施例中,步骤103可以包括如下子步骤:
子步骤S11、在所述语料中,以所述代表词作为统计窗口的中点、确定在所述统计窗口与所述词共现的词。
在本实施例中,统计窗口为一个在词语上进行滑动的窗口,对于语料,可设定统计窗口的长度在5-10之间。
例如,对于句子:我/爱/广州/小蛮腰/但/我/还没/去过,当统计窗口的长度为3时(即左右长度各为1),共现的情况如下:
此时,共现词在中心词(代表词)的窗口中出现的词,就是中心词(代表词)的共现词。
子步骤S12、统计所述代表词与所述词共现的次数。
在本实施例中,统计各个代表词与各个词共现的次数,可生成共现矩阵,即根据统计窗口的内容,以各个中心词(代表词)做为行,单元格内容为列对应的共现词与中心词(代表词)在统计窗口共同出现的次数。
例如,对于句子:我/爱/广州/小蛮腰/但/我/还没/去过,当统计窗口的长度为3时(即左右长度各为1),共现矩阵如下:
共现计数 | 我 | 爱 | 广州 | 小蛮腰 | 但 | 还没 | 去过 |
我 | 0 | 1 | 0 | 0 | 1 | 1 | 0 |
爱 | 1 | 0 | 1 | 0 | 0 | 0 | 0 |
广州 | 0 | 1 | 0 | 1 | 0 | 0 | 0 |
小蛮腰 | 0 | 0 | 1 | 0 | 1 | 0 | 0 |
但 | 1 | 0 | 0 | 1 | 0 | 0 | 0 |
还没 | 1 | 0 | 0 | 0 | 0 | 0 | 1 |
去过 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
子步骤S13、基于所述共现的次数从所述词中选择所述代表词的共现词。
针对各个代表词,可基于与该代表词共现的次数,从共现的词中选择共现词。
一般情况下,可以选择共现的次数最高的n个词,作为代表词的共现词,其中,n为预设的常量,如2。
在本发明的一种优选实施例中,步骤103还可以包括如下子步骤:
S14、确定所述共现词的词性。
S15、若所述词性为名词或动词,则确定所述共现词有效。
S16、若所述词性为非名词与非动词,则确定所述共现词无效。
针对选择的共现词,如果该共现词的词性为名词或动词,则确定该共现词有效,如果该共现词的词性为非名词与非动词,则确定该共现词无效,重新基于共现的次数选择词作为所述代表词的共现词。
步骤104、生成所述多音字、所述词性、所述发音、所述代表词、所述共现词之间的映射关系。
在本实施例中,可形成格式为“多音字,词性,发音,代表词,共现词”的数据集,并存储在数据库中。
例如:“曲,名词,qu1,曲别针,文具,纸张”,“曲,名词,qu3,曲谱,乐器,弹奏”。
步骤105、将所述代表词与所述共现词转换为词向量。
在本实施例中,可调用Glove(Global vectors for word representation,单词表示的全局向量)模型将贡献矩阵中的代表词、共现词转换为指定长度L(如512维)的词向量,训练后每个代表词、共现词都对应一个长度为L的向量,该向量即为每个代表词、共现词对应的包含语境信息的词向量。
将每个代表词、共现词和对应的词向量,按照格式“词,词向量”保存为数据集合。
其中,Glove模型为一种基于共现矩阵思想计算词向量的深度学习模型,可以对词进行向量化表示,并使向量之间尽可能多地蕴含语义和语法的信息。
所谓词向量,是指将词(单词或词组)映射到实数域上的向量。
需要说明的是,代表词与共现词是相对于的,在一些情况下,一个词可以作为代表词,其他词为该词的共现词,在另一些情况下,该词为其他词(代表词)的共现词。
图2为本发明实施例一提供的一种发音的标注方法的流程图,本实施例可适用于使用词性、共现词对多音字标注发音的情况,该方法可以由发音的标注装置来执行,发音的标注装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,个人电脑、移动终端(如手机、平板灯)、服务器、工作站,等等,该方法具体包括如下步骤:
步骤201、确定句子。
在本实施例中,对待进行汉字转拼音的文本信息,根据汉语中表示句子结束的标点符号,如句号“。”、感叹号“!”、问号“?”等,将该文本信息按句分割,得到句子。
步骤202、若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词。
在本实施例中,可检测句子中是否含有多音字。
在具体实现中,将句子中的每个字与预设的多音字进行比较,若两者相同,则确定该句子含有多音字,若两者不同,则确定该句子为含有多音字。
若句子中未包含多音字,则直接进行拼音转换,对句子标注发音,得到每个字的发音。
若句子中包含多音字,则可以对句子进行分词处理,从而获得多个词,并进行发音的标注。
其中,分词处理是指将一个汉字序列切分成一个个单独的词。
对汉字进行分词处理的方式一般分为两大类:
第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等策略,IK Analyzer,Paoding等就是基于字符串匹配的分词。
第二类是基于统计以及机器学习的分词方式,这类分词基于人工标注的词性和统计特征,对汉字进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计,即训练。在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的序列标注模型有HMM(Hidden Markov Model,隐马尔可夫模型)和CRF(conditional random field,条件随机场)。
步骤203、确定目标词在所述句子中的词性。
其中,目标词为多音字所在的词。
在本实施例中,可预先搜集带有标注信息的语料,语料规模通常为500万字或以上。
语料中每个句子都有分词,且每个词都有对应的词性,例如,“我来过这个地方”,标注后为:我名词/来过动词/这个定语/地方名词。
用该语料对BiLSTM(Bi-directional Long Short-Term Memory,双向长短记忆网络)与CRF进行训练,在训练完成后,保存BiLSTM与CRF及其参数。
对于当前分词后的句子,BiLSTM与CRF加载训练好的参数,将该句子输入至BiLSTM与CRF进行处理,从而输出每个词的词性。
步骤204、若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下代表词、共现词。
若该多音字在同一词性下,具有多个发音(即两个或两个以上的发音),则可以以多音字与词性作为关键词,在格式为“多音字,词性,发音,代表词,共现词”数据集中查找该多音字在该词性的发音下的代表词、共现词,其中,共现词与代表词在一定范围内共现。
步骤205、在对所述句子标注发音时,根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,对所述多音字标注所述目标发音。
在句子中,对于多音字,则可以参考目标词、代表词与共现词这些环境信息,从该词性下的发音中确定一个发音作为目标发音,并对该多音字标注该目标发音,对于除了多音字之外,其他字直接进行拼音转换,得到该字的发音,与多音字对应的发音按位置拼接,完成整个句子的发音转换。
在本发明的一种优选实施例中,步骤205可以包括如下子步骤:
S21、基于所述目标词、所述代表词与所述共现词计算所述发音的总分数。
在本实施例中,可以按照预设的计算规则,使用某个发音下的目标词、代表词与共现词计算该发音的总分数,该总分数体现该发音的正确程度。
在一个示例中,可以以词(目标词、代表词、共现词)作为关键词,在格式为“词,词向量”的数据集合中,确定目标词的词向量、代表词的词向量、共现词的词向量。
一方面,对目标词的词向量与代表词的词向量进行指数运算,获得第一子分数。
另一方面,对目标词的词向量与共现词的词向量进行指数运算,获得第二子分数。
从而计算第一子分数与所述第二子分数之和,作为总分数。
以公式表示为:
Scorei=exp(V目标词*V代表词)+exp(V目标词*V共现词1)+exp(V多音字词语*V共现词2)……
其中,Scorei表示多音字第i个发音的总分数,exp表示指数运算,V目标词表示目标词的词向量,V共现词1、V共现词2……表示第1、2……个共现词的词向量。
当然,上述计算总分数的方式只是作为示例,在实施本实施例时,可以根据实际情况设置其他计算总分数的方式,例如,对目标词、代表词、共现加权求和,等等,本实施例对此不加以限制。另外,除了上述计算总分数的方式外,本领域技术人员还可以根据实际需要采用其它计算总分数的方式,本实施例对此也不加以限制。
S22、基于所述总分数从所述发音中确定目标发音。
若发音的总分数表示与发音的正确程度正相关,则可以以总分数最高的发音作为目标发音。
在本实施例中,对于待标注发音的句子,若句子中包含多音字,则对句子进行分词处理,获得多个词,确定目标词在句子中的词性,目标词为多音字所在的词,若在词性下、多音字具有多个发音,则确定多音字在发音下代表词、共现词,共现词与代表词共现,在对句子标注发音时,根据目标词、代表词与共现词从发音中确定目标发音,对多音字标注目标发音,以共现词作为环境信息,参考词性、代表词进行发音的标注,可消除发音的歧义、保证发音的正确性,并且,目标词、代表词与共现词之间的运算多涉及向量,较为简单,无需复杂的神经网络,可降低耗费的资源,减少运算耗时。
实施例三
图3为本发明实施例三提供的一种发音的标注方法的流程图,本实施例可适用于建立音字、词性、发音之间的映射关系的情况,该方法可以由发音的标注装置来执行,发音的标注装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,个人电脑、移动终端(如手机、平板灯)、服务器、工作站,等等,该方法具体包括如下步骤:
步骤301、确定多音字的词性、所述多音字在所述词性下的发音。
在具体实现中,可以收集字典,如新华字典,从该字典中搜集多音字。
其中,多音字为具有两个或两个以上发音的字。
对搜集到的多音字,记录其在不同词性时对应的发音,形成一个“多音字,词性,发音”的数据集合,数据集合中每个条目为“多音字,词性,发音”的格式。
例如,“地,名词,di4”,“地,助词,de”。
步骤302、若在所述词性下、所述多音字具有一个发音,则生成所述多音字、所述词性、所述发音之间的映射关系。
对于步骤301中得到的数据集合,若在同一词性下,某多音字仅有一个发音,则可以形成格式为“多音字,词性,发音”的数据集,例如“地,名词,di4”,并存储在数据库中。
实施例四
图4为本发明实施例四提供的一种发音的标注方法的流程图,本实施例可适用于使用词性、词性对多音字标注发音的情况,该方法可以由发音的标注装置来执行,发音的标注装置可以由软件和/或硬件实现,可配置在计算机设备中,例如,个人电脑、移动终端(如手机、平板灯)、服务器、工作站,等等,该方法具体包括如下步骤:
步骤401、确定句子。
在本实施例中,对待进行汉字转拼音的文本信息,根据汉语中表示句子结束的标点符号,如句号“。”、感叹号“!”、问号“?”等,将该文本信息按句分割,得到句子。
步骤402、若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词。
在本实施例中,可检测句子中是否含有多音字。
在具体实中,将句子中的每个字与预设的多音字进行比较,若两者相同,则确定该句子含有多音字,若两者不同,则确定该句子为含有多音字。
若句子中未包含多音字,则直接进行拼音转换,对句子标注发音,得到每个字的发音。
若句子中包含多音字,则可以对句子进行分词处理,从而获得多个词,并进行发音的标注。
其中,分词处理是指将一个汉字序列切分成一个个单独的词。
对汉字进行分词处理的方式一般分为两大类:
第一类是基于字符串匹配,即扫描字符串,如果发现字符串的子串和词相同,就算匹配。这类分词通常会加入一些启发式规则,比如“正向/反向最大匹配”,“长词优先”等策略,IK Analyzer,Paoding等就是基于字符串匹配的分词。
第二类是基于统计以及机器学习的分词方式,这类分词基于人工标注的词性和统计特征,对汉字进行建模,即根据观测到的数据(标注好的语料)对模型参数进行估计,即训练。在分词阶段再通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。常见的序列标注模型有HMM和CRF。
步骤403、确定目标词在所述句子中的词性。
其中,目标词为多音字所在的词。
在本实施例中,可预先搜集带有标注信息的语料,语料规模通常为500万字或以上。
语料中每个句子都有分词,且每个词都有对应的词性,例如,“我来过这个地方”,标注后为:我名词/来过动词/这个定语/地方名词。
用该语料对BiLSTM与CRF进行训练,在训练完成后,保存BiLSTM与CRF及其参数。
对于当前分词后的句子,BiLSTM与CRF加载训练好的参数,将该句子输入至BiLSTM与CRF进行处理,从而输出每个词的词性。
步骤404、若在所述词性下、所述多音字具有一个发音,则在对所述句子标注发音时,对所述字标注所述发音。
若该多音字在同一词性下,仅仅有一个发音,则可以以多音字与词性作为关键词,在格式为“多音字,词性,发音”数据集中查找该多音字在该词性下的发音。
例如,若多音字“地”的词性为名词,则可以在数据集合中的条目“地,名词,di4”查找到“地”的发音为“di4”。
在句子中,对于除了多音字之外,其他字直接进行拼音转换,得到该字的发音,与多音字对应的发音按位置拼接,完成整个句子的发音转换。
在本实施例中,对于待标注发音的句子,若句子中包含多音字,则对句子进行分词处理,获得多个词,确定目标词在句子中的词性,目标词为多音字所在的词,若在词性下、多音字具有一个发音,则在对句子标注发音时,对字标注所述发音,参考词性进行发音的标注,可消除发音的歧义、保证发音的正确性,并且,词性与发音之间的映射操作较为简单,无需复杂的神经网络,可降低耗费的资源,减少运算耗时。
实施例五
图5为本发明实施例五提供的一种发音的标注装置的结构示意图,该装置具体可以包括如下模块:
句子确定模块501,用于确定句子;
分词模块502,用于若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词;
词性确定模块503,用于确定目标词在所述句子中的词性,所述目标词为所述多音字所在的词;
词确定模块504,用于若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下代表词、共现词,所述共现词与所述代表词共现;
多发音标注模块505,用于在对所述句子标注发音时,根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,对所述多音字标注所述目标发音。
在本发明的一种优选实施例中,所述多发音标注模块505包括:
总分数计算子模块,用于基于所述目标词、所述代表词与所述共现词计算所述发音的总分数;
目标发音确定子模块,用于基于所述总分数从所述发音中确定目标发音。
在本发明实施例的一种优选示例中,所述总分数计算子模块包括:
词向量确定单元,用于确定所述目标词的词向量、所述代表词的词向量、所述共现词的词向量;
第一子分数计算单元,用于对所述目标词的词向量与所述代表词的词向量进行指数运算,获得第一子分数;
第二子分数计算单元,用于对所述目标词的词向量与所述共现词的词向量进行指数运算,获得第二子分数;
求和单元,用于计算所述第一子分数与所有所述第二子分数之和,作为总分数。
在本发明的一种优选实施例中,还包括:
词参数确定模块,用于确定多音字的词性、所述多音字在所述词性下的发音;
代表词确定模块,用于若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下的代表词;
共现词查找模块,用于遍历预设的语料,以查找与所述代表词共现的共现词;
多映射关系生成模块,用于生成所述多音字、所述词性、所述发音、所述代表词、所述共现词之间的映射关系;
词向量转换模块,用于将所述代表词与所述共现词转换为词向量。
在本发明的一种优选实施例中,所述共现词查找模块包括:
统计窗口遍历子模块,用于在所述语料中,以所述代表词作为统计窗口的中点、确定在所述统计窗口与所述词共现的词;
共现次数统计子模块,用于统计所述代表词与所述词共现的次数;
共现次数选择子模块,用于基于所述共现的次数从所述词中选择所述代表词的共现词。
在本发明的一种优选实施例中,所述共现词查找模块还包括:
共现词性确定子模块,用于确定所述共现词的词性;
有效确定子模块,用于若所述词性为名词或动词,则确定所述共现词有效;
无效确定子模块,用于若所述词性为非名词与非动词,则确定所述共现词无效。
在本发明的一种优选实施例中,还包括:
单发音标注模块,用于若在所述词性下、所述多音字具有一个发音,则在对所述句子标注发音时,对所述字标注所述发音。
在本发明的一种优选实施例中,还包括:
词信息确定模块,用于确定多音字的词性、所述多音字在所述词性下的发音;
单映射关系生成模块,用于若在所述词性下、所述多音字具有一个发音,则生成所述多音字、所述词性、所述发音之间的映射关系。
在本发明的一种优选实施例中,还包括:
句子标注模块,用于若所述句子中未包含多音字,则对所述句子标注发音。
本发明实施例所提供的发音的标注装置可执行本发明任意实施例所提供的发音的标注方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6为本发明实施例六提供的一种计算机设备的结构示意图。如图6所示,该计算机设备包括处理器600、存储器601、通信模块602、输入装置603和输出装置604;计算机设备中处理器600的数量可以是一个或多个,图6中以一个处理器600为例;计算机设备中的处理器600、存储器601、通信模块602、输入装置603和输出装置604可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器601作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的发音的标注方法对应的模块(例如,如图5所示的发音的标注装置中的句子确定模块501、分词模块502、词性确定模块503、词确定模块504和多发音标注模块505)。处理器600通过运行存储在存储器601中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的发音的标注方法。
存储器601可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器601可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器601可进一步包括相对于处理器600远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块602,用于与显示屏建立连接,并实现与显示屏的数据交互。输入装置603可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。
本实施例提供的计算机设备,可执行本发明任一实施例提供的发音的标注方法,具体相应的功能和有益效果。
实施例七
本发明实施例七提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现一种发音的标注方法,该方法包括:
确定句子;
若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词;
确定目标词在所述句子中的词性,所述目标词为所述多音字所在的词;
若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下代表词、共现词,所述共现词与所述代表词共现;
在对所述句子标注发音时,根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,对所述多音字标注所述目标发音。
当然,本发明实施例所提供的计算机可读存储介质,其计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的发音的标注方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述发音的标注装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种发音的标注方法,其特征在于,包括:
确定句子;
若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词;
确定目标词在所述句子中的词性,所述目标词为所述多音字所在的词;
若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下代表词、共现词,所述共现词与所述代表词共现;
在对所述句子标注发音时,根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,对所述多音字标注所述目标发音;
所述根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,包括:
基于所述目标词、所述代表词与所述共现词计算所述发音的总分数;
基于所述总分数从所述发音中确定目标发音;
所述基于所述目标词、所述代表词与所述共现词计算所述发音的总分数,包括:
确定所述目标词的词向量、所述代表词的词向量、所述共现词的词向量;
对所述目标词的词向量与所述代表词的词向量进行指数运算,获得第一子分数;
对所述目标词的词向量与所述共现词的词向量进行指数运算,获得第二子分数;
计算所述第一子分数与所有所述第二子分数之和,作为总分数。
2.根据权利要求1所述的方法,其特征在于,还包括:
确定多音字的词性、所述多音字在所述词性下的发音;
若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下的代表词;
遍历预设的语料,以查找与所述代表词共现的共现词;
生成所述多音字、所述词性、所述发音、所述代表词、所述共现词之间的映射关系;
将所述代表词与所述共现词转换为词向量。
3.根据权利要求2所述的方法,其特征在于,所述遍历预设的语料,以查找与所述代表词共现的共现词,包括:
在所述语料中,以所述代表词作为统计窗口的中点、确定在所述统计窗口与所述代表词共现的词;
统计所述代表词与所述共现的词共现的次数;
基于所述共现的次数从所述共现的词中选择所述代表词的共现词。
4.根据权利要求3所述的方法,其特征在于,所述遍历预设的语料,以查找与所述代表词共现的共现词,还包括:
确定所述共现词的词性;
若所述词性为名词或动词,则确定所述共现词有效;
若所述词性为非名词与非动词,则确定所述共现词无效。
5.根据权利要求1所述的方法,其特征在于,在所述确定目标词在所述句子中的词性之后,还包括:
若在所述词性下、所述多音字具有一个发音,则在对所述句子标注发音时,对所述字标注所述发音。
6.根据权利要求5所述的方法,其特征在于,还包括:
确定多音字的词性、所述多音字在所述词性下的发音;
若在所述词性下、所述多音字具有一个发音,则生成所述多音字、所述词性、所述发音之间的映射关系。
7.根据权利要求1或6所述的方法,其特征在于,在所述确定句子之后,还包括:
若所述句子中未包含多音字,则对所述句子标注发音。
8.一种发音的标注装置,其特征在于,包括:
句子确定模块,用于确定句子;
分词模块,用于若所述句子中包含多音字,则对所述句子进行分词处理,获得多个词;
词性确定模块,用于确定目标词在所述句子中的词性,所述目标词为所述多音字所在的词;
词确定模块,用于若在所述词性下、所述多音字具有多个发音,则确定所述多音字在所述发音下代表词、共现词,所述共现词与所述代表词共现;
多发音标注模块,用于在对所述句子标注发音时,根据所述目标词、所述代表词与所述共现词从所述发音中确定目标发音,对所述多音字标注所述目标发音;
所述多发音标注模块包括:
总分数计算子模块,用于基于所述目标词、所述代表词与所述共现词计算所述发音的总分数;
目标发音确定子模块,用于基于所述总分数从所述发音中确定目标发音;
所述总分数计算子模块包括:
词向量确定单元,用于确定所述目标词的词向量、所述代表词的词向量、所述共现词的词向量;
第一子分数计算单元,用于对所述目标词的词向量与所述代表词的词向量进行指数运算,获得第一子分数;
第二子分数计算单元,用于对所述目标词的词向量与所述共现词的词向量进行指数运算,获得第二子分数;
求和单元,用于计算所述第一子分数与所有所述第二子分数之和,作为总分数。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的发音的标注方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一所述的发音的标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001943.5A CN110750967B (zh) | 2019-10-21 | 2019-10-21 | 一种发音的标注方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911001943.5A CN110750967B (zh) | 2019-10-21 | 2019-10-21 | 一种发音的标注方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110750967A CN110750967A (zh) | 2020-02-04 |
CN110750967B true CN110750967B (zh) | 2023-06-06 |
Family
ID=69279137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911001943.5A Active CN110750967B (zh) | 2019-10-21 | 2019-10-21 | 一种发音的标注方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110750967B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037756A (zh) * | 2020-07-31 | 2020-12-04 | 北京搜狗科技发展有限公司 | 语音处理方法、装置和介质 |
CN113268974B (zh) * | 2021-05-18 | 2022-11-29 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和*** |
CN104572591A (zh) * | 2013-10-29 | 2015-04-29 | 李维良 | 一种汉语中多音字辨认的综合分析法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030191645A1 (en) * | 2002-04-05 | 2003-10-09 | Guojun Zhou | Statistical pronunciation model for text to speech |
-
2019
- 2019-10-21 CN CN201911001943.5A patent/CN110750967B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和*** |
CN104572591A (zh) * | 2013-10-29 | 2015-04-29 | 李维良 | 一种汉语中多音字辨认的综合分析法 |
Non-Patent Citations (1)
Title |
---|
郝东亮 ; 杨鸿武 ; 张策 ; 张帅 ; 郭立钊 ; 杨静波 ; .面向汉语统计参数语音合成的标注生成方法.计算机工程与应用.2016,(19),第146-153页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110750967A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN111611810B (zh) | 一种多音字读音消歧装置及方法 | |
Kanakaraddi et al. | Survey on parts of speech tagger techniques | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及*** | |
CN111324771B (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
Kaur et al. | A survey of named entity recognition in English and other Indian languages | |
CN111930792B (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN111489746B (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
Etaiwi et al. | Statistical Arabic name entity recognition approaches: A survey | |
Sun et al. | Chinese new word identification: a latent discriminative model with global features | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 | |
Manamini et al. | Ananya-a named-entity-recognition (ner) system for sinhala language | |
CN112036186A (zh) | 语料标注方法、装置、计算机存储介质及电子设备 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
Ananth et al. | Grammatical tagging for the Kannada text documents using hybrid bidirectional long-short term memory model | |
CN114548049A (zh) | 一种数字正则化方法、装置、设备及存储介质 | |
Korpusik et al. | Dialogue state tracking with convolutional semantic taggers | |
Lee | N-Gram Language Model | |
CN113536776A (zh) | 混淆语句的生成方法、终端设备及计算机可读存储介质 | |
Hodeghatta et al. | Introduction to natural language processing | |
Babhulgaonkar et al. | Experimenting with factored language model and generalized back-off for Hindi | |
Lu et al. | Language model for Mongolian polyphone proofreading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |