CN112818089A - 文本注音方法、电子设备及存储介质 - Google Patents
文本注音方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112818089A CN112818089A CN202110201067.1A CN202110201067A CN112818089A CN 112818089 A CN112818089 A CN 112818089A CN 202110201067 A CN202110201067 A CN 202110201067A CN 112818089 A CN112818089 A CN 112818089A
- Authority
- CN
- China
- Prior art keywords
- polyphone
- text
- target
- sample
- pinyin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims description 55
- 238000004891 communication Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000012986 modification Methods 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 abstract description 4
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 230000001960 triggered effect Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本注音方法、电子设备及存储介质,该方法包括:将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别所述待注音文本中包含的目标多音字;获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;根据所述多音字模型的输出结果对所述目标多音字进行注音。该方式能够充分利用多音字的上下文信息准确预测多音字的读音,显著提升了标注准确率。
Description
技术领域
本发明涉及计算机领域,具体涉及一种文本注音方法、电子设备及存储介质。
背景技术
目前,随着有声读物的日益普及,越来越多的用户习惯于通过听书方式获取信息。在有声读物的生成过程中,需要为各个文字标注准确的拼音,以便根据拼音实现文字到语音的转换处理。
由于汉字中存在多音字,而多音字的读音随语境不同而不同,因此,如何准确识别多音字的读音并为其标注正确的拼音成为亟待解决的技术难题。在传统方式中,大多针对每个多音字分别存储若干个与不同读音相对应的常用词语,并基于常用词语的匹配确定该多音字的读音。但是,由于多音字的读音可能随上下文语义而改变,仅仅基于常用词语很难准确预测多音字在各种场景下的读音,经常出现注音错误的情况发生。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本注音方法、电子设备及存储介质。
根据本发明的一个方面,提供了一种文本注音方法,该方法包括:
将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别所述待注音文本中包含的目标多音字;
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
根据本发明的另一方面,提供了一种电子设备,该电子设备包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别所述待注音文本中包含的目标多音字;
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别所述待注音文本中包含的目标多音字;
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
在本发明提供的文本注音方法、电子设备及存储介质中,首先,能够获取目标多音字的上下文信息,生成与该上下文信息相对应的预测特征向量;然后,从预先训练得到的多音字模型集合中查询与目标多音字相对应的多音字模型,将预测特征向量输入查询到的多音字模型中,以便根据多音字模型的输出结果标注目标多音字的拼音。由此可见,该方式预先针对每个多音字生成与该多音字相对应的多音字模型,并将待标注的目标多音字的上下文信息通过预测特征向量进行描述,从而基于预测特征向量以及多音字模型确定该多音字的准确读音。该方式能够充分利用多音字的上下文信息准确预测多音字的读音,显著提升了标注准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的文本注音方法的流程图;
图2示出了本发明另一个实施例提供的文本注音方法的流程图;
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明一个实施例提供的文本注音方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110:将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别待注音文本中包含的目标多音字。
其中,待注音文本是指:需要标注拼音的文本。具体的,待注音文本可以是电子书原文,也可以是针对电子书原文进行预处理后得到的文本,本发明对待注音文本的来源及形式不作限定。另外,预设的多音字列表用于存储已知的各个多音字,该多音字列表既可以根据预先收集的多个多音字生成,也可以根据用户在阅读过程中通过标注多音字的方式反馈的多音字信息生成。例如,在电子书阅读界面中,设置有多音字标注入口,用户可通过该多音字标注入口对文中出现的多音字进行标注,并将标注后的多音字信息发送给服务器端,以供服务器端根据接收到的多音字信息生成并扩充上述的多音字列表。通过多音字列表能够快速筛选出待注音文本中包含的目标多音字。
本发明实施例中所述的多音字包括同一字形涉及不同读音的情况,其进一步包括由字母组合方式不同产生的读音不同的情况,以及相同字母组合基础上由于声调不同导致的读音不同的情况,前者中所述字母组合方式是指,声母、介母、韵母连续拼合过程中的各种组合方式,例如文字“行”的组合方式包括“xing”和“hang”;而后者举例形如:文字“把”的读音可以是“ba3,把握”(三声),也可以为读音“ba4,刀把”(四声),其声调的不同会产生读音差异。
步骤S120:获取目标多音字在待注音文本中的上下文信息,根据所述上下文信息生成与目标多音字相对应的预测特征向量。
具体的,获取目标多音字在待注音文本中对应的上下文信息,根据上下文信息构建与该目标多音字相对应的预测特征向量。其中,预测特征向量用于以向量形式描述该目标多音字在语境中的上下文特征,以便于预测该目标多音字在当前语境下的读音。其中,目标多音字在语境中的上下文特征主要包括:文字特征以及文字的次序特征等。具体实施时,预测特征向量可通过多种方式生成,本发明对此不作限定。
步骤S130:从预先训练得到的多音字模型集合中查询与该目标多音字相对应的多音字模型,将上述预测特征向量输入查询到的多音字模型。
具体的,在本实施例中,需要预先训练由多个多音字模型构成的多音字模型集合,该多音字模型集合用于存储与各个多音字相对应的多音字模型。相应的,从多音字模型集合中查询与该目标多音字相对应的多音字模型,并将上一步骤中得到的预测特征向量输入该多音字模型中。由此可见,本实施例中的多音字模型与多音字之间为一一对应的关系,即:每个多音字分别对应于一个多音字模型。
步骤S140:根据多音字模型的输出结果对该目标多音字进行注音。
具体的,多音字模型能够基于预测特征向量确定该目标多音字的读音,从而实现准确注音的目的。由于多音字模型是根据与该多音字相对应的训练数据集训练得到的,因而能够准确学习该多音字在各种语境下的读音规律,进而准确预测该多音字的拼音。
由此可见,该方式预先针对每个多音字生成与该多音字相对应的多音字模型,并将待注音的目标多音字的上下文信息通过预测特征向量进行描述,从而基于预测特征向量以及多音字模型确定该多音字的准确读音。该方式能够充分利用多音字的上下文信息准确预测多音字的读音,显著提升了注音准确率。
实施例二
图2示出了本发明另一个实施例提供的文本注音方法的流程图。如图2所示,该方法包括以下步骤:
步骤S200:分别获取与各个多音字样本相对应的训练样本集,基于与各个多音字样本相对应的训练样本集,训练得到与各个多音字样本相对应的多音字模型,将训练得到的各个多音字模型添加到多音字模型集合中。
具体的,为了便于准确预测不同多音字的读音,在本实施例中,分别针对每个多音字训练一个对应的多音字模型,以便基于该多音字在不同语境中的含义及读音规律,预测该多音字的拼音。
具体实施时,首先,获取文本数据,并从获取到的文本数据中筛选得到多音字样本;然后,分别针对筛选得到的各个多音字样本,获取该多音字样本在不同语句中的上下文特征,基于该多音字样本在不同语句中的上下文特征得到该多音字样本所对应的训练样本集;最后,基于各个多音字样本所对应的训练样本集,训练与各个多音字样本相对应的多音字模型。
下面以一个具体示例为例,详细描述上述多音字模型的训练方式:
首先,从多种渠道获取多种来源的文本数据。
具体的,文本数据主要是指包含多音字的数据,具体来源包括:拼音读物、和/或人名数据等。其中,由于人名中的部分姓氏为多音字,且该部分姓氏的读音在作为人名时是相对固定的,因此,在本实施例中,预先设置一个人名姓氏读音表,用于存储多音姓氏及其注音结果。相应的,在预测过程中,只要判断出当前待预测的多音字属于人名类实体,则直接能够基于该人名姓氏读音表确定多音字的拼音。其中,判断一个词语是否属于人名类实体的方式可以有多种,例如,可以结合上下文出现的动词确定,通常,在人名后面会出现对应的动词,以作为谓语;并且,人名通常会多次出现,因此,也可以根据词语的出现频次判断其是否为人名类实体,本发明对具体细节不作限定。另外,拼音读物是指标注有拼音的中文读物。其中,拼音读物既可以是原本就自带拼音的读物,例如,儿童书籍等;也可以是通过注音工具进行注音后得到的读物,本发明对其具体来源不作限定。
另外,除注音工具外,还可以通过以下方式获取拼音读物:首先,利用听看一体软件提供的听看一体功能,通过语音匹配文本的方式,得到语音和文本相互匹配的书籍,通过预设的语音转拼音工具对这些书籍对应的语音内容进行语音识别,得到与语音内容相对应的注音结果,从而得到携带拼音的文本,进而从携带拼音的文本中抽取包含多音字的文本内容。另外,考虑到语音转拼音工具存在一定的误差,因此,为了确保数据来源的准确性,针对文本内容中的每个多音字,通过随机采样方式对该多音字的各次注音结果进行抽查,根据抽查结果确定每个多音字读音的准确率,将准确率低于预设阈值的多音字读音所对应的数据滤除,保留准确率高于预设阈值的多音字读音所对应的数据,从而确保多音字数据的准确性。
另外,还可以基于分词方式获取多音字数据。具体的,通过分词工具获取与电子书原文相对应的分词,将分词结果与预设的多音字词库(用于存储出现频次高于预设值的多音字)进行匹配,从而确定分词中包含的多音字词汇,如“成长”等,然后,从电子书原文中获取与多音字词汇相对应的上下文信息,从而得到包含上下文信息的多音字数据。该方式主要通过多音字词库中存储的常用多音字词汇来获取多音字数据。
由此可见,无论采用上述何种方式,其本质目的是为了得到包含上下文信息的多音字数据,即:获取各个多音字及其对应的语句内容。其中,可以按照句子粒度,分别针对每个多音字,获取大量的包含该多音字的句子;也可以按照段落粒度,分别针对每个多音字,获取大量的包含该多音字的段落。
然后,从获取到的文本数据(即多音字数据)中筛选多音字样本,分别针对筛选得到的各个多音字样本,获取该多音字样本所对应的训练样本集。具体的,分别针对筛选得到的各个多音字样本,获取包含该多音字样本的多个样本语句,根据该多音字样本在各个样本语句中的上下文信息,生成与各个样本语句相对应的样本特征向量;根据该多音字样本在各个样本语句中的读音,对各个样本语句所对应的样本特征向量进行标注,得到该多音字样本所对应的训练样本集。其中,与各个样本语句相对应的样本特征向量用于反映各个样本语句中包含的字词特征(包含多音字本身)及各个字词特征的出现顺序信息。另外,需要说明的是,多音字样本所对应的训练样本集中至少包括两个分别对应于该多音字的两个读音的样本子集,当该多音字具有多于两个(例如三个)读音时,训练样本集中包含的样本子集的数量与该多音字的读音数量相同。换言之,在本实施例中,分别针对每个多音字,获取与该多音字的每个读音相对应的一个样本子集,该样本子集用于存储多个对应于该读音的语句。
最后,通过各个多音字样本所对应的训练样本集,训练与各个多音字样本相对应的多音字模型,将训练得到的多音字模型添加到多音字模型集合中。由此可见,多音字模型集合包含多个分别对应于各个多音字的多音字模型。由于多音字模型与多音字之间为一一对应的关系,因此,通过一个多音字模型能够准确预测对应的多音字在不同语境下的读音。
步骤S210:将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别待注音文本中包含的目标多音字。
其中,待注音文本是指:需要标注拼音的文本。具体的,待注音文本可以是电子书原文,也可以是针对电子书原文进行预处理后得到的文本。在本实施例中,为了提升待注音文本的准确性,提升标注效率,先针对获取到的电子书原始文本进行预处理,得到待注音文本。其中,预处理方式包括多种:文本转换处理、和/或冗余字符删减处理。其中,文本转换处理基于预设的英文字典和/或数字字典实现。例如,在英文字典中设置与各个英文字母或单词相对应的模拟发音的拼音,如字母“s”对应的模拟发音的拼音为“ai si”;又如,还可以在英文字典中设置与英文单词相对应的中文语义,如单词“apple”对应的中文语义为“苹果”。相应的,针对英文单词或字母,既可以转换为对应的模拟发音的拼音,也可以转换为对应的中文。另外,还可以设置数字字典,用于将***数字、字符、运算符等转换为中文,例如,“46”对应的中文为“四十六”,“%”对应的中文为“百分之”。另外,冗余字符包括:标点符号、和/或非标准字符等不发音的字符,其中,非标准字符是指:除预设的标准字符之外的其他字符,例如,可以将英文字符、中文字符、数字字符等各类常用字符设置为标准字符,除此之外的其他字符即为非标准字符,从而能够剔除文本中包含的部分干扰字符,提升拼音注音的准确率。
另外,多音字列表用于存储常见的多音字,通过多音字列表能够快速匹配得到待注音文本中包含的目标多音字。其中,目标多音字是指:待标注拼音的多音字。
步骤S220:获取目标多音字在待注音文本中的上下文信息,根据上下文信息生成与目标多音字相对应的预测特征向量。
具体的,获取目标多音字在待注音文本中对应的上下文信息,构建与该目标多音字相对应的预测特征向量。其中,预测特征向量用于描述该目标多音字在语境中的上下文特征,以便于预测该目标多音字在当前语境下的读音。
具体实施时,通过以下方式生成预测特征向量:
首先,获取位于目标多音字之前的M个文字,以及位于目标多音字之后的N个文字,得到包含目标多音字、位于目标多音字之前的M个文字以及位于目标多音字之后的N个文字的文字集合;其中,M、N均为正整数。M、N可以相同,也可以不同。发明人在实现本发明的过程中发现,多音字的读音与其前后语句相关,通常是与前后各三个字强相关,因此,为了兼顾预测精度以及预测耗时,在本实施例中,M、N均等于3。相应的,获取位于目标多音字之前的3个文字,以及位于目标多音字之后的3个文字,得到由目标多音字本身及其前后关联的6个文字构成的文字集合。
然后,按照文字集合中的各个文字在目标多音字的上下文信息中的出现次序,构建预测特征向量。考虑到文字集合中的各个文字与多音字之间的位置关系直接决定了多音字的发音,因此,在构建预测特征向量时,需要根据文字集合中的各个文字在目标多音字的上下文信息中的出现次序来生成该预测特征向量。其中,预测特征向量与样本特征向量的生成方式和作用类似,都是用于以向量形式描述多音字的上下文特征信息,其区别在于:预测特征向量是基于待预测的目标多音字生成的,而样本特征向量则是基于多音字样本生成的。
步骤S230:从预先训练得到的多音字模型集合中查询与该目标多音字相对应的多音字模型,将上述预测特征向量输入查询到的多音字模型。
具体的,在步骤S200中,已经预先训练出由多个多音字模型构成的多音字模型集合,该多音字模型集合用于存储与各个多音字相对应的多音字模型。相应的,从多音字模型集合中查询与该目标多音字相对应的多音字模型,并将上一步骤中得到的预测特征向量输入该多音字模型中。由此可见,本实施例中的多音字模型与多音字之间为一一对应的关系,即:每个多音字分别对应于一个多音字模型。通过多音字模型能够准确预测多音字在当前语境中的读音。
步骤S240:根据多音字模型的输出结果对该目标多音字进行注音。
具体的,多音字模型能够基于预测特征向量确定该目标多音字的读音,从而实现准确标注的目的。由于多音字模型是根据与该多音字相对应的训练数据集训练得到的,因而能够准确学习该多音字在各种语境下的读音规律,进而准确预测该多音字的拼音。
具体实施时,为了提升注音效率,可以先针对待注音文本进行初始注音,然后,再针对初始拼音注音结果进行修正:首先,生成与待注音文本中的各个文字相对应的初始拼音注音结果。例如,可以通过注音工具自动生成待注音文本中的各个文字的拼音。当然,由于多音字的存在,导致初始拼音注音结果中对应于多音字的注音结果可能存在错误。然后,根据多音字模型的输出结果,修正初始拼音注音结果中对应于目标多音字的拼音。通过该方式能够通过注音工具实现大量文字的批量快速注音,并且,能够基于多音字模型准确纠正多音字的读音,进而确保最终注音的准确性。
可选的,在根据多音字模型的输出结果对目标多音字进行注音之后,进一步根据与待注音文本相对应的注音结果,执行文本转语音处理,得到与待注音文本相对应的语音合成结果;其中,该语音合成结果用于在接收到用户触发的语音播放指令时,执行语音播放处理。相应的,当接收到用户触发的语音播放指令时,根据所述语音合成结果执行语音播放处理。
由此可见,本实施例中的注音结果可以用于提供给TTS(Text To Speech,从文本到语音)软件实现语音合成处理。相应的,考虑到机器合成的语音存在着发音死板、与真实说话方式存在差别的缺陷,为了提升合成语音的音质,在修正初始拼音注音结果中对应于目标多音字的拼音之后,进一步根据真实说话习惯,对修正后的拼音注音结果执行变调处理,具体通过以下方式实现:首先,分别获取修正后的拼音注音结果中对应于每个文字的拼音读音;然后,根据相邻文字的拼音读音判断是否需要针对至少一个文字的拼音读音执行变调处理;若是,则对至少一个文字的拼音读音执行变调处理。例如,当至少两个相邻文字的拼音读音属于预设声调,且至少两个相邻文字属于同一个词组时,确定至少两个相邻文字中次序靠前的一个文字需要执行变调处理。比如,当同一个词组中包含的两个文字的声调均为三声时,将该词组中包含的第一个文字的声调变调处理为二声,以便真实模拟人类说话时的习惯。
另外,在变调处理过程中,还需要针对轻声进行识别,例如,“好好的”中的最后一个文字“的”需要变调处理为轻声。具体实施时,可以预先存储轻声词汇列表,用于记录常用的轻声词汇,进而针对轻声进行变调处理。
综上所述,通过预先对每个多音字生成与该多音字相对应的多音字模型,并将待标注的目标多音字的上下文信息通过预测特征向量进行描述,从而基于预测特征向量以及多音字模型确定该多音字的准确读音。该方式能够充分利用多音字的上下文信息准确预测多音字的读音,显著提升了标注准确率。并且,通过对标注后的内容执行变调处理,能够避免机器合成语音说话僵硬的缺陷,提升合成语音的自然度。并且,本实施例中的各个多音字模型为轻量级的模型,因此,加载速度快,识别效率高。
本实施例中的方式尤其适用于电子书应用中,以实现文本转语音的处理,能够为有声书籍的制作过程提供便利。并且,通过本实施例中的方式标注的拼音准确率高,进而确保最终生成的有声书籍的朗读效果更佳。
实施例三
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本注音方法。
可执行指令具体可以用于使得处理器执行以下操作:
将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别所述待注音文本中包含的目标多音字;
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
获取位于所述目标多音字之前的M个文字,以及位于所述目标多音字之后的N个文字,得到包含所述目标多音字、位于所述目标多音字之前的M个文字以及位于所述目标多音字之后的N个文字的文字集合;其中,M、N均为正整数;
按照所述文字集合中的各个文字在所述目标多音字的上下文信息中的出现次序,构建所述预测特征向量。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
生成与所述待注音文本中的各个文字相对应的初始拼音注音结果;
根据所述多音字模型的输出结果,修正所述初始拼音注音结果中对应于所述目标多音字的拼音。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
分别获取修正后的拼音注音结果中对应于每个文字的拼音读音;
根据相邻文字的拼音读音判断是否需要针对至少一个文字的拼音读音执行变调处理;
若是,对所述至少一个文字的拼音读音执行变调处理。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
当至少两个相邻文字的拼音读音属于预设声调,且所述至少两个相邻文字属于同一个词组时,确定所述至少两个相邻文字中次序靠前的一个文字需要执行变调处理。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
从获取到的文本数据中筛选多音字样本;
分别针对筛选得到的各个多音字样本,获取包含该多音字样本的多个样本语句,根据该多音字样本在各个样本语句中的上下文信息,生成与所述各个样本语句相对应的样本特征向量;
根据该多音字样本在各个样本语句中的读音,对各个样本语句所对应的样本特征向量进行标注,得到该多音字样本所对应的训练样本集;
通过该多音字样本所对应的训练样本集,训练与该多音字样本相对应的多音字模型,将训练得到的多音字模型添加到所述多音字模型集合中。
在一种可选的实现方式中,所述多音字模型集合包含多个分别对应于各个多音字的多音字模型;
并且,所述文本数据的来源包括:拼音读物、和/或人名数据。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
对获取到的电子书原始文本进行预处理,得到所述待注音文本;
其中,所述预处理包括:文本转换处理、和/或冗余字符删减处理;其中,所述文本转换处理基于预设的英文字典和/或数字字典实现,且所述冗余字符包括:标点符号、和/或非标准字符。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
根据与所述待注音文本相对应的注音结果,执行文本转语音处理,得到与所述待注音文本相对应的语音合成结果;
其中,当接收到用户触发的语音播放指令时,根据所述语音合成结果执行语音播放处理。
实施例四
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述文本注音方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别所述待注音文本中包含的目标多音字;
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
获取位于所述目标多音字之前的M个文字,以及位于所述目标多音字之后的N个文字,得到包含所述目标多音字、位于所述目标多音字之前的M个文字以及位于所述目标多音字之后的N个文字的文字集合;其中,M、N均为正整数;
按照所述文字集合中的各个文字在所述目标多音字的上下文信息中的出现次序,构建所述预测特征向量。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
生成与所述待注音文本中的各个文字相对应的初始拼音注音结果;
根据所述多音字模型的输出结果,修正所述初始拼音注音结果中对应于所述目标多音字的拼音。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
分别获取修正后的拼音注音结果中对应于每个文字的拼音读音;
根据相邻文字的拼音读音判断是否需要针对至少一个文字的拼音读音执行变调处理;
若是,对所述至少一个文字的拼音读音执行变调处理。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
当至少两个相邻文字的拼音读音属于预设声调,且所述至少两个相邻文字属于同一个词组时,确定所述至少两个相邻文字中次序靠前的一个文字需要执行变调处理。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
从获取到的文本数据中筛选多音字样本;
分别针对筛选得到的各个多音字样本,获取包含该多音字样本的多个样本语句,根据该多音字样本在各个样本语句中的上下文信息,生成与所述各个样本语句相对应的样本特征向量;
根据该多音字样本在各个样本语句中的读音,对各个样本语句所对应的样本特征向量进行标注,得到该多音字样本所对应的训练样本集;
通过该多音字样本所对应的训练样本集,训练与该多音字样本相对应的多音字模型,将训练得到的多音字模型添加到所述多音字模型集合中。
在一种可选的实现方式中,所述多音字模型集合包含多个分别对应于各个多音字的多音字模型;
并且,所述文本数据的来源包括:拼音读物、和/或人名数据。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
对获取到的电子书原始文本进行预处理,得到所述待注音文本;
其中,所述预处理包括:文本转换处理、和/或冗余字符删减处理;其中,所述文本转换处理基于预设的英文字典和/或数字字典实现,且所述冗余字符包括:标点符号、和/或非标准字符。
在一种可选的实现方式中,所述可执行指令使所述处理器执行以下操作:
根据与所述待注音文本相对应的注音结果,执行文本转语音处理,得到与所述待注音文本相对应的语音合成结果;
其中,当接收到用户触发的语音播放指令时,根据所述语音合成结果执行语音播放处理。在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明还公开了A1.一种文本注音方法,其中,所述方法包括:
将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别所述待注音文本中包含的目标多音字;
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
A2.根据A1所述的方法,其中,所述获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量包括:
获取位于所述目标多音字之前的M个文字,以及位于所述目标多音字之后的N个文字,得到包含所述目标多音字、位于所述目标多音字之前的M个文字以及位于所述目标多音字之后的N个文字的文字集合;其中,M、N均为正整数;
按照所述文字集合中的各个文字在所述目标多音字的上下文信息中的出现次序,构建所述预测特征向量。
A3.根据A1或2所述的方法,其中,所述根据所述多音字模型的输出结果对所述目标多音字进行注音具体包括:
生成与所述待注音文本中的各个文字相对应的初始拼音注音结果;
根据所述多音字模型的输出结果,修正所述初始拼音注音结果中对应于所述目标多音字的拼音。
A4.根据A3所述的方法,其中,所述修正所述初始拼音注音结果中对应于所述目标多音字的拼音之后,进一步包括:
分别获取修正后的拼音注音结果中对应于每个文字的拼音读音;
根据相邻文字的拼音读音判断是否需要针对至少一个文字的拼音读音执行变调处理;
若是,对所述至少一个文字的拼音读音执行变调处理。
A5.根据A4所述的方法,其中,所述根据相邻文字的拼音读音判断是否需要针对至少一个文字的拼音读音执行变调处理;若是,对所述至少一个文字的拼音读音执行变调处理包括:
当至少两个相邻文字的拼音读音属于预设声调,且所述至少两个相邻文字属于同一个词组时,确定所述至少两个相邻文字中次序靠前的一个文字需要执行变调处理。
A6.根据A1-5任一所述的方法,其中,所述方法执行之前,进一步包括:
从获取到的文本数据中筛选多音字样本;
分别针对筛选得到的各个多音字样本,获取包含该多音字样本的多个样本语句,根据该多音字样本在各个样本语句中的上下文信息,生成与所述各个样本语句相对应的样本特征向量;
根据该多音字样本在各个样本语句中的读音,对各个样本语句所对应的样本特征向量进行标注,得到该多音字样本所对应的训练样本集;
通过该多音字样本所对应的训练样本集,训练与该多音字样本相对应的多音字模型,将训练得到的多音字模型添加到所述多音字模型集合中。
A7.根据A6所述的方法,其中,所述多音字模型集合包含多个分别对应于各个多音字的多音字模型;
并且,所述文本数据的来源包括:拼音读物、和/或人名数据。
A8.根据A1-7任一所述的方法,其中,所述方法执行之前,进一步包括:对获取到的电子书原始文本进行预处理,得到所述待注音文本;
其中,所述预处理包括:文本转换处理、和/或冗余字符删减处理;其中,所述文本转换处理基于预设的英文字典和/或数字字典实现,且所述冗余字符包括:标点符号、和/或非标准字符。
A9.根据A1-8任一所述的方法,其中,所述根据所述多音字模型的输出结果对所述目标多音字进行注音之后,进一步包括:
根据与所述待注音文本相对应的注音结果,执行文本转语音处理,得到与所述待注音文本相对应的语音合成结果;
其中,当接收到用户触发的语音播放指令时,根据所述语音合成结果执行语音播放处理。
B10.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
获取所述目标多音字的上下文信息,生成与所述上下文信息相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
B11.根据B10所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
获取位于所述目标多音字之前的M个文字,以及位于所述目标多音字之后的N个文字,得到包含所述目标多音字、位于所述目标多音字之前的M个文字以及位于所述目标多音字之后的N个文字的文字集合;其中,M、N均为正整数;
按照所述文字集合中的各个文字在所述目标多音字的上下文信息中的出现次序,构建所述预测特征向量。
B12.根据B10或11所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
生成与所述待注音文本中的各个文字相对应的初始拼音注音结果;
根据所述多音字模型的输出结果,修正所述初始拼音注音结果中对应于所述目标多音字的拼音。
B13.根据B12所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
分别获取修正后的拼音注音结果中对应于每个文字的拼音读音;
根据相邻文字的拼音读音判断是否需要针对至少一个文字的拼音读音执行变调处理;
若是,对所述至少一个文字的拼音读音执行变调处理。
B14.根据B13所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
当至少两个相邻文字的拼音读音属于预设声调,且所述至少两个相邻文字属于同一个词组时,确定所述至少两个相邻文字中次序靠前的一个文字需要执行变调处理。
B15.根据B10-14任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
从获取到的文本数据中筛选多音字样本;
分别针对筛选得到的各个多音字样本,获取包含该多音字样本的多个样本语句,根据该多音字样本在各个样本语句中的上下文信息,生成与所述各个样本语句相对应的样本特征向量;
根据该多音字样本在各个样本语句中的读音,对各个样本语句所对应的样本特征向量进行标注,得到该多音字样本所对应的训练样本集;
通过该多音字样本所对应的训练样本集,训练与该多音字样本相对应的多音字模型,将训练得到的多音字模型添加到所述多音字模型集合中。
B16.根据B15所述的电子设备,其中,所述多音字模型集合包含多个分别对应于各个多音字的多音字模型;
并且,所述文本数据的来源包括:拼音读物、和/或人名数据。
B17.根据B10-16任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
对获取到的电子书原始文本进行预处理,得到所述待注音文本;
其中,所述预处理包括:文本转换处理、和/或冗余字符删减处理;其中,所述文本转换处理基于预设的英文字典和/或数字字典实现,且所述冗余字符包括:标点符号、和/或非标准字符。
B18.根据B10-17任一所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
根据与所述待注音文本相对应的注音结果,执行文本转语音处理,得到与所述待注音文本相对应的语音合成结果;
其中,当接收到用户触发的语音播放指令时,根据所述语音合成结果执行语音播放处理。
C19.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如A1-9任一所述的文本注音方法。
Claims (10)
1.一种文本注音方法,其中,所述方法包括:
将获取到的待注音文本与预设的多音字列表进行匹配,根据匹配结果识别所述待注音文本中包含的目标多音字;
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
2.根据权利要求1所述的方法,其中,所述获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量包括:
获取位于所述目标多音字之前的M个文字,以及位于所述目标多音字之后的N个文字,得到包含所述目标多音字、位于所述目标多音字之前的M个文字以及位于所述目标多音字之后的N个文字的文字集合;其中,M、N均为正整数;
按照所述文字集合中的各个文字在所述目标多音字的上下文信息中的出现次序,构建所述预测特征向量。
3.根据权利要求1或2所述的方法,其中,所述根据所述多音字模型的输出结果对所述目标多音字进行注音具体包括:
生成与所述待注音文本中的各个文字相对应的初始拼音注音结果;
根据所述多音字模型的输出结果,修正所述初始拼音注音结果中对应于所述目标多音字的拼音。
4.根据权利要求3所述的方法,其中,所述修正所述初始拼音注音结果中对应于所述目标多音字的拼音之后,进一步包括:
分别获取修正后的拼音注音结果中对应于每个文字的拼音读音;
根据相邻文字的拼音读音判断是否需要针对至少一个文字的拼音读音执行变调处理;
若是,对所述至少一个文字的拼音读音执行变调处理。
5.根据权利要求4所述的方法,其中,所述根据相邻文字的拼音读音判断是否需要针对至少一个文字的拼音读音执行变调处理;若是,对所述至少一个文字的拼音读音执行变调处理包括:
当至少两个相邻文字的拼音读音属于预设声调,且所述至少两个相邻文字属于同一个词组时,确定所述至少两个相邻文字中次序靠前的一个文字需要执行变调处理。
6.根据权利要求1-5任一所述的方法,其中,所述方法执行之前,进一步包括:
从获取到的文本数据中筛选多音字样本;
分别针对筛选得到的各个多音字样本,获取包含该多音字样本的多个样本语句,根据该多音字样本在各个样本语句中的上下文信息,生成与所述各个样本语句相对应的样本特征向量;
根据该多音字样本在各个样本语句中的读音,对各个样本语句所对应的样本特征向量进行标注,得到该多音字样本所对应的训练样本集;
通过该多音字样本所对应的训练样本集,训练与该多音字样本相对应的多音字模型,将训练得到的多音字模型添加到所述多音字模型集合中。
7.根据权利要求6所述的方法,其中,所述多音字模型集合包含多个分别对应于各个多音字的多音字模型;
并且,所述文本数据的来源包括:拼音读物、和/或人名数据。
8.根据权利要求1-7任一所述的方法,其中,所述方法执行之前,进一步包括:对获取到的电子书原始文本进行预处理,得到所述待注音文本;
其中,所述预处理包括:文本转换处理、和/或冗余字符删减处理;其中,所述文本转换处理基于预设的英文字典和/或数字字典实现,且所述冗余字符包括:标点符号、和/或非标准字符。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
获取所述目标多音字在所述待注音文本中的上下文信息,根据所述上下文信息生成与所述目标多音字相对应的预测特征向量;
获取所述目标多音字的上下文信息,生成与所述上下文信息相对应的预测特征向量;
从预先训练得到的多音字模型集合中查询与所述目标多音字相对应的多音字模型,将所述预测特征向量输入查询到的多音字模型;
根据所述多音字模型的输出结果对所述目标多音字进行注音。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-8任一所述的文本注音方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110201067.1A CN112818089B (zh) | 2021-02-23 | 2021-02-23 | 文本注音方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110201067.1A CN112818089B (zh) | 2021-02-23 | 2021-02-23 | 文本注音方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818089A true CN112818089A (zh) | 2021-05-18 |
CN112818089B CN112818089B (zh) | 2022-06-03 |
Family
ID=75864964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110201067.1A Active CN112818089B (zh) | 2021-02-23 | 2021-02-23 | 文本注音方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818089B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268981A (zh) * | 2021-05-27 | 2021-08-17 | 咪咕音乐有限公司 | 一种信息处理方法、装置及电子设备 |
CN113326279A (zh) * | 2021-05-27 | 2021-08-31 | 阿波罗智联(北京)科技有限公司 | 语音搜索方法和装置、电子设备、计算机可读介质 |
CN113672144A (zh) * | 2021-09-06 | 2021-11-19 | 北京搜狗科技发展有限公司 | 一种数据处理方法及装置 |
CN113806479A (zh) * | 2021-09-02 | 2021-12-17 | 深圳市声扬科技有限公司 | 文本注音的方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
WO2017082717A2 (en) * | 2015-11-09 | 2017-05-18 | Universiti Malaya | Method and system for text to speech synthesis |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和*** |
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN110083711A (zh) * | 2019-05-13 | 2019-08-02 | 成都启英泰伦科技有限公司 | 一种汉字拼音转换方法及转换*** |
CN110310619A (zh) * | 2019-05-16 | 2019-10-08 | 平安科技(深圳)有限公司 | 多音字预测方法、装置、设备及计算机可读存储介质 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
CN112241629A (zh) * | 2019-12-23 | 2021-01-19 | 北京来也网络科技有限公司 | 结合rpa及ai的拼音标注文本生成方法及装置 |
-
2021
- 2021-02-23 CN CN202110201067.1A patent/CN112818089B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105336322A (zh) * | 2015-09-30 | 2016-02-17 | 百度在线网络技术(北京)有限公司 | 多音字模型训练方法、语音合成方法及装置 |
WO2017082717A2 (en) * | 2015-11-09 | 2017-05-18 | Universiti Malaya | Method and system for text to speech synthesis |
CN107515850A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 确定多音字发音的方法、装置和*** |
CN107729313A (zh) * | 2017-09-25 | 2018-02-23 | 百度在线网络技术(北京)有限公司 | 基于深度神经网络的多音字读音的判别方法和装置 |
CN110083711A (zh) * | 2019-05-13 | 2019-08-02 | 成都启英泰伦科技有限公司 | 一种汉字拼音转换方法及转换*** |
CN110310619A (zh) * | 2019-05-16 | 2019-10-08 | 平安科技(深圳)有限公司 | 多音字预测方法、装置、设备及计算机可读存储介质 |
CN110782870A (zh) * | 2019-09-06 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
CN112241629A (zh) * | 2019-12-23 | 2021-01-19 | 北京来也网络科技有限公司 | 结合rpa及ai的拼音标注文本生成方法及装置 |
CN111611810A (zh) * | 2020-05-29 | 2020-09-01 | 河北数云堂智能科技有限公司 | 一种多音字读音消歧装置及方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113268981A (zh) * | 2021-05-27 | 2021-08-17 | 咪咕音乐有限公司 | 一种信息处理方法、装置及电子设备 |
CN113326279A (zh) * | 2021-05-27 | 2021-08-31 | 阿波罗智联(北京)科技有限公司 | 语音搜索方法和装置、电子设备、计算机可读介质 |
CN113806479A (zh) * | 2021-09-02 | 2021-12-17 | 深圳市声扬科技有限公司 | 文本注音的方法、装置、电子设备及存储介质 |
CN113672144A (zh) * | 2021-09-06 | 2021-11-19 | 北京搜狗科技发展有限公司 | 一种数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112818089B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818089B (zh) | 文本注音方法、电子设备及存储介质 | |
CN110797006B (zh) | 端到端的语音合成方法、装置及存储介质 | |
EP1037195B1 (en) | Generation and synthesis of prosody templates | |
EP3994683B1 (en) | Multilingual neural text-to-speech synthesis | |
JP2022153569A (ja) | 多言語テキスト音声合成方法 | |
US7881928B2 (en) | Enhanced linguistic transformation | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
JP3481497B2 (ja) | 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置 | |
US8392191B2 (en) | Chinese prosodic words forming method and apparatus | |
US10431201B1 (en) | Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms | |
CN110010136B (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
CN112352275A (zh) | 具有多级别文本信息的神经文本到语音合成 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
US20100125459A1 (en) | Stochastic phoneme and accent generation using accent class | |
CN109448704A (zh) | 语音解码图的构建方法、装置、服务器和存储介质 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
JP2019109278A (ja) | 音声合成システム、統計モデル生成装置、音声合成装置、音声合成方法 | |
CN115101042A (zh) | 一种文本处理方法、装置及设备 | |
CN116597809A (zh) | 多音字消歧方法、装置、电子设备及可读存储介质 | |
KR102586737B1 (ko) | 텍스트 기반의 음성 합성 방법 및 장치 | |
CN114822489A (zh) | 文本转写方法和文本转写装置 | |
US11250837B2 (en) | Speech synthesis system, method and non-transitory computer readable medium with language option selection and acoustic models | |
CN114254649A (zh) | 一种语言模型的训练方法、装置、存储介质及设备 | |
JP6998017B2 (ja) | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210518 Assignee: Shaanxi Digital Information Technology Co.,Ltd. Assignor: ZHANGYUE TECHNOLOGY Co.,Ltd. Contract record no.: X2023990000904 Denomination of invention: Text phonetic notation methods, electronic devices, and storage media Granted publication date: 20220603 License type: Common License Record date: 20231107 |