CN105225657A - 多音字标注模板生成方法和装置 - Google Patents

多音字标注模板生成方法和装置 Download PDF

Info

Publication number
CN105225657A
CN105225657A CN201510695421.5A CN201510695421A CN105225657A CN 105225657 A CN105225657 A CN 105225657A CN 201510695421 A CN201510695421 A CN 201510695421A CN 105225657 A CN105225657 A CN 105225657A
Authority
CN
China
Prior art keywords
polyphone
sentence pattern
language material
mark
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510695421.5A
Other languages
English (en)
Other versions
CN105225657B (zh
Inventor
肖朔
白洁
李秀林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510695421.5A priority Critical patent/CN105225657B/zh
Publication of CN105225657A publication Critical patent/CN105225657A/zh
Application granted granted Critical
Publication of CN105225657B publication Critical patent/CN105225657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种多音字标注模板生成方法和装置,其中,多音字标注模板生成方法包括:获取原始语料;对原始语料进行预处理,并生成包含多音字的语料数据;切分语料数据以生成多个分词,并对多个分词进行词性标注,以及进行近义词归一化处理;对归一化后的多个分词进行组合,并生成对应的句型;以及反向生成句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板。本发明实施例的多音字标注模板生成方法和装置,减少了人工标注的工作量,并提升了多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高了准确性。

Description

多音字标注模板生成方法和装置
技术领域
本发明涉及文语转换技术领域,尤其涉及一种多音字标注模板生成方法和装置。
背景技术
语音合成,又称文语转换技术,是一种能够将文字信息转化为语音并进行朗读的技术。语音合成***性能的主要评价指标主要包括可懂度和流畅度两方面。其中,对多音字的转换正确与否,极大地影响了用户对合成的声音语义的理解情况,即用户是否能听懂转换后的语音。如果对多音字的转换准确率高,则合成的语音更易于用户理解,也更加自然流畅。
目前,对多音字进行标注主要包括两种方法,一是通过人工总结并建立标注规则的方法,二是通过机器学习的方法对多音字进行标注。其中,基于人工的方法,需要具有一定语言专业知识的人,针对每个不同的多音字所蕴含的各类语言现象进行归纳总结,整理出规则,再将这些规则转写成计算机能够理解的代码,从而实现对多音字的标注。通过机器学习的方法,主要基于TBL算法(Transformation—BasedError-DrivenLearning,错误驱动的规则学习算法)、ME(MaximumEntropyModels,最大熵模型)、决策树等,通过获取样本数据和分词的输入特征,计算出全局最优的统计模型,进而实现对多音字的标注。
但是,上述方法均需要耗费较多的人力和时间去总结规则、标注训练语料,并且工作量大,更新周期长,建立的规则具有一定局限性和片面性,扩展性差。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种多音字标注模板生成方法,能够减少人工标注的工作量,并提升多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高准确性。
本发明的第二个目的在于提出一种多音字标注模板生成装置。
为了实现上述目的,本发明第一方面实施例提出了一种多音字标注模板生成方法,包括:获取原始语料;对所述原始语料进行预处理,并生成包含多音字的语料数据;切分所述语料数据以生成多个分词,并对所述多个分词进行词性标注,以及进行近义词归一化处理;对归一化后的所述多个分词进行组合,并生成对应的句型;以及反向生成所述句型对应的多音字标注语料,并根据所述多音字标注语料生成多音字标注模板。
本发明实施例的多音字标注模板生成方法,通过获取原始语料,对所述原始语料进行预处理,并生成包含多音字的语料数据,以及切分所述语料数据以生成多个分词,并对所述多个分词进行词性标注,以及进行近义词归一化处理,并对归一化后的所述多个分词进行组合,生成对应的句型;以及反向生成所述句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板,减少了人工标注的工作量,并提升了多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高了准确性。
本发明第二方面实施例提出了一种多音字标注模板生成装置,包括:获取模块,用于获取原始语料;第一生成模块,用于对所述原始语料进行预处理,并生成包含多音字的语料数据;处理模块,用于切分所述语料数据以生成多个分词,并对所述多个分词进行词性标注,以及进行近义词归一化处理;第二生成模块,用于对归一化后的所述多个分词进行组合,并生成对应的句型;以及反向生成模块,用于反向生成所述句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板。
本发明实施例的多音字标注模板生成装置,通过获取原始语料,对所述原始语料进行预处理,并生成包含多音字的语料数据,以及切分所述语料数据以生成多个分词,并对所述多个分词进行词性标注,以及进行近义词归一化处理,并对归一化后的所述多个分词进行组合,生成对应的句型;以及反向生成所述句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板,减少了人工标注的工作量,并提升了多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高了准确性。
附图说明
图1是根据本发明一个实施例的多音字标注模板生成方法的流程图。
图2是根据本发明一个实施例的多音字标注模板生成装置的结构示意图一。
图3是根据本发明一个实施例的多音字标注模板生成装置的结构示意图二。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的多音字标注模板生成方法和装置。
图1是根据本发明一个实施例的多音字标注模板生成方法的流程图。
如图1所示,多音字标注模板生成方法可包括:
S1、获取原始语料。
其中,原始语料可为互联网中的文本语料,可包括小说、新闻等文体。
S2、对原始语料进行预处理,并生成包含多音字的语料数据。
其中,预处理可包括但不仅限于断句、符号过滤、去重排序等。举例来说,可根据标点符号对原始语料进行断句,然后将重复的部分删除并重新排序,并将无实际语义的标点符号删除,然后根据预先建立的多音字列表,选取出包含多音字的语料数据。由于数据量巨大,可通过MapReduce进行处理。其中,MapReduce是一种编程模型,用于大规模数据的并行运算。
S3、切分语料数据以生成多个分词,并对多个分词进行词性标注,以及进行近义词归一化处理。
具体地,可对包含多音字的语料数据进行切分,从而生成多个分词,然后对上述分词进行词性标注,例如:“我吃苹果”,“我”和“苹果”可标注为名词,“吃”可标注为动词。然后可将词性为属于虚词的分词删除,即无实际语义的分词,例如“的”、“也”、“又”、“不”等。之后,再对近义词进行归一化处理,即将语义相近的分词进行聚类,可以避免语料数据稀疏的问题,又可以减少特征空间维数,提升机器学习模型的稳定性和泛化能力。
另外,还可过滤掉在词典中已有的语料数据,因为该语料数据的多音字标注已经保存在词典中,无需再次进行训练。
S4、对归一化后的多个分词进行组合,并生成对应的句型。
具体地,可对归一化后的多个分词进行组合,并生成多个分词组合。例如:“我们要有志气变得勇敢”,可生成分词组合“要有”、“要志气”、“要有志气”等。然后,可对多个分词组合的词频进行统计,获取词频大于频率阈值的分词组合,例如分词组合“要有志气”在语料数据中出现了10次,大于预设频率阈值5次,则可获取该分词组合。
在此之后,可过滤不满足预设条件的分词组合,以生成对应的句型。其中,预设条件可包括未登录词数量、单字数量以及分词的近义词数量。未登录词为词典中未包含的分词,如果未登录词数量过少,则说明该分词组合中的分词大部分都为词典中已包含的词,无需再次进行训练。而近义词数量过少,则会影响后续步骤中生成多音字标注语料的质量。最终,过滤后的分词组合可作为对应的句型,例如“长得。。。好看”、“要。。。勇敢”等,并根据句型的权重进行排序,例如句型出现的次数作为权重,按照次数从大到小的顺序进行排列,并获取出现次数最多的N个句型。举例来说,句型可表达为“多音字+关键字+近义词”的形式,如:喝(多音字)+好喝的(近义词)+饮料(关键字)。其中,近义词为可替换的部分。
S5、反向生成句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板。
在获取对应的句型之后,首先可将句型与训练语料进行匹配。如果句型与训练语料匹配,则可根据训练语料对句型进行标注。例如:训练语料为“我长(zhang3)个子了”而生成的句型为“我长身高”,“身高”与“个子”是近义词,两者相匹配,则可直接根据训练语料的注音对“长”进行标注,将其标注为“zhang3”,并将其作为多音字标注语料。如果句型与训练语料不匹配,则可通过人工方式对句型进行标注,然后将标注后的句型作为多音字标注语料。
在此之后,可基于近义词表反向生成句型对应的多音字标注语料。举例来说,句型为“我要yao4吃饭”,而“吃饭”在近义词表中可具有如“进食”、“吃午饭”、“喝水”等近义词,则可生成“我要yao4进食”“我要yao4吃午饭”“我要yao4喝水”等多音字标注语料。
在生成多音字标注语料之后,可对多音字标注语料进行切分,并抽取多音字标注语料中每个分词的特征,然后将所述特征代入至特征模板中,以生成对应的特征组合;以及为预测算法生成对应的格式模板。其中,特征可包括词面、词性、相对位置、关键字等。特征模板为预先设置,机器能够识别的格式。预测算法可包括最大熵算法、TBL算法、决策树等。例如:当前使用最大熵算法预测多音字的读音时,可将抽取的多音字标注语料中每个分词的特征带入至预设的特征模板中,从而生成对应的特征组合,再将特征组合转换为最大熵算法能够支持的格式模板。将待预测的包含多音字的文本输入到该格式模板中,即可实现最大熵算法对多音字的读音的预测。通过对预测算法的黑盒化,可实现预测算法的快速替换,而无需局限于某个算法的性能。
本发明实施例的多音字标注模板生成方法,通过获取原始语料,对原始语料进行预处理,并生成包含多音字的语料数据,以及切分语料数据以生成多个分词,并对多个分词进行词性标注,以及进行近义词归一化处理,并对归一化后的多个分词进行组合,生成对应的句型;以及反向生成句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板,减少了人工标注的工作量,并提升了多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高了准确性。
为实现上述目的,本发明还提出一种多音字标注模板生成装置。
图2是根据本发明一个实施例的多音字标注模板生成装置的结构示意图一。
如图2所示,多音字标注模板生成装置可包括:获取模块110、第一生成模块120、处理模块130、第二生成模块140和反向生成模块150。
获取模块110用于获取原始语料。其中,原始语料可为互联网中的文本语料,可包括小说、新闻等文体。
第一生成模块120用于对原始语料进行预处理,并生成包含多音字的语料数据。其中,预处理可包括但不仅限于断句、符号过滤、去重排序等。举例来说,可根据标点符号对原始语料进行断句,然后将重复的部分删除并重新排序,并将无实际语义的标点符号删除,然后根据预先建立的多音字列表,选取出包含多音字的语料数据。由于数据量巨大,可通过MapReduce进行处理。其中,MapReduce是一种编程模型,用于大规模数据的并行运算。
处理模块130用于切分语料数据以生成多个分词,并对多个分词进行词性标注,以及进行近义词归一化处理。具体地,处理模块130可对包含多音字的语料数据进行切分,从而生成多个分词,然后对上述分词进行词性标注,例如:“我吃苹果”,“我”和“苹果”可标注为名词,“吃”可标注为动词。然后可将词性为属于虚词的分词删除,即无实际语义的分词,例如“的”、“也”、“又”、“不”等。之后,再对近义词进行归一化处理,即将语义相近的分词进行聚类,可以避免语料数据稀疏的问题,又可以减少特征空间维数,提升机器学习模型的稳定性和泛化能力。
另外,还可过滤掉在词典中已有的语料数据,因为该语料数据的多音字标注已经保存在词典中,无需再次进行训练。
第二生成模块140用于对归一化后的多个分词进行组合,并生成对应的句型。具体地,第二生成模块140可对归一化后的多个分词进行组合,并生成多个分词组合。例如:“我们要有志气变得勇敢”,可生成分词组合“要有”、“要志气”、“要有志气”等。然后,可对多个分词组合的词频进行统计,获取词频大于频率阈值的分词组合,例如分词组合“要有志气”在语料数据中出现了10次,大于预设频率阈值5次,则可获取该分词组合。
在此之后,可过滤不满足预设条件的分词组合,以生成对应的句型。其中,预设条件可包括未登录词数量、单字数量以及分词的近义词数量。未登录词为词典中未包含的分词,如果未登录词数量过少,则说明该分词组合中的分词大部分都为词典中已包含的词,无需再次进行训练。而近义词数量过少,则会影响后续步骤中生成多音字标注语料的质量。最终,过滤后的分词组合可作为对应的句型,例如“长得。。。好看”、“要。。。勇敢”等,并根据句型的权重进行排序,例如句型出现的次数作为权重,按照次数从大到小的顺序进行排列,并获取出现次数最多的N个句型。举例来说,句型可表达为“多音字+关键字+近义词”的形式,如:喝(多音字)+好喝的(近义词)+饮料(关键字)。其中,近义词为可替换的部分。
反向生成模块150用于反向生成句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板。举例来说,句型为“我要yao4吃饭”,而“吃饭”在近义词表中可具有如“进食”、“吃午饭”、“喝水”等近义词,则可生成“我要yao4进食”“我要yao4吃午饭”“我要yao4喝水”等多音字标注语料。
在生成多音字标注语料之后,反向生成模块150可对多音字标注语料进行切分,并抽取多音字标注语料中每个分词的特征,然后将所述特征代入至特征模板中,以生成对应的特征组合;以及为预测算法生成对应的格式模板。其中,特征可包括词面、词性、相对位置、关键字等。特征模板为预先设置,机器能够识别的格式。预测算法可包括最大熵算法、TBL算法、决策树等。例如:当前使用最大熵算法预测多音字的读音时,可将抽取的多音字标注语料中每个分词的特征带入至预设的特征模板中,从而生成对应的特征组合,再将特征组合转换为最大熵算法能够支持的格式模板。将待预测的包含多音字的文本输入到该格式模板中,即可实现最大熵算法对多音字的读音的预测。通过对预测算法的黑盒化,可实现预测算法的快速替换,而无需局限于某个算法的性能。
如图3所示,本发明实施例的多音字标注模板生成装置还可包括标注模块160。
标注模块160用于在基于近义词表反向生成句型对应的多音字标注语料之前,将句型与训练语料进行匹配,若句型与训练语料匹配,则根据训练语料对句型进行标注,以及若句型与训练语料不匹配,则通过人工方式对句型进行标注。首先可将句型与训练语料进行匹配。如果句型与训练语料匹配,则可根据训练语料对句型进行标注。例如:训练语料为“我长(zhang3)个子了”而生成的句型为“我长身高”,“身高”与“个子”是近义词,两者相匹配,则可直接根据训练语料的注音对“长”进行标注,将其标注为“zhang3”,并将其作为多音字标注语料。如果句型与训练语料不匹配,则可通过人工方式对句型进行标注,然后将标注后的句型作为多音字标注语料。
本发明实施例的多音字标注模板生成装置,通过获取原始语料,对原始语料进行预处理,并生成包含多音字的语料数据,以及切分语料数据以生成多个分词,并对多个分词进行词性标注,以及进行近义词归一化处理,并对归一化后的多个分词进行组合,生成对应的句型;以及反向生成句型对应的多音字标注语料,并根据多音字标注语料生成多音字标注模板,减少了人工标注的工作量,并提升了多音字标注语料的抗噪性和容错性,进而在对多音字的读音进行预测时,提高了准确性。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种多音字标注模板生成方法,其特征在于,包括以下步骤:
获取原始语料;
对所述原始语料进行预处理,并生成包含多音字的语料数据;
切分所述语料数据以生成多个分词,并对所述多个分词进行词性标注,以及进行近义词归一化处理;
对归一化后的所述多个分词进行组合,并生成对应的句型;以及
反向生成所述句型对应的多音字标注语料,并根据所述多音字标注语料生成多音字标注模板。
2.如权利要求1所述的方法,其特征在于,所述预处理包括断句、符号过滤、去重排序中的一种或多种。
3.如权利要求1所述的方法,其特征在于,所述对归一化后的所述多个分词进行组合,并生成对应的句型,包括:
对归一化后的所述多个分词进行组合,并生成多个分词组合;
对所述多个分词组合的词频进行统计,获取所述词频大于频率阈值的分词组合;以及
过滤不满足预设条件的分词组合,以生成对应的句型,其中,所述预设条件包括未登录词数量、单字数量以及所述分词的近义词数量。
4.如权利要求1所述的方法,其特征在于,所述反向生成所述句型对应的多音字标注语料,包括:
基于近义词表反向生成所述句型对应的多音字标注语料。
5.如权利要求4所述的方法,其特征在于,在所述基于近义词表反向生成所述句型对应的多音字标注语料之前,还包括:
将所述句型与训练语料进行匹配;
若所述句型与所述训练语料匹配,则根据所述训练语料对所述句型进行标注;以及
若所述句型与所述训练语料不匹配,则通过人工方式对所述句型进行标注。
6.如权利要求1所述的方法,其特征在于,所述根据所述多音字标注语料生成多音字标注模板,包括:
对所述多音字标注语料进行切分,并抽取所述多音字标注语料中每个分词的特征;
将所述特征代入至特征模板中,以生成对应的特征组合;以及
根据所述特征组合为预测算法生成对应的格式模板。
7.一种多音字标注模板生成装置,其特征在于,包括:
获取模块,用于获取原始语料;
第一生成模块,用于对所述原始语料进行预处理,并生成包含多音字的语料数据;
处理模块,用于切分所述语料数据以生成多个分词,并对所述多个分词进行词性标注,以及进行近义词归一化处理;
第二生成模块,用于对归一化后的所述多个分词进行组合,并生成对应的句型;以及
反向生成模块,用于反向生成所述句型对应的多音字标注语料,并根据所述多音字标注语料生成多音字标注模板。
8.如权利要求7所述的装置,其特征在于,所述预处理包括断句、符号过滤、去重排序中的一种或多种。
9.如权利要求7所述的装置,其特征在于,所述第二生成模块,具体用于:
对归一化后的所述多个分词进行组合,并生成多个分词组合;
对所述多个分词组合的词频进行统计,获取所述词频大于频率阈值的分词组合;以及
过滤不满足预设条件的分词组合,以生成对应的句型,其中,所述预设条件包括未登录词数量、单字数量以及所述分词的近义词数量。
10.如权利要求7所述的装置,其特征在于,所述反向生成模块,具体用于:
基于近义词表反向生成所述句型对应的多音字标注语料。
11.如权利要求10所述的装置,其特征在于,所述装置还包括:
标注模块,用于在所述基于近义词表反向生成所述句型对应的多音字标注语料之前,将所述句型与训练语料进行匹配,若所述句型与所述训练语料匹配,则根据所述训练语料对所述句型进行标注,以及若所述句型与所述训练语料不匹配,则通过人工方式对所述句型进行标注。
12.如权利要求7所述的装置,其特征在于,所述反向生成模块,具体用于:
对所述多音字标注语料进行切分,并抽取所述多音字标注语料中每个分词的特征;
将所述特征代入至特征模板中,以生成对应的特征组合;以及
根据所述特征组合为预测算法生成对应的格式模板。
CN201510695421.5A 2015-10-22 2015-10-22 多音字标注模板生成方法和装置 Active CN105225657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510695421.5A CN105225657B (zh) 2015-10-22 2015-10-22 多音字标注模板生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510695421.5A CN105225657B (zh) 2015-10-22 2015-10-22 多音字标注模板生成方法和装置

Publications (2)

Publication Number Publication Date
CN105225657A true CN105225657A (zh) 2016-01-06
CN105225657B CN105225657B (zh) 2017-03-22

Family

ID=54994568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510695421.5A Active CN105225657B (zh) 2015-10-22 2015-10-22 多音字标注模板生成方法和装置

Country Status (1)

Country Link
CN (1) CN105225657B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107039034A (zh) * 2016-02-04 2017-08-11 科大讯飞股份有限公司 一种韵律预测方法及***
CN109117463A (zh) * 2018-07-26 2019-01-01 掌阅科技股份有限公司 文本拼音标注方法、电子设备、存储介质
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及***
CN110347696A (zh) * 2019-05-28 2019-10-18 平安科技(深圳)有限公司 数据转换方法、装置、计算机设备以及存储介质
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN111078898A (zh) * 2019-12-27 2020-04-28 出门问问信息科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
CN111597807A (zh) * 2020-04-30 2020-08-28 腾讯科技(深圳)有限公司 分词数据集生成方法、装置、设备及其存储介质
CN111667810A (zh) * 2020-06-08 2020-09-15 北京有竹居网络技术有限公司 多音字语料的获取方法、装置、可读介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1052960A (zh) * 1989-12-23 1991-07-10 方晖 华语自动分词注音新技术
JPH04238397A (ja) * 1991-01-23 1992-08-26 Matsushita Electric Ind Co Ltd 中国語発声記号生成装置及びその多音字辞典
US20040176078A1 (en) * 2003-02-13 2004-09-09 Motorola, Inc. Polyphone network method and apparatus
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN104572591A (zh) * 2013-10-29 2015-04-29 李维良 一种汉语中多音字辨认的综合分析法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1052960A (zh) * 1989-12-23 1991-07-10 方晖 华语自动分词注音新技术
JPH04238397A (ja) * 1991-01-23 1992-08-26 Matsushita Electric Ind Co Ltd 中国語発声記号生成装置及びその多音字辞典
US20040176078A1 (en) * 2003-02-13 2004-09-09 Motorola, Inc. Polyphone network method and apparatus
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN104572591A (zh) * 2013-10-29 2015-04-29 李维良 一种汉语中多音字辨认的综合分析法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘方舟,周游: "《用决策树指导TBL进行多音字消歧》", 《计算机工程与应用》 *
刘方舟; 施勤; 陶建华: "《基于最大熵模型的多音字消歧》", 《第九届全国人机语音通讯学术会议》 *
范明,胡国平,王仁华: "《汉语字音转换中的多层面多音字读音消歧》", 《计算机工程与应用》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107039034A (zh) * 2016-02-04 2017-08-11 科大讯飞股份有限公司 一种韵律预测方法及***
CN109117463A (zh) * 2018-07-26 2019-01-01 掌阅科技股份有限公司 文本拼音标注方法、电子设备、存储介质
CN109117463B (zh) * 2018-07-26 2019-11-22 掌阅科技股份有限公司 文本拼音标注方法、电子设备、存储介质
CN109271492A (zh) * 2018-11-16 2019-01-25 广东小天才科技有限公司 一种语料正则表达式的自动生成方法及***
CN110347696B (zh) * 2019-05-28 2024-03-26 平安科技(深圳)有限公司 数据转换方法、装置、计算机设备以及存储介质
CN110347696A (zh) * 2019-05-28 2019-10-18 平安科技(深圳)有限公司 数据转换方法、装置、计算机设备以及存储介质
CN110633476A (zh) * 2019-09-27 2019-12-31 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN110633476B (zh) * 2019-09-27 2024-04-05 北京百度网讯科技有限公司 用于获取知识标注信息的方法及装置
CN111078898A (zh) * 2019-12-27 2020-04-28 出门问问信息科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
CN111078898B (zh) * 2019-12-27 2023-08-08 出门问问创新科技有限公司 一种多音字标注方法、装置以及计算机可读存储介质
CN111597807B (zh) * 2020-04-30 2022-09-13 腾讯科技(深圳)有限公司 分词数据集生成方法、装置、设备及其存储介质
CN111597807A (zh) * 2020-04-30 2020-08-28 腾讯科技(深圳)有限公司 分词数据集生成方法、装置、设备及其存储介质
CN111667810B (zh) * 2020-06-08 2021-10-15 北京有竹居网络技术有限公司 多音字语料的获取方法、装置、可读介质和电子设备
CN111667810A (zh) * 2020-06-08 2020-09-15 北京有竹居网络技术有限公司 多音字语料的获取方法、装置、可读介质和电子设备

Also Published As

Publication number Publication date
CN105225657B (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN105225657A (zh) 多音字标注模板生成方法和装置
CN107038158B (zh) 对译语料库制作方法、装置、记录介质以及机器翻译***
CN105404621B (zh) 一种用于盲人读取汉字的方法及***
CN108509638B (zh) 一种问题提取方法及电子设备
CN110020422A (zh) 特征词的确定方法、装置和服务器
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN104021784A (zh) 基于大语料库的语音合成方法和装置
CN104166462A (zh) 一种文字的输入方法和***
CN104882139A (zh) 语音合成的方法和装置
CN105261358A (zh) 用于语音识别的n元文法模型构造方法及语音识别***
CN103324621A (zh) 一种泰语文本拼写纠正方法及装置
Brierley et al. Open-Source Boundary-Annotated Corpus for Arabic Speech and Language Processing.
CN115033753A (zh) 训练语料集构建方法、文本处理方法及装置
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
CN104199813A (zh) 基于伪反馈的个性化机器翻译***及方法
CN112765977B (zh) 一种基于跨语言数据增强的分词方法及装置
CN106502988A (zh) 一种目标属性抽取的方法和设备
Saloot et al. Toward tweets normalization using maximum entropy
Leidig et al. Automatic detection of anglicisms for the pronunciation dictionary generation: a case study on our German IT corpus.
CN110245331A (zh) 一种语句转换方法、装置、服务器及计算机存储介质
Thu et al. Recovering capitalization for automatic speech recognition of vietnamese using transformer and chunk merging
CN106294310B (zh) 一种藏语声调预测方法及***
CN107423293A (zh) 数据翻译的方法和装置
CN111090720B (zh) 一种热词的添加方法和装置
CN109727591B (zh) 一种语音搜索的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant