CN110728133B - 个性语料获取方法及个性语料获取装置 - Google Patents
个性语料获取方法及个性语料获取装置 Download PDFInfo
- Publication number
- CN110728133B CN110728133B CN201911314319.0A CN201911314319A CN110728133B CN 110728133 B CN110728133 B CN 110728133B CN 201911314319 A CN201911314319 A CN 201911314319A CN 110728133 B CN110728133 B CN 110728133B
- Authority
- CN
- China
- Prior art keywords
- sentence
- value
- obtaining
- legibility
- adaptation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000006978 adaptation Effects 0.000 claims abstract description 81
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 241001672694 Citrus reticulata Species 0.000 claims description 8
- 230000000717 retained effect Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 abstract description 10
- 238000003786 synthesis reaction Methods 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000013145 classification model Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音合成技术领域,提供一种个性语料获取方法及个性语料获取装置。个性语料获取方法,包括:获取待选语句集,待选语句集包括至少一个待选语句。获取录音者的个人属性信息。基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值。根据适配值,判断待选语句是否保留。根据判断待选语句是否保留的判断结果,得到适配于录音者的个性语料,其中,个性语料由待选语句集中保留的待选语句组成。通过本公开提供的个性语料获取方法,能够根据待选语句自身的易读性和录音者的个人属性信息,筛选适合录音者的待选语句,进而获得适合录音者的个性语料。有助于提高录音者的录音流畅度,进而提升录音效率,从而提高语音合成数据库的质量。
Description
技术领域
本发明一般地涉及语音合成技术领域,特别是涉及一种个性语料获取方法及个性语料获取装置。
背景技术
语音合成,又称为文语转换技术,能将任意文字信息实时转化为标准流程的语音进行朗读。语料通常指在统计自然语言处理中实际上不可能观测到大规模的语言实例。通常用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。
语音合成数据库质量的好坏,与语料库中的语料难易程度和录音者的自身录音水平的高低密不可分。相同的语料对于录音水平不同的录音者,起着不同的录音影响,最终制成的语音合成数据库质量也参差不齐。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种个性语料获取方法及个性语料获取装置。
第一方面,本发明实施例提供一种个性语料获取方法,包括:获取待选语句集,待选语句集包括至少一个待选语句。获取录音者的个人属性信息。基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值。根据适配值,判断待选语句是否保留。根据判断待选语句是否保留的判断结果,得到适配于录音者的个性语料,其中,个性语料由待选语句集中保留的待选语句组成。
在一实施例中,基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值,包括:根据待选语句,获取待选语句易读性的易读值。基于易读值和个人属性信息,得到待选语句与录音者之间的适配值。
在另一实施例中,根据待选语句,获取待选语句易读性的易读值,包括:根据待选语句,得到待选语句的从属领域。根据从属领域,得到待选语句的易读值。
在一实施例中,根据所述待选语句,获取所述待选语句易读性的易读值,还包括:基于所述待选语句的语序,通过语言模型,得到所述待选语句的逻辑合理度。根据所述逻辑合理度,得到所述待选语句的所述易读值。
在另一实施例中,根据所述待选语句,获取所述待选语句易读性的易读值,还包括:基于所述待选语句的句长和/或生僻字,得到所述待选语句易读性的易读值。
在又一实施例中,基于易读值和个人属性信息,得到待选语句与录音者之间的适配值,包括:将待选语句的从属领域、易读值和个人属性信息输入至适配预测模型。通过适配预测模型,得到适配值。
在一实施例中,个人属性信息包括以下至少一项:性别、年龄、籍贯、普通话等级和是否有过播音训练。
在一实施例中,根据适配值,判断待选语句是否保留,包括:将适配值与预设阈值进行对比,当适配值小于或等于阈值时,则保留待选语句。当适配值大于阈值时,则舍弃待选语句。
在一实施例中,根据适配值,判断待选语句是否保留,包括:将待选语句集中的待选语句根据适配值的大小,从小到大进行排序,按序保留与预设数量阈值相同的多个所述待选语句。
第二方面,本发明实施例提供一种个性语料获取装置,包括:获取模块,用于获取待选语句集、获取录音者的个人属性信息,并基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值;还用于根据判断待选语句是否保留的判断结果,得到适配于录音者的个性语料,其中,待选语句集包括至少一个待选语句,个性语料由待选语句集中保留的待选语句组成。判断模块,用于根据适配值,判断待选语句是否保留。
在一实施例中,获取模块采用下述方式基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值:根据待选语句,获取待选语句易读性的易读值。基于易读值和个人属性信息,得到待选语句与录音者之间的适配值。
在另一实施例中,获取模块采用下述方式根据待选语句,获取待选语句易读性的易读值:根据待选语句,得到待选语句的从属领域。根据从属领域,得到待选语句的易读值。
在一实施例中,获取模块还采用下述方式根据所述待选语句,获取所述待选语句易读性的易读值:基于所述待选语句的语序,通过语言模型,得到所述待选语句的逻辑合理度。根据所述逻辑合理度,得到所述待选语句的所述易读值。
在另一实施例中,获取模块还采用下述方式根据所述待选语句,获取所述待选语句易读性的易读值:基于所述待选语句的句长和/或生僻字,得到所述待选语句易读性的易读值。
在又一实施例中,获取模块采用下述方式基于易读值和个人属性信息,得到待选语句与录音者之间的适配值:将待选语句的从属领域、易读值和个人属性信息输入至适配预测模型。通过适配预测模型,得到适配值。
在一实施例中,个人属性信息包括以下至少一项:性别、年龄、籍贯、普通话等级和是否有过播音训练。
在一实施例中,判断模块采用下述方式根据适配值,判断待选语句是否保留:将适配值与预设阈值进行对比,当适配值小于或等于阈值时,则保留待选语句。当适配值大于阈值时,则舍弃待选语句。
在一实施例中,判断模块采用下述方式根据适配值,判断待选语句是否保留:将待选语句集中的待选语句根据适配值的大小,从小到大进行排序,按序保留与预设数量阈值相同的多个所述待选语句。
第三方面,本发明实施例提供一种电子设备,其中,电子设备包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行个性语料获取方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其中,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行个性语料获取方法。
本发明提供的一种个性语料获取方法及个性语料获取装置,能够根据待选语句自身的易读性和录音者的个人属性信息,筛选适合录音者的待选语句,进而获得适合录音者的个性语料。有助于提高录音者的录音流畅度,进而提升录音效率,从而提高语音合成数据库的质量。
附图说明
通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示出了本发明实施例提供的一种个性语料获取方法的示意图;
图2示出了本发明实施例提供的一种个性语料获取的工作流程示意图;
图3示出了本发明实施例提供的一种个性语料获取装置示意图;
图4示出了本发明实施例提供的一种电子设备示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本发明的实施方式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第一”、“第二”等表述完全可以互换使用。
图1是根据一示例性实施例示出的一种个性语料获取方法的流程图。如图1所示,个性语料获取方法10,包括以下步骤S11至步骤S15。
在步骤S11中,获取待选语句集。
在本公开实施例中,获取含有至少一句待选语句的待选语句集,用于从中选择适合录音者的语句。待选语句集可以从语料数据库或者云端中进行获取。待选语句集可以包括:多语种语句、多领域语句,其中,领域可以是小说、新闻、对话等。在本公开中,待选语句集的内容以及来源不进行限定。
在步骤S12中,获取录音者的个人属性信息。
在本公开实施例中,通过获取录音者的个人属性信息,有助于筛选待选语句集中的待选语句时,保留的待选语句更适合录音者进行录音,使获得的个性语料更具有针对性。
在一实施例中,个人属性信息可以包括以下至少一类:性别、年龄、籍贯、普通话等级和是否有过播音训练。获取个人属性信息的种类越详细,保留的待选语句可用性越准确。
在步骤S13中,基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值。
在本公开实施例中,适配值用于表现待选语句与录音者之间的适配的程度。当适配值低时,则待选语句适合录音者进行朗读。反之,当适配值高时,则待选语句不适合录音者进行朗读。通过待选语句和个人属性之间的适配值,便于快速筛选待选语句集中的适合录音者的待选语句。
在一实施例中,适配值是根据待选语句的易读性和录音者的个人属性信息进行获得的。通过待选语句中的以下至少一项得到待选语句易读性的易读值:语序、句长、生僻字数量。通过预设列表,得到个人属性信息对应的预设分数表。通过将录音者的个人属性信息与预设分数表进行对比,得到录音者各类个人属性信息对应的分数值。将易读值和各类分数值作为参数输入至适配预测模型中,得到待选语句与录音者之间的适配值。
在一实施例中,根据待选语句的从属领域分类,将待选语句通过对应从属领域的语言模型,判断待选语句的逻辑是否准确,字词顺序是否合理,进而得到待选语句关于语序的易读值。在一实施场景中,将待选语句通过语言模型,利用困惑度进行校验,得到待选语句的困惑度值,进而得到待选语句关于语序的易读值。困惑度值越低,表明待选语句中的逻辑越准确,易读性越高,待选语句关于语序的易读值越低。根据从属领域确定待选语句的易读性,使得到的易读值更具有客观性。
在另一实施例中,当待选语句的领域不明确时,则预先通过训练好的句子领域分类模型,确认待选语句的从属领域,进而根据对应从属领域的语言模型得到待选语句关于语序的易读值。利用不同的从属领域确定待选语句的易读性,使得到的易读值更具有客观性。在一实施场景中,训练句子领域分类模型时,采用相同的从属领域的语料,训练同一从属领域的句子领域分类模型,使训练后的句子领域分类模型能够识别自身从属领域的语句。
在另一实施例中,根据句长转折点,得到待选语句关于句长的易读值。句长转折点为语句易读性降低的转折句长字数。将待选语句字数与转折句长字数进行对比,当待选语句字数小于或等于转折句长字数时,则待选语句关于句长的易读值为零。当待选语句字数大于转折句长字数时,则根据多出的字数,确定待选语句关于句长的易读值。句长字数越长,易读性越低,对应的易读值越高。在一实施场景中,通过公式,得到待选语句关于句长的易读值。其中,S为待选句子中最长子句的长度,N为阅读难度增加的句长字数。随着待选语句的字数越长,易读性越低,对应的关于句长的易读值难度越大。
在又一实施例中,根据待选语句中的生僻字,得到待选语句关于生僻字的易读值。根据待选语句中的生僻字个数,确定待选语句关于生僻字的易读值,生僻字个数越多,易读性越低,对应的易读值越大。在一实施场景中,通过公式,得到待选语句关于生僻字的易读值。当生僻字的个数为零时,易读值为零。随着生僻字的个数增多,待选语句的易读性逐渐降低,对应的关于生僻字的易读值逐渐增大。
在一实施例中,待选语句的易读性同时与语序、句长和生僻字数量相关时,根据语序、句长和生僻字数量对应的易读值的权重,确定待选语句的总体易读值。通过多项因素确定待选语句的易读值,有助于得到的待选语句的易读值更准确,进而通过与个人属性信息共同确定的适配值更有助于保留适合录音者的待选语句,从而提高录音者的录音质量。在一实施场景中,预设语序、句长和生僻字的权重,通过公式,得到待选语句的总体易读值。
在一实施例中,将待选语句的从属领域、待选语句的易读值和录音者各类个人属性信息分别作为参数输入至训练好的适配预测模型中,根据训练后得到的各项参数权重,得到待选语句与录音者之间的适配值。在一实施场景中,利用训练集作为训练参数,根据已知训练语句与训练者的匹配度,训练适配预测模型。使训练后的适配预测模型能够根据录音者的个人属性信息和待选语句,得到准确的、适合录音者的个性语料。其中,训练集中包括:训练语句、训练语句的句子领域、训练语句的易读值、训练者的性别、训练者的年龄、训练者的籍贯、训练者的普通话等级以及训练者是否有过播音训练。通过训练,得到最终各项训练参数的权重系数,进而在获取录音者和待选语句时,能够得到准确的适配值。在训练适配预测模型时,训练参数种类越多,对应得到的权重系数分配越准确,进而在正常使用适配预测模型时,得到的适配值越具有真实性。
在步骤S14中,根据适配值,判断待选语句是否保留。
在本公开实施例中,根据得到的适配值,预设保留标准,判断是否保留待选语句。
在一实施例中,通过预设阈值作为保留标准,判断是否保留待选语句。将得到的适配值与预设阈值进行对比,当适配值小于或等于预设阈值时,则保留待选语料。当适配值高于预设阈值时,则舍弃该待选语句。通过预设阈值,统一待选语句的保留标准,使留下的待选语句能够更适合录音者进行朗读,进而提升录音效率,提高录音质量。
在另一实施例中,通过预设获取待选语句的数量阈值,判断是否保留待选语句。将待测语句集中的每一待测语句根据适配值的数值大小,从小到大进行排序,按序保留与数量阈值相同的多个待选语句。通过预设数量阈值,有助于快速获取个性语料,以满足个性语料的数量需求。
在步骤S15中,根据判断待选语句是否保留的判断结果,得到适配于录音者的个性语料。
在本公开实施例中,个性语料由待选语句集中保留的待选语句组成。根据适配值保留的待选预料,有助于合成的个性语料更贴合录音者自身情况,便于录音者能够顺利完成录音,进而提升录音质量,从而提升语音合成库的质量。
通过上述实施例,从待选语句集中选择适合录音者个性语料时,通过结合录音者的个人属性信息,判断是否保留待选语句,使得到的个性语料更具有针对性,有助于提高录音者的录音质量,提升录音者的录音体验,进而提升录音效率,从而提高语音合成数据库的录音质量。
基于同一种发明构思,本公开还提供的一种个性语料获取的工作流程图。
图2是根据一示例性实施例示出一种个性语料获取的工作流程图。如图2所示,语音库的语音获取的工作流程图20,包括以下步骤S21至步骤S28。
在步骤S21中,获取待选语句。
在本公开实施例中,通过网页、本地数据库或者云数据库,获取待选语句。用于组合成适配于录音者的个性语料。
在步骤S22中,判断是否已知待选语句的从属领域。
在本公开实施例中,通过待选语句的从属领域,确定待选语句的总体易读值。根据从属领域的不同,确定不同从属领域的总体易读值,有助于获得的适配值更具有真实性,保留后的待选语句更适合录音者进行朗读。预设从属领域对照表,不同的从属领域,对应不同的领域值。当已知待选语句的从属领域时,根据从属领域对照表,确定待选语句的领域值。当待选语句的从属领域未知时,则通过句子领域分类模型,得到待选语句的从属领域,根据从属领域对照表,确定待选语句的领域值。
在步骤S23中,获取的待选语句关于语序的易读值。
在本公开实施例中,将获取的待选语句输入至语言模型中,得到待选语句关于语序的易读值。用于判断待选语句中的逻辑是否正确,以便提高个性语料中的语句有效性。
在步骤S24中,获取待选语句关于句长的易读值。
在本公开实施例中,根据句长转折点,确定待选语句的句长易读值。
在步骤S25中,根据待选语句中的生僻字,得到待选语句关于生僻字的易读值。
在本公开实施例中,根据生僻字的个数,确定待选语句关于生僻字的易读值。
在步骤S26中,获取录音者的个人属性信息。
在本公开实施例中,获取关于录音者的以下几项个人属性信息:性别、年龄、籍贯、普通话等级和专业训练背景。通过获取录音者详细的个人属性信息,有助于保留的待选语句与录音者之间的适配度更高。
在步骤S27中,获取待选语句与录音者之间的适配值。
在本公开实施例中,将获取的个人属性信息、句长易读值、生僻字易读值和领域易读值作为参数,输入至训练好的适配预测模型中,得到适配值。便于根据得到的适配值,判断当前待选语句适配于当前录音人,是保留的待选语句适合录音者进行朗读,提高录音效率。
在步骤S28中,将适配值与预设阈值进行比较。
在本公开实施例中,当适配值大于预设阈值时,则对应的待选语句不适合录音者进行录音,抛弃该待选语句。当适配值小于或等于预设阈值,则对应的待选语句适合录音者进行录音,保留待选语句作为适配于录音者的个性语料之一。
通过上述实施例,将待选语句根据从属领域获取总体易读值,并结合录音者详细的个人属性信息,使得到的适配值更具有参考性,保留的待选语句更适合录音者进行朗读,得到的个性语料更具有针对性。能够有效提升录音者的录音质量,进而提升录音效率,从而提升语音合成数据库的质量,节约语音数据库的制作成本。
基于同一种发明构思,本公开提供的一种个性语料获取装置的示意图。
图3是根据一示例性实施例示出的一种个性语料获取装置的示意图。如图3所示,个性语料获取装置100,包括以下模块。
获取模块110,用于获取待选语句集、获取录音者的个人属性信息,并基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值;还用于判断待选语句是否保留的根据判断结果,得到适配于录音者的个性语料,其中,待选语句集包括至少一个待选语句,个性语料由待选语句集中保留的待选语句组成。
判断模块120,用于根据适配值,判断待选语句是否保留。
在一实施例中,获取模块110采用下述方式基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值:根据待选语句,获取待选语句易读性的易读值。基于易读值和个人属性信息,得到待选语句与录音者之间的适配值。
在另一实施例中,获取模块110采用下述方式根据待选语句,获取待选语句易读性的易读值:根据待选语句,得到待选语句的从属领域。根据从属领域,得到待选语句的易读值。
在一实施例中,获取模块110还采用下述方式根据待选语句,获取待选语句易读性的易读值:基于待选语句的语序,通过语言模型,得到待选语句的逻辑合理度。根据逻辑合理度,得到待选语句的易读值。
在另一实施例中,获取模块110还采用下述方式根据待选语句,获取待选语句易读性的易读值:基于待选语句的句长和/或生僻字,得到待选语句易读性的易读值。
在又一实施例中,获取模块110采用下述方式基于易读值和个人属性信息,得到待选语句与录音者之间的适配值:将待选语句的从属领域、易读值和个人属性信息输入至适配预测模型。通过适配预测模型,得到适配值。
在一实施例中,个人属性信息包括以下至少一项:性别、年龄、籍贯、普通话等级和是否有过播音训练。
在一实施例中,判断模块120采用下述方式根据适配值,判断待选语句是否保留:将适配值与预设阈值进行对比,当适配值小于或等于阈值时,则保留待选语句。当适配值大于阈值时,则舍弃待选语句。
在一实施例中,判断模块120采用下述方式根据适配值,判断待选语句是否保留:将待选语句集中的待选语句根据适配值的大小,从小到大进行排序,按序保留与预设数量阈值相同的多个待选语句。
装置中的各个模块所实现的功能与上文描述的方法中的步骤相对应,其具体实现和技术效果请参见上文对于方法步骤的描述,在此不再赘述。
如图4所示,本发明的一个实施方式提供了一种电子设备200。其中,该电子设备200包括存储器210、处理器220、输入/输出(Input/Output,I/O)接口230。其中,存储器210,用于存储指令。处理器220,用于调用存储器210存储的指令执行本发明实施例的用于上述任意一种个性语料获取方法。其中,处理器220分别与存储器210、I/O接口230连接,例如可通过总线***和/或其他形式的连接机构(未示出)进行连接。存储器210可用于存储程序和数据,包括本发明实施例中涉及的用于上述任意一种个性语料获取的程序,处理器220通过运行存储在存储器210的程序从而执行电子设备200的各种功能应用以及数据处理。
本发明实施例中处理器220可以采用数字信号处理器(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现,所述处理器220可以是中央处理单元(Central Processing Unit,CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元中的一种或几种的组合。
本发明实施例中的存储器210可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(Random Access Memory,RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(Read-OnlyMemory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等。
本发明实施例中,I/O接口230可用于接收输入的指令(例如数字或字符信息,以及产生与电子设备200的用户设置以及功能控制有关的键信号输入等),也可向外部输出各种信息(例如,图像或声音等)。本发明实施例中I/O接口230可包括物理键盘、功能按键(比如音量控制按键、开关按键等)、鼠标、操作杆、轨迹球、麦克风、扬声器、和触控面板等中的一个或多个。
在一些实施方式中,本发明提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由处理器执行时,执行上文所述的任何方法。
尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结果。在特定环境中,多任务和并行处理可能是有利的。
本发明的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语“装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本发明实施的前述说明。前述说明并非是穷举性的也并非要将本发明限制到所公开的确切形式,根据上述教导还可能存在各种变形和修改,或者是可能从本发明的实践中得到各种变形和修改。选择和描述这些实施例是为了说明本发明的原理及其实际应用,以使得本领域的技术人员能够以适合于构思的特定用途来以各种实施方式和各种修改而利用本发明。
Claims (18)
1.一种个性语料获取方法,其中,所述方法包括:
获取待选语句集,所述待选语句集包括至少一个待选语句;
获取录音者的个人属性信息;
基于所述待选语句和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值,其中,所述适配值用于表现所述待选语句与所述录音者之间的适配程度;
根据所述适配值,判断所述待选语句是否保留;
根据所述判断所述待选语句是否保留的判断结果,得到适配于所述录音者的个性语料,其中,所述个性语料由所述待选语句集中保留的所述待选语句组成;
其中,所述基于所述待选语句和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值,包括:
根据所述待选语句,获取所述待选语句易读性的易读值;
基于所述易读值和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值。
2.根据权利要求1所述的方法,其中,所述根据所述待选语句,获取所述待选语句易读性的易读值,包括:
根据所述待选语句,得到所述待选语句的从属领域;
根据所述从属领域,得到所述待选语句的所述易读值。
3.根据权利要求2所述的方法,其中,所述根据所述待选语句,获取所述待选语句易读性的易读值,还包括:
基于所述待选语句的语序,通过语言模型,得到所述待选语句的逻辑合理度;
根据所述逻辑合理度,得到所述待选语句的所述易读值。
4.根据权利要求3所述的方法,其中,所述根据所述待选语句,获取所述待选语句易读性的易读值,还包括:
基于所述待选语句的句长和/或生僻字,得到所述待选语句易读性的易读值。
5.根据权利要求3所述的方法,其中,所述基于所述易读值和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值,包括:
将所述待选语句的所述从属领域、所述易读值和所述个人属性信息输入至适配预测模型;
通过所述适配预测模型,得到所述适配值。
6.根据权利要求5所述方法,其中,所述个人属性信息包括以下至少一项:性别、年龄、籍贯、普通话等级和是否有过播音训练。
7.根据权利要求6所述的方法,其中,所述根据所述适配值,判断所述待选语句是否保留,包括:
将所述适配值与预设阈值进行对比,当所述适配值小于或等于所述阈值时,则保留所述待选语句;当所述适配值大于所述阈值时,则舍弃所述待选语句。
8.根据权利要求6所述的方法,其中,所述根据所述适配值,判断所述待选语句是否保留,包括:
将所述待选语句集中的所述待选语句根据适配值的大小,从小到大进行排序,按序保留与预设数量阈值相同的多个所述待选语句。
9.一种个性语料获取装置,其中,所述装置包括:
获取模块,用于获取待选语句集、获取录音者的个人属性信息,并基于所述待选语句和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值,其中,所述适配值用于表现所述待选语句与所述录音者之间的适配程度;还用于根据判断所述待选语句是否保留的判断结果,得到适配于所述录音者的个性语料,其中,所述待选语句集包括至少一个待选语句,所述个性语料由所述待选语句集中保留的所述待选语句组成;
判断模块,用于根据所述适配值,判断所述待选语句是否保留;
其中,所述获取模块采用下述方式基于所述待选语句和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值:
根据所述待选语句,获取所述待选语句易读性的易读值;
基于所述易读值和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值。
10.根据权利要求9所述的装置,其中,所述获取模块采用下述方式根据所述待选语句,获取所述待选语句易读性的易读值:
根据所述待选语句,得到所述待选语句的从属领域;
根据所述从属领域,得到所述待选语句的所述易读值。
11.根据权利要求10所述的装置,其中,所述获取模块还采用下述方式根据所述待选语句,获取所述待选语句易读性的易读值:
基于所述待选语句的语序,通过语言模型,得到所述待选语句的逻辑合理度;
根据所述逻辑合理度,得到所述待选语句的所述易读值。
12.根据权利要求11所述的装置,其中,所述获取模块还采用下述方式根据所述待选语句,获取所述待选语句易读性的易读值:
基于所述待选语句的句长和/或生僻字,得到所述待选语句易读性的易读值。
13.根据权利要求12所述的装置,其中,所述获取模块采用下述方式基于所述易读值和所述个人属性信息,得到所述待选语句与所述录音者之间的适配值:
将所述待选语句的所述从属领域、所述易读值和所述个人属性信息输入至适配预测模型;
通过所述适配预测模型,得到所述适配值。
14.根据权利要求12所述装置,其中,所述个人属性信息包括以下至少一项:性别、年龄、籍贯、普通话等级和是否有过播音训练。
15.根据权利要求14所述的装置,其中,所述判断模块采用下述方式根据所述适配值,判断所述待选语句是否保留:
将所述适配值与预设阈值进行对比,当所述适配值小于或等于所述阈值时,则保留所述待选语句;当所述适配值大于所述阈值时,则舍弃所述待选语句。
16.根据权利要求14所述的装置,其中,所述判断模块采用下述方式根据所述适配值,判断所述待选语句是否保留:
将所述待选语句集中的所述待选语句根据适配值的大小,从小到大进行排序,按序保留与预设数量阈值相同的多个所述待选语句。
17.一种电子设备,其中,所述电子设备,包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行权利要求1-8中任一项所述的个性语料获取方法。
18.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-8中任一项所述的个性语料获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314319.0A CN110728133B (zh) | 2019-12-19 | 2019-12-19 | 个性语料获取方法及个性语料获取装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911314319.0A CN110728133B (zh) | 2019-12-19 | 2019-12-19 | 个性语料获取方法及个性语料获取装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728133A CN110728133A (zh) | 2020-01-24 |
CN110728133B true CN110728133B (zh) | 2020-05-05 |
Family
ID=69226461
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911314319.0A Active CN110728133B (zh) | 2019-12-19 | 2019-12-19 | 个性语料获取方法及个性语料获取装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728133B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113327593B (zh) * | 2021-05-25 | 2024-04-30 | 上海明略人工智能(集团)有限公司 | 用于语料获取的装置及方法、电子设备、可读存储介质 |
CN114817517B (zh) * | 2022-05-30 | 2022-12-20 | 北京海天瑞声科技股份有限公司 | 一种语料获取方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105991847A (zh) * | 2015-02-16 | 2016-10-05 | 北京三星通信技术研究有限公司 | 通话方法和电子设备 |
CN108733650A (zh) * | 2018-05-14 | 2018-11-02 | 科大讯飞股份有限公司 | 个性化词获取方法及装置 |
CN108831439A (zh) * | 2018-06-27 | 2018-11-16 | 广州视源电子科技股份有限公司 | 语音识别方法、装置、设备和*** |
CN108962284A (zh) * | 2018-07-04 | 2018-12-07 | 科大讯飞股份有限公司 | 一种语音录制方法及装置 |
CN109410913A (zh) * | 2018-12-13 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN109767775A (zh) * | 2019-02-26 | 2019-05-17 | 珠海格力电器股份有限公司 | 语音控制方法、装置和空调 |
CN110288985A (zh) * | 2019-06-28 | 2019-09-27 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11836454B2 (en) * | 2018-05-02 | 2023-12-05 | Language Scientific, Inc. | Systems and methods for producing reliable translation in near real-time |
-
2019
- 2019-12-19 CN CN201911314319.0A patent/CN110728133B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105991847A (zh) * | 2015-02-16 | 2016-10-05 | 北京三星通信技术研究有限公司 | 通话方法和电子设备 |
CN108733650A (zh) * | 2018-05-14 | 2018-11-02 | 科大讯飞股份有限公司 | 个性化词获取方法及装置 |
CN108831439A (zh) * | 2018-06-27 | 2018-11-16 | 广州视源电子科技股份有限公司 | 语音识别方法、装置、设备和*** |
CN108962284A (zh) * | 2018-07-04 | 2018-12-07 | 科大讯飞股份有限公司 | 一种语音录制方法及装置 |
CN109410913A (zh) * | 2018-12-13 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN109767775A (zh) * | 2019-02-26 | 2019-05-17 | 珠海格力电器股份有限公司 | 语音控制方法、装置和空调 |
CN110288985A (zh) * | 2019-06-28 | 2019-09-27 | 北京猎户星空科技有限公司 | 语音数据处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110728133A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110797006B (zh) | 端到端的语音合成方法、装置及存储介质 | |
Marian et al. | CLEARPOND: Cross-linguistic easy-access resource for phonological and orthographic neighborhood densities | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
US20110184723A1 (en) | Phonetic suggestion engine | |
US9449522B2 (en) | Systems and methods for evaluating difficulty of spoken text | |
JP2015094848A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN110956948A (zh) | 端到端的语音合成方法、装置及存储介质 | |
CN106610990B (zh) | 情感倾向性分析的方法及装置 | |
CN110728133B (zh) | 个性语料获取方法及个性语料获取装置 | |
CN112818089B (zh) | 文本注音方法、电子设备及存储介质 | |
US11087745B2 (en) | Speech recognition results re-ranking device, speech recognition results re-ranking method, and program | |
JP6495792B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
Klessa et al. | Annotation Pro+ TGA: automation of speech timing analysis. | |
Cao et al. | Prosodic cues for emotion: analysis with discrete characterization of intonation | |
CN116579327B (zh) | 文本纠错模型训练方法、文本纠错方法、设备及存储介质 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN104881403B (zh) | 分词方法和装置 | |
CN109670040B (zh) | 写作辅助方法、装置及存储介质、计算机设备 | |
JP2014232145A (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
CN116450771A (zh) | 一种多语种语音翻译模型构建方法及语音翻译方法、装置 | |
JP6592378B2 (ja) | 書き換え装置、方法、及びプログラム | |
CN114999450A (zh) | 同形异义字的识别方法、装置、电子设备及存储介质 | |
CN112559798B (zh) | 音频内容质量的检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |