CN110310620B - 基于原生发音强化学习的语音融合方法 - Google Patents
基于原生发音强化学习的语音融合方法 Download PDFInfo
- Publication number
- CN110310620B CN110310620B CN201910667563.9A CN201910667563A CN110310620B CN 110310620 B CN110310620 B CN 110310620B CN 201910667563 A CN201910667563 A CN 201910667563A CN 110310620 B CN110310620 B CN 110310620B
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- sound
- voice
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 16
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 11
- 238000005461 lubrication Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 18
- 238000012958 reprocessing Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于原生发音强化学习的语音融合方法。本发明一种基于原生发音强化学习的语音融合方法,包括:步骤1)对某声优的海量阅读内容进行完整句子切片,得到声音句集,之后对所有的声音句子集标定句子文本内容。步骤2)按照每个句子的文本分词对声音句子进行切片,可以得到每个文本单词的不同发音样本。步骤3)当语音对话引擎得到用户的语音文本,并通过问答***生成文本回答内容。本发明的有益效果:利用强化学习,更好的形成相似声音句子,提高声音的润滑度,智能且用户友好。
Description
技术领域
本发明涉及语音融合领域,具体涉及一种基于原生发音强化学习的语音融合方法。
背景技术
人工智能的发展以及其在语音方面的应用,促进了语音合成技术、自然语言处理技术和语音识别技术的发展。而其中,语音合成是把计算机中任意出现的文字转换成自然流畅的语音输出。在语音对话问答中,语音合成的效果决定了用户体验的优劣。
传统技术存在以下技术问题:
目前市场的语音问答产品中,主要有两种语音交互方式。其一是采用播放录音的方式,这种方式对话固定僵硬,用户交流体验感差;其二是采用语音合成的方式,这种方式可以灵活的对话,但是仍然会存在合成的语音生硬的问题,使得用户聆听感差的问题。
发明内容
本发明要解决的技术问题是提供一种基于原生发音强化学习的语音融合方法,该方法结合了播放录音及语音合成的方法,融合出一个更优的语音合成效果,从而提高用户体验感。
为了解决上述技术问题,本发明提供了一种基于原生发音强化学习的语音融合方法,包括:
步骤1)对某声优的海量阅读内容进行完整句子切片,得到声音句集,之后对所有的声音句子集标定句子文本内容。
步骤2)按照每个句子的文本分词对声音句子进行切片,可以得到每个文本单词的不同发音样本。
步骤3)当语音对话引擎得到用户的语音文本,并通过问答***生成文本回答内容。
步骤4)计算文本回答内容与步骤一得到的文本集中句子相似度,获得最高相似度候选集;
步骤5)当候选集中某个句子的文本相似度高于阈值,则直接调用当前句子相应声音信号进行输出播放;
步骤6)否则调用基于序列的对话生成算法逐个替换候选句中的单词,并计算生成声音的润滑度,当生成的句子的文本相似度大于回答阈值,且润滑相似度高于用户接受度的时候,采用生成的声音信号进行输出播放;
步骤7)如果遍历完后任然未找到符合步骤五和步骤六的结果,则直接对回答文本进行分词,并采用词所对应的声音进行拼接形成语音信号并进行输出播放。
一种基于原生发音强化学习的语音融合***,包括:
模块1)数据预处理模块。包括对声优的海量阅读数据的获取存储,并且对得到的数据进行切片以及标记处理;
模块2)数据再处理模块。将模块1)形成的句子声音和其相应的文本标记存入数据库,并在此基础上进行再处理,包括对句子的分词,句子声音的再次切片以及对切片后的单词声音进行文本标记;
模块3)声音融合模块。根据模块(4)生成的回答文本,通过文本相似度算法匹配模块(2)中的文本数据集,从而生成候选集,再通过融合替换算法以及语音拼接形成输出的语音信号。
模块4)自动问答模块。该模块根据用户输入的语音问题,经由问答***,自动生成回答文本。
在其中一个实施例中,数据预处理具体包括:
步骤11)语音内容切片:根据人们说话的习惯,以及声音频谱的特点,进行句子识别,以及切片。若是未找到符合的切片要求,若不足预设时间,则不切片。据此得到声音句集{Sentencevoice}。
步骤12)文本标记句子:对于步骤11)切片获得的语音数据进行语音转文本操作,从而得到文本集{Sentencetext}。我们使声音句集和文本集一一对应,并将结果存入到非结构化数据库中,如MongoDB,从而获得句子声音-句子文本的数据库。
在其中一个实施例中,所述预设时间是5s。
在其中一个实施例中,所述再处理模块,涉及的步骤具体包括:
步骤21)文本句子分词:对于上述步骤12)获得的句子文本进行分词,从而得到词语集{Ws1,Ws2,...,Wsw}。
步骤22)语音句子切片:对于上述步骤11)获得的句子声音,根据每个句子的文本分词,再次切片,从而得到每个单词的发音样本{Wv1,Wv2,...,Wvw}。
步骤23)文本标记单词:将词语集和句子集一一对应的存储起来,从而得到词语声音-词语文本的数据库。
在其中一个实施例中,所述自动问答模块,涉及的步骤具体包括:
步骤41)语音转文本:将语音库中的数据经过首尾端的静音切除、声音分帧等的预处理,通过特征提取训练形成声学模型。将文本库中的数据经过训练形成语言模型。将用户输入的语音信号,利用声学模型、字典以及语言模型,通过语音解码和搜索算法形成文本输出。
步骤42)问答***:将有步骤41)得到的文本输入问答***中,通过文本相似度、知识库匹配等算法,获得最为接近的问题的答案或者获得知识对应的答案,将答案作为输出进入下一步。
步骤43)回答文本:这里指的是由步骤42)输出的结果,将该结果作为模块3的输入,记为Textanswer。
在其中一个实施例中,所述声音融合模块,涉及的步骤具体包括:
步骤31)候选集生成:基于步骤43)输入的回答文本,计算Textanswer在Sentencetext中的最高相似度候选集,从而得到{Sentence1,Sentence2,...,Sentences}。当候选集中某个Sentence的文本相似度高于阈值时,直接调用当前文本相应的声音Sentencevoice进行输出播放。否则,进行步骤32)。
步骤32)融合替换:调用基于序列的对话生成算法逐个替换候选Sentence中的单词,并计算生成句子的声音NSentencevoice的润滑度。当生成的句子的文本相似度大于回答阈值,并且其声音润滑相似度高于用户可接受度的时候,采用生成的NSentencevoice进行输出播放。否则,进行步骤33)。
步骤33)拼接语音信号:若遍历完后仍然未找到符合步骤31)以及32)的结果,则直接对Textanswer进行分词,并采用词word所对应的声音voice进行语音信号的拼接,并将拼接结果进行输出播放。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
本发明的有益效果:
利用强化学习,更好的形成相似声音句子,提高声音的润滑度,智能且用户友好。
附图说明
图1是本发明基于原生发音强化学习的语音融合的模块示意图。
图2是本发明基于原生发音强化学习的语音融合方法的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
图1为基于原生发音强化学习的语音融合方法的模块及流程示意图。概括来讲,该方法主要包括:
模块1)数据预处理模块。包括对声优的海量阅读数据的获取存储,并且对得到的数据进行切片以及标记处理;
模块2)数据再处理模块。将模块1)形成的句子声音和其相应的文本标记存入数据库,并在此基础上进行再处理,包括对句子的分词,句子声音的再次切片以及对切片后的单词声音进行文本标记;
模块3)声音融合模块。根据模块(4)生成的回答文本,通过文本相似度算法匹配模块(2)中的文本数据集,从而生成候选集,再通过融合替换算法以及语音拼接形成输出的语音信号。
模块4)自动问答模块。该模块根据用户输入的语音问题,经由问答***,自动生成回答文本。
上述方法中,在模块1)中,数据预处理具体包括:
步骤11)语音内容切片:根据人们说话的习惯,以及声音频谱的特点,进行句子识别,以及切片。若是未找到符合的切片要求,由于人们说一句话的时间大约是5秒,我们据此将语音内容按照5s的时长进行切片,若不足5秒则不切片。据此得到声音句集{Sentencevoice}。
步骤12)文本标记句子:对于步骤11)切片获得的语音数据进行语音转文本操作,从而得到文本集{Sentencetext}。。我们使声音句集和文本集一一对应,并将结果存入到非结构化数据库中,如MongoDB,从而获得句子声音-句子文本的数据库。
上述方法中,所述模块2)再处理模块,涉及的步骤具体包括:
步骤21)文本句子分词:对于上述步骤12)获得的句子文本进行分词,从而得到词语集{Ws1,Ws2,...,Wsw}。
步骤22)语音句子切片:对于上述步骤11)获得的句子声音,根据每个句子的文本分词,再次切片,从而得到每个单词的发音样本{Wv1,Wv2,...,Wvw}。
步骤23)文本标记单词:将词语集和句子集一一对应的存储起来,从而得到词语声音-词语文本的数据库。
上述方法中,所述模块4)自动问答模块,涉及的步骤具体包括:
步骤41)语音转文本:将语音库中的数据经过首尾端的静音切除、声音分帧等的预处理,通过特征提取训练形成声学模型。将文本库中的数据经过训练形成语言模型。将用户输入的语音信号,利用声学模型、字典以及语言模型,通过语音解码和搜索算法形成文本输出。
步骤42)问答***:将有步骤41)得到的文本输入问答***中,通过文本相似度、知识库匹配等算法,获得最为接近的问题的答案或者获得知识对应的答案,将答案作为输出进入下一步。
步骤43)回答文本:这里指的是由步骤42)输出的结果,将该结果作为模块3的输入,记为Textanswer。
上述方法中,所述模块3)声音融合模块,涉及的步骤具体包括:
步骤31)候选集生成:基于步骤43)输入的回答文本,计算Textanswer在Sentencetext中的最高相似度候选集,从而得到{Sentence1,Sentence2,...,Sentences}。当候选集中某个Sentence的文本相似度高于阈值时,直接调用当前文本相应的声音Sentencevoice进行输出播放。否则,进行步骤32)。
步骤32)融合替换:调用基于序列的对话生成算法逐个替换候选Sentence中的单词,并计算生成句子的声音NSentencevoice的润滑度。当生成的句子的文本相似度大于回答阈值,并且其声音润滑相似度高于用户可接受度的时候,采用生成的NSentencevoice进行输出播放。否则,进行步骤33)。
步骤33)拼接语音信号:若遍历完后仍然未找到符合步骤31)以及32)的结果,则直接对Textanswer进行分词,并采用词word所对应的声音voice进行语音信号的拼接,并将拼接结果进行输出播放。
参阅图2,基于原生发音强化学习的语音融合方法,所述方法包括:
步骤1)对某声优的海量阅读内容进行完整句子切片,得到声音句集,之后对所有的声音句子集标定句子文本内容。
步骤2)按照每个句子的文本分词对声音句子进行切片,可以得到每个文本单词的不同发音样本。
步骤3)当语音对话引擎得到用户的语音文本,并通过问答***生成文本回答内容。
步骤4)计算文本回答内容与步骤一得到的文本集中句子相似度,获得最高相似度候选集;
步骤5)当候选集中某个句子的文本相似度高于阈值,则直接调用当前句子相应声音信号进行输出播放;
步骤6)否则调用基于序列的对话生成算法逐个替换候选句中的单词,并计算生成声音的润滑度,当生成的句子的文本相似度大于回答阈值,且润滑相似度高于用户接受度的时候,采用生成的声音信号进行输出播放;
步骤7)如果遍历完后任然未找到符合步骤五和步骤六的结果,则直接对回答文本进行分词,并采用词所对应的声音进行拼接形成语音信号并进行输出播放。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。
Claims (6)
1.一种基于原生发音强化学习的语音融合方法,其特征在于,包括:
步骤1)对某声优的海量阅读内容进行完整句子切片,得到声音句集,之后对所有的声音句子集标定句子文本内容;
步骤2)按照每个句子的文本分词对声音句子进行切片,可以得到每个文本单词的不同发音样本;
步骤3)当语音对话引擎得到用户的语音文本,并通过问答***生成文本回答内容;
步骤4)计算文本回答内容与步骤一得到的文本集中句子相似度,获得最高相似度候选集;
步骤5)当候选集中某个句子的文本相似度高于阈值,则直接调用当前句子相应声音信号进行输出播放;
步骤6)否则调用基于序列的对话生成算法逐个替换候选句中的单词,并计算生成声音的润滑度,当生成的句子的文本相似度大于回答阈值,且润滑相似度高于用户接受度的时候,采用生成的声音信号进行输出播放;
步骤7)如果遍历完后任然未找到符合步骤五和步骤六的结果,则直接对回答文本进行分词,并采用词所对应的声音进行拼接形成语音信号并进行输出播放。
2.一种基于原生发音强化学习的语音融合***,其特征在于,包括:
模块1)数据预处理模块,所述数据预处理模块包括对声优的海量阅读数据的获取存储,并且对得到的数据进行切片以及标记处理;
模块2)数据再处理模块;所述数据再处理模块将模块1)形成的句子声音和其相应的文本标记存入数据库,并在此基础上进行再处理,包括对句子的分词,句子声音的再次切片以及对切片后的单词声音进行文本标记;
模块3)声音融合模块;所述声音融合模块根据模块(4)生成的回答文本,通过文本相似度算法匹配模块(2)中的文本数据集,从而生成候选集,再通过融合替换算法以及语音拼接形成输出的语音信号;
模块4)自动问答模块;所述自动问答模块该模块根据用户输入的语音问题,经由问答***,自动生成回答文本;
所述数据预处理模块,涉及的步骤具体包括:
步骤11)语音内容切片:根据人们说话的习惯,以及声音频谱的特点,进行句子识别,以及切片;若是未找到符合的切片要求,若不足预设时间,则不切片;据此得到声音句集{Sentencevoice};
步骤12)文本标记句子:对于步骤11)切片获得的语音数据进行语音转文本操作,从而得到文本集{Sentencetext},使声音句集和文本集一一对应,并将结果存入到非结构化数据库中,从而获得句子声音-句子文本的数据库;
所述数据再处理模块,涉及的步骤具体包括:
步骤21)文本句子分词:对于上述步骤12)获得的句子文本进行分词,从而得到词语集{Ws1,Ws2,...,Wsw};
步骤22)语音句子切片:对于上述步骤11)获得的句子声音,根据每个句子的文本分词,再次切片,从而得到每个单词的发音样本{Wv1,Wv2,...,Wvw};
步骤23)文本标记单词:将词语集和句子集一一对应的存储起来,从而得到词语声音-词语文本的数据库;
所述自动问答模块,涉及的步骤具体包括:
步骤41)语音转文本:将语音库中的数据经过首尾端的静音切除和声音分帧预处理,通过特征提取训练形成声学模型;将文本库中的数据经过训练形成语言模型;将用户输入的语音信号,利用声学模型、字典以及语言模型,通过语音解码和搜索算法形成文本输出;
步骤42)问答***:将有步骤41)得到的文本输入问答***中,通过文本相似度和知识库匹配算法,获得最为接近的问题的答案或者获得知识对应的答案,将答案作为输出进入下一步;
步骤43)回答文本:这里指的是由步骤42)输出的结果,将该结果作为模块3的输入,记为Textanswer;
所述声音融合模块,涉及的步骤具体包括:
步骤31)候选集生成:基于步骤43)输入的回答文本,计算Textanswer在Sentencetext中的最高相似度候选集,从而得到{Sentence1,Sentence2,...,Sentences};当候选集中某个Sentence的文本相似度高于阈值时,直接调用当前文本相应的声音Sentencevoice进行输出播放;否则,进行步骤32);
步骤32)融合替换:调用基于序列的对话生成算法逐个替换候选Sentence中的单词,并计算生成句子的声音NSentencevoice的润滑度;当生成的句子的文本相似度大于回答阈值,并且其声音润滑相似度高于用户可接受度的时候,采用生成的NSentencevoice进行输出播放;否则,进行步骤33);
步骤33)拼接语音信号:若遍历完后仍然未找到符合步骤31)以及32)的结果,则直接对Textanswer进行分词,并采用词word所对应的声音voice进行语音信号的拼接,并将拼接结果进行输出播放。
3.如权利要求2所述的基于原生发音强化学习的语音融合***,其特征在于,所述预设时间是5s。
4.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述方法的步骤。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1所述方法的步骤。
6.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667563.9A CN110310620B (zh) | 2019-07-23 | 2019-07-23 | 基于原生发音强化学习的语音融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910667563.9A CN110310620B (zh) | 2019-07-23 | 2019-07-23 | 基于原生发音强化学习的语音融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110310620A CN110310620A (zh) | 2019-10-08 |
CN110310620B true CN110310620B (zh) | 2021-07-13 |
Family
ID=68081677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910667563.9A Active CN110310620B (zh) | 2019-07-23 | 2019-07-23 | 基于原生发音强化学习的语音融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110310620B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883100B (zh) * | 2020-07-22 | 2021-11-09 | 马上消费金融股份有限公司 | 语音转换方法、装置及服务器 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779508A (zh) * | 2012-03-31 | 2012-11-14 | 安徽科大讯飞信息科技股份有限公司 | 语音库生成设备及其方法、语音合成***及其方法 |
CN104571485A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种基于Java Map的人机语音交互***及方法 |
CN106056207A (zh) * | 2016-05-09 | 2016-10-26 | 武汉科技大学 | 一种基于自然语言的机器人深度交互与推理方法与装置 |
CN109213856A (zh) * | 2018-10-22 | 2019-01-15 | 广东小天才科技有限公司 | 一种语义识别方法及*** |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答***实现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013186228A (ja) * | 2012-03-07 | 2013-09-19 | Seiko Epson Corp | 音声認識処理装置及び音声認識処理方法 |
-
2019
- 2019-07-23 CN CN201910667563.9A patent/CN110310620B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779508A (zh) * | 2012-03-31 | 2012-11-14 | 安徽科大讯飞信息科技股份有限公司 | 语音库生成设备及其方法、语音合成***及其方法 |
CN104571485A (zh) * | 2013-10-28 | 2015-04-29 | 中国科学院声学研究所 | 一种基于Java Map的人机语音交互***及方法 |
CN106056207A (zh) * | 2016-05-09 | 2016-10-26 | 武汉科技大学 | 一种基于自然语言的机器人深度交互与推理方法与装置 |
CN109213856A (zh) * | 2018-10-22 | 2019-01-15 | 广东小天才科技有限公司 | 一种语义识别方法及*** |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答***实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110310620A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108447486B (zh) | 一种语音翻译方法及装置 | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
CN108899009B (zh) | 一种基于音素的中文语音合成*** | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
WO2017067206A1 (zh) | 个性化多声学模型的训练方法、语音合成方法及装置 | |
CN109285537B (zh) | 声学模型建立、语音合成方法、装置、设备及存储介质 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
KR20230056741A (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
CN113658577B (zh) | 一种语音合成模型训练方法、音频生成方法、设备及介质 | |
CN110390928B (zh) | 一种自动拓增语料的语音合成模型训练方法和*** | |
CN110691258A (zh) | 一种节目素材制作方法、装置及计算机存储介质、电子设备 | |
CN106710585A (zh) | 语音交互过程中的多音字播报方法及*** | |
Cooper | Text-to-speech synthesis using found data for low-resource languages | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN114842826A (zh) | 语音合成模型的训练方法、语音合成方法及相关设备 | |
CN110310620B (zh) | 基于原生发音强化学习的语音融合方法 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
CN113593522A (zh) | 一种语音数据标注方法和装置 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
CN112634861B (zh) | 数据处理方法、装置、电子设备和可读存储介质 | |
CN114822489A (zh) | 文本转写方法和文本转写装置 | |
CN117597728A (zh) | 使用未完全训练的文本到语音模型的个性化和动态的文本到语音声音克隆 | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |