CN107731228A - 英文语音信息的文本转换方法和装置 - Google Patents

英文语音信息的文本转换方法和装置 Download PDF

Info

Publication number
CN107731228A
CN107731228A CN201710854473.1A CN201710854473A CN107731228A CN 107731228 A CN107731228 A CN 107731228A CN 201710854473 A CN201710854473 A CN 201710854473A CN 107731228 A CN107731228 A CN 107731228A
Authority
CN
China
Prior art keywords
english
target
text
voice messaging
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710854473.1A
Other languages
English (en)
Other versions
CN107731228B (zh
Inventor
程强
钱胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710854473.1A priority Critical patent/CN107731228B/zh
Publication of CN107731228A publication Critical patent/CN107731228A/zh
Priority to US16/044,926 priority patent/US10755701B2/en
Application granted granted Critical
Publication of CN107731228B publication Critical patent/CN107731228B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

本发明提出了一种英文语音信息的文本转换方法和装置,其中,方法包括:接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用目标语音识别模型标识英文语音信息的原始音素;应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配,确定匹配成功的目标音素;获取与目标音素对应的目标英文文本,并将目标英文文本显示在语音转换文本框中。由此,通过根据英文语音的发音进行注音,并对注音结果标准化处理后进行英文文本的转化,实现了对英文语音的识别,识别准确度高且扩展了语音识别的应用领域。

Description

英文语音信息的文本转换方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种英文语音信息的文本转换方法和装置。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家***等。其中,人工智能最重要的方面就是语音识别技术。
相关技术中,对用户的语音识别的技术集中在对用户输入的中文语音的识别,缺少对英文语音的识别技术。
发明内容
本发明旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的一个目的在于提出一种英文语音信息的文本转换方法,以解决现有技术中无法准确识别英文语音的技术问题。
本发明的第二个目的在于提出一种英文语音信息的文本转换装置。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种英文语音信息的文本转换方法,包括以下步骤:接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用所述目标语音识别模型标识所述英文语音信息的原始音素;应用对英文文本预先训练的注音模型和预设的概率模型对所述原始音素进行匹配,确定匹配成功的目标音素;获取与所述目标音素对应的目标英文文本,并将所述目标英文文本显示在语音转换文本框中。
本发明实施例的英文语音信息的文本转换方法,接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用目标语音识别模型标识英文语音信息的原始音素,应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配,确定匹配成功的目标音素,获取与目标音素对应的目标英文文本,并将目标英文文本显示在语音转换文本框中。由此,通过根据英文语音的发音进行注音,并对注音结果标准化处理后进行英文文本的转化,实现了对英文语音的识别,识别准确度高且扩展了语音识别的应用领域。
为达上述目的,本发明第二方面实施例提出了一种英文语音信息的文本转换装置,包括:确定模块,用于接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型;标识模块,用于应用所述目标语音识别模型标识所述英文语音信息的原始音素;匹配模块,用于应用对英文文本预先训练的注音模型和预设的概率模型对所述原始音素进行匹配,确定匹配成功的目标音素;获取模块,用于获取与所述目标音素对应的目标英文文本;显示模块,用于将所述目标英文文本显示在语音转换文本框中。
本发明实施例的英文语音信息的文本转换装置,接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用目标语音识别模型标识英文语音信息的原始音素,应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配,确定匹配成功的目标音素,获取与目标音素对应的目标英文文本,并将目标英文文本显示在语音转换文本框中。由此,通过根据英文语音的发音进行注音,并对注音结果标准化处理后进行英文文本的转化,实现了对英文语音的识别,识别准确度高且扩展了语音识别的应用领域。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述实施例所述的英文语音信息的文本转换方法。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得能够执行如上述实施例所述的英文语音信息的文本转换方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种如上述实施例所述的英文语音信息的文本转换方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的英文语音信息的文本转换方法的流程图;
图2是根据本发明另一个实施例的英文语音信息的文本转换方法的流程图;
图3是根据本发明一个实施例的英文语音信息的文本转换装置的结构示意图;
图4是根据本发明另一个实施例的英文语音信息的文本转换装置的结构示意图;以及
图5是根据本发明一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的英文语音信息的文本转换方法和装置。
由于相关技术中,集中在中文的文本结构等对中文语音进行识别,而英文的结构以及发音与中文区别较大,采用对中文语音识别的技术对英文语音进行识别,准确度不高、误差较大。
为了解决上述技术问题,本发明提出了一种针对英文语音进行识别的技术,提高了英文语音识别的准确度。
图1是根据本发明一个实施例的英文语音信息的文本转换方法的流程图,如图1所示,该英文语音信息的文本转换方法包括:
步骤101,接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用目标语音识别模型标识英文语音信息的原始音素。
在本发明的实施例中,根据应用场景的不同,可采用不同的方式接收到用户输入的英文语音信息,作为一种可能的实现方式,通过终端设备中的麦克风等语音装置实时接收用户的英文语音信息,作为另一种可能的实现方式,根据用户的选择,提取用户录音中的英文语音信息。
具体而言,在本发明的实施例中,接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用目标语音识别模型标识英文语音信息的原始音素,其中,原始音素是英文发音的最小单位,由此,基于英文发音的结构进行注音,且基于预先设置的目标语音识别模型对英文语音本身进行注音识别,相较于直接根据对接收到的英文语音进行文本转换等方式进行识别,误差较小。
需要说明的是,根据应用场景的不同,上述确定目标语音识别模型的预设算法不同,举例说明如下:
作为一种可能的实现方式,预设的算法为深度学习算法,深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务,深度学习算法是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征,准确度和效率较高。
具体而言,在本示例中,应用深度学习算法对汉语音素标识的英文词样本集进行训练,生成第一语音识别模型,应用深度学习算法对英语音素标识的英文词样本集进行训练,生成第二语音识别模型,从而,将发音不标准而偏向于中文发音以及偏向标准的英文的语音,对应到不同的语音识别模型进行识别,避免了在一些应用场景下,发音带有中文口音时识别不标准的问题,通过上述第一语音识别模型和第二语音识别模型,既可准确识别出该语音中的标准英文语音,也可以准确识别出该语音中的偏向中文发音的语音。
在本发明的另一个实施例中,当一段语音仅仅包含发音标准的英文语音或偏向于中文发音的英文语音时,可以根据与第一语音识别模型和第二语音识别模型的匹配概率,确定出当前场景中所需要的语音识别模型。
如图2所示,确定出当前场景中所需要的语音识别模型的步骤为:
步骤201,提取英文语音信息的发音特征信息。
其中,上述发音特征信息包括发音的音标、停顿、重音、轻音等。
具体而言,可以采用声音分析算法提取出英文语音信息的发音特征信息,或者,可以预先设置神经网络分析模型等,通过将该英文语音输入预先设置的神经网络分析模型,得到该模型输出的发音特征信息。
步骤202,根据发音特征信息计算与第一语音识别模型匹配的第一概率,以及与第二语音识别模型匹配的第二概率。
具体地,为了确定当前英文语音最匹配的语音识别模型,分别将发音特征信息与第一语音识别模型和第二语音识别模型匹配,根据发音特征信息计算与第一语音识别模型匹配的第一概率,以及与第二语音识别模型匹配的第二概率。
步骤203,根据第一概率和第二概率确定目标语音识别模型。
具体而言,在本发明的一个实施例中,如果根据发音特征信息计算与第一语音识别模型匹配的第一概率,大于根据发音特征信息计算与第二语音识别模型匹配的第二概率,则表明当前英文语音发音不标准,偏向于中文语音,从而,使用第一语音识别作为目标语音识别模型。
在本发明的一个实施例中,如果根据发音特征信息计算与第一语音识别模型匹配的第一概率,小于等于根据发音特征信息计算与第二语音识别模型匹配的第二概率,则表明当前英文语音包含的内容为发音标准的英文语音,从而,使用第二语音识别作为目标语音识别模型。
步骤102,应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配,确定匹配成功的目标音素。
可以理解,预先根据大量英文文本训练并生成注音模型,从而,该注音模型可以将确定的英文语音信息发音不标准的原始音素转换为较为标准的目标音素。
当然,在本示例中,有可能对一些发音较为模糊的原始音素,不能匹配出唯一的目标音素,可能与其对应的目标音素有多个,此时,借助于预先设置的概率模型确定原始音素与多个目标音素中,与每一个目标音素的匹配概率,以根据该匹配概率确定出发音最为相近的目标音素。
继续以上述对汉语音素标识的英文词样本集进行训练,生成第一语音识别模型,以及,应用深度学习算法对英语音素标识的英文词样本集进行训练,生成第二语音识别模型为例,说明如何应用目标语音识别模型标识英文语音信息的原始音素,应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配,说明如下:
应用第一语音识别模型标识与英文语音信息对应的汉语原始音素,应用对英文文本预先训练的汉语音素注音模型和预设的概率模型对原始音素进行匹配。
也就是说,在本示例中,当英文语音发音带有中文发音的口音时,应用第一语音识别模型标识与英文语音信息对应的汉语原始音素,应用对英文文本预先训练的汉语音素注音模型和预设的概率模型对原始音素进行匹配。
或者,
应用第二语音识别模型标识与英文语音信息对应的英语原始音素,应用对英文文本预先训练的英语音素注音模型和预设的概率模型对原始音素进行匹配。
也就是说,在本示例中,当英文语音发音偏向于标准的英文发音时,应用第二语音识别模型标识与英文语音信息对应的汉语原始音素,应用对英文文本预先训练的汉语音素注音模型和预设的概率模型对原始音素进行匹配。
步骤103,获取与目标音素对应的目标英文文本,并将目标英文文本显示在语音转换文本框中。
具体地,在确定出目标音素后,获取与目标音素对应的目标英文文本,并将目标英文文本显示在语音转换文本框中,从而完成了英文语音从注音到转换为文本的识别过程,由于该过程预先对原始音素进行了到标准的目标音素转换后,再根据目标音素转换为对应的目标英文文本,实现了对于英文词注音的学习和标注,能够较好的得到新出现的英文词的发音,提高了后续识别***进行语音识别的准确度。
需要强调的是,由于英文发音的特殊性,在实际应用中,可能确定匹配成功的目标音素位于多个不同的英文词组,和/或,多个不同的英文字母中,此时,将与目标音素对应的多个不同的英文词组,和/或,多个不同的英文字母按照发音顺序进行组合,生成目标英文文本。
综上所述,本发明实施例的英文语音信息的文本转换方法,接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用目标语音识别模型标识英文语音信息的原始音素,应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配,确定匹配成功的目标音素,获取与目标音素对应的目标英文文本,并将目标英文文本显示在语音转换文本框中。由此,通过根据英文语音的发音进行注音,并对注音结果标准化处理后进行英文文本的转化,实现了对英文语音的识别,识别准确度高且扩展了语音识别的应用领域。
为了实现上述实施例,本发明还提出一种英文语音信息的文本转换装置,图3是根据本发明一个实施例的英文语音信息的文本转换装置的结构示意图,如图3所示,该英文语音信息的文本转换装置包括:确定模块100、标识模块200、匹配模块300、获取模块400和显示模块500。其中,确定模块100,用于接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型。
标识模块200,用于应用目标语音识别模型标识英文语音信息的原始音素。
匹配模块300,用于应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配,确定匹配成功的目标音素。
获取模块400,用于获取与目标音素对应的目标英文文本。
显示模块500,用于将目标英文文本显示在语音转换文本框中。
进一步地,如图4所示,在如图3所示的基础上,本发明实施例的英文语音信息的文本转换装置还包括第一生成模块600和第二生成模块700。
其中,第一生成模块600,用于应用深度学习算法对汉语音素标识的英文词样本集进行训练,生成第一语音识别模型。
第二生成模块700,用于应用深度学习算法对英语音素标识的英文词样本集进行训练,生成第二语音识别模型。
需要说明的是,前述对英文语音信息的文本转换方法实施例的解释说明也适用于该实施例的英文语音信息的文本转换装置,本发明英文语音信息的文本转换装置实施例中未公布的细节,此处不再赘述。
综上所述,本发明实施例的英文语音信息的文本转换装置,接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用目标语音识别模型标识英文语音信息的原始音素,应用对英文文本预先训练的注音模型和预设的概率模型对原始音素进行匹配,确定匹配成功的目标音素,获取与目标音素对应的目标英文文本,并将目标英文文本显示在语音转换文本框中。由此,通过根据英文语音的发音进行注音,并对注音结果标准化处理后进行英文文本的转化,实现了对英文语音的识别,识别准确度高且扩展了语音识别的应用领域。
为了实现上述实施例,本发明还提出了一种计算机设备,图5是根据本发明一个实施例的计算机设备的结构示意图。如图5所示,存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。
处理器22执行所述程序时实现上述实施例中提供的英文语音信息的文本转换方法。
进一步地,计算机设备还包括:
通信接口23,用于存储器21和处理器22之间的通信。
存储器21,用于存放可在处理器22上运行的计算机程序。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器22,用于执行所述程序时实现上述实施例所述的英文语音信息的文本转换方法。
如果存储器21、处理器22和通信接口23独立实现,则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23,集成在一块芯片上实现,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
处理器22可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得能够执行如上述实施例所述的英文语音信息的文本转换方法。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行如上述实施例所述的英文语音信息的文本转换方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种英文语音信息的文本转换方法,其特征在于,包括以下步骤:
接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型,应用所述目标语音识别模型标识所述英文语音信息的原始音素;
应用对英文文本预先训练的注音模型和预设的概率模型对所述原始音素进行匹配,确定匹配成功的目标音素;
获取与所述目标音素对应的目标英文文本,并将所述目标英文文本显示在语音转换文本框中。
2.如权利要求1所述的方法,其特征在于,在所述根据预设算法确定目标语音识别模型之前,还包括:
应用深度学习算法对汉语音素标识的英文词样本集进行训练,生成第一语音识别模型,以及,
应用深度学习算法对英语音素标识的英文词样本集进行训练,生成第二语音识别模型。
3.如权利要求2所述的方法,其特征在于,所述根据预设算法确定目标语音识别模型,包括:
提取所述英文语音信息的发音特征信息;
根据所述发音特征信息计算与所述第一语音识别模型匹配的第一概率,以及与所述第二语音识别模型匹配的第二概率;
根据所述第一概率和所述第二概率确定目标语音识别模型。
4.如权利要求2所述的方法,其特征在于,所述应用所述目标语音识别模型标识所述英文语音信息的原始音素,应用对英文文本预先训练的注音模型和预设的概率模型对所述原始音素进行匹配,包括:
应用所述第一语音识别模型标识与所述英文语音信息对应的汉语原始音素;
应用对英文文本预先训练的汉语音素注音模型和预设的概率模型对所述原始音素进行匹配;
或者,
应用所述第二语音识别模型标识与所述英文语音信息对应的英语原始音素;
应用对英文文本预先训练的英语音素注音模型和预设的概率模型对所述原始音素进行匹配。
5.如权利要求1所述的方法,其特征在于,若确定匹配成功的目标音素位于多个不同的英文词组,和/或,多个不同的英文字母中,所述获取与所述目标音素对应的目标英文文本,包括:
将与所述目标音素对应的多个不同的英文词组,和/或,多个不同的英文字母按照发音顺序进行组合,生成所述目标英文文本。
6.一种英文语音信息的文本转换装置,其特征在于,包括:
确定模块,用于接收用户输入的英文语音信息,根据预设算法确定目标语音识别模型;
标识模块,用于应用所述目标语音识别模型标识所述英文语音信息的原始音素;
匹配模块,用于应用对英文文本预先训练的注音模型和预设的概率模型对所述原始音素进行匹配,确定匹配成功的目标音素;
获取模块,用于获取与所述目标音素对应的目标英文文本;
显示模块,用于将所述目标英文文本显示在语音转换文本框中。
7.如权利要求6所述的装置,其特征在于,还包括:
第一生成模块,用于应用深度学习算法对汉语音素标识的英文词样本集进行训练,生成第一语音识别模型;
第二生成模块,用于应用深度学习算法对英语音素标识的英文词样本集进行训练,生成第二语音识别模型。
8.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-5中任一所述的英文语音信息的文本转换方法。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的英文语音信息的文本转换方法。
10.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-5中任一所述的英文语音信息的文本转换方法。
CN201710854473.1A 2017-09-20 2017-09-20 英文语音信息的文本转换方法和装置 Active CN107731228B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710854473.1A CN107731228B (zh) 2017-09-20 2017-09-20 英文语音信息的文本转换方法和装置
US16/044,926 US10755701B2 (en) 2017-09-20 2018-07-25 Method and apparatus for converting English speech information into text

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710854473.1A CN107731228B (zh) 2017-09-20 2017-09-20 英文语音信息的文本转换方法和装置

Publications (2)

Publication Number Publication Date
CN107731228A true CN107731228A (zh) 2018-02-23
CN107731228B CN107731228B (zh) 2020-11-03

Family

ID=61206381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710854473.1A Active CN107731228B (zh) 2017-09-20 2017-09-20 英文语音信息的文本转换方法和装置

Country Status (2)

Country Link
US (1) US10755701B2 (zh)
CN (1) CN107731228B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108962228A (zh) * 2018-07-16 2018-12-07 北京百度网讯科技有限公司 模型训练方法和装置
CN109147767A (zh) * 2018-08-16 2019-01-04 平安科技(深圳)有限公司 语音中的数字识别方法、装置、计算机设备及存储介质
CN109461459A (zh) * 2018-12-07 2019-03-12 平安科技(深圳)有限公司 语音评分方法、装置、计算机设备及存储介质
CN110232917A (zh) * 2019-05-21 2019-09-13 平安科技(深圳)有限公司 基于人工智能的语音登陆方法、装置、设备和存储介质
CN110349567A (zh) * 2019-08-12 2019-10-18 腾讯科技(深圳)有限公司 语音信号的识别方法和装置、存储介质及电子装置
WO2020057624A1 (zh) * 2018-09-20 2020-03-26 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
CN111261144A (zh) * 2019-12-31 2020-06-09 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
CN111373473A (zh) * 2018-03-05 2020-07-03 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
CN112068793A (zh) * 2019-06-11 2020-12-11 北京搜狗科技发展有限公司 一种语音输入方法及装置
CN112837674A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 语音识别方法、装置及相关***和设备
CN113160804A (zh) * 2021-02-26 2021-07-23 深圳市北科瑞讯信息技术有限公司 混合语音的识别方法及装置、存储介质、电子装置
CN113345442A (zh) * 2021-06-30 2021-09-03 西安乾阳电子科技有限公司 语音识别方法、装置、电子设备及存储介质
WO2022105235A1 (zh) * 2020-11-18 2022-05-27 华为技术有限公司 一种信息识别方法、装置及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539247B (zh) * 2020-04-14 2024-06-18 京东科技控股股份有限公司 语音数据处理方法、装置、设备及计算机可读存储介质
CN112071299B (zh) * 2020-09-09 2024-07-19 腾讯音乐娱乐科技(深圳)有限公司 神经网络模型训练方法、音频生成方法及装置和电子设备
CN112216270B (zh) * 2020-10-09 2024-02-06 携程计算机技术(上海)有限公司 语音音素的识别方法及***、电子设备及存储介质
CN112382267A (zh) * 2020-11-13 2021-02-19 北京有竹居网络技术有限公司 用于转换口音的方法、装置、设备以及存储介质
CN112509609B (zh) * 2020-12-16 2022-06-10 北京乐学帮网络技术有限公司 音频处理方法、装置、电子设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101415259A (zh) * 2007-10-18 2009-04-22 三星电子株式会社 嵌入式设备上基于双语语音查询的信息检索***及方法
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
JP4962962B2 (ja) * 2007-09-11 2012-06-27 独立行政法人情報通信研究機構 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
CN103827962A (zh) * 2011-09-09 2014-05-28 旭化成株式会社 声音识别装置
US20140303961A1 (en) * 2013-02-08 2014-10-09 Machine Zone, Inc. Systems and Methods for Multi-User Multi-Lingual Communications
CN104240703A (zh) * 2014-08-21 2014-12-24 广州三星通信技术研究有限公司 语音信息处理方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4962962B2 (ja) * 2007-09-11 2012-06-27 独立行政法人情報通信研究機構 音声認識装置、自動翻訳装置、音声認識方法、プログラム、及びデータ構造
CN101415259A (zh) * 2007-10-18 2009-04-22 三星电子株式会社 嵌入式设备上基于双语语音查询的信息检索***及方法
CN101447184A (zh) * 2007-11-28 2009-06-03 中国科学院声学研究所 基于音素混淆的中英文双语语音识别方法
CN101826325A (zh) * 2010-03-10 2010-09-08 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN103827962A (zh) * 2011-09-09 2014-05-28 旭化成株式会社 声音识别装置
US20140303961A1 (en) * 2013-02-08 2014-10-09 Machine Zone, Inc. Systems and Methods for Multi-User Multi-Lingual Communications
CN104240703A (zh) * 2014-08-21 2014-12-24 广州三星通信技术研究有限公司 语音信息处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈嘉华: "《基于深度学习的英语语音识别与发音质量评价》", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111373473B (zh) * 2018-03-05 2023-10-20 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
CN111373473A (zh) * 2018-03-05 2020-07-03 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
CN108962228A (zh) * 2018-07-16 2018-12-07 北京百度网讯科技有限公司 模型训练方法和装置
CN108962228B (zh) * 2018-07-16 2022-03-15 北京百度网讯科技有限公司 模型训练方法和装置
CN109147767A (zh) * 2018-08-16 2019-01-04 平安科技(深圳)有限公司 语音中的数字识别方法、装置、计算机设备及存储介质
CN110931000B (zh) * 2018-09-20 2022-08-02 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
WO2020057624A1 (zh) * 2018-09-20 2020-03-26 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
CN110931000A (zh) * 2018-09-20 2020-03-27 杭州海康威视数字技术股份有限公司 语音识别的方法和装置
CN109461459A (zh) * 2018-12-07 2019-03-12 平安科技(深圳)有限公司 语音评分方法、装置、计算机设备及存储介质
CN110232917A (zh) * 2019-05-21 2019-09-13 平安科技(深圳)有限公司 基于人工智能的语音登陆方法、装置、设备和存储介质
CN112068793A (zh) * 2019-06-11 2020-12-11 北京搜狗科技发展有限公司 一种语音输入方法及装置
CN110349567B (zh) * 2019-08-12 2022-09-13 腾讯科技(深圳)有限公司 语音信号的识别方法和装置、存储介质及电子装置
CN110349567A (zh) * 2019-08-12 2019-10-18 腾讯科技(深圳)有限公司 语音信号的识别方法和装置、存储介质及电子装置
CN112837674A (zh) * 2019-11-22 2021-05-25 阿里巴巴集团控股有限公司 语音识别方法、装置及相关***和设备
CN112837674B (zh) * 2019-11-22 2024-06-11 阿里巴巴集团控股有限公司 语音识别方法、装置及相关***和设备
WO2021135611A1 (zh) * 2019-12-31 2021-07-08 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
CN111261144B (zh) * 2019-12-31 2023-03-03 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
CN111261144A (zh) * 2019-12-31 2020-06-09 华为技术有限公司 一种语音识别的方法、装置、终端以及存储介质
WO2022105235A1 (zh) * 2020-11-18 2022-05-27 华为技术有限公司 一种信息识别方法、装置及存储介质
CN113160804A (zh) * 2021-02-26 2021-07-23 深圳市北科瑞讯信息技术有限公司 混合语音的识别方法及装置、存储介质、电子装置
CN113345442A (zh) * 2021-06-30 2021-09-03 西安乾阳电子科技有限公司 语音识别方法、装置、电子设备及存储介质
CN113345442B (zh) * 2021-06-30 2024-06-04 西安乾阳电子科技有限公司 语音识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20190088253A1 (en) 2019-03-21
CN107731228B (zh) 2020-11-03
US10755701B2 (en) 2020-08-25

Similar Documents

Publication Publication Date Title
CN107731228A (zh) 英文语音信息的文本转换方法和装置
CN108447486B (zh) 一种语音翻译方法及装置
CN110211563B (zh) 面向情景及情感的中文语音合成方法、装置及存储介质
CN112086086B (zh) 语音合成方法、装置、设备及计算机可读存储介质
CN107679033A (zh) 文本断句位置识别方法和装置
CN109686361B (zh) 一种语音合成的方法、装置、计算设备及计算机存储介质
CN108984529A (zh) 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN106227721B (zh) 汉语韵律层级结构预测***
US8676574B2 (en) Method for tone/intonation recognition using auditory attention cues
CN112233646B (zh) 基于神经网络的语音克隆方法、***、设备及存储介质
CN109523989A (zh) 语音合成方法、语音合成装置、存储介质及电子设备
CN110767213A (zh) 一种韵律预测方法及装置
KR20190046371A (ko) 얼굴 표정 생성 장치 및 방법
CN108536670A (zh) 输出语句生成装置、方法和程序
CN107122492A (zh) 基于图片内容的歌词生成方法和装置
KR102258906B1 (ko) 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치
CN112599113B (zh) 方言语音合成方法、装置、电子设备和可读存储介质
CN112634866B (zh) 语音合成模型训练和语音合成方法、装置、设备及介质
CN113707125A (zh) 一种多语言语音合成模型的训练方法及装置
CN107193941A (zh) 基于图片内容的故事生成方法和装置
CN111951781A (zh) 一种基于图到序列的中文韵律边界预测的方法
CN111599339A (zh) 具有高自然度的语音拼接合成方法、***、设备及介质
CN116597809A (zh) 多音字消歧方法、装置、电子设备及可读存储介质
CN116029303A (zh) 语言表达方式识别方法、装置、电子设备和存储介质
CN114170997A (zh) 发音技巧检测方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant