CN112927676A - 一种语音信息的获取方法、装置、设备和存储介质 - Google Patents

一种语音信息的获取方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112927676A
CN112927676A CN202110179774.5A CN202110179774A CN112927676A CN 112927676 A CN112927676 A CN 112927676A CN 202110179774 A CN202110179774 A CN 202110179774A CN 112927676 A CN112927676 A CN 112927676A
Authority
CN
China
Prior art keywords
language
foreign
word
information
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110179774.5A
Other languages
English (en)
Inventor
顾宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202110179774.5A priority Critical patent/CN112927676A/zh
Publication of CN112927676A publication Critical patent/CN112927676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/086Detection of language

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本公开实施例公开了一种语音信息的获取方法、装置、设备和存储介质,该方法包括:获取第一语言的文本语料,并判断文本语料中是否包括第二语言的外来词;若文本语料中包括第二语言的外来词,则获取外来词在第二语言中的音素信息;根据第一语言与第二语言的音素关联关系,以及外来词在第二语言中的音素信息,获取外来词在第一语言中的音素信息。本公开实施例公开的技术方案,最终获取到的外来词的音素信息,既接近该词汇在源语言体系下的读音,又符合当前语言体系下的发音习惯,提高了文本语料转化为语音信息的语音合成效果。

Description

一种语音信息的获取方法、装置、设备和存储介质
技术领域
本公开实施例涉及语音合成技术,尤其涉及一种语音信息的获取方法、装置、设备和存储介质。
背景技术
随着科学技术的不断进步,语音合成技术得到了迅速发展,通过语音合成技术,可以将大量的文字资料转换为了语音资料,为人们的社会生活带来了极大便利。
在获取到文字资料后,通常是根据该文字资料的语言类型,借助该语言类型下文字与音素的对应规则,直接合成对应的语音资料;但是这样的获取方式,往往将文本语料中的外来词,按照与文本资料的语言类型对应的发音规则进行合成,并未考虑该外来词在其源语言体系中的读音,常常导致外来词的读音与其自身在源语言下的读音差距较大,无法真实反应其实际读音,语音合成的准确性较差。
发明内容
本公开提供了一种语音信息的获取方法、装置、设备和存储介质,以获取文本语料的语音信息。
第一方面,本公开实施例提供了一种语音信息的获取方法,包括:
获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词;
若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息;
根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
第二方面,本公开实施例提供了一种语音信息的获取装置,包括:
外来词判断模块,用于获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词;
第一音素信息获取模块,用于若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息;
第二音素信息获取模块,用于根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
第三方面,本公开实施例提供了一种电子设备,包括存储器、处理装置及存储在存储器上并可在处理装置上运行的计算机程序,处理装置执行程序时实现本公开任意实施例的语音信息的获取方法。
第四方面,本公开实施例提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行本公开任意实施例的语音信息的获取方法。
本公开实施例公开的技术方案,在第一语言的文本语料中包括第二语言的外来词时,根据该外来词在所述第二语言中的音素信息,以及第一语言与第二语言的音素关联关系,获取到该外来词在第一语言中的音素信息,使得最终获取到的外来词的音素信息,既接近该词汇在源语言体系下的读音,又符合当前语言体系下的发音习惯,提高了文本语料转化为语音信息的语音合成效果。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1是本公开一种语音信息的获取方法的一个实施例的流程图;
图2是本公开实施例二中的一种语音信息的获取装置的结构框图;
图3是本公开实施例三中的一种电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
实施例一
图1是本公开实施例一提供的一种语音信息的获取方法的流程图,本实施例可适用于在获取文本语料中的外来词,在当前语言下的音素信息,该方法可以由本公开实施例中的语音信息的获取装置来执行,该装置可以通过软件和/或硬件实现,并集成在电子设备中,该方法具体包括如下步骤:
S110、获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词。
文本语料的来源众多,可以是电子书籍、期刊杂志和网页等刊登的文本信息,也可以是用户针对某个事件发表的言论信息,还可以是通过问卷调查获取的用户问答结果,在本公开实施例中,可选的,对文本语料的来源不作具体限定。不同的语言中,都会出现一定数量的外来词,即从其他语言音译或直译而来的词,而这些词并不是当前语言下的标准词,例如,人名、地名、机构名称和专有名词等,以第一语言为英语,第二语言为汉语为例,英语语言中存在多个以汉语的拼音词来表示的事物,例如,英语语言中将汉语的“北京”翻译为“Beijing”,显然其直接使用了汉语拼音作为地名名称;英语语言中将汉语的“清华”翻译为“Tsinghua”,显然其根据汉语拼音的音译而来,但上述词汇并不是英语语言下的标准词汇;因此,可以通过第一语言的词典,将词典之外的词作为第二语言的外来词,也可以通过第一语言下第二语言的外来词库,来判断文本语料中是否存在第二语言的外来词。
可选的,在本公开实施例中,所述判断所述文本语料中是否包括第二语言的外来词,包括:根据文本分类模型以及命名实体识别模型,判断所述文本语料中是否包括第二语言的外来词;或根据文本分类模型,判断所述文本语料中是否包括第二语言的外来词。文本分类模型,是预先训练完成并用于文本识别及分类的模型,其作用在于针对输入的文本信息,进行文本特征的提取,并获取特征向量;其中,文本特征是表示文本内容的基本单位,可以将文本信息中的字或词作为该文本信息的文本特征,而特征向量则是文本特征量化表示的结果,通常为多维度的特征向量;在获取到待识别文本信息的特征向量后,通过对特征向量的识别,输出文本信息中各文本内容(即字或词)为第二语言的外来词的概率,进而根据概率进行分类(即二值分类),以确定文本信息中哪些词为外来词。
可选的,在本公开实施例中,所述文本分类模型包括基于Transformer架构的神经网络模型、卷积神经网络模型和/或循环神经网络模型。循环神经网络(Recurrent NeuralNetwork,RNN),是以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点按链式连接的递归神经网络(recursive neural network),其特点在于将前后输入的连续信息作为关联信息,保证文本信息的内容连贯性;卷积神经网络(Convolutional Neural Networks,CNN)是深度学习(Deep Learning)中包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),其特点在于卷积运算的应用提高了文本特征的提取精度,池化层的应用则降低了文本特征的计算复杂度;Transformer架构是一种Attention(注意力)机制的Encoder(编码)-Decoder(解码)结构,包括多个相互堆叠的Encoder层和多个相互堆叠Decoder层,并通过与末层Decoder层连接的输出层输出结果,其特点在于将文本信息中的各字符均看作等距离字符,而并非仅根据字符位置将字符位置相近的字符作为相关性字符,保证了每个字符的独立性。特别的,还可以根据上述三种神经网络模型的输出结果共同判断文本语料中是否包括第二语言的外来词,例如,通过上述三种神经网络模型分别对文本语料进行文本分类,当上述三个神经网络模型或任意两个神经网络模型判断某词汇为第二语言的外来词时,则将该词汇确定为第二语言的外来词;还可以将上述三种神经网络模型输出的分类概率进行累加,再根据概率累加结果进行分类。
每种语言都包括自己的语言体系,而外来词通常为自己的语言体系中未涉及的事物,因此,外来词通常为实体名称(例如,人名、地名、机构名称和专有名词等),因此,为了提高获取文本语料中外来词的准确性,还可以通过命名实体识别模型获取文本语料中的命名实体,并根据文本分类模型和命名实体识别模型,共同判断所述文本语料中是否包括第二语言的外来词;即将文本分类模型对外来词的预测结果,与命名实体识别模型识别出的命名实体的交集,作为第二语言的外来词。其中,命名实体识别(Named Entity Recognition,NER),是识别文本中具有特定意义的实体,包括实体类(例如,人名、机构名、地名和专有名词等)、时间类和数字类(例如,日期、货币和百分比),命名实体的识别包括实体边界的识别以及实体类别的划分。
可选的,在本公开实施例中,所述命名实体识别模型包括隐马尔可夫模型、最大熵马尔可夫模型、条件随机场模型和/或深度学习模型。隐马尔可夫模型(Hidden MarkovModel,HMM),是用于描述含有隐含未知参数的马尔可夫过程的统计模型,通过从可观察的参数中确定过程中的隐含参数,对于过程中的状态预测效果较好,其训练时的收敛速度和应用时的识别速度均较快,具有实时性好的特点;最大熵马尔可夫模型(Maximum EntropyMarkov Model,MEMM)具有结构紧凑以及通用性较强的特点;条件随机场(conditionalrandom field,CRF)模型,则为命名实体提供了特征灵活,且全局最优的标注框架,识别准确性较高。命名实体识别模型还包括深度学习(Deep Learning)模型,例如,长短时记忆网络结合条件随机场模型,或者双向长短时记忆网络结合条件随机场模型;其中,长短时记忆网络(LSTM,Long Short-Term Memory),是一种时间循环神经网络,适用于处理和预测时间序列中间隔和延迟相对较长的重要事件;双向长短时记忆网络(Bidirectional LongShort-Term Memory,BLSTM),则由两个循环神经网络(Recurrent Neural Network,RNN)组成,正向的RNN和逆序的RNN组成。
S120、若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息。
音素(phone),是根据语音的自然属性划分的最小语音单位,依据音节里的发音动作进行分解,一个动作构成一个音素,音素分为元音与辅音两类;以汉语语言为例,“啊(ā)”包括一个音素,“爱(ài)”包括两个音素,“代(dài)”包括三个音素;在确定文本语料中包括第二语言的外来词后,可以获取到该外来词在第二语言中的音素信息。
可选的,在本公开实施例中,所述获取所述外来词在所述第二语言中的音素信息,包括:根据所述第二语言的词典信息,判断所述外来词是否为所述第二语言中的标准词;其中,所述第二语言的词典信息包括第二语言中字符与音素信息的对应关系;若确定所述外来词是所述第二语言中的标准词,则根据所述第二语言的词典信息,获取所述外来词在所述第二语言中的音素信息。词典信息包括了该语言下字符与音素信息的对应关系,以汉语语言为例,汉语的词典信息中包括了所有的拼音字符以及对应的音素信息,根据汉语的词典信息可以确定,该外来词是否为汉语中的标准拼音信息,例如,获取到的外来词为“Beijing”,显然该词汇与汉语拼音的“beijing”一致,可以通过“bei”和“jing”的组合获取到该外来词,因此,外来词“Beijing”为汉语词典中的标准拼音信息,据此,可以直接获取到外来词“Beijing”在汉语中的音素信息,即获取汉语语言中拼音“beijing”的音素信息。
可选的,在本公开实施例中,在判断所述外来词是否为所述第二语言中的标准词后,包括:若确定所述外来词不是所述第二语言中的标准词,则根据所述第一语言与所述第二语言的字符关联关系,获取所述第二语言中与所述外来词对应的关联标准词;根据所述第二语言的词典信息,获取所述关联标准词在所述第二语言中的音素信息,并作为所述外来词在所述第二语言中的音素信息。如果该外来词在第二语言的词典中,不能获取到完全一致的词汇信息,那么该外来词即为第二语言下的非标准词,例如,英语语言中的外来词“Tsinghua”,在汉语语言的词典中不存在完全一致的拼音信息,那么根据英语语言(即第一语言)与汉语拼音(即第二语言)的字符对照关系,将第一语言中的“Ts”对应第二语言中的“q”,即将英语语言中的外来词“Tsinghua”,对应汉语拼音中的“qinghua”,也即将“qinghua”作为“Tsinghua”在汉语语言中最相近的标准词,进而获取“qinghua”的音素信息;特别的,第一语言与所述第二语言的字符对照关系反应了两种语言中,字符之间的对应关系,仍然以第一语言为英语,第二语言为汉语为例,汉语拼音总共包括23个声母、24个韵母和16个整体认读音节,不同的英语字符可以对应相同的汉语拼音字符,例如,英语字符中的“q”可以对应汉语拼音中的“q”,而英语字符中的“Ts”同样可以对应汉语音频中的“q”;据此,获取到的英语字符,均可以在汉语拼音中找到对应的汉语拼音字符。
S130、根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
外来词在第二语言中的音素信息,虽然反应了该词汇在源语言体系中的读音,但是不一定符合第一语言体系下的发音习惯,因此,该外来词在源语言体系下的读音,不一定适合直接作为当前语言体系的读音,例如,上述技术方案中英语语言中的外来词“Beijing(北京)”其标准读音应为“běi jīng”,但在英语语言体系下,该读音并不符合英语的发音习惯,在英语中该外来词的读音大致等同于“bēi jìng”,因此,需要将该外来词在第二语言中的音素信息,根据第一语言与第二语言的音素关联关系,转换为第一语言中的音素信息;其中,第一语言与第二语言的音素关联关系可以以对照表或键值对的形式存在,以上述技术方案为例,在获取到汉语拼音“běi jīng”(或者由其它声调的“bei”和“jing”组成的汉语拼音)的音素信息后,根据上述音素关联关系,可以获取英语中的对应音素信息(英语中该音素信息的发音大致等同于“bēi jìng”);相比于通过英语语言体系下的翻译模型,直接对“Beijing”进行翻译,获取到的相关语音信息可能音同“pāi kīng”或“bāi yīng”,这与“Beijing”在源语言体系(汉语)下的读音“běi jīng”的差距较大,无法真实反应出“Beijing”的真实读音,而通过上述技术方案获取到的英语语言下“Beijing”的读音为“bēijìng”,既接近该词汇在源语言体系下的读音,又符合当前语言体系下的发音习惯,获取到的音素信息更加准确。
可选的,在本公开实施例中,在获取所述外来词在所述第二语言中的音素信息后,还包括:通过字母到音素模型,获取所述文本语料中非外来词在所述第一语言中的音素信息;其中,所述非外来词为除所述外来词以外的剩余词;根据所述外来词在所述第一语言中的音素信息,以及所述非外来词在所述第一语言中的音素信息,获取所述文本语料在所述第一语言下的语音信息。字母到音素模型(Grapheme-to-Phoneme,G2P)是语音识别中的一种机器翻译模型,其作用是根据字符获取到相应的音素信息,即将文本信息转换为语音信息;例如,通过循环神经网络和长短时记忆网络,实现从英语单词到英语音素信息的转化;通过字母到音素模型,直接获取到了文本语料中非外来词在当前语言中的音素信息,同时,上述技术方案还实现了外来词在当前语言下音素信息的获取,进而根据语音合成,获取到第一语言的文本语料在当前语言环境下的语音信息。
本公开实施例公开的技术方案,在第一语言的文本语料中包括第二语言的外来词时,根据该外来词在所述第二语言中的音素信息,以及第一语言与第二语言的音素关联关系,获取到该外来词在第一语言中的音素信息,使得最终获取到的外来词的音素信息,既接近该词汇在源语言体系下的读音,又符合当前语言体系下的发音习惯,提高了文本语料转化为语音信息的语音合成效果。
实施例二
图2是本公开实施例二提供的一种语音信息的获取装置的结构框图,具体包括:外来词判断模块210、第一音素信息获取模块220和第二音素信息获取模块230。
外来词判断模块210,用于获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词;
第一音素信息获取模块220,用于若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息;
第二音素信息获取模块230,用于根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
本公开实施例公开的技术方案,在第一语言的文本语料中包括第二语言的外来词时,根据该外来词在所述第二语言中的音素信息,以及第一语言与第二语言的音素关联关系,获取到该外来词在第一语言中的音素信息,使得最终获取到的外来词的音素信息,既接近该词汇在源语言体系下的读音,又符合当前语言体系下的发音习惯,提高了文本语料转化为语音信息的语音合成效果。
可选的,在上述技术方案的基础上,外来词判断模块210,具体用于根据文本分类模型以及命名实体识别模型,判断所述文本语料中是否包括第二语言的外来词;或根据文本分类模型,判断所述文本语料中是否包括第二语言的外来词。
可选的,在上述技术方案的基础上,所述文本分类模型包括基于Transformer架构的神经网络模型、卷积神经网络模型和/或循环神经网络模型;和/或所述命名实体识别模型包括隐马尔可夫模型、最大熵马尔可夫模型、条件随机场模型和/或深度学习模型。
可选的,在上述技术方案的基础上,第一音素信息获取模块220,具体包括:
标准词判断单元,用于根据所述第二语言的词典信息,判断所述外来词是否为所述第二语言中的标准词;其中,所述第二语言的词典信息包括第二语言中字符与音素信息的对应关系;
第一音素信息获取单元,用于若确定所述外来词是所述第二语言中的标准词,则根据所述第二语言的词典信息,获取所述外来词在所述第二语言中的音素信息。
可选的,在上述技术方案的基础上,第一音素信息获取模块220,具体还包括:
关联标准词获取单元,用于若确定所述外来词不是所述第二语言中的标准词,则根据所述第一语言与所述第二语言的字符关联关系,获取所述第二语言中与所述外来词对应的关联标准词;
第二音素信息获取单元,用于根据所述第二语言的词典信息,获取所述关联标准词在所述第二语言中的音素信息,并作为所述外来词在所述第二语言中的音素信息。
可选的,在上述技术方案的基础上,语音信息的获取装置,还包括:
第三音素信息获取模块,用于通过字母到音素模型,获取所述文本语料中非外来词在所述第一语言中的音素信息;其中,所述非外来词为除所述外来词以外的剩余词;
语音信息获取模块,用于根据所述外来词在所述第一语言中的音素信息,以及所述非外来词在所述第一语言中的音素信息,获取所述文本语料在所述第一语言下的语音信息。
可选的,在上述技术方案的基础上,所述第一语言为英语,所述第二语言为汉语,所述外来词为拼音词。
上述装置可执行本公开任意实施例所提供的语音信息的获取方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本公开任意实施例提供的方法。
实施例三
图3示出了适于用来实现本公开实施例的电子设备300的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词;若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息;根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,语音信息获取模块,可以被描述为“用于根据所述外来词在所述第一语言中的音素信息,以及所述非外来词在所述第一语言中的音素信息,获取所述文本语料在所述第一语言下的语音信息的模块”。本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,【示例1】提供了一种语音信息的获取方法,包括:
获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词;
若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息;
根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
根据本公开的一个或多个实施例,【示例2】提供了示例1的方法,还包括:
根据文本分类模型以及命名实体识别模型,判断所述文本语料中是否包括第二语言的外来词;
或根据文本分类模型,判断所述文本语料中是否包括第二语言的外来词。
根据本公开的一个或多个实施例,【示例3】提供了示例2的方法,还包括:
所述文本分类模型包括基于Transformer架构的神经网络模型、卷积神经网络模型和/或循环神经网络模型;
和/或所述命名实体识别模型包括隐马尔可夫模型、最大熵马尔可夫模型、条件随机场模型和/或深度学习模型。
根据本公开的一个或多个实施例,【示例4】提供了示例1的方法,还包括:
根据所述第二语言的词典信息,判断所述外来词是否为所述第二语言中的标准词;其中,所述第二语言的词典信息包括第二语言中字符与音素信息的对应关系;
若确定所述外来词是所述第二语言中的标准词,则根据所述第二语言的词典信息,获取所述外来词在所述第二语言中的音素信息。
根据本公开的一个或多个实施例,【示例5】提供了示例4的方法,还包括:
若确定所述外来词不是所述第二语言中的标准词,则根据所述第一语言与所述第二语言的字符关联关系,获取所述第二语言中与所述外来词对应的关联标准词;
根据所述第二语言的词典信息,获取所述关联标准词在所述第二语言中的音素信息,并作为所述外来词在所述第二语言中的音素信息。
根据本公开的一个或多个实施例,【示例6】提供了示例1的方法,还包括:
通过字母到音素模型,获取所述文本语料中非外来词在所述第一语言中的音素信息;其中,所述非外来词为除所述外来词以外的剩余词;
根据所述外来词在所述第一语言中的音素信息,以及所述非外来词在所述第一语言中的音素信息,获取所述文本语料在所述第一语言下的语音信息。
根据本公开的一个或多个实施例,【示例7】提供了示例1的方法,还包括:
所述第一语言为英语,所述第二语言为汉语,所述外来词为拼音词。
根据本公开的一个或多个实施例,【示例8】提供了一种语音信息的获取装置,包括:
外来词判断模块,用于获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词;
第一音素信息获取模块,用于若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息;
第二音素信息获取模块,用于根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
根据本公开的一个或多个实施例,【示例9】提供了示例8的装置,外来词判断模块,具体用于根据文本分类模型以及命名实体识别模型,判断所述文本语料中是否包括第二语言的外来词;或根据文本分类模型,判断所述文本语料中是否包括第二语言的外来词。
根据本公开的一个或多个实施例,【示例10】提供了示例9的装置,所述文本分类模型包括基于Transformer架构的神经网络模型、卷积神经网络模型和/或循环神经网络模型;和/或所述命名实体识别模型包括隐马尔可夫模型、最大熵马尔可夫模型、条件随机场模型和/或深度学习模型。
根据本公开的一个或多个实施例,【示例11】提供了示例8的装置,第一音素信息获取模块,具体包括:
标准词判断单元,用于根据所述第二语言的词典信息,判断所述外来词是否为所述第二语言中的标准词;其中,所述第二语言的词典信息包括第二语言中字符与音素信息的对应关系;
第一音素信息获取单元,用于若确定所述外来词是所述第二语言中的标准词,则根据所述第二语言的词典信息,获取所述外来词在所述第二语言中的音素信息。
根据本公开的一个或多个实施例,【示例12】提供了示例11的装置,第一音素信息获取模块,具体还包括:
关联标准词获取单元,用于若确定所述外来词不是所述第二语言中的标准词,则根据所述第一语言与所述第二语言的字符关联关系,获取所述第二语言中与所述外来词对应的关联标准词;
第二音素信息获取单元,用于根据所述第二语言的词典信息,获取所述关联标准词在所述第二语言中的音素信息,并作为所述外来词在所述第二语言中的音素信息。
根据本公开的一个或多个实施例,【示例13】提供了示例8的装置,还包括:
第三音素信息获取模块,用于通过字母到音素模型,获取所述文本语料中非外来词在所述第一语言中的音素信息;其中,所述非外来词为除所述外来词以外的剩余词;
语音信息获取模块,用于根据所述外来词在所述第一语言中的音素信息,以及所述非外来词在所述第一语言中的音素信息,获取所述文本语料在所述第一语言下的语音信息。
根据本公开的一个或多个实施例,【示例14】提供了示例8-13中任一所述的装置,还包括:
所述第一语言为英语,所述第二语言为汉语,所述外来词为拼音词。
根据本公开的一个或多个实施例,【示例15】提供了一种电子设备,包括存储器、处理装置及存储在存储器上并可在处理装置上运行的计算机程序,处理装置执行程序时实现如示例1-7中任一所述的语音信息的获取方法。
根据本公开的一个或多个实施例,【示例16】提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如示例1-7中任一所述的语音信息的获取方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种语音信息的获取方法,其特征在于,包括:
获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词;
若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息;
根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
2.根据权利要求1所述的方法,其特征在于,所述判断所述文本语料中是否包括第二语言的外来词,包括:
根据文本分类模型以及命名实体识别模型,判断所述文本语料中是否包括第二语言的外来词;
或根据文本分类模型,判断所述文本语料中是否包括第二语言的外来词。
3.根据权利要求2所述的方法,其特征在于,所述文本分类模型包括基于Transformer架构的神经网络模型、卷积神经网络模型和/或循环神经网络模型;
和/或所述命名实体识别模型包括隐马尔可夫模型、最大熵马尔可夫模型、条件随机场模型和/或深度学习模型。
4.根据权利要求1所述的方法,其特征在于,所述获取所述外来词在所述第二语言中的音素信息,包括:
根据所述第二语言的词典信息,判断所述外来词是否为所述第二语言中的标准词;其中,所述第二语言的词典信息包括第二语言中字符与音素信息的对应关系;
若确定所述外来词是所述第二语言中的标准词,则根据所述第二语言的词典信息,获取所述外来词在所述第二语言中的音素信息。
5.根据权利要求4所述的方法,其特征在于,在判断所述外来词是否为所述第二语言中的标准词后,包括:
若确定所述外来词不是所述第二语言中的标准词,则根据所述第一语言与所述第二语言的字符关联关系,获取所述第二语言中与所述外来词对应的关联标准词;
根据所述第二语言的词典信息,获取所述关联标准词在所述第二语言中的音素信息,并作为所述外来词在所述第二语言中的音素信息。
6.根据权利要求1所述的方法,其特征在于,在获取所述外来词在所述第二语言中的音素信息后,还包括:
通过字母到音素模型,获取所述文本语料中非外来词在所述第一语言中的音素信息;其中,所述非外来词为除所述外来词以外的剩余词;
根据所述外来词在所述第一语言中的音素信息,以及所述非外来词在所述第一语言中的音素信息,获取所述文本语料在所述第一语言下的语音信息。
7.根据权利要求1-6中任一所述的方法,其特征在于,所述第一语言为英语,所述第二语言为汉语,所述外来词为拼音词。
8.一种语音信息的获取装置,其特征在于,包括:
外来词判断模块,用于获取第一语言的文本语料,并判断所述文本语料中是否包括第二语言的外来词;
第一音素信息获取模块,用于若所述文本语料中包括第二语言的外来词,则获取所述外来词在所述第二语言中的音素信息;
第二音素信息获取模块,用于根据所述第一语言与所述第二语言的音素关联关系,以及所述外来词在所述第二语言中的音素信息,获取所述外来词在所述第一语言中的音素信息。
9.一种电子设备,包括存储器、处理装置及存储在存储器上并可在处理装置上运行的计算机程序,其特征在于,所述处理装置执行所述程序时实现如权利要求1-7中任一所述的语音信息的获取方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的语音信息的获取方法。
CN202110179774.5A 2021-02-07 2021-02-07 一种语音信息的获取方法、装置、设备和存储介质 Pending CN112927676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110179774.5A CN112927676A (zh) 2021-02-07 2021-02-07 一种语音信息的获取方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110179774.5A CN112927676A (zh) 2021-02-07 2021-02-07 一种语音信息的获取方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN112927676A true CN112927676A (zh) 2021-06-08

Family

ID=76171412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110179774.5A Pending CN112927676A (zh) 2021-02-07 2021-02-07 一种语音信息的获取方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112927676A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612091A (ja) * 1992-06-29 1994-01-21 Nippon Telegr & Teleph Corp <Ntt> 日本語音声認識方法
CN1879147A (zh) * 2003-12-16 2006-12-13 洛昆多股份公司 文本到语音转换方法和***、及其计算机程序产品
EP2595143A1 (en) * 2011-11-17 2013-05-22 Svox AG Text to speech synthesis for texts with foreign language inclusions
US20140222415A1 (en) * 2013-02-05 2014-08-07 Milan Legat Accuracy of text-to-speech synthesis
WO2016048350A1 (en) * 2014-09-26 2016-03-31 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
KR20180025559A (ko) * 2016-09-01 2018-03-09 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
CN108986820A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 用于语音翻译的方法、装置、电子设备和存储介质
US20190096388A1 (en) * 2017-09-27 2019-03-28 International Business Machines Corporation Generating phonemes of loan words using two converters
CN111753542A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 文本语句的处理方法和装置、电子设备及存储介质
EP3739476A1 (en) * 2018-01-11 2020-11-18 Neosapience, Inc. Multilingual text-to-speech synthesis method

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612091A (ja) * 1992-06-29 1994-01-21 Nippon Telegr & Teleph Corp <Ntt> 日本語音声認識方法
CN1879147A (zh) * 2003-12-16 2006-12-13 洛昆多股份公司 文本到语音转换方法和***、及其计算机程序产品
EP2595143A1 (en) * 2011-11-17 2013-05-22 Svox AG Text to speech synthesis for texts with foreign language inclusions
US20140222415A1 (en) * 2013-02-05 2014-08-07 Milan Legat Accuracy of text-to-speech synthesis
WO2016048350A1 (en) * 2014-09-26 2016-03-31 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
KR20180025559A (ko) * 2016-09-01 2018-03-09 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
US20190096388A1 (en) * 2017-09-27 2019-03-28 International Business Machines Corporation Generating phonemes of loan words using two converters
EP3739476A1 (en) * 2018-01-11 2020-11-18 Neosapience, Inc. Multilingual text-to-speech synthesis method
CN108986820A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 用于语音翻译的方法、装置、电子设备和存储介质
CN111753542A (zh) * 2020-06-29 2020-10-09 北京百度网讯科技有限公司 文本语句的处理方法和装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111027331B (zh) 用于评估翻译质量的方法和装置
JP7112536B2 (ja) テキストにおける実体注目点のマイニング方法および装置、電子機器、コンピュータ読取可能な記憶媒体並びにコンピュータプログラム
CN112183120B (zh) 语音翻译方法、装置、设备和存储介质
CN112489620B (zh) 语音合成方法、装置、可读介质及电子设备
EP3282368A1 (en) Parallel processing-based translation method and apparatus
CN111369971B (zh) 语音合成方法、装置、存储介质和电子设备
CN112786011B (zh) 语音合成方法、合成模型训练方法、装置、介质及设备
CN111368559A (zh) 语音翻译方法、装置、电子设备及存储介质
CN113470619B (zh) 语音识别方法、装置、介质及设备
CN111951779B (zh) 语音合成的前端处理方法及相关设备
CN111382261B (zh) 摘要生成方法、装置、电子设备及存储介质
CN111563390B (zh) 文本生成方法、装置和电子设备
CN111489735B (zh) 语音识别模型训练方法及装置
CN112509562B (zh) 用于文本后处理的方法、装置、电子设备和介质
CN111339789B (zh) 一种翻译模型训练方法、装置、电子设备及存储介质
CN111681661B (zh) 语音识别的方法、装置、电子设备和计算机可读介质
CN111354343B (zh) 语音唤醒模型的生成方法、装置和电子设备
CN111368560A (zh) 文本翻译方法、装置、电子设备及存储介质
CN112906381B (zh) 对话归属的识别方法、装置、可读介质和电子设备
CN113139391A (zh) 翻译模型的训练方法、装置、设备和存储介质
CN112364653A (zh) 用于语音合成的文本分析方法、装置、服务器和介质
CN112380876A (zh) 基于多语言机器翻译模型的翻译方法、装置、设备和介质
CN111400454A (zh) 摘要生成方法、装置、电子设备及存储介质
CN112069786A (zh) 文本信息处理方法、装置、电子设备及介质
CN114613351A (zh) 韵律预测方法、装置、可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination