CN110516238A

CN110516238A - 语音翻译方法、装置、终端及计算机存储介质

Info

Publication number: CN110516238A
Application number: CN201910772900.0A
Authority: CN
Inventors: 陈昊亮; 罗伟航
Original assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Current assignee: Guangzhou National Acoustic Intelligent Technology Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-29
Anticipated expiration: 2039-08-20
Also published as: CN110516238B

Abstract

本发明公开了一种语音翻译方法、装置、终端及计算机存储介质，所述语音翻译方法包括：获取环境中的语音信息，并确定与所述语音信息对应的音素序列；根据所述音素序列将所述语音信息翻译为直译信息；获取所述语音信息的语境信息，并根据所述直译信息和所述语境信息，获得语境类型；根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息。本发明解决了语音翻译质量低下，语音翻译效率较低的技术问题。

Description

语音翻译方法、装置、终端及计算机存储介质

技术领域

本发明涉及语音翻译技术领域，尤其涉及一种语音翻译方法、装置、终端及计算机存储介质。

背景技术

语音翻译是将说话人的语音翻译为另一种语言的转换功能。现如今语音翻译已经越来越普及，但是目前的语音翻译技术都是对语音进行直接翻译，而没有根据现实语境进行翻译，导致翻译出来的语言信息缺少实际语感，缺少说话人的语言特征，使得语音翻译质量低下，严重限制了语音翻译的语境场景，降低了语音翻译效率。

因此，如何提升语音翻译质量，提高语音翻译效率，是当前亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种语音翻译方法、装置、终端及计算机存储介质，旨在解决语音翻译质量低下，语音翻译效率较低的技术问题。

为实现上述目的，本发明实施例提供一种语音翻译方法，所述语音翻译方法包括：

获取环境中的语音信息，并确定与所述语音信息对应的音素序列；

根据所述音素序列将所述语音信息翻译为直译信息；

获取所述语音信息的语境信息，并根据所述直译信息和所述语境信息，获得语境类型；

根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息。

可选地，所述根据所述直译信息和所述语境信息，获得语境类型的步骤包括：

根据所述直译信息和所述语境信息进行语境识别处理，以确定语境职业特征；

根据所述语境职业特征确定语境类型。

可选地，所述根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

获取所述语境类型获取对应的语言特征集；

根据所述语言特征集对所述直译信息进行语境翻译处理，以获得目标翻译信息。

可选地，所述根据所述语言特征集对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

根据所述语言特征集对所述直译信息进行语境翻译处理，以获得待处理翻译信息；

对所述待处理翻译信息进行预设方言翻译处理，以获得目标翻译信息。

若所述语音信息为赛事信息，则获取所述赛事信息对应的赛事术语词集；

根据所述语境类型和所述赛事术语词集，对所述直译信息进行语境翻译处理，以获得目标翻译信息。

若检测到指定翻译风格指令，则获取所述指定翻译风格指令的风格专属翻译词集；

根据所述语境类型和所述风格专属翻译词集对所述直译信息进行语境翻译处理，以获得目标翻译信息。

可选地，所述获取环境中的语音信息的步骤之前还包括：

根据所述环境中的声音音量对所述环境中包含所述语音信息的声音进行降噪处理；

所述获取环境中的语音信息的步骤包括：

从经过降噪处理后的所述声音中，提取所述语音信息。

本发明还提供一种语音翻译装置，所述语音翻译装置包括：

确定模块，用于获取环境中的语音信息，并确定与所述语音信息对应的音素序列；

直译模块，用于根据所述音素序列将所述语音信息翻译为直译信息；

语境模块，用于获取所述语音信息的语境信息，并根据所述直译信息和所述语境信息，获得语境类型；

翻译模块，用于根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息。

可选地，所述语境模块包括：

职业单元，用于根据所述直译信息和所述语境信息进行语境识别处理，以确定语境职业特征；

确定单元，用于根据所述语境职业特征确定语境类型。

可选地，所述翻译模块包括：

特征集单元，用于获取所述语境类型获取对应的语言特征集；

第一翻译单元，用于根据所述语言特征集对所述直译信息进行语境翻译处理，以获得目标翻译信息。

可选地，所述翻译单元包括：

翻译子单元，用于根据所述语言特征集对所述直译信息进行语境翻译处理，以获得待处理翻译信息；

方言子单元，用于对所述待处理翻译信息进行预设方言翻译处理，以获得目标翻译信息。

可选地，所述翻译模块包括：

赛事单元，用于若所述语音信息为赛事信息，则获取所述赛事信息对应的赛事术语词集；

第二翻译单元，用于根据所述语境类型和所述赛事术语词集，对所述直译信息进行语境翻译处理，以获得目标翻译信息。

可选地，所述翻译模块包括：

风格单元，用于若检测到指定翻译风格指令，则获取所述指定翻译风格指令的风格专属翻译词集；

第三翻译单元，用于根据所述语境类型和所述风格专属翻译词集对所述直译信息进行语境翻译处理，以获得目标翻译信息。

可选地，所述语音翻译装置还包括：

降噪模块，用于根据所述环境中的声音音量对所述环境中包含所述语音信息的声音进行降噪处理；

所述确定模块还用于从经过降噪处理后的所述声音中，提取所述语音信息。

此外，为实现上述目的，本发明还提供一种终端，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音翻译程序，其中：

所述语音翻译程序被所述处理器执行时实现如上所述的语音翻译方法的步骤。

此外，为实现上述目的，本发明还提供计算机存储介质；

所述计算机存储介质上存储有语音翻译程序，所述语音翻译程序被处理器执行时实现如上述的语音翻译方法的步骤。

本发明获取环境中的语音信息，并确定与所述语音信息对应的音素序列；根据所述音素序列将所述语音信息翻译为直译信息；对所述直译信息进行语境识别处理，以确定语境类型；根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息。本发明通过语境识别，将语音信息进行语境翻译，增强了语音信息的实际语感，突出了说话人的语言特征，解决了语音翻译质量低下，语音翻译效率较低的技术问题，提升语音了翻译质量，大大提高了语音翻译效率，扩展了语音翻译的语境场景。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明语音翻译方法一实施例的流程示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例方案的主要思路是：本发明获取环境中的语音信息，并确定与所述语音信息对应的音素序列；根据所述音素序列将所述语音信息翻译为直译信息；对所述直译信息进行语境识别处理，以确定语境类型；根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息。本发明通过语境识别，将语音信息进行语境翻译，增强了语音信息的实际语感，突出了说话人的语言特征，解决了语音翻译质量低下，语音翻译效率较低的技术问题，提升语音了翻译质量，大大提高了语音翻译效率，扩展了语音翻译的语境场景。

本发明实施例考虑到，由于现有技术都是对语音进行直接翻译，而没有根据现实语境进行翻译，导致翻译出来的语言信息缺少实际语感，缺少说话人的语言特征，使得语音翻译质量低下，严重限制了语音翻译的语境场景，降低了语音翻译效率。

本发明提供一种解决方案，增强了语音信息的实际语感，突出了说话人的语言特征，解决了语音翻译质量低下，语音翻译效率较低的技术问题，提升语音了翻译质量，大大提高了语音翻译效率，扩展了语音翻译的语境场景。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明实施例终端可以是PC机或服务器设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及语音翻译程序。

在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行信息通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行信息通信；而处理器1001可以用于调用存储器1005中存储的语音翻译程序，并执行下述语音翻译方法各个实施例中的操作。

基于上述硬件结构，提出本发明语音翻译方法实施例。

本发明提供一种语音翻译方法，在语音翻译方法一实施例中，参照图2，所述语音翻译方法包括：

步骤S10，获取环境中的语音信息，并确定与所述语音信息对应的音素序列；

步骤S20，根据所述音素序列将所述语音信息翻译为直译信息；

步骤S30，对所述直译信息进行语境识别处理，以确定语境类型；

步骤S40，根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息。

具体内容如下：

本实施例中，在用户需要进行语音录入时，终端可以基于用户触发的语音转换模式指令启用语音转化模式；当然，终端也可以在某些场景下自动启用语音转化模式，比如在终端在进入录音状态时，自动启动用语音转化模式。

在终端启用语音转换模式后，通过安装在终端上的麦克风接收外界环境中的声音，并基于语音识别筛选出麦克风所接收声音中的语音信息，从而将筛选出的语音信息进行录入。

所述音素序列指的是声音单位，如语音信息为中文时，音素序列为拼音，语音信息为英文时，音素序列为音标等等。终端可通过声学模型进行语音识别，从而确定音素序列。

具体地，例如，在外界环境嘈杂的情况下，麦克风接收到的声音中除了包含当前需要筛选出的语音信息(即用户说话的语音)，还将包含很多不需要的噪声杂音，如车鸣声、喧闹声或机器运转声等干扰声音，终端对接收到的外界环境中的环境声音进行筛选从而获取到语音信息，在终端获取到语音信息之后，对语音信息进行预处理，如文字识别处理以及音质识别处理等，从而基于进行预处理之后得到的语音信息从预先建立的用于存储语音信息的预设语音信息库中，确定终端当前所获取到的语音信息的语音信息。后续，通过语音识别，确定与语音信息对应的音素序列。

进一步地，所述获取环境中的语音信息的步骤之前还包括：

步骤a，根据所述环境中的声音音量对所述环境中包含所述语音信息的声音进行降噪处理；

在本实施例中，为提升终端获取语音信息并对语音信息进行处理的处理效率，在从终端上的麦克风所接收到的外界环境声音中筛选语音信息之前，终端先自动检测外界环境中的声音音量是否超过预设的音量值，其中该预设音量值可以根据用户需要进行灵活设置，若检测到当前外界环境中的音量值超过了预设音量值，则确定终端需要对麦克风当前所接收到的声音进行降噪筛选，才能得到需要的语音信息，便随即通过采用降噪算法等方式对麦克风当前所接收到的声音进行降噪过滤处理。

在另一个实施例中，若检测到当前外界环境中的音量值未超过预设音量值，则确定终端当前无需对麦克风当前所接收到的声音进行降噪筛选，而直接可以将当前所接收到的声音作为需要的语音信息进行录入。

所述获取环境中的语音信息的步骤包括：

步骤b，从经过降噪处理后的所述声音中，提取所述语音信息。

在检测到当前外界环境中的音量值超过了预设音量值，并通过采用降噪算法等方式对麦克风当前所接收到的声音进行降噪过滤处理之后，基于现有的语音信号特征提取技术从经过降噪过滤处理之后的声音中，提取出相对清晰语音信息。

终端可根据音素序列对语音信息进行直接翻译，以获得直译信息。所述直译信息指的是以词组为单元，对语音信息进行语义的直接翻译。直译信息在完成度上是合格的，但整个语音信息可能存在一定的翻译缺陷。例如，引文中“I want to be immortal”直译为中文是“我想要永恒”，假设历史名人说这句话，其实际中文意义应该为“我欲青史留名”。因此直译信息通常翻译得不符合实际语境中的语感。语音信息如果不结合语境进行翻译，会产生一定的理解偏差。

步骤S30，获取所述语音信息的语境信息，并根据所述直译信息和所述语境信息，获得语境类型；

本实施例获取到语境信息，所述语境信息通常代表该语音信息所在的语音场景。例如语音信息为“I'm willing to lead the army to war”，而该语音信息是在军队集结的过程中发出的，那么语境信息即为战备环境。此时根据该语音信息的直译信息“我愿意带领军队去打仗”和语境信息“战备环境”，从而语境类型偏向于“军队动员，战士明志”分类。

具体地，所述根据所述直译信息和所述语境信息，获得语境类型的步骤包括：

步骤A1，根据所述直译信息和所述语境信息进行语境识别处理，以确定语境职业特征；

本实施例进一步增加了语境职业特征因子，所述语境职业特征指的是说话人的职业语言表达方式。例如在英语中的指示代词“I”在中文当中有多种表述，比如“朕”、“微臣”或“本宫”等等表述。而正确翻译则需要对说话人的职业进行确定。在本实施例中，可根据直译信息和语境信息进行语境识别处理，例如“我愿意带领军队去打仗”，通过直译信息可匹配到说话人是一位军人，而语境信息为“战备环境”，那么根据数据库的匹配，可确定当前语境职业特征为军队将领。又或者语境信息为“古装战争，宣战指挥”，那么此时结合直译信息，由语境信息中的“宣战指挥”可得知“I”是一位国家军队最高指挥官，那么根据数据库的匹配，可确定当前语境职业特征为皇帝。

步骤A2，根据所述语境职业特征确定语境类型。

在获取到语境职业特征之后，本实施例可进一步完善语境类型的数据丰满度。例如，通过语境职业特征，可进一步从数据库中进行数据筛选，将原语境类型由“军队动员，战士明志”扩展为“皇帝动员军队，大涨战士志气”。

为更方便理解，以下为本实施例一例子。

英文的语音信息“One minute I held the key”直译为中文信息是“一分钟我拥有钥匙”，假设语境信息为“帝王登基环境”，那么通过数据库匹配，可由帝王登基环境匹配到语境职业特征为皇帝，结合语境类型从数据库中匹配获取到语境类型为“君王登基豪迈宣言”。

通过增加语境职业特征因子，本实施例可将说话人的职业特征与翻译效果结合起来，依照对应职业的语境方式，实现对语境类型的正确获取。

语境类型与直译信息的结合，可将翻译信息贴近实际场景。结合语境与直译信息，可引入说话人在表达时的言语状态，产生实际语感，更贴合语境场景的语言表达方式。

具体地，所述根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

步骤B1，获取所述语境类型获取对应的语言特征集；

步骤B2，根据所述语言特征集对所述直译信息进行语境翻译处理，以获得目标翻译信息。

语境类型不仅确定了说话人的环境场景，还可以确定说话人的语言特征。通过语境类型获取语言特征集，能够将语音表达与语境状态进行融合。例如，若语音信息“I'mwilling to lead the army to war”，而所获取到的语境类型“军队动员，战士明志”，终端通过获取语境类型的语言特征集中，获取该语音信息下的语气信息，以及语言表达方式等等。例如“军队战争”语境类型下的语言特征更偏向于血性狂热，壮烈勇猛的情绪。而代表这类情绪的语言特征词汇都保存在该语言特征集中，例如“带兵打仗”的语境类型中会有“保家卫国，永不退缩”的情绪词汇。

终端可通过语言特征集对直译信息“我愿意带领军队去打仗”进行语境翻译处理，从而获得目标翻译信息“本将愿率军征战！”。

若语音信息“One minute I held the key”对应的语境类型为“君王登基豪迈宣言”，则语言特征集会包含君王“霸气盖世，天下臣服”的情绪词汇。则通过语义翻译结合语言特征集，将直译信息“一分钟我拥有钥匙”翻译为“此刻我手握权位经脉”。

进一步地，所述根据所述语言特征集对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

步骤c，根据所述语言特征集对所述直译信息进行语境翻译处理，以获得待处理翻译信息；

步骤d，对所述待处理翻译信息进行预设方言翻译处理，以获得目标翻译信息。

假设本实施例是要将语音信息翻译为地方特色信息，那么终端根据语言特征集对直译信息进行语境翻译处理，获取到待处理翻译信息。待处理翻译信息可根据预设方言翻译规则对待处理翻译信息进行翻译处理，从而将待处理翻译翻译为目标翻译信息。

进一步地，假设直译信息为地方方言，可通过声纹识别将直译信息进行方言预处理，从而转化为标准语言信息，再对标准语言信息进行语言特征集的语境翻译处理，得到待处理翻译信息，最终通过预设方言翻译处理，从而得到目标翻译信息。

进一步地，基于第一实施例，提出本发明语音翻译方法的第二实施例，在该实施例中，所述根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

步骤C1，若所述语音信息为赛事信息，则获取所述赛事信息对应的赛事术语词集；

步骤C2，根据所述语境类型和所述赛事术语词集，对所述直译信息进行语境翻译处理，以获得目标翻译信息。

假设语音信息为赛事解说，即语音信息为赛事信息，则需要获取赛事信息对应的赛事术语词集。例如赛事信息为赛事解说，而语境类型为体操赛事类型，那么终端将获取体操赛事解说的体操赛事术语词集。通过语境类型和赛事术语词集，共同对直译信息进行语境翻译，获得目标翻译信息。

例如，语音信息为“踺子180-直体前空翻转体540”，直译信息为“踺子180-直体前空翻转体540”。根据语境类型“体操赛事类型”，终端获取到体操赛事术语词集，通过从词集中对语音信息的匹配，将对直译信息“踺子180-直体前空翻转体540”翻译为目标翻译信息“程菲跳”。

进一步地，所述根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

步骤D1，若检测到指定翻译风格指令，则获取所述指定翻译风格指令的风格专属翻译词集；

步骤D2，根据所述语境类型和所述风格专属翻译词集对所述直译信息进行语境翻译处理，以获得目标翻译信息。

所述指定翻译风格指令指的是用户人为设定翻译风格类型。例如文言文类型，散文类型，白话文类型等等。假设检测到指定翻译风格指令为散文翻译风格指令，则获取该指令的散文专属翻译词集。若英文的语音信息为“Hot summer nights,mid-July”，直译信息为“炎热的夏天晚上，七月中旬”，若语境类型为诗歌咏唱，那么通过词义匹配，可对直译信息进行语境翻译处理，获得具有散文翻译风格的目标翻译信息“仲夏夜茫，七月未央”。其中通过将直译信息结合散文专属翻译词集，匹配词义，将直译信息转换为具有诗歌咏唱情景的散文目标翻译信息。

通过以上赛事解说语境和风格语境的词集辅助，增强本实施例的语境风格翻译效果，从而增强了目标翻译信息的实际语感，提高语境场景的受用，使得翻译更加灵活多变，提升语音翻译效率。

此外，本发明实施例还提出一种语音翻译装置，所述语音翻译装置包括：

可选地，所述语境模块包括：

确定单元，用于根据所述语境职业特征确定语境类型。

可选地，所述翻译模块包括：

可选地，所述翻译单元包括：

可选地，所述翻译模块包括：

可选地，所述语音翻译装置还包括：

此外，本发明实施例还提出一种终端，终端包括：存储器109、处理器110及存储在存储器109上并可在处理器110上运行的语音翻译程序，所述语音翻译程序被处理器110执行时实现上述的语音翻译方法各实施例的步骤。

此外，本发明还提供了一种计算机存储介质，所述计算机存储介质存储有语音翻译程序，所述语音翻译程序还可被处理器执行以用于实现上述语音翻译方法各实施例的步骤。

本发明终端及计算机存储介质的具体实施方式的拓展内容与上述语音翻译方法各实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种语音翻译方法，其特征在于，所述语音翻译方法包括：

根据所述音素序列将所述语音信息翻译为直译信息；

2.如权利要求1所述的语音翻译方法，其特征在于，所述根据所述直译信息和所述语境信息，获得语境类型的步骤包括：

根据所述语境职业特征确定语境类型。

3.如权利要求1所述的语音翻译方法，其特征在于，所述根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

获取所述语境类型获取对应的语言特征集；

4.如权利要求3所述的语音翻译方法，其特征在于，所述根据所述语言特征集对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

5.如权利要求1所述的语音翻译方法，其特征在于，所述根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

6.如权利要求3所述的语音翻译方法，其特征在于，所述根据所述语境类型对所述直译信息进行语境翻译处理，以获得目标翻译信息的步骤包括：

7.如权利要求1-6任一项所述的语音翻译方法，其特征在于，所述获取环境中的语音信息的步骤之前还包括：

所述获取环境中的语音信息的步骤包括：

从经过降噪处理后的所述声音中，提取所述语音信息。

8.一种语音翻译装置，其特征在于，所述语音翻译装置包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在处理器上运行的语音翻译程序，所述语音翻译程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音翻译方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有语音翻译程序，所述语音翻译程序被处理器执行时实现如权利要求1至7中任一项所述的语音翻译方法的步骤。