CN109614628A

CN109614628A - 一种基于智能硬件的翻译方法与翻译***

Info

Publication number: CN109614628A
Application number: CN201811368184.1A
Authority: CN
Inventors: 陈源凯; 王朝鑫; 陈家盛
Original assignee: GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Current assignee: GUANGZHOU CITY IFLY ZUNHONG INFORMATION TECHNOLOGY Co Ltd
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-04-12

Abstract

本发明公开了一种基于智能硬件的翻译方法，包括以下步骤：S1：获取音频、图像、视频或文字信息，将音频、图像和视频转写获取文字内容；S2：将获取的文字信息或文字内容通过在线或离线翻译引擎翻译成第二种语言文字；S3：通过对翻译前后的文字信息或文字内容的关键词或语义进行知识库知识点自动识别，智能地预判出使用场景；S4：通过预判的使用场景自动或手动选择音库音色并调节语速语调；S5：翻译结果语音播报。本发明利用无线传输技术传递信息，结合语音转写技术，图像识别文字技术，翻译引擎等新技术的应用完成翻译，同时提供使用者保存、回放、分享功能，还实现了用户的场景延展及产品的持续优化。

Description

一种基于智能硬件的翻译方法与翻译***

技术领域

本发明涉及智能硬件翻译领域，更具体地，涉及一种基于智能硬件的翻译方法与翻译***。

背景技术

经济全球化的大背景下，跨国度、跨地域、跨领域的商务洽谈不断涌现；经济发展，人们的生活水平在持续提高，出国旅游人口在不断攀升；同时，出国留学交流，外语学习，新闻发布会交流，游戏组队语音交流等对翻译有需求的场景也在不断的拓展，翻译市场需求在不断扩大，而人工翻译存在“成本高”，“门槛高”，“不方便”等因素，从而催生智能手机翻译应用程序，翻译机，翻译耳机等产品的诞生。而翻译机和翻译耳机的出现迎合了旅游爱好者，商务谈判者等群体的交流需求。

目前市面上普遍存在的通过翻译机或通过手机应用程序翻译的翻译方式，通常采用单个产品终端模式。当用户需要进行交流时，首先需要用户自己对着翻译机或智能手机说话，然后将翻译机或智能手机递给或拿到对方身边使用，这对用户来说会带来一些问题，影响用户使用体验。因为这意味着双方需要靠的很近来交流，而翻译场景往往是陌生人交流的场景，陌生人之间存在“安全距离”的问题，“安全距离”问题的存在使得两个或多个陌生人靠的很近时，会产生局促不安感，不符合礼仪，也不利于交流的进行，而且手机一般是私人贵重物品，将手机递给一个陌生人使用是不符合人性需求的。

目前市面上的另一种翻译的产品解决方案是翻译耳机，翻译耳机通常采用双耳机的形式，当用户需要进行交流时，将一个耳机留给自己使用，另一个耳机给对方使用，这同样会给用户带来一些问题。因为交流双方需要每人佩戴一只耳机，在社交礼仪方面不符合常规习惯，耳机属于用户私有物品，多人交叉使用会存在卫生问题，还会存在部分用户不习惯将自己的私有物体交与他人使用的情况；另外，由于耳机只有两个，交流仅限于佩戴耳机的两个人之间进行，不能让更多的人参与进入交流；除此之外，由于当前蓝牙技术的技术限制，同一副无线蓝牙耳机，只有主耳机的麦克风可以拾音，副耳机是无法实现通过其麦克风拾音的，这就导致了翻译场景中，使用副耳机的一方，其讲话拾音需要通过智能手机来进行，这就大大增加了翻译过程的用户使用成本。

目前还存在另一种解决方案，就是通过耳机和收纳盒分别进行拾音和放音，通过蓝牙连接智能手机APP，再通过网络与云端服务器连接，进行翻译。整个解决方案最大的问题是用户必须同时使用三个终端设备（无线耳机、耳机收纳盒、智能手机），并要使得三个设备之间相互连接，同时还需打开智能手机APP和连接网络，整个过程只为完成翻译，没有延展性，而且使用过程步骤太多，使用成本过大，严重影响用户体验。

市面上大部分的翻译机和翻译耳机普遍存在翻译准确率较差，无法根据场景进行精准翻译，对方言的识别率较差，且翻译结果的播音声音音色生硬冰冷，体验较差等问题。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于智能硬件的翻译方法与翻译***。

本发明旨在至少在一定程度上解决上述技术问题。

本发明的首要目的是提供一种翻译方法及***解决翻译不精准的问题，同时解决了陌生人交流存在“安全距离”的尴尬痛点、卫生问题及实现多人多种语言交流。

为解决上述技术问题，本发明的技术方案如下：

一种基于智能硬件的翻译方法，包括以下步骤：

S1：获取音频、图像、视频或文字信息，将音频、图像和视频转写获取文字内容；

S2：将获取的文字信息或文字内容通过在线或离线翻译引擎翻译成第二种语言文字；

S3：通过对翻译前后的文字信息或文字内容的关键词或语义进行知识库知识点自动识别，智能地预判出使用场景；

S4：通过预判的使用场景自动或手动选择音库音色并调节语速语调；

S5：翻译结果语音播报；

耳机收纳盒与翻译机一体化终端是指将传统的无线耳机的收纳盒与翻译机两种形态的产品，通过产品设计整合在一个产品终端上，通过这样的设计充分利用了耳机收纳盒的资源，并且通过集成了离线和在线翻译模块，其中的离线翻译模块使得用户无需连接智能终端APP，甚至无需联网都可完成翻译过程，由此使得翻译过程变得简单，大大的减少了用户的使用门槛，利用真人声音的音色、音效制作成的语音包，可将文字内容合成音频，让合成的音频在音色、自然度等方面的表现均接近甚至超过人声，将翻译结果通过播音员音库合成的音频进行播放，使得交流变成了好玩有趣，摆脱从前生硬、冷冰冰的机器播音，提供手动和自动更换播音员的选择，自动更换主要是基于对翻译过程前后的文本进行场景化识别，针对不同的场景自动选择不同的播音员音色，场景的智能识别是对翻译前后的内容进行语义分析匹配，将采集到的翻译内容信息，与后台建立的知识库组合模型进行匹配，从而实现对使用场景的识别（如翻译内容中含有“故宫怎么走”语义的句子，则自动匹配为旅游场景）。

优选地，步骤S1中获取音频或文字信息包括以下方式：

a）通过无线耳机的麦克风或耳机收纳盒与翻译机一体化终端的麦克风进行拾音，通过语音识别转写技术对音频进行转写获取文字内容；

b）通过耳机收纳盒与翻译机一体化终端或智能终端在海报、杂志、报纸、电脑和平板媒介上展示的文字、图片和视频内容进行拍照，通过OCR技术获取文字内容；

c）通过智能终端上的软件的编辑框录入内容，手动编辑文字，或复制文字后粘贴在编辑框中，获取文字信息；

d）通过在智能终端上输入网页URL链接，后台自动识别与抓取文字内容；

图像文字识别能对图片、海报、杂志、电脑、智能手机等展示媒介上的混合排版图文、表格、带背景图片的文字、视频等，通过图像识别文字技术进行文字识别，获取文字内容结果，网页取字是当输入一个网页链接地址，后台基于网络爬虫的原理，通过此URL链接将网页上的文本与无效字符、程序、脚本进行区分，以此获取有效的文字内容。

优选地，步骤S5中翻译结果语音播报通过无线耳机的扬声器或耳机收纳盒与翻译机一体化终端的扬声器进行播放。

优选地，还包括步骤S6：

S6：通过网络或无线连接技术连接，智能终端设备将翻译过程信息同步显示，耳机收纳盒与翻译机一体化终端将翻译过程信息同步至云端服务器，用于日后随时随地读取查看及回放，可延展性更强，同时可通过有监督学习的手段，持续不断的提高翻译精准度。

通过“耳机收纳盒与翻译机一体化终端”和无线耳机进行拾音，利用无线传输技术传递信息，结合语音转写技术，图像识别文字技术，翻译引擎等新技术的应用完成翻译；通过在智能终端上进行个性化设置；对翻译场景下的文案进行识别，识别用户所在场景（如旅游、留学、新闻发布会等场景），根据场景自动或手动设置播音员音库的声音音色，设置音频朗读速度；再通过耳机收纳盒与翻译机一体化终端与无线耳机的麦克风分别进行放音，完成翻译过程；同时提供使用者保存、回放、分享功能。

一种基于智能硬件的翻译***，包括若干无线耳机和耳机收纳盒与翻译机一体化终端，其中：

无线耳机包括第一无线连接模块，耳机收纳盒与翻译机一体化终端包括第二无线连接模块，无线耳机通过第一无线连接模块与第二无线连接模块连接耳机收纳盒与翻译机一体化终端；

将传统的无线耳机收纳盒与翻译机进行了一体化的产品设计，充分利用了收纳盒的空间，同时耳机收纳盒与翻译机一体化终端中，集成了离线和在线翻译模块，其中的离线翻译模块使得用户无需连接智能终端APP，甚至无需联网都可完成翻译过程，由此使得翻译过程变得简单，大大的减少了用户的使用门槛。

优选地，无线耳机还包括第一充电模块、第一麦克风模块和第一扬声器模块，其中：

第一充电模块分别于第一麦克风模块、第一扬声器模块和第一无线连接模块相连；

第一麦克风模块用于接收音频，其输出端与第一无线连接模块相连；

第一扬声器模块用于翻译结果语音播报，其输入端与第一无线连接模块相连。

优选地，耳机收纳盒与翻译机一体化终端还包括第二充电模块、第二麦克风模块、第二扬声器模块、离线翻译模块网络连接模块、显示模块和拍照模块，其中：

第二充电模块分别与第二无线连接模块、第二麦克风模块、第二扬声器模块、离线翻译模块、网络连接模块、显示模块和拍照模块相连；

第二麦克风模块用于接收音频信息，其输出端与离线翻译模块的输入端相连；

第二扬声器模块用于翻译结果语音播报，其输入端与离线翻译模块的输出端相连；

离线翻译模块还与第二无线连接模块相连；

网络连接模块与第二无线连接模块相连；

显示模块包括显示与触摸功能，为翻译的基本操作及翻译结果提供可视化界面显示以及触摸按键功能，与离线翻译模块与网络连接模块相连；

拍照模块用于获取图像信息，并识别图像中的文本信息，与离线翻译模块与网络连接模块相连；

第二扬声器模块为外放扬声器。

优选地，还包括云端服务器，云端服务器能根据预设的翻译模式输出翻译结果，通过网络连接模块与耳机收纳盒与翻译机一体化终端相连；

网络连接模块支持WIFI、4G卡和虚拟卡等多种方式联网，负责连接网络，与云端服务器进行通讯，无线连接模块采用的连接方式为蓝牙连接、BLE连接或WIFI连接，其中通过WIFI连接，可以使得耳机收纳盒与翻译机一体化终端与多个同型号的耳机进行连接，从而完成“多方会谈”翻译。

优选地，还包括一智能终端，第一无线连接模块通过智能终端与第二无线连接模块相连，智能终端还与云端服务器连接，云端服务器根据预设的翻译模式输出翻译结果；

智能终端主要包括智能手机、平板电脑、iPad、PC电脑、智能手表、智能电视等智能终端。

优选地，翻译***支持三种及以上的语言互相翻译，第二无线连接***可连接多个无线耳机，实现多方语言会谈翻译。

与现有技术相比，本发明技术方案的有益效果是：

通过耳机收纳盒与翻译机一体化终端和无线耳机进行拾音，利用无线传输技术传递信息，结合语音转写技术，图像识别文字技术，翻译引擎等新技术的应用完成翻译；通过在智能终端上进行个性化设置；对翻译场景下的文案进行识别，识别用户所在场景（如旅游、留学、新闻发布会等场景），根据场景自动或手动设置播音员音库的声音音色，设置音频朗读速度；再通过“耳机收纳盒与翻译机一体化终端和无线耳机的麦克风分别进行放音，完成翻译过程；同时提供使用者保存、回放、分享功能，还实现了用户的场景延展及产品的持续优化。

附图说明

图1为本发明提供的基于智能硬件的翻译方法流程图。

图2为本发明提供的一种基于智能硬件的翻译***架构图。

图3为实施例提供的一种基于智能硬件的翻译***处于离线翻译模式示意图。

图4为实施例提供的一种基于智能硬件的翻译***处于在线翻译模式示意图。

图5为实施例提供的一种基于智能硬件的翻译***通过智能终端实现在线翻译的功能结构示意图。

图6为实施例提供的一种基于智能硬件的翻译***在多方会谈翻译中的信息流向图。

图7为实施例提供的一种基于智能硬件的翻译***在多方会谈翻译中的连接示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供了一种基于智能硬件的翻译方法，如图1，包括以下步骤：

S5：翻译结果语音播报；

步骤S1中获取音频或文字信息包括以下方式：

d）通过在智能终端上输入网页URL链接，后台自动识别与抓取文字内容;

步骤S5中翻译结果语音播报通过无线耳机的扬声器或耳机收纳盒与翻译机一体化终端的扬声器进行播放；

还包括步骤S6：

S6：通过网络或无线连接技术连接，智能终端设备将翻译过程信息同步显示，耳机收纳盒与翻译机一体化终端将翻译过程信息同步至云端服务器，用于日后随时随地读取查看及回放;

还提供一种基于智能硬件的翻译***，如图2，包括若干无线耳机和耳机收纳盒与翻译机一体化终端，其中：

无线耳机包括第一无线连接模块，耳机收纳盒与翻译机一体化终端包括第二无线连接模块，无线耳机通过第一无线连接模块与第二无线连接模块连接耳机收纳盒与翻译机一体化终端。

无线耳机还包括第一充电模块、第一麦克风模块和第一扬声器模块，其中：

第一充电模块分别与第一麦克风模块、第一扬声器模块和第一无线连接模块相连；

耳机收纳盒与翻译机一体化终端还包括第二充电模块、第二麦克风模块、第二扬声器模块、离线翻译模块网络连接模块、显示模块和拍照模块，其中：

离线翻译模块还与第二无线连接模块相连；

网络连接模块与第二无线连接模块相连；

拍照模块用于获取图像信息，并识别图像中的文本信息，与离线翻译模块与网络连接模块相连。

还包括云端服务器，云端服务器能根据预设的翻译模式输出翻译结果，通过网络连接模块与耳机收纳盒与翻译机一体化终端相连。

还包括一智能终端，第一无线连接模块通过智能终端与第二无线连接模块相连，智能终端还与云端服务器连接，云端服务器根据预设的翻译模式输出翻译结果。

翻译***支持三种及以上的语言互相翻译，第二无线连接***可连接多个无线耳机，实现多方语言会谈翻译。

在具体实施过程中，当***处于离线翻译模式时，如图3，无线耳机的第一麦克风模块采集到的第一语种信息，通过第一无线连接模块进行信号传输，将信号传输给耳机收纳盒与翻译机一体化终端，通过耳机收纳盒与翻译机一体化终端的离线翻译模块，根据预设的翻译模式（如中译英），输出翻译结果，得到第二语种信息，通过耳机收纳盒与翻译机一体化终端的第二扬声器将第二语种信息（翻译结果），播放出来；

耳机收纳盒与翻译机一体化终端的麦克风采集到第二语种信息，通过耳机收纳盒与翻译机一体化终端的离线翻译模块，根据预设的翻译模式（如英译中），输出翻译结果，得到第一语种信息，通过第二无线连接模块进行信号传输，将信号传输给无线耳机，通过无线耳机的第一扬声器模块将第一语种信息翻译结果，播放出来。

当***处于在线翻译模式时，如图4，无线耳机的第一麦克风模块采集到的第一语种信息，通过第一无线连接模块进行信号传输，将信号传输给耳机收纳盒与翻译机一体化终端。耳机收纳盒与翻译机一体化终端将采集到的语言信息通过网络连接模块上传到云服务器，云服务器根据预设的翻译模式（如中译英），输出翻译结果，得到第二语种信息，将信息传送耳机收纳盒与翻译机一体化终端并通过其第二扬声器模块将第二语种信息（翻译结果），播放出来；

耳机收纳盒与翻译机一体化终端的第二麦克风模块采集到第二语种信息，通过网络连接模块上传到云服务器，云服务器根据预设的翻译模式（如英译中），输出翻译结果，得到第一语种信息，将信息通过第二无线连接模块进行信号传输，将信号传输给无线耳机，通过无线耳机的第一扬声器模块将第一语种信息（翻译结果），播放出来。

当***通过智能终端实现在线翻译时，如图5，无线耳机的第一麦克风模块采集到的第一语种信息，通过第一无线连接模块进行信号传输，将信号通过智能终端上传到云服务器，云服务器根据预设的翻译模式，输出翻译结果，得到第二语种信息，将信息传送耳机收纳盒与翻译机一体化终端并通过其第二扬声器将第二语种信息（翻译结果），播放出来；

耳机收纳盒与翻译机一体化终端的第二麦克风模块采集到第二语种信息，通过无线连接模块将信息传输到智能终端，以便将信息上传到云服务器，云服务器根据预设的翻译模式，输出翻译结果，得到第一语种信息，将信息通过第二无线连接模块进行信号传输，将信号传输给无线耳机，通过无线耳机的第一扬声器模块将第一语种信息（翻译结果），播放出来。

当***进行多方会谈翻译时，对翻译引擎进行改造，如图6，由当前市面上只支持双向翻译（即两个语种之间的互相翻译），改成多种语言间的互相翻译。,无线耳机及耳机收纳盒与翻译机一体化终端中的无线连接模块采用的连接方式包含WIFI连接的方式，通过WIFI连接，可以使得耳机收纳盒与翻译机一体化终端与多个同型号的耳机进行连接，如图7，这样就可以实现多个人带着多副同型号的耳机进行对话交流，从而完成多方会谈，翻译。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于智能硬件的翻译方法，其特征在于，包括以下步骤：

S5：翻译结果语音播报。

2.根据权利要求1所述的基于智能硬件的翻译方法，其特征在于，步骤S1中获取音频或文字信息包括以下方式：

d）通过在智能终端上输入网页URL链接，后台自动识别与抓取文字内容。

3.根据权利要求1所述的基于智能硬件的翻译方法，其特征在于，步骤S5中翻译结果语音播报通过无线耳机的扬声器或耳机收纳盒与翻译机一体化终端的扬声器进行播放。

4.根据权利要求1所述的基于智能硬件的翻译方法，其特征在于，还包括步骤S6：

S6：通过网络或无线连接技术连接，智能终端设备将翻译过程信息同步显示，耳机收纳盒与翻译机一体化终端将翻译过程信息同步至云端服务器，用于日后随时随地读取查看及回放。

5.一种基于智能硬件的翻译***，其特征在于，包括若干无线耳机和耳机收纳盒与翻译机一体化终端，其中：

所述无线耳机包括第一无线连接模块，所述耳机收纳盒与翻译机一体化终端包括第二无线连接模块，所述无线耳机通过所述第一无线连接模块与所述第二无线连接模块连接所述耳机收纳盒与翻译机一体化终端。

6.根据权利要求5所述的基于智能硬件的翻译***，其特征在于，所述无线耳机还包括第一充电模块、第一麦克风模块和第一扬声器模块，其中：

所述第一充电模块分别于所述第一麦克风模块、第一扬声器模块和第一无线连接模块相连；

所述第一麦克风模块用于接收音频，其输出端与所述第一无线连接模块相连；

所述第一扬声器模块用于翻译结果语音播报，其输入端与所述第一无线连接模块相连。

7.根据权利要求5所述的基于智能硬件的翻译***，其特征在于，所述耳机收纳盒与翻译机一体化终端还包括第二充电模块、第二麦克风模块、第二扬声器模块、离线翻译模块网络连接模块、显示模块和拍照模块，其中：

所述第二充电模块分别与所述第二无线连接模块、第二麦克风模块、第二扬声器模块、离线翻译模块、网络连接模块、显示模块和拍照模块相连；

所述第二麦克风模块用于接收音频信息，其输出端与所述离线翻译模块的输入端相连；

所述第二扬声器模块用于翻译结果语音播报，其输入端与所述离线翻译模块的输出端相连；

所述离线翻译模块还与所述第二无线连接模块相连；

所述网络连接模块与所述第二无线连接模块相连；

所述显示模块包括显示与触摸功能，为翻译的基本操作及翻译结果提供可视化界面显示以及触摸按键功能，与所述离线翻译模块与网络连接模块相连；

所述拍照模块用于获取图像信息，并识别图像中的文本信息，与所述离线翻译模块与网络连接模块相连。

8.根据权利要求7所述的基于智能硬件的翻译***，其特征在于，还包括云端服务器，所述云端服务器能根据预设的翻译模式输出翻译结果，通过所述网络连接模块与所述耳机收纳盒与翻译机一体化终端相连。

9.根据权利要求5所述的基于智能硬件的翻译***，其特征在于，还包括一智能终端，所述第一无线连接模块通过所述智能终端与所述第二无线连接模块相连，所述智能终端还与云端服务器连接，所述云端服务器根据预设的翻译模式输出翻译结果。

10.根据权利要求5-9任一项所述的基于智能硬件的翻译***，其特征在于，所述翻译***支持三种及以上的语言互相翻译，所述第二无线连接***可连接多个所述无线耳机，实现多方语言会谈翻译。