CN109800652A

CN109800652A - 文字翻译方法及装置

Info

Publication number: CN109800652A
Application number: CN201811578079.0A
Authority: CN
Inventors: 王泽�
Original assignee: Wuhan Purvar Big Data Technology Co Ltd
Current assignee: Wuhan Purvar Big Data Technology Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-24

Abstract

本发明实施例提供一种文字翻译方法及装置，属于人工智能技术领域。该方法包括：获取由智能眼镜拍摄得到的包含有原始文字的原始图像，原始文字为待翻译的文字；识别图像中的原始文字，并对原始文字进行翻译。本发明实施例提供的方法，通过获取由智能眼镜拍摄得到的包含有原始文字的原始图像，识别图像中的原始文字，并对原始文字进行翻译。由于不需要用户手动输入原始文字，且不需要用户主动拍照，而是通过智能眼镜自动获取包含原始文字的图像，并对原始文字进行翻译，从而操作比较简单，且用户体验较好。

Description

文字翻译方法及装置

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种文字翻译方法及装置。

背景技术

目前在对文字进行翻译时，相关技术中通常有如下几种方法。第一种方法是通过用户手动输入文字进行翻译。第二种方法是由用户对实景进行拍照，识别照片的文字，然后进行翻译。第三种方法是通过手机摄像头扫描进行实时翻译。针对第一种方法，由于需要手动输入，从而效率较低，用户体验差。针对第二种方法，照片模糊或者文字不全等都会影响翻译效果，而且人机交互过于复杂，影响用户体验。针对第三种方法，由于用户需要通过摄像头扫描文字，从而用户体验依然不好，且对部分扫描的图像(距离用户较远的图像)操作更加困难。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文字翻译方法及装置。

根据本发明实施例的第一方面，提供了一种文字翻译方法，包括：

获取由智能眼镜拍摄得到的包含有原始文字的原始图像，原始文字为待翻译的文字；

识别图像中的原始文字，并对原始文字进行翻译。

本发明实施例提供的方法，通过获取由智能眼镜拍摄得到的包含有原始文字的原始图像，识别图像中的原始文字，并对原始文字进行翻译。由于不需要用户手动输入原始文字，且不需要用户主动拍照，而是通过智能眼镜自动获取包含原始文字的图像，并对原始文字进行翻译，从而操作比较简单，且用户体验较好。

根据本发明实施例的第二方面，提供了一种文字翻译装置，包括：

获取模块，用于获取由智能眼镜拍摄得到的包含有原始文字的原始图像，原始文字为待翻译的文字；

翻译模块，用于识别图像中的原始文字，并对原始文字进行翻译。

根据本发明实施例的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文字翻译方法。

根据本发明的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的文字翻译方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文字翻译方法的流程示意图；

图2为本发明实施例提供的一种文字翻译装置的结构示意图；

图3为本发明实施例提供的一种电子设备的框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于上述说明，本发明实施例提供了一种文字翻译方法。参见图1，该方法包括：

101、获取由智能眼镜拍摄得到的包含有原始文字的原始图像，原始文字为待翻译的文字。

其中，智能眼镜可以基于开源AR智能眼镜OpenEyeTap组装而成，本发明实施例对此不作具体限定。组装所使用的核心电子机械零件可以包括但不限于：控制电路板、微型显示屏、***头、***头适配器及分光镜等，本发明实施例对此也不作具体限定。

102、识别图像中的原始文字，并对原始文字进行翻译。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对别图像中的原始文字，并对原始文字进行翻译的方式作具体限定，包括但不限于：基于深度学习神经网络模型识别图像中的原始文字，并基于卷积神经网络模型对原始文字进行翻译。

基于上述实施例的内容，作为一种可选实施例，在识别图像中的原始文字，并对原始文字进行翻译之后，还包括：获取原始文字翻译后得到的目标文字，并将包含目标文字的视觉影像通过智能眼镜向用户进行展示。

本发明实施例提供的方法，通过获取原始文字翻译后得到的目标文字，并将包含目标文字的视觉影像通过智能眼镜向用户进行展示。由于可将原始图像中原始文字的翻译结果完整地呈现出来，用户只需带上眼镜即可看到翻译结果，从而操作简捷，用户体验较好。

基于上述实施例的内容，作为一种可选实施例，在将包含翻译结果的视觉影像通过智能眼镜向用户进行展示之前，还包括：将目标文字合成为目标图像，并获取智能眼镜拍摄到的当前现实环境图像，将目标图像与当前现实环境图像进行合成，得到视觉影像。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对将目标图像与当前现实环境图像进行合成，得到视觉影像的方式作具体限定，包括但不限于：基于原始图像的位置信息，将目标图像与当前现实环境图像进行合成，得到视觉影像。

基于上述实施例的内容，作为一种可选实施例，本发明实施例不对基于原始图像的位置信息，将目标图像与当前现实环境图像进行合成，得到视觉影像的方式作具体限定，包括但不限于：根据原始图像的位置信息以及目标图像的尺寸信息，确定目标图像在当前现实环境图像中需要合成的目标位置；基于目标位置，将目标图像与当前现实环境图像进行合成，得到视觉影像。

具体地，首先可利用图像处理技术获取环境中需要翻译的图像，记录图像的空间位置信息和方向；然后通过机器学习相关算法，识别图像中的文字并翻译成目标语言，并使用底层图形API将翻译后的文字合成一张图片；最后采用光学穿透式渲染技术，将合成的图片与现实中的图像合成一张二维图像，根据原始图像的位置信息和方向，以及二维图像的长宽属性，计算需要叠加的位置，显示视觉影像。

基于上述实施例的内容，作为一种可选实施例，所述原始图像为机器上功能键的功能说明图像或者为显示屏上的文字说明图像。具体地，本发明实施例提供的方法，可以应用于大型进口机器的维修场景上。由于是大型进口机器，其部分核心按键和显示屏上的功能说明内容，一般是以英文的形式呈现，理解起来比较困难，提供操作的复杂度，增加了很多不必要的时间成本。而本发明实施例通过智能眼镜聚焦机器上的功能键或者显示屏的文字内容，可以翻译成相关专业内容，通过AR完美地呈现出来。智能眼镜中的核心程序，可预留了一些接口，用于对接该工业领域的知识库***，对应比较复杂的功能说明，通过调用知识库***的API，对一些专有名词生成图形化解释说明，通过AR引擎渲染出来。

基于上述实施例的内容，本发明实施例还提供了一种文字翻译装置，该装置用于执行上述方法实施例中提供的文字翻译方法。参见图2，该装置包括：获取模块201及翻译模块202；其中，

获取模块201，用于获取由智能眼镜拍摄得到的包含有原始文字的原始图像，原始文字为待翻译的文字；

翻译模块202，用于识别图像中的原始文字，并对原始文字进行翻译。

基于上述实施例的内容，作为一种可选实施例，翻译模块202，用于基于深度学习神经网络模型识别图像中的原始文字，并基于卷积神经网络模型对原始文字进行翻译。

基于上述实施例的内容，作为一种可选实施例，该装置还包括：

展示模块，用于获取原始文字翻译后得到的目标文字，并将包含目标文字的视觉影像通过智能眼镜向用户进行展示。

合成模块，用于将目标文字合成为目标图像，并获取智能眼镜拍摄到的当前现实环境图像，将目标图像与当前现实环境图像进行合成，得到视觉影像。

基于上述实施例的内容，作为一种可选实施例，合成模块，用于基于原始图像的位置信息，将目标图像与当前现实环境图像进行合成，得到视觉影像。

基于上述实施例的内容，作为一种可选实施例，合成模块，用于根据原始图像的位置信息以及目标图像的尺寸信息，确定目标图像在当前现实环境图像中需要合成的目标位置；基于目标位置，将目标图像与当前现实环境图像进行合成，得到视觉影像。

基于上述实施例的内容，作为一种可选实施例，所述原始图像为机器上功能键的功能说明图像或者为显示屏上的文字说明图像。

本发明实施例提供的装置，通过获取由智能眼镜拍摄得到的包含有原始文字的原始图像，识别图像中的原始文字，并对原始文字进行翻译。由于不需要用户手动输入原始文字，且不需要用户主动拍照，而是通过智能眼镜自动获取包含原始文字的图像，并对原始文字进行翻译，从而操作比较简单，且用户体验较好。另外，通过获取原始文字翻译后得到的目标文字，并将包含目标文字的视觉影像通过智能眼镜向用户进行展示。由于可将原始图像中原始文字的翻译结果完整地呈现出来，用户只需带上眼镜即可看到翻译结果，从而操作简捷，用户体验较好。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行如下方法：获取由智能眼镜拍摄得到的包含有原始文字的原始图像，原始文字为待翻译的文字；识别图像中的原始文字，并对原始文字进行翻译。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：获取由智能眼镜拍摄得到的包含有原始文字的原始图像，原始文字为待翻译的文字；识别图像中的原始文字，并对原始文字进行翻译。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文字翻译方法，其特征在于，包括：

获取由智能眼镜拍摄得到的包含有原始文字的原始图像，所述原始文字为待翻译的文字；

识别所述图像中的所述原始文字，并对所述原始文字进行翻译。

2.根据权利要求1所述的方法，其特征在于，所述识别所述图像中的所述原始文字，并对所述原始文字进行翻译，包括：

基于深度学习神经网络模型识别所述图像中的原始文字，并基于卷积神经网络模型对所述原始文字进行翻译。

3.根据权利要求1所述的方法，其特征在于，所述识别所述图像中的所述原始文字，并对所述原始文字进行翻译之后，还包括：

获取所述原始文字翻译后得到的目标文字，并将包含所述目标文字的视觉影像通过所述智能眼镜向用户进行展示。

4.根据权利要求3所述的方法，其特征在于，所述将包含所述翻译结果的视觉影像通过所述智能眼镜向用户进行展示之前，还包括：

将目标文字合成为目标图像，并获取所述智能眼镜拍摄到的当前现实环境图像，将所述目标图像与所述当前现实环境图像进行合成，得到所述视觉影像。

5.根据权利要求4所述的方法，其特征在于，所述将所述目标图像与所述当前现实环境图像进行合成，得到所述视觉影像，包括：

基于所述原始图像的位置信息，将所述目标图像与所述当前现实环境图像进行合成，得到所述视觉影像。

6.根据权利要求5所述的方法，其特征在于，所述基于所述原始图像的位置信息，将所述目标图像与所述当前现实环境图像进行合成，得到所述视觉影像，包括：

根据所述原始图像的位置信息以及所述目标图像的尺寸信息，确定所述目标图像在所述当前现实环境图像中需要合成的目标位置；

基于所述目标位置，将所述目标图像与所述当前现实环境图像进行合成，得到所述视觉影像。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述原始图像为机器上功能键的功能说明图像或者为显示屏上的文字说明图像。

8.一种文字翻译装置，其特征在于，包括：

获取模块，用于获取由智能眼镜拍摄得到的包含有原始文字的原始图像，所述原始文字为待翻译的文字；

翻译模块，用于识别所述图像中的所述原始文字，并对所述原始文字进行翻译。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。