CN109584862B

CN109584862B - 图像处理装置和方法

Info

Publication number: CN109584862B
Application number: CN201710913131.2A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2024-01-12
Anticipated expiration: 2037-09-29
Also published as: CN109584862A

Abstract

本发明公开了一种图像处理装置，包括：用于接收语音信号和待处理图像的接收模块；用于根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域的转换模块，所述目标区域为所述待处理图像的处理区域；用于根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理的处理模块。采用本发明实施例可以实现输入语音即可对图像进行处理的功能，节省了用户在图像处理之前学习图像处理软件的时间，提高了用户体验。

Description

图像处理装置和方法

技术领域

本发明涉及图像处理领域，尤其涉及一种图像处理装置和方法。

背景技术

用户在拍完照片后，为了展现更好的图像效果，会对通过电脑中的PS软件或者手机中的修图软件对图像进行处理。

但是，在使用电脑中PS软件或者手机中的修图软件对图像处理之前，用户需要学习掌握软件的使用方法，并且在掌握软件的使用方法后，需要手动输入指令来控制电脑或者手机进行修图操作。这种方式对于用户来说，既耗费时间，并且用户体验差。

发明内容

本发明实施例提供一种图像处理装置及方法，实现了输入语音即可对图像进行处理的功能，节省了用户在图像处理之前学习图像处理软件的时间，提高了用户体验。

第一方面，本发明实施例提供一种图像处理装置，包括：

接收模块，用于接收语音信号和待处理图像；

转换模块，用于根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为所述待处理图像的处理区域；

处理模块，用于根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述转换模块具体用于：

将所述语音信号通过语音识别技术转换成文本信息；

将所述文本信息通过自然语言处理技术和所述目标语音指令转换模型转换成所述图像处理指令；

根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

在一种可行的实施例中，所述转换模块还具体用于：

将所述语音信号通过语音识别技术、语义理解技术和所述目标语音指令转换模型转换成所述图像处理指令；

在一种可行的实施例中，所述图像处理装置还包括：

存储模块，用于存储所述文本信息或者所述图像处理指令或者所述目标区域。

在一种可行的实施例中，其特征在于，所述处理模块具体用于：

在预设时间窗口内从所述存储模块中获取M条图像处理指令，所述M为大于1的整数；

根据所述M条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述处理模块还具体用于：

删除所述M条图像处理指令中，功能相同的图像处理指令，以得到N条图像处理指令，所述N为小于所述M的整数；

根据所述N条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述转换模块用于：

对语音指令转换模型进行自适应训练，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述转换模块对所述语音指令转换模型进行自适应训练是离线进行的或者是在线进行的。

在一种可行的实施例中，所述转换模块对所述语音指令转换模块进行自适应训练是有监督的或者是无监督的。

在一种可行的实施例中，所述转换模块还用于：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；

根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述图像处理装置还包括：

训练模块，用于根据语音指令转换模型将上述语音信号换成预测指令；确定所述预测指令与其对应的指令集合的相关系数；根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

在一种可行的实施例中，所述处理模块用于：

对图像处理模型进行自适应训练，以得到所述目标图像处理模型。

在一种可行的实施例中，所述处理模块对所述图像处理模型进行自适应训练是离线进行的或者是在线进行的。

在一种可行的实施例中，所述处理模块对所述图像处理模型进行自适应训练是有监督或者无监督的。

在一种可行的实施例中，所述处理模块还用于：

根据所述图像处理模型对所述待处理图像进行处理，以得到预测图像；

确定所述预测图像与其对应的目标图像的相关系数；

根据所述预测图像与其对应的目标图像的相关系数优化所述图像处理模型，以得到所述目标图像处理模型。

在一种可行的实施例中，所述训练模块还用于：

确定所述预测图像与其对应的目标图像的相关系数；

第二方面，本发明实施例提供了一种图像处理方法，包括：

接收语音信号和待处理图像；

根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为所述待处理图像的处理区域；

根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，包括：

将所述语音信号通过语音识别技术转换成文本信息；

将所述语音信号通过语音识别技术、语义理解技术和所述语音指令转换模型转换成所述图像处理指令；

在一种可行的实施例中，所述根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述待处理图像的待处理区域包括：

根据所述图像处理指令中的语义区域的粒度，将所述待处理图像分割为M 个区域，所述M个区域为粒度相同的区域；

根据所述图像处理指令，从所述M个区域中获取所述目标区域。

在一种可行的实施例中，所述方法还包括：

存储所述文本信息或者所述图像处理指令或者所述目标区域。

在一种可行的实施例中，所述根据所述图像处理指令对所述目标区域进行处理，包括：

在一种可行的实施例中，所述根据所述M条图像处理指令和所述目标图像处理模型对所述目标区域进行处理，包括：

在一种可行的实施例中，所述接收语音信号和待处理图像之前，所述方法还包括：

在一种可行的实施例中，所述对所述语音指令转换模型进行自适应训练是离线进行的或者是离线进行的。

在一种可行的实施例中，所述对所述语音指令转换模块进行自适应训练是有监督的或者是无监督的。

在一种可行的实施例中，所述对语音指令转换模型进行自适应训练，以得到所述目标语音指令转换模型，包括：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；

在一种可行的实施例中，所述对所述图像处理模型进行自适应训练是离线进行的或者是离线进行的。

在一种可行的实施例中，所述对所述图像处理模型进行自适应训练是有监督或者无监督的。

在一种可行的实施例中，所述对图像处理模型进行自适应训练，以得到所述目标图像处理模型，包括：

确定所述预测图像与其对应的目标图像的相关系数；

可以看出，在本发明实施例的方案中，图像处理装置的接收模块获取语音信号和待处理图像；图像处理装置的转换模块根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为所述待处理图像的处理区域；图像处理装置的处理模块根据所述图像处理指令和所述目标语音指令转换模型对所述目标区域进行处理。与现有的图像处理技术相比，本发明通过语音进行图像处理，节省了用户在进行图像处理前学习图像处理软件的时间，提高了用户体验。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种图像处理装置的结构示意图；

图2为本发明实施例提供的另一种图像处理装置的局部结构示意图；

图3为本发明实施例提供的另一种图像处理装置的局部结构示意图；

图4为本发明实施例提供的另一种图像处理装置的局部结构示意图；

图5为本发明实施例提供的一种芯片的结构示意图；

图6为本发明实施例提供的另一种芯片的结构示意图；

图7为本发明实施例提供的一种图像处理方法的流程示意图；

具体实施方式

以下分别进行详细说明。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

第一方面，本发明实施例提供的一种图像处理装置的结构示意图。如图1 所示，该图像处理装置100包括：

接收模块101，用于接收语音信号和待处理图像。

可选地，上述图像处理装置100还包括预处理模块，上述接收模块101接收到上述语音信号后，上述预处理模块对该语音信号进行降噪处理。

可选地，接收模块101包括一音频采集单元，该音频采集单元可为语音传感器、麦克风、拾音器获取其他音频采集设备。

具体的，上述接收装置101在接收上述语音信号时，还接收环境声音信号。上述预处理模块根据上述环境声音信号对上述语音信号进行降噪处理。该环境声音信号对上述语音信号来说是噪声。

进一步地，上述该音频采集单元可包括对麦克风阵列，既可用于采集上述语音信号和上述环境声音信号，又实现了降噪处理。

可选地，在一种可行的实施例中，上述图像处理装置还包括第一存储模块和第二存储模块。上述接收装置接收到上述语音信号和上述待处理图像后，上述图像处理装置将上述语音信号和上述待处理图像分别存储到第一存储模块和第二存储模块中。

可选地，上述第一存储模块和上述第二存储模块可为同一存储模块，也可为不同的存储模块。

转换模块102，用于根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为所述待处理图像的处理区域。

可选地，上述转换模块102在根据语音识别技术、自然语言处理技术和图像识别技术将所述语音信号转换成图像处理指令和目标区域之前，上述转换模块从上述第一存储模块中获取上述语音处理信号。

其中，所述转换模块102包括：

第一语音识别单元1021，用于将所述语音信号通过语音识别技术转换成文本信息；

语义理解单元1022，用于将所述文本信息通过自然语言处理技术和所述目标语音指令转换模型转换成所述图像处理指令；

第一图像识别单元1023，用于根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分，获取所述目标区域。

进一步地，上述转换模块102还包括：

获取单元1026，用于获取上述图像处理指令中的语义区域的粒度。

举例说明上述语义区域，假设上述图像处理装置100根据语音信号确定对上述目标区域为人脸区域时，则上述语义区域为上述待处理图像中的人脸区域，上述图像处理装置以人脸为粒度，获取上述待处理图像中的多个人脸区域；当上述目标区域为背景，上述图像处理装置将上述待处理图像划分为背景区域和非背景区域；当上述目标区域为红颜色区域时，上述图像处理装置将上述待处理图像按照颜色划分为不同颜色的区域。

具体地，本发明中使用的语音识别技术包括但不限于采用人工神经网络(Artificial Neural Network，ANN)、隐马尔科夫模型(Hidden Markov Model， HMM)等模型，上述第一语音识别单元可根据上述语音识别技术处理上述语音信号；上述自然语言处理技术包括但不限于利用统计机器学习、ANN等方法，上述语义理解单元可根据上述自然语言处理技术提取出语义信息；上述图像识别技术包括但不限于利用基于边缘检测的方法、阈值分割方法、区域生长与分水岭算法、灰度积分投影曲线分析、模板匹配、可变形模板、Hough变换、Snake 算子、基于Gabor小波变换的弹性图匹配技术、主动形状模型和主动外观模型等方法等算法，上述图像识别单元可根据上述图像识别技术将上述待处理图像分割成不同的区域。

在一种可行的实施例中，上述语音识别单元1021将上述语音信号通过上述语音识别技术转换成文本信息，并将该文本信息保存到上述第一存储模块中。上述语义理解单元1022从上述第一存储模块中获取上述文本信息，并将该文本信息通过自然语言处理技术和上述目标语音指令转换模型转换成图像处理指令，并将图像处理指令保存到上述第一存储模块中；上述第一图像识别单元1023根据上述图像处理指令中的语义区域的粒度和图像识别技术对上述待处理图像进行区域划分，获取上述目标区域，并将上述划分结果和上述目标区域存储到上述第二存储模块中。

在一种可行的实施例中，上述转换模块102也可以包括：

语音识别单元1025，用于根据语音识别技术、自然语言处理技术和所述目标语音指令转换模型将上述语音信号直接转化为上述图像处理指令，并将该图像处理指令保存到第一存储模块中；

第二图像识别单元1026，根据上述图像处理指令对上述待处理图像进行操作的语义区域的粒度，将该待处理图像按照该语义区域的粒度进行划分，获取目标区域，该目标区域为对上述待处理图像进行处理的区域，并将划分后的结果以及上述目标区域存储到第二存储模块中。

可选地，在上述接收模块101接收上述语音信号和上述待处理图像之前，上述转换模块102对语音指令转换模型进行自适应训练，以得到上述目标语音指令转换模型。

其中，上述对语音指令转换模型进行自适应训练是离线进行的或者是在线进行的。

具体地，上述对语音指令转换模型进行自适应训练是离线进行的具体是上述转换模块102在其硬件的基础上对上述语音指令转换模型进行自适应训练，以得到目标语音指令转换模型；上述对语音指令转换模型进行自适应训练是在线进行的具体是一个不同于上述转换模块的云端服务器对上述语音指令转换模型进行自适应训练，以得到目标语音指令转换模型。上述转换模块102在需要使用上述目标语音指令转换模型时，该转换模块102从上述云端服务器中获取该目标语音指令转换模型。

可选地，上述对语音指令转换模型进行自适应训练是有监督的或者是监督的。

具体地，上述对上述语音指令转换模型进行自适应训练是有监督的具体为：

上述转换模块102根据语音指令转换模型将上述语音信号换成预测指令；然后确定上述预测指令与其对应的指令集合的相关系数，该指令集合为人工根据语音信号得到的指令的集合；上述转换模块102根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

在一种可行的实施例中，上述图像处理装置100还包括：

训练模块105，用于根据所述语音指令转换模型将所述语音信号换成预测指令；确定所述预测指令与其对应的指令集合的相关系数；根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

举例说明，上述对语音指令转换模型进行自适应训练是有监督的具体包括：上述转换模块102或者训练模块105接收一段包含相关命令的语音信号，如改变图像的颜色、旋转图片等。每种命令对应一个指令集合。对用于自适应训练的输入的语音信号来说，对应的指令集合是已知的，上述转换模块102或者训练模块105以这些语音信号作为语音指令转换模型的输入数据，获取输出后的预测指令。上述转换模块102或者训练模块105计算上述预测指令与其对应的指令集合的相关系数，并根据该自适应地更新上述语音指令转换模型中的参数 (如权值、偏置等等)，以提高上述语音指令转换模型的性能，进而得到上述目标语音指令转换模型。

所述图像处理装置100还包括：

存储模块104，用于存储所述文本信息或者所述图像处理指令或者所述目标区域。

在一种可行的实施例中，上述存储模块104与上述第一存储模块和第二存储模块可以是同一个存储模块，还可以是不同的存储模块。

处理模块103，用于根据所述图像处理指令和目标图像处理模型对所述待处理图像进行处理。

其中，所述处理模块103包括：

获取单元1031，用于在预设时间窗口内从所述存储模块中获取M条图像处理指令，所述M为大于1的整数；

处理单元1032，用于根据所述M条图像处理指令和所述目标图像处理模型对所述目标区域进行处理。

可选地，所述处理单元1032用于：

具体地，上述预设时间窗口可以理解成预设时长。在预设时长内上述获取单元1031从上述存储模块104中获取M条图像处理指令后，上述处理单元1032 对上述M条图像处理指令进行两两比较，将该M条图像处理指令中功能相同的指令删除，得到N条图像处理指令。上述处理单元1032根据上述N条处理指令和上述目标图像处理模型对上述待处理图像进行处理。

举例说明，上述处理单元1032对上述M条图像处理指令进行两两比较。当图像处理指令A和图像处理指令B一样时，上述处理单元1032删除上述图像处理指令A和B中开销最大的一条；当图像处理指令A和图像处理指令B不一样时，上述处理单元1032获取上述图像处理指令A和上述图像处理指令B的相似系数。当该相似系数大于相似阈值时，确定上述图像处理指令A和上述图像处理指令B功能相同，上述处理单元1032删除上述图像处理指令A和B中开销最大的一条；当上述相似系数小于上述相似阈值时，上述处理单元1032确定上述图像处理指令A和B的功能不同。该图像处理指令A和B为上述M条处理指令中的任意两条。

具体地，针对上述处理模块103，其输入和输出均为图像。上述处理模块 103可以通过包括但不限定于ANN和传统计算机视觉方法对上述待处理图像进行的处理包括但不局限于：美体(例如美腿，隆胸)，换脸、美化脸，换物体(猫换狗、斑马变马，苹果换桔子等)，换背景(后面的森林换成田野)，去遮挡(例如人脸遮住了一个眼睛，重新把眼睛重构出来)，风格转换(一秒钟变梵高画风)，位姿转换(例如站着变坐着，正脸变侧脸)、非油画变油画、更换图像背景的颜色和更换图像中物体所处的季节背景。

可选地，在上述接收模块101接收上述语音信号和上述待处理图像之前，上述处理模块103对图像处理模型进行自适应训练，以得到上述目标图像处理模型。

其中，上述对图像处理模型进行自适应训练是离线进行的或者是在线进行的。

具体地，上述对图像处理模型进行自适应训练是离线进行的具体是上述处理模块103在其硬件的基础上对上述图像处理模型进行自适应训练，以得到目标语音指令转换模型；上述对图像处理模型进行自适应训练是在线进行的具体是一个不同于上述转换模块的云端服务器对上述图像处理模型进行自适应训练，以得到目标图像处理模型。上述处理模块103在需要使用上述目标图像处理模型时，该处理模块103从上述云端服务器中获取该目标图像处理模型。

可选地，上述对图像处理模型进行自适应训练是有监督的或者是监督的。

具体地，上述对上述图像处理模型进行自适应训练是有监督的具体为：

上述处理模块103根据图像处理模型将上述语音信号换成预测图像；然后确定上述预测图像与其对应的目标图像的相关系数，该目标为人工根据语音信号对待处理图像进行处理得到的图像；上述处理模块103根据所述预测图像与其对应的目标图像的相关系数优化所述图像处理模型，以得到所述目标图像处理模型。

在一种可行的实施例中，上述图像处理装置100还包括：

举例说明，上述对图像处理模型进行自适应训练是有监督的具体包括：上述处理模块103或者训练模块105接收一段包含相关命令的语音信号，如改变图像的颜色、旋转图片等。每种命令对应一张目标图像。对用于自适应训练的输入的语音信号来说，对应的目标图像是已知的，上述处理模块103或者训练模块105以这些语音信号作为图像处理模型的输入数据，获取输出后的预测图像。上述处理模块103或者训练模块105计算上述预测图像与其对应的目标图像的相关系数，并根据该自适应地更新上述图像处理模型中的参数(如权值、偏置等等)，以提高上述图像处理模型的性能，进而得到上述目标图像处理模型。

在一种可行的实施例中，所述图像处理装置100的转换模块102可以用于对转换模块102中的语音指令转换模型进行自适应训练，以得到目标语音指令转换模型：所述图像处理装置100的处理模块103可以用于对处理模块103中的图像处理模型进行自适应训练，以得到目标图像处理模型。

在一种可行的实施例中，所述图像处理装置100还包括：

训练模块105，用于对转换模块102中的语音指令转换模型和处理模块103 中的图像处理模型分别进行自适应训练，以得到目标语音指令转换模型和目标图像处理模型。

上述训练模块105可以通过有监督的方法或者无监督的方法调整上述语音指令转换模型中或者上述图像处理模型中的结构与参数，以提高该语音指令转换模型或者图像处理模型的性能，最终得到目标语音指令转换模型或者目标图像处理模型。

在本实施例中，图像处理装置100是以模块的形式来呈现。这里的“模块”可以指特定应用集成电路(application-specific integrated circuit，ASIC)，执行一个或多个软件或固件程序的处理器和存储器，集成逻辑电路，和/或其他可以提供上述功能的器件。此外，以上接收模块101、转换模块102、处理模块103、存储模块104和训练模块105可通过图5、图6、图7所示的人工神经网络芯片来实现。

可选地，上述图像处理装置100的转换模块102或者处理模块103的处理单元1032为人工神经网络芯片，即上述转换模块102和上述处理模块103的处理单元1032是两块独立的人工神经网络芯片，其结构分别如图5和图6所示。

在本装置中，转换模块102和处理模块103既可以串行执行，也可以通过软流水的方式执行，即处理模块103在处理上一个图像时，转换模块102可以处理下一个图像，这样可以提高硬件的吞吐率，提高图像处理效率。

参见图5，图5为一种人工神经网络芯片的结构框架示意图。如图5所示，该芯片包括：

控制单元510、存储单元520、输入输出单元530。

其中，上述控制单元510包括：

指令缓存单元511，用于存储待执行的指令，该指令包括神经网络运算指令和通用运算指令。

在一种实施方式中，指令缓存单元511可以是重排序缓存。

指令处理单元512、用于从指令缓存单元获取神经网络运算指令或通用运算指令，并对该指令进行处理并提供给上述神经网络运算单元519。其中，上述指令处理单元512包括：

取指模块513，用于从指令缓存单元中获取指令；

译码模块514，用于对获取的指令进行译码；

指令队列模块515，用于对译码后的指令进行顺序存储。

标量寄存模块516，用于存储上述指令对应的操作码和操作数，包括神经网络运算指令对应的神经网络运算操作码和操作数、以及通用运算指令对应的通用运算操作码和操作数。

处理依赖关系模块517，用于对上述指令处理单元512发来的指令及其对应的操作码和操作数进行判断，判断该指令与前一指令是否访问相同的数据，若是，将该指令存储在存储队列单元518中，待前一指令执行完毕后，将存储队列单元中的该指令提供给上述神经网络运算单元519；否则，直接将该指令提供给上述神经网络运算单元519。

存储队列单元518，用于在指令访问存储单元时，存储访问同一存储空间的连续两条指令。

具体地，为了保证上述连续两条指令执行结果的正确性，当前指令如果被检测到与之前指令的数据存在依赖关系，该连续两条指令必须在上述存储队列单元518内等待至依赖关系被消除，才可将该连续两条指令提供给上述神经网络运算单元。

神经网络运算单元519，用于处理指令处理单元或者存储队列单元传输过来的指令。

存储单元520包括神经元缓存单元521和权值缓存单元522，神经网络数据模型存储于上述神经元缓存单元521和权值缓存单元522中。

输入输出单元530，用于输入语音信号，并输出图像处理指令。

在一个实施方式中，存储单元520可以是高速暂存存储器，输入输出单元 530可以是IO直接内存存取模块。

具体地，上述芯片500即上述处理模块102将语音信号转换为图像处理指令具体包括：

步骤501、取指令模块513从指令缓存单元511取出一条用于语音识别的运算指令，并将运算指令送往译码模块514。

步骤502、译码模块514对运算指令译码，并将译码后的指令送往指令队列单元515。

步骤503、从标量寄存模块516中获取所述指令对应的神经网络运算操作码和神经网络运算操作数。

步骤504、指令被送往处理依赖关系模块517；处理依赖关系模块517对指令对应的操作码和操作数进行判断，判断指令与之前尚未执行完的指令在数据上是否存在依赖关系，如果不存在，将所述指令直接送往神经网络运算单元519；如果存在，则指令需要在存储队列单元518中等待，直至其与之前尚未执行完的指令在数据上不再存在依赖关系，然后将所述指令送往神经网络运算单元519。

步骤505、神经网络运算单元519根据指令对应的操作码和操作数确定所需数据的地址和大小，从存储单元520取出所需数据，包括语音指令转换模型数据等。

步骤506、神经网络运算单元519执行所述指令对应的神经网络运算，完成相应处理，得到图像处理指令，并将图像处理指令写回存储单元520。

参见图6，图6为另一种人工神经网络芯片的结构框架示意图。如图6所示，该芯片包括：

控制单元610、存储单元620、输入输出单元630。

其中，上述控制单元610包括：

指令缓存单元611，用于存储待执行的指令，该指令包括神经网络运算指令和通用运算指令。

在一种实施方式中，指令缓存单元611可以是重排序缓存。

指令处理单元612、用于从指令缓存单元获取神经网络运算指令或通用运算指令，并对该指令进行处理并提供给上述神经网络运算单元619。其中，上述指令处理单元612包括：

取指模块613，用于从指令缓存单元中获取指令；

译码模块614，用于对获取的指令进行译码；

指令队列模块615，用于对译码后的指令进行顺序存储。

标量寄存模块616，用于存储上述指令对应的操作码和操作数，包括神经网络运算指令对应的神经网络运算操作码和操作数、以及通用运算指令对应的通用运算操作码和操作数。

处理依赖关系模块617，用于对上述指令处理单元612发来的指令及其对应的操作码和操作数进行判断，判断该指令与前一指令是否访问相同的数据，若是，将该指令存储在存储队列单元618中，待前一指令执行完毕后，将存储队列单元中的该指令提供给上述神经网络运算单元619；否则，直接将该指令提供给上述神经网络运算单元619。

存储队列单元618，用于在指令访问存储单元时，存储访问同一存储空间的连续两条指令。

具体地，为了保证上述连续两条指令执行结果的正确性，当前指令如果被检测到与之前指令的数据存在依赖关系，该连续两条指令必须在上述存储队列单元618内等待至依赖关系被消除，才可将该连续两条指令提供给上述神经网络运算单元。

神经网络运算单元619，用于处理指令处理单元或者存储队列单元传输过来的指令。

存储单元620包括神经元缓存单元621和权值缓存单元622，神经网络数据模型存储于上述神经元缓存单元621和权值缓存单元622中。

输入输出单元630，用于输入图像处理指令和待处理图像，并输出处理后的图像。

在一个实施方式中，存储单元620可以是高速暂存存储器，输入输出单元 630可以是IO直接内存存取模块。

上述芯片即上述处理模块103的处理单元1032进行图像处理的具体步骤包括：

步骤601、取指令模块613从指令缓存单元611取出一条转换模块生成的图像处理的指令，并将运算指令送往译码模块614。

步骤602、译码模块614对运算指令译码，并将译码后的指令送往指令队列单元815。

步骤603、从标量寄存模块616中获取所述指令对应的神经网络运算操作码和神经网络运算操作数。

步骤604、指令被送往处理依赖关系模块617；处理依赖关系模块617对指令对应的操作码和操作数进行判断，判断指令与之前尚未执行完的指令在数据上是否存在依赖关系，如果不存在，将所述指令直接送往神经网络运算单元619；如果存在，则指令需要在存储队列单元618中等待，直至其与之前尚未执行完的指令在数据上不再存在依赖关系，然后将所述指令对应的微指令送往神经网络运算单元619。

步骤605、神经网络运算单元619根据所述指令对应的操作码和操作数确定所需数据的地址和大小，从存储单元620取出所需数据，包括待处理图像、图像处理模型数据等。

步骤606、神经网络运算单元619执行所述指令对应的神经网络运算，完成相应处理，并将处理结果写回存储单元620。

需要说明的是，上述转换模块102和上述处理模块103的处理单元1032可均为人工神经网络芯片或者通用处理芯片，或者上述转换模块102和上述处理模块103的处理单元1032中，一个为人工神经网络芯片，一个为通用处理芯片。

可选地，上述图像处理装置可为数据处理装置、机器人、电脑、平板电脑、智能终端、手机、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储或者可穿戴设备。

可以看出，在本发明实施例的方案中，接收模块接收获取语音信号和待处理图像；转换模块根据目标语音指令转换模型将所述语音信号转换成图像处理指令和对所述待处理图像的待处理区域；处理模块根据所述图像处理指令和目标图像处理模型对所述待处理图像的处理区域进行处理。与现有的图像处理技术相比，本发明通过语音进行图像处理，节省了用户在进行图像处理前学习图像处理软件的时间，提高了用户体验。

第二方面，本发明实施例还提供一种图像处理装置，包括：

接收模块，用于接收语音信号和待处理图像；

其中，所述转换模块具体用于：

将所述语音信号通过语音识别技术转换成文本信息；

其中，所述转换模块还具体用于：

其中，所述图像处理装置还包括：

其中，所述处理模块具体用于：

其中，所述处理模块还具体用于：

删除所述M条图像处理指令中，功能相同的图像处理指令，以得到N条图像处理指令；

其中，所述转换模块用于：

其中，所述转换模块对所述语音指令转换模型进行自适应训练是离线进行的或者是在线进行的。

其中，所述转换模块对所述语音指令转换模块进行自适应训练是有监督的或者是无监督的。

其中，所述转换模块还用于：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；

其中，所述图像处理装置还包括：

训练模块，用于根据所述语音指令转换模型将所述语音信号换成预测指令；确定所述预测指令与其对应的指令集合的相关系数；根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

其中，所述处理模块用于：

其中，所述处理模块对所述图像处理模型进行自适应训练是离线进行的或者是在线进行的。

其中，所述处理模块对所述图像处理模型进行自适应训练是有监督或者无监督的。

其中，所述处理模块还用于：

确定所述预测图像与其对应的目标图像的相关系数；

其中，所述训练模块还用于：

确定所述预测图像与其对应的目标图像的相关系数；

需要指出的是，上述图像处理装置的实现过程可以参见图1所示的实施例的具体实现过程，在此不再赘述。

第三方面，本发明实施例提供的一种图像处理方法。如图7所示，该方法包括：

S701、图像处理装置接收语音信号和待处理图像。

S702、所述图像处理装置根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为所述待处理图像的处理区域。

将所述语音信号通过语音识别技术转换成文本信息；

在一种可行的实施例中，所述方法还包括：

S703、所述图像处理装置根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理。

在一种可行的实施例中，所述根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理，包括：

对语音指令转换模型进行自适应训练，以得到目标语音指令转换模型。

在一种可行的实施例中，所述对语音指令转换模型进行自适应训练，以得到目标语音指令转换模型，包括：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；

对图像处理模型进行自适应训练，以得到目标图像处理模型。

在一种可行的实施例中，所述对图像处理模型进行自适应训练，以得到目标图像处理模型，包括：

确定所述预测图像与其对应的目标图像的相关系数；

需要说明的是，图7所示的方法的各个步骤的具体实现过程可参见上述图像处理装置的具体实现过程，在此不再叙述。

本发明实施例还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时包括上述方法实施例中记载的任何一种图像处理方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上上述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像处理装置，其特征在于，包括：

接收模块，用于接收语音信号和待处理图像；

转换模块，用于根据目标语音指令转换模型将所述语音信号转换成图像处理指令和目标区域，所述目标区域为所述待处理图像的处理区域；所述目标区域为所述转换模块根据所述图像处理指令中的语义区域的粒度和图像识别技术对所述待处理图像进行区域划分得到的；

处理模块，用于根据所述图像处理指令和目标图像处理模型对所述目标区域进行处理；

所述处理模块具体用于：

在预设时间窗口内从所述图像处理装置的存储模块中获取M条图像处理指令，所述M为大于1的整数；

2.根据权利要求1所述的图像处理装置，其特征在于，所述转换模块具体用于：

将所述语音信号通过语音识别技术转换成文本信息；

将所述文本信息通过自然语言处理技术和所述目标语音指令转换模型转换成所述图像处理指令。

3.根据权利要求1所述的图像处理装置，其特征在于，所述转换模块还具体用于：

将所述语音信号通过语音识别技术、语义理解技术和所述目标语音指令转换模型转换成所述图像处理指令。

4.根据权利要求2所述的图像处理装置，其特征在于，所述图像处理装置还包括：

5.根据权利要求1-4任一项所述的图像处理装置，其特征在于，所述处理模块还具体用于：

6.根据权利要求1所述的图像处理装置，其特征在于，所述转换模块用于：

7.根据权利要求6所述的图像处理装置，其特征在于，所述转换模块对所述语音指令转换模型进行自适应训练是离线进行的或者是在线进行的。

8.根据权利要求6或7所述的图像处理装置，其特征在于，所述转换模块对所述语音指令转换模块进行自适应训练是有监督的或者是无监督的。

9.根据权利要求6所述的图像处理装置，其特征在于，所述转换模块还用于：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；

10.根据权利要求1所述的图像处理装置，其特征在于，所述图像处理装置还包括：

训练模块，用于根据语音指令转换模型将所述语音信号换成预测指令；确定所述预测指令与其对应的指令集合的相关系数；根据所述预测指令与其对应的指令集合的相关系数优化所述语音指令转换模型，以得到所述目标语音指令转换模型。

11.根据权利要求1所述的图像处理装置，其特征在于，所述处理模块用于：

12.根据权利要求11所述的图像处理装置，其特征在于，所述处理模块对所述图像处理模型进行自适应训练是离线进行的或者是在线进行的。

13.根据权利要求11或12所述的图像处理装置，其特征在于，所述处理模块对所述图像处理模型进行自适应训练是有监督或者无监督的。

14.根据权利要求11所述的图像处理装置，其特征在于，所述处理模块还用于：

确定所述预测图像与其对应的目标图像的相关系数；

15.根据权利要求1所述的图像处理装置，其特征在于，所述训练模块还用于：

确定所述预测图像与其对应的目标图像的相关系数；

16.根据权利要求1所述的图像处理装置，其特征在于，所述接收语音信号和待处理图像之前，所述图像处理装置还用于：

17.根据权利要求16所述的图像处理装置，其特征在于，对所述语音指令转换模型进行自适应训练是离线进行的或者是离线进行的。

18.根据权利要求16或17所述的图像处理装置，其特征在于，对所述语音指令转换模块进行自适应训练是有监督的或者是无监督的。

19.根据权利要求16所述的图像处理装置，其特征在于，所述图像处理装置具体用于：

根据所述语音指令转换模型将所述语音信号换成预测指令；

确定所述预测指令与其对应的指令集合的相关系数；