CN1338090A

CN1338090A - 使用编程的并行计算机实现图像处理功能和控制的数字摄像机

Info

Publication number: CN1338090A
Application number: CN99816096.2A
Authority: CN
Inventors: 托德·E·罗克奥夫; 罗伯特·兰格; 默里·***
Original assignee: INTENSYS Corp
Current assignee: INTENSYS Corp
Priority date: 1998-12-15
Filing date: 1999-12-15
Publication date: 2002-02-27
Also published as: TW429331B; JP2002532810A; AU2362200A; WO2000036562A9; WO2000036562A1; EP1141891A1

Abstract

一种数字摄像机装置,包括:用于产生图像数据的检测器。所述装置还包括用于处理检测的图像数据的并行处理器。编程的并行计算电路对产生的图像数据完成计算密集的图像处理功能。使用半导体高效编程并行处理结构,使得在所述数字成像装置中的性能对硬件的成本比最大,同时使得具有大的灵活性,能够生产多种产品。在特定的实施例中,编程的并行计算结构是指令缓存的SIMD计算机。

Description

使用编程的并行计算机实现图像处理功能和控制的数字摄像机

本发明涉及一种数字摄像机，尤其涉及一种使用编程的并行计算机实现图像操作功能的数字摄像机。

数字摄像机就其功能性、可靠性、方便性和成本而言，不论对于业余爱好者和专业人员都具有重大的优点。例如，曝光的胶卷一般必须经过化学显影才能看到图像，这是一种费时而昂贵的处理，而数字摄像机的图像可以通过摄像机上的LCD直接地看到，也可以在计算机上观看，可以使用彩色打印机打印，或者通过互联网共享。尽管有这些优点，但是相对于主流消费产品，数字摄像机目前仍然用得较少，只占市场销售的一个小的份额。数字摄像机之所以不能被快速地采用，是因为目前的数字摄像机具有相对较高的成本，相对较低的图像质量。

图像序列(视频)的数字处理比静止图像的处理更是计算密集的。在每秒30帧时，数字视频的实时处理的计算能力要求是静止图像的处理几十倍。虽然目前数字视频用于电视会议以及包括DVD和摄像机在内的消费性产品，但是和静止的数字摄影相比，目前和数字视频相关的相当低的图像质量和高的成本意味着其被大量的采用还在较远的将来。

同样，对于数字成像应用，一般地说，常规的解决方案通常包括昂贵的专用电路，用于实现专用的计算密集的图像处理。例如，图1是由LSI Logic of Milpitas，California制造的DCAM-101“用于数字摄像机的单个芯片”的方块图。由图1可见，DCAM-100使用单独的硬件电路进行伽马校正、彩色空间变换和JPEG编码与译码。图2是说明另一种(一般的)数字摄像机的图像处理方案，其中对于若干个图像处理功能的每个功能使用单独的硬件电路。这种数字成像功能的分散阻碍了其发展，这是因为这使得这些产品不能容易地交换图像数据，并且产品制造者只顾及有限的规模经济。

此外，即使数字摄像机图像处理功能被编程(和专用硬件电路相反)，并且即使数字图像处理功能对于并行计算机被编程，也仍然是常规的被编程的图像处理器对于在图像的扫描线中的每个像素使用一个处理元件。例如参见Allan L.Fisher，Peter T.Highnam，和Todd E.Rockoff，“A four-processor Building Block for SIMDProcessor Arrays”，IEEE Journal of Solid State Circuits vol.25，No.2，April，1990，pp.369-375。上述的文章披露了一种扫描线阵列处理器(SLAP)结构(虽然不用于数字摄像机)，其由处理器的线性阵列(处理元件，或者“PE”)组成，所述阵列由广播指令用单指令多数据(SIMD)方式控制。图3是一种综合SLAP拓扑而得到的方块图。扫描线数据被串行地移动到像素数据移位寄存器302的各级中，其中的每一级用于扫描线中的一个像素，然后，通过根据广播指令并行地操作的PEP被并行地传递到PE的PEI中。

图4是说明对在SLAP中的PE分配图像数据的方块图，图5A-5E说明在SLAP中的三级流水线操作。不幸的是，随着被处理的图像分辨率的增加，所需的处理器的数量也增加，而大量的处理器不利于用于便携式装置例如数字摄像机中。

本发明是一种数字摄像机装置。该装置包括产生图像数据的检测器，并且还包括用于处理检测的图像数据的并行处理器。被编程的并行计算电路对产生的图像数据进行计算密集的图像处理功能。使用半导体高效编程并行处理结构，本发明使得在数字成像装置中的性能对硬件的成本的比为最大，同时具有大的灵活性，并且在数字成像装置领域内可以制造出许多不同的产品。在特定的实施例中，所述编程的并行计算结构是存储有指令的SIMD计算机。

按照本发明的另一个方面，用于处理图像数据的并行计算机用比图像的扫描线中的像素较少的处理元件处理图像数据。

图1是说明用于数字摄像机中的常规的单片处理器的方块图；

图2是说明用于数字摄像机的常规的数字图像处理装置的方块图；

图3是说明适用于各种图像计算的常规的扫描线阵列处理器的拓扑的方块图；

图4说明对例如图3所示的SLAP常规的扫描线阵列处理器中的PE分配图像数据；

图5A-5E说明扫描线阵列处理器的三级图像数据流水线的常规的操作。

图6是按照本发明的实施例的数字成像装置的功能方块图，其中包括应用于数字摄像机的编程的并行计算机；

图7是具有比扫描线的像素较少的PE的具有单指令缓存的SIMD PE模块的单片数字成像芯片的功能方块图；

图8是具有多指令缓存SIMD PE模块的单片数字成像芯片的功能方块图，其中至少一些模块具有比分配给该模块的扫描线像素的数量较少的PE；

图9是包括指令缓存SIMD芯片的多个例子的数字成像***的功能方块图，其将作为用于高价位的数字视频摄像机的例子；

图10说明具有比每个扫描线的像素较少的PE的增强的扫描线阵列处理器图像数据流水线的一个实施例；

图11说明具有比每个扫描线的像素较少的PE的增强的扫描线阵列处理器图像数据流水线的第二个实施例。

按照本发明的广义的方面，数字摄像机的图像处理功能由编程的并行计算机来实现。在本发明的这个方面下的一个重要的但是尚未被充分地利用的事实是，数字成像功能是可升级的并行数据。这个成像功能的性质使得它们适合于在具有许多或数千个处理元件(PE)的编程的并行计算机上实现高效率。提高效率的一种措施是通过由并行计算机实现的单个处理器加速。N个PE的并行计算机的最大效率是N。

用于图像处理的使用编程的并行计算机的数字摄像机的一个实施例如图6所示。参见图6，图像通过透镜602被聚焦在检测器604上，所述检测器例如是一种电荷耦合器件(CCD)，其产生相应于图像的多个模拟信号。所述模拟信号通过A/D转换电路606，从而产生图像的数字化形式。来自A/D转换电路606的数字图像(像素)数据通过多路转换器610被提供给并行计算机608的输入数据端口612。数字化的像素数据由并行计算机608操作，然后，把处理过的数据提供给并行计算机608的图像数据输出端口614。此外，像素数据可以由并行计算机608操作，用于控制数字摄像机本身，例如控制图像的获得。

并行计算机608的输出数据端口614和输入数据端口612通过多路转换器610和总线616相连。还提供有许多和总线616相连的其它的电路，其中包括微处理器618(具有相连的ROM620和RAM621)，和外部设备相连的通用I/O电路622，和个人计算机的串行端口相连的串行I/O电路624，和液晶显示器632相连的电接口630，NTSC/PAL视频数字信号通过模拟转换器接口634被送到电视机。总线616还和并行计算机608的控制/状态端口相连，并和电接口636相连，用于控制图像检测器604。

最后，并行计算机608还包括存储器控制器638，其和DRAM640(或其它的RAM)相连，以及内部PE(“PE”是处理元件)通信接口642，用于连接多片内部PE通信网络。一般地说，并行计算机608由许多由内部通信网络连接的处理元件(PE)构成。在并行计算机608内的内部PE通信网络的特定结构虽然通常被认为是并行计算机结构的一个重要特征，但是并不集中于本发明的这个方面。不过，对于用于数字成像的并行计算机608似乎是合适的一种拓扑是线性阵列，例如由扫描线阵列处理器(SLAP)所示。此外，关于SLAP的背景技术，读者可参阅Allan L.Fisher，Peter T.Highnam，和ToddE.Rockoff，“A Four-Processor Building Block for SIMD ProcessorArrays”，IEEE Journal of Solid State Circuits，vol.25，No.2，April，1990，pp.369-375。

并行计算机608可以进行图像分析、操作和增强功能。被提供的功能的设置、图像的尺寸和功能应用的速率是在数字成像产品当中的主要识别标志。因为并行计算机608被编程(即和用硬件实现的ASIC相反，)所以不仅高效地执行数字摄像机的图像处理功能，而且数字摄像机的研制和更新被大大简化了。

可以提供的成像任务包括补偿图像检测器特性(包括分辨率、宽高比、像素形状等)，补偿图像显示特性(包括分辨率、宽高比、像素形状等)，彩色校正和彩色空间转换，图像质量的改进，产生增强的取景器显示，为进行存储与/或交换实现压缩和解压，为进行图像通信而进行加密和解密等。

如在背景技术中讨论的，SLAP提供图像数据移位器，沿着水平图像的尺寸为每个像素提供一级所述移位器。SLAP的构思和图像检测器的串行扫描输出特性很好地匹配。SLAP构思产生一种成本低的三级图像数据流水线，其中输出像素的一个扫描线被移位输出，同时第二个扫描线的输出值被计算，同时图像检测器数据的第三个扫描线被移位到并行计算机内进行处理。

下面列出可以在具有并行计算机608的数字成像装置中执行的一些功能。按照在处理器输出端614一些功能影响检测器604对处理的图像数据的输出的顺序，列出一些示例的功能。

1)像素数据校正

施加于由图像检测器604接收的数字像素数据的功能

a)像素调整

像素调整需要知道每个像素的校准值。像素调整变换检测的像素值，以便补偿检测器阵列中的各个元件的不完善的响应特性。校准信息通过测量对已知图像的响应来获得(例如被提供在镜头盖内部的图像)。对于相应的图像检测器元件，对图像中的每个像素的调整只根据检测的像素值进行。

b)伽马校正

图像检测器在动态范围内的响应特性和人眼的响应特性不同。伽马校正非线性地变换测量的像素值，使像素值的最低有效位的主观显著性最大。对图像中的每个像素的伽马校正只根据检测的像素值和响应曲线的所需形状进行；目标响应曲线在所有的像素当中是共用的，并且不随图像而改变。

c)彩色空间变换

图像检测器在每个原色(RGB)中一般具有整数的强度值。从线性代数的观点看来，“基本矢量”R，G，B不是正交的。这个事实意味着，改变像素的R值也使得G、B值改变。图像处理所通用的更有效的表示基于YC_bC_r空间，其中Y代表像素的纯亮度(亮度)，C_b和C_r代表在二维彩色平面中的像素的位置。YC_bC_r是正交基的矢量。由RGB图像变换为YC_bC_r图像需要在图像中的每个像素由3×3变换矩阵乘3×1矢量。每个像素的彩色空间变换只根据检测的像素值和变换矩阵中的值进行，变换矩阵值是固定的，并为所有的像素共用。

2)图像优化：场景分析和处理

调节检测的图像，从而改善输出图像的质量。

a)过采样(数字变焦)

当需要使图像具有比由图像检测器得到的分辨率较高的分辨率时，可以通过内插处理产生处于检测的像素之间的值。一般的数字摄像机使用线性内插，借以使每个像素被其相邻的像素的加权的平均值表示。本发明的一个方面在于使用并行计算机的能力，从而应用较高阶的内插算法。

b)数字图像稳定

数字图像稳定处理用于当取景静止的图像时补偿视频摄像机的运动。视频摄像机的运动产生可以通过使像素在帧之间移动来补偿的偏移。消除帧对帧的运动在下面的MPEG功能中讨论。给定一个运动矢量，对于每个像素的数字图像稳定只根据所述运动矢量和中心在前一帧的一个像素的有限范围的相邻像素的一组值进行。

c)先进的功能，例如消除闪烁和取景功能

在启动电子快门从而使图像输入到存储器之前，在成像装置中以理想的方式完成这些功能，这些功能能够使图像在理想的时刻被捕获。这些功能分析特定场景的各种性质，从而确定如何捕获图像。虽然这些功能本身的定义不在本发明的范围内，但是这些功能需要以高的速率进行计算密集的可升级的数据并行计算。

3)JPEG压缩

有许多标准的方法用于简化按位测量的图像的表达。JPEG具有几个操作方式，一些保留所有的原始图像检测数据，属于“无损”的操作方式，而一些除去一些信息，因而恢复的压缩图像和原始的不同，属于“有损”的操作方式。在JPEG有损方式下的心理-视觉原理是，人的眼睛对于图像的高频空间分量不敏感。换句话说，当观看某些具有斑点的图像时，人的眼睛加重边沿的信息。JPEG标准的有损方式的工作过程是，分析图像的空间频谱，然后，从高频分量中选择地除去分辨率(resolution)，借以实现更致密的图像表达。在JPEG压缩中主要的计算工作应用于像素的8×8个块，使得关于给定像素的在使用JPEG压缩期间产生的中间结果只根据该像素所在的8×8个像素块确定。

a)光栅块变换

第一步把图像检测器的逐行(光栅)扫描输出变换变换为适用于JPEG的8×8块表达。当整个图像被存储在存储器中时，通过合适地访问存储的像素值实现光栅块变换。在线光栅块变换需要缓冲16个扫描线的像素值，只有在光栅数据的8个扫描线被收到之后，才能在变换器的输出端得到8×8块。这种缓冲可以利用SLAP型线性阵列计算机容易地实现。

b)块离散余弦变换(DCT)

被应用于8×8像素块的DCT类似于一种信号处理函数，并且属于一种最计算密集的函数。DCT把颜色值的空间表达变换成频率表达。频率表达是应用JPEG压缩的心理生理原理的关键，所述原理认为，高频信息的分辨率对于人的眼睛不像低频信息那么重要。

8×8DCT由下式给出：

f (u, v) = \frac{1}{4} C (u) C (v) [Σ_{x = 0}^{7} Σ_{y = 0}^{7} f (x, y) * \cos \frac{(2 x_1) uπ}{16} \cos \frac{(2 y + 1) vπ}{16}]

见Gregory K.Wallace，“The JPEG Still Picture Compression

Standard，”Communications of the ACM，vol.34，no.4，April 1991，pp.30-44.

类似于2-D FFT，块DCT是一种可分离的变换。这意味着8×8DCT的列中包括8个1-D DCT，在行中包括另外的8个1-D DCT。估计8元素1D DCT大约需要20个乘法/加法步骤。因此，在8×8DCT中，乘法/加法步骤的数量由下式给出：

20 \frac{MACs}{1 - DDCT} * 8 cols + 20 \frac{MACs}{1 - DDCT} * 8 rows = 320 \frac{MACs}{2 - DDCT}

c)量化

在量化步骤中JPEG算法以无害的方式从压缩的图像中合理地除去一些信息。

量化处理应用于8×8像素块的每个系数，对所述的像素块给予一组为图像中的所有块共用的量化参数Q(u，v)。量化算法表示如下：

F^{Q} (u, v) = Integer Round (\frac{F (u, v)}{Q (u, v)})

上式表明，量化需要对每个像素进行一次除法操作。

d)微分脉冲编码调制

在图像当中，DCT的DC(零频率)参数F(0，0)被进行微分编码。这个步骤需要在直接相邻的像素块当中进行通信。

e)熵编码

量化的DCT系数被致密地表示，例如通过应用赫夫曼编码。熵编码分两步，第一个内部块步骤，其中对系数分配符号，内部块和中间块步骤，其中符号被转移到不同长度的位的序列。第一步不需要在像素块当中进行通信，而第二步需要在直接相邻的像素块当中进行通信。

4)MPEG压缩

MPEG是一种通常应用于视频图像的压缩标准。MPEG的核心和JPEG算法相同，其依赖于通过DCT实现的频域信息的量化，从而以不引人注意的方式从压缩的图像中除去信息。MPEG定义下面的附加的函数，其中使用这样的事实，单个场景的视频图像的序列共享大量的公共信息。

a)运动估计

运动估计的目的是对于给定的视频帧中的给定的像素块，确定来自先前帧并进入相继帧的像素块。和图像中的可视物体的碎片相关的像素的块，当所述物体不被中断地运动或者当摄像机运动时，似乎是运动的。

运动估计一般对64×64个宏块进行操作，试图计算在当前帧的给定的宏块和在相邻帧中的相邻的宏块之间的差。在空间上(在一个相邻的帧内)和时间上搜索的程度(搜索的帧的数量)受可利用的处理能力的限制。

运动估计只要求在像素当中进行本地通信，其有效性和施加的处理能力成正比。因此，MPEG压缩似乎是这样一种压缩，其需要任意多的计算，即使再多的处理能力(在下一个20年可以由用使用者提供的)也不过分。

5)显示接口630

一些常规的摄像机包括用于操作LCD屏例如LCD屏632的电路。

a)欠采样

通常可以提供的LCD的像素分辨率小于图像的分辨率。常规的摄像机通过忽略检测器604的输出中的额外的像素或者进行简单的平均进行图像的欠采样。欠采样是一种只需要在相邻的像素当中进行通信的算法。

b)彩色空间变换

LCD屏不用便于用于图像操作算法的YC_bC_r值作为输入。因此，进行反变换，把像素值变换为RGB表示用于进行显示。这种变换需要在每个像素使3×1矢量乘以3×3矩阵。

c)通常LCD显示器具有混叠效应(齿状失真行)。应用防混叠算法实现清晰的LCD显示。

上述的讨论为在常规的静止的和运动的数字摄像机中使用的许多(如果不是全部)数字成像算法可以升级和进行并行数据处理提供了依据。这个事实是断言大量的数字成像产品执行升级的数据并行算法的依据。这些算法适合于并行处理。

利用可编程的并行计算机代替固定功能的电路，可以改善摄像机的功能的灵活性，使得开发附加的功能用的时间最小。

除去在成本效果上可以替代固定功能电路之外，本发明还能够提供以下有价值的功能：

1)采用比不丧失图像质量的完美的图像检测器元件制造成本低的不完美的图像检测器，经过自动检测器校正达到最佳的图像质量，使得摄像机制造者可以通过采用廉价的图像检测器降低成本。

2)能够适应大范围的检测器尺寸和图像格式。

3)能够使摄像机用户在一个大的范围内交换使用对于图像分辨率的压缩比。

4)能够利用来自计算机图形学领域中的内插算法实现相当高的质量的数字聚焦(相对于在常规的数字摄像机中使用的最近相邻线性内插的相对低的质量)。

5)能够以高的成本效果比实现照相机和视频摄像机的功能。在照相机中，使用附加的处理能力代替在视频摄像机中为进行质量优化而进行大量运算。例如连续地执行背景的压缩、解压、和误差校正处理，对于当前的拍摄内容通过实验确定最佳的量化表。

6)能够实现清晰的LCD屏幕图像显示。

7)能够提供用于输入任何数字图像文件或任何数据流格式例如用作通用显示装置的通用装置。

8)能够提供用于输出任何数字图像文件或任何数据流格式例如用作通用显示装置的通用装置。

9)能够提供使产品生产者快速地适应在数字图像产品领域中快速发展的标准的通用装置。

10)能够提供使产品生产者能够以软件形式增加或减少产品的功能的通用装置，从而完善相关的数字图像产品的生产线，降低生产线的制造成本。

按照本发明的另一个方面，其实施例如图7和图8所示，通过指令的存储实现了一种作为SIMD计算机的并行计算机608，如美国专利5511212(212号专利)所述。所述212号专利列于此处，其全文作为参考。212号专利披露了一种用于实现SIMD计算机的方法，以便使性能(用每秒进行的总的像素操作测量)对硬件的成本(以芯片面积测量)的比为最大。

一般地说，小型的数字成像产品包括微控制器618(图6)，用于调整和控制各个***功能。按照本发明的这个方面，微控制器618(有时称为“微处理器”或“内装的微处理器”)用作指令缓存的SIMD计算机的***控制器。微控制器总线616用作总的指令传输网络和响应网络。如图212号专利所讨论的，并如图7，8所示，每个PE模块提供有一个本地控制器705，其中每个PE模块包括多个PE。在***中的PE模块的数量取决于例如所需的PE的总数、PE的逻辑的复杂性、以及由用于实现数字摄像机处理装置的VLSI实现技术所确定的同步区域的尺寸。

图7表示单模块指令缓存SIMD计算机，而图8表示多模块指令缓存SIMD计算机。(其中图7中的计算机的元件在图8中被加倍，多元件附有a，b标号)。

下面列出主要功能：

1)该装置可以用一个芯片或者多个芯片实现。单个芯片适合于照相机和低档的视频摄像机，而多芯片适合于具有非常高的性能的摄像机。

2)对于用于实现数字摄像机处理装置的任何VLSL实现技术，该装置具有最大的性能对硬件的成本比。

3)该装置适用于和廉价的CMOS图像检测器元件集成在一起。

指令缓存的SIMD计算机在212号专利中详细地描述了，像素数据缓冲器702增加了外部接口(例如本地外部存储器接口704)，以便帮助形成具有多个这种芯片的***。用于图像计算的每个PE是专用的。一个合适的PE应当具有16位ALU和128个文字寄存器文件以及文本管理文件和用于SIMD操作的通信接口电路。

大部分计算密集的图像功能(包括在上述的背景技术部分列出的那些)的特征在于，它们必须产生输出图像，其中的每个像素作为其空间相邻像素的函数被确定。这种函数被描述为被施加于每个像素的通常相当短的指令序列。在这种情况下，通过本地指令传输网络706向PE的阵列传输的指令流将具有大的重复性，因为对于每个像素指令的公共序列被重复。在这种环境下使用SIMD指令超高速缓冲存储器是非常有效的。

用于内部PE通信的线性阵列拓扑非常适合于来自具有串行输出的检测器装置的图像数据。不过，不必一定选择线性阵列拓扑。如果先进的半导体制造技术允许检测器和处理装置集成在一个芯片内，则在芯片内可以设置较多的接口，以便有利于二维的PE内部通信网络拓扑。

继续参看图7和图8(同时也参看图6)，内装的微处理器618用作指令缓存SIMD计算机的***控制器。其中所示的指令缓存SIMD计算机采用图3所示的线性阵列内部PE通信拓扑，虽然这种线性阵列拓扑不是一种重要的选择。按照本发明的实施例，虽然像素数据移位器702对于扫描线的每个像素具有一级，但是图7和图8的“扫描线阵列处理器”部分对于扫描线中的每个像素不到一级，如图9所示。换句话说，每个PE处理扫描线中的一个以上的像素，即“一行”像素。

以图9为例，像素数据移位器被分为对应于相应的PE的(PE1，PE2，和PE3)的行(904a-904c)，每行的像素数据被传递给相应的行缓冲器(906a-906c)。然后，每个PE(PE1-PE P)操作相应行的像素。按照一些实施例，参数L(每个PE的每个扫描线的像素数)是可以配置的，从而使得可以按照应用对被分配给每个PE的像素行的宽度编程。

为了理解在图7和图8的实施例中像素数据对PE的分配，假定在所示的例子中，在指令缓存SIMD计算机中每个检测器扫描线和16个PE具有1024个像素。在这种情况下，每个PE应当被分配给8个像素块宽(64个像素)的图像行。在每个像素具有2个字节的情况下，需要每个PE具有128KB的片上DRAM，以便能够存储在本例中的兆像素图像。在芯片上存储16个这种图像帧，对于单片MPEG编码，可能需要总数为32MB(256Mb)的片上RAM。

图11示出了另一个实施例，其中具有较少的PE，用于处理具有像素的扫描线。图11的实施例的像素数据移位器1002具有相应于每个PE的级(和图7、图8相应于每个像素相反)。每个级可以保持一个像素。在大多数情况下，扫描线宽度超过该扫描线的PE的数量，使得每个PE处理多个像素，其中或者通过在收到另一个像素之前处理每个收到的像素，或者通过在所需数量的像素到达之前局部地存储像素(即可以局部地访问PE)。

仍然参看图11，像素数据移位器1102具有对其预先考虑的输入扫描线排序缓冲器(SLOB)1103，和对其附加的输出SLOB1104。每个SLOB1103、1104具有足够的存储器，以便至少保持两个扫描线的像素值。在SLOB1103的存储器中保持第一扫描线之后，输入SLOB便对其重新排序，在重新排序期间，在输入SLOB1103的存储器中保留第二扫描线。在一个实施例中，扫描线的像素被存储在连续的存储器位置中，并且存储器被“次序颠倒地读出”，使得所有相邻的像素都被提供给同一个PE。

例如，在一个实施例中，如果4个PE要处理16个像素扫描线，则PE0处理编号为0-3的像素，PE1处理编号为4-7的像素，PE2处理编号为8-11的像素，PE3处理编号为12-15的像素。但是，输入SLOB1103对像素重新排序，使得像素数据移位器1102按照顺序0，4，8，12；1，5，9，13；2，6，10，14；3，7，11，15传递像素，这是向PE提供像素的顺序。应当注意，对于4个PE中的每一个，“跨距”是一致的。在像素数据被PE处理之后，在像素数据移位器1102的输出端被输出SLOB重新排序。

如果PE的数量不能整除每个扫描线的像素数，则重新排序更为复杂。在这种情况下，“额外”的像素可以被分配给一个或几个PE。在一个实施例中，如果有N个额外像素，则N个额外像素被分配给前N个PE的每一个。例如，如果4个PE要处理18个像素扫描线，则PE0处理编号为0-4的像素，PE1处理编号为5-9的像素，PE2处理编号为10-13的像素，PE3处理编号为14-17的像素。但是，像素数据移位器1102按照顺序0，5，19，14；1，6，11，15；2，7，12，16；3，7，13，17；4，9传递像素，这是像素要被提供给PE的顺序。在这种情况下，对于每个PE的跨距不一致，因为所述跨距有时是4个，有时是5个。被移位的最后两个像素被两个PE接收，而其它的PE不接收像素。

本发明的一个目的在于最大限度地利用计算资源进行计算。为此，一般要求在可利用的芯片面积内尽可能多地设置PE。随着芯片面积的增加和电路的几何空间的减少，同步区域的直径大大小于芯片的直线尺寸。因此，过去的VLSI的缩放趋于使含有指令缓存SIMD计算机的数字成像芯片要求多个PE模块，因此要求多个本地控制器电路。和构成多控制器芯片操作所需的单控制器芯片的差别在于包括响应判优器。响应判优器通过和微处理器总线相连的控制/状态端口连接多个指令缓存的SIMD本地控制器，从而能够通过PE当中的有条件/无条件的内装的微处理器进行检测。

图10说明了含有基于数字成像芯片的多个所述指令缓存的SIMD的装置，用于形成适用于高级的视频摄像机。注意图像数据移位寄存器是通过一组芯片的一系列移位寄存器，并且单片芯片方案的功能被分配给一组芯片中的各个芯片。内部PE通信网络拓扑是一个参数，虽然优选实施例扩展到在单片芯片的优选实施例中使用的线性阵列拓扑。

Claims

1.一种数字摄像机装置，包括：

用于产生相应于图像的图像数据的检测器；

用于处理图像数据的处理器，所述处理器包括由内部PE网络连接的多个处理器元件(PE)，所述PE被配置使得实现并行操作，用于处理获得的图像；以及

用于保持通过处理而获得的图像的存储器。

2.如权利要求1所述的数字摄像机装置，其中：

所述处理器用于处理图像像素数据的N像素扫描线，

所述处理器包括M个PE，其中M＜N；

所述处理器包括像素数据缓冲器，N个像素通过所述缓冲器被提供给PE；

所述M个PE至少部分地并行操作，用于处理来自像素数据缓冲器的扫描线的N个像素，以及

M个PE中的至少一些对扫描线的一个以上的像素进行操作；

借以需要少于N个的处理元件处理N个像素扫描线。

3.如权利要求2所述的数字摄像机装置，其中所述处理器还包括：

用于输出译码的指令的本地控制器；以及

本地指令传输网络，通过所述网络所述译码的指令被传输到PE，以便被所述PE执行，从而对像素进行并行操作。

4.如权利要求3所述的数字摄像机装置，其中

处理器的每个PE包括指令缓存器，以及

所述指令缓存器和本地指令传输网络相连，用于接收译码的指令。

5.如权利要求3所述的数字摄像机装置，其中

像素数据缓冲器包括N级，以及

至少一些特定的PE和N级中的一个以上的级相连，从而被配置用于接收扫描线的一个以上的像素，使得一些特定的PE对扫描线的一个以上的像素进行操作。

6.如权利要求2所述的数字摄像机装置，其中所述处理器还包括：

和至少一些PE相连的并和像素数据缓冲器相连的本地缓冲器，所述用于特定PE的本地缓冲器用于暂时保持由所述PE操作的扫描线的一个以上的像素。

7.如权利要求2所述的数字摄像机装置，其中

所述像素数据缓冲器包括M级；

所述处理器还包括为像素数据移位器预先准备的扫描线排序电路，用于重新排序输入的像素数据，使得输入的像素数据按照不同于像素在扫描线中的顺序被提供给像素数据缓冲器；以及

所述像素数据缓冲器的M级的每一级被配置用于当重新排序的像素数据通过像素数据移位器移动时把像素提供给一个PE。

8.如权利要求7所述的数字摄像机装置，其中：

所述扫描线排序电路是第一扫描线排序电路，以及

处理器还包括第二扫描线排序电路，其被连附于用于重新排序处理的像素数据的像素数据移位器。

9.如权利要求8所述的数字摄像机装置，其中：

第二扫描线排序电路重新排序处理的像素数据，使得其相应于扫描线中的输入像素数据的原始顺序。

10.一种用于处理图像像素数据的N像素扫描线的数字图像处理器，所述处理器包括：

M个处理元件(PE)，其中M＜N；

像素数据缓冲器，通过所述缓冲器像素被提供给PE，其中

至少一些PE对扫描线的一个以上的像素进行操作；

借以需要少于N的处理元件处理N个像素扫描线。

11.如权利要求10所述的数字图像处理器，还包括：

用于输出译码的指令的本地控制器；以及

12.如权利要求10所述的数字图像处理器，其中

处理器的每个PE包括指令缓存器，以及

13.如权利要求10所述的数字图像处理器，其中

像素数据缓冲器包括N级，以及

14.如权利要求13所述的数字图像处理器，其中所述处理器还包括：

15.如权利要求10所述的数字图像处理器，其中

所述像素数据缓冲器包括M级；

16.如权利要求14所述的数字图像处理器，其中：

所述扫描线排序电路是第一扫描线排序电路，以及

17.如权利要求16所述的数字图像处理器，其中：