CN102918586A

CN102918586A - 用于图像数据记录和再现的设备及其方法

Info

Publication number: CN102918586A
Application number: CN2010800671218A
Authority: CN
Inventors: 鲁伊斯·罗德里格斯·埃塞基耶尔
Original assignee: Naxos Finance SA
Current assignee: Naxos Finance SA
Priority date: 2010-06-02
Filing date: 2010-06-02
Publication date: 2013-02-06
Anticipated expiration: 2030-06-02
Also published as: JP2013534741A; CN102918586B; EP2577654A1; KR20130095659A; US20130155277A1; WO2011150969A1

Abstract

本发明涉及用于图像数据记录和再现的设备（1），包括：用于捕获图像的成像***（10）；耦接到成像***（10）的信号处理器（20），用于将所捕获的图像处理为数字图像文件；耦接到信号处理器（20）的音频***（30），用于获取适于与数字图像文件相关联的至少一个语音注释；用于识别至少一个语音注释并将语音注释转换成文本数据的语音识别单元（40），语音识别单元（40）关联到信号处理器（20），以使用文本数据生成元数据并将生成的元数据添加到数字图像文件。本发明的特征在于：语音识别单元（40）包括词的多个子集（41），每个子集（41）具有有限数目的词，以识别从相应的多种语言获取的语音注释并将其转换成文本。

Description

用于图像数据记录和再现的设备及其方法

本发明涉及一种根据权利要求1的前序部分的、用于图像数据记录和再现的设备。

本发明还涉及一种用于图像数据记录和再现的方法，特别是用于自动创建数字图像文件的元数据的方法。

在最先进的现有技术中，用于图像数据记录和再现的设备和方法是众所周知的；特别地，所述设备包括适于捕获图像并将它们存储在数字介质上的数字照相机。应该注意的是：在本文中，可以使用词语“设备”和/或“照相机”来指数字静态照相机、数字视频摄像机、具有集成数字照相机的移动电话等。

使用最先进的现有技术已知的设备，在捕获图像的时间与打印或者以其它方式显示图像的时间之间，用户（通常也是摄影师）可能忘记或者无法获取与该图像有关的信息，诸如该图像被捕获的时间和/或该图像被捕获的地点和/或图像中所描绘的人。

一些数字照相机允许文本（诸如表示图像被捕获的日期和时间的文本）与照片相关联；该文本通常由照相机创建并以预定的格式在预定位置处叠加到图像上。

所述文本仅包含少量信息，并且其向数字照相机的用户传递很少或不传递将会帮助用户区分图像的有用信息。

同样的问题出现在数字照相机中使用的用于识别和追踪数字图像文件的默认文件命名方案中；实际上，所述默认文件命名方案仅采用：

-用于指示数字图像文件的类型的字母的组合（例如：“DSC”、“IMG”、“PICT”、“DSCN”等），

-附加到上述指示符以识别不同数字图像的序号（例如：“001”、“002”等），以及

-附加到序号之后以识别文件的类型的文件类型扩展名（例如：“.GIF”、“.JPG”等）。

因此，使用默认文件命名方案，用户同样具有很少或不具有关于特定图像文件的内容的有用信息。实际上，用户必需打开并查看每个图像文件以确定所述图像文件是否包含期望的人物图像、地点图像等。最终，用户可以借助于计算机来编辑命名方案，但是在记录图像之后的某个时间进行这种编辑的情况下，这种可能性是几乎没用的。

文献No.EP1876596涉及一种用于图像数据记录和再现的设备，所述设备包括：

-信号处理器，其用于捕获图像、处理所捕获的图像以生成图像数据以及生成包括所述图像数据的图像文件；

-语音识别单元，其用于识别语音并且将语音转换成文本数据；以及

-控制器，其用于使用所述文本数据生成元数据并且将生成的元数据添加到所述图像文件。

根据文献No.EP1876596中所述的，通过使用由语音识别单元转换的文本数据生成将要被包括在图像文件中的元数据，使得能够在紧接在图像捕获之后和/或在检查图像文件时将可靠的元数据（举例来说，例如：拍摄场所或图像中显示的人物）添加到图像文件。

另外，基于通过使用语音识别所转换的文本数据来生成其内存储图像文件的文件夹的名称，使得能够在捕获图像时对图像文件分类。

然而，已观察到：即使是文献No.EP1876596中描述的设备也存在一些缺点，这是因为该设备仅适于识别和转换一种预定语言。

实际上，用于识别语音并将语音转换成文本数据的程序和软件是昂贵且规模庞大的，通常对于每种需要被识别并转换成文本的语言大约需要许多兆字节（或千兆字节）；因此，在每个设备不止选择一种预定语言的情况下，在图像文件记录和再现设备中无法使用所述程序和软件。

这意味着根据文献No.EP1876596的示教所实现的每个设备需要包括适于识别仅一种语言并将该语言转换成文本的程序。

这必然意味着该设备不能是通用且兼容的，这是因为用户必须具有包括用于识别他自己的语言的特定程序的设备，以将所述语言转换成文本。

这也意味着设备的生产商不能够生产可以在用户讲不同语言的不同国家销售的单种产品。其结果是：同一产品的型号的数量增加，以及生产成本增加。

在此框架下，本发明的主要目的是通过提供一种用于图像数据记录和再现的设备和方法来克服上述缺点，该设备和方法允许识别多种语言并将其转换成文本。

本发明的另一目的是提供一种以通用且兼容的方式构思的、用于图像数据记录和再现的设备和方法。

本发明的又一目的是提供一种用于图像数据记录和再现的单个设备和方法，其能够识别多种不同语言并将其转换成文本。

本发明通过结合意在作为本说明书的组成部分的所附权利要求中所阐述的特征的、用于图像数据记录和再现的设备和方法来实现这些目的。

根据作为非限制性示例提供的以下详细描述和附图，本发明的其它目的、特征和优点将变得明显，其中：

-图1是根据本发明的用于图像数据记录和再现的设备（具体为数字照相机）的框图；

-图2是示出了根据本发明的用于图像数据记录和再现的方法的第一实施方式的框图；以及

-图3是示出了根据本发明的用于图像数据记录和再现的方法的第二实施方式的框图。

在图1中，附图标记1表示根据本发明的用于图像数据记录和再现的设备的整体。

根据本发明的示例性实施方式的用于图像数据记录和再现的设备1可以是数字静态照相机、数字视频摄像机、具有集成或关联的数字照相机的移动电话等。

所述设备1包括：

-成像***10，用于捕获图像；

-耦接到所述成像***10的信号处理器20，信号处理器20用于将所捕获的图像处理为数字图像文件；

-耦接到所述信号处理器20的音频***30，音频***30用于获取适于与所述数字图像文件相关联的至少一个语音注释；

-语音识别单元40，用于识别所述至少一个语音注释并将所述语音注释转换成文本数据，所述语音识别单元40关联到所述信号处理器20，以使用所述文本数据生成元数据并且将所生成的元数据添加到所述数字图像文件。

所述成像***10可以包括镜头/快门组件11，该镜头/快门组件11将光导向并聚焦到用于捕获被摄体的图像的传感器12上；特别地，所述传感器12可以包括一个或更多个CCD（电荷耦合器件）或者一个或更多个CMOS（互补金属氧化物半导体）。

因此，所述信号处理器20控制镜头/快门组件11的操作并且处理从传感器12接收到的图像信息，以生成数字格式的包含所捕获的图像的图像文件。

当图像文件包括静态图像数据时，数字图像文件可以为联合图像专家组（JPEG）的格式或者标签图像文件格式（TIFF）的格式；当图像文件包括运动图像数据时，数字图像文件可以为运动图像专家组（MPEG）的格式或最接近的现有技术已知的其它视频格式。

另外，如最先进的现有技术已知的，每个图像文件包括用于存储图像数据的区域和用于存储关于图像的信息的区域。这根据国际标准执行。实际上，存在一些定义如何将元数据添加到图像文件的实体，如：

-国际报业电信委员会（IPTC）信息交换模型（IIM）（国际新闻电讯委员会），

-用于XMP的IPTC核心模式，·XMP–可扩展元数据平台（Adobe标准），

-EXIF–可交换图像文件格式，其由CIPA（照相机与影像产品协会）维护并由JEITA（日本电子信息技术产业协会）公布，

-都柏林核心（都柏林核心元数据倡议-DCMI），

-PLUS（图片许可通用***）。

从图1中可以看出，音频***30优选地包括麦克风31，麦克风31用于允许用户录制短的音频或语音注释、录制用于数字视频记录的声音、输入语音命令等。所述音频***30也可以包括扬声器32。

根据本发明，所述语音识别单元40包括词的多个子集41，每个子集41具有有限数目的词，以识别从相应的多种语言获取的语音注释并将其转换成文本。

特别地，词的每个子集41不包括特定语言的词的完整词典，而是词的每个子集41包括有限数目的词仅在确定的语言中的相关翻译，它们是在制造商位置处仅在较频繁地被用于关联到确定的图像的词之间选择并存储的。

具体地，所述多个词可以包括：

-表示庆典和/或定期事件和/或节日的术语（举例来说，例如：“派对”、“假日”、“洗礼”、“婚礼”、“生日”、“圣诞节”、“复活节”等）；

-表示地理位置的术语（举例来说，例如：“海洋”、“沙漠”、“丘陵”、“山脉”、“湖泊”等）；

-表示全世界的国家的术语（例如：“德国”、“法国”、“意大利”、“***合众国”、“日本”、“中国”、“韩国”等）、表示这些国家中的主要城市的术语（例如：“法兰克福”、“慕尼黑”、“巴黎”、“罗马”、“洛杉矶”、“拉斯维加斯”、“东京”、“上海”、“香港”、“澳门”、“首尔”）以及表示这些城市中的著名建筑物和精美艺术作品（例如：“长城”、“卡西诺”、“竞技场”、“埃菲尔铁塔”等）的术语；

-表示季节的术语（例如：“春”、“夏”、“秋”、“冬”）和/或表示月份和/或星期几的术语；

-表示数字特别是能够组成每个数字的从零到九的数字的术语；

-表示与人的关系的术语（举例来说，例如：“兄弟”、“姐妹”、“父亲”、“母亲”、“祖父”、“祖母”、“叔叔”、“姑妈”、“堂兄弟姐妹”、“朋友”、“丈夫”、“妻子”）；

-表示人的名字的术语（举例来说，例如：“卡尔”、“保罗”、“彼得”、“约翰”、“弗兰克”、“罗伯特”、“阿比”、“简”、“玛丽”、“贝丝”）；

-表示动物的术语（举例来说，例如：“狗”、“猫”、“马”、“鸟”）和/或表示物的术语（举例来说，例如：“房子”、“办公室”、“花园”、“教堂”、“大教堂”、“汽车”、“自行车”）。

该规定允许获得即使在限制于词的子集的情况下也能够识别多种语言并将其转换成文本的、用于图像数据记录和再现的设备和方法。

显然，如果设备存储的和能够识别的词的有限子集没有提供用户想要关联到某个图像的词，则可以通过使用最先进的现有技术中已知的用于写入文字的若干工具（键盘、触摸屏***等）之一来手动编辑该特定的词。

特别地，根据本发明的设备1和方法允许识别语音并将语音转换成文本数据，而无需对于每种需要识别和转换成文本的语言使用昂贵且规模庞大的、通常大约需要许多兆字节（或千兆字节）的语音识别单元40。因此，可以在消费产品如数字静态照相机、数字视频摄像机、具有集成数字照相机的移动电话等中实施该方案，而无需向这些产品支付市场所不能接受的费用。

因此，显然，所述语音识别单元40可以在设备1中实现，而无需在制造商的位置处选择要使用的预定语言，并且所述语音识别单元40允许指示以通用且兼容的方式构思的单个设备1和方法。

优选地，所述语音识别单元40关联到激活装置42相关联，激活装置42允许用户激活语音识别单元40以将语音注释转换成文本数据。

特别地，用户可以在捕获和/或显示图像之前启动所述激活装置42；另外，用户可以在捕获图像之后特别是在显示所述图像时启动所述激活装置42。例如，所述激活装置42可以包括按钮（未在附图中示出），该按钮优选地位于设备1的外表面上。

设备1还包括耦接到信号处理器20的存储器50，存储器50用于存储数字图像文件和/或语音注释和/或转换成文本数据的语音注释。所述存储器50可以包括随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）等。

另外，设备1还包括与信号处理器20相关联的显示器60。已知所述显示器60可以用于多种用途，具体地：

-用于显示用户将要捕获的图像；在这种情况下，显示器60允许用户以该图像为中心并聚焦该图像、使图像中出现的人摆好姿势等；

-用于显示作为数字图像文件存储于存储器50中的捕获图像；

-用于显示适于向用户传递信息的菜单；

-用于选择设备1的特征；

-用于控制设备1的操作等。

在本发明的优选实施方式中，所述显示器60包括屏幕显示（OSD）***，该屏幕显示***适于在用于显示设备1的操作的多种语言之间选择语言以及从词的所述子集41中选择一个子集。

如上所述，显然，设备1可以包括用于依照国际标准以传统方式生成元数据的输入装置（未在图1中示出），即，产生用于生成要添加到数字图像文件中的元数据的文本数据；例如，所述输入装置可以包括键盘或触摸屏。

图2和图3分别涉及根据本发明的用于图像数据记录和再现的方法的第一表现和第二表现。

特别地，所述方法包括以下步骤：

-在制造商位置处将有限数目的词的多个子集41存储（步骤150）在用于识别从相应的多种语言获取的语音注释并将语音注释转换成文本的所述语音识别单元40中；

-借助于包括成像***10的设备1捕获图像（步骤100）；

-通过耦接到所述成像***10的信号处理器20将所捕获的图像处理为数字图像文件（步骤110）；

-借助于耦接到所述信号处理器20的音频***30来录制至少一个语音注释，特别是录制在存储器50中，所述至少一个语音注释适于与所述数字图像文件相关联（步骤120）；

-借助于与信号处理器20关联的语音识别单元40来识别所述至少一个语音注释并将该语音注释转换成文本数据（步骤130）；

-使用该文本数据生成元数据并将生成的元数据添加到数字图像文件中（步骤140）。

根据本发明，通过使用存储在所述用于识别从相应的多种语言获取的语音注释并将语音注释转换成文本的语音识别单元40中的词的多个子集中的一个，来执行所述识别语音注释并将语音注释转换成文本数据的步骤130。

在图2和图3中，线L表示如下事实：所述将有限数目的词的多个子集存储在所述语音识别单元40中的步骤150在制造商的位置处来完成。

特别地，通过用于启动语音识别单元40的激活装置42的步骤160来执行根据本发明的方法，所述激活装置42允许用户激活语音识别单元40以将语音注释转换成文本数据。

特别地，从图2可以看出，可以在处理所捕获的图像的步骤110之后，即当所述图像已经被记录在设备1的存储器50中时，执行启动所述激活装置42的步骤160。在这种情况下，生成具有传统文件名的图像文件的步骤161可以先于所述步骤160。另外，在用户决定不启动所述激活装置42的情况下，设备1可以执行生成具有传统文件名的图像文件的步骤161。

替代地，从图3特别地可以理解，可以在所述捕获图像的步骤100之前执行启动所述激活装置42的步骤160。

另外，根据本发明的方法包括另外的步骤180，步骤180借助于包括在所述显示器60中的屏幕显示（OSD）***在用于显示设备1的操作的多种语言之间选择语言以及从词的所述子集41中选择一个子集。

优选地，参照图2的方法，在用于捕获图像的步骤100之前执行所述选择语言和词的子集的步骤180；参照图3的方法，在启动所述激活装置42的步骤160之后执行所述选择语言和词的子集的步骤180。

另外，必须注意：本发明也可以被实施为计算机可读存储介质/数据上的计算机可读元数据。计算机可读存储介质/数据是可以存储数据的任何数据存储设备，该数据之后能够被计算机***读取。计算机可读记录介质的示例包括电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、只读光盘存储器（CD-ROM）、磁带、软盘、光学数据存储设备等。

根据以上的描述，根据本发明的用于图像数据记录和再现的设备和方法所提供的优点是明显的。

特别地，这些优点归因于如下事实：提供包括词的多个子集41的语音识别单元40允许识别多种语言并将其转换成文本；特别地，这可以在无需使用昂贵且规模庞大的、通常对于每种需要识别并将其转换成文本的语言大约需要许多兆字节（或千兆字节）的语音识别单元40的情况下完成。

因此，显然，可以在设备1中使用所述语音识别单元40而无需选择需要被识别并转换成文本的预定语言，因此，根据本发明的语音识别单元40的具体实现允许指示以通用且兼容的方式构思的设备1和方法。

本文通过示例描述的设备和方法可以在不背离本发明构思的新颖性精神的情况下进行多种可能的变化；同样，显然，在本发明的实际实现中，所示出的细节可以具有不同的设备或被其它技术上等同的元件所替代，也可以提供不同的步骤顺序。

例如，对于图2和图3中所示的实施方式，用户手动或由设备1自动地启动激活装置的步骤160可以紧接着选择语言的步骤180，以作为已经选择了用于显示设备1的操作的语言以及词的所述子集41中的一个子集的结果。

因此可以容易理解：本发明不限于上述设备和方法，而是可以在不背离所附权利要求中明确规定的本发明构思的情况下进行多种修改、改进或等同部件和元件的替换。

Claims

1.一种用于图像数据记录和再现的设备（1），所述设备（1）包括：

-成像***（10），用于捕获图像；

-耦接到所述成像***（10）的信号处理器（20），所述信号处理器（20）用于将所捕获的图像处理为数字图像文件；

-耦接到所述信号处理器（20）的音频***（30），所述音频***（30）用于获取适于与所述数字图像文件相关联的至少一个语音注释；

-语音识别单元（40），用于识别所述至少一个语音注释并且将所述语音注释转换成文本数据，所述语音识别单元（40）被关联到所述信号处理器（20），以使用所述文本数据生成元数据并将所生成的元数据添加到所述数字图像文件，

其特征在于，

所述语音识别单元（40）包括词的多个子集（41），以识别从相应的多种语言获取的语音注释并将所述语音注释转换成文本，其中，每个子集（41）具有有限数目的词。

2.根据权利要求1所述的设备（1），其特征在于，词的每个子集（41）包括有限数目的词仅在确定的语言中的相关翻译，所述有限数目的词是在制造商的位置处仅在较频繁地被用于关联到确定图像的词之间选择并存储的。

3.根据前述权利要求中的一项或更多项所述的设备（1），其特征在于，所述语音识别单元（40）被关联到激活装置（42），所述激活装置（42）使得用户能够激活所述语音识别单元（40）以将所述语音注释转换成文本数据。

4.根据权利要求1所述的设备（1），其特征在于，所述设备（1）包括耦接到所述信号处理器（20）的存储器（50），所述存储器（50）用于存储所述数字图像文件和/或所述语音注释和/或转换成文本数据的语音注释。

5.根据权利要求1所述的设备（1），其特征在于，所述设备（1）包括关联到所述信号处理器（20）的显示器（60）。

6.根据权利要求5所述的设备（1），其特征在于，所述显示器（60）包括屏幕显示（OSD）***，所述屏幕显示（OSD）***适于在用于显示所述设备（1）的操作的多种语言之间选择语言以及从有限数目的词的所述子集（41）中选择一个子集。

7.根据权利要求1所述的设备（1），其特征在于，所述设备（1）包括用于使用所述文本数据生成元数据并根据确定的国际标准对它们进行编码的输入装置。

8.一种用于图像数据记录和再现的方法，包括以下步骤：

-借助于包括成像***（10）的设备（1）捕获图像（步骤100）；

-通过耦接到所述成像***（10）的信号处理器（20）将所捕获的图像处理为数字图像文件（步骤110）；

-借助于耦接到所述信号处理器（20）的音频***（30）来录制至少一个语音注释，特别是录制在存储器（50）中，所述语音注释适于与所述数字图像文件相关联（步骤120）；

-借助于关联到所述信号处理器（20）的语音识别单元（40）识别所述语音注释并将至少一个语音注释转换成文本数据（步骤130）；

-使用所述文本数据生成元数据并将所生成的元数据添加到所述数字图像文件（步骤140），

所述方法的特征在于如下事实，

借助于在制造商的位置处将有限数目的词的多个子集（41）存储在所述语音识别单元（40）中的步骤（150），并且使用所述多个子集（41）来识别从相应的多种语言获取的语音注释并将所述语音注释转换成文本，来执行所述识别所述至少一个语音注释并将其转换成文本数据的步骤（130）。

9.根据权利要求8所述的方法，其特征在于包括：启动所述语音识别单元（40）的激活装置（42）的步骤（160），所述激活装置（42）使得用户能够激活所述语音识别单元（40）以将所述语音注释转换成文本数据。

10.根据权利要求9所述的方法，其特征在于，所述启动所述激活装置（42）的步骤（160）在处理所捕获的图像的步骤（110）之后执行。

11.根据权利要求9所述的方法，其特征在于，所述启动所述激活装置（42）的步骤（160）在所述捕获图像的步骤（100）之前执行。

12.根据权利要求11所述的方法，其特征在于，在所述启动所述激活装置（42）的步骤（160）之前包括生成具有传统文件名的图像文件的步骤（161）。

13.根据权利要求8所述的方法，其特征在于包括步骤（180），步骤（180）借助于包括在所述显示器（60）中的屏幕显示（OSD）***，在用于显示所述设备（1）的操作的多种语言之间选择语言以及从所述有限数目的词的子集（41）中选择一个子集。

14.根据权利要求13所述的方法，其特征在于，所述选择语言和有限数目的词的子集的步骤（180）在所述捕获图像的步骤（100）之前执行。

15.根据权利要求13所述的方法，其特征在于，所述选择语言和词的子集的步骤（180）在所述启动所述激活装置（42）的步骤（160）之后执行。

16.一种适于执行根据权利要求8至15中的任一项所述的方法的计算机程序产品。

17.一种与根据权利要求16所述的计算机程序产品相关联地使用的计算机可读存储介质/数据载体。