CN103678460B

CN103678460B - 用于识别适于在多语言环境中进行通信的非文本元素的方法和***

Info

Publication number: CN103678460B
Application number: CN201310415674.3A
Authority: CN
Inventors: 宫本晃太郎; 吉滨佐知子; 水野谦; 胜野恭治
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-09-13
Filing date: 2013-09-12
Publication date: 2018-02-23
Anticipated expiration: 2033-09-12
Also published as: US9514127B2; JP2014056503A; US20140074453A1; CN103678460A

Abstract

为提供一种计算机实施的用于有效地提供适于在多语言环境中使用的通用非文本信息的方法、程序和***，提供了一种计算机实施的通过使用能够在其中搜索非文本元素的数据库来识别适于在多语言环境中进行通信的非文本元素的方法。所述方法包括步骤：使用在某种语言下的搜索准则以及在另一种语言下的对应于所述搜索准则的搜索准则接收所述数据库的搜索结果，其中，具体语言属性与搜索结果中所包括的非文本元素相关联；根据与不同语言属性相关联的另一元素的相似性而对搜索结果中所包括的非文本元素进行评分；并且基于评分识别搜索结果中所包括的非文本元素中的至少一个元素。

Description

用于识别适于在多语言环境中进行通信的非文本元素的方法和***

技术领域

本发明总体上涉及信息处理技术，并且更具体地涉及一种计算机实施的用于识别适于在多语言环境中进行通信的非文本元素的方法、程序和***。

背景技术

近年来，针对诸如图像和声音之类的非文本信息的搜索技术已经被研发并变得普及。例如，用户能够通过输入一个或多个搜索关键词来执行图像搜索而搜索在互联网上出现的相关图像。以下专利文献列表和非专利文献列表包括与非文本信息搜索技术相关的背景技术。

[引用列表]

[专利文献]

[专利文献1]日本专利号4796435，日本未审专利申请公开号2007-299172

[专利文献2]日本专利号4340367，日本未审专利申请公开号2000-285141

[专利文献3]日本专利号2601111，日本未审专利申请公开号6-162104

[专利文献4]日本未审专利申请公开号（PCT申请译文）2008-547061

[专利文献5]日本未审专利申请公开号10-289251

[非专利文献]

[非专利文献1]Google公司“About Google Images-Google Images Help”，[在线]，[搜索日期：2012年9月11日]

<URL:http://support.***.com/images/bin/answer.py?hl=ja&answer=112512>

[非专利文献2]Kobi Reiter、Stephen Soderland和Oren Etzioni,“Cross-Lingual Image Search on the Web”,Proceeding of Twentieth International JointConference on Artificial Intelligence,2007年1月6日

[非专利文献3]“Polyglot Image Search-Keywords are automaticallytranslated to35languages to search for images throughout the world by Googleimage search”，[在线]，[搜索日期：2012年9月11日],

<URL:http://www.crystal-creation.com/software/polyglot-image-search/>

发明内容

[技术问题]

可能存在在通信中直观、灵活且方便地使用非文本信息（图像、声音等）的情形。然而，由于非文本信息能够根据人员而进行各种解释，所以趋向于出现错误传达（miscommunication）。例如，由于图像图标在具有不同文化的群体之间具有不同含义，所以存在可能在属于不同群体的人们之间出现错误传达的可能性。

因此，本发明的目标之一是提供一种计算机实施的用于识别适于在多语言环境中进行通信的非文本元素的方法、程序和***。

[针对问题的解决方案]

为了实现以上目标，提供了一种计算机实施的用于识别适于在多语言环境中进行通信的非文本元素的方法、程序和***。所述方法包括使用在某种语言下的搜索准则以及在另一种语言下的对应于所述搜索准则的搜索准则接收数据库搜索结果的步骤。具体语言属性与搜索结果中所包括的非文本元素相关联。所述方法进一步包括根据与不同语言属性相关联的另一元素的相似性而对搜索结果中所包括的非文本元素进行评分，并且基于评分识别搜索结果中所包括的至少一个非文本元素的步骤。

优选地，在评分步骤中，与不同语言属性相关联的另一元素具有高相似性的非文本元素被给予高分。所述方法可以进一步包括通过使用翻译引擎来对在某种语言下的搜索准则进行翻译以生成在另一种语言下的搜索准则的步骤。

优选地，非文本元素是图像和/或声音。本发明中所搜索的图像包括静止图像、运动图像以及任意其它形式的图像。

优选地，所述方法进一步包括通过使用在某种语言下的搜索准则以及在另一种语言下的与所述搜索准则相对应的搜索准则来搜索数据库，并且将用于搜索的语言作为语言属性与搜索结果中所包括的非文本元素相关联的步骤。

优选地，所述评分步骤包括通过比较多个非文本元素来针对与图像元素中所包括的形状相关的信息计算形状得分的步骤。给出形状得分的步骤可以包括提取图像元素的轮廓信息的步骤以及将从多个图像元素提取的轮廓信息进行比较的步骤。优选地，在比较轮廓信息的步骤中，对放大的或缩小的和/或方位变化的轮廓信息进行比较。比较轮廓信息的步骤可以包括参考事先准备的形状图案分类词典以使得能够在考虑到相关形状图案分类的情况下对多个非文本元素进行比较的步骤。

优选地，所述评分步骤包括通过比较多个非文本元素来针对与图像元素中所包括的颜色分量相关的信息计算颜色分量得分的步骤。计算颜色分量得分的步骤可以包括对整个图像的用于多个图像元素的代表性颜色分量值进行比较的步骤。优选地，颜色分量的代表性数值是所讨论图像元素的颜色分量值的平均值、中间值、众数值和/或有效值（significant value）。

优选地，所述方法进一步包括基于图像元素的平滑性计算平滑性得分的步骤；计算平滑性得分的步骤包括依据预定规则将每个图像元素划分为多个分区的步骤，计算多个分区中的每一个的相同颜色的比例的步骤，以及基于多个分区中的每一个的相同颜色的比例计算平滑性的步骤；并且所述方法进一步包括通过使用光学字符识别技术尝试对所述图像元素中所包括的字符进行字符识别的步骤以及基于字符识别的结果计算字符识别得分的步骤。

优选地，对非文本元素进行评分的步骤包括基于每个非文本元素的形状得分、颜色分量得分、平滑性得分和字符识别得分中的至少一个得分计算总得分的步骤；并且所述识别步骤包括基于所述总得分识别搜索结果中所包括的至少一个非文本元素的步骤。

虽然本发明的概述在上文中已经被描述为一种计算机实施的用于识别适于在多语言环境中进行通信的非文本元素的方法，但是本发明也可以被理解为程序、程序产品、软件、软件产品以及***或单元。

程序产品和软件产品的示例可以包括存储以上所描述的程序和软件的存储媒体以及传送所述程序和软件的媒体。程序可以使得计算机执行以上所描述的方法的步骤。

本发明的概述并非全部都是本发明的必需特征；应当注意的是，本发明也可以包括组件的组合和子组合。

附图说明

图1是本发明的一个实施例的图像搜索***的功能模块图。

图2是示出本发明实施例的图像搜索***的整体操作的流程图；

图3是示出本发明实施例中的跨语言轮廓得分计算处理或颜色分量得分计算处理的操作的前一半的流程图。

图4是示出本发明实施例中的跨语言轮廓提取或颜色分量匹配处理的操作的后一半的流程图。

图5是示出本发明实施例中的跨语言轮廓得分计算处理的更多细节的流程图。

图6是示出本发明实施例中的跨语言颜色分量得分计算处理的更多细节的流程图。

图7是示出本发明实施例中的跨语言平滑性得分计算处理的细节的流程图。

图8是用于解释本发明实施例中的非文本信息数据库的图像示图。

图9是用于解释本发明实施例中的图像搜索***的搜索结果示例的示图。

图10是用于解释本发明实施例中的图像搜索***的搜索结果示例的示图。

图11是是用于解释本发明实施例中的图像搜索***的搜索结果示例的示图。

图12是示出适于实施本发明实施例的图像搜索***的信息处理单元的硬件配置示例的示图。

具体实施方式

虽然在下文中将基于附图对本发明的实施例进行详细描述，但是所要理解的是，实施例不对在权利要求的范围中所描述的发明进行限制并且实施例中所描述的特征的所有组合对于本发明的解决方案而言并非是必要的。

本发明可以以许多不同形式来实现并且不应当仅被局限于实施例的描述。贯穿实施例的描述对相同元素给予相同的附图标记。

在本发明的实施例中，与用户输入的搜索准则相匹配的图像图标通过图像搜索***中的信息处理而被呈现给用户。特别地，在本发明的实施例中，适于在属于具有不同文化和语言的群体的人们之间的通信中使用的通用图像图标被呈现给用户。

在本发明的实施例中，包括基于用户输入的搜索准则（关键词）的查询被翻译引擎翻译为多种语言。随后，基于原始关键词和所翻译关键词执行图像搜索。在本发明的实施例中，图像搜索结果中所包括的图像均被给予具体语言属性。

接下来，在本发明的实施例中，对图像搜索结果中所包括的图像进行字符识别分析、颜色检测、轮廓检测和平滑性检测。在轮廓检测和颜色检测中，针对个体图像的轮廓和颜色分量提取特征值。接下来，使用所提取的特征值对在轮廓和/或颜色分量方面的类似图像跨语言的存在程度进行分析。在某些图像具有对其给予了另一种语言属性的某些图像的类似图像的高的存在程度的情况下，该某些图像被给予高分。

此外，在本发明的实施例中，执行字符识别分析和平滑性检测以确定个体图像是否适合作为通信手段。特别地，如果包括字符，则语言依赖性增加。因此，其字符的包括程度高的图像作为字符识别的结果而被给予高分。此外，为了排除诸如照片之类的具有过于大量的信息而使得它们不适于作为通信手段的图像，具有低平滑性的图像作为平滑性检测的结果而被给予高分。

在本发明的实施例中，可以基于字符识别分析、颜色检测、轮廓检测和平滑性检测所获得的得分来获得个体图像的总分，换句话说，通过对四个得分进行规范化并计算其平均值来获得个体图像的总分。因此，至少部分取决于多语言环境中的语言而适于作为通信手段的图像图标依据总分被识别并且被呈现给用户。

可想到的本发明实施例的图像搜索***的使用情形是适于在多语言环境中进行通信的图像图标，其通过经由移动终端（例如智能电话）访问图像搜索***而获得，并且被显示在移动终端上并且被无法理解相互语言的人们所共享以使得能够在他们之间进行通信。

另一种可想到的使用情形在于，当向许多人分发消息或新闻时，分发由图像搜索***所获得的指示消息或新闻的图像图。许多目标人群不能读懂字符。对于这样的人群而言，图像搜索***所呈现的适于在多语言环境中进行通信的图像图标可以是有效的信息来源。

再另一种使用情形在于，当诸如简介手册之类的以本地区域使用为假设而设计文学作品被全球使用时，本发明实施例的图像搜索***能够被用来验证该文学作品中所包括的图像图标是否能够被全球性地理解，并且如果其无法被理解，则获得其替代品的候选。

下文将参考图1至12对本发明的实施例进行更为详细的描述。

图1是本发明实施例的图像搜索***100的功能框图。图1的功能框图所示出的组件可以通过在主存储器4中加载操作***以及硬盘13等中存储的诸如应用程序之类的计算机程序，并且使得CPU1读取它们和硬件资源以及软件以相互协同来实施。

本发明实施例的图像搜索***100包括输入/输出部件105、关键词提取部件110、图像搜索部件115、搜索结果存储部件120、搜索结果分析部件125、总分计算部件150、总分存储部件155和呈现图像确定部件160。

输入/输出部件105在图像搜索***100和用户或另一计算***之间提供输入和输出接口。例如，在本发明的实施例中，用户经由输入/输出部件105输入图像搜索准则。

本发明实施例的关键词提取部件110经由输入/输出部件105读取搜索准则输入以提取一个或多个搜索关键词并将所述关键词送至图像搜索部件115。在本发明的实施例中，搜索准则包括通信的描述和语言属性。例如，如果输入了自然句子“an earthquakewarning has been issued.Be alert.”和语言属性日语作为搜索准则，则关键词提取部件110例如提供提取搜索关键词“earthquake”、“warning”和“alert”的功能。

本发明实施例的关键词提取部件110通过使用周知的tf-idf方法来实现关键词提取。术语tf是词频（term frequency）的缩写形式，而idf是逆向文档频率（inversedocument frequency）的缩写形式。例如，具体而言，对于通过形态学分析而从文档j获得的个体单词i而言，如果通过将由以下表达式所获得的tf_i,j和idf_i相乘所获得的数值等于或大于预定阈值，则单词i可以被提取作为搜索关键词。

[表达式1]

其中n_i,j是单词i在文档j中出现的频率，|D|是文档数量，而是包括单词i的文档的数量。

此外，本发明实施例的关键词提取部件110将所提取的搜索准则或搜索关键词翻译为一种或多种预定语言以获得相对应的搜索关键词并且将所述关键词及其语言属性送至图像搜索部件115。预定语言可以是预定主语言，可由用户每次所指定，或者可以是其组合。优选地，预定计包括组合中另一端的语言。

本发明实施例的图像搜索部件115通过使用包括关键词提取部件110所提取的搜索关键词及其语言属性的查询对非文本信息数据库180进行查询以获得与该关键词相匹配的多个图像。优选地针对个体语言属性生成查询并且对非文本信息数据库180进行查询。作为图像搜索部件115的搜索结果而获得的图像均被给予一个或多个语言属性。给予搜索结果的图像的语言属性可以是对图像搜索部件115执行搜索时所使用的搜索关键词所给予的语言属性。

参考图8，将更为详细地对本申请的非文本信息数据库180的示例进行描述。图8是用于对本发明实施例的非文本信息数据库180进行解释的图像示图。非文本信息数据库180包括语言列表505，按照语言的第一字符列表510，按照语言和第一字符的单词列表515，按照语言、第一字符和单词的指针520，以及内容文件存储部件525。

要存储在本申请的非文本信息数据库180中的数据可以通过在互联网上的web服务器（未示出）上进行爬行（crawling）而获得。具体地，本发明实施例的非文本信息数据库180从爬行引擎（未示出）获得诸如图像的文件名的关于互联网上的图像的信息，诸如与图像相关联的替换文件的alt属性，以及图像空白处的文本，以生成元信息（索引关键词）。此时，通过找出指定给图像或包括图像的网页、文件名、编码***等的语言属性而获得图像的一个或多个语言属性。

本申请的非文本信息数据库180从元信息和语言属性形成所要存储的图像的索引。特别地，语言属性被存储在语言列表505中，索引关键词的第一字符被存储在按照语言的第一字符列表510中，并且索引关键词被存储在按照语言和第一字符的单词列表515中，并且内容文件存储部件525中所存储的内容文件的指针530被存储在按照语言、第一字符和单词的指针520中。单独的表格505至520由指针所指示。

按照语言、第一字符和单词的指针520包括指示在具有相同关键词索引的多个图像中的多个图像的排名得分。虽然排名得分能够通过测量图像在图像搜索结果中被点击的次数而获得，但是其方法可以被本领域技术人员所设计并且因此并不在此进行详细描述。

当通过使用包括搜索关键词及其语言属性的查询对本发明实施例的非文本信息数据库180给出查询时，首先，执行在所述查询中的语言属性和语言列表505之间的匹配，其中执行按照对应于目标语言属性的语言的第一字符列表510和该查询中所包括的搜索关键词的第一字符之间的匹配。接下来，执行按照语言和对应于所匹配的第一字符的第一字符的单词列表515和该查询中的搜索关键词之间的匹配，其中识别按照语言、第一字符和单词的匹配指针520。通过使用所识别的按照语言、第一字符和单词的指针520，返回内容文件存储部件525中所存储的具有高排名得分的预定数量的内容文件530作为对该查询的响应。

内容文件530自身可以被存储在内容文件存储部件525中，或者可替换地，指示所述内容在互联网上的内容的位置的统一资源定位符（URL）可以被存储在内容文件存储部件525中并且可以被返回。在后者的情况下，图像搜索部件115通过使用所返回的URL而从互联网上的web服务器获得所讨论的图像。

在本发明的实施例中，语言列表505、按照语言的第一字符列表510以及按照语言和第一字符的单词列表515可以被配置为使得频繁使用的列被动态移动至更高层级以提高搜索速度。

本发明实施例的搜索结果存储部件120存储包括图像搜索部件115已经获得的多个图像的搜索结果。在搜索结果存储部件120中，搜索结果的个体图像与一个或多个语言属性相关联。

本发明实施例的搜索结果分析部件125对包括图像搜索部件115所找到并且存储在搜索结果存储部件120中的多个图像的搜索结果进行分析。搜索结果分析部件125包括轮廓检测部件130、颜色检测部件135、平滑性检测部件140和字符识别分析部件145。

本发明实施例的轮廓检测部件130提取个体图像中所包括的对象的特征点以获得轮廓信息并且对图像之间的轮廓信息的相似性进行分析。作为结果，如果目标图像经常与被给予不同语言属性的另一图像具有高的轮廓信息相似性，则该图像被给予较高的“轮廓得分”。

本发明实施例的颜色检测部件135在提取了个体图像的颜色分量之后对图像之间的颜色分量的相似性进行分析。作为结果，在其与具有被给予不同语言属性的颜色分量的图像之间经常具有高相似性的图像被给予高的“颜色分量得分”。执行这样的评分以在表达某些事件时考虑颜色分量而排除高度本地的图像。例如，虽然美国的邮箱颜色为蓝色，但是其在日本、英国等为红色，在中国为绿色，在德国、法国等为黄色。因此，当搜索邮箱的图像图标时，无法被识别为没有颜色的邮箱的图像在多语言环境中被识别的概率很低，因此有必要将这样的图像评价为低。

本发明实施例的平滑性检测部件140基于统一颜色的子分区的比例来获取个体图像的平滑性得分。平滑性检测部件140向具有低平滑性的图像给出高的“平滑性得分”。这是因为许多具有高平滑性的图像是风景照片等，其由于过大信息量而并不是直观且清楚的并且因此经常不适于进行通信。

本发明实施例的字符识别分析部件145对依赖于搜索结果的个体图像中的语言的字符的包括程度进行分析并且向具有低程度的图像给予高的“字符识别得分”。其原因在于，包括许多依赖于语言的字符的图像对于无法理解该语言的人们来说作为通信手段是无用的。字符识别分析部件145可以通过应用现有的光学字符识别技术（简称为“OCR”）来安装。

“轮廓得分”、“颜色分量得分”、“平滑性得分”和“字符识别得分”的计算将在稍后详细描述。

本发明实施例的总分计算部件150从搜索结果分析部件125接收“元素得分”，也就是“平滑性得分”、“字符识别得分”、“颜色分量得分”和“轮廓得分”，并且基于此向每个图像给出“总分”。本发明实施例的总分计算部件150所计算的总分存储在总分存储部件155中。例如，在本发明的实施例中，通过对“平滑性得分”、“字符识别得分”、“颜色分量得分”和“轮廓得分”进行规范化并随后计算其平均值来获得“总分”。

本发明实施例的呈现图像确定部件160依据存储在总分存储部件155中的个体图像的总分来确定要向用户呈现的图像，从搜索结果存储部件120获得所确定的图像，并且将图像送至输入/输出部件150以向用户呈现图像。在本发明的实施例中，具有搜索结果中所包括的图像的最高总分的图像被识别并呈现给用户。

图2是本发明实施例的图像搜索***100的整体操作的流程图。处理从步骤205开始，并且在步骤210中，以具体语言接收来自用户的诸如关键词或自然句子之类的搜索准则的输入。如果在步骤210输入了自然句子作为搜索准则，则图像搜索***100使用结合关键词提取部件110所描述的tf-idf方法执行关键词提取。

处理进行至步骤215，其中在步骤210所提取的在具体语言下的搜索关键词被翻译为预定的另一种语言。优选地，该另一种语言包括目标受众在多语言环境中的通信中所使用的语言，并且包括一种或多种预定主语言。该另一种语言可以由用户所指定。在本发明的实施例中，最终获得了四种语言的关键词集合，也就是“英语”、“日语”、“中文”和“西班牙语”。

接下来，在步骤220，使用在多种（四种）语言下的搜索关键词执行图像搜索。在本发明的实施例中，通过形成包括搜索关键词以及每种语言的相对应语言属性的查询来执行图像搜索，作为其结果所获得的图像均被给予查询中所包括的语言属性，并且它们是相互关联的。图像搜索的结果存储在搜索结果存储部件120中。

在本发明的实施例中，在步骤220之后的步骤225至240，分别并行执行用于计算“轮廓得分”、“颜色分量得分”、“平滑性得分”和“字符识别得分”的处理。

在步骤225至240中用于计算“轮廓得分”、“颜色分量得分”、“平滑性得分”和“字符识别得分”的处理已经完成之后，处理进行至步骤245。在步骤245，基于“平滑性得分”、“字符识别得分”、“轮廓得分”和“颜色分量得分”对搜索结果中的个体图像计算总分。在本发明的实施例中，通过对“平滑性得分”、“字符识别得分”、“轮廓得分”和“颜色分量得分”进行规范化并随后获得其简单平均值而计算出总分。

接下来，处理进行至步骤250，其中基于在步骤245所计算的总分确定所要呈现的图像，并且所确定的图像被呈现给用户。在本发明的实施例中，具有最高总分的图像被呈现给用户。处理进行至步骤225，其中处理结束。

将参考图3和4中的流程图对本发明实施例中跨语言的轮廓得分计算处理或颜色分量得分计算处理的示例更为详细地进行描述。注意，轮廓得分计算处理和颜色分量得分计算处理分别对应于图2中的流程图200中的步骤225和230。

在图3和4所示的流程图中，针对对其给予语言i作为语言属性的图像l_ij执行轮廓得分计算处理或颜色分量得分计算处理。在本发明的实施例中，图3和4中的步骤由轮廓检测部件130或颜色检测部件135所执行。

图3是示出本发明实施例中跨语言的轮廓得分计算处理或颜色分量计算处理的操作的前一半的流程图。处理从步骤305开始，并且在步骤310中进行识别目标语言i以外的语言m的尝试。

处理进行至步骤315，其中确定是否存在其它的未处理语言m。如果在步骤315确定了存在其它语言m，则处理沿是的箭头进行至步骤320，其中进行提取对其给予了语言m的语言属性的图像l_mn的尝试，并且接着在步骤325，确定图像l_mn是否被成功提取。

如果在步骤325确定了图像l_mn被成功提取，则处理沿是的箭头进行至步骤330，其中计算目标图像图像l_ij和步骤320中所提取的图像l_mn的匹配得分S_mn。由于轮廓匹配或颜色分量匹配的具体处理将在随后使用图5和6中所示的流程图进行详细描述，所以在此并不对其进行描述。

处理进行至步骤335，其中确定在步骤330中所获得的匹配得分S_mn是否大于在目标图像l_ij和对其给予语言m作为图像属性的图像l_mn之间的之前的匹配所获得的最大匹配得分T_m。在本发明的实施例中，对于首先执行针对目标图像l_ij的匹配的情况而言，最大匹配得分T_m被设置为0作为初始数值。

如果在步骤335确定在步骤330所获得的匹配得分S_mn大于在之前匹配所获得的最大匹配得分T_m，则处理进行至步骤340，其中最大匹配得分T_m被在步骤330所获得的匹配得分S_mn所替代，并且随后处理进行至步骤320。如果在步骤335确定在步骤330所获得的匹配得分S_mn不大于在之前匹配所获得的最大匹配得分T_m，则处理返回至步骤320。

在处理返回步骤320之后，重复以上从步骤320至340的处理直至图像l_mn变为不存在。在重复期间，如果在步骤325确定了图像l_mn不存在，则处理从箭头否NO跳出循环并且返回步骤310，从那里针对另一种语言重复后续处理。在步骤310中的处理和后续处理的重复期间，如果在步骤315确定了不存在任何更多的未处理语言，则处理沿否的箭头经由步骤345中的标记A移至图4中的流程图。

图4示出本发明实施例中跨语言的轮廓提取或颜色分量匹配处理的操作的后一半的流程图。处理从步骤345中的标记A开始，并且在步骤405，从对其给予语言i作为语言属性的图像集合中提取下一个图像l_ik，其中保持j≠k。

接下来，在步骤410确定图像l_ik是否存在。如果在步骤410确定图像l_ik存在，处理进行至步骤415，其中计算目标图像l_ij和在步骤405中所提取的图像l_ik的匹配得分O_k。由于轮廓匹配或颜色分量匹配的具体处理将在随后使用图5和6中所示的流程图进行详细描述，所以在此并不对其进行描述。

处理进行至步骤420，其中在步骤415所计算的值O_k被添加至目标图像l_ij和对其给予相同语言i作为语言属性的图像的之前匹配得分的累积值P。此后，处理返回至步骤405，从那里重复处理直至在步骤410确定了图像l_ik不存在。如果在步骤410确定了图像l_ik不存在，则处理进行至步骤425。

在步骤425，通过对T_m和P进行加权来计算图像l_ij的颜色分量得分和轮廓得分。处理进行至步骤430，其在其中结束。

本发明实施例中计算“轮廓”得分的处理将使用图5更为详细地进行描述。图5是示出本发明实施例中跨语言的轮廓得分计算处理的更多细节的流程图。注意，该流程图中的处理对应于图3的流程图中的步骤330或者图4的流程图中的步骤415。图5中所示的步骤由轮廓检测部件130所执行。

处理从步骤505开始，并且在步骤510中，提取两个图像（这里为图像A和图像B）的特征点。这里，图像A和B对应于步骤330中的图像l_ij和l_mn并且对应于步骤415中的图像l_ij和l_ik。图像的特征点可以依据已知的Gabor滤波方法来计算，并且具体地能够通过以下表达式获得。

[表达式2]

其中

x'=xcosθ+ysinθ

y'=-xsinθ+ycosθ

其中λ是波长的余弦分量，θ是Gabor函数的条形图案的方位，ψ是相位偏移量，Υ是空间长宽比，并且σ是高斯包络的大小。

处理进行至步骤515，其中计算在步骤510中所提取的图像A的特征点和图像B的特征点之间的最小距离dist1。在形成图像A的特征点和图像B的特征点的组合以无一例外地使得总和变为最小的情况下，最小距离在这里是图像A的特征点和图像B的特征点之间的距离的总和。接下来，在步骤525，将图像A横向翻转，并且计算翻转的图像A的特征点和图像B的特征点之间的最小距离distR。

接下来，处理进行至步骤530，其中计算图像A或B的最优放大或缩小比。最优放大或缩小比是用于放大或缩小图像A和B之一以使得图像A和B具有相同大小（在它们均有不同长宽比的情况下为相同的宽度和高度）的比率。在步骤535，计算使用步骤530中所计算的放大比或缩小比所放大或缩小的图像A的特征点和图像B的特征点之间的最小距离distX。

接下来，在步骤540，将图像A横向翻转，并且计算横向翻转的图像A和图像B的最优放大或缩小比。接下来，在步骤545，计算使用步骤540中所计算的放大比或缩小比所放大或缩小的图像A和B的特征点之间的最小距离distXR。

处理进行至步骤550，其中选择值dist1、distR、distX和distXR中的最小数值作为distOpt。注意，如果某个图像是仅通过将其它图像横向翻转和/或放大或缩小所获得的图像，则值dist1、distR、distX和distXR是它们应当在其中被视为相似图像的值。接下来，在步骤555，存储值distOpt作为轮廓匹配得分，并且处理在步骤560结束。

将使用图6对本发明实施例中计算“颜色分量得分”的处理进行更为详细地描述。图6是示出本发明实施例中跨语言的颜色分量得分计算处理的更多细节的流程图。注意，该流程图中的处理对应于图3的流程图中的步骤330或图4的流程图中的步骤415。图6中所示的步骤由颜色检测部件135来执行。

处理从步骤605开始，并且在步骤610，针对两个图像（图像A和B）提取预定颜色分量，这里是RGB分量。这里，图像A和B对应于步骤330中的图像l_ij和l_mn并且对应于步骤415中的图像l_ij和l_ik。

接下来，在步骤615，计算图像A和B的个体颜色分量（也就是红（R）、绿（G）和蓝（B））的平均值，并且在步骤620中，计算在步骤615中所计算的个体颜色分量的平均值之间的差的绝对值。接下来，在步骤625，计算个体颜色分量的平均值之间的差之和colorVal。随后，在步骤630，值colorVal作为有关颜色分量的匹配得分而被存储，并且处理在步骤635结束。

接下来，将使用图7所示的流程图对本发明实施例中计算“平滑性得分”的处理进行描述。注意，图7中所示流程图的处理对应于图2的流程图200中的步骤235。该流程图中的步骤由平滑性检测部件140所执行。

首先，处理在执行步骤220之后从步骤705开始，并且在步骤710，从步骤220的图像搜索的结果中所包括的图像中提取一个图像。接下来，在步骤715，步骤710中所提取的图像依据预定规则而被划分为子分区（这里是3乘3像素分区）。处理进行至步骤720，其中提取步骤715中所划分的分区之一，并且在步骤725，提取步骤720中所提取分区的颜色分量（这里是RGB分量）。

处理进一步进行至步骤730，其中基于在步骤725中所提取的颜色分量而确定目标分区中所出现的相同颜色的点的数量是否大于预定百分比（这里是50%）。如果在步骤730中确定该数量并不大于预定比例，则处理沿否的箭头进行至步骤740。如果在步骤730确定该数量大于预定比例，则处理沿是的箭头进行至步骤735。在步骤735，作为变量的“平滑分区数量”加1，并且处理进行至步骤740。

在步骤740，确定是否还剩余有通过步骤715中的划分所获得的未处理分区。如果在步骤740确定了还有剩余，则处理沿是的箭头返回至步骤720，并且重复后续处理。如果在步骤740中确定没有分区剩余，则处理沿否的箭头进行至步骤745，其中根据以下表达式计算目标图像的平滑性得分。

[表达式3]

平滑性得分=平滑性分区数量/所划分分区总数

在步骤745中计算了平滑性得分之后，处理进行至步骤750，其中确定通过步骤220中的图像搜索所获得的图像中是否有未处理图像剩余。如果在步骤750确定了存在剩余的未处理图像，则处理沿是的箭头返回至步骤710，并且重复后续处理。如果在步骤750确定了没有剩余的未处理图像，则处理沿否的箭头进行至步骤755，其中处理结束（进行至步骤245）。

接下来，将对本发明实施例中计算“字符识别得分”的处理进行描述。如已经描述的，计算“字符识别得分”的处理由字符识别分析部件145来执行。使用现有的光学字符识别技术允许字符出现在其中字符可能被包括在图像中的分区（称作“字符分区”）中的概率通过识别字符分区并且执行在字符分区中出现的图像和事先准备的字符字体数据之间的匹配而获得。在本发明的实施例中，字符分区中存在字符的概率的倒数被计算作为“字符识别得分”。

如以上所描述的，本发明实施例的总分计算部件150通过对“轮廓得分”、“颜色分量得分”、“平滑性得分”和“字符识别得分”进行规范化并且随后计算其平均值而获得总得分。个体得分能够依据预定规则而被规范化以便落入预定范围之内。例如，图像i的规范化轮廓得分能够通过以下表达式获得。

[表达式4]

图像i的规范化轮廓得分=（所有图像的轮廓得分的最大值+M1）/（图像i的轮廓得分+M1）

其中M1是0以外的常数以防止以上表达式被零所除。

例如，图像i的规范化颜色分量得分能够通过以下表达式获得：

[表达式5]

图像i的规范化颜色分量得分=（所有图像的颜色分量得分的最大值+M2）/（图像i的颜色分量得分+M2）

其中M2是0以外的常数以防止以上表达式被零所除。

参考图9至11，将对本发明实施例中的图像搜索***的搜索结果的示例进行描述。注意，虽然图9至11由于在申请附图中不能使用彩色附图的约束而被表示为单色画面，但是实际示例的图像是彩色图标。图9是图示本发明实施例的图像搜索***的搜索结果示例的示图。图9中所示的示例示出了选择英语单词“earthquake”作为输入关键词的情形。注意，在这种情况下，相对应的翻译的关键词是日语“jishin”、中文“dizhen”和西班牙语“terremoto”。在该示例中，由于在使用英语“earthquake”执行搜索时作为第四候选而获得的图像具有最高总分（总分=0.88），所以该图像被呈现给用户。

图10是用于解释本发明实施例中的图像搜索***的另一个搜索结果示例的示图。图10所示的示例示出了选择英语单词“tsunami”作为输入关键词的情形。注意，在这种情况下，相对应的翻译的关键词为日语“tsunami”、中文“haixiao”和西班牙语“tsunami”。在该示例中，由于在使用英语“tsunami”执行搜索时作为第四候选而获得的图像具有最高总分（总分=0.96），所以该图像被呈现给用户。

图11是用于解释本发明实施例中的图像搜索***的又一个搜索结果示例的示图。图10所示的示例示出了选择英语单词“exit”作为输入关键词的情形。注意，在这种情况下，相对应的翻译的关键词为日语“deguchi”、中文“chukou”和西班牙语“salida”。在该示例中，由于在使用日语“deguchi”执行搜索时作为第五候选而获得的图像具有最高总分（总分=0.98），所以该图像被呈现给用户。

图12是示出适于实施本发明实施例的图像搜索***的信息处理单元的硬件配置示例的示图。信息处理单元包括连接至总线2的中央处理单元（CPU）1和主存储器4。诸如硬盘设备驱动器13和30、CD-ROM驱动器26和29、软磁盘驱动器20、MO驱动器28和DVD驱动器31的可移动存储（能够在其中更替存储媒体的外部存储***）经由软盘控制器19、IDE控制器25和SCSI控制器27连接至总线2。

诸如软磁盘、MO、CD-ROM和DVD-ROM之类的存储媒体被***可移动存储之中。这样的存储媒体、硬盘驱动器13和30以及ROM14能够存储计算机程序代码以便向和操作***协作的CPU等给出指令以实施本发明。计算机程序被加载在主存储器4中以使得它们得以被执行。计算机程序也可以被压缩或划分为多块并且存储在多个媒体中。

信息处理单元经由键盘/鼠标控制器5从诸如键盘6和鼠标7的输入设备接收输入。信息处理单元连接至显示器11以便经由DAC/LCDC10向用户呈现视觉数据。

信息处理单元能够经由网络适配器18（以等）连接至网络以与另一计算机等进行通信。虽然没有示出，但是信息处理单元也可以经由并行端口连接至打印机或者经由串行端口连接至调制解调器。

利用以上描述将轻易理解的是，适于实施根据本发明实施例的图像搜索***的信息处理单元能够由诸如普通个人计算机、工作站和主机或者其组合的信息处理单元来实施。然而，这些组件仅作为示例，并且所有组件都并非是本发明绝对必要的组件。

对于本领域技术人员还将显而易见的是，能够对本发明实施例中所使用的信息处理单元的硬件组件进行各种变化，诸如合并多个机器并且对其分布功能。这些变化显然包括在本发明的精神之内。

本发明实施例的图像搜索***采用支持图形用户界面（GUI）多窗口环境的操作***，诸如微软公司所提供的操作***，苹果公司所提供的以及（例如由国际商业机器公司所提供的）。

因此，能够理解的是，本发明实施例中所使用的图像搜索***并不局限于在具体操作***环境中使用。

如本领域技术人员所能够理解的，本发明可以被体现为一种***、方法或计算机程序产品。因此，本发明可以采用全硬件、全软件（包括固件、驻留软件和微代码）的实施例，或者在其中组合了通常被称作“电路”、“模块”或“***”的软件和硬件的实施例。此外，本发明还能够采取被实现为具有由介质所实施的计算机可用程序代码的物理表达介质的计算机程序产品的形式。

本发明还可以使用计算机可用/计算机可读媒体的组合。虽然并不局限于此，但是计算机可用/计算机可读媒体的示例包括电子、磁性、光学、电磁、红外和半导体***、单元、设备和传播媒体。计算机可读媒体的更为具体的示例的非穷举列表包括具有引线的电连接、便携式计算机卡盒、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或闪存）、光纤、便携式紧致盘只读存储器（CD-ROM）、光学存储设备、支持互联网或内联网的传输介质，以及磁性存储设备。

应当注意的是，由于程序可通过对例如纸张或其它介质进行光学扫描而电子获取，并且在必要情况下通过适当方法进行编译、解释、处理，并且存储在计算机存储器中，所以计算机可用/计算机可读媒体可以是在其上打印有程序的纸张或者其它适宜媒体。计算机可用/计算机可读媒体可以是能够包括、存储、通信、传播或承载指令执行***、单元或设备所使用的程序或者与之相关的任意媒体。计算机可用媒体可以包括传播的数据信号，其包括与之一起实施的计算机能够在基带中使用或者作为载波的一部分而使用的程序代码。计算机可用程序代码可以使用适当介质进行传送，该介质包括无线电、有线线路、光纤线缆和RF，但是并不局限于此。

用于实施本发明的计算机程序代码可以使用多种编程语言之一或其组合进行描述，包括诸如Java、Smalltalk和C++的面向对象编程语言，以及诸如C编程语言和类似编程语言的常规过程编程语言。程序代码可以整体或部分地在用户计算机上执行，或者作为独立软件包部分在用户计算机上执行而部分在远程计算机上执行，或者整体在远程计算机或服务器上执行。利用后者的情形，远程计算机能够经由包括局域网（LAN）或广域网（WAN）的任意类型的网络而连接至用户的计算机，或者（例如，使用互联网服务提供商而经由互联网）连接至外部计算机。

以上已经参考方法的流程图和/或***和计算机产品的框图对本发明的实施例进行了描述。将要理解的是，流程图和/或框图中的框以及流程图和/或框图中的框的组合能够根据计算机程序的指令而执行。经由通用计算机的处理器、专用计算机或其它可编程数据处理单元而执行的计算机程序指令也可能被提供至计算机的处理器或其它可编程数据处理单元以便制造出生成用于执行通过流程图和/或一个或多个框所指定的功能/操作的装置的机器。

这些计算机程序指令还可以存储在计算机可读介质中，所述计算机可读介质能够对计算机或具体形式的其它可编程数据处理单元进行操作以便制造出包括用于执行通过流程图和/或一个或多个框所指定的功能/操作的装置的产品。

这些计算机程序指令还可以被加载在计算机或用于产生要由计算机执行的处理的其它可编程数据处理单元以便提供用于执行通过流程图和/或一个或多个框所指定的功能/操作的处理以及在计算机或其它可编程数据处理单元上执行一系列操作步骤。

附图中的流程图和框图示出了根据本发明各个实施例的***、方法和计算机程序产品的架构、功能和执行操作。在这方面，流程图或框图的个体框能够示出包括用于实施所指定逻辑功能的一个或多个可执行指令的模块、分段或代码。还应当注意的是，在可替换的实施方式示例中，框中所指示的功能有时是以与图中所示有所不同的顺序来执行。例如，顺序示出的两个框有时实质上在同时执行或者以相反顺序执行。框图中的框和/或流程图以及框图中的框和/或流程图的组合可以由***来执行，该***主要由用于执行特殊功能或动作的专门用途的硬件或专用硬件的组合所构成。

对于本领域技术人员显而易见的是，以上实施例能够进行各种改变或修改。例如，虽然已经以向用户呈现单个图像为条件对本发明的实施例进行了描述，但是可以基于总分而呈现具有高总分的多个图像。此外，在本发明的实施例中，虽然通过对“轮廓得分”、“颜色分量得分”、“平滑性得分”和“字符识别得分”进行规范化并随后计算其平均数值来获得总分，但是本领域技术人员能够通过各种方法从“轮廓得分”、“颜色分量得分”、“平滑性得分”和“字符识别得分”获得总分。

此外，在计算“轮廓得分”时，可能事先准备形状图案分类词典，相关形状图案分类参考该词典进行识别，并且随后在考虑所识别的图案分类的情况下计算多个非文本元素之间的相似性。此外，在计算“颜色分量得分”时，获得图像的颜色分量数值的平均值；相反，可能不仅使用图像的颜色分量的中间值、众数值和/或有效值而且还适当使用所有颜色分量的代表性值。此外，在计算“字符识别得分”时，可以在图像元素中包括较大量字符时将字符识别得分设置为低。

虽然已经使用静止图像作为非文本信息的示例对本发明进行了描述，但是运动图像、声音等能够通过索引而被编译到数据库中以便被搜索，并且其相互相似度能够被计算的任意非文本信息及其组合也能够被搜索。例如，对于声音而言，能够替代光学字符识别技术而使用现有的声音识别技术。当然，以上变化和修改也能够被包括在本发明的技术范围之内。

应当理解的是，能够通过本发明的实施例而有效地获得适于在多语言环境中使用的通用非文本信息。

Claims

1.一种计算机实施的用于通过使用能够在其中搜索非文本元素的数据库来识别适于在多语言环境中进行通信的非文本元素的方法，所述方法包括下述步骤：

使用在某种语言下的第一搜索准则以及在另一种语言下的与所述第一搜索准则相对应的第二搜索准则来接收所述数据库的搜索结果，其中，具体语言属性与所述搜索结果中所包括的非文本元素相关联；

根据与不同语言属性相关联的另一元素的相似性而对所述搜索结果中所包括的所述非文本元素进行评分，其中所述非文本元素中的至少一个非文本元素是图像，并且其中对所述至少一个非文本元素进行评分进一步包括：

通过使用光学字符识别技术来尝试对所述图像中所包含的字符进行字符识别；

基于所尝试的所述字符识别的结果来对所述图像中所包含的字符的包括程度进行分析，并且计算针对所述图像中所包含的每个字符的字符识别得分，其中所述字符识别得分在所述图像包含多个字符的情况下被设置为低；以及

基于评分识别所述搜索结果中所包括的至少一个所述非文本元素。

2.根据权利要求1所述的方法，其中在所述评分步骤中，与不同语言属性相关联的另一元素具有高相似性的非文本元素被给予高分。

3.根据权利要求1所述的方法，进一步包括通过使用翻译引擎来对在所述某种语言下的所述第一搜索准则进行翻译以生成在所述另一种语言下的所述第二搜索准则的步骤。

4.根据权利要求1所述的方法，进一步包括下述步骤：

通过使用在所述某种语言下的所述第一搜索准则以及在所述另一语言下的与所述第一搜索准则相对应的所述第二搜索准则来搜索所述数据库；以及

将用于所述搜索的所述语言作为语言属性与所述搜索结果中所包括的所述非文本元素相关联。

5.根据权利要求1所述的方法，其中所述评分步骤包括通过比较多个非文本元素来针对与所述图像元素中所包括的形状相关的信息计算形状得分的步骤。

6.根据权利要求5所述的方法，其中给出形状得分的所述步骤包括提取所述图像元素的轮廓信息的步骤以及将从多个图像元素提取的所述轮廓信息进行比较的步骤。

7.根据权利要求6所述的方法，其中，在比较所述轮廓信息的所述步骤中，对放大的或缩小的和/或方位变化的轮廓信息进行比较。

8.根据权利要求6所述的方法，其中比较所述轮廓信息的所述步骤包括参考事先准备的形状图案分类词典的步骤，其中在考虑到相关形状图案分类的情况下对多个非文本元素进行比较。

9.根据权利要求1所述的方法，其中所述评分步骤包括通过比较多个非文本元素来针对与所述图像元素中所包括的颜色分量相关的信息计算颜色分量得分的步骤。

10.根据权利要求9所述的方法，其中所述计算颜色分量得分的步骤包括对整个图像的用于多个图像元素的代表性颜色分量值进行比较的步骤。

11.根据权利要求10所述的方法，其中所述颜色分量的代表性值是所讨论的图像元素的颜色分量值的平均值、中间值、众数值和/或有效值。

12.根据权利要求1所述的方法，进一步包括基于所述图像元素的平滑性计算平滑性得分的步骤。

13.根据权利要求12所述的方法，其中所述计算平滑性得分的步骤包括依据预定规则将每个所述图像元素划分为多个分区的步骤，计算所述多个分区中的每一个分区的相同颜色的比例的步骤，以及基于所述多个分区中的每一个分区的相同颜色的比例计算所述平滑性的步骤。

14.根据权利要求1所述的方法，其中：

所述对非文本元素进行评分的步骤包括基于每个所述非文本元素的形状得分、颜色分量得分、平滑性得分和所述字符识别得分中的至少一个得分计算总得分的步骤；以及

所述识别步骤包括基于所述总得分识别所述搜索结果中所包括的至少一个非文本元素的步骤。

15.一种***，包括用于执行根据权利要求1至14之一所述的方法的步骤的装置。