CN101388022A

CN101388022A - 一种融合文本语义和视觉内容的Web人像检索方法

Info

Publication number: CN101388022A
Application number: CNA2008101182533A
Authority: CN
Inventors: 赵耀; 谢琳; 朱振峰
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2008-08-12
Filing date: 2008-08-12
Publication date: 2009-03-18
Anticipated expiration: 2028-08-12
Also published as: CN101388022B

Abstract

本发明涉及一种融合文本语义和视觉内容的Web人像检索方法，该方法如下：向商业搜索引擎服务器提交“查询串”实现基于HTTP协议的连接和下载功能，下载商业图片搜索引擎的图片结果及相关网页作为本地图像库，同时抽取原始网页的关键标签形成后期文本处理使用的XML文件；采用AdaBoost人脸检测技术，并对包含图片的网页脚本进行向量模型的高层语义挖掘，并使用经验权值和基于PLSA的动态加权方法进行对比；通过一个调节因子，将对图像进行的视觉上和文本上的特征分析结果动态结合，得到图像与查询的相关度排序值，重新排序搜索引擎图像结果列表，并反馈给用户。本方法有更高的查准率，特别是特征融合之后有了大幅度的提高。

Description

一种融合文本语义和视觉内容的Web人像检索方法

技术领域

本发明涉及一种人像检索方法，特别是指一种融合文本语义和视觉内容的Web检索方法。本发明以Internet环境中的Web人像图片检索为对象，对Web文本语义挖掘与图像视觉内容判别的融合技术进行了较为深入的研究，实现了一个Internet环境下Web人像图片检索的原型***。

背景技术

随着计算机技术、网络技术和大容量存储技术等的不断发展，以及个人电脑和数字摄像设备的普及，互联网上可获取的多媒体信息的数量也以惊人的速度增长，特别是图像以其直观性和包含信息的丰富性，被广泛地使用并上传至互联网。互联网上信息激增给用户提供丰富资源的同时也带来了挑战：浩如烟海的各类信息无序地分布于各处，往往因为缺乏应有的组织和管理而难以得到有效的利用，这在一定程度上造成了资源的浪费。因此，人们面临的一种迫切需求是，如何从信息的汪洋中，快速有效地定位并获得感兴趣的资源。这种需求也促使了信息检索技术的产生与发展。

随着相关学科的发展，信息检索这个方向的研究热点已经经历了很大的发展与变化，从基于文本的信息检索，到基于内容的图像/视频、音频检索和多媒体检索，以及面向WWW的多媒体检索。检索技术是一项实用性极强的应用型技术，可以应用于如科技查新、新闻广告、安全侦缉、设计制作、休闲娱乐等众多领域。而图像检索作为信息检索十分重要的一个分支，随着多媒体信息处理、数据库及计算机互联网等技术相互融合与发展，特别是在Internet上资源泛滥的今天，在Internet环境下基于内容的图像检索***的设计和应用，是一个颇具生命力的研究方向，针对这一方向深入研究，将具有重大的理论价值和广阔的应用前景，其成果对我国此类信息产业的形成与发展将起到积极的促进作用。

在多媒体信息所包含的不同种类中，图像在其中占据着重要的地位。相关研究表明，人类在对物质世界的感知过程中，有80％以上的信息来源于视觉。图像作为一种重要的信息载体，具有形象直观、内容丰富等特点，是组成多媒体的重要内容。同时，图像不仅是除文本外在网络上使用最多的媒体形式，也是表示其他多媒体信息最方便的方式。因此，图像检索技术从20世纪70年代以来逐渐成为了一个非常活跃的研究领域，且在数据库***和计算机视觉两大研究领域的推动下，又先后分化出基于文本的和基于内容的两个不同的研究角度。

基于文本的信息检索技术在过去的几十年中得到了充分的研究，并已成功运用于商业搜索引擎中。70年代末期，文本检索技术被应用于早期的图像检索中，主要方法是对图像文件标注关键字或文本标题以及一些附加信息，再对图像进行基于关键字的检索，这实质上就是将图像检索转化成为了文本检索问题，即基于文本的图像检索(Text-BasedImage Retri eval，TBIR)。目前的多数商业Web图片搜索引擎，如Google、AltaVista、Lycos等，主要都是采用TBIR方法，且其性能通过一些网络分析技术已得到大幅提高，如Google所采用的著名的Page-Rank技术。但是，TBIR往往只分析了文本信息而没有考虑图片的视觉内容，然而随着Web图像的激增，这种采用对图像标注关键词等文本描述信息的方式已不能适应网络信息检索的要求，其局限性也愈加突出：1)对图像标注文本信息需由人工完成，工作乏味冗长且工作量大，且人工标注的速度无法适应多媒体信息***式的增长以及网络的传播速度，这就要求标注必须由人工方式转变为计算机自动的方式；2)由于一些图像所包涵的内容远非少量文本标注所能完整表达的，即所谓的“一图胜千言”，或者如抽象图之类的，其内容又很难用文字来表达，而且不同的人对同一幅图可能又会有不同的理解，同一个人在不同环境条件下对同一幅图也可能会有不同的理解，这些都导致了文本标注不可避免的主观性和不准确性。

于是，在90年代初期，基于内容的图像检索技术(Content-Based ImageRetrieval，CBIR)应运而生。区别于基于文本检索的***中对图像进行人工标注的做法，基于内容的检索技术主要是将图像自身的视觉内容特征作为其索引，如颜色、纹理、形状以及空间关系等底层视觉特征。在检索中，用户提交一幅能代表自己需求的“例子图像”给***作为查询，***会返回与此图像在视觉特征上相似的其他图像作为检索结果。CBTR技术之所以优于传统的基于关键字的检索手段，是因为它融合了图像理解、模式识别和计算机视觉等理论，并且综合了人工智能、面向对象技术、认知心理学以及数据库等多领域的知识，这些研究在图像检索的发展过程中是一次巨大的跨越。

近些年来，国内外很多研究机构和商业组织都在进行基于内容的图像检索的深入研究，并相应地开发出一些有价值的通用***。例如，国外比较著名的有：国际商业机器公司(IBM)Almaden研究中心开发的“基于内容检索***”QBIC(Query By Image Cont ent)，Vi rage公司开发的Vi rage，MTT媒体实验室开发的Photobook，美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同开发的VisualSEEK，以及美国伊利诺伊大学厄本那-香槟分校(UIUC-University of Illinois at Urbana-Champaign)的MARS(Multimedia Analysis and Retrieval System)等。国内比较有代表性的如中国科学院计算技术研究所和北京图书馆联合开发的“基于特征的多媒体信息检索***”MIRES，浙江大学开发的Photo Nayigator、PhotoEngine和WebscopeCBR等。

CBIR自产生以来，一直得到人们的广泛关注，越来越多的研究者投入到这项工作中来。但是，基于内容的检索方法的问题在于，目前大多CBIR***使用的是图像全局的底层视觉特征来描述图像，而这些特征与人们对图像高层语义的主观判断没有统一规则的相关性，虽然图像视觉特征的提取技术已经有较多的理论支持，但检索结果仍然不尽人意。这是由于图像的底层视觉特征与其高层语义并没有必然的联系，因此在许多情况下，完全不同类型的两张图片有可能具有类似的某种底层特征，特别是当其底层视觉特征与高层语义不一致时，基于内容的图像检索***往往不能给出令人满意的结果，这就是所谓的“语义鸿沟”(Semantic Gap)问题，也是CBIR想要进一步发展的瓶颈。

针对这个问题，研究人员提出利用人机交互(Human-ComputerInteraction)来辅助检索，一个典型技术即相关反馈(Relevance Feedback，RF)。相关反馈利用用户对返回的结果进行评价来重新调节当前查询，能够使返回结果更加符合用户的主观需求。但正因为这项技术需要用户一次甚至多次的交互反馈，在一定程度上也给用户造成了负担，而且增加***的复杂性。

与图像有关的检索技术研究发展了十几年，仍是当前一个重要的研究课题。从心理学的角度上讲，人们对图像间相似度的判断上体现出多重标准，既有语义标准也有视觉特征标准，而且不同人在判断标准上也有差异，一个好的检索***必须能够模拟这种主观多样性。由于基于文本的图像检索技术和基于内容的两种图像检索技术在图像语义和视觉特征之间各有侧重，在发挥各自优势的同时，也受到“语义鸿沟”问题的严重制约，阻碍了图像检索***性能的进一步提高。

90年代以后，随着网络技术的飞速发展，加上数字摄像设备的普及，在网页上使用图像变得非常简便。图像能极大的丰富网页的可观性，增强用户的对信息的直观认识，己经成为当今网页不可或缺的一部分，这些Web图像成为了用户获取感兴趣图片的一个重要来源。于是，人们转向了网络环境下的基于内容的图像检索的研究，但如何根据用户需求有效的搜集这些图像资料成为当前学界研究的一个热点，从而也提出了新的挑战。但是，若只是将CBIR的方法搬至网络环境而不做其他改进，则CBIR中的“语义鸿沟”问题仍然不能得以解决。

虽然各国的科研人员在CBIR领域已取得了一些研究成果，但令人遗憾的是，由于受到“语义鸿沟”的制约，很难寻找到一个成功商业化的CBIR***。目前，依然是那些基于关键字查询的图像搜索引擎占据着市场。尽管如此，上述基于文本的图像搜索引擎也存在着“语义鸿沟”问题，只不过此时的鸿沟表现为人对图像的理解与风格多样的Web脚本标注信息之间的差异，由此导致诸多问题，如搜索到的结果太多、搜索结果的排序不稳定，语义相近的图片不能紧跟在一起、检索出的图片相关度并不令人很满意，以及冗余信息较多等。

不过研究人员发现，Web图片有着不同于传统数据库图片的特性，除了图片本身之外，在包含它们的网页中，可能还有着丰富的文本描述，如图片标题、图片URL、替换文本(ALT)和环绕文本等，这些都有助于揭示其高层语义信息。而且一般说来，文本比图片底层视觉特征更易于揭示图片的高层语义，因而其也在商业搜索引擎中发挥了巨大作用。但是，许多网页的设计和制作并不那么规范，而是按照自己的需求随意地排版而不给出必要标签或做适当标注。因此，将图片的视觉内容与网页的文本描述相结合才能给出更加全面和客观的相关度评价，而且这也是在Web图像检索上可以有效途径提高性能的有效途径。因为有研究表明，一个典型的网络用户在使用搜索引擎时，平均只输入1-2个查询词作为关键字，而平均只翻阅返回结果的头3页内容，而缩小至只针对人像的检索，用户自然更是习惯仅输入人名作为关键词进行查询，而希望能在前几页中就能找到查询对象的图片。因此，如何在不增加用户负担的前提下，将更匹配的结果尽量提前并反馈给用户更加符合目前的实际应用需求。

目前，研究者们也已经对这种多特征融合的方法进行了深入的研究，提出了许多相关的方法将视觉和文本特征进行结合。如，Cascia等人在1998年提出一个在WWW环境下，使用线性向量将文本和视觉线索结合的图像检索***；Zhao于2002年也提出利用LSI对使用文本和视觉特征表示的文件进行语义分析，并证明隐语义分析的引入对CBIR***性能所带来的巨大提高；Y.Alp Aslandogan等人在2000年提出了一个名为“Diogenes”的人物图片Web搜索站(Web search agent)，检验了Dempster-Shafer方法进行多线索的结合；2004年由Quack等人提出的Cortina则重点放在大规模图像，同时引入了相关反馈技术；Jing等在2005年也提出了一个结合关键字和视觉特征进行图像检索的框架，同样需要相关反馈的参与；为减轻相关反馈给用户造成的负担，He等人于2006年使用基于关联规则(association rules)和聚类技术的特征结合方法，提出一步式搜索(One-step search)等等，不一而足。因此，对于图像检索的“语义鸿沟”问题，如果能将图像视觉和相关文本信息相结合进行检索，二者相互弥补可以提高检索性能。已有一些研究者结合MPEG-7国际标准，将人工智能、神经网络、概念学习、数据挖掘等思想用于视觉媒体描述和检索，研究所谓下一代网上视觉媒体搜索引擎及其相关技术。

在目前的研究水平上，基于内容的图像检索技术主要针对通用图像的检索，它以通用图像底层特征的相似性匹配检索为主，辅助以图像高层内容特征。图像高层特征的描述需要借助专门领域的知识，涉及到专用图像的精确识别，如指纹识别、面貌识别、虹膜识别、步态识别等，这类识别已构成了当今极其活跃的一类图像识别技术分支——生物特征识别技术分支。目前，这类专用图像检索的研究也已全面展开，出现了如人像检索***Diogenes等一些研究***。

总的说来，目前基于内容的图像搜索引擎技术仍相当不成熟，理论上和实用上均有许多问题亟待解决，尤其在图像特征描述、通用性设计、***性能优化及在Internet上实用化等方面，仍是需要研究的课题。

发明内容

本发明的目的在于避免上述现有技术中的不足之处而提供一种融合文本语义和视觉内容的Web人像检索方法。本发明便以Internet环境中的Web人像图片检索为对象，对Web文本语义挖掘与图像视觉内容判别的融合技术进行了较为深入的研究，实现了一个Internet环境下Web人像图片检索的原型***。

本发明的目的可以通过以下措施来达到：

一种融合文本语义和视觉内容的Web人像检索方法，将文本和视觉特征结合运用，该方法其具体步骤如下：

步骤一网络爬行形成本地原始图片库

向商业搜索引擎服务器提交“查询串”实现基于HTTP协议的连接和下载功能，下载商业图片搜索引擎的图片结果及相关网页作为本地图像库，同时抽取原始网页的关键标签形成后期文本处理使用的XML文件；

步骤二进行图像内容和文本语义挖掘

采用了当前检测性能好、速度快的AdaBoost人脸检测技术，另一方面，我们对包含图片的网页脚本进行向量模型的高层语义挖掘，并使用经验权值和基于PLSA的动态加权方法进行对比；

步骤三视觉和文本特征的动态融合

通过一个调节因子，将对图像进行的视觉上和文本上的特征分析结果动态结合，得到图像与查询的相关度排序值，从而重新排序搜索引擎图像结果列表，并反馈给用户。

本发明相比现有技术具有如下优点：通过与原始结果列表的对比实验，结果表明，我们所设计的融合图像视觉内容和文本高层语义的检索排序方法有更优异的检索性能，特别是前几页的准确率更加优异。通常，用户只对排在前面的结果感兴趣，所以本发明更加优势。

附图说明

图1本发明的整体***框图；

图2本发明的***界面图；

图3检索和重排结果图；

图4PLSA观点模型；

图5文本排序结果；

图6特征融合排序结果。

具体实施方式

对于Web这个特定的应用背景下，基于文本的图像检索在一定程度上回避了对复杂的可视化元素的识别难题，符合人们熟悉的检索习惯，充分利用了Web网页上下文和超文本结构信息，实现简单，但是因为仍旧局限在文本检索的范围内，通过索引词汇来描述图像，因此容易出现主题歧义、标引不一、无法对图像内容理解等问题。而基于内容的图像检索恰好相反，主要利用对直观形象的特征元素的分析来标引图像，具有一定的客观性，如每幅图像的颜色直方图是确定的。但是基于内容的图像检索的算法较复杂，实现成本高。因而在本发明中，我们将文本和视觉特征结合运用，实现了一个Web人像图片检索的原型***。其具体步骤如下：

步骤一网络爬行形成本地原始图片库

本发明通过向商业搜索引擎服务器提交“查询串”实现基于HTTP协议的连接和下载功能，使用这种方式摆脱了VC传统的基于Socket的编程方式，减少了劳动量，提高了劳动效率。本发明下载商业图片搜索引擎的图片结果及相关网页作为本地图像库，同时抽取原始网页的关键标签形成后期文本处理使用的XML文件。

步骤二进行图像内容和文本语义挖掘

由于本发明针对的是人像图片，于是从图像视觉内容角度，我们采用了当前检测性能好、速度快的AdaBoost人脸检测技术，进行图片内是否含有人物的判别。另一方面，我们对包含图片的网页脚本进行向量模型的高层语义挖掘，并使用经验权值和基于PLSA的动态加权方法进行对比。

步骤三视觉和文本特征的动态融合

通过与原始结果列表的对比实验，结果表明，我们所设计的融合图像视觉内容和文本高层语义的检索排序方法有更优异的检索性能，特别是前几页的准确率更加优异。通常，用户只对排在前面的结果感兴趣，所以本发明更加优势。

下面结合附图和具体实施方式对本发明作进一步描述。

根据以上介绍的技术方案，我们按照本发明框架实现了一个图像检索的原型***，如图2本发明的***界面图所示。***界面主要由4个部分构成，分别用红、绿、蓝、紫4种不同颜色的虚线框标示并依次编号。左边的红色和绿色的1、2号虚线框为***的参数设置和控制部分，其中给用户留出自主输入和选择参数的接口。

1号红色框是网络爬行下载模块的参数设置和控制区：在设置区内，用户可以自主输入关键词，选择想要进行链接并下载原始图片库的商业图片搜索引擎，选择若下载不成功时重复尝试连接的次数(次数越多，可以保证***尽量地下载完整的原始数据，但却要花费更多的时间)，选择下载图片的数量，输入保存图片库的本地路径等；在控制区内，用户可以控制图片爬行下载的开始与停止，及退出***。2号绿色框是重排算法的选择控制区，提供了4种算法的接口。

3号蓝色框和4号紫色框均为图片显示区域，其中3号框内显示的是从商业图片搜索引擎上下载的原始图片序列，而经过一定算法分析、重新排序后的图像序列显示在4号框内；在3、4号色框下均有可前后翻页的控件，方便用户前后翻阅图片序列，进行重排前后及序列前后的查看与对比。

图3显示的是本发明运行的一个实际结果示例。

结合附图，我们对本发明的具体实施方式作详细阐述。

如图1本发明的整体***框图所示，本发明的整体***流程图包括以下几个部分：

l、网络爬行形成本地图像库

在本发明采用的是基于Google和Baidu等搜索引擎上的元搜索方式，这样能够减小工作量，不用将大量的时间花在爬行后的数据归类上，因为Google和Baidu已经将所有从各个网站得到的图片建立了索引，从而保证了所爬行的数据都是图片而不包含其他数据。另外，本程序只对图片所在的网页进行文本分析而对于其他与这个网页链接的网页并不作任何处理，所以“蜘蛛”只需在种子节点(Google和Baidu等)基础上对每一个链接再进行一次(深度)爬行即可。

在此步骤(见图1上部实线框)，针对每个结果可以下载三类数据：结果缩略图、原始图片和包含原始图片的原始网页。这三类数据整体构成本地原始图像数据库。而在下载原始网页的同时，抽取网页脚本中与图像密切相关的标签内容，形成一个XML文件以供之后的文本语义挖掘使用。

1.进行图像内容和文本语义挖掘

在形成的图像数据库的基础上，本发明分别使用两个独立的模块进行图像内容的判别和文本高层语义的挖掘。其中，使用了OpenCV提供的AdaBoost人脸检测集成函数进行图像内容的判别，而使用向量模型进行文本高层语义的挖掘，并且使用了经验权值以及利用PLSA的模型对其进行动态加权。

文本高层语义挖掘的具体流程如下：

(1)布尔型文档向量模型：

在本发明中，图片的标题、图片的替换文本、图片的URL、原网页的URL、META标签的keywords和description属性、以及图片的环绕文本被用来构建布尔型的Web语义信息元向量：

T = (t_{1} . . . t_{n_{t}}),

其中n_l＝7，

t_{n_{t}} &Element; {0,1}

表示查询文本是否出现在对应的语义信息元中。

(2)经验权重向量：

考虑到web制作人员在背景及制作风格等方面的不同，对从web脚本文件所抽取的语义信息元中所隐含的相关语义信息的重要性也存在着差异，由此可为每个语义信息元赋以相应的权值以反映上述差异。令

W_{T} = (w_{1_{t}} \cdot \cdot \cdot w_{n_{t}})

为语义信息元的权值向量，其中w_j为与语义信息元t_j对应的权值。通过对爬行模块返回的含有人像的Web页的观察(具体地说是对语义信息元XML文档的观察)，在本发明中经验性地取

W_{T} = (w_{1_{t}} w_{2_{t}} \cdot \cdot \cdot w_{7_{t}}) = (1.5,2.0,0.8,0.8,1.0,1.0,0.5),

越大，表明对应的语义信息元越重要。从而，Web文档的语义相关度R_T为：

根据每个Web文档的语义相关度R_T，可以实现不同web文档的脚本语义排序。

(3)利用PLSA动态加权

从图4PLSA观点模型可知，PLSA观点模型是共生数据(co-occurrencedata)的隐变量模型，将观测得到的每一组词w∈W＝{w₁，w₂，...，w_M}和文档d∈D＝{d₁，d₂，...，d_N}，与一个非观测得到的隐含类别主题z∈Z＝{z₁，z₂，...，z_k}联系起来。同时，还定义如下概率：

1)按概率P(d_i)选定一个文件d_i；

2)按概率P(z_k|d_i)挑出一个隐含类z_k；

3)按概率P(w_j|z_k)产生一个词w_j。

因此，便可忽略隐含类别主题z，得到一组组观测对(d_i，w_j)的联合概率模型，可表示为

(a)

P (d_{i}, w_{j}) = P (d_{i}) P (w_{j} | d_{i}), P (w_{j} | d_{i}) = \underset{z &Element; Z}{Σ} P (w_{j} | z) P (z | d_{i})

(b)

P (d_{i}, w_{j}) = \underset{z &Element; Z}{Σ} P (z) P (d_{j} | z) P (w_{j} | z)

将PLSA的观点模型(b)(见图4)引入本发明，从原始网页中所提取出的语义信息元(即关键标签域，field)作为观测词W的对应，即w→f；而使用查询词来代替隐变量，表示为z→q。

由于在本发明实验的具体条件下，查询词(隐含变量)是已知的，因此在本发明中，选择图4中的对称参数模型(b)来求取文档和标签域的联合概率更符合本发明的研究对象，由此可得到Field-Document联合概率：

P (d_{i}, f_{j}) = \underset{q &Element; Q}{Σ} P (q) P (d_{j} | q) P (f_{j} | q)

其中，Q为查询词集合。对于查询词q，其先验概率P(q)可被看作是一个常量。这样，问题则可进一步简化为对于给定的查询词q，语义信息元和文档的类条件概率P(f_j|q)和P(d_i|q)。P(f_j|q)为语义信息元f_j在图片库中出现查询词的词频TF(term frequency)，即P(f_j|q)＝n/N_d，N_d为图片库总数，n为其中出现查询词的文件数量。

经过web脚本分析，与第i个web文档d_i对应的向量型语义描述为d_i＝{f_i,1，f_i，2，...，f_i，7}，其第j个元素定义为：

f_i，j＝tf_j*Portion_i，j

式中，m_i表示在除去环绕文本语义信息元外，在第1~6个语义信息元中出现关键词的元的个数，totalNum和keyNum_i分别表示环绕文本域中单词的总数和出现关键词的次数。这里，tf_j反映的是不依赖于某个单一文档的“词频”信息，而Portion_i，j则反映的是第i个文档内部语义信息元间的关联的比例因子。

对于给定的查询词q，假设经由爬行模块返回的N_d个文档服从高斯分布，则有：

P(d_i|q)＝G(d_i；μ_d，σ_d)

于是，对于每一个查询(query)，根据式4.9可以得到以P(f_j，d_i)

为元素的Field-Document联合分布矩阵：

在(2)中，我们给出了对所有查询采用固定经验权值实现web脚本的语义相关度度量方法。但对于不同的查询，更直接的方案是对不同的语义信息元进行动态加权，从而动态地适应不同类型的查询词。因此，本发明又提出了两种基于PLSA对布尔型语义描述向量动态加权的方案。

①独立权重向量法：对于第i个web文档，根据Field-Document联合分布矩阵P把P(f_j，d_i)作为与其第j个语义信息元对应的权值，即

{w^{i}}_{j} = p (f_{j}, d_{i}),

由此可得第i个web文档的语义相关度为：

R_{T}^{i} = Σ_{j = 1}^{n_{t}} {t^{i}}_{j} \cdot {w^{i}}_{j}

由于这种方式对每个文档所采用的权重向量各不相同，由文档自身PLSA统计概率决定，于是将这种结合方式称为独立权重向量法。

②统计权重向量法：对所有文档使用同一个统计得出的权重向量，即对第j个语义信息元，在所有文档上求其期望值(即对矩阵尸按行求平均)，作为该域的权重值：

w_{j} = E_{i} [p (d_{j}, f_{i})] = \frac{1}{1000} Σ_{i = 1}^{N_{d}} p (f_{j}, d_{i})

从而第i个web文档的语义相关度为：

R_{T}^{i} = Σ_{j = 1}^{n_{t}} {t^{i}}_{j} \cdot w_{j}

由于在这种方式中对所有文本采用的是同一个统计得出的权重向量，于是将该方式称为统计权重向量法。需说明的是，对于不同的查询，此时的权值w_j是动态变化的。以上这两种动态加权法，利用统计的方法完成了对web脚本语义相关度的度量。

(4)视觉内容与文本高层语义的结合

在本发明中，为将视觉内容判别结果与文本语义结合起来，给视觉内容向量也赋予一个权值向量

W_{V} = (w_{1_{v}} \cdot \cdot \cdot w_{n_{v}}),

本文中n_v＝1，则

W_{V} = (w_{1_{t}}) .

再采用与特征向量相同的方式，将之与语义信息元的权值向量W_T线性结合，得到总权值向量

W = (W_{T}, W_{V}) = (w_{1_{t}} {\cdot \cdot \cdot w}_{7_{t}} w_{1_{v}})

和融合的布尔型特征描述向量F＝(T，V)＝(t₁，…，t₇，v₁)。

从而，通过特征描述向量和总权重向量的点积，即可求得最终的相关度R：

根据最终相关度，可以实现融合的视觉内容判别与布尔型语义描述向量结合的排序。

实验结果

图5文本排序结果、图6特征融合排序结果是本发明提出的各个排序方法的对比实验结果图，随机地选择了K＝15个英文人名作为查询词，这15个人名分别是andrea、bruce、fred、gaby、jane、lynette、maria、peter、robinson、simon、wesley、eva、jackcafferty、brucelee、williamshakespeare。从图中可以看出，本实验比原始排序有更高的查准率，特别是特征融合之后有了大幅度的提高。

Claims

1、一种融合文本语义和视觉内容的Web人像检索方法，其特征在于：将文本和视觉特征结合运用，该方法其具体步骤如下：

步骤一网络爬行形成本地原始图片库

步骤二进行图像内容和文本语义挖掘

步骤三视觉和文本特征的动态融合