CN103425640A

CN103425640A - 一种多媒体问答***及方法

Info

Publication number: CN103425640A
Application number: CN2012101466512A
Authority: CN
Inventors: 刘扬; 王栋; 刘洁
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2012-05-14
Filing date: 2012-05-14
Publication date: 2013-12-04
Also published as: US20150074112A1; WO2013170587A1; EP2833271A4; EP2833271A1

Abstract

本发明适用于网络问答技术领域，提供了一种多媒体问答***及方法，所述***包括：问题输入单元，用于接收用户输入的文本问题；解析单元，用于获取该文本问题的特征信息及语义类别；类别判断单元，用于判断预设多媒体数据库中是否存在该语义类别；相似度获取单元，用于判断结果为是时，将该特征信息与该数据库中该语义类别对应的所有文本特征进行匹配，获取每一文本特征与该特征信息之间的相似度；多媒体答案输出单元，用于获取相似度大于预设阈值时对应的文本特征，并输出该文本特征所对应的预先存储在该多媒体数据库中的多媒体答案信息。本发明使得对用户输入的文本问题的解答更有效、直观、生动、丰富，极大地提升用户体验效果。

Description

一种多媒体问答***及方法

技术领域

本发明属于网络问答技术领域，尤其涉及一种多媒体问答***及方法。

背景技术

问答***是信息检索***的一种高级形式，从其工作原理上来分，有自动问答***和非自动问答***；从***涵盖的知识范围来分，可以分为封闭领域（基于领域数据库）和开领域（基于网络）两种。随着互联网的普及和网络用户呈指数的增长，基于网络的自动问答***成为了人工智能和自然语言处理领域中一个备受关注并具有广泛发展前景的研究方向。它综合运用了知识表示、信息检索、自然语言处理等技术。自动问答***能够使用户以自然语言输入问题，而返回给用户的是简洁、准确的答案，而不是一些相关的网页。和传统的搜索引擎相比，自动问答***更加放表、准确。

当前，自动问答***的研究仍旧集中在文本信息上，问题和答案的表现形式都是文本信息。文本自动问答***的研究起源于上世纪60年代，最早是应用在专家***的人机对话中。BASEBALL和LUNAR是最早的文本问答***。他们分别是针对棒球和月球知识的专家***，用户可以询问相关的问题由它们给出解答。当然，它们所涉及的都是专业领域的信息，信息面比较窄。随着90年代美国国家标准化技术研究院组织的TREC竞赛任务，自动文本问答***逐渐成为了研究的热点，而且涉及领域变得相对广泛。时至今日，文本自动问答***已经开始逐渐应用于各种领域，如IBM的超级计算机沃森，Apple公司推出的Siri语义控制服务。基于文本的自动问答***包含的技术包括：自然语言处理、信息检索、知识表示、语义理解等。通常是先通过自然语言处理解析用户问题中的文本信息，提取关键词，通过知识表示和语义理解方法来分析和表述出用户问题中的确切信息，通常也叫做问题分析模块。在这个模块中，一般包括问题分类、关键词提取和关键词扩展。通过问题分析模块，***推断出可以用来回答问题的答案所具备的要素，然后通过信息检索模块在已有的文档数据库中快速找到相关信息，为了保证检索结果不空，文档数据库必须足够大。目前，次模块往往是调用搜索引擎从互联网上下载。

尽管自动问答***的研究取得了巨大的进步，然而文本自动问答***在信息的直观性、丰富性等方面还存在缺陷。

发明内容

本发明实施例的目的在于提供一种多媒体问答***及方法，旨在解决由于现有的文本问答***输出的与问题相关的答案不够直观、内容不够丰富，用户体验效果不够好的问题。

本发明实施例是这样实现的，一种多媒体问答***，所述***包括：

问题输入单元，用于接收用户输入的文本问题；

解析单元，用于解析获取所述文本问题的特征信息及语义类别；

类别判断单元，用于判断预设多媒体数据库中是否存在所述语义类别；

相似度获取单元，用于当所述类别判断单元输出结果为是时，将所述特征信息与所述多媒体数据库中所述语义类别对应的所有文本特征进行匹配，获取每一文本特征与所述特征信息之间的相似度；以及

多媒体答案输出单元，用于获取相似度大于预设阈值时对应的文本特征，并输出所述文本特征所对应的预先存储在所述多媒体数据库中的多媒体答案信息。

本发明实施例的另一目的在于提供一种多媒体问答方法，所述方法包括下述步骤：

接收用户输入的文本问题；

解析获取所述文本问题的特征信息及语义类别；

判断预设多媒体数据库中是否存在所述语义类别；

当所判断结果为是时，将所述特征信息与所述多媒体数据库中所述语义类别对应的所有文本特征进行匹配，获取每一文本特征与所述特征信息之间的相似度；

获取相似度大于预设阈值时对应的文本特征，并输出所述文本特征所对应的预先存储在所述多媒体数据库中的多媒体答案信息。

本发明实施例通过问题输入单元接收用户输入的文本问题，解析单元解析获取该文本问题的特征信息及语义类别，类别判断单元判断预设多媒体数据库中是否存在该语义类别，当该类别判断单元输出结果为是时，相似度获取单元将该特征信息与该多媒体数据库中该语义类别对应的所有文本特征进行匹配，以获取每一文本特征与该特征信息之间的相似度，多媒体答案输出单元获取相似度大于预设阈值时对应的文本特征，并输出该文本特征所对应的预先存储在该多媒体数据库中的多媒体答案信息，解决了由于现有的文本问答***输出的与问题相关的答案不够直观、内容不够丰富，用户体验效果不够好的问题，使得自动推送给用户的答案更准确、有效，答案内容更生动、丰富等，也满足了用户对信息获取智能化、直观化等的要求。

附图说明

图1是本发明第一实施例提供的多媒体问答***的结构图；

图2是本发明第二实施例提供的多媒体问答***的结构图；

图3是本发明第三实施例提供的多媒体问答方法的实现流程图；

图4是本发明第四实施例提供的多媒体问答方法的实现流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明第一实施例提供的多媒体问答***的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

该多媒体问答***包括问题输入单元11、解析单元12、类别判断单元13、相似度获取单元14以及多媒体答案输出单元15，其中：

问题输入单元11，用于接收用户输入的文本问题。

解析单元12，用于解析获取该文本问题的特征信息及语义类别。

其中，该语义类别或称语义关键词是多源信息，既包括通过自然语言处理工具提取的文本关键词，也包括视觉概念关键词、人物名称、地标名称等组成的视觉关键词等，比如大海、花、山、美食、度假等语义类别。该特征信息包括关键词的词袋模型、双连词文本特征、主关键词、相关词语列表等。

在本发明实施例中，当用户需要获取某一文本问题的答案时，可以在搜索引擎或者特定的搜索位置上在线输入该文本问题，问题输入单元11接收用户输入的该文本问题，此时解析单元12能够实现自然语言的解析，具体为解析获取与该文本问题相关的特征信息以及语义类别，比如当用户输入“如何做牛排？”的文本问题时，则可以获取的特征信息为牛排、做牛排、牛排做法等，且归属的语义类别为美食类；再比如，用户输入的“Java是不是支持VoIP?”文本问题属于是程序语言类语义问题；“列举哪些国家获得过足球世界杯？”的问题属于足球比赛类问题；比如“什么时候是2012年春节？”问题的语义是节日等等。

类别判断单元13，用于判断预设多媒体数据库中是否存在该语义类别。

本发明实施例中在判断预设多媒体数据库中是否存在某一语义类别时，可以将输入的文本问题的语义类别与该数据库中的所有类别进行匹配，也可以利用预先建立好的概率潜在语义模型，获取与数据库中所有语义类别之间的相似度，将该文本问题归属到相似度大于某一预设值时所对应的数据库总的一个或者多个语义类别中，也即该类别判断单元13输出结果为是，否则该类别判断单元13输出结果为否。

相似度获取单元14，用于当类别判断单元13输出结果为是时，将该特征信息与该多媒体数据库中该语义类别对应的所有文本特征进行匹配，获取每一文本特征与该特征信息之间的相似度。

其中，该多媒体问答***还包括：

文本答案输出单元，用于当类别判断单元13输出结果为否时，或者当该相似度获取单元14输出的相似度均不大于预设阈值时，直接从网络上获取并输出与该文本问题相关的文本答案信息。

在本发明实施例中，预设多媒体数据库中预先存储了大量的语义类别、文本特征以及与该文本特征对应的多媒体答案信息之间的对应关系，则当用户搜索某一文本问题的答案，在解析单元12获取该文本问题的特征信息及语义类别之后，首先利用类别判断单元13判断该预设多媒体数据库中是否存在该语义类别，通过该判断过程，可以缩小匹配的范围，且对于数据库中不存在的语义类别不需要进行匹配过程，可以提升输出答案的速度等。一般情况下，由于是非类问题的答案仅限于“是”或者“否”的简单答案，则该预设的多媒体数据库中不存在是非类问题的文本特征及相应的多媒体答案，若用户输入的文本问题属于是非类时，则即使该多媒体数据库中存在其所属的语义类别，但却不存在对应的文本特征，若将该是非类问题的特征信息与该多媒体数据库中该是非类问题所属类别下的所有特征匹配的结果是，获取的相似度较小或者均不大于预设阈值，该预设的阈值为根据经验值选取，比如取0.8，则此时，利用文本答案输出单元可以直接从网络上获取并输出与该文本问题相关的文本答案信息，从而可以降低该多媒体数据库的负担，减少该多媒体数据库的存储空间等，也可以降低数据库设立的成本。

在本发明实施例中，当类别判断单元13输出结果为是时，比如“如何做牛排？”的How-to类问题，则通过相似度获取单元14可以将对应的“牛排做法”等特征信息与该多媒体数据库中美食语义类别所对应的所有文本特征进行匹配，从而可以获取与所有文本特征对应的相似度，具体地相似度获取或称匹配方法可以通过词频统计、DTW（Dynamic Time Warping，动态时间弯曲）度量、词袋模型建模等获取对应的相似性大小。

多媒体答案输出单元15，用于获取相似度大于预设阈值时对应的文本特征，并输出该文本特征所对应的预先存储在该多媒体数据库中的多媒体答案信息。

其中，该预设阈值为根据实际需要设置的某一经验值；该多媒体答案信息主要分为三类，也即：文本信息结合图像信息、文本信息结合视频信息、文本信息结合视频信息与图像信息，而仅由文本信息组成的为文本答案信息。

在本发明实施例中，对于某一“谁是毛***？”的问题，其对应的语义类别为政治或者名人类别，假设该多媒体数据库中政治或者名人类别语义类别对应的所有文本特征中包括“毛***”、“***”的文本特征，显然该文本特征与用户输入的文本问题相似度最高，高于预设阈值，输出的多媒体答案信息也是在该多媒体数据库中与该文本特征信息对应的答案信息，比如，输出“***”的文本信息，还有毛***的头像等多媒体信息。另外，也可以获取相似度较高的多个文本特征，多媒体答案输出单元15输出该多个文本特征所对应的预先存储在该多媒体数据库中的多个多媒体答案信息，以方便用户选择更为合理的答案。

另外，在触发该输入单元11之前，该多媒体问答***还包括：

采集单元，用于采集网络问答社区中各种文本问题及对应的文本答案；

特征提取单元，用于获取网络上的每一文本问题和/或对应的文本答案的文本特征及关键词；

多媒体判断单元，用于根据任一文本问题的文本特征，判断该任一文本问题是否需要获取对应的多媒体答案信息；

多媒体答案获取单元，用于当该多媒体判断单元输出结果为是时时，根据该任一文本问题和/或对应的文本答案的关键词，获取与该任一文本问题对应的一条或者多条多媒体答案信息；

类别获取单元，用于根据该任一文本问题和/或对应的文本答案的关键词，获取该任一文本问题所对应归属在多媒体数据库中的一种语义类别；以及

关系建立单元，用于在该多媒体数据库中建立与该任一文本问题对应的语义类别、文本特征以及该一条或者多条多媒体答案信息之间的对应关系。

具体地，上述采集单元、特征提取单元、多媒体判断获取单元、多媒体答案获取单元、类别获取单元以及数据库建立单元描述了在该多媒体数据库的离线建立语义类别、文本特征、多媒体答案信息等的对应关系的过程，其具体说明如下述实施例二该，在此不再赘述。

在本发明实施例中，多媒体问答***通过在线获取问题输入单元11接收到的用户即时提出的文本问题，利用解析单元12对该文本问题进行解析，以获取该文本问题的特征信息及语义类别，且当类别判断单元13判断预设多媒体数据库存在该语义类别时，相似度获取单元14将该特征信息与该多媒体数据库中该语义类别对应的所有文本特征进行相似度度量，最终通过多媒体答案输出单元15把相似度大于预设阈值的一条或者多条多媒体答案信息返回给用户，实现了一种自动的多媒体问答***，且通过对文本问题的智能分析的方式，结合图像、视频等多媒体信息，直观地、有效地、生动地回答了该文本问题，满足了用户的需求，用户体验效果得到极大增强。

实施例二：

图2示出了本发明第二实施例提供的多媒体问答***的结构，具体为该多媒体问答***中多媒体数据库中数据对应关系建立的结构图，为了便于说明，仅示出了与本发明实施例相关的部分。

基于上述实施例一中的详细说明，该多媒体问答***还包括采集单元21、特征提取单元22、多媒体判断单元23、多媒体答案获取单元24、类别获取单元25以及关系建立单元26，其中：

采集单元21，用于采集网络问答社区中各种文本问题及对应的文本答案。

在本发明实施例中，该采集单元21主要用于获取在网络问答社区中离线阶段的文本问题与其对应文本答案集合。如在现有的Yahoo ！Answers、Naver、Google Answers、eHow等在线网络问答社区中收集用户曾经提出的文本问题和其对应的文本答案，通过对它们进行答案的视觉信息丰富从而能够建立多媒体数据库或称多媒体问题及其答案数据库，也即文本问题对应的多媒体答案数据库。

特征提取单元22，用于获取网络上的每一文本问题和/或对应的文本答案的文本特征及关键词。

在本发明实施例中，该特征提取单元22的主要作用是对每一文本问题和/或对应的文本答案进行分析，包括英文词串识别tokenization、分词、词类标注（Part-of-speech Tagging，POS）、过滤停用词（stop word）等预处理操作，以及进一步地提取相关的关键词及文本特征信息等。其中：

tokenization本意是对英文进行词串识别，目的是将字符串转换成词串进而降低信息的不确定性，也可以简单认为是一个识别单词（token）的过程，因为并不是所有的单词都很规整，tokenization可以有效地去除符号、标点等无意义的成分；分词主要是针对汉语进行的，中文分词是指将一个汉字序列切分成一个一个单独的词，而分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，通俗的说，中文分词就是要由机器在中文文本中词与词之间加上标记；词类标注（POS）：在自然语言处理中，词类标注也称为语法标注或者词类识别，是在语句中对某一单词依据它的定义、上下文进行词性标记的过程。简单地说，就是对单词进行词性划分，如名词、动词、连词、副词等；过滤停用词：停用词是指一些太常用以至于没有任何检索价值的单词，搜索引擎碰到这些词时一般都会滤掉。因此为节省时间和空间，应尽量过滤这一类词。

关键词提取：关键词提取基本上是在上述几个步骤过程后，对剩余的文本词语进行筛选，选择尽可能代表原来文本的词语，如名词、动词等词性的词语；文本特征提取：针对不同的文本处理应用，文本特征的提取方式也是不同的。因为不同的文本特征描述的文本信息的特性不同，常用的文本特征包括关键词词袋模型（bag-of-words model）、双连词文本特征（bigram text features）、主关键词（head words）、指定类别相关词列表（a list of class-specific related words andverbs）等。

多媒体判断单元23，用于任一文本问题的文本特征，判断该任一文本问题是否需要获取对应的多媒体答案信息。

其中，多媒体答案信息类型可以分为三类：(1)文本+图像；(2)文本+视频；(3)文本+图像+视频，很明显答案中仅有文本不属于多媒体信息。判断过程主要分为两个步骤：首先，基于文本问题中的疑问词对问题进行判断，这样有些简单的问题直接就可以判定是否用文本答案就可以回答。其次，对于剩余的问题采用朴素贝叶斯分类器来进行判断。这里对于第一步骤中的归类举几个例子：是非类问题如：“Java是不是支持VoIP？”仅用文本答案就可以回答，选择类问题如：“哪一个国家国土面积更大，中国还是澳大利亚？”用文本+图像的多媒体信息回答，定义类问题如：“什么时候是2012年春节？”也可以增加多媒体信息回答等等。而在第二步骤中，对于需要获取对应的多媒体答案信息的问题，则需要提取该文本问题的一些文本特征的集合，其中包括bigram textfeatures、head words、a list of class-specific related words等。另外还可以从对应的文本答案集合中提取一些文本特征，如动词、bigram text features等，通过这些特征训练构建分类器（比如朴素贝叶斯分类器等）进行分类工作，则可以判断每一文本问题是否需要多媒体答案信息来回答。

举个很简单的例子，如果在线问题集合中的问题是“当前美国总统的名字是什么？”，那么我们通过多媒体判断单元23得到的结论是，用文本信息就可以回答该问题，而不需要对该问题答案上增加多媒体信息，则***的最终输出就是“奥巴马”单一的文字内容。如果在线问题集合中的问题是“谁是现在的美国总统”，通过多媒体判断单元23分析后，需要对该问题答案上增加多媒体信息，可能给出的结论是用文本和图像信息来回答该问题，则***的最终输出就是奥巴马的简介和头像、照片等多媒体信息。如果在线问题集合中的问题是“如何给婴儿换尿片？”，则该多媒体判断单元23会把该问题分类到需要使用文本、图像、视频等信息来回答的问题中，因为文本信息和图像信息不足以清楚的教会用户如何给婴儿换尿片，而视频信息则可以实现。

多媒体答案获取单元24，用于用于当该多媒体判断单元23输出结果为是时，根据该任一文本问题和/或对应的文本答案的关键词，获取与该任一文本问题对应的一条或者多条多媒体答案信息。

如图2所示，该多媒体答案获取单元24具体包括：

多媒体信息获取单元241，用于根据该任一文本问题和/或对应的文本答案的关键词，获取与该关键词相关的一条或者多条多媒体信息；

多媒体答案获取子单元242，用于根据预先建立的文本问题与多媒体信息之间的映射关系，获取与该关键词对应的一条或者多条多媒体答案信息；以及

排序单元243，用于根据预先建立的基于梯度Boosting的排序算法，按照与该任一文本问题的相关度，对该一条或者多条多媒体答案信息进行排序。

在本发明实施例中，为了收集与文本问题相关的多媒体数据，需要根据多媒体信息获取单元241以该任一文本问题和/或对应的文本答案的关键词作为网络搜索引擎的输入来获取相关的多媒体信息，且该相关的多媒体信息可能为一条或者多条，此时可利用的网络资源包括Flickr、YouTube等图像和视频分享网站等。而在分析搜索的结果时可得知，实际情况下，该与关键词相关的多媒体信息并不一定都是与文本问题相关，也即不一定都是多媒体答案信息，此外为了排除掉不相关的信息，准确获取与该关键词对应的一条或者多条多媒体答案信息，需要利用到预先建立的文本问题与多媒体信息之间的映射关系进行筛选，而该映射关系主要通过下述单元获取：

图像信息获取单元，用于根据该关键词，获取网络图像资源中与该关键词对应的视觉图像信息；以及

映射关系建立单元，用于利用视觉概念检测子算法，建立文本问题与多媒体信息之间的映射关系。

为了训练视觉概念检测子算法，需要大量的与视觉概念相关的训练图像样本，以自然语言处理输入的关键词为输入，在网络图像搜索引擎，如百度图片、Google Image等上面收集相关图像样本，以实现准确地建立文本问题之间、文本问题与多媒体信息之间的映射关系，进而快速有效地找到与文本问题最相关的多媒体资源进行匹配。本发明实施例采用了结合AdaBoost及Z-grid算法的视觉概念检测子算法，有效地解决了传统AdaBoost的计算复杂度高的问题，能够节省训练时间，该视觉概念检测子算法的实现原理如下所述：

首先，把传统的AdaBoost算法中在特征空间选取最优特征转换成在函数空间寻找最近邻；然后，使用Z-grid索引方式在函数空间快速找到最近邻来加速传统的AdaBoost算法。传统的AdaBoost中，为了保证算法精度，弱分类器的个数通常在十万的数量级上，因此在每次迭代中，都要在数十万个特征中选择最优的一个，因此计算复杂度O(NT)随着T的增多而加大（N为训练样本的个数，T为弱分类器个数）。本发明中提出的概念检测子训练算法就是为了解决T的数量过大的问题，把特征空间最优特征选择的问题转换成了函数空间最近邻选择的问题。特征空间中的每一个弱分类器都可以映射成N维函数空间的一个点。我们在每次迭代的时候在函数空间构建一个查询点Qt。对于分割后的每一个子空间都对应一个唯一的索引值用来对查询点进行快速索引。首先通过层级搜索的方式寻找积累概率大于Pα的子空间；然后，在这些子空间中通过权范围搜索和过滤找到Qt的最近邻Pi(x)。

例如，当文本问题或文本答案中提及到某个语义概念时，如：怎样鉴别LV包？其中“LV包”应该是文本中的比较主要的语义类别概念。***通过“LV包”为关键词在网络搜索引擎中如Google Image、百度图片、flickr等搜索并下载“LV包”的图像作为正样本，其他与“LV包”无关的图像作为负样本，利用Adaboost和Z-grid语义概念训练算法训练分类器，该分类器对于给定的一幅图像可以给出是否和“LV包”相关的置信度，置信度高的信息保留作为与该问题相关的多媒体答案信息，这样就实现了多媒体答案信息和文本信息的有效关联。

接着，多媒体答案获取子单元242根据预先建立的文本问题与多媒体信息之间的映射关系，获取与该关键词对应的一条或者多条多媒体答案信息，过滤不相关的其他多媒体信息，该多媒体答案信息在一定程度上准确地反映了该文本问题的答案信息，且该答案信息中包括丰富的多媒体信息。在实际操作过程中，由于获取的多媒体答案信息通常为多条，且每一条信息与文本问题的相关性不同，因而需要利用排序单元243按照与该任一文本问题的相关度，对该一条或者多条多媒体答案信息进行有效排序，以使得在在线回答用户输入的问题时，能够按照相关度顺序显示，提升用户使用体验。本发明实施例使用的基于梯度Boosting的排序算法的建立过程如下所述：

给定两个多媒体答案信息的特征向量x和y，若x>y，则表示x所属的视频比y所属的视频更适合作为这个问题的答案。那么可以得到两个视频的特征向量x和y对应的一个特征集合S，S={<xi,yi>|xi>yi，i=1，...,N}。排序的问题其实就是一个学习排序函数h∈H的问题，H是一个函数组，而h是其中的一个函数，而视频答案信息的特征向量对应的函数值可以反映它们对于问题的相关性，例如：如果xi>yi，i=1，...,N，那么对应的函数值应该尽可能的h(xi)≥h(yi)。排序函数h的风险值R可以用下面的公式表示：

R (h, τ) = \frac{1}{2} Σ_{i - 1}^{N} {(\max {0, h (yi) - h (xi) + τ})}^{2} - {λτ}^{2}, - - - (1)

最后需要解决一个最优化问题minh∈HR(h)，因此我们使用梯度Boosting算法来学习得到排序函数h，其中两个参数是需要被提前指定的，一个是收敛因子λ，一个是迭代次数N，这两个参数是通过在实验中交叉验证来得到的。

例如，对以同一个文本问题“怎样做巧克力蛋糕？”搜集到一个视频集合。单纯对其中某两个视频进行排序时，可以从以下几个方面来考虑。下载该视频的视频网站上的用户投票、评价，投喜欢的票数越多，用户评论中赞扬、喜爱的文本词越多，表明该视频比另一个视频的排序要高。网络视频有很多是用户重复提交的，如果下载的某个视频重复的版本越多表明用户越喜欢，则说明该视频应该排序比较靠前。另外，视觉概念检测返回的相关度越高，表明该视频和用户问题的文本信息越相关，则应该排序比较靠前。梯度Boosting通过学习这些不同方面的信息，来自动地对多媒体信息进行排序，从而能够综合考虑文本、视觉、网络信息等多模态信息，实现有效地排序。

类别获取单元25，用于根据该任一文本问题和/或对应的文本答案的关键词，获取该任一文本问题所对应归属在多媒体数据库中的一种语义类别。

在本发明实施例中，该多媒体问答***还包括：

数据库语义类别建立单元，用于根据在多媒体数据库中建立的预设的多个语义类别，结合该每一文本问题和/或对应的文本答案的关键词，建立概率潜在语义模型。

在该多媒体数据库的初始状态中，仅包含有多个语义类别，基于从网络问答社区中获取的各种文本问题和/或对应的文本答案的关键词，能够提取对应的语义关键词，该语义关键词是多源信息，既包括通过自然语言处理工具提取的文本关键词，比如牛排、车等，也包括视觉概念关键词、人物名称、地标名词等，通过该语义关键词一般能够推断某一问题所涉及的领域、具有的目标等，将该提取到的语义关键词作为训练样本，能够建立该概率潜在语义模型。通过该概率潜在语义模型，结合现有的EM算法原理等能够获取每一文本问题或者对应的文本答案属于每一语义类别的概率，从而将概率最大时对应的语义类别作为该文本问题所属的语义类。从物理意义的角度来讲，对于某一个文本问题和/或对应的文本答案，将其对应的相关语义关键词与多媒体数据库中预先存储的语义类别进行比对，能够生成该文本问题和/或对应的文本答案所对应的合理类别标签等。

关系建立单元26，用于在该多媒体数据库中建立与该任一文本问题对应的语义类别、文本特征以及一条或者多条多媒体答案信息之间的对应关系。

在本发明实施例中，离线情况下，最终可以通过该关系建立单元26生成包括该任一文本问题对应的语义类别、文本特征以及对应的一条或者多条多媒体答案信息之间关系的多媒体数据库。例如，对于一文本问题“怎样开自动档车？”，该多媒体数据库中包含的语义类别可分为两种语义或称概念，一类是目标概念，对应文本中的名词用来描述动作的对象；另一类是动作概念，对应动词和名词结合的动名词形式来作为问题中描述动作的动作概念。则对于该例子，对应的语义类别可以为名词概念“车”或者“自动档车”，对应的动词概念为“开车”或者“开自动档车”。而与该问题对应的文本特征可以“学习开车”、“自动档车”等，比较合适的多媒体答案信息应该包含一个人正在开车或者正在教如何开车的场景内容，则在该多媒体数据库中可以建立与某一问题对应的语义类别、文本特征以及对应的多媒体答案之间的关系，且不同的问题可以同属于同一类别，对应的文本特征可能会不同。

本发明实施例提供的多媒体问答***还可以包括数据库更新单元，用于实时更新该多媒体数据库中的语义类别、对应的文本特征以及多媒体答案信息之间的对应关系。

本发明实施例中，当实时检测到网络问答社区上增加了某一文本问题及对应的文本答案后，对该文本问题、文本答案进行合适的预处理操作后，则提取该文本问题和/或对应的文本答案的文本特征、关键词及语义类别，当建立好的多媒体数据库中包含有该语义类别且需要获取与该问题对应的多媒体答案信息时，则获取与该问题准确对应的多媒体答案信息，并将该问题对应的文本特征以及多媒体答案存储到与该语义类别对应的存储文本特征以及多媒体答案的位置处，以更新该数据库，否则，不需要进行上述操作，该更新过程可以通过上述特征提取单元22、多媒体判断单元23、多媒体答案获取单元24、类别获取单元25以及关系建立单元26等进行数据库的更新，从而完成了实时在线更新该对媒体数据库的操作，保证了自动问答***的实时性。

在本发明实施例中，该多媒体问答***通过自动提取不同的文本特征，实现了对不同的文本问题的有效分类，通过引入多媒体数据库，能够将文本问题的特征与多媒体答案进行有效地结合，使得在利用该多媒体数据库推送某一问题答案时，能够更丰富、生动、直观地解答该问题，有效满足用户需求，且由于可以实时更新多媒体数据库，达到了将网络上务无序、杂乱的数据或称文本问题与答案自动整理为分类别、有组织的结构性数据的目的。

实施例三：

图3示出了本发明第三实施例提供的多媒体问答方法的实现流程，详述如下：

在步骤S301中，接收用户输入的文本问题。

在步骤S302中，解析获取该文本问题的特征信息及语义类别。

在具体实施过程中，当用户在搜索引擎或者特定的搜索位置上输入某一文本问题后，解析获取与该文本问题相关的特征信息以及语义类别，比如输入的文本问题为“列举哪些国家获得过足球世界杯？”时，则与该问题对应的语义类别可以为“足球世界杯”、“足球国家”等，对应的特征信息可以为“世界杯”、“哪些国家获得过世界杯”等。

在步骤S303中，判断预设多媒体数据库中是否存在该语义类别。

本发明实施例中，在判断预设多媒体数据库中是否存在某一语义类别时，具体步骤为：将输入的文本问题的语义类别与该数据库中的所有类别进行匹配，也可以利用预先建立好的概率潜在语义模型，获取与数据库中所有语义类别之间的相似度，将该文本问题归属到相似度大于某一预设值时所对应的数据库总的一个或者多个语义类别中等。

在步骤S304中，当判断结果为是时，将该特征信息与该多媒体数据库中该语义类别对应的所有文本特征进行匹配，获取每一文本特征与该特征信息之间的相似度。

具体地，当判断单元为否时，或者当该每一文本特征与该特征信息之间的相似度均不大于所述预设阈值时，直接从网络上获取并输出与该文本问题相关的文本答案信息。

在具体实施过程中，该预设多媒体数据库中预先存储了大量的语义类别、该语义类别下的文本特征以及与该文本特征对应的多媒体答案信息之间的对应关系，则当用户搜索某一文本问题的答案，在获取该文本问题的特征信息及语义类别之后，首先判断该预设多媒体数据库中是否存在该语义类别，通过该判断步骤，可以缩小匹配的范围，且对于数据库中不存在该语义类别时，不需要进行匹配过程，可以提升输出答案的速度等，或者当该多媒体数据库中存在与文本问题对应的语义类别，而将该特征信息与该多媒体数据库中该语义类别对应的所有文本特征进行匹配后，获取每一文本特征与该特征信息之间的相似度并没有大于预先设置好的阈值时，都可以直接从网络上获取并输出与该文本问题相关的文本答案信息，从而可以降低该多媒体数据库的负担，减少该多媒体数据库的存储空间等，也可以降低数据库设立的成本。而在当判断预设多媒体数据库存在该文本问题的语义类别时，则可以将对应的特征信息与该多媒体数据库中该语义类别下的所有文本特征进行匹配，从而可以获取与所有文本特征对应的相似度，具体地相似度获取方法可以通过词频统计、DTW度量、词袋模型建模等获取对应的相似性大小。

在步骤S305中，获取相似度大于预设阈值时对应的文本特征，并输出该文本特征所对应的预先存储在该多媒体数据库中的多媒体答案信息。

在具体实施过程中，对于某一“如何做牛排？”的How-to类问题，假设该多媒体数据库中“美食”语义类别中对应的所有文本特征中包括“牛排的做法”的文本特征，显然该文本特征与用户输入的文本问题相似度最高，输出的多媒体答案信息也是在该多媒体数据库中与该文本特征信息对应的答案信息。另外，也可以获取相似度大于预先阈值的多个文本特征，输出该多个文本特征所对应的预先存储在该多媒体数据库中的多个多媒体答案信息，以方便用户选择更为合理的答案。

在本发明实施例中，该多媒体问答方法实现了根据用户输入的文本问题的特征信息以及语义类别，结合预设的多媒体数据库，自动有效、准确地输出与该文本问题相关的答案信息，且该答案信息是以图像、视频等多媒体信息的形式直观、生动地呈现给用户，丰富了用户的知识范围，增强了用户体验。

实施例四：

图4示出了本发明第四实施例提供的多媒体问答方法中多媒体数据库的建立方法的实现流程，具体为该方法中多媒体数据库的建立过程，详述如下：

在步骤S401中，采集网络问答社区中各种文本问题及对应的文本答案。

具体地，获取在网络问答社区中中各种文本问题与其对应文本答案集合。如在现有的Yahoo！Answers、Naver、Google Answers、eHow等在线网络问答社区中收集用户曾经提出的文本问题和其对应的文本答案，通过对它们进行答案的视觉信息丰富从而能够建立多媒体数据库或称多媒体问题及其答案数据库，也即文本问题对应的多媒体答案数据库。

在步骤S402中，获取网络上的每一文本问题和/或对应的文本答案的文本特征及关键词。

具体地，在获取每一文本问题和/或对应的文本答案的文本特征、关键词及语义类别之前，可以对该每一文本问题和/或对应的文本答案进行英文词串识别、分词、词类标注、过滤停用词等预处理操作。之后，对预处理后的文本问题和/或对应文本答案进行文本特征、关键词及语义类别的提取。

在步骤S403中，根据任一文本问题的文本特征，判断该任一文本问题是否需要获取对应的多媒体答案信息。

具体地，该多媒体答案信息类型可以分为三类：(1)文本+图像；(2)文本+视频；(3)文本+图像+视频，很明显答案中仅有文本不属于多媒体信息。判断过程主要分为两个步骤：首先，基于文本问题中的疑问词对问题进行判断，这样有些简单的问题直接就可以判定是否用文本答案就可以回答。其次，对于剩余的问题采用朴素贝叶斯分类器等来进行判断该任一文本问题是否需要获取对应的多媒体答案信息。

在步骤S404中，当该判断结果为是时，根据该任一文本问题和/或对应的文本答案的关键词，获取与该任一文本问题对应的一条或者多条多媒体答案信息。

具体地，该步骤S404具体包括以下步骤：

根据该任一文本问题和/或对应的文本答案的关键词，获取与该关键词相关的一条或者多条多媒体信息；

根据该关键词，获取网络图像资源中与该关键词对应的视觉图像信息；

利用视觉概念检测子算法，建立文本问题与多媒体信息之间的映射关系；

根据该映射关系，获取与该关键词对应的一条或者多条多媒体答案信息；

用于根据预先建立的基于梯度Boosting的排序算法，按照与该任一文本问题的相关度，对该一条或者多条多媒体答案信息进行排序。

在具体实施过程中，将该任一文本问题和/或对应的文本答案的关键词作为网络搜索引擎的输入来获取相关的多媒体信息，且该相关的多媒体信息可能为一条或者多条，此时可利用的网络资源包括Flickr、YouTube等图像和视频分享网站等。而在分析搜索的结果时可得知，实际情况下，该与关键词相关的多媒体信息并不一定都是与文本问题相关，也即不一定都是多媒体答案信息，此外为了排除掉不相关的信息，准确获取与该关键词对应的一条或者多条多媒体答案信息，需要利用建立的文本问题与多媒体信息之间的映射关系进行筛选，而该映射关系主要利用结合AdaBoost及Z-grid算法的视觉概念检测子算法来实现，该视觉概念检测子算法的实现原理如上述实施例二中述，在此不再赘述。

进一步地，在准确获取与该关键词对应的一条或者多条多媒体答案信息之后，由于获取的多媒体答案信息通常为多条，且每一条信息与文本问题的相关性不同，因而需要按照与该任一文本问题的相关度，对该一条或者多条多媒体答案信息进行有效排序，以使得在在线回答用户输入的问题时，能够按照相关度顺序显示，提升用户使用体验，本发明实施例使用的基于梯度Boosting的排序算法，其具体的建立过程如下上述实施例二中述，在此不再赘述。

在步骤S405中，根据该任一文本问题和/或对应的文本答案的关键词，获取该任一文本问题所对应归属在多媒体数据库中的一种语义类别。

具体地，需要根据预先建立的概率潜在语义模型，结合任一文本问题和/或对应的文本答案的关键词，能够获取该任一文本问题所对应归属在多媒体数据库中的一种语义类别。比如，预先在多媒体数据库中创建的K个语义类别表明了多媒体数据在潜在语义空间中可以分为K类，也即多媒体数据隐含有K个类别，如旅游、体育、政治等等，通过对任一文本问题和/或答案进行分析，获取该文本问题属于K个类别中每一类别的概率，从而得到K个概率值，将最大概率值对应的语义类别作为该文本问题所归属的类别。

在步骤S406中，在多媒体数据库中建立与该任一文本问题对应的语义类别、文本特征以及该一条或者多条多媒体答案信息之间的对应关系。

具体地，如，对于一文本问题“怎样开自动档车？”，该多媒体数据库中包含的语义类别可分为两种语义或称概念，一类是目标概念，对应文本中的名词用来描述动作的对象；另一类是动作概念，对应动词和名词结合的动名词形式来作为问题中描述动作的动作概念。则对于该例子，对应的语义类别可以为名词概念“车”或者“自动档车”，对应的动词概念为“开车”或者“开自动档车”。而与该问题对应的文本特征可以“学习开车”、“自动档车”等，比较合适的多媒体答案信息应该包含一个人正在开车或者正在教如何开车的场景内容，则在该多媒体数据库中可以建立与某一问题对应的语义类别、文本特征以及对应的多媒体答案之间的关系，且不同的问题可以同属于同一类别，对应的文本特征可能会不同。从而，可以根据采集到的文本问题及对应的答案，建立与任一文本问题对应的语义类别、文本特征以及一条或者多条多媒体答案信息之间的对应关系，并存储在多媒体数据库中。

另外，该多媒体问答方法还可以实时更新该多媒体数据库中的语义类别、对应的文本特征以及多媒体答案信息之间的对应关系。

具体地，当实时检测到网络问答社区上增加了某一文本问题及对应的文本答案后，对该文本问题、文本答案进行合适的预处理操作后，则提取该文本问题和/或对应的文本答案的文本特征、关键词及语义类别，当建立好的多媒体数据库中包含有该语义类别且需要获取与该问题对应的多媒体答案信息时，则获取与该问题准确对应的多媒体答案信息，并将该问题对应的文本特征以及多媒体答案存储到与该语义类别对应的存储文本特征以及多媒体答案的位置处，已更新该数据库，否则，不需要进行上述操作，从而完成了实时在线更新该对媒体数据库的操作，保证了自动问答***的实时性。

在本发明实施例中，该多媒体问答方法实现了预先建立多媒体数据库的目的，使得网络上无需杂乱的问题及对应的答案得到整理，并能够以语义类别进行分类，每一语义类别下对应属于该语义类别的所有文本特征集合，以及与每一文本特征对应的多媒体答案集合，且该多媒体答案集合能够综合考虑文本、视觉、网络信息等多种因素，对多媒体答案信息进行有效排序，更便于用户检索到准确、相关的答案。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

本发明实施例提供了一种包括问题输入单元、解析单元、类别判断单元、相似度获取单元以及多媒体答案输出单元的多媒体问答***，通过对用户输入的文本问题进行解析，获取该文本问题的特征信息及语义类别，当预设多媒体数据库中存在该语义类别时，将该特征信息与该多媒体数据库中该语义类别对应的所有文本特征进行匹配，以获取每一文本特征与该特征信息之间的相似度，获取相似度大于预设阈值时对应的文本特征，并输出该文本特征所对应的预先存储在该多媒体数据库中的多媒体答案信息，达到了应用图像、视频等多媒体信息来增强答案的表现力的目的，通过多媒体答案信息生动、直观地解答用户的问题，有效满足用户需求。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体问答***，其特征在于，所述***包括：

问题输入单元，用于接收用户输入的文本问题；

2.如权利要求1所述的***，其特征在于，所述***还包括：

文本答案输出单元，用于当所述类别判断单元输出结果为否时，或者当所述相似度获取单元输出的相似度均不大于所述预设阈值时，直接从网络上获取并输出与所述文本问题相关的文本答案信息。

3.如权利要求1所述的***，其特征在于，所述***还包括：

多媒体判断单元，用于根据任一文本问题的文本特征，判断所述任一文本问题是否需要获取对应的多媒体答案信息；

多媒体答案获取单元，用于当所述多媒体判断单元输出结果为是时，根据所述任一文本问题和/或对应的文本答案的关键词，获取与所述任一文本问题对应的一条或者多条多媒体答案信息；

类别获取单元，用于根据所述任一文本问题和/或对应的文本答案的关键词，获取所述任一文本问题所对应归属在多媒体数据库中的一种语义类别；以及

数据库建立单元，用于在所述多媒体数据库中建立与所述任一文本问题对应的语义类别、文本特征以及所述一条或者多条多媒体答案信息之间的对应关系。

4.如权利要求3所述的***，其特征在于，所述多媒体答案获取单元具体包括：

多媒体信息获取单元，用于根据所述任一文本问题和/或对应的文本答案的关键词，获取与所述关键词相关的一条或者多条多媒体信息；

多媒体答案获取子单元，用于根据预先建立的文本问题与多媒体信息之间的映射关系，获取与所述关键词对应的一条或者多条多媒体答案信息；以及

排序单元，用于根据预先建立的基于梯度Boosting的排序算法，按照与所述任一文本问题的相关度，对所述一条或者多条多媒体答案信息进行排序。

5.如权利要求4所述的***，其特征在于，所述***还包括：

图像信息获取单元，用于根据所述关键词，获取网络图像资源中与所述关键词对应的视觉图像信息；以及

6.如权利要求3所述的***，其特征在于，所述***还包括：

数据库更新单元，用于实时更新所述多媒体数据库中的语义类别、对应的文本特征以及多媒体答案信息之间的对应关系。

7.一种多媒体问答方法，其特征在于，所述方法包括下述步骤：

接收用户输入的文本问题；

解析获取所述文本问题的特征信息及语义类别；

判断预设多媒体数据库中是否存在所述语义类别；

8.如权利要求7所述的方法，其特征在于，所述方法还包括：

当判断单元为否时，或者当所述每一文本特征与所述特征信息之间的相似度均不大于所述预设阈值时，直接从网络上获取并输出与所述文本问题相关的文本答案信息。

9.如权利要求7所述的方法，其特征在于，所述方法还包括：

采集网络问答社区中各种文本问题及对应的文本答案；

获取网络上的每一文本问题和/或对应的文本答案的文本特征及关键词；

根据任一文本问题的文本特征，判断所述任一文本问题是否需要获取对应的多媒体答案信息；

当所述判断结果为是时，根据所述任一文本问题和/或对应的文本答案的关键词，获取与所述任一文本问题对应的一条或者多条多媒体答案信息；

根据所述任一文本问题和/或对应的文本答案的关键词，获取所述任一文本问题所对应归属在多媒体数据库中的一种语义类别；

在所述多媒体数据库中建立与所述任一文本问题对应的语义类别、文本特征以及所述一条或者多条多媒体答案信息之间的对应关系。

10.如权利要求9所述的方法，其特征在于，所述方法还包括：

实时更新所述多媒体数据库中的语义类别、对应的文本特征以及多媒体答案信息之间的对应关系。