CN102262624A

CN102262624A - 基于多模态辅助的实现跨语言沟通***及方法

Info

Publication number: CN102262624A
Application number: CN201110225342XA
Authority: CN
Inventors: 徐常胜; 程健; 梁超; 张歆明
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2011-08-08
Filing date: 2011-08-08
Publication date: 2011-11-30

Abstract

本发明提出基于多模态辅助的实现跨语言沟通***及方法，所述方法利用实现跨语言沟通***中的前台交互模块、数据管理模块和语义关联模块，通过分析谈话内容，利用自然语言处理工具能够自动地提取对话中的中心议题及关键字，并语义关联模块根据检测到的中心议题与关键字信息，自动地搜索相关的图片和视频片段并以恰当的方式提供给谈话双方，从而达到促进彼此的了解和沟通。这里，作为辅助理解的图片和视频，既可以通过搜索的方法从网络自动扒取，也可以从一个预先已标注好的多媒体库中直接获取。最后，***根据谈话双方的文本聊天信息以及与之相对应的图片和视频内容，生成一个多模态的谈话摘要。

Description

基于多模态辅助的实现跨语言沟通***及方法

技术领域

本发明属于多媒体分析、网络通讯领域，涉及基于多模态辅助的实现跨语言沟通的方法。

背景技术

随着通讯技术和互联网技术的快速发展，出现了与邮件、电话、电报等传统通讯方式完全不同的一种网络即时通讯***，比如MSN和QQ。传统的邮件和电报以文字为主，电话以语音为主，而即时通讯不仅可以使用文字和语音，还可以辅助丰富的视频、图片等多媒体手段。通过即时通讯***，远隔重洋的人们可以实现如面对面的实时交谈。整个地球已经成为名副其实的地球村。

对于说不同语言的对话者来说，语言问题仍然是即时通讯中难以逾越的障碍。近年来，由于机器翻译技术取得了长足进步，不同语言之间的用户的交流存在的语言问题在某种程度上通过机器翻译的技术得到了一定的解决。但是机器翻译存在两个明显的缺点。第一就是不同语言之间的准确翻译。但是机器翻译仍然只能对一些简单的对话进行自动翻译。即使是世界上使用人数最多的两种语言：英语和汉语，它们之间的自动翻译准确率也还是无法完全满足日常使用需要。如果考虑到世界上众多的少数民族语言，不同语言之间准确的自动翻译可能仍然是一个任重道远的问题。第二个就是词义的多义性是机器翻译中遇到的另一个挑战性的难题。

为增强交流的从文本到图像的合成***，现有技术中将输入的文本中主体内容以图片的形式表现出来。这个问题的解决是通过三个优化来完成从文本到图片的转换，即基于输入的文本最大化关键字出现的概率、基于输入文本和已选择的关键字最大化相应的图片出现的概率和基于输入文本，已选关键字和对应的图片最大化文本和图片的空间分布。这样基于这三个优化最终完成从文本到图片的转化。但是这个***存在以下三个缺点：

1).***处理速度慢。这个***由于要计算优化，这样会导致图片到文本的转化速度变慢；

2).***的界面不友好。由于要对输入的文本和给出的图片一起进行优化得出空间布局再呈现给用户。如果将这样的文本图片混杂的布局应用到用户之间对话的情况，势必会给用户造成不友好的感觉。

3).***不易使用。由于是终端软件，这样势必要求用户自行下载软件。可以借助网页来解决***的不易使用的缺点。

发明内容

本发明的目的是解决现有技术处理速度慢、不易使用的技术缺陷，通过多模态信息辅助使用不同语言的人能够顺畅地在线交流。通过图像、视频等多模态信息减少传统自动翻译中产生的歧义性和多义性，并且辅助对用户对话内容的语义理解，由此本发明提供一种基于多模态辅助的实现跨语言沟通的方法。

为实现所述目的，本发明的第一方面提供一种基于多模态辅助的跨语言沟通***，该***的技术方案包括：前台交互模块、数据管理模块和语义关联模块，其中：

前台交互模块的输入端接受用户输入的文本聊天内容并对用户聊天的内容进行预处理，得到用户聊天的文本信息，并通过前台交互模块的前后台交互模块的输出端传送处理后的用户文本聊天内容；前台交互模块的聊天页面为用户显示聊天双方的对话的文字内容和根据双方谈话的内容***推荐出来的多媒体图片；

语义关联模块的输入端与前台交互模块输出端连接，接收并对用户的文本聊天内容进行分析，利用自然语言处理工具提取出双方谈话的主要内容，得到并输出文本信息关联上翻译的文本和相对应的多媒体信息，及根据文本聊天内容、翻译的内容和相应的多媒体信息生成一个多模态摘要；

数据管理模块的输入端与语义关联模块连接输出端连接，数据管理模块要对新输入的文本聊天内容、翻译的内容和相应的多媒体信息进行存储，同时把历史的用户信息连同新的用户信息进行整合，生成并显示所有的聊天双方的对话的文字内容和根据双方谈话的内容***推荐出来的多媒体图片信息。

优选实施例，当后台的语义关联模块收到用户发送过来的文本信息之后，语义关联模块为了帮助不同语种的聊天用户能够从使用的语言的角度来理解对方的说话的含义，将Google翻译的结果集成进来；这样除了原始的用户聊天信息以外，还附带上了对这个聊天内容的基于Google翻译的用户聊天的译文。

优选实施例，语义关联模块提取出双方谈话的主要内容是将这些主要内容作为关键字，采用基于文本的图像检索从图像数据库中检索出来相应的候选图片集。

为实现所述目的，本发明的第二方面提供一种使用基于多模态辅助的跨语言沟通***实现跨语言沟通的方法，该方法以用户对话聊天为基础，根据文本解析技术对谈话内容分析得到的结果，为用户提供多媒体元素以辅助语言交流上存在障碍的或者文化背景存在差异的用户之间的语义理解，所述方法实现步骤包括以下：

步骤S1：用户首先通过语义聊天的前台界面发送自己想和对方的聊天的文字内容，前台界面通过Ajax构建的前后台交互模块向后台的语义关联模块传递用户聊天的文本信息，采用基于主题的跨模态分析方法对用户谈话内容进行分析，利用自然语言处理工具自动地提取对话中的中心议题及关键字；

步骤S2：语义关联模块根据对话中的中心议题及关键字信息，采用基于文本的图像检索自动地从数据库或者互联网根据谈话主题检索相关的图片集和视频片段并提供给谈话双方；

步骤S3：***根据谈话双方的文本聊天信息以及与之相对应的图片和视频片段内容，生成一个多模态的谈话摘要，最终以多媒体的形式来实现不同语种的用户之间顺畅的语义交流；同时，***根据谈话双方的文本聊天历史信息以及与之相对应的图片和视频内容，能为谈话双方生成一个多模态的谈话摘要。

优选实施例，所述多模态的谈话摘要包含文本、音频、图像和视频信息，为用户提供多媒体元素以辅助语言交流上存在障碍的或者文化背景存在差异的用户之间的语义理解。

优选实施例，所述图片和视频片段内容是通过搜索从网络自动扒取，或从一个预先已标注好的多媒体库中直接获取。

优选实施例，所述多模态的谈话摘要是基于主题的摘要，使用的关系网络并根据统计上次谈话中出现在一个预定义预料库中的词语共生频率得到检测主题。

本发明的有益效果：本发明的核心是如何通过多媒体信息(图像或者视频)来对文本信息进行描述。本发明提出的基于多模态辅助的跨语言沟通***能为在线即时通讯提供友好和方便的环境，有三个主要特点：第一友好性，由于采用了基于话题相关的图像或视频搜索技术辅助文本内容理解，从而大大减少了翻译的多义性和歧义性；第二交互性，使得***能够更好地满足用户个性化的需求；第三易用性，所提出的***能够根据谈话记录自动地生成多媒体的摘要。

为了辅助使用者之间的交流与理解，本发明的***采用了基于主题的跨模态分析方法。***根据谈话双方的文本聊天信息以及与之相对应的图片和视频内容，生成一个多模态的谈话摘要。这样，由于这个多模态的谈话通过包含丰富的内容，即非常直观易懂的图像、视频、文本等的多模态辅助信息，从而有效消除纯文本之间的自动翻译出现的歧义性，提高了语言交流的效率及质量，实现不同语种的用户之间进行顺畅的语义交流。

附图说明

图1是本发明基于多模态辅助的跨语言沟通***的界面框图；

图2是本发明基于多模态辅助的跨语言沟通***的结构框图；

图3a和图3b给出了一个预定披萨的示例结果；

图4针对谈话内容的多媒体摘要示例。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提出基于多模态辅助的跨语言沟通***及实现跨语言沟通的方法，所述方法利用前台交互模块1、数据管理模块2和语义关联模块3，通过分析谈话内容，利用自然语言处理工具能够自动地提取对话中的中心议题及关键字，并语义关联模块3根据检测到的中心议题与关键字信息，自动地搜索相关的图片和视频片段并以恰当的方式提供给谈话双方，从而达到促进彼此的了解和沟通。这里，作为辅助理解的图片和视频，既可以通过搜索的方法从网络自动扒取，也可以从一个预先已标注好的多媒体库中直接获取。最后，***根据谈话双方的文本聊天信息以及与之相对应的图片和视频内容，生成一个多模态的谈话摘要。

图1示出了本发明提出了一个辅助跨语言沟通的多媒体聊天***的用户交互界面，它能够为使用不同语言的用户进行交流提供一个友好、可交互的及时沟通环境。其中主要包括了三个方面的功能：基于及时翻译的文本通信，一个基于谈话主题的图片或视频检索，以及针对谈话内容的多媒体摘要(图4示出)。图1的最上面的部分主要是用来显示***的名字以及用户聊天谈话的主题。接下来的是***界面的主要显示区，即文本对话和多媒体辅助信息显示，例如问路、买车、定宾馆等。图1中的右侧部分是基于及时翻译的文本通信，用户文本聊天区域：呈现用户基本的文字聊天信息机相关的Google翻译的文本信息；图1左侧部分是一个基于谈话主题的图片或视频检索，以及针对谈话内容的多媒体摘要，多媒体内容展示区：基于用户谈话的内容为用户呈现相关的多媒体信息辅助用户的语义理解。

如图2示出本发明基于多模态辅助的跨语言沟通***的结构框图。基于多模态辅助的跨语言沟通***的框架分成三个组成部分，即前台交互模块1，数据管理模块2和语义关联模块3。其中前台设计包括聊天界面和前后台交互两个部分。其中前台交互模块1接受用户输入的文本聊天内容并对用户聊天的内容进行预处理，得到用户聊天的文本信息；用户的聊天文字内容通过前台交互模块1的前后台交互字模块的输出端将处理后的用户文本聊天内容传送给语义关联模块3，前台交互模块1的聊天页面为用户显示聊天双方的对话的文字内容和根据双方谈话的内容***推荐出来的多媒体图片。

语义关联模块3的输入端与前台交互模块1输出端连接，接收并通过对用户的文字聊天内容进行分析之后，利用自然语言处理工具提取出双方谈话的主要内容，得到并输出文本信息关联上翻译的文本和相对应的多媒体信息，及根据文本聊天内容、翻译的内容和相应的多媒体信息生成一个多模态摘要；语义关联模块3将文本聊天内容、翻译的内容和相应的多媒体信息一起输出到数据管理模块2。

数据管理模块2的输入端与语义关联模块3连接输出端连接，数据管理模块2要对新输入文本聊天内容、翻译的内容和相应的多媒体的信息进行存储。同时要把历史用户信息连同新的用户信息进行整合，生成并显示所有的聊天双方的对话的文字内容和根据双方谈话的内容***推荐出来的多媒体图片信息；最后一并返还给前台交互模块1。最终前台交互模块1的聊天页面就会将所有的信息全部显示给用户。下面详细说明一下模块的工作流程。

用户首先通过聊天界面向前台交互模块1发送聊天内容。续请见图1用户的语义聊天界面是分成两个主要的部分，一部分就是显示传统的聊天双方的对话的文字内容的部分，另一部分就是显示根据双方谈话的内容***推荐出来的多媒体图片列表。这个时候前台界面通过Ajax构建的前后台交互模块向后台传递用户输入的文字聊天的文本信息。后台框架是分成两个部分，一部分是数据管理模块2，另一部分是语义关联模块3。当后台收到用户发送过来的文本信息之后，语义关联模块3为了帮助不同语种的聊天用户能够从自身的使用的语言的角度来理解对方的说话的含义，将Google翻译的结果集成进来。这样除了原始的用户聊天信息以外，还附带上了对这个聊天内容的基于Google翻译的用户聊天的译文。语义关联模块3对文本信息利用自然语言处理工具提取出双方谈话的主要内容。这个时候，语义关联模块3首先将这些主要内容作为关键字，采用基于文本的图像检索从图像数据库中检索出来相应的候选图片集。最后用户的所有和对话和相应的多媒体信息可以用来生成一个多模态摘要。以一个预定披萨的示例结果为例说明一下生成的多媒体摘要，如图4所示。从图4给出的这个基于多模态的摘要看出，用户在和披萨店的货物员的对话中，进行了披萨种类、饮料和付款方式的选择。用户通过聊天***反馈回来的相应的披萨店的披萨的图片，能够更好地根据自己的意愿进行选择。这个多模态摘要也有利于用户日后想再次想定披萨，可以根据这个多模态摘要提供的多媒体信息来帮助用户进行回顾。

下面对图2中的语义关联机制进行阐述。语义关联机制主要分成三个部分，即基于即时翻译的文本通信、基于话题和图片的视频检索以及最后基于用户文本聊天内容和相应的多媒体信息生成的多模态摘要。

(1).基于及时翻译的文本通信

类似大多数的及时通信***，本发明提出的***也支持最基本的文本通信。但是，由于谈话的双方可能具有不同的语言背景。例如，当一个说英语的美国人和一个说汉语的中国人在网上交谈，美国人不懂汉语，而中国人又不懂英语，通过普通的文本交谈不能使双方无障碍的沟通。为此，本发明的***集成了一个简单的机器翻译功能，在聊天时，将说话者的语言自动翻译为接受者的语言后再显示出来，这样就能够保证谈话双方能够大致了解对方的意图。

(2).基于话题的图片和视频检索

尽管有机器翻译作为桥梁，跨语言的沟通仍然不能令人十分满意。究其原意，主要在于机器翻译的准确性(翻译的目标语言的可理解程度)依然偏低。主要语种间的翻译结果，例如英语与汉语之间，仍然还达不到实用的标准。另外，由于日常用语中多义词与句子的存在，导致机器翻译技术也难以满足现实的需要。图3a中示出食品包括：海食品、水果、肉。水果包括：香蕉、苹果、桔子，例如“苹果”一词既可以表示一种水果，也可以表示苹果公司(图3a)。为了营造一种易于理解的、沉浸式的在线沟通环境，我们设计了一种基于主题的图片/视频检索子模块来辅助不同语言背景的用户相互交流。其中，话题检测、图片检索以及相关反馈是三个主要功能。

话题检测通过两种途径来实现。第一是用户从一个预定义的话题列表中选择一个话题。不同的话题与不同的已标注的(通过手工或者学***板电脑ipad及智能手机iphone。上述的这些语义关系可以从WordNet中所抽取得到，也可以通过使用通过统计单词在一个预定义的语料库中的“词频-反向文档频率”权重(TF-IDF)所得到。一旦我们从对话中抽取到关键词，***就可以通过分析关键词间的语义关系来自动地推断其所对应的潜在话题。

根据对话中所抽取的主题，***自动地从网络或者后台数据库中检索相应的图片信息。使用基于文本的检索，我们可以容易地根据谈话主题找到相关的标注图片。然而，大部分的网络图片都是未标注的，我们使用检索到的已标注好的文本相关联的图片作为训练集，学习得到一个主题模型，并且用这个主题模型区检索大量的未标注图片。为此，基于主题的图片检索需要首先构建主题模型，其目标是自动地找到一个潜在的(隐含的)语义空间以便更准确的建模检索过程中的文档信息。这里，一个文档的语义结构包括了一些潜在的隐含概念或者主题(它们往往对应词间的一种稳定而特有的共生模式)。通过潜在主题的加权组合，文档可以表示为一系列的潜在主题，而其较全组合系数则可以看做是文档的一种特征表示。这种表示具有一些系列的优点：首先语义空间相较于单词空间而言，维度往往较低。这不仅节约了存储空间，也有利于快速搜索；其次通过单词空间到语义空间的转换，不仅可以减少单词向量中的噪音，而且也可以解决上述的多义和歧义问题，进而提高检索性能。例如，单词“苹果”既可以表示一种水果，又可以表示一个电脑品牌(图3b)。它的准确意义可以同一主题的其他相关的关键词所推得。

反馈作为一种流行的人机交互技术广泛应用于文本域视觉信息的分析中。通过用户对***输出的反馈评价，***可以自适应地进行修正。通过用户反馈所得到的监督信息已经在实践中被证明是有效地。在我们的***中，用户可以从自动的主题抽取算法所得到的候选列表中选择正确的主题。被选主题将用于下一次的主题抽取通过建模时序的(当前和下一步的)主题关系。在图像检索中，我们的***列巨额了一些检索到的样本图片，并且邀请用户依据谈话主题对相关图片进行打分。

(3).多模态摘要

传统的及时通信通常保存以文本方式保留聊天记录。我们的***中，用户可以使用图片、视频以及文本等多模态的方式来表达谈话者的意图。通过一种多模态的方式而非单一的文本来保存聊天信息，可以得到较之以往更加生动形象记录。

文本，图片以及视频的摘要是自然语言处理以及多媒体领域的一个研究热点。它往往通过一段更为精练简洁的文本(图片或者视频)来概括地表达原始的文本(图片或者视频)信息。目前相关的技术大多根据显著性特征，重复的模态或者关键词(帧)等信息来构建摘要内容。在我们的***中，考虑到除文本外还存在大量的图片和视频信息，我们采用了主题驱动的摘要方法通过分析用户间的谈话内容进而生成关于特定话题的摘要信息。这一摘要信息包含了涉及该话题的相关文本、图片以及视频内容。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的权利要求书的保护范围之内。

Claims

1.一种基于多模态辅助的跨语言沟通***，其特征在于，所述***包括：前台交互模块、数据管理模块和语义关联模块，其中：

2.如权利要求1基于多模态辅助的跨语言沟通***，其特征在于，当后台的语义关联模块收到用户发送过来的文本信息之后，语义关联模块为了帮助不同语种的聊天用户能够从使用的语言的角度来理解对方的说话的含义，将Google翻译的结果集成进来；这样除了原始的用户聊天信息以外，还附带上了对这个聊天内容的基于Google翻译的用户聊天的译文。

3.如权利要求1基于多模态辅助的跨语言沟通***，其特征在于，语义关联模块提取出双方谈话的主要内容是将这些主要内容作为关键字，采用基于文本的图像检索从图像数据库中检索出来相应的候选图片集。

4.一种使用权利要求1所述基于多模态辅助的跨语言沟通***实现跨语言沟通的方法，其特征在于，该方法以用户对话聊天为基础，根据文本解析技术对谈话内容分析得到的结果，为用户提供多媒体元素以辅助语言交流上存在障碍的或者文化背景存在差异的用户之间的语义理解，所述方法实现包括以下步骤：

5.如权利要求4所述的实现跨语言沟通的方法，其特征在于，所述多模态的谈话摘要包含文本、音频、图像和视频信息，为用户提供多媒体元素以辅助语言交流上存在障碍的或者文化背景存在差异的用户之间的语义理解。

6.如权利要求4所述的实现跨语言沟通的方法，其特征在于，所述图片和视频片段内容是通过搜索从网络自动扒取，或从一个预先已标注好的多媒体库中直接获取。

7.如权利要求4所述的实现跨语言沟通的方法，其特征在于，所述多模态的谈话摘要是基于主题的摘要，使用的关系网络并根据统计上次谈话中出现在一个预定义预料库中的词语共生频率得到检测主题。