CN105260483A

CN105260483A - 一种面向微博文本的跨语言话题检测装置及方法

Info

Publication number: CN105260483A
Application number: CN201510786824.0A
Authority: CN
Inventors: 梁颖红; 姚建民; 徐楠; 杨荣根
Original assignee: Jinling Institute of Technology
Current assignee: Jinling Institute of Technology
Priority date: 2015-11-16
Filing date: 2015-11-16
Publication date: 2016-01-20

Abstract

本发明公开了一种面向微博文本的跨语言话题检测装置，包括设置在壳体内的控制板、处理器、英汉话题对齐资源存储器、话题模型及算法存储器、电源和识别电路，以及连接在壳体上的输入接口和输出接口；其中控制板包括主控制器和无线上网控制电路，主控制器输出控制信号至无线上网控制电路；处理器包括可比语料处理器和话题检测模型及算法叠加器。本发明降低了汉语微博话题检测的数据稀疏程度，进而提高了汉语微博话题检测的精确率，同时得到中英微博文本的话题。能及时了解和掌握国内外对于同一话题的不同意见和观点，为网络情感倾向性判别提供可靠的基础。

Description

一种面向微博文本的跨语言话题检测装置及方法

技术领域

本发明涉及微博文本的跨语言检测技术领域，特别是涉及一种面向微博文本的跨语言话题检测装置及方法。

背景技术

微博话题在不同语言形式上并非孤立的，在同一段时间内，不同的微博***(例如：中文新浪微博，英文twitter)内往往在进行着相同话题的传播。传统的话题检测研究中，对于中文微博只能获得中文的话题，如果想知道国外对某一事件的意见，就要对国外相应语言的文本单独进行话题检测研究。这样不仅浪费人力和物力，而且也不能及时了解国外对同一话题的看法。

英文微博(twitter)话题检测研究较早，而汉语微博话题检测研究起步较晚，因此英文微博的话题检测技术要优于汉语微博的话题检测技术。无论是英文还是汉语，由于微博文本长度的限制，中英文微博话题检测均存在数据稀疏问题，这也是影响话题检测精确率的重要因素。如果在话题检测过程中，能同时使用英文和汉语的微博文本，将大大降低数据的稀疏性，同时也能提高话题检测的准确率。

发明内容

为了克服上述现有技术的不足，本发明提供了一种面向微博文本的跨语言话题检测装置及方法，其无论输入英文还是汉语话题关键词，都可以检测出既包含英文也包含汉语的相关话题事件文本。采用微博可比语料库和词-句子-篇章层次关系的中英文子话题集簇对齐技术，实现跨语言的话题检测。

本发明所采用的技术方案是：一种面向微博文本的跨语言话题检测装置，包括设置在壳体内的控制板、处理器、英汉话题对齐资源存储器、话题模型及算法存储器、电源和识别电路，以及连接在壳体上的输入接口和输出接口；其中控制板包括主控制器和无线上网控制电路，主控制器输出控制信号至无线上网控制电路；处理器包括可比语料处理器和话题检测模型及算法叠加器。本发明的装置，能够对微博文本进行跨语言话题检测，在汉语微博话题检测中，采用跨语言信息检索技术，搜索英文相同话题的微博文本，借助英文微博语料和成熟的技术，降低汉语微博话题检测的数据稀疏程度，进而提高汉语微博话题检测的精确率。同时，也对英文微博文本进行话题检测，采用可比语料同时得到中英微博文本的话题。能及时了解和掌握国内外对于同一话题的不同意见和观点，为网络情感倾向性判别提供可靠的基础。

本发明的进一步改进在于，英汉话题对齐资源存储器连接在输入接口和可比语料处理器之间，话题模型算法处理器连接在输入接口和模型及算法叠加器之间。

本发明的进一步改进在于，识别电路与无线上网控制电路连接。

本发明的进一步改进在于，识别电路内还包括处理芯片。

本发明的进一步改进在于，无线上网控制电路包括无线网卡、可编程逻辑控制器和与可编程控制器连接的模/数转换器。

本发明的进一步改进在于，处理器还包括处理芯片、与主控制器连接的输出接口以及彼此为并联关系的多个输入接口。

一种面向微博文本的跨语言话题检测方法，包括如下步骤：

步骤S10：设置英汉话题对齐资源存储器，储存的英汉微博文本话题词对，以及可比语料处理器运行需要的资料、模型、算法；

步骤S20：设置话题模型及算法存储器，存储进行话题检测的话题模型和算法；

步骤S30：采用可比语料处理器从互联网上获得初始微博英汉双语可比语料，并调用S步骤中的英汉话题对齐资源存储器内的资源对其进行运算，得到初始话题库；并且将初始话题库存储到英汉话题对齐资源存储器；

S40：模型及算法叠加器，调取话题模型及算法存储器中的算法，对可比语料库处理器组成的初始话题库进行运算，得到最终的英汉跨语言话题。

本发明的进一步改进在于，步骤S中可比语料处理器的运算包括如下步骤：

步骤S31：可比语料库处理器抽取关键词，从互联网上获得初始微博英汉双语可比语料，并抽取出源语言部分的关键词。

S32：可比语料库处理器翻译关键词，借助常用网络词典对抽取出来的关键词进行翻译，得到多个源语言微博文本集合和其对应的多个翻译；

S33：可比语料库处理器组成初始话题库，根据关键词的不同，形成多个话题集英汉词对，进而组成初始话题库。得到了源语言文本和其对应的目标语言文本后，由于每个源语言文本还是一个独立的个体，所以需要对所有的源语言和目标语言微博文本进行合并，形成初始话题库。

本发明的进一步改进在于，步骤S40模型及算法叠加器在进行话题库的检测运算时，还需使用存储在英汉话题对齐资源存储器中的中英话题词对。

本发明的进一步改进在于，可比语料处理器在进行话题处理时，利用词-句子-篇章之间的层次关系，提出以下公式对中英子话题集簇之间的相似度进行计算：首先是词与句子之间的对应关系，即利用中文词与英文词之间相似度计算对应中文句和英文句之间的相似度，公式如下，

{Score}_{s e n t e n c e} (C_{i}, E_{j}) = \frac{Σ_{i^{'} = 1}^{| C_{i} |} r (C_{{ii}^{'}}, E_{{jj}^{'}})}{| L e n g t h (E_{j}) |} - - - (1)

其中，C_i表示中文句，E_j表示英文句，C_ii’表示C_i中的一个中文词，E_jj’表示E_j中的一个英文词，r函数判断E_jj’是否是C_ii’的翻译词，Length(E_j)表示E_j的长度，即词数；

而在句子-篇章层面，采用篇章中英文句子之间的相似度最大值作为中英篇章之间的相似度，具体公式如下，

{Score}_{p a s s a g e} = Σ_{i = 1}^{| C_{i} |} \max {Score}_{s e n t e n c e} (C_{i}, E_{j}) - - - (2)

通过上述公式，可以得到篇章之间的相似度，如该相似度值大于设定的阈值λ(需训练得到)，那么就认定这两个中英子话题集簇是相似的，即可对齐。

与现有技术相比，本发明的有益效果是：本发明能够对微博文本进行跨语言话题检测，在汉语微博话题检测中，采用跨语言信息检索技术，搜索英文相同话题的微博文本，借助英文微博语料和成熟的技术，降低汉语微博话题检测的数据稀疏程度，进而提高汉语微博话题检测的精确率。同时，也对英文微博文本进行话题检测，采用可比语料同时得到中英微博文本的话题。能及时了解和掌握国内外对于同一话题的不同意见和观点，为网络情感倾向性判别提供可靠的前期研究基础。

本发明的装置，实现了无论输入英文还是汉语话题关键词，都可以检测出既包含英文也包含汉语的相关话题事件文本，采用微博可比语料库和词-句子-篇章层次关系的中英文子话题集簇对齐技术，实现跨语言的话题检测。具有较为广阔的应用前景。

附图说明

图1为一种面向微博文本的跨语言话题检测装置的一个实施例的结构示意图；

图2为一种面向微博文本的跨语言话题检测方法的一个实施例的流程图。

具体实施方式

为了加深对本发明的理解，下面结合附图和实施例对本发明进一步说明，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

在本申请中，可比语料库(通过可比语料处理器得到的话题库)定义:双语可比语料库(comparablecorpus)是由具有某些相同属性的文本构成，比如，不同网站同一天、同一主题的中文和英文新闻，其中中文和英文均为原文，完全是不同撰稿人或记者用母语对事件的描述。如果输入英文的关键词，得到汉语的话题；输入汉语的关键词，得到英语的话题。

可比语料库处理器的得到的可比语料库，不存在平行语料库中译文受原文限制的缺点，因此极有希望从双语可比语料库中提取真正对应的双语词对。本发明通过构建英汉微博双语可比语料库，实现跨语言的话题检测。

图1中，英汉话题对齐资源存储器4和话题模型及算法存储器5是两个存储器，存储着可比语料处理器32和模型及算法叠加器31运行时需要的资源、模型和算法。英汉话题对齐资源存储器4：存储着英汉微博文本话题词对。话题模型及算法存储器5：存储着进行话题检测的话题模型和算法。

可比语料处理器32的，从互联网上获得初始微博英汉双语可比语料，并采用基于微博线索的关键词抽取方法，抽取出源语言部分的关键词后，借助常用网络词典(包括“海词在线”，“有道词典”，“爱词霸”等)对抽取出来的关键词进行翻译，最终得到多个源语言微博文本集合和其对应的多个翻译，根据关键词的不同，形成多个话题集英汉词对，进而组成初始话题库。把初始话题库存储到英汉话题对齐资源存储器4中。

模型及算法叠加器31，本发明采用基于微博线索双层聚类话题模型进行话题检测，该话题检测模型存储在话题模型及算法存储器5中，使用时话题模型及算法存储器5中调出。利用中文词与英文词之间相似度计算的算法进行计算，该算法也存储在话题模型及算法存储器5中，使用时从存储器5中调出。

同时，在进行跨语言话题检测的时候还需要使用存储在英汉话题对齐资源存储器4中的中英话题词对。这样，使用获得的中英话题词对和预定的话题检测模型及算法，即能实现面向微博文本的跨语言话题检测。

实施例1

如图1所示,一种面向微博文本的跨语言话题检测装置，包括设置在壳体1内的控制板2、处理器3、英汉话题对齐资源存储器4、话题模型及算法存储器5、电源6和识别电路7，以及连接在壳体1上的输入接口8和输出接口9；其中控制板2包括主控制器21和无线上网控制电路22，主控制器21输出控制信号至无线上网控制电路22；处理器3包括可比语料处理器31和话题检测模型及算法叠加器32。本发明的装置，能够对微博文本进行跨语言话题检测，在汉语微博话题检测中，采用跨语言信息检索技术，搜索英文相同话题的微博文本，借助英文微博语料和成熟的技术，降低汉语微博话题检测的数据稀疏程度，进而提高汉语微博话题检测的精确率。同时，也对英文微博文本进行话题检测，采用可比语料同时得到中英微博文本的话题。能及时了解和掌握国内外对于同一话题的不同意见和观点，为网络情感倾向性判别提供可靠的基础。

在上述实施例中，英汉话题对齐资源存储器4连接在输入接口8和可比语料处理器31之间，话题模型算法处理器5连接在输入接口8和模型及算法叠加器32之间。

在上述实施例中，识别电路7与无线上网控制电路22连接，识别电路7内还包括处理芯片。

在上述实施例中，无线上网控制电路22包括无线网卡、可编程逻辑控制器和与可编程控制器连接的模/数转换器。

在上述实施例中，处理器3还包括处理芯片、与主控制器连接的输出接口以及彼此为并联关系的多个输入接口。

实施例2

如图2所示,一种面向微博文本的跨语言话题检测方法，包括如下步骤：

步骤S30：采用可比语料处理器从互联网上获得初始微博英汉双语可比语料，并调用S10步骤中的英汉话题对齐资源存储器内的资源对其进行运算，得到初始话题库；并且将初始话题库存储到英汉话题对齐资源存储器；

在上述实施例中，步骤S30中可比语料处理器的运算包括如下步骤：

步骤S31：可比语料库处理器抽取关键词，从互联网上获得初始微博英汉双语可比语料，并抽取出源语言部分的关键词；源语言文本关键词抽取详细如下，由于需处理的文本为微博，属于短文本的一种，而短文本本身长度短，信息量少的特性，会对常用的关键词抽取方法带来很大的影响。经过大量数据观察可以发现，一个微博文本所在的线索，即首帖和跟帖组成的微博文本全集，往往关注同一个事件或话题，也就是说，微博文本具有很强的对话性，这种对话性决定了在一个线索中，用户的发言，即跟帖关注的是与首帖相同的事件。所以，在充分考虑到这一特点后，我们对中文微博文本采用基于微博线索的关键词抽取方法。

基于线索的抽取方法，主要是将一个微博文本所在的线索作为整体，进行关键词的抽取。由于独立的微博文本信息量少，所以基于线索的抽取方法可以大大扩充单个微博文本的信息量。从而解决短文本分析时存在的数据稀疏问题。

通过对微博网页文本的观察，可以发现：微博文本的关键词主要来自两个方面，一是该网页的HTML文本中，比如在一篇地震微博网页文本中，从“<metaname＝“keywordscontent＝“地震”/>”中得到关键词“地震”，这些关键词是人为拟定的网页关键词，通常是准确的。第二个方面是自动从网页的微博文本中提取得到关键词，在将需要进行关键词抽取的文本表示成微博线索后，可以直接使用常用的关键词抽取方法对关键词进行抽取。抽取出关键词后，对关键词相同的微博线索进行合并，形成可比语料库的源语言部分。

S32：可比语料库处理器翻译关键词，借助常用网络词典对抽取出来的关键词进行翻译，得到多个源语言微博文本集合和其对应的多个翻译。

S33：可比语料库处理器组成初始话题库，根据关键词的不同，形成多个话题集英汉词对，进而组成初始话题库。我们对所有关键词相同的源语言微博文本进行合并，相应地，其对应的目标语言文本也需进行合并，合并过程中发现关键词相同的源语言文本所对应的目标语言文本存在重叠现象，即一篇目标文本可能对应几个不同的源文本。这也证明了在一段时间内，话题或事件具有一定的收敛性。

最终可以得到多个源语言微博文本集合和其对应的多个目标语言微博文本集合。而每个可比微博语料集对(中文集合和对应的英文集合)由于关键词的不同，表示不同的初始话题集，所有话题集组成初始话题库。

在上述实施例中，步骤S40模型及算法叠加器在进行话题库的检测运算时，还需使用存储在英汉话题对齐资源存储器中的中英话题词对。

在上述实施例中，可比语料处理器在进行话题处理时，利用词-句子-篇章之间的层次关系，提出以下公式对中英子话题集簇之间的相似度进行计算：首先是词与句子之间的对应关系，即利用中文词与英文词之间相似度计算对应中文句和英文句之间的相似度，公式如下，

{Score}_{s e n t e n c e} (C_{i}, E_{j}) = \frac{Σ_{i^{'} = 1}^{| C_{i} |} r (C_{{ii}^{'}}, E_{{jj}^{'}})}{| L e n g t h (E_{j}) |} - - - (1)

其中，Ci表示中文句，Ej表示英文句，Cii’表示Ci中的一个中文词，Ejj’表示Ej中的一个英文词，r函数判断Ejj’是否是Cii’的翻译词，Length(Ej)表示Ej的长度，即词数；

{Score}_{p a s s a g e} = Σ_{i = 1}^{| C_{i} |} \max {Score}_{s e n t e n c e} (C_{i}, E_{j}) - - - (2)

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.一种面向微博文本的跨语言话题检测装置，其特征在于：包括设置在壳体(1)内的控制板(2)、处理器(3)、英汉话题对齐资源存储器(4)、话题模型及算法存储器(5)、电源(6)和识别电路(7)，以及连接在壳体(1)上的输入接口(8)和输出接口(9)；其中所述控制板(2)包括主控制器(21)和无线上网控制电路(22)，所述主控制器(21)输出控制信号至无线上网控制电路(22)；所述处理器(3)包括可比语料处理器(31)和话题检测模型及算法叠加器(32)。

2.根据权利要求1所述的一种面向微博文本的跨语言话题检测装置，其特征在于：所述英汉话题对齐资源存储器(4)连接在输入接口(8)和可比语料处理器(31)之间，所述话题模型算法处理器(5)连接在输入接口(8)和模型及算法叠加器(32)之间。

3.根据权利要求1所述的一种面向微博文本的跨语言话题检测装置，其特征在于：所述识别电路(7)与无线上网控制电路(22)连接。

4.根据权利要求3所述的一种面向微博文本的跨语言话题检测装置，其特征在于：所述识别电路(7)内还包括处理芯片。

5.根据权利要求3所述的一种面向微博文本的跨语言话题检测装置，其特征在于：所述无线上网控制电路(22)包括无线网卡、可编程逻辑控制器和与可编程控制器连接的模/数转换器。

6.根据权利要求1所述的一种面向微博文本的跨语言话题检测装置，其特征在于：所述处理器(3)还包括处理芯片、与主控制器连接的输出接口以及彼此为并联关系的多个输入接口。

7.一种面向微博文本的跨语言话题检测方法，其特征在于：包括如下步骤：

8.根据权利要求7所述的一种面向微博文本的跨语言话题检测方法，其特征在于：步骤S30中可比语料处理器的运算包括如下步骤：

步骤S31：可比语料库处理器抽取关键词，从互联网上获得初始微博英汉双语可比语料，并抽取出源语言部分的关键词；

S33：可比语料库处理器组成初始话题库，根据关键词的不同，形成多个话题集英汉词对，进而组成初始话题库。

9.根据权利要求7所述的一种面向微博文本的跨语言话题检测方法，其特征在于：所述步骤S40模型及算法叠加器在进行话题库的检测运算时，还需使用存储在英汉话题对齐资源存储器中的中英话题词对。

10.根据权利要求7或8所述的一种面向微博文本的跨语言话题检测方法，其特征在于：所述可比语料处理器在进行话题处理时，利用词-句子-篇章之间的层次关系，提出以下公式对中英子话题集簇之间的相似度进行计算：首先是词与句子之间的对应关系，即利用中文词与英文词之间相似度计算对应中文句和英文句之间的相似度，公式如下，

{Score}_{s e n t e n c e} (C_{i}, E_{j}) = \frac{Σ_{i^{'} = 1}^{| C_{i} |} r (C_{{ii}^{'}}, E_{{jj}^{'}})}{| L e n g t h (E_{j}) |} - - - (1)

{Score}_{p a s s a g e} = Σ_{i = 1}^{| C_{i} |} \max {Score}_{s e n t e n c e} (C_{i}, E_{j}) - - - (2)