CN105260483A - 一种面向微博文本的跨语言话题检测装置及方法 - Google Patents

一种面向微博文本的跨语言话题检测装置及方法 Download PDF

Info

Publication number
CN105260483A
CN105260483A CN201510786824.0A CN201510786824A CN105260483A CN 105260483 A CN105260483 A CN 105260483A CN 201510786824 A CN201510786824 A CN 201510786824A CN 105260483 A CN105260483 A CN 105260483A
Authority
CN
China
Prior art keywords
topic
english
chinese
language
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510786824.0A
Other languages
English (en)
Inventor
梁颖红
姚建民
徐楠
杨荣根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinling Institute of Technology
Original Assignee
Jinling Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinling Institute of Technology filed Critical Jinling Institute of Technology
Priority to CN201510786824.0A priority Critical patent/CN105260483A/zh
Publication of CN105260483A publication Critical patent/CN105260483A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向微博文本的跨语言话题检测装置,包括设置在壳体内的控制板、处理器、英汉话题对齐资源存储器、话题模型及算法存储器、电源和识别电路,以及连接在壳体上的输入接口和输出接口;其中控制板包括主控制器和无线上网控制电路,主控制器输出控制信号至无线上网控制电路;处理器包括可比语料处理器和话题检测模型及算法叠加器。本发明降低了汉语微博话题检测的数据稀疏程度,进而提高了汉语微博话题检测的精确率,同时得到中英微博文本的话题。能及时了解和掌握国内外对于同一话题的不同意见和观点,为网络情感倾向性判别提供可靠的基础。

Description

一种面向微博文本的跨语言话题检测装置及方法
技术领域
本发明涉及微博文本的跨语言检测技术领域,特别是涉及一种面向微博文本的跨语言话题检测装置及方法。
背景技术
微博话题在不同语言形式上并非孤立的,在同一段时间内,不同的微博***(例如:中文新浪微博,英文twitter)内往往在进行着相同话题的传播。传统的话题检测研究中,对于中文微博只能获得中文的话题,如果想知道国外对某一事件的意见,就要对国外相应语言的文本单独进行话题检测研究。这样不仅浪费人力和物力,而且也不能及时了解国外对同一话题的看法。
英文微博(twitter)话题检测研究较早,而汉语微博话题检测研究起步较晚,因此英文微博的话题检测技术要优于汉语微博的话题检测技术。无论是英文还是汉语,由于微博文本长度的限制,中英文微博话题检测均存在数据稀疏问题,这也是影响话题检测精确率的重要因素。如果在话题检测过程中,能同时使用英文和汉语的微博文本,将大大降低数据的稀疏性,同时也能提高话题检测的准确率。
发明内容
为了克服上述现有技术的不足,本发明提供了一种面向微博文本的跨语言话题检测装置及方法,其无论输入英文还是汉语话题关键词,都可以检测出既包含英文也包含汉语的相关话题事件文本。采用微博可比语料库和词-句子-篇章层次关系的中英文子话题集簇对齐技术,实现跨语言的话题检测。
本发明所采用的技术方案是:一种面向微博文本的跨语言话题检测装置,包括设置在壳体内的控制板、处理器、英汉话题对齐资源存储器、话题模型及算法存储器、电源和识别电路,以及连接在壳体上的输入接口和输出接口;其中控制板包括主控制器和无线上网控制电路,主控制器输出控制信号至无线上网控制电路;处理器包括可比语料处理器和话题检测模型及算法叠加器。本发明的装置,能够对微博文本进行跨语言话题检测,在汉语微博话题检测中,采用跨语言信息检索技术,搜索英文相同话题的微博文本,借助英文微博语料和成熟的技术,降低汉语微博话题检测的数据稀疏程度,进而提高汉语微博话题检测的精确率。同时,也对英文微博文本进行话题检测,采用可比语料同时得到中英微博文本的话题。能及时了解和掌握国内外对于同一话题的不同意见和观点,为网络情感倾向性判别提供可靠的基础。
本发明的进一步改进在于,英汉话题对齐资源存储器连接在输入接口和可比语料处理器之间,话题模型算法处理器连接在输入接口和模型及算法叠加器之间。
本发明的进一步改进在于,识别电路与无线上网控制电路连接。
本发明的进一步改进在于,识别电路内还包括处理芯片。
本发明的进一步改进在于,无线上网控制电路包括无线网卡、可编程逻辑控制器和与可编程控制器连接的模/数转换器。
本发明的进一步改进在于,处理器还包括处理芯片、与主控制器连接的输出接口以及彼此为并联关系的多个输入接口。
一种面向微博文本的跨语言话题检测方法,包括如下步骤:
步骤S10:设置英汉话题对齐资源存储器,储存的英汉微博文本话题词对,以及可比语料处理器运行需要的资料、模型、算法;
步骤S20:设置话题模型及算法存储器,存储进行话题检测的话题模型和算法;
步骤S30:采用可比语料处理器从互联网上获得初始微博英汉双语可比语料,并调用S步骤中的英汉话题对齐资源存储器内的资源对其进行运算,得到初始话题库;并且将初始话题库存储到英汉话题对齐资源存储器;
S40:模型及算法叠加器,调取话题模型及算法存储器中的算法,对可比语料库处理器组成的初始话题库进行运算,得到最终的英汉跨语言话题。
本发明的进一步改进在于,步骤S中可比语料处理器的运算包括如下步骤:
步骤S31:可比语料库处理器抽取关键词,从互联网上获得初始微博英汉双语可比语料,并抽取出源语言部分的关键词。
S32:可比语料库处理器翻译关键词,借助常用网络词典对抽取出来的关键词进行翻译,得到多个源语言微博文本集合和其对应的多个翻译;
S33:可比语料库处理器组成初始话题库,根据关键词的不同,形成多个话题集英汉词对,进而组成初始话题库。得到了源语言文本和其对应的目标语言文本后,由于每个源语言文本还是一个独立的个体,所以需要对所有的源语言和目标语言微博文本进行合并,形成初始话题库。
本发明的进一步改进在于,步骤S40模型及算法叠加器在进行话题库的检测运算时,还需使用存储在英汉话题对齐资源存储器中的中英话题词对。
本发明的进一步改进在于,可比语料处理器在进行话题处理时,利用词-句子-篇章之间的层次关系,提出以下公式对中英子话题集簇之间的相似度进行计算:首先是词与句子之间的对应关系,即利用中文词与英文词之间相似度计算对应中文句和英文句之间的相似度,公式如下,
Score s e n t e n c e ( C i , E j ) = Σ i ′ = 1 | C i | r ( C ii ′ , E jj ′ ) | L e n g t h ( E j ) | - - - ( 1 )
其中,Ci表示中文句,Ej表示英文句,Cii’表示Ci中的一个中文词,Ejj’表示Ej中的一个英文词,r函数判断Ejj’是否是Cii’的翻译词,Length(Ej)表示Ej的长度,即词数;
而在句子-篇章层面,采用篇章中英文句子之间的相似度最大值作为中英篇章之间的相似度,具体公式如下,
Score p a s s a g e = Σ i = 1 | C i | max Score s e n t e n c e ( C i , E j ) - - - ( 2 )
通过上述公式,可以得到篇章之间的相似度,如该相似度值大于设定的阈值λ(需训练得到),那么就认定这两个中英子话题集簇是相似的,即可对齐。
与现有技术相比,本发明的有益效果是:本发明能够对微博文本进行跨语言话题检测,在汉语微博话题检测中,采用跨语言信息检索技术,搜索英文相同话题的微博文本,借助英文微博语料和成熟的技术,降低汉语微博话题检测的数据稀疏程度,进而提高汉语微博话题检测的精确率。同时,也对英文微博文本进行话题检测,采用可比语料同时得到中英微博文本的话题。能及时了解和掌握国内外对于同一话题的不同意见和观点,为网络情感倾向性判别提供可靠的前期研究基础。
本发明的装置,实现了无论输入英文还是汉语话题关键词,都可以检测出既包含英文也包含汉语的相关话题事件文本,采用微博可比语料库和词-句子-篇章层次关系的中英文子话题集簇对齐技术,实现跨语言的话题检测。具有较为广阔的应用前景。
附图说明
图1为一种面向微博文本的跨语言话题检测装置的一个实施例的结构示意图;
图2为一种面向微博文本的跨语言话题检测方法的一个实施例的流程图。
具体实施方式
为了加深对本发明的理解,下面结合附图和实施例对本发明进一步说明,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
在本申请中,可比语料库(通过可比语料处理器得到的话题库)定义:双语可比语料库(comparablecorpus)是由具有某些相同属性的文本构成,比如,不同网站同一天、同一主题的中文和英文新闻,其中中文和英文均为原文,完全是不同撰稿人或记者用母语对事件的描述。如果输入英文的关键词,得到汉语的话题;输入汉语的关键词,得到英语的话题。
可比语料库处理器的得到的可比语料库,不存在平行语料库中译文受原文限制的缺点,因此极有希望从双语可比语料库中提取真正对应的双语词对。本发明通过构建英汉微博双语可比语料库,实现跨语言的话题检测。
图1中,英汉话题对齐资源存储器4和话题模型及算法存储器5是两个存储器,存储着可比语料处理器32和模型及算法叠加器31运行时需要的资源、模型和算法。英汉话题对齐资源存储器4:存储着英汉微博文本话题词对。话题模型及算法存储器5:存储着进行话题检测的话题模型和算法。
可比语料处理器32的,从互联网上获得初始微博英汉双语可比语料,并采用基于微博线索的关键词抽取方法,抽取出源语言部分的关键词后,借助常用网络词典(包括“海词在线”,“有道词典”,“爱词霸”等)对抽取出来的关键词进行翻译,最终得到多个源语言微博文本集合和其对应的多个翻译,根据关键词的不同,形成多个话题集英汉词对,进而组成初始话题库。把初始话题库存储到英汉话题对齐资源存储器4中。
模型及算法叠加器31,本发明采用基于微博线索双层聚类话题模型进行话题检测,该话题检测模型存储在话题模型及算法存储器5中,使用时话题模型及算法存储器5中调出。利用中文词与英文词之间相似度计算的算法进行计算,该算法也存储在话题模型及算法存储器5中,使用时从存储器5中调出。
同时,在进行跨语言话题检测的时候还需要使用存储在英汉话题对齐资源存储器4中的中英话题词对。这样,使用获得的中英话题词对和预定的话题检测模型及算法,即能实现面向微博文本的跨语言话题检测。
实施例1
如图1所示,一种面向微博文本的跨语言话题检测装置,包括设置在壳体1内的控制板2、处理器3、英汉话题对齐资源存储器4、话题模型及算法存储器5、电源6和识别电路7,以及连接在壳体1上的输入接口8和输出接口9;其中控制板2包括主控制器21和无线上网控制电路22,主控制器21输出控制信号至无线上网控制电路22;处理器3包括可比语料处理器31和话题检测模型及算法叠加器32。本发明的装置,能够对微博文本进行跨语言话题检测,在汉语微博话题检测中,采用跨语言信息检索技术,搜索英文相同话题的微博文本,借助英文微博语料和成熟的技术,降低汉语微博话题检测的数据稀疏程度,进而提高汉语微博话题检测的精确率。同时,也对英文微博文本进行话题检测,采用可比语料同时得到中英微博文本的话题。能及时了解和掌握国内外对于同一话题的不同意见和观点,为网络情感倾向性判别提供可靠的基础。
在上述实施例中,英汉话题对齐资源存储器4连接在输入接口8和可比语料处理器31之间,话题模型算法处理器5连接在输入接口8和模型及算法叠加器32之间。
在上述实施例中,识别电路7与无线上网控制电路22连接,识别电路7内还包括处理芯片。
在上述实施例中,无线上网控制电路22包括无线网卡、可编程逻辑控制器和与可编程控制器连接的模/数转换器。
在上述实施例中,处理器3还包括处理芯片、与主控制器连接的输出接口以及彼此为并联关系的多个输入接口。
实施例2
如图2所示,一种面向微博文本的跨语言话题检测方法,包括如下步骤:
步骤S10:设置英汉话题对齐资源存储器,储存的英汉微博文本话题词对,以及可比语料处理器运行需要的资料、模型、算法;
步骤S20:设置话题模型及算法存储器,存储进行话题检测的话题模型和算法;
步骤S30:采用可比语料处理器从互联网上获得初始微博英汉双语可比语料,并调用S10步骤中的英汉话题对齐资源存储器内的资源对其进行运算,得到初始话题库;并且将初始话题库存储到英汉话题对齐资源存储器;
S40:模型及算法叠加器,调取话题模型及算法存储器中的算法,对可比语料库处理器组成的初始话题库进行运算,得到最终的英汉跨语言话题。
在上述实施例中,步骤S30中可比语料处理器的运算包括如下步骤:
步骤S31:可比语料库处理器抽取关键词,从互联网上获得初始微博英汉双语可比语料,并抽取出源语言部分的关键词;源语言文本关键词抽取详细如下,由于需处理的文本为微博,属于短文本的一种,而短文本本身长度短,信息量少的特性,会对常用的关键词抽取方法带来很大的影响。经过大量数据观察可以发现,一个微博文本所在的线索,即首帖和跟帖组成的微博文本全集,往往关注同一个事件或话题,也就是说,微博文本具有很强的对话性,这种对话性决定了在一个线索中,用户的发言,即跟帖关注的是与首帖相同的事件。所以,在充分考虑到这一特点后,我们对中文微博文本采用基于微博线索的关键词抽取方法。
基于线索的抽取方法,主要是将一个微博文本所在的线索作为整体,进行关键词的抽取。由于独立的微博文本信息量少,所以基于线索的抽取方法可以大大扩充单个微博文本的信息量。从而解决短文本分析时存在的数据稀疏问题。
通过对微博网页文本的观察,可以发现:微博文本的关键词主要来自两个方面,一是该网页的HTML文本中,比如在一篇地震微博网页文本中,从“<metaname=“keywordscontent=“地震”/>”中得到关键词“地震”,这些关键词是人为拟定的网页关键词,通常是准确的。第二个方面是自动从网页的微博文本中提取得到关键词,在将需要进行关键词抽取的文本表示成微博线索后,可以直接使用常用的关键词抽取方法对关键词进行抽取。抽取出关键词后,对关键词相同的微博线索进行合并,形成可比语料库的源语言部分。
S32:可比语料库处理器翻译关键词,借助常用网络词典对抽取出来的关键词进行翻译,得到多个源语言微博文本集合和其对应的多个翻译。
S33:可比语料库处理器组成初始话题库,根据关键词的不同,形成多个话题集英汉词对,进而组成初始话题库。我们对所有关键词相同的源语言微博文本进行合并,相应地,其对应的目标语言文本也需进行合并,合并过程中发现关键词相同的源语言文本所对应的目标语言文本存在重叠现象,即一篇目标文本可能对应几个不同的源文本。这也证明了在一段时间内,话题或事件具有一定的收敛性。
最终可以得到多个源语言微博文本集合和其对应的多个目标语言微博文本集合。而每个可比微博语料集对(中文集合和对应的英文集合)由于关键词的不同,表示不同的初始话题集,所有话题集组成初始话题库。
在上述实施例中,步骤S40模型及算法叠加器在进行话题库的检测运算时,还需使用存储在英汉话题对齐资源存储器中的中英话题词对。
在上述实施例中,可比语料处理器在进行话题处理时,利用词-句子-篇章之间的层次关系,提出以下公式对中英子话题集簇之间的相似度进行计算:首先是词与句子之间的对应关系,即利用中文词与英文词之间相似度计算对应中文句和英文句之间的相似度,公式如下,
Score s e n t e n c e ( C i , E j ) = &Sigma; i &prime; = 1 | C i | r ( C ii &prime; , E jj &prime; ) | L e n g t h ( E j ) | - - - ( 1 )
其中,Ci表示中文句,Ej表示英文句,Cii’表示Ci中的一个中文词,Ejj’表示Ej中的一个英文词,r函数判断Ejj’是否是Cii’的翻译词,Length(Ej)表示Ej的长度,即词数;
而在句子-篇章层面,采用篇章中英文句子之间的相似度最大值作为中英篇章之间的相似度,具体公式如下,
Score p a s s a g e = &Sigma; i = 1 | C i | max Score s e n t e n c e ( C i , E j ) - - - ( 2 )
通过上述公式,可以得到篇章之间的相似度,如该相似度值大于设定的阈值λ(需训练得到),那么就认定这两个中英子话题集簇是相似的,即可对齐。
本发明的装置,实现了无论输入英文还是汉语话题关键词,都可以检测出既包含英文也包含汉语的相关话题事件文本,采用微博可比语料库和词-句子-篇章层次关系的中英文子话题集簇对齐技术,实现跨语言的话题检测。具有较为广阔的应用前景。
本发明的实施例公布的是较佳的实施例,但并不局限于此,本领域的普通技术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化,但只要不脱离本发明的精神,都在本发明的保护范围内。

Claims (10)

1.一种面向微博文本的跨语言话题检测装置,其特征在于:包括设置在壳体(1)内的控制板(2)、处理器(3)、英汉话题对齐资源存储器(4)、话题模型及算法存储器(5)、电源(6)和识别电路(7),以及连接在壳体(1)上的输入接口(8)和输出接口(9);其中所述控制板(2)包括主控制器(21)和无线上网控制电路(22),所述主控制器(21)输出控制信号至无线上网控制电路(22);所述处理器(3)包括可比语料处理器(31)和话题检测模型及算法叠加器(32)。
2.根据权利要求1所述的一种面向微博文本的跨语言话题检测装置,其特征在于:所述英汉话题对齐资源存储器(4)连接在输入接口(8)和可比语料处理器(31)之间,所述话题模型算法处理器(5)连接在输入接口(8)和模型及算法叠加器(32)之间。
3.根据权利要求1所述的一种面向微博文本的跨语言话题检测装置,其特征在于:所述识别电路(7)与无线上网控制电路(22)连接。
4.根据权利要求3所述的一种面向微博文本的跨语言话题检测装置,其特征在于:所述识别电路(7)内还包括处理芯片。
5.根据权利要求3所述的一种面向微博文本的跨语言话题检测装置,其特征在于:所述无线上网控制电路(22)包括无线网卡、可编程逻辑控制器和与可编程控制器连接的模/数转换器。
6.根据权利要求1所述的一种面向微博文本的跨语言话题检测装置,其特征在于:所述处理器(3)还包括处理芯片、与主控制器连接的输出接口以及彼此为并联关系的多个输入接口。
7.一种面向微博文本的跨语言话题检测方法,其特征在于:包括如下步骤:
步骤S10:设置英汉话题对齐资源存储器,储存的英汉微博文本话题词对,以及可比语料处理器运行需要的资料、模型、算法;
步骤S20:设置话题模型及算法存储器,存储进行话题检测的话题模型和算法;
步骤S30:采用可比语料处理器从互联网上获得初始微博英汉双语可比语料,并调用S10步骤中的英汉话题对齐资源存储器内的资源对其进行运算,得到初始话题库;并且将初始话题库存储到英汉话题对齐资源存储器;
S40:模型及算法叠加器,调取话题模型及算法存储器中的算法,对可比语料库处理器组成的初始话题库进行运算,得到最终的英汉跨语言话题。
8.根据权利要求7所述的一种面向微博文本的跨语言话题检测方法,其特征在于:步骤S30中可比语料处理器的运算包括如下步骤:
步骤S31:可比语料库处理器抽取关键词,从互联网上获得初始微博英汉双语可比语料,并抽取出源语言部分的关键词;
S32:可比语料库处理器翻译关键词,借助常用网络词典对抽取出来的关键词进行翻译,得到多个源语言微博文本集合和其对应的多个翻译;
S33:可比语料库处理器组成初始话题库,根据关键词的不同,形成多个话题集英汉词对,进而组成初始话题库。
9.根据权利要求7所述的一种面向微博文本的跨语言话题检测方法,其特征在于:所述步骤S40模型及算法叠加器在进行话题库的检测运算时,还需使用存储在英汉话题对齐资源存储器中的中英话题词对。
10.根据权利要求7或8所述的一种面向微博文本的跨语言话题检测方法,其特征在于:所述可比语料处理器在进行话题处理时,利用词-句子-篇章之间的层次关系,提出以下公式对中英子话题集簇之间的相似度进行计算:首先是词与句子之间的对应关系,即利用中文词与英文词之间相似度计算对应中文句和英文句之间的相似度,公式如下,
Score s e n t e n c e ( C i , E j ) = &Sigma; i &prime; = 1 | C i | r ( C ii &prime; , E jj &prime; ) | L e n g t h ( E j ) | - - - ( 1 )
其中,Ci表示中文句,Ej表示英文句,Cii’表示Ci中的一个中文词,Ejj’表示Ej中的一个英文词,r函数判断Ejj’是否是Cii’的翻译词,Length(Ej)表示Ej的长度,即词数;
而在句子-篇章层面,采用篇章中英文句子之间的相似度最大值作为中英篇章之间的相似度,具体公式如下,
Score p a s s a g e = &Sigma; i = 1 | C i | max Score s e n t e n c e ( C i , E j ) - - - ( 2 )
通过上述公式,可以得到篇章之间的相似度,如该相似度值大于设定的阈值λ(需训练得到),那么就认定这两个中英子话题集簇是相似的,即可对齐。
CN201510786824.0A 2015-11-16 2015-11-16 一种面向微博文本的跨语言话题检测装置及方法 Pending CN105260483A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510786824.0A CN105260483A (zh) 2015-11-16 2015-11-16 一种面向微博文本的跨语言话题检测装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510786824.0A CN105260483A (zh) 2015-11-16 2015-11-16 一种面向微博文本的跨语言话题检测装置及方法

Publications (1)

Publication Number Publication Date
CN105260483A true CN105260483A (zh) 2016-01-20

Family

ID=55100173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510786824.0A Pending CN105260483A (zh) 2015-11-16 2015-11-16 一种面向微博文本的跨语言话题检测装置及方法

Country Status (1)

Country Link
CN (1) CN105260483A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202065A (zh) * 2016-06-30 2016-12-07 中央民族大学 一种跨语言话题检测方法及***
CN106570191A (zh) * 2016-11-11 2017-04-19 浙江大学 基于***的中英文跨语言实体匹配方法
CN109033320A (zh) * 2018-07-18 2018-12-18 ***科技(杭州)有限公司 一种双语新闻聚合方法及***
CN110309263A (zh) * 2019-06-06 2019-10-08 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473280A (zh) * 2013-08-28 2013-12-25 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法及装置
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473280A (zh) * 2013-08-28 2013-12-25 中国科学院合肥物质科学研究院 一种网络可比语料的挖掘方法及装置
CN104133848A (zh) * 2014-07-01 2014-11-05 中央民族大学 藏语实体知识信息抽取方法
CN104391885A (zh) * 2014-11-07 2015-03-04 哈尔滨工业大学 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
康小丽等: "用于双语术语抽取的专业领域中英文可比语料库构建", 《知识组织与知识管理》 *
林声: "可比语料中命名实体翻译等价对抽取方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202065A (zh) * 2016-06-30 2016-12-07 中央民族大学 一种跨语言话题检测方法及***
CN106202065B (zh) * 2016-06-30 2018-12-21 中央民族大学 一种跨语言话题检测方法及***
CN106570191A (zh) * 2016-11-11 2017-04-19 浙江大学 基于***的中英文跨语言实体匹配方法
CN106570191B (zh) * 2016-11-11 2020-05-26 浙江大学 基于***的中英文跨语言实体匹配方法
CN109033320A (zh) * 2018-07-18 2018-12-18 ***科技(杭州)有限公司 一种双语新闻聚合方法及***
CN109033320B (zh) * 2018-07-18 2021-02-12 ***科技(杭州)有限公司 一种双语新闻聚合方法及***
CN110309263A (zh) * 2019-06-06 2019-10-08 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置
CN110309263B (zh) * 2019-06-06 2021-12-17 中国人民解放军军事科学院军事科学信息研究中心 一种基于语义的工作属性文本内容冲突判断方法及装置

Similar Documents

Publication Publication Date Title
CN103123618B (zh) 文本相似度获取方法和装置
CN103390051A (zh) 一种基于微博数据的话题发现与追踪方法
CN105260483A (zh) 一种面向微博文本的跨语言话题检测装置及方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
Huang et al. Contrastive approach towards text source classification based on top-bag-of-word similarity
Parameswarappa et al. Kannada word sense disambiguation using decision list
CN101763403A (zh) 面向多语言信息检索***的查询翻译方法
Lardilleux et al. The contribution of low frequencies to multilingual sub-sentential alignment: a differential associative approach
CN103984731A (zh) 微博环境下自适应话题追踪方法和装置
CN107122465A (zh) 一种基于藏语语言特征的藏语情感词典的构建方法及***
Ben Romdhane et al. A possibilistic query translation approach for cross-language information retrieval
CN103902523A (zh) 维吾尔语句子相似度计算方法
Miao et al. Open domain news text relationship extraction based on dependency syntax
Liang et al. Current status of *** sentiment analysis and cross-language analysis
Tan et al. A unified framework for emotional elements extraction based on finite state matching machine
Cheng et al. Improved deep bi-directional transformer keyword extraction based on semantic understanding of news
Xu et al. Study on Hot Topic Discovery from Chinese Texts.
Yuan et al. Research on cross-language text similarity calculation
Ding et al. Bilingual multi-feature sentiment analysis based on relationship degree
Wang Intelligent English Automatic Translation System Based on Improved GLR Algorithm
CN109977418B (zh) 一种基于语义向量的短文本相似性度量方法
Xiaoxiao Research on the homonyms disambiguation based on Mongolian nouns semantic network
Zhou et al. Studies on a hybrid way of rules and statistics for Chinese conjunction usages recognition
Bharadwaj et al. Language-independent context aware query translation using Wikipedia

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liang Yinghong

Inventor after: Yao Jianmin

Inventor before: Liang Yinghong

Inventor before: Yao Jianmin

Inventor before: Xu Nan

Inventor before: Yang Ronggen

COR Change of bibliographic data
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160120