CN102184256A - 一种针对海量相似短文本的聚类方法和*** - Google Patents
一种针对海量相似短文本的聚类方法和*** Download PDFInfo
- Publication number
- CN102184256A CN102184256A CN2011101473403A CN201110147340A CN102184256A CN 102184256 A CN102184256 A CN 102184256A CN 2011101473403 A CN2011101473403 A CN 2011101473403A CN 201110147340 A CN201110147340 A CN 201110147340A CN 102184256 A CN102184256 A CN 102184256A
- Authority
- CN
- China
- Prior art keywords
- text
- short
- short text
- trunk
- texts
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种针对海量相似短文本的聚类方法和***是属于信息技术科学领域内的一项针对重复短文本检测的研究。因为短文本有着它自身的特点,所以传统的重复文本分析方法应用到短文本上的计算结果无法令人满意。而本发明采用基于短文本内容主干的重复分析方法,并结合相关词群,除能检测出完全重复的文本外,还可以检测出相似性极高的文本,而且处理速度快,效率高,可以较好的处理海量数据。采用本发明的方法可以去除冗余短文本,能够大大降低***处理规模,并且还可以在一定程度上发现热点短文本,辅助发现社会热点。
Description
一、技术领域
信息技术
二、背景技术
在信息化已经成为世界发展趋势的背景下,互联网有着应用极为广泛、发展规模最大、非常贴近人们生活等众多特点。一方面,互联网创造了巨大的经济效益和社会效益,使得人们可以接受到即时的、最新的消息;但同时随着网络的普及、网上的信息量越来越大,不仅对计算机对这些海量信息的获取、存储及实时分析处理能力提出了严峻的挑战,也给人们在搜索信息时准确性和可靠性带来了一定的难度;另一方面,互联网也带来了一些负面影响,如色情、反动等不良信息在网络上大量传播。垃圾邮件等不正当行为的泛滥,利用网络传播电影、音乐、软件等侵犯版权的行为,甚至通过网络方式诈骗用户,以及出现网络暴力等问题。因此,在建设信息化社会的过程中,提高信息内容安全保障水平及对互联网中各种不良信息的检测能力,是网络信息技术中的重要一环,也是顺利建设信息化社会的坚实基础。
伴随着三网融合的进程,下一代互联网中文本形式变得多样化,普通网页所占比例越来越小。微博、WAP、评论、短信等内容比例会逐渐提高。同普通网页类似,这类文本中也存在大量的相同或极为相似的内容。例如:
[1]北京***办毕业证身份证***QQ731787311
[2]北京办,证办毕业,证身份,证刻,章QQ7317@87@311
[3]祝福短信我来发,光棍开怀笑哈哈。节日不分大和小,快乐潇洒真热闹。万事都随风刮掉,如意才会无烦恼!
[4]<祝福>短信我来发,<光棍>开怀笑哈哈。<节日>不分大和小,<快乐>潇洒真热闹。<万事>都随风刮掉,<如意>才会无烦恼!
[5]瑞雪飘,寒梅俏,金牛哞哞报春早。锣鼓敲,爆竹闹,神州处处有欢笑。交情牢,赶个巧,今儿巴巴送福到。身体好,财神找,牛运鼎鼎莫忘交!——张三敬上
[6]瑞雪飘,寒梅俏,金牛哞哞报春早。锣鼓敲,爆竹闹,神州处处有欢笑。交情牢,赶个巧,今儿巴巴送福到。身体好,财神找,牛运鼎鼎莫忘交!——李四敬上
例1和例2比较发现,短信里***了不当的标点符号和特殊符号,这是发送广告短信的不法商贩为了躲避运营商的广告过滤。例3和例4比较发现,发送短信者在转发过程中把要强调的关键词括了起来。例5和例6比较发现,短信的主体内容是相同的,不同的转发者在最后分别署上自己的名字。虽然这种类型短信的内容有所更改,但其主体部分还是一样的。
还有一类是手机用户就同一话题或类似话题创作的短信。如节日祝福短信或就某一个公众事件交流的短信等。这类短信都是原创短信,虽然表达方式各异,但因为内容是同一话题,所以有很大的相似性。
三、发明内容
1、本发明所要解决的技术问题(发明目的)
短文本语料的冗余现象特别严重:在手机短信中冗余主要来自垃圾短信的大量群发,搞笑短信和祝福短信的大量群发和转发,以及常用日常用语的大量涌现;在BBS语料或新闻评论语料中,冗余主要来自于热点帖子的大量转帖和大量回复;即时消息中幽默消息、祝福消息、日常用语等非常频繁,导致大量消息冗余。微软曾经统计了由1.5亿个网页构成的互联网语料,发现6%的网页是完全重复的。由此可以看出短文本完全重复的比例远远高于互联网语料的重复比例。另外,短文本语料中除了内容完全相同的冗余短信外,还有数量更为庞大的短文本内容是近似相同的,这些短文本明显是谈论同一个事件,而且明显是以几乎完全相同的方式谈论,只是标点符号有细微差别,或者短信开始或结尾添加了几个字符。而微软从互联网语料统计出来的近似冗余比例为29.2%,因此短文本语料的近似冗余比例大大高于互联网语料的近似冗余比例。完全冗余短文本和近似冗余短文本的存在会造成硬盘空间的浪费.检测并去除冗余短文本能够大大降低***处理规模。检测并去除冗余短文本还可以一定程度上发现热点短文本,辅助发现社会热点。
传统的重复文本检测算法大多用于解决检测两个文本是否完全重复,不能解决1.1中的相似短文本的重复检测问题。
传统的重复文本分析方法不适用于短文本的重复分析,传统的文本相关性分析方法主要采用向量空间模型或概率模型。在向量空间模型中,用文本中的字或者词作为特征表示文本,用特征向量之间的相似度来度量文本的相关性。但短信、微博这类文本的长度过短,这会导致特征向量过于稀疏,计算相似性的结果无法满足相似性分析的要求,其结果在语义层面更是无法使人接受。在概率模型中,同样会存在类似的问题。若使用短信这种过短的文本,大部分特征都会是概率平滑的结果,不能反映真实数据的信息。因此计算结果无法令人满意,也不能解决相似短文本的重复检测问题。本文采用基于文本内容主干的重复分析方法,并结合相关词群,较好的解决了这一问题。
2、本发明提供的完整技术方案(发明方案)
2.1基于短文本内容主干的重复分析方法
本算法根据文本内容主干的一致性来去除高度相似的文本。不论是概率模型还是向量空间模型,其相关性分析的方法都是基于文本中的词频之上的。同时,如果两个短文本(例如短信、微博)如果相似,那么文本中必然出现大量相同或语义近似的词。因此我们采用提取文本内容主干的方法进行短信样本的相关性分析。该方案包括如下几步:
1)预处理
该步骤用于提高文本质量。包括如下步骤:
a)文本过滤(去掉长度过短且没有信息量的文本)
b)文本修剪(去掉文本中的起干扰作用的前后缀和特殊符号)
c)文本编码转换
d)文本内容归一化(繁简体统一、大小写字母统一、全角半角符号统一、各种形式编号的统一等)
2)分词
该步骤讲完整的文本内容切分成带有词性的字或者单词。
3)提取文本主干
该步骤只提取动词、名词、数词,其它词性的单词丢弃不用。然后将语义相同的同义词、近义词替换为同一个词(语义归一化)。
4)相似性计算
经提取主干后,我们假设相同词数越多(单词顺序不变)的文本,其相似性越强。
因此该步骤将文本主干放入HASH表中,根据映射关系把文本分为相关和不相关两种。
5)相似文本聚类
该步骤将相关文档归为一类,从而形成多个“相关文本”的类别。并选出词频(关键词重复率)最高的关键词代表该类别。
四、附图说明
图1:强相关重复文本检测算法流程图
图2:分布式处理方案架构图
图3:短文本数据时序同步图
图4:服务器端部署图
图5:每个处理节点的文本处理流程图
五、具体实施方式
为了处理海量网络数据,必须以分布式的方式部署上述方案。每个分布式处理节点从短文本数据源获取数据,提取短文本主干后,与HASH数据库服务器通信,在HASH数据库中查找该短文本主干,从而确定该短文本是否重复过,如果重复,则在本地TokyoCabinet HASH表中更新该类短文本的数量,处理结果传输到后续进程做进一步处理。同时为提高处理速度,在每个处理节点上采用BUFFER_DEQUE和DB_DEQUE两个缓存结构对HASH服务器中的重复文本类别信息做二级缓存。
1、该架构需要说明之处
1)处理节点设置缓存的原因
为保证哈希服务器较高的读取性能,将哈希数据库中的数据量限制在一定范围内(亿级别以下)十分重要,所以在每个处理节点设置缓存。
另一方面,每删除一条记录时都会锁住数据库文件,其他请求必须等待。因此不能采用“集中删除策略”或者“批量删除策略”。每个处理节点负责从哈希服务器数据库中删除自己处理过的记录,这样能把删除操作分散开来,不会导致长时间的等待(数据库操作应答时延)。另外,短文本在缓存中按照时间顺序排列,这样在删除“过时”的短文本记录时,能够以O(1)时间复杂度找到待删除的短文本类。
2)设置两级缓存的原因
最终应用关心的往往是时间敏感的事件,因此,在一个短时间内(简称为“小周期”)没有发现重复的短文本类视为不关心的短文本。这类短文本往往占绝大部分,例如我们日常生活中发送的短信。
即使短时间内发现重复的短文本类,当发生了一段时间(简称为“大周期”)之后也会成为“过时”的短文本类,也视为不关心的短文本。例如现在再谈金融危机就已经没有意义了。
为了尽量减少哈希数据库中存储的记录数量,我们按照上述原因区分对待短文本类记录。缓存结构Buffer_Deque中存储“小周期”内的所有短文本记录,包括重复的和不重复的。缓存结构DB_Deque用于存储“大周期”内的重复短文本。
在处理短文本流的过程中,我们将超出小周期而且没有发现重复的短文本记录及时从哈希服务器和缓存结构Buffer_Deque中删除。将超出小周期但已经发现重复的短文本记录转存入缓存结构DB_Deque;超过大周期的短文本类记录应及时从缓存结构DB_Deque和HASH数据库中删除。
3)双缓存、哈希数据库之间的数据同步关系
缓存结构Buffer_Deque和哈希数据库之间同步“小周期”内的所有短文本记录。缓存结构DB_Deque和哈希数据库之间同步“大周期”内的重复短文本记录。
4)使用处理节点的TokyoCabinet HASH表做短文本计数的原因
在哈希数据库中统一记录某个短文本类内短文本的数量(简称集中计数)看似更简单些,而其也不会出现计数出错的问题。但这样也存在如下的问题:
A、计数结果需要周期性的写入分析结果数据库(Oracle数据库等),这时需要较长时间的锁住数据库表和HASH数据库,该期间各处理节点不能访问HASH数据库以返回相似性重复检测的结果,同时Oracle数据库的瞬时压力也比较大。
B、对每个短文本数超过3的短文本类,集中计数会增加一次数据库写操作。这样会增加哈希服务器的压力。
采用分布式的短文本计数能够避免上述问题。这是因为减少了对HASH数据库的访问量,同时采用分散的方式向数据库写数据减小了数据库的瞬时压力。
2、该架构中涉及的数据存储
1)HASH数据库安装在HASH数据库服务器上,负责存储重复短文本的主干。
2)每个处理节点中安装TokyoCabinet,负责存储短文本类计数信息。
3)缓存结构Buffer_Deque用于存储小周期内的所有短文本。缓存结构Buffer_Deque包括buffer_queue和buffer_inde两个哈希结构。
采用双哈希的原因在于,buffer_queue中以短文本主干为键,可以迅速查询某短文本类是否已存在。buffer_index以短文本发送时间为键,可以迅速得知哪些短文本类超出了“小周期”。所以buffer_queue和buffer_index中的短文本类需要同步。
4)DB_Deque用于存储大周期内发现重复的所有短文本类。
DB_Deque队列中的短文本类按照时间顺序升序排列。这样每次按照时间阈值删除数据只需从队头读取即可。
3、HASH服务器端结构
在HASH服务器端,请求按照接受到的时间先后按顺序处理。HASH服务器端主要三部分,主线程、全局队列和工作线程组。主线程通过网络接口侦听请求连接,然后将得到的请求放到一个全局的队列中,然后工作线程从队列头取出请求,到HASH数据库中查询,并将查询结果返回给用户。
Claims (6)
1.对海量相似短文本的基于内容主干的重复检测方法,包括对文本进行预处理,将完整的文本内容切分成带有词性的字或者单词,对文本提取主干,只提取文本中的动词、名词、数词,其它词性的单词丢弃不用,然后将语义相同的同义词、近义词替换为同一个词(语义归一化),对文本进行相似性计算,经提取主干后,我们假设相同词数越多(单词顺序不变)的文本,其相似性越强,将相关文档归为一类,从而形成多个“相关文本”的类别。并选出词频(关键词重复率)最高的若干个关键词代表该类别。
2.如权利要求1所述的对海量相似短文本的基于内容主干的重复检测方法,其特征在于对文本进行预处理时对文本的进行过滤和修剪,即去掉长度过短且没有信息量的文本和文本中的起干扰作用的前后缀和特殊符号。
3.如权利要求1所述的对海量相似短文本的基于内容主干的重复检测方法,其特征在于对文本进行预处理时对文本进行编码转换,并对对文本内容归一化,即繁简体统一、大小写字母统一、全角半角符号统一、各种形式编号的统一等。
4.如权利要求1所述的对海量相似短文本的基于内容主干的重复检测方法,其特征在于对文本进行预处理时对文本进行相似性计算过程中将文本主干放入HASH表中,根据映射关系把文本分为相关和不相关两种。
5.对海量相似短文本的包含重复检测和重复程度统计功能的分布式架构,包括每个分布式处理节点从短文本数据源获取数据,提取短文本主干,与HASH数据库服务器通信,在HASH数据库中查找该短文本主干,从而确定该短文本是否重复过,如果重复,则在本地TokyoCabinet中更新该类短文本的数量,处理结果传输到后续进程做进一步处理。
6.如权利要求5所述的对海量相似短文本的包含重复检测和重复程度统计功能的分布式架构,其特征在于对每个分布式处理节点从短文本数据源获取数据,提取短文本主干时在每个处理节点上采用BUFFER_DEQUE和DB_DEQUE对hash服务器中的重复文本类别信息做二级缓存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101473403A CN102184256A (zh) | 2011-06-02 | 2011-06-02 | 一种针对海量相似短文本的聚类方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101473403A CN102184256A (zh) | 2011-06-02 | 2011-06-02 | 一种针对海量相似短文本的聚类方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102184256A true CN102184256A (zh) | 2011-09-14 |
Family
ID=44570433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101473403A Pending CN102184256A (zh) | 2011-06-02 | 2011-06-02 | 一种针对海量相似短文本的聚类方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102184256A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360372A (zh) * | 2011-10-09 | 2012-02-22 | 北京航空航天大学 | 一种跨语种的文档相似性检测方法 |
CN103049524A (zh) * | 2012-12-20 | 2013-04-17 | 中国科学技术信息研究所 | 同义词检索结果按词义自动聚类方法 |
CN103177125A (zh) * | 2013-04-17 | 2013-06-26 | 镇江诺尼基智能技术有限公司 | 一种快速的短文本双聚类方法 |
CN103324604A (zh) * | 2012-03-07 | 2013-09-25 | 国际商业机器公司 | 用于域特定的自然语言标准化的方法和*** |
CN103729422A (zh) * | 2013-12-23 | 2014-04-16 | 武汉传神信息技术有限公司 | 一种信息碎片关联输出的方法及*** |
CN103744883A (zh) * | 2013-12-23 | 2014-04-23 | 武汉传神信息技术有限公司 | 一种快速选取信息碎片的方法及*** |
CN103744884A (zh) * | 2013-12-23 | 2014-04-23 | 武汉传神信息技术有限公司 | 一种整理信息碎片的方法及*** |
CN104317883A (zh) * | 2014-10-21 | 2015-01-28 | 北京国双科技有限公司 | 网络文本处理方法及装置 |
CN105843818A (zh) * | 2015-01-15 | 2016-08-10 | 富士通株式会社 | 训练设备和训练方法、判断设备、以及推荐设备 |
CN106202057A (zh) * | 2016-08-30 | 2016-12-07 | 东软集团股份有限公司 | 相似新闻信息的识别方法和装置 |
CN106383814A (zh) * | 2016-09-13 | 2017-02-08 | 电子科技大学 | 一种英文社交媒体短文本分词方法 |
CN106407020A (zh) * | 2016-11-23 | 2017-02-15 | 青岛海信移动通信技术股份有限公司 | 一种移动终端的数据库处理方法及其移动终端 |
CN106407019A (zh) * | 2016-11-23 | 2017-02-15 | 青岛海信移动通信技术股份有限公司 | 一种移动终端的数据库处理方法及其移动终端 |
CN106919549A (zh) * | 2015-12-24 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 业务处理方法和装置 |
CN106933901A (zh) * | 2015-12-31 | 2017-07-07 | 北京大学 | 数据集成方法及*** |
CN107330127A (zh) * | 2017-07-21 | 2017-11-07 | 湘潭大学 | 一种基于文本图片检索的相似文本检测方法 |
CN109472008A (zh) * | 2018-11-20 | 2019-03-15 | 武汉斗鱼网络科技有限公司 | 一种文本相似度计算方法、装置及电子设备 |
CN106682082B (zh) * | 2016-11-23 | 2021-03-26 | 青岛海信移动通信技术股份有限公司 | 一种数据库的写方法和装置 |
CN112597284A (zh) * | 2021-03-08 | 2021-04-02 | 中邮消费金融有限公司 | 公司名称的匹配方法、装置、计算机设备及存储介质 |
-
2011
- 2011-06-02 CN CN2011101473403A patent/CN102184256A/zh active Pending
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360372A (zh) * | 2011-10-09 | 2012-02-22 | 北京航空航天大学 | 一种跨语种的文档相似性检测方法 |
US9424253B2 (en) | 2012-03-07 | 2016-08-23 | International Business Machines Corporation | Domain specific natural language normalization |
CN103324604A (zh) * | 2012-03-07 | 2013-09-25 | 国际商业机器公司 | 用于域特定的自然语言标准化的方法和*** |
US9122673B2 (en) | 2012-03-07 | 2015-09-01 | International Business Machines Corporation | Domain specific natural language normalization |
CN103324604B (zh) * | 2012-03-07 | 2016-04-27 | 国际商业机器公司 | 用于域特定的自然语言标准化的方法和*** |
CN103049524A (zh) * | 2012-12-20 | 2013-04-17 | 中国科学技术信息研究所 | 同义词检索结果按词义自动聚类方法 |
CN103049524B (zh) * | 2012-12-20 | 2016-01-06 | 中国科学技术信息研究所 | 同义词检索结果按词义自动聚类方法 |
CN103177125A (zh) * | 2013-04-17 | 2013-06-26 | 镇江诺尼基智能技术有限公司 | 一种快速的短文本双聚类方法 |
CN103177125B (zh) * | 2013-04-17 | 2016-04-27 | 镇江诺尼基智能技术有限公司 | 一种快速的短文本双聚类方法 |
CN103729422A (zh) * | 2013-12-23 | 2014-04-16 | 武汉传神信息技术有限公司 | 一种信息碎片关联输出的方法及*** |
CN103744883A (zh) * | 2013-12-23 | 2014-04-23 | 武汉传神信息技术有限公司 | 一种快速选取信息碎片的方法及*** |
CN103744884A (zh) * | 2013-12-23 | 2014-04-23 | 武汉传神信息技术有限公司 | 一种整理信息碎片的方法及*** |
CN104317883B (zh) * | 2014-10-21 | 2017-11-21 | 北京国双科技有限公司 | 网络文本处理方法及装置 |
CN104317883A (zh) * | 2014-10-21 | 2015-01-28 | 北京国双科技有限公司 | 网络文本处理方法及装置 |
CN105843818A (zh) * | 2015-01-15 | 2016-08-10 | 富士通株式会社 | 训练设备和训练方法、判断设备、以及推荐设备 |
CN106919549A (zh) * | 2015-12-24 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 业务处理方法和装置 |
CN106933901B (zh) * | 2015-12-31 | 2020-07-17 | 北京大学 | 数据集成方法及*** |
CN106933901A (zh) * | 2015-12-31 | 2017-07-07 | 北京大学 | 数据集成方法及*** |
CN106202057B (zh) * | 2016-08-30 | 2019-07-12 | 东软集团股份有限公司 | 相似新闻信息的识别方法和装置 |
CN106202057A (zh) * | 2016-08-30 | 2016-12-07 | 东软集团股份有限公司 | 相似新闻信息的识别方法和装置 |
CN106383814A (zh) * | 2016-09-13 | 2017-02-08 | 电子科技大学 | 一种英文社交媒体短文本分词方法 |
CN106407019A (zh) * | 2016-11-23 | 2017-02-15 | 青岛海信移动通信技术股份有限公司 | 一种移动终端的数据库处理方法及其移动终端 |
CN106407020A (zh) * | 2016-11-23 | 2017-02-15 | 青岛海信移动通信技术股份有限公司 | 一种移动终端的数据库处理方法及其移动终端 |
CN106682082B (zh) * | 2016-11-23 | 2021-03-26 | 青岛海信移动通信技术股份有限公司 | 一种数据库的写方法和装置 |
CN107330127A (zh) * | 2017-07-21 | 2017-11-07 | 湘潭大学 | 一种基于文本图片检索的相似文本检测方法 |
CN107330127B (zh) * | 2017-07-21 | 2020-06-05 | 湘潭大学 | 一种基于文本图片检索的相似文本检测方法 |
CN109472008A (zh) * | 2018-11-20 | 2019-03-15 | 武汉斗鱼网络科技有限公司 | 一种文本相似度计算方法、装置及电子设备 |
CN112597284A (zh) * | 2021-03-08 | 2021-04-02 | 中邮消费金融有限公司 | 公司名称的匹配方法、装置、计算机设备及存储介质 |
CN112597284B (zh) * | 2021-03-08 | 2021-06-15 | 中邮消费金融有限公司 | 公司名称的匹配方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102184256A (zh) | 一种针对海量相似短文本的聚类方法和*** | |
CN106980692B (zh) | 一种基于微博特定事件的影响力计算方法 | |
JP6007088B2 (ja) | 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法 | |
CN100478961C (zh) | 一种短文本的新词发现方法和*** | |
CN109241274A (zh) | 文本聚类方法及装置 | |
CN101820398A (zh) | 一种动态管理通讯组的即时通讯工具及其方法 | |
WO2008014702A1 (fr) | Procédé et système d'extraction de mots nouveaux | |
WO2007143914A1 (fr) | Procédé, dispositif et système de saisie pour la création d'une base de données de fréquence de mots basée sur des informations issues du web | |
CN113962293B (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和*** | |
Man | Feature extension for short text categorization using frequent term sets | |
CN103313248A (zh) | 一种识别垃圾信息的方法和装置 | |
CN105404677B (zh) | 一种基于树形结构的检索方法 | |
CN105608232A (zh) | 一种基于图形数据库的bug知识建模方法 | |
CN105279159B (zh) | 联系人的提示方法和装置 | |
CN112905800A (zh) | 基于公众人物舆情知识图谱和XGBoost多特征融合情感预警方法 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
Devika et al. | A semantic graph-based keyword extraction model using ranking method on big social data | |
CN106502990A (zh) | 一种微博特征项提取方法和改进tf‑idf归一化方法 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN111782970B (zh) | 一种数据分析方法和装置 | |
US9547701B2 (en) | Method of discovering and exploring feature knowledge | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN105426490B (zh) | 一种基于树形结构的索引方法 | |
CN111400617A (zh) | 基于主动学习的社交机器人检测数据集扩展方法及*** | |
Lim et al. | ClaimFinder: A Framework for Identifying Claims in Microblogs. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
DD01 | Delivery of document by public notice |
Addressee: Chen Guang Document name: Notification of Publication of the Application for Invention |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110914 |