CN104615714A - 基于文本相似度和微博频道特征的博文排重方法 - Google Patents
基于文本相似度和微博频道特征的博文排重方法 Download PDFInfo
- Publication number
- CN104615714A CN104615714A CN201510061278.4A CN201510061278A CN104615714A CN 104615714 A CN104615714 A CN 104615714A CN 201510061278 A CN201510061278 A CN 201510061278A CN 104615714 A CN104615714 A CN 104615714A
- Authority
- CN
- China
- Prior art keywords
- channel
- feature
- blog article
- microblog
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
算法 | M1 | M2 | M3 |
准确度 | 0.975 | 0.825 | 0.73 |
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061278.4A CN104615714B (zh) | 2015-02-05 | 2015-02-05 | 基于文本相似度和微博频道特征的博文排重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510061278.4A CN104615714B (zh) | 2015-02-05 | 2015-02-05 | 基于文本相似度和微博频道特征的博文排重方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104615714A true CN104615714A (zh) | 2015-05-13 |
CN104615714B CN104615714B (zh) | 2019-05-24 |
Family
ID=53150156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510061278.4A Expired - Fee Related CN104615714B (zh) | 2015-02-05 | 2015-02-05 | 基于文本相似度和微博频道特征的博文排重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104615714B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649222A (zh) * | 2016-12-13 | 2017-05-10 | 浙江网新恒天软件有限公司 | 基于语义分析与多重Simhash的文本近似重复检测方法 |
CN107729338A (zh) * | 2016-08-12 | 2018-02-23 | 中国电信股份有限公司 | 数据节点相似度计算方法和装置 |
CN107977347A (zh) * | 2017-12-04 | 2018-05-01 | 海南云江科技有限公司 | 一种题目去重方法和计算设备 |
CN108647322A (zh) * | 2018-05-11 | 2018-10-12 | 四川师范大学 | 基于词网识别大量Web文本信息相似度的方法 |
CN111918248A (zh) * | 2020-07-22 | 2020-11-10 | 重庆理工大学 | 车联网环境下基于d2d的多接入边缘计算任务卸载方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1403959A (zh) * | 2001-09-07 | 2003-03-19 | 联想(北京)有限公司 | 基于文本内容特征相似度和主题相关程度比较的内容过滤器 |
CN101350032A (zh) * | 2008-09-23 | 2009-01-21 | 胡辉 | 判断网页内容是否相同的方法 |
CN101620616A (zh) * | 2009-05-07 | 2010-01-06 | 北京理工大学 | 一种基于小世界特性的中文近似网页去重方法 |
US7657507B2 (en) * | 2007-03-02 | 2010-02-02 | Microsoft Corporation | Pseudo-anchor text extraction for vertical search |
CN102521402A (zh) * | 2011-12-23 | 2012-06-27 | 上海电机学院 | 文本过滤***及方法 |
CN102622365A (zh) * | 2011-01-28 | 2012-08-01 | 北京百度网讯科技有限公司 | 一种网页重复的判断***及其判断方法 |
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机***有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN103559259A (zh) * | 2013-11-04 | 2014-02-05 | 同济大学 | 基于云平台的消除近似重复网页方法 |
CN103646029A (zh) * | 2013-11-04 | 2014-03-19 | 北京中搜网络技术股份有限公司 | 一种针对博文的相似度计算方法 |
CN103646080A (zh) * | 2013-12-12 | 2014-03-19 | 北京京东尚科信息技术有限公司 | 基于倒序索引的微博去重方法和*** |
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
CN104281610A (zh) * | 2013-07-08 | 2015-01-14 | 腾讯科技(深圳)有限公司 | 过滤微博的方法和装置 |
-
2015
- 2015-02-05 CN CN201510061278.4A patent/CN104615714B/zh not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1403959A (zh) * | 2001-09-07 | 2003-03-19 | 联想(北京)有限公司 | 基于文本内容特征相似度和主题相关程度比较的内容过滤器 |
US7657507B2 (en) * | 2007-03-02 | 2010-02-02 | Microsoft Corporation | Pseudo-anchor text extraction for vertical search |
CN101350032A (zh) * | 2008-09-23 | 2009-01-21 | 胡辉 | 判断网页内容是否相同的方法 |
CN101620616A (zh) * | 2009-05-07 | 2010-01-06 | 北京理工大学 | 一种基于小世界特性的中文近似网页去重方法 |
CN102622365A (zh) * | 2011-01-28 | 2012-08-01 | 北京百度网讯科技有限公司 | 一种网页重复的判断***及其判断方法 |
CN102521402A (zh) * | 2011-12-23 | 2012-06-27 | 上海电机学院 | 文本过滤***及方法 |
CN103257957A (zh) * | 2012-02-15 | 2013-08-21 | 深圳市腾讯计算机***有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN104281610A (zh) * | 2013-07-08 | 2015-01-14 | 腾讯科技(深圳)有限公司 | 过滤微博的方法和装置 |
CN104239539A (zh) * | 2013-09-22 | 2014-12-24 | 中科嘉速(北京)并行软件有限公司 | 一种基于多种信息融合的微博信息过滤方法 |
CN103559259A (zh) * | 2013-11-04 | 2014-02-05 | 同济大学 | 基于云平台的消除近似重复网页方法 |
CN103646029A (zh) * | 2013-11-04 | 2014-03-19 | 北京中搜网络技术股份有限公司 | 一种针对博文的相似度计算方法 |
CN103646080A (zh) * | 2013-12-12 | 2014-03-19 | 北京京东尚科信息技术有限公司 | 基于倒序索引的微博去重方法和*** |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729338A (zh) * | 2016-08-12 | 2018-02-23 | 中国电信股份有限公司 | 数据节点相似度计算方法和装置 |
CN107729338B (zh) * | 2016-08-12 | 2020-09-04 | 中国电信股份有限公司 | 数据节点相似度计算方法和装置 |
CN106649222A (zh) * | 2016-12-13 | 2017-05-10 | 浙江网新恒天软件有限公司 | 基于语义分析与多重Simhash的文本近似重复检测方法 |
CN107977347A (zh) * | 2017-12-04 | 2018-05-01 | 海南云江科技有限公司 | 一种题目去重方法和计算设备 |
CN107977347B (zh) * | 2017-12-04 | 2021-12-21 | 海南云江科技有限公司 | 一种题目去重方法和计算设备 |
CN108647322A (zh) * | 2018-05-11 | 2018-10-12 | 四川师范大学 | 基于词网识别大量Web文本信息相似度的方法 |
CN108647322B (zh) * | 2018-05-11 | 2021-12-17 | 四川师范大学 | 基于词网识别大量Web文本信息相似度的方法 |
CN111918248A (zh) * | 2020-07-22 | 2020-11-10 | 重庆理工大学 | 车联网环境下基于d2d的多接入边缘计算任务卸载方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104615714B (zh) | 2019-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wen et al. | Emotion classification in microblog texts using class sequential rules | |
US9189746B2 (en) | Machine-learning based classification of user accounts based on email addresses and other account information | |
CN104615714A (zh) | 基于文本相似度和微博频道特征的博文排重方法 | |
Sun et al. | A comparative evaluation of string similarity metrics for ontology alignment | |
Wu et al. | Co-detecting social spammers and spam messages in microblogging via exploiting social contexts | |
CN104866478B (zh) | 恶意文本的检测识别方法及装置 | |
WO2008043645B1 (en) | Establishing document relevance by semantic network density | |
CN106708947B (zh) | 一种基于大数据的网络文章转发识别方法 | |
CN101694670A (zh) | 一种基于公共子串的中文Web文档在线聚类方法 | |
CN106372202B (zh) | 文本相似度计算方法及装置 | |
Hasan et al. | TwitterNews: Real time event detection from the Twitter data stream | |
CN103646029B (zh) | 一种针对博文的相似度计算方法 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
Man | Feature extension for short text categorization using frequent term sets | |
CN105447169A (zh) | 文献归一方法、文献搜索方法及对应装置 | |
CN106569989A (zh) | 一种用于短文本的去重方法及装置 | |
Huang et al. | Hyperpartisan news and articles detection using bert and elmo | |
Trani et al. | SEL: A unified algorithm for salient entity linking | |
Habib et al. | Unsupervised improvement of named entity extraction in short informal context using disambiguation clues | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN111190873A (zh) | 一种用于云原生***日志训练的日志模式提取方法及*** | |
CN102253983A (zh) | 一种汉语高危词识别方法和*** | |
Pujara et al. | Reducing label cost by combining feature labels and crowdsourcing | |
CN107133317B (zh) | 一种通过新词抽取网络舆情主题的方法 | |
Shinde et al. | Sentiment analysis using hybrid approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20170503 Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2 Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY Co.,Ltd. Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902 Applicant before: BEIJING ZHONGSOU NETWORK TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190524 Termination date: 20220205 |