CN107609121A - 基于LDA和word2vec算法的新闻文本分类方法 - Google Patents
基于LDA和word2vec算法的新闻文本分类方法 Download PDFInfo
- Publication number
- CN107609121A CN107609121A CN201710828232.XA CN201710828232A CN107609121A CN 107609121 A CN107609121 A CN 107609121A CN 201710828232 A CN201710828232 A CN 201710828232A CN 107609121 A CN107609121 A CN 107609121A
- Authority
- CN
- China
- Prior art keywords
- mrow
- text
- msub
- vector
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710828232.XA CN107609121B (zh) | 2017-09-14 | 2017-09-14 | 基于LDA和word2vec算法的新闻文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710828232.XA CN107609121B (zh) | 2017-09-14 | 2017-09-14 | 基于LDA和word2vec算法的新闻文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609121A true CN107609121A (zh) | 2018-01-19 |
CN107609121B CN107609121B (zh) | 2021-03-30 |
Family
ID=61062711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710828232.XA Expired - Fee Related CN107609121B (zh) | 2017-09-14 | 2017-09-14 | 基于LDA和word2vec算法的新闻文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609121B (zh) |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类***及计算机装置 |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
CN108804622A (zh) * | 2018-08-20 | 2018-11-13 | 天津探数科技有限公司 | 一种考虑语义背景的短文本分类器构造方法 |
CN108829661A (zh) * | 2018-05-09 | 2018-11-16 | 成都信息工程大学 | 一种基于模糊匹配的新闻主体名称提取方法 |
CN108846097A (zh) * | 2018-06-15 | 2018-11-20 | 北京搜狐新媒体信息技术有限公司 | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 |
CN108846120A (zh) * | 2018-06-27 | 2018-11-20 | 合肥工业大学 | 用于对文本集进行分类的方法、***及存储介质 |
CN108932228A (zh) * | 2018-06-06 | 2018-12-04 | 武汉斗鱼网络科技有限公司 | 直播行业新闻与分区匹配方法、装置、服务器及存储介质 |
CN109145116A (zh) * | 2018-09-03 | 2019-01-04 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN109284379A (zh) * | 2018-09-21 | 2019-01-29 | 福州大学 | 基于双向量模型的自适应微博话题追踪方法 |
CN109446324A (zh) * | 2018-10-16 | 2019-03-08 | 北京字节跳动网络技术有限公司 | 样本数据的处理方法、装置、存储介质及电子设备 |
CN109522408A (zh) * | 2018-10-30 | 2019-03-26 | 广东原昇信息科技有限公司 | 信息流素材创意文本的分类方法 |
CN109684444A (zh) * | 2018-11-02 | 2019-04-26 | 厦门快商通信息技术有限公司 | 一种智能客服方法及*** |
CN109685109A (zh) * | 2018-11-26 | 2019-04-26 | 浙江工业大学 | 一种基于孪生神经网络的基站标号轨迹分类方法 |
CN109766410A (zh) * | 2019-01-07 | 2019-05-17 | 东华大学 | 一种基于fastText算法的新闻文本自动分类*** |
CN109815400A (zh) * | 2019-01-23 | 2019-05-28 | 四川易诚智讯科技有限公司 | 基于长文本的人物兴趣提取方法 |
CN109947939A (zh) * | 2019-01-30 | 2019-06-28 | 中兴飞流信息科技有限公司 | 文本分类方法、电子设备和计算机可读存储介质 |
CN110046340A (zh) * | 2018-12-28 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 文本分类模型的训练方法和装置 |
CN110569351A (zh) * | 2019-09-02 | 2019-12-13 | 北京猎云万罗科技有限公司 | 一种约束性用户偏好的网络媒体新闻分类方法 |
CN110674239A (zh) * | 2019-09-27 | 2020-01-10 | 中国航空无线电电子研究所 | 一种地理要素自动分类方法及装置 |
CN110704626A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种用于短文本的分类方法及装置 |
CN110781271A (zh) * | 2019-09-02 | 2020-02-11 | 国网天津市电力公司电力科学研究院 | 一种基于层次注意力机制的半监督网络表示学习模型 |
CN110795564A (zh) * | 2019-11-01 | 2020-02-14 | 南京稷图数据科技有限公司 | 一种缺少负例的文本分类方法 |
CN110969023A (zh) * | 2018-09-29 | 2020-04-07 | 北京国双科技有限公司 | 文本相似度的确定方法及装置 |
CN110969172A (zh) * | 2018-09-28 | 2020-04-07 | 武汉斗鱼网络科技有限公司 | 一种文本的分类方法以及相关设备 |
CN111459959A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111723199A (zh) * | 2019-03-19 | 2020-09-29 | 北京沃东天骏信息技术有限公司 | 文本的分类方法、装置和计算机可读存储介质 |
CN111753079A (zh) * | 2019-03-11 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 文本分类方法、装置、电子设备以及计算机可读存储介质 |
CN111859979A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
CN112052333A (zh) * | 2020-08-20 | 2020-12-08 | 深圳市欢太科技有限公司 | 文本分类方法及装置、存储介质和电子设备 |
CN112069058A (zh) * | 2020-08-11 | 2020-12-11 | 国网河北省电力有限公司保定供电分公司 | 一种基于专家库和自学习技术的缺陷处置方法 |
CN112287669A (zh) * | 2020-12-28 | 2021-01-29 | 深圳追一科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN112417153A (zh) * | 2020-11-20 | 2021-02-26 | 虎博网络技术(上海)有限公司 | 文本分类方法、装置、终端设备和可读存储介质 |
CN112632971A (zh) * | 2020-12-18 | 2021-04-09 | 上海明略人工智能(集团)有限公司 | 一种用于实体匹配的词向量训练方法与*** |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN113268597A (zh) * | 2021-05-25 | 2021-08-17 | 平安科技(深圳)有限公司 | 文本分类方法、装置、设备及存储介质 |
CN113486176A (zh) * | 2021-07-08 | 2021-10-08 | 桂林电子科技大学 | 一种基于二次特征放大的新闻分类方法 |
CN113535965A (zh) * | 2021-09-16 | 2021-10-22 | 杭州费尔斯通科技有限公司 | 一种文本大规模分类的方法和*** |
CN113920373A (zh) * | 2021-10-29 | 2022-01-11 | 平安银行股份有限公司 | 一种对象分类方法、装置、终端设备及存储介质 |
CN111177373B (zh) * | 2019-12-12 | 2023-07-14 | 北京明略软件***有限公司 | 一种获取训练数据的方法和装置、模型训练方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160110343A1 (en) * | 2014-10-21 | 2016-04-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107122349A (zh) * | 2017-04-24 | 2017-09-01 | 无锡中科富农物联科技有限公司 | 一种基于word2vec‑LDA模型的文本主题词提取方法 |
-
2017
- 2017-09-14 CN CN201710828232.XA patent/CN107609121B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160110343A1 (en) * | 2014-10-21 | 2016-04-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107122349A (zh) * | 2017-04-24 | 2017-09-01 | 无锡中科富农物联科技有限公司 | 一种基于word2vec‑LDA模型的文本主题词提取方法 |
Non-Patent Citations (1)
Title |
---|
郭茂: ""基于类中心向量的文本分类模型研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520030A (zh) * | 2018-03-27 | 2018-09-11 | 深圳中兴网信科技有限公司 | 文本分类方法、文本分类***及计算机装置 |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
CN108829661B (zh) * | 2018-05-09 | 2020-03-27 | 成都信息工程大学 | 一种基于模糊匹配的新闻主体名称提取方法 |
CN108829661A (zh) * | 2018-05-09 | 2018-11-16 | 成都信息工程大学 | 一种基于模糊匹配的新闻主体名称提取方法 |
CN108932228A (zh) * | 2018-06-06 | 2018-12-04 | 武汉斗鱼网络科技有限公司 | 直播行业新闻与分区匹配方法、装置、服务器及存储介质 |
CN108932228B (zh) * | 2018-06-06 | 2023-08-08 | 广东南方报业移动媒体有限公司 | 直播行业新闻与分区匹配方法、装置、服务器及存储介质 |
CN108846097A (zh) * | 2018-06-15 | 2018-11-20 | 北京搜狐新媒体信息技术有限公司 | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 |
CN108846120A (zh) * | 2018-06-27 | 2018-11-20 | 合肥工业大学 | 用于对文本集进行分类的方法、***及存储介质 |
CN108804622A (zh) * | 2018-08-20 | 2018-11-13 | 天津探数科技有限公司 | 一种考虑语义背景的短文本分类器构造方法 |
CN109145116A (zh) * | 2018-09-03 | 2019-01-04 | 武汉斗鱼网络科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN109284379A (zh) * | 2018-09-21 | 2019-01-29 | 福州大学 | 基于双向量模型的自适应微博话题追踪方法 |
CN109284379B (zh) * | 2018-09-21 | 2022-01-04 | 福州大学 | 基于双向量模型的自适应微博话题追踪方法 |
CN110969172A (zh) * | 2018-09-28 | 2020-04-07 | 武汉斗鱼网络科技有限公司 | 一种文本的分类方法以及相关设备 |
CN110969023B (zh) * | 2018-09-29 | 2023-04-18 | 北京国双科技有限公司 | 文本相似度的确定方法及装置 |
CN110969023A (zh) * | 2018-09-29 | 2020-04-07 | 北京国双科技有限公司 | 文本相似度的确定方法及装置 |
CN109446324B (zh) * | 2018-10-16 | 2020-12-15 | 北京字节跳动网络技术有限公司 | 样本数据的处理方法、装置、存储介质及电子设备 |
CN109446324A (zh) * | 2018-10-16 | 2019-03-08 | 北京字节跳动网络技术有限公司 | 样本数据的处理方法、装置、存储介质及电子设备 |
CN109522408A (zh) * | 2018-10-30 | 2019-03-26 | 广东原昇信息科技有限公司 | 信息流素材创意文本的分类方法 |
CN109684444A (zh) * | 2018-11-02 | 2019-04-26 | 厦门快商通信息技术有限公司 | 一种智能客服方法及*** |
CN109685109A (zh) * | 2018-11-26 | 2019-04-26 | 浙江工业大学 | 一种基于孪生神经网络的基站标号轨迹分类方法 |
CN110046340A (zh) * | 2018-12-28 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 文本分类模型的训练方法和装置 |
CN109766410A (zh) * | 2019-01-07 | 2019-05-17 | 东华大学 | 一种基于fastText算法的新闻文本自动分类*** |
CN109815400A (zh) * | 2019-01-23 | 2019-05-28 | 四川易诚智讯科技有限公司 | 基于长文本的人物兴趣提取方法 |
CN109947939A (zh) * | 2019-01-30 | 2019-06-28 | 中兴飞流信息科技有限公司 | 文本分类方法、电子设备和计算机可读存储介质 |
CN111753079A (zh) * | 2019-03-11 | 2020-10-09 | 阿里巴巴集团控股有限公司 | 文本分类方法、装置、电子设备以及计算机可读存储介质 |
CN111723199A (zh) * | 2019-03-19 | 2020-09-29 | 北京沃东天骏信息技术有限公司 | 文本的分类方法、装置和计算机可读存储介质 |
CN110569351A (zh) * | 2019-09-02 | 2019-12-13 | 北京猎云万罗科技有限公司 | 一种约束性用户偏好的网络媒体新闻分类方法 |
CN110781271A (zh) * | 2019-09-02 | 2020-02-11 | 国网天津市电力公司电力科学研究院 | 一种基于层次注意力机制的半监督网络表示学习模型 |
CN110674239B (zh) * | 2019-09-27 | 2022-11-04 | 中国航空无线电电子研究所 | 一种地理要素自动分类方法及装置 |
CN110674239A (zh) * | 2019-09-27 | 2020-01-10 | 中国航空无线电电子研究所 | 一种地理要素自动分类方法及装置 |
CN110704626B (zh) * | 2019-09-30 | 2022-07-22 | 北京邮电大学 | 一种用于短文本的分类方法及装置 |
CN110704626A (zh) * | 2019-09-30 | 2020-01-17 | 北京邮电大学 | 一种用于短文本的分类方法及装置 |
CN110795564A (zh) * | 2019-11-01 | 2020-02-14 | 南京稷图数据科技有限公司 | 一种缺少负例的文本分类方法 |
CN110795564B (zh) * | 2019-11-01 | 2022-02-22 | 南京稷图数据科技有限公司 | 一种缺少负例的文本分类方法 |
CN111177373B (zh) * | 2019-12-12 | 2023-07-14 | 北京明略软件***有限公司 | 一种获取训练数据的方法和装置、模型训练方法和装置 |
CN111459959A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111859979A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
CN112069058A (zh) * | 2020-08-11 | 2020-12-11 | 国网河北省电力有限公司保定供电分公司 | 一种基于专家库和自学习技术的缺陷处置方法 |
CN112052333B (zh) * | 2020-08-20 | 2024-04-30 | 深圳市欢太科技有限公司 | 文本分类方法及装置、存储介质和电子设备 |
CN112052333A (zh) * | 2020-08-20 | 2020-12-08 | 深圳市欢太科技有限公司 | 文本分类方法及装置、存储介质和电子设备 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN112417153B (zh) * | 2020-11-20 | 2023-07-04 | 虎博网络技术(上海)有限公司 | 文本分类方法、装置、终端设备和可读存储介质 |
CN112417153A (zh) * | 2020-11-20 | 2021-02-26 | 虎博网络技术(上海)有限公司 | 文本分类方法、装置、终端设备和可读存储介质 |
CN112632971B (zh) * | 2020-12-18 | 2023-08-25 | 上海明略人工智能(集团)有限公司 | 一种用于实体匹配的词向量训练方法与*** |
CN112632971A (zh) * | 2020-12-18 | 2021-04-09 | 上海明略人工智能(集团)有限公司 | 一种用于实体匹配的词向量训练方法与*** |
CN112287669A (zh) * | 2020-12-28 | 2021-01-29 | 深圳追一科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN113268597B (zh) * | 2021-05-25 | 2023-06-27 | 平安科技(深圳)有限公司 | 文本分类方法、装置、设备及存储介质 |
CN113268597A (zh) * | 2021-05-25 | 2021-08-17 | 平安科技(深圳)有限公司 | 文本分类方法、装置、设备及存储介质 |
CN113486176A (zh) * | 2021-07-08 | 2021-10-08 | 桂林电子科技大学 | 一种基于二次特征放大的新闻分类方法 |
CN113255340A (zh) * | 2021-07-09 | 2021-08-13 | 北京邮电大学 | 面向科技需求的主题提取方法、装置和存储介质 |
CN113535965A (zh) * | 2021-09-16 | 2021-10-22 | 杭州费尔斯通科技有限公司 | 一种文本大规模分类的方法和*** |
CN113920373A (zh) * | 2021-10-29 | 2022-01-11 | 平安银行股份有限公司 | 一种对象分类方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107609121B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609121A (zh) | 基于LDA和word2vec算法的新闻文本分类方法 | |
CN109446404B (zh) | 一种网络舆情的情感极性分析方法和装置 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN103631859B (zh) | 一种面向科技项目的评审专家智能推荐方法 | |
CN102411563B (zh) | 一种识别目标词的方法、装置及*** | |
CN107871144A (zh) | ***商品名分类方法、***、设备及计算机可读存储介质 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN109670041A (zh) | 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法 | |
CN104778209A (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN107180023A (zh) | 一种文本分类方法及*** | |
CN104298665A (zh) | 一种中文文本中评价对象的识别方法及装置 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
CN103034626A (zh) | 情感分析***及方法 | |
CN103324628A (zh) | 一种针对发布文本的行业分类方法和*** | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN108304509B (zh) | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 | |
CN106570170A (zh) | 基于深度循环神经网络的文本分类和命名实体识别一体化方法及*** | |
CN101540017A (zh) | 基于字节级n元文法的特征提取方法及垃圾邮件过滤器 | |
CN109815400A (zh) | 基于长文本的人物兴趣提取方法 | |
CN104142960A (zh) | 互联网数据分析*** | |
CN107357895A (zh) | 一种基于词袋模型的文本表示的处理方法 | |
CN105912525A (zh) | 基于主题特征的半监督学习情感分类方法 | |
CN106528768A (zh) | 一种咨询热点分析方法及装置 | |
CN105224955A (zh) | 基于微博大数据获取网络服务状态的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210223 Address after: No. 601, Huangpu Avenue West, Shenzhen, Guangdong 510632 Applicant after: Jinan University Address before: 518057 room 503, block C, building 5, Shenzhen Bay ecological science and Technology Park, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant before: SHENZHEN MATENG TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
CB02 | Change of applicant information |
Address after: 510632 No. 601, Whampoa Avenue, Guangzhou, Guangdong Applicant after: Jinan University Address before: No. 601, Huangpu Avenue West, Shenzhen, Guangdong 510632 Applicant before: Jinan University |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210330 Termination date: 20210914 |
|
CF01 | Termination of patent right due to non-payment of annual fee |