CN104778209A - 一种针对千万级规模新闻评论的观点挖掘方法 - Google Patents
一种针对千万级规模新闻评论的观点挖掘方法 Download PDFInfo
- Publication number
- CN104778209A CN104778209A CN201510111752.XA CN201510111752A CN104778209A CN 104778209 A CN104778209 A CN 104778209A CN 201510111752 A CN201510111752 A CN 201510111752A CN 104778209 A CN104778209 A CN 104778209A
- Authority
- CN
- China
- Prior art keywords
- news analysis
- word
- news
- text
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种针对千万级规模新闻评论的观点挖掘方法。具体步骤如下:1)、统计千万级规模新闻评论的数量;2)、判断该数量是否大于或等于阈值K,如果是不予处理,否则进入步骤三;3)、利用中文分词工具,对数量小于阈值K的新闻标题和评论进行分词,进行词性标注;4)、根据分词结果对新闻评论聚类,得到类别标签;5)、对新闻评论进行关键词对提取;6)、统计新闻评论的比例和混杂度;7)、根据关键词对筛选并提取代表性文本。本发明利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。
Description
技术领域
本发明属于数据挖掘领域,涉及一种观点挖掘技术,具体的说是一种针对千万级规模新闻评论的观点挖掘方法。
背景技术
随着网民规模的不断增大,社会化媒体也得到迅速地发展,以论坛、微博、微信为代表逐渐渗透到全民生活和工作的每一个层面,对人们的行为模式、心理模式产生了极为深远的影响。同时社会化媒体每天都会产生大量的短文本,含有大量的表达事件方面或用户观点的信息。通过分析该信息,人们一方面可以了解某一事件或话题的信息扩散情况,另一方面通过观察其他人对某一事件或话题的看法,了解到其观点偏好和行为特征,这对社会化媒体舆情监控、社会化媒体营销等方面有着重要的作用。如何从大量的社会化媒体短文本中提取出能表达事件方面或用户观点的关键词成为当前的研究重点。
新闻评论是社会各界人士对社会化主流媒体所发布的新闻的看法,这些评论既能反映人们对某一新闻的观点,又能反应人们对某一新闻关注的方面。但是,由于新闻评论具有数量大,长度短,用词口语化,汉语语言的多样性等特点,对新闻评论进行观点挖掘具有一定的难度。
发明内容
本发明的目的是:在信息***式增长的情况下,针对如何高效地从某一话题的大量新闻评论文本中提取出事件方面或用户观点的问题,提出了一种针对千万级规模新闻评论的观点挖掘方法。
该方法具体步骤如下:
步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量小于阈值K的新闻评论进入步骤三处理;
阈值K计算如下:
其中,max_count表示所有新闻评论的最大评论数量;
步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词,并进行词性标注;
经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名词、形容词和动词;
步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类后每类新闻评论的类别标签;
步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论进行关键词对提取;
步骤501、对每一类新闻评论进行词频统计,选取词频排名前M个词语作为候选的高频词;
其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚类处理后含有类别标签每一类新闻评论;M为整数。
步骤502、根据候选高频词在新闻评论中出现的位置,选取与候选高频词紧邻的前后词分别构成前后两个词对;
步骤503、统计每一个词对在新闻评论中出现的次数,计算每一个词对的权重W:
W=Fg×Nc
Fg为核心词权重;Nc表示词对共现权重。
步骤504、根据权重对词对进行降序排序,选取前N个词对作为该类新闻评论中的关键词对;其中,N为整数。
步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论,统计每一类新闻评论的比例和混杂度;
新闻评论的混杂度,针对聚类后的含有类别标签的各类新闻评论,统计各类新闻评论中包含的新闻标题个数;
步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。
本发明的优点在于:
(1)、一种针对千万级规模新闻评论的观点挖掘方法,适用于千万级规模新闻评论的方面分析。
(2)、一种针对千万级规模新闻评论的观点挖掘方法,具有高效性和易用性,在舆情监控、观点分析和信息传播扩散等领域有重要的应用价值。
(3)、一种针对千万级规模新闻评论的观点挖掘方法,利用中文分词工具,考虑汉语语言的用法和搭配关系,结合新闻标题的作用,处理千万级规模的新闻评论,具有高效性、鲁棒性和易用性等优点。
附图说明
图1是为本发明一种针对千万级规模新闻评论的观点挖掘方法流程图。
图2为本发明关键词对提取的具体流程流程图。
具体实施方式
下面将结合附图和实施例对本发明作进一步的详细说明。
一种针对千万级规模新闻评论的观点挖掘方法,基于数据挖掘、自然语言处理等技术,利用中文分词、聚类等方法,对千万级规模的新闻评论进行分析,从中获取能表达事件方面或用户观点的重要信息。
首先,根据某一事件或话题下新闻标题统计每一个标题下的评论数量,将评论数量超过一定值的新闻评论按标题组成一类;再对剩下的新闻标题和评论内容进行中文分词,根据分词的结果进行聚类;然后对每一类新闻评论提取该类的关键词对,并计算每一类新闻评论的比例和混杂度;最后根据每一类的关键词对,从该类的新闻评论中提取出该类下能代表事件方面或用户观点的文本。
具体实施步骤如下:
步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
新闻标题能简明扼要地概括新闻的内容,根据新闻标题对新闻评论进行分类,每一个新闻标题是一类,从而进一步根据新闻标题对新闻评论进行数量统计,统计每一类新闻标题下的千万级规模新闻评论的数量。
比如,关于“APEC”话题下有41067条新闻评论,含有1056个不同的新闻标题,则分别统计1056类标题下的新闻评论的数量。
步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量小于阈值K的新闻评论进入步骤三处理;
阈值K计算如下:
其中,max_count表示所有新闻评论中,新闻标题含有的最大评论数量。
步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词,并进行词性标注;
对步骤二中评论数量小于阈值K的新闻评论以及对应的新闻标题进行分词和词性标注。分词的目的是为了将新闻评论转化成一个个词语。根据汉语语言的特点,能反映事件方面或用户观点的词语都是实词。因此,在分词的过程中需要对每一个词语进行词性标注对分词之后的结果进行词性筛选和词频筛选两种处理。
词性筛选是指将分词结果中的名词、形容词、动词保留,将其他词性的词语去掉。对分词进行词性筛选能提高新闻评论的分类精度。
词频筛选是指将分词结果中的低频词和高频词去掉。
低频词很可能是只在少数新闻评论中出现的,不具有代表性。
高频词有两种:一种是大部分新闻评论都出现的词语;另一类是错误分词以后产生的分词碎片。
高频词在一定程度上反映了:新闻评论数据集中人们讨论的较多的方面和问题。
低频词和高频词对含有观点信息的提取没有多大的参考意义,去掉之后能提高处理数据的效率。
评论数量小于阈值K的新闻评论经过分词后得到只含有名词、形容词和动词的评论文本;
步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类后每类新闻评论的类别标签;
将步骤三分词得到的名词、形容词和动词作为新闻评论聚类的属性,构建特征矩阵,对步骤二评论数量小于阈值K的各类新闻标题对应的新闻评论进行K-means聚类。
聚类类别的个数为5到20,优选10个。
K-means聚类算法,是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。实际上是用距离函数来刻画样本点到聚类中心的聚类,根据距离将样本点划分到对应的类别中。
优选距离函数是余弦相似度,余弦相似度是信息检索中常用的相似度的计算方式,假如有两条新闻评论i和j,有n个词语作为聚类的特征属性,文本i表示成向量Di=(wi1,wi2,…,win),文本j表示成Dj=(wj1,wj2,…,wjn),余弦相似度Cos(Di,Dj)计算公式为:
其中,wik指第k个特征词在文本i中出现的次数,wjk指第k个特征词在文本j出现的次数。
利用余弦相似度Cos(Di,Dj)计算公式,得到一个文本距离聚类中心的距离远近程度,根据该距离远近程度将该文本归到最接近的聚类中心的类别中,得到类别标签。
步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论进行关键词对提取;
本步骤是针对评论数量大于等于阈值K的各类新闻评论以及聚类后含有类别标签的各类新闻评论进行关键词对的提取。
对关键词对的提取是在高频词的基础上进行的,具体步骤如下:
步骤501、对每一类新闻评论进行词频统计,选取词频排名前M个词语作为候选的高频词;
本发明实施例中M取500。
其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚类处理后含有类别标签每一类新闻评论。
步骤502、根据候选高频词在新闻评论中出现的位置,选取与候选高频词紧邻的前后词分别构成前后两个词对;
选取与候选高频词紧邻的前一个词语,构成高频词和前词语的词对;同时选取与候选高频词紧邻的后一个词语,构成高频词和后词语的词对;根据高频词和紧邻词构成了词网。
例如,文本中出现A、B、C三个词语,其中B表示高频词,基于高频词B所构建的词对是“AB”和“BC”。
步骤503、统计每一个词对在新闻评论中出现的次数,计算每一个词对的权重W:
W=Fg×Nc
其中,词对的权重W即词网中的边的权重,Fg为核心词权重;指词对中高频词的权重,高频词出现的次数越多,越能形成一条边,说明核心词的权重越高。核心词权重用高频词的频率来表示。
Nc表示词对共现权重,指两个词同时紧挨着出现的权重,用两个词共现的次数来表示。
步骤504、根据权重对词对进行降序排序,选取前N个词对作为该类新闻评论中的关键词对;
本发明实施例中N取30。
步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论,统计每一类新闻评论的比例和混杂度;
根据步骤二选出的评论数量大于等于阈值K的每一类新闻评论以及步骤四聚类之后得到的含有类别标签每一类新闻评论,统计每一类新闻评论的数量,计算新闻评论的比例。
新闻评论的混杂度,针对步骤四聚类之后得到的含有类别标签各类新闻评论,表示各类新闻评论中有多少种标题不同的新闻,更好地反映每一类新闻评论的特征。每一类新闻评论的混杂度的指标用标准化之后的熵进行衡量;
根据熵的基本理论,计算每一类新闻评论的熵。由于每一类新闻评论含有的标题数量不一样,对每一类新闻评论的熵Sn进行标准化:
其中,S表示每一类新闻评论中含有的标题数量。
步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。
步骤701、计算每一类新闻评论中的代表性文本;
根据步骤五提取出的关键词对,遍历每一类新闻评论,计算该类关键词对在每条文本中出现的频数Fw,并乘以关键词对的权重W,将所有关键词对在该文本中出现的频数与权重的乘积之和作为这条文本的权重Wtext。
Wtext=Fw×W
根据文本权重对文本进行降序排序,选取前J条文本作为该类新闻评论的代表性文本,J依据用户需求而定;本发明中J取30。
步骤702、对代表性文本进行去重;
对新闻评论中选择的重复的代表性文本进行去重操作,以尽量多地展示该类别下权重比较高的不同内容的代表性文本。
本发明从内容角度采用Levenshtein距离来实现代表性文本的去重。Levenshtein距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。Levenshtein距离的编辑操作包括将一个字符替换成另一个字符,***一个字符和删除一个字符。在对代表性文本按权重排序的同时,计算文本两两之间的Levenshtein距离,只保留Levenshtein距离相近的一条文本,将其余文本去掉。
本发明鉴于中文短文本的稀疏性、实时性等特性,研究千万级规模新闻评论的观点挖掘方法,通过结合新闻标题的作用和新闻评论的用词特征,对千万级规模的新闻评论进行聚类,根据聚类结果,在聚类的基础上,考虑汉语语言的用法和搭配关系,提取每一类新闻评论的关键词对,并根据关键词对来筛选能表达事件方面或用户观点的这一类新闻评论中的代表性文本。
Claims (5)
1.一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,对于某个话题,找到关于该话题的所有新闻标题,然后进行如下步骤:
步骤一:根据新闻标题统计各新闻标题对应的千万级规模新闻评论的数量;初始根据新闻标题为新闻评论进行分类,每个新闻标题下的新闻评论为一类;
步骤二:将新闻评论数量大于或等于阈值K的各类新闻评论不予处理,将新闻评论数量小于阈值K的新闻评论进入步骤三处理;
阈值K为:
其中,max_count表示新闻标题对应的最大评论数量;
步骤三:利用中文分词工具,对数量小于阈值K的每一类新闻标题以及对应的新闻评论进行分词,并进行词性标注;
经过分词后,将评论数量小于阈值K的新闻评论以及对应该类的新闻标题分成名词、形容词和动词;
步骤四:根据分词结果对评论数量小于阈值K的所有新闻评论聚类,并得到聚类后每类新闻评论的类别标签;
步骤五:对评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论进行关键词对提取;
步骤六:根据评论数量大于等于阈值K的各类新闻评论以及含有类别标签的各类新闻评论,统计每一类新闻评论的比例和混杂度;
新闻评论的混杂度,针对聚类后的含有类别标签的各类新闻评论,统计各类新闻评论中包含的新闻标题个数;
步骤七:根据关键词对,筛选并提取每一类新闻评论中的代表性文本。
2.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,步骤三中所述的分词,对每一个词语进行词性标注,对分词之后的结果进行词性筛选和词频筛选两种处理;
词性筛选是指将分词结果中的名词、形容词和动词保留,将其他词性的词语去掉;
词频筛选是指将分词结果中的低频词和高频词去掉。
3.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,步骤四中所述的聚类,采用K-means聚类算法,优选距离函数是余弦相似度,余弦相似度Cos(Di,Dj)计算公式为:
其中,wik指第k个特征词在文本i中出现的次数,wjk指第k个特征词在文本j出现的次数;i和j为两条新闻评论,有n个词语作为聚类的特征属性,文本i表示成向量Di=(wi1,wi2,…,win),文本j表示成Dj=(wj1,wj2,…,wjn)。
4.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,所述的步骤五具体包括:
步骤501、对每一类新闻评论进行词频统计,选取词频排名前M个词语作为候选的高频词;
其中每一类新闻评论是指步骤二评论数量大于等于阈值K的每一类新闻评论或步骤四聚类处理后含有类别标签每一类新闻评论;M为整数;
步骤502、根据候选高频词在新闻评论中出现的位置,选取与候选高频词紧邻的前后词分别构成前后两个词对;
步骤503、统计每一个词对在新闻评论中出现的次数,计算每一个词对的权重W:
W=Fg×Nc
Fg为核心词权重;Nc表示词对共现权重;
步骤504、根据权重对词对进行降序排序,选取前N个词对作为该类新闻评论中的关键词对;其中,N为正整数。
5.如权利要求1所述的一种针对千万级规模新闻评论的观点挖掘方法,其特征在于,所述的步骤七具体为:
步骤701、计算每一类新闻评论中的代表性文本;
计算关键词对在每条文本中出现的频数Fw,并乘以关键词对的权重W,频数与权重的乘积作为该条文本的权重Wtext:
Wtext=Fw×W
根据文本权重对文本进行降序排序,选取前J条文本作为该类新闻评论的代表性文本,J为正整数,由用户设定;
步骤702、对代表性文本进行去重;
采用Levenshtein距离对新闻评论中重复的代表性文本去重,在对代表性文本按权重排序的同时,计算文本两两之间的Levenshtein距离,保留Levenshtein距离相近的一条文本,实现去重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510111752.XA CN104778209B (zh) | 2015-03-13 | 2015-03-13 | 一种针对千万级规模新闻评论的观点挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510111752.XA CN104778209B (zh) | 2015-03-13 | 2015-03-13 | 一种针对千万级规模新闻评论的观点挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104778209A true CN104778209A (zh) | 2015-07-15 |
CN104778209B CN104778209B (zh) | 2018-04-27 |
Family
ID=53619673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510111752.XA Active CN104778209B (zh) | 2015-03-13 | 2015-03-13 | 一种针对千万级规模新闻评论的观点挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104778209B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092337A1 (zh) * | 2015-12-01 | 2017-06-08 | 乐视控股(北京)有限公司 | 评论标签提取方法和装置 |
CN106919619A (zh) * | 2015-12-28 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 一种商品聚类方法、装置及电子设备 |
CN107145568A (zh) * | 2017-05-04 | 2017-09-08 | 成都华栖云科技有限公司 | 一种快速的新闻事件聚类***及方法 |
CN107679069A (zh) * | 2017-08-18 | 2018-02-09 | 国家计算机网络与信息安全管理中心 | 基于新闻数据及相关评论信息的一种特定群体发现方法 |
CN108062304A (zh) * | 2017-12-19 | 2018-05-22 | 北京工业大学 | 一种基于机器学习的商品评论数据的情感分析方法 |
CN108491463A (zh) * | 2018-03-05 | 2018-09-04 | 科大讯飞股份有限公司 | 标签确定方法及装置 |
CN108536676A (zh) * | 2018-03-28 | 2018-09-14 | 广州华多网络科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN108595660A (zh) * | 2018-04-28 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 多媒体资源的标签信息生成方法、装置、存储介质及设备 |
WO2018176764A1 (zh) * | 2017-03-30 | 2018-10-04 | 联想(北京)有限公司 | 数据处理方法、装置及电子设备 |
CN108628828A (zh) * | 2018-04-18 | 2018-10-09 | 国家计算机网络与信息安全管理中心 | 一种基于自注意力的观点及其持有者的联合抽取方法 |
CN109190104A (zh) * | 2018-06-15 | 2019-01-11 | 口口相传(北京)网络技术有限公司 | 标签短语处理和相似度计算方法及装置,电子和存储设备 |
CN110413863A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达***工程股份有限公司 | 一种基于深度学习的舆情新闻去重与推送方法 |
CN110738046A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 观点抽取方法及装置 |
CN110837555A (zh) * | 2019-11-11 | 2020-02-25 | 苏州朗动网络科技有限公司 | 海量文本去重筛选的方法、设备和存储介质 |
CN111046282A (zh) * | 2019-12-06 | 2020-04-21 | 贝壳技术有限公司 | 文本标签设置方法、装置、介质以及电子设备 |
CN111540361A (zh) * | 2020-03-26 | 2020-08-14 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和介质 |
CN111626055A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 文本处理方法及装置、计算机存储介质、电子设备 |
CN111639172A (zh) * | 2020-06-01 | 2020-09-08 | 复旦大学 | 在线评论筛选装置 |
CN112148947A (zh) * | 2020-09-28 | 2020-12-29 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及*** |
CN112989825A (zh) * | 2021-05-13 | 2021-06-18 | 武大吉奥信息技术有限公司 | 社区事务汇聚和任务派发方法、装置、设备及存储介质 |
CN115062586A (zh) * | 2022-08-08 | 2022-09-16 | 山东展望信息科技股份有限公司 | 一种基于大数据和人工智能的热点话题处理方法 |
CN115795040A (zh) * | 2023-02-10 | 2023-03-14 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及*** |
CN116578673A (zh) * | 2023-07-03 | 2023-08-11 | 北京凌霄文苑教育科技有限公司 | 数字经济领域基于语言逻辑学的文本特征检索方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和*** |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
WO2013024338A1 (en) * | 2011-08-15 | 2013-02-21 | Equal Media Limited | System and method for managing opinion networks with interactive opinion flows |
CN103744837A (zh) * | 2014-01-23 | 2014-04-23 | 北京优捷信达信息科技有限公司 | 基于关键词抽取的多文本对照方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
-
2015
- 2015-03-13 CN CN201510111752.XA patent/CN104778209B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727487A (zh) * | 2009-12-04 | 2010-06-09 | 中国人民解放军信息工程大学 | 一种面向网络评论的观点主题识别方法和*** |
WO2013024338A1 (en) * | 2011-08-15 | 2013-02-21 | Equal Media Limited | System and method for managing opinion networks with interactive opinion flows |
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN103744837A (zh) * | 2014-01-23 | 2014-04-23 | 北京优捷信达信息科技有限公司 | 基于关键词抽取的多文本对照方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN104281653A (zh) * | 2014-09-16 | 2015-01-14 | 南京弘数信息科技有限公司 | 一种针对千万级规模微博文本的观点挖掘方法 |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017092337A1 (zh) * | 2015-12-01 | 2017-06-08 | 乐视控股(北京)有限公司 | 评论标签提取方法和装置 |
CN106919619A (zh) * | 2015-12-28 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 一种商品聚类方法、装置及电子设备 |
CN106919619B (zh) * | 2015-12-28 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 一种商品聚类方法、装置及电子设备 |
US11468108B2 (en) | 2017-03-30 | 2022-10-11 | Lenovo (Beijing) Limited | Data processing method and apparatus, and electronic device thereof |
WO2018176764A1 (zh) * | 2017-03-30 | 2018-10-04 | 联想(北京)有限公司 | 数据处理方法、装置及电子设备 |
CN107145568A (zh) * | 2017-05-04 | 2017-09-08 | 成都华栖云科技有限公司 | 一种快速的新闻事件聚类***及方法 |
CN107679069A (zh) * | 2017-08-18 | 2018-02-09 | 国家计算机网络与信息安全管理中心 | 基于新闻数据及相关评论信息的一种特定群体发现方法 |
CN108062304A (zh) * | 2017-12-19 | 2018-05-22 | 北京工业大学 | 一种基于机器学习的商品评论数据的情感分析方法 |
CN108491463A (zh) * | 2018-03-05 | 2018-09-04 | 科大讯飞股份有限公司 | 标签确定方法及装置 |
CN108536676B (zh) * | 2018-03-28 | 2020-10-13 | 广州华多网络科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN108536676A (zh) * | 2018-03-28 | 2018-09-14 | 广州华多网络科技有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN108628828B (zh) * | 2018-04-18 | 2022-04-01 | 国家计算机网络与信息安全管理中心 | 一种基于自注意力的观点及其持有者的联合抽取方法 |
CN108628828A (zh) * | 2018-04-18 | 2018-10-09 | 国家计算机网络与信息安全管理中心 | 一种基于自注意力的观点及其持有者的联合抽取方法 |
CN108595660A (zh) * | 2018-04-28 | 2018-09-28 | 腾讯科技(深圳)有限公司 | 多媒体资源的标签信息生成方法、装置、存储介质及设备 |
CN109190104A (zh) * | 2018-06-15 | 2019-01-11 | 口口相传(北京)网络技术有限公司 | 标签短语处理和相似度计算方法及装置,电子和存储设备 |
CN110738046A (zh) * | 2018-07-03 | 2020-01-31 | 百度在线网络技术(北京)有限公司 | 观点抽取方法及装置 |
CN110738046B (zh) * | 2018-07-03 | 2023-06-06 | 百度在线网络技术(北京)有限公司 | 观点抽取方法及装置 |
CN110413863A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达***工程股份有限公司 | 一种基于深度学习的舆情新闻去重与推送方法 |
CN110837555A (zh) * | 2019-11-11 | 2020-02-25 | 苏州朗动网络科技有限公司 | 海量文本去重筛选的方法、设备和存储介质 |
CN111046282A (zh) * | 2019-12-06 | 2020-04-21 | 贝壳技术有限公司 | 文本标签设置方法、装置、介质以及电子设备 |
CN111046282B (zh) * | 2019-12-06 | 2021-04-16 | 北京房江湖科技有限公司 | 文本标签设置方法、装置、介质以及电子设备 |
CN111540361A (zh) * | 2020-03-26 | 2020-08-14 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和介质 |
CN111540361B (zh) * | 2020-03-26 | 2023-08-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和介质 |
CN111626055A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 文本处理方法及装置、计算机存储介质、电子设备 |
CN111639172A (zh) * | 2020-06-01 | 2020-09-08 | 复旦大学 | 在线评论筛选装置 |
CN112148947B (zh) * | 2020-09-28 | 2024-03-22 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及*** |
CN112148947A (zh) * | 2020-09-28 | 2020-12-29 | 微梦创科网络科技(中国)有限公司 | 一种批量挖掘刷评用户的方法及*** |
CN112989825B (zh) * | 2021-05-13 | 2021-08-03 | 武大吉奥信息技术有限公司 | 社区事务汇聚和任务派发方法、装置、设备及存储介质 |
CN112989825A (zh) * | 2021-05-13 | 2021-06-18 | 武大吉奥信息技术有限公司 | 社区事务汇聚和任务派发方法、装置、设备及存储介质 |
CN115062586A (zh) * | 2022-08-08 | 2022-09-16 | 山东展望信息科技股份有限公司 | 一种基于大数据和人工智能的热点话题处理方法 |
CN115795040A (zh) * | 2023-02-10 | 2023-03-14 | 成都桉尼维尔信息科技有限公司 | 一种用户画像分析方法及*** |
CN116578673A (zh) * | 2023-07-03 | 2023-08-11 | 北京凌霄文苑教育科技有限公司 | 数字经济领域基于语言逻辑学的文本特征检索方法 |
CN116578673B (zh) * | 2023-07-03 | 2024-02-09 | 北京凌霄文苑教育科技有限公司 | 数字经济领域基于语言逻辑学的文本特征检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104778209B (zh) | 2018-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104778209A (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN104281653A (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN104102626B (zh) | 一种用于短文本语义相似度计算的方法 | |
Rajagopal et al. | A graph-based approach to commonsense concept extraction and semantic similarity detection | |
CN103678670B (zh) | 一种微博热词与热点话题挖掘***及方法 | |
CN108052593A (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN107193801A (zh) | 一种基于深度信念网络的短文本特征优化及情感分析方法 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
CN101751455B (zh) | 采用人工智能技术自动产生标题的方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN103942340A (zh) | 一种基于文本挖掘的微博用户兴趣识别方法 | |
CN103559233A (zh) | 微博中网络新词抽取方法和微博情感分析方法及*** | |
CN101520802A (zh) | 一种问答对的质量评价方法和*** | |
CN101782898A (zh) | 一种情感词倾向性的分析方法 | |
CN103699525A (zh) | 一种基于文本多维度特征自动生成摘要的方法和装置 | |
CN102096680A (zh) | 信息有效性分析的方法和装置 | |
CN104484343A (zh) | 一种对微博进行主题发现与追踪的方法 | |
CN102298638A (zh) | 使用网页标签聚类提取新闻网页内容的方法和*** | |
CN103473380B (zh) | 一种计算机文本情感分类方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类***及方法 | |
CN106547875A (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |