CN109635185A - 一种舆情数据推送方法、装置、存储介质和终端设备 - Google Patents
一种舆情数据推送方法、装置、存储介质和终端设备 Download PDFInfo
- Publication number
- CN109635185A CN109635185A CN201811340773.9A CN201811340773A CN109635185A CN 109635185 A CN109635185 A CN 109635185A CN 201811340773 A CN201811340773 A CN 201811340773A CN 109635185 A CN109635185 A CN 109635185A
- Authority
- CN
- China
- Prior art keywords
- public sentiment
- data
- sentiment data
- similarity
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 35
- 230000006399 behavior Effects 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 4
- 230000003542 behavioural effect Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 2
- 230000018199 S phase Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种舆情数据推送方法,包括:获取指定用户的网络行为数据,并从网络行为数据中提取与指定用户相关的第一舆情数据;确定第一舆情数据对应的第一舆情类型;抓取与第一舆情类型相关的第二舆情数据,并确定第二舆情数据与第一舆情数据的第一舆情相似度;获取第二舆情数据中第一舆情相似度大于或等于第一预设相似度阈值的第三舆情数据;确定第三舆情数据的第二舆情类型,并确定第二舆情类型与第一舆情类型的第二舆情相似度;将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至指定用户,以根据用户的行为数据自动进行舆情数据的推送。本发明还提供一种舆情数据推送装置、计算机可读存储介质及终端设备。
Description
技术领域
本发明涉及网络信息处理技术领域,尤其涉及一种舆情数据推送方法、装置、计算机可读存储介质和终端设备。
背景技术
随着互联网技术的飞速发展,网络已经成为反映社会舆情的主要载体之一,越来越多的用户通过互联网来表达观点、看法、态度、意见和情绪等等,为及时、准确了解民众的思想动态,掌握大众需求,舆情监测***应运而生。舆情监测***是指利用信息爬取技术和信息挖掘技术,获取网络上的舆情数据,并通过对舆情数据进行统计分析,来得到具体的舆情简报或者分析报告等,以方便人们全面掌握舆情动态,从而做出正确的舆情引导。
而现有的舆情监测***大多只能通过不定向的抓取舆情数据来形成对应的舆情简报或者分析报告,无法方便用户快速、全面地了解其所感兴趣或者所关注的舆情事件。
发明内容
本发明实施例提供了一种舆情数据推送方法、装置、计算机可读存储介质和终端设备,能够根据用户的行为数据自动进行舆情数据的推送,并能够确保舆情数据推送的准确性和有效性。
本发明实施例的第一方面,提供了一种舆情数据推送方法,包括:
获取指定用户的网络行为数据,并从所述网络行为数据中提取与所述指定用户相关的第一舆情数据;
确定所述第一舆情数据对应的第一舆情类型;
抓取与所述第一舆情类型相关的第二舆情数据,并确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度;
获取所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据;
确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度;
将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户。
本发明实施例的第二方面,提供了一种舆情数据推送装置,包括:
第一舆情数据获取模块,用于获取指定用户的网络行为数据,并从所述网络行为数据中提取与所述指定用户相关的第一舆情数据;
第一舆情类型确定模块,用于确定所述第一舆情数据对应的第一舆情类型;
第一舆情相似度确定模块,用于抓取与所述第一舆情类型相关的第二舆情数据,并确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度;
第三舆情数据获取模块,用于获取所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据;
第二舆情相似度确定模块,用于确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度;
舆情数据推送模块,用于将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户。
本发明实施例的第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如前述第一方面所述舆情数据推送方法的步骤。
本发明实施例的第四方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现如下步骤:
获取指定用户的网络行为数据,并从所述网络行为数据中提取与所述指定用户相关的第一舆情数据;
确定所述第一舆情数据对应的第一舆情类型;
抓取与所述第一舆情类型相关的第二舆情数据,并确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度;
获取所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据;
确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度;
将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,在获取指定用户的网络行为数据后,即可从所述网络行为数据中提取与所述指定用户相关的第一舆情数据,随后可对所述第一舆情数据进行分析以确定出第一舆情数据对应的第一舆情类型;然后抓取与所述第一舆情类型相关的第二舆情数据,并确定所抓取到的第二舆情数据与所述第一舆情数据的第一舆情相似度;进而,可获取第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据,确定第三舆情数据的第二舆情类型,并确定第二舆情类型与所述第一舆情类型的第二舆情相似度,以将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户,从而实现根据用户行为数据进行舆情数据的自动推送的目的,且在推送过程中还可确保舆情数据推送的有效性和准确性,使得指定用户可对其所关注或者所感兴趣的舆情事件进行快速、全面地了解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种舆情数据推送方法的一个实施例流程图;
图2为本发明实施例中一种舆情数据推送方法在一个应用场景下获取第一关键词的流程示意图;
图3为本发明实施例中一种舆情数据推送方法在一个应用场景下确定第二舆情相似度的流程示意图;
图4为本发明实施例中一种舆情数据推送方法在一个应用场景下训练预设概率主题模型的流程示意图;
图5为本发明实施例中一种舆情数据推送装置的一个实施例结构图;
图6为本发明一实施例提供的一种终端设备的示意图。
具体实施方式
本发明实施例提供了一种舆情数据推送方法、装置、计算机可读存储介质和终端设备,用于根据用户的行为数据自动进行舆情数据的推送,并能够确保舆情数据推送的准确性和有效性。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种舆情数据推送方法,所述舆情数据推送方法,包括:
步骤S101、获取指定用户的网络行为数据,并从所述网络行为数据中提取与所述指定用户相关的第一舆情数据;
本发明实施例中,可实时获取指定用户的网络行为数据,如获取指定用户正在浏览的浏览数据,在获取到指定用户的网络行为数据后,则可从所述网络行为数据中提取与所述指定用户相关的第一舆情数据,如从所述指定用户正在浏览的浏览数据中提取与所述指定用户相关的第一舆情数据。其中,所述浏览数据包括浏览地址和浏览的舆情内容等,因而,本发明实施例中,可根据所浏览的舆情内容来提取与所述指定用户相关的第一舆情数据。
步骤S102、确定所述第一舆情数据对应的第一舆情类型;
可以理解的是,在提取出与所述指定用户相关的第一舆情数据后,可根据所述第一舆情数据的舆情内容和/或舆情标题,来确定所述第一舆情数据所对应的第一舆情类型,从而可根据所述指定用户的网络行为数据分析出所述指定用户所关注或者所感兴趣的舆情事件的舆情类型。
进一步地,本发明实施例中,所述确定所述第一舆情数据对应的第一舆情类型,可以包括:
步骤a、将所述第一舆情数据输入至预设概率主题模型中,得到所述第一舆情数据在各主题中的第一概率值,所述主题为舆情数据的舆情内容所表达的主旨;
步骤b、将第一概率值大于或者等于预设概率阈值的主题确定为所述第一舆情数据对应的第一舆情类型。
需要说明的是,舆情类型可以为舆情内容的主题类型,其中,舆情内容可以为舆情数据中的文本内容等,所述主题则可为舆情数据的舆情内容所表达的主旨,即所述文本内容所表达的主旨。
对于上述步骤a和步骤b,本发明实施例中,在获取到与所述指定用户相关的第一舆情数据后,可首先将所述第一舆情数据输入至预先训练完成的预设概率主题模型LDA中,以得到LDA主题模型输出的所述第一舆情数据在各个主题中的第一概率值,随后找出所有主题中第一概率值大于或者等于预设概率阈值的主题,并将所找到的主题确定为所述第一舆情数据所对应的第一舆情类型。在此,所述第一舆情数据所对应的第一舆情类型可以为一个,也可以为多个,即所述第一舆情数据对应的主题可以为一个,也可以为多个。其中,所述预设概率阈值则可根据实际情况进行具体确定,所述预设概率主题模型的训练将在下述内容中进行详细描述。
例如,在某一具体应用中,当根据实际情况所确定的预设概率阈值为0.4时,而将某一第一舆情数据输入至所述LDA主题模型中,得到所述LDA主题模型输出的该第一舆情数据在各个主题中的第一概率值情况为:金融主题对应的第一概率值为0.41,教育主题对应的第一概率值为0.43,体育主题对应的第一概率值为0.1,科技主题对应的第一概率值为0.06,则可以找出第一概率值大于或者等于0.4的主题有金融主题和教育主题,因而,可确定该第一舆情数据的第一舆情类型为金融和教育。
步骤S103、抓取与所述第一舆情类型相关的第二舆情数据,并确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度;
本发明实施例中,在确定所述第一舆情数据所对应的第一舆情类型后,则可从不同渠道中抓取与所述第一舆情类型相关的第二舆情数据,如通过分布式爬虫技术从新闻媒体、社交媒体、论坛等渠道中抓取与所述第一舆情类型相似的第二舆情数据,或者通过分布式爬虫技术从新闻媒体、社交媒体、论坛等渠道中抓取涉及到所述第一舆情类型的第二舆情数据,即所抓取的第二舆情数据中涉及所述第一舆情类型的内容,随后,计算所抓取到的第二舆情数据与所述第一舆情数据的第一舆情相似度。
进一步地,本发明实施例中,所述确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度,可以包括:
步骤c、获取所述第二舆情数据的第二关键词和获取所述第一舆情数据的第一关键词;
步骤d、根据所述第一关键词和所述第二关键词,确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度。
对于上述步骤c,可以理解的是,本发明实施例中,在抓取到与所述第一舆情类型相关的第二舆情数据后,则可进一步确定出所述第二舆情数据的第二关键词,如可利用预先获取的词频-逆文档频率TF_IDF矩阵提取所述第二舆情数据的第二关键词;同样地,本发明实施例中,也可通过该TF_IDF矩阵来提取所述第一舆情数据的第一关键词。
对于上述步骤d,可以理解的是,舆情数据的关键词可用于表示舆情数据的主旨或者核心思想,因而,本发明实施例中,可根据所述第一舆情数据的第一关键词和所述第二舆情数据的第二关键词来确定所述第二舆情数据与所述第一舆情数据之间的第一舆情相似度,如根据所述第二关键词与所述第一关键词之间的匹配程度来确定所述第二舆情数据与所述第一舆情数据之间的第一舆情相似度。
优选地,如图2所示,本发明实施例中,所述获取所述第一舆情数据的第一关键词,可以包括:
步骤S201、对所述第一舆情数据进行文本训练,得到所述第一舆情数据所对应的词向量模型和词频-逆文档频率TF_IDF矩阵;
步骤S202、利用所述TF_IDF矩阵提取所述第一舆情数据中的第三关键词;
步骤S203、基于所述词向量模型,获取与所述第三关键词相关的第四关键词;
步骤S204、将所述第三关键词和所述第四关键词确定为所述第一舆情数据的第一关键词。
对于上述步骤S201和步骤S202,可以理解的是,本发明实施例中,可首先通过对所提取的第一舆情数据进行文本训练,以得到所述第一舆情数据所对应的词向量模型和词频-逆文档频率TF_IDF矩阵;随后可利用所述TF_IDF矩阵抽取出所述第一舆情数据中的第三关键词。
对于上述步骤S203,为确保关键词确定的全面性、普适性,本发明实施例中,在得到所述第三关键词后,可对所述第三关键词进行相应的拓展,以得到全面性、普适性的关键词列表,即根据上述得到的词向量模型进行所述第三关键词的拓展,以得到与所述第三关键词对应的第四关键词。
具体地,所述基于所述词向量模型,获取与所述第三关键词相关的第四关键词,可以包括:
将所述第三关键词输入至所述词向量模型中,得到与所述第三关键词的语义相似度达到指定相似度阈值的词语,并将所得到的词语确定为与所述第三关键词相关的第四关键词。
在此,本发明实施例中,主要通过词向量模型来获取与第三关键词语义相似的词语,以根据所获取到的相似词语来进行所述第三关键词的拓展。具体地,可将所述第三关键词输入至所述词向量模型中,如将第三关键词S输入至所述词向量模型中,以获取与第三关键词S语义相似的词语以及该词语与第三关键词S的语义相似度,并将语义相似度达到指定相似度阈值的词语确定为与第三关键词S相关的第四关键词。其中,该指定相似度阈值可根据实际应用场景来进行具体设置或者自动确定。
对于上述步骤S204,可以理解的是,在得到拓展后的第四关键词后,即可将所述第三关键词和对应的第四关键词一起确定为所述第一舆情数据的第一关键词,如在根据所述TF_IDF矩阵确定出所述第一舆情数据的第三关键词为[a,b,c],并根据所述词向量模型对所述第三关键词进行拓展,得到的第四关键词为[a1,a2,b1,b2,b3]后,即可将所述第三关键词[a,b,c]和所述第四关键词[a1,a2,b1,b2,b3]一起确定为所述第一舆情数据的第一关键词,即所述第一舆情数据的第一关键词为[a,b,c,a1,a2,b1,b2,b3],其中,a1和a2为与a的语义相似度达到该指定相似度阈值的词语,b1、b2及b3为与b语义相似度达到该指定相似度阈值的词语。
需要说明的是,本发明实施例中,所述第二关键词则可通过所述第一舆情数据所对应的词频-逆文档频率TF_IDF矩阵来提取。
具体地,本发明实施例中,所述根据所述第一关键词和所述第二关键词,确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度,可以包括:
步骤e、对所述第一关键词和所述第二关键词进行向量化处理,得到所述第一关键词对应的第一向量和所述第二关键词对应的第二向量;
步骤f、计算所述第二向量与各所述第一向量的余弦相似度;
步骤g、根据计算得到的余弦相似度,确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度。
对于上述步骤e,可以理解的是,在确定了所述第一舆情数据的第一关键词和所述第二舆情数据的第二关键词后,可分别对所述第一关键词和所述第二关键词进行向量化处理,以得到各所述第一关键词对应的第一向量,以及所述第二关键词对应的第二向量。在此,当所述第二舆情数据的第二关键词不止一个时,可首先分别对各第二关键词进行向量化处理,以得到多个初始向量,然后计算得到多个初始向量的平均向量,并将所得到的平均向量确定为所述第二关键词对应的第二向量。
对于上述步骤f和步骤g,可以理解的是,在得到所述第二关键词对应的第二向量和各所述第一关键词对应的第一向量后,即可利用余弦相似度公式分别计算所述第二向量与各所述第一向量的余弦相似度,以根据余弦相似度来确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度,如将最大余弦相似度确定为所述第二舆情数据与所述第一舆情数据的第一舆情相似度;或者计算所有余弦相似度的平均值,以将所得到的平均值确定为所述第二舆情数据与所述第一舆情数据的第一舆情相似度;又或者为各个所述第一关键词设置对应的预设权重,以根据余弦相似度以及对应的预设权重来确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度,等等。
如在某一具体应用中,所得到的所述第二关键词所对应的第二向量a为[X1,X2,X3,……,Xn],所述第一关键词所对应的第一向量b为[Y1,Y2,Y3,……,Yn],那么所述第二向量与所述第一向量的余弦相似度可根据下述计算公式得到:
其中,Similarity为所述第二向量与所述第一向量的余弦相似度。
步骤S104、获取所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据;
可以理解的是,本发明实施例中,在获取到各所述第二舆情数据与所述第一舆情数据的第一舆情相似度后,可找出所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据,其中,所述第三舆情数据为所述第二舆情数据的一部分或者全部。在此,所述第一预设相似度阈值可根据实际应用场景来进行具体设置或者自动确定。如在某一具体应用中,当确定所述第一预设相似度阈值为0.4时,则可获取第一舆情相似度大于或者等于0.4的第二舆情数据,以作为上述所述的第三舆情数据。
步骤S105、确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度;
本发明实施例中,在获取到所述第三舆情数据后,则可进一步确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度。
具体地,如图3所示,所述确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度,可以包括:
步骤S301、将所述第三舆情数据输入至所述预设概率主题模型中,得到所述第三舆情数据在各主题中的第二概率值;
步骤S302、基于所述第二概率值确定所述第三舆情数据的第二舆情类型;
步骤S303、根据所述第一舆情类型对应的第一概率值和所述第二舆情类型对应的第二概率值,确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度。
对于上述步骤S301至步骤S302,本发明实施例中,可将所述第三舆情数据输入至所述预设概率主题模型中,即输入至上述所述的LDA主题模型中,得到所述LDA主题模型输出的所述第三舆情数据在各主题中的第二概率值,以基于所述第二概率值来确定所述第三舆情数据的第二舆情类型,如找出所有主题中第二概率值大于或者等于指定概率阈值的主题,并将所找到的主题确定为所述第二舆情数据所对应的第二舆情类型。其中,所述指定概率阈值则可根据实际情况进行具体确定。
对于上述步骤S303,可以理解的是,在确定所述第三舆情数据的第二舆情类型以及所述第二舆情类型所对应的第二概率值后,则可根据所述第一舆情类型对应的第一概率值和所述第二舆情类型对应的第二概率值,确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度。具体地,可首先获取所述第二舆情类型与所述第一舆情类型中的相同主题,如所述第一舆情类型为{教育、金融、IT},所述第二舆情类型为{教育、金融、体育、民生},则获取到的相同主题为{教育,金融},随后则可根据教育对应的第一概率值和第二概率值,以及金融对应的第一概率值和第二概率值来确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度,如可将教育对应的第一概率值乘以教育对应的第二概率值得到第一结果值,并将金融对应的第一概率值乘以金融对应的第二概率值得到第二结果值,然后将第一结果值与第二结果值相加得到的最终结果值确定为所述第二舆情类型与所述第一舆情类型的第二舆情相似度。当然,本发明实施例中,也可以采用其他的计算方式来计算第一概率值和第二概率值,以此确定所述第二舆情相似度。
步骤S106、将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户。
可以理解的是,本发明实施例中,在得到各第二舆情相似度后,可找出第二舆情相似度大于或者等于第二预设相似度阈值的第二舆情类型,并可将所找到的第二舆情类型所对应的第三舆情数据推送至所述指定用户,从而实现根据用户行为数据自动、精确推送舆情数据的目的,以提高舆情数据推送的精确性、准确性及有效性,方便所述指定用户及时、全面了地解其所关注舆情事件的发展状况。
可选地,如图4所示,本发明实施例中,所述预设概率主题模型通过以下步骤训练得到:
步骤S401、预先收集样本舆情数据,所述样本舆情数据为与各舆情事件相关的舆情数据,并统计各样本舆情数据中各词语所对应的主题;
步骤S402、根据各词语所对应的主题预先标记各样本舆情数据在各主题中的标准概率值;
步骤S403、将各样本舆情数据输入至初始的预设概率主题模型,得到各样本舆情数据在各主题中的训练概率值;
步骤S404、计算所述训练概率值与所述标准概率值之间的概率误差;
步骤S405、判断所述概率误差是否满足预设条件;
步骤S406、所述概率误差满足预设条件时,确定所述预设概率主题模型训练完成;
步骤S407、若所述概率误差不满足预设条件,则调整所述预设概率主题模型的模型参数,并将模型参数调整后的预设概率主题模型作为初始的预设概率主题模型,返回执行将各样本舆情数据输入至初始的预设概率主题模型,得到各样本舆情数据在各主题中的训练概率值的步骤以及后续步骤。
对于上述步骤S401,可以理解的是,在训练预设概率主题模型之前,需要预先收集用于训练的样本舆情数据,其中,所述样本舆情数据为与各舆情事件相关的、以作为样本训练的舆情数据。在采集到样本舆情数据后,可对样本舆情数据进行分析,以统计出各样本舆情数据中各词语所对应的主题,即统计各样本舆情数据中各词语所表达的主旨或者中心思想。
对于上述步骤S402,在获取到这些训练用的样本舆情数据之后,还可根据各词语所对应的主题预先标记各样本舆情数据在各主题中的标准概率值,如可根据各主题所对应的词语的出现数量标记各主题的标准概率值,即分别统计同一样本舆情数据中,表达相同主旨或者中心思想的词语的数量,并计算该数量占该样本舆情数据中所有的词语数量的比值。
对于上述步骤S403,在标记完这些样本舆情数据在各主题中的标准概率值后,即可将这些样本舆情数据输入至初始的预设概率主题模型中,以得到各样本舆情数据在各主题中的初始的训练概率值,由于初始时预设概率主题模型尚未训练完成,因此,此时其输出的训练概率值与标记的标准概率值之间会存在一定的偏差、误差。
对于上述步骤S404和步骤S405,在得到训练概率值之后,可以计算所述训练概率值与样本舆情数据所对应的标准概率值之间的误差,并判断该误差是否满足预设条件,如判断误差是否小于5%。在此,所述预设条件可以在训练具体的预设概率主题模型时确定,例如设定预设条件为误差小于特定阈值,该特定阈值可以是一个百分比数值。
对于上述步骤S406,可以理解的是,当所述训练概率值与所述标准概率值之间的误差满足预设条件时,如所述训练概率值与所述标准概率值之间的误差小于5%时,则可确定所述预设概率主题模型训练完成,并可将此时所得到的误差满足预设条件的预设概率主题模型作为训练完成的预设概率主题模型,可用于获取后续舆情数据在各主题中的概率值。
对于上述步骤S407,当所述训练概率值与所述标准概率值之间的误差不满足预设条件时,如所述训练概率值与所述标准概率值之间的误差为10%时,则可调整所述预设概率主题模型的模型参数,并将模型参数调整后的预设概率主题模型作为初始的预设概率主题模型,然后重新进行样本舆情数据的训练,以通过反复调整预设概率主题模型的模型参数,并进行多次样本舆情数据的训练,来使得后续训练输出的训练概率值与标准概率值之间的误差最小化,直到最终的训练概率值与标准概率值之间的误差满足预设条件。
本发明实施例中,在获取指定用户的网络行为数据后,即可从所述网络行为数据中提取与所述指定用户相关的第一舆情数据,随后可对所述第一舆情数据进行分析以确定出第一舆情数据对应的第一舆情类型;然后抓取与所述第一舆情类型相关的第二舆情数据,并确定所抓取到的第二舆情数据与所述第一舆情数据的第一舆情相似度;进而,获取第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据,确定第三舆情数据的第二舆情类型,并确定第二舆情类型与所述第一舆情类型的第二舆情相似度,以将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户,从而实现根据用户行为数据进行舆情数据的自动推送的目的,且在推送过程中还可确保舆情数据推送的有效性和准确性,使得用户可对其所关注或者所感兴趣的舆情事件进行快速、全面地了解。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上面主要描述了一种舆情数据推送方法,下面将对一种舆情数据推送装置进行详细描述。
如图5所示,本发明实施例提供了一种舆情数据推送装置,所述舆情数据推送装置,包括:
第一舆情数据获取模块501,用于获取指定用户的网络行为数据,并从所述网络行为数据中提取与所述指定用户相关的第一舆情数据;
第一舆情类型确定模块502,用于确定所述第一舆情数据对应的第一舆情类型;
第一舆情相似度确定模块503,用于抓取与所述第一舆情类型相关的第二舆情数据,并确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度;
第三舆情数据获取模块504,用于获取所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据;
第二舆情相似度确定模块505,用于确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度;
舆情数据推送模块506,用于将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户。
进一步地,所述第一舆情类型确定模块502,包括:
第一概率值获取单元,用于将所述第一舆情数据输入至预设概率主题模型中,得到所述第一舆情数据在各主题中的第一概率值,所述主题为舆情数据的舆情内容所表达的主旨;
第一舆情类型确定单元,用于将第一概率值大于或者等于预设概率阈值的主题确定为所述第一舆情数据对应的第一舆情类型。
优选地,所述第二舆情相似度确定模块505,包括:
第二概率值获取单元,用于将所述第三舆情数据输入至所述预设概率主题模型中,得到所述第三舆情数据在各主题中的第二概率值;
第二舆情类型确定单元,用于基于所述第二概率值确定所述第三舆情数据的第二舆情类型;
所述第二舆情相似度确定单元,用于根据所述第一舆情类型对应的第一概率值和所述第二舆情类型对应的第二概率值,确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度。
可选地,所述舆情数据推送装置,还包括:
主题统计模块,用于预先收集样本舆情数据,所述样本舆情数据为与各舆情事件相关的舆情数据,并统计各样本舆情数据中各词语所对应的主题;
概率值标记模块,用于根据各词语所对应的主题预先标记各样本舆情数据在各主题中的标准概率值;
主题训练模块,用于将各样本舆情数据输入至初始的预设概率主题模型,得到各样本舆情数据在各主题中的训练概率值;
概率误差计算模块,用于计算所述训练概率值与所述标准概率值之间的概率误差;
模型参数调整模块,用于若所述概率误差不满足预设条件,则调整所述预设概率主题模型的模型参数,并将模型参数调整后的预设概率主题模型作为初始的预设概率主题模型,返回执行将各样本舆情数据输入至初始的预设概率主题模型,得到各样本舆情数据在各主题中的训练概率值的步骤以及后续步骤;
训练完成确定模块,用于直到所述概率误差满足预设条件时,确定所述预设概率主题模型训练完成。
进一步地,所述第一舆情相似度确定模块503,包括:
关键词获取单元,用于获取所述第二舆情数据的第二关键词和获取所述第一舆情数据的第一关键词;
第一舆情相似度确定单元,用于根据所述第一关键词和所述第二关键词,确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度。
优选地,所述关键词获取单元,包括:
文本训练子单元,用于对所述第一舆情数据进行文本训练,得到所述第一舆情数据所对应的词向量模型和词频-逆文档频率TF_IDF矩阵;
第三关键词提取子单元,用于利用所述TF_IDF矩阵提取所述第一舆情数据中的第三关键词;
第四关键词获取子单元,用于基于所述词向量模型,获取与所述第三关键词相关的第四关键词;
第一关键词确定子单元,用于将所述第三关键词和所述第四关键词确定为所述第一舆情数据的第一关键词。
可选地,所述第一舆情相似度确定单元,包括:
向量化处理子单元,用于对所述第一关键词和所述第二关键词进行向量化处理,得到所述第一关键词对应的第一向量和所述第二关键词对应的第二向量;
余弦相似度计算子单元,用于计算所述第二向量与各所述第一向量的余弦相似度;
第一舆情相似度确定子单元,用于根据计算得到的余弦相似度,确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度。
图6是本发明一实施例提供的终端设备的示意图。如图6所示,该实施例的终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机可读指令62,例如舆情数据推送程序。所述处理器60执行所述计算机可读指令62时实现上述各个舆情数据推送方法实施例中的步骤,例如图1所示的步骤S101至步骤S106。或者,所述处理器60执行所述计算机可读指令62时实现上述各装置实施例中各模块/单元的功能,例如图5所示的模块501至506的功能。
示例性的,所述计算机可读指令62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述计算机可读指令62在所述终端设备6中的执行过程。
所述终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述终端设备6的内部存储单元,例如终端设备6的硬盘或内存。所述存储器61也可以是所述终端设备6的外部存储设备,例如所述终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述XXXX装置/终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机可读指令以及所述终端设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种舆情数据推送方法,其特征在于,包括:
获取指定用户的网络行为数据,并从所述网络行为数据中提取与所述指定用户相关的第一舆情数据;
确定所述第一舆情数据对应的第一舆情类型;
抓取与所述第一舆情类型相关的第二舆情数据,并确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度;
获取所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据;
确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度;
将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户。
2.根据权利要求1所述的舆情数据推送方法,其特征在于,所述确定所述第一舆情数据对应的第一舆情类型,包括:
将所述第一舆情数据输入至预设概率主题模型中,得到所述第一舆情数据在各主题中的第一概率值,所述主题为舆情数据的舆情内容所表达的主旨;
将第一概率值大于或者等于预设概率阈值的主题确定为所述第一舆情数据对应的第一舆情类型。
3.根据权利要求2所述的舆情数据推送方法,其特征在于,所述确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度,包括:
将所述第三舆情数据输入至所述预设概率主题模型中,得到所述第三舆情数据在各主题中的第二概率值;
基于所述第二概率值确定所述第三舆情数据的第二舆情类型;
根据所述第一舆情类型对应的第一概率值和所述第二舆情类型对应的第二概率值,确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度。
4.根据权利要求2所述的舆情数据推送方法,其特征在于,所述预设概率主题模型通过以下步骤训练得到:
预先收集样本舆情数据,所述样本舆情数据为与各舆情事件相关的舆情数据,并统计各样本舆情数据中各词语所对应的主题;
根据各词语所对应的主题预先标记各样本舆情数据在各主题中的标准概率值;
将各样本舆情数据输入至初始的预设概率主题模型,得到各样本舆情数据在各主题中的训练概率值;
计算所述训练概率值与所述标准概率值之间的概率误差;
若所述概率误差不满足预设条件,则调整所述预设概率主题模型的模型参数,并将模型参数调整后的预设概率主题模型作为初始的预设概率主题模型,返回执行将各样本舆情数据输入至初始的预设概率主题模型,得到各样本舆情数据在各主题中的训练概率值的步骤以及后续步骤;
直到所述概率误差满足预设条件时,确定所述预设概率主题模型训练完成。
5.根据权利要求1至4中任一项所述的舆情数据推送方法,其特征在于,所述确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度,包括:
获取所述第二舆情数据的第二关键词和获取所述第一舆情数据的第一关键词;
根据所述第一关键词和所述第二关键词,确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度。
6.根据权利要求5所述的舆情数据推送方法,其特征在于,所述获取所述第一舆情数据的第一关键词,包括:
对所述第一舆情数据进行文本训练,得到所述第一舆情数据所对应的词向量模型和词频-逆文档频率TF_IDF矩阵;
利用所述TF_IDF矩阵提取所述第一舆情数据中的第三关键词;
基于所述词向量模型,获取与所述第三关键词相关的第四关键词;
将所述第三关键词和所述第四关键词确定为所述第一舆情数据的第一关键词。
7.根据权利要求5所述的舆情数据推送方法,其特征在于,所述根据所述第一关键词和所述第二关键词,确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度,包括:
对所述第一关键词和所述第二关键词进行向量化处理,得到所述第一关键词对应的第一向量和所述第二关键词对应的第二向量;
计算所述第二向量与各所述第一向量的余弦相似度;
根据计算得到的余弦相似度,确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度。
8.一种舆情数据推送装置,其特征在于,包括:
第一舆情数据获取模块,用于获取指定用户的网络行为数据,并从所述网络行为数据中提取与所述指定用户相关的第一舆情数据;
第一舆情类型确定模块,用于确定所述第一舆情数据对应的第一舆情类型;
第一舆情相似度确定模块,用于抓取与所述第一舆情类型相关的第二舆情数据,并确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度;
第三舆情数据获取模块,用于获取所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据;
第二舆情相似度确定模块,用于确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度;
舆情数据推送模块,用于将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述舆情数据推送方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
获取指定用户的网络行为数据,并从所述网络行为数据中提取与所述指定用户相关的第一舆情数据;
确定所述第一舆情数据对应的第一舆情类型;
抓取与所述第一舆情类型相关的第二舆情数据,并确定所述第二舆情数据与所述第一舆情数据的第一舆情相似度;
获取所述第二舆情数据中第一舆情相似度大于或者等于第一预设相似度阈值的第三舆情数据;
确定所述第三舆情数据的第二舆情类型,并确定所述第二舆情类型与所述第一舆情类型的第二舆情相似度;
将第二舆情相似度大于或者等于第二预设相似度阈值的第三舆情数据推送至所述指定用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811340773.9A CN109635185A (zh) | 2018-11-12 | 2018-11-12 | 一种舆情数据推送方法、装置、存储介质和终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811340773.9A CN109635185A (zh) | 2018-11-12 | 2018-11-12 | 一种舆情数据推送方法、装置、存储介质和终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635185A true CN109635185A (zh) | 2019-04-16 |
Family
ID=66067790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811340773.9A Pending CN109635185A (zh) | 2018-11-12 | 2018-11-12 | 一种舆情数据推送方法、装置、存储介质和终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635185A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170329856A1 (en) * | 2015-04-08 | 2017-11-16 | Tencent Technology (Shenzhen) Company Limited | Method and device for selecting data content to be pushed to terminal, and non-transitory computer storage medium |
CN107645559A (zh) * | 2017-09-30 | 2018-01-30 | 广东美的制冷设备有限公司 | 家电信息推送方法、服务器、移动终端及存储介质 |
CN107784083A (zh) * | 2017-09-30 | 2018-03-09 | 北京合力智联科技有限公司 | 一种网络舆情信息有效性的自动识别处理方法 |
-
2018
- 2018-11-12 CN CN201811340773.9A patent/CN109635185A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170329856A1 (en) * | 2015-04-08 | 2017-11-16 | Tencent Technology (Shenzhen) Company Limited | Method and device for selecting data content to be pushed to terminal, and non-transitory computer storage medium |
CN107645559A (zh) * | 2017-09-30 | 2018-01-30 | 广东美的制冷设备有限公司 | 家电信息推送方法、服务器、移动终端及存储介质 |
CN107784083A (zh) * | 2017-09-30 | 2018-03-09 | 北京合力智联科技有限公司 | 一种网络舆情信息有效性的自动识别处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN104978314B (zh) | 媒体内容推荐方法及装置 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN106919575B (zh) | 应用程序搜索方法及装置 | |
CN109388743B (zh) | 语言模型的确定方法和装置 | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN103869998B (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN103729359A (zh) | 一种推荐搜索词的方法及*** | |
CN106407280A (zh) | 查询目标匹配方法及装置 | |
CN109299280A (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和*** | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN109325146A (zh) | 一种视频推荐方法、装置、存储介质和服务器 | |
Wu et al. | Extracting topics based on Word2Vec and improved Jaccard similarity coefficient | |
CN112100470B (zh) | 基于论文数据分析的专家推荐方法、装置、设备及存储介质 | |
CN111813993A (zh) | 视频内容的拓展方法、装置、终端设备及存储介质 | |
CN112632261A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN110442873A (zh) | 一种基于cbow模型的热点工单获取方法及装置 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
CN114528391A (zh) | 问答对评分模型的训练方法、装置、设备及存储介质 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN111460808B (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
CN109635072A (zh) | 舆情数据分布式存储方法、装置、存储介质和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |