CN109918656B - 一种直播热点获取方法、装置、服务器及存储介质 - Google Patents

一种直播热点获取方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109918656B
CN109918656B CN201910148553.4A CN201910148553A CN109918656B CN 109918656 B CN109918656 B CN 109918656B CN 201910148553 A CN201910148553 A CN 201910148553A CN 109918656 B CN109918656 B CN 109918656B
Authority
CN
China
Prior art keywords
words
frequency
sentences
vocabulary
ternary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910148553.4A
Other languages
English (en)
Other versions
CN109918656A (zh
Inventor
肖源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201910148553.4A priority Critical patent/CN109918656B/zh
Publication of CN109918656A publication Critical patent/CN109918656A/zh
Application granted granted Critical
Publication of CN109918656B publication Critical patent/CN109918656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种直播热点获取方法、装置、服务器及存储介质,属于网络直播领域。该方法包括:采集直播话题数据后,对直播话题数据中的语句进行分词处理,统计所有词汇出现频率;选取高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;选取高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;获取三元词汇组合对应的热点话题。通过该技术方案,能够结合三元词汇组合准确描述热点话题,同时简化热点提取过程,提高效率。

Description

一种直播热点获取方法、装置、服务器及存储介质
技术领域
本发明涉及网络直播领域,尤其涉及一种直播热点获取方法、装置、服务器及存储介质。
背景技术
热点话题对于当今网络日益发达的用户而言,容易引起广泛的关注,对于各网站、APP能实时准确获取到热点话题,可以增加用户在线时间,提升用户流量等方面具有重要意义。尤其对于聚集各类主播与用户而言的直播平台,通过弹幕或社区可以进行广泛讨论,及时发现热点,能提升用户体验。
目前,市场上常见的热点发现技术有基于文本数据分词后,经过特征提取,然后借助于聚类分析、LDA模型等计算相似度,根据相似度计算后的热点关键词频率,得到热点话题。这类通过词汇或语句相似度计算获取热点,热点获取准确度不高,容易产生歧义表达。
发明内容
有鉴于此,本发明实施例提供了一种直播热点获取方法、装置、服务器及存储介质,以提高热点获取效率,并保证获取的准确度。
结合本发明实施例的第一方面,提供了一种直播热点获取方法,包括:
采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;
选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;
选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;
获取三元词汇组合对应的热点话题。
结合本发明实施例的第二方面,提供了一种直播热点获取装置,包括:
分词模块,用于采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;
第一操作模块,用于选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;
第二操作模块,用于选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;
获取模块,用于获取三元词汇组合对应的热点话题。
结合本发明实施例的第三方面,提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。
本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
本发明实施例的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被一个或多个处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
本发明实施例中通过提取最近一段时间的直播话题数据,对话题语句进行分词处理后,统计频率。对高频词汇与所述句子集合进行与操作,求取二维共线词语,然后再对共线词语和高频词汇求交集,获得三元词汇组合,通过高频三元词汇组合,可以准确表述热点话题,同时,由于本发明实施例提供的技术方案不需要进行特征提取及相似度计算,直接对求取三维词汇组合,方法简单一下,不需进行复杂运算,且资源耗费少,可以有效提高热点获取效率,保障准确性。
附图说明
图1是本发明实施例一提供的一种直播热点获取方法的流程图;
图2是本发明实施例二提供的一种直播热点获取方法的流程图的另一流程示意图;
图3是本发明实施例六提供的一种直播热点获取装置的结构示意图
图4是本发明实施例八提供的一种服务器的结构示意图。
具体实施方式
本发明实施例提供了一种直播热点获取方法、装置、服务器及存储介质,用于准确高效的获取直播热点,方便为推送热点。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1,本发明实施例提供的直播热点获取方法的流程示意图,包括:
S101、采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;
所述预定时长为一定时间长度范围,可以是几个小时、几天或几个月的时间长度,一般的,可以选择当前最近一天或一个星期内的时长。所述直播话题数据为与直播内容或主播相关话题数据,常见的如弹幕,还可以包括直播相关的社区、论坛中内容数据。优选的,所述直播话题数据为在弹幕或社区中提取的完整的话题语句,一般包括满足中文语义表达要求,如有主谓宾的构成。
所述直播话题数据至少包括间隔一定时长采集的直播间弹幕数据,间隔一定时长采集弹幕能防止短时用户刷屏行为。
所述分词处理是将一条语句分成单独的词,也即把连续的字序列按照一定规范重新组合成词序列的过程。分词方法有如字符串匹配、基于理解分词等,通过分词可以获取到语句中的词语组成。
可选的,记录所述直播话题数据中采集的每一条句子,去掉每条句子的停用词,得到每条句子中的词汇;统计所有词汇出现次数,并按每个词汇出现次数由高到低进行排列。
优选的,对采集的直播话题数据进行预处理,去除敏感语句及短语,所述敏感词即为不符合相关法规要求的发言,所述短语为一两个字的语句或单字重复语句。通过预处理可有效提高语句后续处理效率。
S102、选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;
所述高频词汇值的是出现频率较高的词汇,具体的,通过统计每个词汇出现频率,进行排序后,选取出现频率较高的前几位,如前100个词汇为高频词汇。
查找高频词汇所在句子,将每个高频词汇所在句子放入该词汇对应的集合中,如将词汇“贸易战”所出现过句子放到“贸易战”对应的集合中,所有句子为采集的直播话题数据中的句子。
所述与操作指的是,两个句子集合间进行两两比对,查找出现在同一个句子中的两个词语即为共线词汇,如高频词汇“中美”的句子集合和的句子集合,通过与操作查找两个集合中同时出现“中美”和“贸易战”的句子,统计句子数量,其中,若句子数量不小于1,可将“中美”和“贸易战”视为共线词汇。
可选的,根据公式(1)求取句子集合间的共线词语:
Figure BDA0001980816300000051
其中,n表示高频词汇数量,set(i)表示词语i的句子集合,set(j)表示词语j的句子集合,&表示与操作(共线),score(wi,wj)表示二元词组的关联度。
S103、选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;
所述高频共线词语即根据所有句子集合间求得共线词语数量,选取若干出现频率高的共线词语,具体的,通过统计两个高频词汇出现在同一句子中的数量或计算关联度,进行排序后,选取排名靠前或关联度高的一定数量的共线词语,所述共线词语也即是热点话题关键词。
所述交集指高频共线词语和高频词汇的交集,根据高频词汇和高频共线词语出现的句子,两者求取交集即可得到三元词汇组合,通过三元词汇组合可以准确描述热点话题。
可选的,根据公式(2)求取所述高频共线词语与所述高频词汇的交集:
Figure BDA0001980816300000061
其中,n表示高频词汇数量,m表示高频共线词语数量,set(i,j)表示二元词组的句子集,set(k)表示高频词汇,score(wi,wj,wk)表示三元词组之间的关联度。
S104、获取三元词汇组合对应的热点话题。
所述三元词汇组合已可以准确表述热点话题内容,通过选取高频三元词汇组合可以得到对应的热点话题,具体的,获取所述三元词汇组合对应的句子;根据所述三元词汇组合所在句子的数量,对所述三元词汇组合进行由高到低排序,去除重复词汇或词汇组合,选取一定数量的高排名三元词汇组合,整合后作为热点话题进行展示。得到的三元词汇组合可以进行顺序重组后直接展示,或放入对应的句子中整合后展示,由于三元词汇组合已经能够准确描述热点主要内容,选取整理后,即可为用户推送。
优选的,将所述三元词汇组合中的词汇作为关键词,通过关键词匹配查找关联直播间,选取关联直播间进行推荐。具体的,搜集当前各直播间直播内容,可通过弹幕或直播间标题等获取当前直播内容,关联对应直播间与三元词汇组合中关键字,当用户通过搜索引擎搜索关键字时,可优先通过三元词汇组合中关键字推送相关直播间,同样的,也可以根据用户观看历史或发言记录,与三元词汇组合中关键字匹配后,推荐关联直播间。借助三元词汇组合中关键字,可方便内容推荐,引导用户进行热点话题讨论,不仅可以提升用户在线时间与直播间热度,而且能保障用户体验。
在实施例的技术方案中,通过采集直播话题数据,预处理后,进行分词处理得到高频词汇,而后通过求取词汇与词汇组合的交集,基于数量统计获得三元词汇组合,方法简单易行,避免词汇相似度聚类这类方法存在的复杂与结果描述不准确的问题,而且基于三元词汇组合不仅可以准确表述话题内容,而且便于直播间推荐,提升用户体验。
实施例二
图2为本发明实施例二提供的直播热点获取方法的另一流程示意图,在实施例一的基础上,对求取三元词汇组合过程进行详细描述,包括如下步骤:
S201、获取高频词汇;
采集直播话题数据后,得到用户弹幕或社区发言内容,这些话题数据由一条条句子组成,记作sn=(s1,s2,...sn),对这些句子进行分词处理,得到若干词汇,通过这些词汇出现次数。
选取出现频率较高的词汇,示例性的,将每个词汇出现次数从高到低排序后,选取排名前100的词汇作为高频词汇,记作wn=(w1,w2,w3,...w100),为wn中每个词生成一个集合set,对于只要在sn中出现过wk,则将对应的句子加入集合set(k),即可得到高频词汇对应的100个句子集合。
S202、求取共线词语;
对于每一个高频词汇wn都有一个对应的句子集合,任意两个句子集合之间进行与操作,即查找两个句子集合中都出现的高频词汇的数量,如高频词汇w1对应的句子集合set(1),与高频词汇w2对应的句子集合set(2)之间,两个句子集合中都出现w1和w2的句子数量,即w1和w2同时出现在句子集合set(1)或句子集合set(2)中句子数量,若数量不小于1则可以表示w1和w2为共线词语,通过统计共线词语出现的句子数量,可以表示两个高频词汇间的相关度。
具体的,根据下列公式(1)求取句子集合间的共线词语:
Figure BDA0001980816300000081
set(i)表示词语i的句子集合,set(j)表示词语j的句子集合,&表示与操作(共线),score(wi,wj)表示二元词组的关联度。
score(wi,wj)可以描述高频词汇相关度,通过统计句子集合间重合句子数量,即可确定词汇关联词汇。
S203、求取高频词汇和高频共线词语交集,得到三元词汇组合。
通过公式(1)计算关联度或直接统计共线词语出现数量,可以得到高频共线词语,具体的,按照所有共线词语相关度或出现数量进行排序,由高到低选取一定数量共线词语作为高频共线词语,如选取500个词汇对作为高频共线词语。
进一步的,根据公式(2)求取所述高频共线词语与所述高频词汇的交集:
Figure BDA0001980816300000082
其中,set(i,j)表示二元词组的句子集合,set(k)表示高频词汇,score(wi,wj,wk)表示三元词组之间的关联度。
set(i,j)为高频共线词语对应的句子集合,将高频词汇与高频共线词语对应的句子集合进行匹配,求取交集,可以得到包含有高频共线词语和高频词汇的三元词汇组合。
所述三元词汇组合可以具体准确描叙热点事件,通过无序去重,以及排序,再根据三元词汇组合对应的句子,可以整理得到对应热点事件的描述。
优选的,将所述三元词汇组合中词汇作为关键词可以进行用户搜索、大数据匹配,根据用户兴趣用于推荐直播间。如根据用户观看历史或发言记录,提取关键词,与所述三元词汇组合匹配,推送关联直播间。
在本发明实施例中,基于词汇统计特征,直接计算提取三元词汇,可以准确描述热点话题,而且计算过程简单,相对于传统词语相似度聚类分析,大大简化热点提取过程。
实施例三
图3是本发明实施例提供的一种直播热点获取装置的结构示意图,该装置包括:
分词模块310,用于采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;
可选的,所述直播话题数据至少包括间隔一定时长采集的直播间弹幕数据。
可选的,所述分词模块310具体包括:
分词单元,用于记录所述直播话题数据中采集的每一条句子,去掉每条句子的停用词,得到每条句子中的词汇;
统计单元,用于统计所有词汇出现次数,并按每个词汇出现次数由高到低进行排列。
第一操作模块320,用于选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;
其中,所述高频词汇值的是出现频率较高的词汇,具体的,通过统计每个词汇出现频率,进行排序后,选取出现频率较高的前几位,如前100个词汇为高频词汇。查找高频词汇所在句子,将每个高频词汇所在句子放入该词汇对应的集合中,如将词汇“贸易战”所出现过句子放到“贸易战”对应的集合中,所有句子为采集的直播话题数据中的句子。
可选的,所述通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语具体为:
根据公式(1)求取句子集合间的共线词语:
Figure BDA0001980816300000101
其中,n表示高频词汇数量,set(i)表示词语i的句子集合,set(j)表示词语j的句子集合,&表示与操作(共线),score(wi,wj)表示二元词组的关联度。
第二操作模块330,用于选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;
其中,所述高频共线词语即根据所有句子集合间求得共线词语数量,选取若干出现频率高的共线词语,具体的,通过统计两个高频词汇出现在同一句子中的数量或计算关联度,进行排序后,选取排名靠前或关联度高的一定数量的共线词语,所述共线词语也即是热点话题关键词。
可选的,所述求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合具体为:
根据公式(2)求取所述高频共线词语与所述高频词汇的交集:
Figure BDA0001980816300000111
其中,n表示高频词汇数量,m表示高频共线词语数量,set(i,j)表示二元词组的句子集,set(k)表示高频词汇,score(wi,wj,wk)表示三元词组之间的关联度。
获取模块340,用于获取三元词汇组合对应的热点话题。
可选的,所述获取模块340包括:
获取单元,用于获取所述三元词汇组合对应的句子;
整合单元,用于根据所述三元词汇组合所在句子的数量,对所述三元词汇组合进行由高到低排序,去除重复词汇或词汇组合,选取一定数量的高排名三元词汇组合,整合后作为热点话题进行展示。
可选的,所述获取模块340还包括:
推荐模块,用于将所述三元词汇组合中的词汇作为关键词,通过关键词匹配查找关联直播间,选取关联直播间进行推荐。
在上述装置中,通过第一操作模块和第二操作模块提取直播话题数据中三元词汇组合,实现热点话题的的准确提取表达,而且简单易行,效率较高。
实施例四
图4是本发明一实施例提供的直播热点获取服务器的结构示意图。所述服务器,为提供计算服务的设备,通常指具有较高计算能力,通过网络提供给多个用户使用的计算机。如图4所示,该实施例的服务器4包括:存储器410、处理器420以及***总线430,所述存储器410包括存储其上的可运行的程序4101,本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图4对服务器的各个构成部件进行具体的介绍:
存储器410可用于存储软件程序以及模块,处理器420通过运行存储在存储器410的软件程序以及模块,从而执行服务器的各种功能应用以及数据处理。存储器410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在存储器410上包含网络请求方法的可运行程序4101,所述可运行程序4101可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器410中,并由处理器420执行,以获取热点话题,所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序4101在所述服务器5中的执行过程。例如,所述计算机程序4101可以被分割为分词模块、第一操作模块、第二操作模块及获取模块。
处理器420是服务器的控制中心,利用各种接口和线路连接整个服务器设备的各个部分,通过运行或执行存储在存储器410内的软件程序和/或模块,以及调用存储在存储器410内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器420可包括一个或多个处理单元;优选的,处理器420可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器420中。
***总线430是用来连接计算机内部各功能部件,可以传送数据信息、地址信息、控制信息,其种类可以是例如PCI总线、ISA总线、VESA总线等。处理器420的指令通过总线传递至存储器410,存储器410反馈数据给处理器420,***总线430负责处理器420与存储器410之间的数据、指令交互。当然***总线530还可以接入其他设备,例如网络接口、显示设备等。
在本发明实施例中,该服务器所包括的处理器420执行的可运行程序具体为:
一种直播热点获取方法,包括:
采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;
选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;
选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;
获取三元词汇组合对应的热点话题。
进一步的,所述直播话题数据至少包括间隔一定时长采集的直播间弹幕数据。
进一步的,所述对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率具体为:
记录所述直播话题数据中采集的每一条句子,去掉每条句子的停用词,得到每条句子中的词汇;
统计所有词汇出现次数,并按每个词汇出现次数进行排列。
进一步的,所述通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语具体为:
根据公式(1)求取句子集合间的共线词语:
Figure BDA0001980816300000141
其中,n表示高频词汇数量,set(i)表示词语i的句子集合,set(j)表示词语j的句子集合,&表示与操作(共线),score(wi,wj)表示二元词组的关联度。
进一步的,所述求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合具体为:
根据公式(2)求取所述高频共线词语与所述高频词汇的交集:
Figure BDA0001980816300000142
其中,n表示高频词汇数量,m表示高频共线词语数量,set(i,j)表示二元词组的句子集,set(k)表示高频词汇,score(wi,wj,wk)表示三元词组之间的关联度。
进一步的,所述获取三元词汇组合对应的热点话题具体为:
获取所述三元词汇组合对应的句子;
根据所述三元词汇组合所述在句子的数量,对所述三元词汇组合进行排序、去重,并选取一定数量的三元词汇组合,整合后作为热点话题进行展示。
进一步的,所述获取三元词汇组合对应的热点话题还包括:
将所述三元词汇组合中的词汇作为关键词,通过关键词匹配查找关联直播间,选取关联直播间进行推荐。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种直播热点获取方法,其特征在于,包括:
采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;
选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;
选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;
获取所述三元词汇组合对应的热点话题。
2.根据权利要求1所述的方法,其特征在于,所述直播话题数据至少包括间隔一定时长采集的直播间弹幕数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率具体为:
记录所述直播话题数据中采集的每一条句子,去掉每条句子的停用词,得到每条句子中的词汇;
统计所有词汇出现次数,并按每个词汇出现次数由高到低进行排列。
4.根据权利要求1所述的方法,其特征在于,所述通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语具体为:
根据公式(1)求取句子集合间的共线词语:
Figure FDA0003931920670000011
其中,n表示高频词汇数量,set(i)表示词语i的句子集合,set(j)表示词语j的句子集合,&表示与操作及共线,score(wi,wj)表示二元词组的关联度。
5.根据权利要求1所述的方法,其特征在于,所述求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合具体为:
根据公式(2)求取所述高频共线词语与所述高频词汇的交集:
Figure FDA0003931920670000021
其中,n表示高频词汇数量,m表示高频共线词语数量,set(i,j)表示二元词组的句子集,set(k)表示高频词汇,score(wi,wj,wk)表示三元词组之间的关联度。
6.根据权利要求1所述的方法,其特征在于,所述获取三元词汇组合对应的热点话题具体为:
获取所述三元词汇组合对应的句子;
根据所述三元词汇组合所在句子的数量,对所述三元词汇组合进行由高到低排序,去除重复词汇或词汇组合,选取一定数量的高排名三元词汇组合,整合后作为热点话题进行展示。
7.根据权利要求1或6所述的方法,其特征在于,所述获取所述三元词汇组合对应的热点话题还包括:
将所述三元词汇组合中的词汇作为关键词,通过关键词匹配查找关联直播间,选取关联直播间进行推荐。
8.一种直播热点获取装置,其特征在于,包括:
分词模块,用于采集预定时长内的直播话题数据后,对所述直播话题数据中的语句进行分词处理,并统计所有词汇出现频率;
第一操作模块,用于选取预设数量的高频词汇,构建高频词汇所在句子的集合,通过对所有高频词汇所在句子的集合之间进行与操作,获得句子集合间的共线词语;
第二操作模块,用于选取句子集合间的高频共线词语,求取所述高频共线词语与所述高频词汇的交集,获得三元词汇组合;
获取模块,用于获取所述三元词汇组合对应的热点话题。
9.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项直播热点获取方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述直播热点获取方法的步骤。
CN201910148553.4A 2019-02-28 2019-02-28 一种直播热点获取方法、装置、服务器及存储介质 Active CN109918656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910148553.4A CN109918656B (zh) 2019-02-28 2019-02-28 一种直播热点获取方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910148553.4A CN109918656B (zh) 2019-02-28 2019-02-28 一种直播热点获取方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109918656A CN109918656A (zh) 2019-06-21
CN109918656B true CN109918656B (zh) 2022-12-23

Family

ID=66962688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910148553.4A Active CN109918656B (zh) 2019-02-28 2019-02-28 一种直播热点获取方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109918656B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011182B (zh) * 2019-12-19 2023-10-03 北京多点在线科技有限公司 一种对目标对象进行标签标注的方法、装置和存储介质
CN114615510B (zh) * 2020-12-08 2024-04-02 抖音视界有限公司 直播界面显示方法及设备
CN113011178B (zh) * 2021-03-29 2023-05-16 广州博冠信息科技有限公司 文本生成方法、文本生成装置、电子设备及存储介质
CN113139377A (zh) * 2021-04-26 2021-07-20 北京沃东天骏信息技术有限公司 推送信息的方法、装置、设备和计算机可读介质
CN113420723A (zh) * 2021-07-21 2021-09-21 北京有竹居网络技术有限公司 获取视频热点的方法、装置、可读介质和电子设备
CN114598899B (zh) * 2022-03-15 2023-06-16 中科大数据研究院 一种基于爬虫的弹幕播报分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008106A (zh) * 2013-02-25 2014-08-27 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
CN104077274A (zh) * 2014-06-13 2014-10-01 清华大学 一种从文档集中抽取热词短语的方法和装置
WO2015027909A1 (en) * 2013-08-29 2015-03-05 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining hot-topic information
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008106A (zh) * 2013-02-25 2014-08-27 腾讯科技(深圳)有限公司 一种获取热点话题的方法及装置
WO2015027909A1 (en) * 2013-08-29 2015-03-05 Tencent Technology (Shenzhen) Company Limited Method and apparatus for obtaining hot-topic information
CN104077274A (zh) * 2014-06-13 2014-10-01 清华大学 一种从文档集中抽取热词短语的方法和装置
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法

Also Published As

Publication number Publication date
CN109918656A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109918656B (zh) 一种直播热点获取方法、装置、服务器及存储介质
US11775760B2 (en) Man-machine conversation method, electronic device, and computer-readable medium
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN110413875B (zh) 一种文本信息推送的方法以及相关装置
US7860878B2 (en) Prioritizing media assets for publication
EP2159715B1 (en) System and method for providing a topic-directed search
US8725717B2 (en) System and method for identifying topics for short text communications
CN106682169B (zh) 一种应用标签挖掘方法、装置和应用搜索方法、服务器
US9008489B2 (en) Keyword-tagging of scenes of interest within video content
WO2016112679A1 (zh) 实现智能问答的方法、***和存储介质
US20150269163A1 (en) Providing search recommendation
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
US8255414B2 (en) Search assist powered by session analysis
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN106682170B (zh) 一种应用搜索方法和装置
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
EP2545462A1 (en) System and method for matching entities and synonym group organizer used therein
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
CN112579854A (zh) 信息处理方法、装置、设备和存储介质
CN110889024A (zh) 一种用于计算资讯关联股票的方法和装置
CN105512300B (zh) 信息过滤方法及***
CN111104583A (zh) 一种直播间推荐方法、存储介质、电子设备及***
CN111753526A (zh) 一种相似竞品数据分析方法及***
CN111401039A (zh) 基于二元互信息的词语检索方法、装置、设备及存储介质
US10078686B2 (en) Combination filter for search query suggestions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant