CN109271509B - 直播间话题的生成方法、装置、计算机设备和存储介质 - Google Patents

直播间话题的生成方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109271509B
CN109271509B CN201810969224.1A CN201810969224A CN109271509B CN 109271509 B CN109271509 B CN 109271509B CN 201810969224 A CN201810969224 A CN 201810969224A CN 109271509 B CN109271509 B CN 109271509B
Authority
CN
China
Prior art keywords
topic
title
live broadcast
broadcast room
room
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810969224.1A
Other languages
English (en)
Other versions
CN109271509A (zh
Inventor
李奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201810969224.1A priority Critical patent/CN109271509B/zh
Publication of CN109271509A publication Critical patent/CN109271509A/zh
Application granted granted Critical
Publication of CN109271509B publication Critical patent/CN109271509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种直播间话题的生成方法、装置、计算机设备和存储介质。所述方法包括:在至少一个信息发布平台中,获取满足关注度条件的发布文档;采用相似度匹配条件,将发布文档的标题信息归集于对应的标题集合中;确定与标题集合对应的标题关键词,并根据标题关键词,构造直播间话题。本发明实施例的技术方案解决了现有的话题库构建方式费时费力,人工成本较高且具有一定的信息滞后性的技术缺陷,通过信息平台的发布文档构造直播间话题,实现了去人工的话题构造方法,该方法不但无需人工参与,而且可以实现快速、便捷、实时性高地构造话题,所构造的话题的时效性较高。

Description

直播间话题的生成方法、装置、计算机设备和存储介质
技术领域
本发明实施例涉及数据挖掘技术领域,尤其涉及一种直播间话题的生成方法、装置、计算机设备和存储介质。
背景技术
直播类软件作为一种娱乐工具为用户提供了一种参与式的娱乐方式,由于其具有实时性好、互动性强的特点,使其迅速得到了广大用户的喜爱和追捧。目前在直播过程中主播与观众之间的交流互动一般都是以某一话题作为主线。
直播间的互动话题,既可以是主播在开播时通过语音交互设定的,也可以是主播从话题库中选取的。那么相应地,就需要在直播间开播前,设置完成一个话题库。现有技术中,话题库一般都是由工作人员手动输入的。
发明人在实现本发明的过程中,发现现有技术存在如下缺陷:在建立话题库时,话题库中的内容均是由工作人员手动输入,人力成本高,且其所选择的话题具有一定的信息滞后性。
发明内容
有鉴于此,本发明实施例提供了一种直播间话题的生成方法、装置、计算机设备和存储介质,以优化现有的直播间话题生成方法。
在第一方面,本发明实施例提供了一种直播间话题的生成方法,包括:
在至少一个信息发布平台中,获取满足关注度条件的发布文档;
采用相似度匹配条件,将所述发布文档的标题信息归集于对应的标题集合中;
确定与所述标题集合对应的标题关键词,并根据所述标题关键词,构造直播间话题。
在上述方法中,可选的是,所述关注度条件包括下述至少一项:
阅读量大于等于阅读人数阈值、评论量大于等于评论人数阈值以及点赞量大于等于点赞人数阈值。
在上述方法中,可选的是,确定与所述标题集合对应的标题关键词,包括:
对所述标题集合中包括的至少一个标题信息进行分词处理,得到至少两个分词;
计算各所述分词的词频;
按照词频对各所述分词进行排序,并根据排序结果获取与所述标题集合对应的所述标题关键词。
在上述方法中,可选的是,在计算各所述分词的词频之前,还包括:
根据常用词词库对各所述分词进行常用词过滤。
在上述方法中,可选的是,根据所述标题关键词,构造直播间话题,包括:
将所述标题关键词发送至标签确定平台,获取所述标签确定平台反馈的,与所述标题关键词对应的词语属性标签;
获取与所述词语属性标签对应的标准话题句式,其中,所述标准话题句式中包括用于填充标题关键词的空白项;
将所述标题关键词与所述标准话题句式进行组合,得到所述直播间话题。
在上述方法中,可选的是,在根据所述标题关键词,构造直播间话题之后,还包括:
将所述直播间话题发送至审核平台进行话题审核;
如果接收到所述审核平台反馈的审核通过响应,则将所述直播间话题存储于话题库中;
其中,所述话题库中存储的话题用于提供给主播端进行选择,以使所述主播端选中的目标话题在对应的直播间中进行显示。
在第二方面,本发明实施例提供了一种直播间话题的生成装置,包括:
文档获取模块,用于在至少一个信息发布平台中,获取满足关注度条件的发布文档;
标题归集模块,用于采用相似度匹配条件,将所述发布文档的标题信息归集于对应的标题集合中;
直播间话题构造模块,用于确定与所述标题集合对应的标题关键词,并根据所述标题关键词,构造直播间话题。
在上述装置中,可选的是,所述关注度条件包括下述至少一项:
阅读量大于等于阅读人数阈值、评论量大于等于评论人数阈值以及点赞量大于等于点赞人数阈值。
在第三方面,本发明实施例提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例所述的方法。
在第四方面,本发明实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明任一实施例所述的方法。
本发明实施例提供了一种直播间话题的生成方法、装置、计算机设备和存储介质,通过首先将满足关注度条件的发布文档的标题信息归集至标题集合中,然后根据标题集合对应的关键词构造直播间话题,解决了现有的话题库构建方式费时费力,人工成本较高且具有一定的信息滞后性的技术缺陷,通过信息平台的发布文档构造直播间话题,实现了去人工的话题构造方法,该方法不但无需人工参与,而且可以实现快速、便捷、实时性高地构造话题,所构造的话题的时效性较高。
附图说明
图1是本发明实施例一提供的一种直播间话题的生成方法的流程图;
图2是本发明实施例二提供的一种直播间话题的生成方法的流程图;
图3是本发明实施例三提供的一种直播间话题的生成方法的流程图;
图4是本发明实施例四提供的一种直播间话题的生成装置的结构图;
图5是本发明实施例五提供的一种计算机设备的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种直播间话题的生成方法的流程图,本实施例的方法可以直播间话题的生成装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于服务器和智能移动终端等设备中。本实施例的方法具体包括:
S101、在至少一个信息发布平台中,获取满足关注度条件的发布文档。
在本实施例中,信息发布平台具体可以是新闻网站、新闻类应用程序、微博平台、微信应用程序等。关注度条件具体是指用于体现发布文档的用户关注度的数据所应满足的条件。示例性地,关注度条件具体可以是发布文档的阅读次数、评论数量、转发次数、点赞数量或收藏次数所满足的条件,当然也可以是多个数据(例如阅读次数和评论数量)同时满足的条件。
可以理解的是,信息发布平台一般都会及时地对最新的、最热门的以及社会影响力较高的文档进行发布,并且这些最新的、最热门的以及社会影响力较高的文档也会受到用户的高度关注。因此,从信息发布平台中所获取的满足关注度条件的发布文档应该是当下热门度和流行度较高的文档,由此可以使得根据获取的发布文档所确定的直播间话题的热度和流行度都较高,可以更好地匹配于直播类应用,并用于作为直播间(特别是语音直播间)中讨论的话题。
S102、采用相似度匹配条件,将发布文档的标题信息归集于对应的标题集合中。
在本实施例中,在从信息发布平台中获取满足关注度条件的发布文档之后,首先会对所获取的各个发布文档的标题信息进行相似度匹配,然后根据匹配结果和相似度匹配条件将所获取的发布文档的标题信息进行归集划分,划分至一个或者多个标题集合中。
在本实施例中,对所获取的发布文档的标题信息进行相似度匹配具体可以通过欧几里得距离、欧式距离、余弦相似度、明可夫斯基距离以及曼哈顿距离等计算方法确定两个标题信息之间的相似度。相似度匹配条件具体可以是两个发布文档的标题信息的文本相似度大于设定阈值等。
可以理解的是,上述设定阈值设置得越高,那么一个标题集合中的所有标题信息的相似度就越高,进而该标题集合中的所有标题信息所包含的不同的标题关键词的数量就会越少。
进一步可以理解的是,为了降低直播间话题的相关性(也就是说不同的直播间话题之间的相似度应较低),对于两个相似度较高的标题关键词,可以放弃其中一个标题关键词,只针对另一个关键词构造直播间话题。因此,上述设定阈值不易设置的过高,否则的话,根据不同的标题集合确定的标题关键词的相似度有可能过高,进而导致直播间话题的相关性过高。
在本实施例中,发布文档的标题信息的归集方法具体可以是选取一个标题信息作为待匹配信息,将与该标题信息的相似度满足相似度匹配条件的所有标题信息,以及该标题信息归集至一个标题信息集合中。
S103、确定与标题集合对应的标题关键词,并根据标题关键词,构造直播间话题。
在本实施例中,在将发布文档的标题信息划分为标题集合之后,会确定每一个标题集合所对应的标题关键词。一个标题集合可以对应一个标题关键词,也可以对应多个标题关键词。其中,标题关键词具体可以是在该标题集合中的所有标题信息中出现次数最多的,或出现次数大于设定阈值的词语。
进一步地,在确定标题关键词之后,就可以根据标题关键词的内容构造直播间话题,一个标题关键词具体可以构造一个或多个直播间话题。示例性的,如果标题关键词为“服装”,那么根据“服装”构造的直播间话题具体可以是“你喜欢什么风格的服装”、“你经常购买的服装品牌”等等。
本发明实施例提供了一种直播间话题的生成方法,通过首先将满足关注度条件的发布文档的标题信息归集至标题集合中,然后根据标题集合对应的关键词构造直播间话题,解决了现有的话题库构建方式费时费力,人工成本较高且具有一定的信息滞后性的技术缺陷,通过信息平台的发布文档构造直播间话题,实现了去人工的话题构造方法,该方法不但无需人工参与,而且可以实现快速、便捷、实时性高地构造话题,所构造的话题的时效性较高。
实施例二
图2是本发明实施例二提供的一种直播间话题的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,给出了一种具体化关键词确定方法,同时增加常用词过滤步骤,以及具体化直播间话题构造方法的具体实施方式。
相应的,本实施例的方法具体包括:
S201、在至少一个信息发布平台中,获取满足关注度条件的发布文档。
S202、采用相似度匹配条件,将发布文档的标题信息归集于对应的标题集合中。
S203、对标题集合中包括的至少一个标题信息进行分词处理,得到至少两个分词。
在本实施例中,步骤203至步骤206具体化了标题关键词的确定过程。
由于标题集合中的标题信息满足相似度匹配条件,可知属于一个标题集合中的所有标题信息中的文字内容相似度较高,因此,在本实施例中,可以只使用一个标题集合中的一个标题信息来确定该标题集合对应的一个或多个标题关键词,当然为了提高标题关键词的准确度,优选为使用多个或全部标题信息来确定该标题集合对应的一个或多个标题关键词。
进一步地,如果是使用多个标题信息来确定标题集合对应的一个或多个标题关键词,那么具体可以是从标题集合中随机选取多个标题信息,还可以是根据相似度选取多个标题信息等,本实施例对此不进行限制。
典型的,可以对标题集合中包括的全部标题信息分别进行分词处理,进而可以得到与各个标题信息分别对应的分词结果。
S204、根据常用词词库对各分词进行常用词过滤。
可以理解的是,常用词出现在标题信息中的词频会较高,因此可能会误将常用词确定为标题关键词。所以,在本实施例中,在对标题信息进行分词之后,首先对分词进行常用词的过滤。其中,所述常用词词库具体可以是副词词库、连词词库、介词词库以及助词词库中的一项或者多项。
典型的,所述副词词库中包括有:“了”、“在”、“时”或者“最”等常用副词;所述连词词库中包括有:“以”、“就”、“要”、“用”或者“和”等常用连词;所述介词词库中包括有:“自”、“打”、“向”或者“及”等常用介词;所述助词词库中包括有:“得”、“只”、“给”或者“也”等常用助词。
S205、计算常用词过滤后的各分词的词频。
在本实施例中,标题关键词是根据标题信息分词之后得到的各个分词的词频确定的,因此,在对分词进行常用词过滤之后,就会统计每一个分词的词频,即在与各个标题信息分别对应的分词结果中,各个分词的出现次数。
S206、按照词频对各分词进行排序,并根据排序结果获取与标题集合对应的标题关键词。
在本实施例中,按照词频从大到小或从小到大,对各分词进行排序,然后既可以仅选取词频最高的分词作为标题关键词,也可以选取词频大于设定词频阈值的所有分词均作为标题关键词。
S207、将标题关键词发送至标签确定平台,获取标签确定平台反馈的,与标题关键词对应的词语属性标签。
在本实施例中,步骤207至步骤209具体化了根据标题关键词构造直播间话题的方法。
在本实施例中,一种词语属性标签对应有一套标准话题句式,因此,在确定标题关键词对应的词语属性标签之后,就可以很容易地构造该标题关键词对应的直播间话题。其中,词语属性标签具体可以是人名、地名、服装品牌、化妆品品牌等等。
示例性地,如果词语属性标签为“地名”,那么对应的一套标准话题句式可以包括:“你喜欢XXX吗?”、“你去过XXX吗?”、“你觉得XXX美吗?”等等。其中,“XXX”这一空白位置用于填充标题关键词。
S208、获取与词语属性标签对应的标准话题句式,其中,标准话题句式中包括用于填充标题关键词的空白项。
S209、将标题关键词与标准话题句式进行组合,得到直播间话题。
在本实施例中,具体可以将标题关键词与所有标准话题句式组合,得到标题关键词对应的所有直播间话题。进一步地,如果直播间话题的数量有限制,那么可以根据标题关键词的数量,每一类词语属性标签对应的标准话题句式的数量,确定每一个标题关键词所需组成的直播间话题的数量。
S210、将直播间话题发送至审核平台进行话题审核。
为了确保直播间话题健康,在本实施例中,会将构造的直播间话题发送至审核平台进行话题审核。其中,话题审核的方式具体可以是工作人员进行审核,也可以是通过与不良词语匹配进行审核等,本实施例对此不进行限制。
S211、如果接收到审核平台反馈的审核通过响应,则将直播间话题存储于话题库中,其中,话题库中存储的话题用于提供给主播端进行选择,以使主播端选中的目标话题在对应的直播间中进行显示。
本发明实施例提供了一种直播间话题的生成方法,该方法具体化了关键词的确定方法,提高了标题关键词提取的准确性。同时增加了常用词过滤的步骤,避免了常用词对标题关键词提取的不良干扰,以及具体化了直播间话题构造的方法,实现了快速、简便以及有效地根据标题关键词构造直播间话题。
在上述各实施例的基础上,关注度条件具体可以包括下述至少一项:阅读量大于等于阅读人数阈值、评论量大于等于评论人数阈值以及点赞量大于等于点赞人数阈值。
这样设置的好处是:可以正确、有效地筛选出关注度较高的发布文档。
实施例三
图3是本发明实施例三提供的一种直播间话题的生成方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,给出了一种增加直播间话题设置过程的具体实施方式。
相应的,本实施例的方法具体包括:
S301、在至少一个信息发布平台中,获取满足关注度条件的发布文档。
S302、采用相似度匹配条件,将发布文档的标题信息归集于对应的标题集合中。
S303、确定与标题集合对应的标题关键词,并根据标题关键词,构造直播间话题。
S304、将所有直播间话题存储至设定存储区域,构成话题库。
S305、服务器根据主播端发送的直播间的话题设置指令,从话题库中获取备选话题集合反馈给主播端。
在本实施例中,主播端具体可以是直播间的主播使用的智能移动终端、平板电脑等终端设备。直播间具体是指主播通过使用直播类应用程序所建立的,供直播间用户(观众)进入的虚拟房间,典型的可以是语音直播间或视频直播间等。话题库中包括有多个用于在直播间中进行讨论的合法话题。
在本实施例中,话题设置指令具体可以是用于添加话题的话题设置指令,还可以是用于更换话题的话题设置指令等。具体来说,直播间的主播可以在开播时通过选择话题设置控件使主播端向服务器发送添加话题的话题设置指令,还可以在直播的过程中通过选择更换话题控件使主播端向服务器发送更换话题的话题设置指令。
可以理解的是,用户在使用直播类应用程序并进入直播间时,大部分情况都是直播间已开播一段时间,因此用户在刚刚进入直播间时无法获知直播间的当前交流的话题,使得用户难以快速地融入。因此,在本实施例中,主播会在直播间开播时通过主播端向服务器发送话题设置指令,然后服务器通过步骤305至步骤307所组成的直播间话题设置方法,使主播能够在直播间中显示目标话题。
在本实施例中,服务器从话题库中获取备选话题集合的方式既可以是服务器从话题库中随机选取一定数量的备选话题组成备选话题集合,也可以是服务器根据话题的编号或者话题的生成时间,按照从大到小或从小到大的顺序,获取设定数量的备选话题组成备选话题集合等。典型的,服务器可以记录向同一主播推送的备选话题集合中的各个备选话题,以避免同一备选话题被多次推送给同一主播。
其中,该设定数量具体可以是一个***设置的固定数值,还可以是由主播端自由设置的自定义数值,还可以是依据不同主播端的备选话题显示方式和位置的变化而动态变化的数值等,本实施例对比不进行限制。
进一步地,话题库中所包括的备选话题既可以是直播平台的工作人员预先录入的,也可以是由多个主播(例如,具有一定权限的主播)提供的,还可以是从网络热词中筛选的等,当然也可以是通过上述三种备选话题获取方式中的任意两种方式或全部三种方式获取备选话题,本实施例对此也不进行限制。
S306、服务器接收主播端根据反馈的备选话题集合确定的目标话题。
在本实施例中,主播端在接收到服务器反馈的备选话题集合之后,会将备选话题集合进行显示,以使直播间的主播可以从中选取感兴趣的话题,即目标话题。在主播确定并选取目标话题之后,主播端会将主播所选取的目标话题发送至服务器。
S307、服务器将目标话题推送至直播间中进行显示。
在本实施例中,服务器在接收到目标话题之后,可以将该目标话题推送至直播间中,以使与该直播间对应的全部直播间用户均能查看该目标话题。典型的,可以直接将上述目标话题推送至与主播端关联的全部用户端,以指示用户端在对应的用户侧显示界面的设定显示位置显示该目标话题。
进一步的,还可以同步将上述目标话题同步推送至主播端,以指示主播端在对应的主播侧显示界面的设定显示位置显示该目标话题。
这里需要说明的是,本实施例中的步骤301至步骤307具体可以是同一个服务器执行的,也可以是不同服务器执行的。如果本实施例中的步骤301至步骤307是不同服务器执行的,那么步骤301至步骤304是同一个服务器执行的,步骤305至步骤307是同一个服务器执行的。
本发明实施例提供了一种直播间话题的生成方法,该方法增加了直播间话题设置过程,解决了现有技术中用户需要花费大量时间才能找到感兴趣的直播间的技术缺陷,通过对直播间交流主题的实时展现,使得用户在进入直播间之后可以及时获知直播间的交流主题,大大降低了用户用于确定是否在直播间驻留所需的时间,进而缩短了用户找到感兴趣的直播间所需的时间。此外,本实施例的技术方案还可以使得刚刚进入直播间用户快速融入直播间中正在讨论的话题,提高用户的使用体验。
实施例四
图4是本发明实施例四提供的一种直播间话题的生成装置的结构图。如图4所示,所述装置包括:文档获取模块401、标题归集模块402以及直播间话题构造模块403,其中:
文档获取模块401,用于在至少一个信息发布平台中,获取满足关注度条件的发布文档;
标题归集模块402,用于采用相似度匹配条件,将发布文档的标题信息归集于对应的标题集合中;
直播间话题构造模块403,用于确定与标题集合对应的标题关键词,并根据标题关键词,构造直播间话题。
本发明实施例提供了一种直播间话题的生成装置,该装置首先通过文档获取模块在至少一个信息发布平台中,获取满足关注度条件的发布文档,然后通过标题归集模块采用相似度匹配条件,将发布文档的标题信息归集于对应的标题集合中,最后通过直播间话题构造模块确定与标题集合对应的标题关键词,并根据标题关键词,构造直播间话题。
该装置解决了现有的话题库构建方式费时费力,人工成本较高且具有一定的信息滞后性的技术缺陷,通过信息平台的发布文档构造直播间话题,实现了去人工的话题构造方法,该方法不但无需人工参与,而且可以实现快速、便捷、实时性高地构造话题,所构造的话题的时效性较高。
在上述各实施例的基础上,关注度条件可以包括下述至少一项:
阅读量大于等于阅读人数阈值、评论量大于等于评论人数阈值以及点赞量大于等于点赞人数阈值。
在上述各实施例的基础上,直播间话题构造模块403可以包括:
分词单元,用于对标题集合中包括的至少一个标题信息进行分词处理,得到至少两个分词;
词频计算单元,用于计算各分词的词频;
标题关键词获取单元,用于按照词频对各分词进行排序,并根据排序结果获取与标题集合对应的标题关键词。
在上述各实施例的基础上,还可以包括:
常用词过滤单元,用于在计算各分词的词频之前,根据常用词词库对各分词进行常用词过滤。
在上述各实施例的基础上,直播间话题构造模块403还可以包括:
词语属性标签获取单元,用于将标题关键词发送至标签确定平台,获取标签确定平台反馈的,与标题关键词对应的词语属性标签;
标准话题句式获取单元,用于获取与词语属性标签对应的标准话题句式,其中,标准话题句式中包括用于填充标题关键词的空白项;
直播间话题确定单元,用于将标题关键词与标准话题句式进行组合,得到直播间话题。
在上述各实施例的基础上,还可以包括:
话题发送模块,用于在根据标题关键词,构造直播间话题之后,将直播间话题发送至审核平台进行话题审核;
话题存储模块,用于如果接收到审核平台反馈的审核通过响应,则将直播间话题存储于话题库中;
其中,话题库中存储的话题用于提供给主播端进行选择,以使主播端选中的目标话题在对应的直播间中进行显示。
本发明实施例所提供的直播间话题的生成装置可用于执行本发明任意实施例提供的直播间话题的生成方法,具备相应的功能模块,实现相同的有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,***存储器28,连接不同***组件(包括***存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
***存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在***存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的直播间话题库的建立方法。也即:在至少一个信息发布平台中,获取满足关注度条件的发布文档;采用相似度匹配条件,将所述发布文档的标题信息归集于对应的标题集合中;确定与所述标题集合对应的标题关键词,并根据所述标题关键词,构造直播间话题。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现本发明实施例所提供的直播间话题库的建立方法。也即:在至少一个信息发布平台中,获取满足关注度条件的发布文档;采用相似度匹配条件,将所述发布文档的标题信息归集于对应的标题集合中;确定与所述标题集合对应的标题关键词,并根据所述标题关键词,构造直播间话题。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种直播间话题的生成方法,其特征在于,包括:
在至少一个信息发布平台中,获取满足关注度条件的发布文档;
采用相似度匹配条件,将所述发布文档的标题信息归集于对应的标题集合中;
根据设定阈值对标题关键词进行筛选;
确定与所述标题集合对应的标题关键词,并根据所述标题关键词,构造直播间话题;
将所有直播间话题存储至设定存储区域,构成话题库;
根据主播端发送的直播间的话题设置指令,从话题库中获取备选话题集合反馈给主播端;
接收主播端根据反馈的备选话题集合确定的目标话题;
其中,所述关注度条件包括下述至少一项:
阅读量大于等于阅读人数阈值、评论量大于等于评论人数阈值以及点赞量大于等于点赞人数阈值。
2.根据权利要求1所述的方法,其特征在于,确定与所述标题集合对应的标题关键词,包括:
对所述标题集合中包括的至少一个标题信息进行分词处理,得到至少两个分词;
计算各所述分词的词频;
按照词频对各所述分词进行排序,并根据排序结果获取与所述标题集合对应的所述标题关键词。
3.根据权利要求2所述的方法,其特征在于,在计算各所述分词的词频之前,还包括:
根据常用词词库对各所述分词进行常用词过滤。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述标题关键词,构造直播间话题,包括:
将所述标题关键词发送至标签确定平台,获取所述标签确定平台反馈的,与所述标题关键词对应的词语属性标签;
获取与所述词语属性标签对应的标准话题句式,其中,所述标准话题句式中包括用于填充标题关键词的空白项;
将所述标题关键词与所述标准话题句式进行组合,得到所述直播间话题。
5.根据权利要求1-3任一项所述的方法,其特征在于,在根据所述标题关键词,构造直播间话题之后,还包括:
将所述直播间话题发送至审核平台进行话题审核;
如果接收到所述审核平台反馈的审核通过响应,则将所述直播间话题存储于话题库中;
其中,所述话题库中存储的话题用于提供给主播端进行选择,以使所述主播端选中的目标话题在对应的直播间中进行显示。
6.一种直播间话题的生成装置,其特征在于,包括:
文档获取模块,用于在至少一个信息发布平台中,获取满足关注度条件的发布文档;
标题归集模块,用于采用相似度匹配条件,将所述发布文档的标题信息归集于对应的标题集合中;根据设定阈值对标题关键词进行筛选;
直播间话题构造模块,用于确定与所述标题集合对应的标题关键词,并根据所述标题关键词,构造直播间话题;
将所有直播间话题存储至设定存储区域,构成话题库;
根据主播端发送的直播间的话题设置指令,从话题库中获取备选话题集合反馈给主播端;
接收主播端根据反馈的备选话题集合确定的目标话题;
其中,所述关注度条件包括下述至少一项:
阅读量大于等于阅读人数阈值、评论量大于等于评论人数阈值以及点赞量大于等于点赞人数阈值。
7.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一项所述的方法。
8.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-5中任一项所述的方法。
CN201810969224.1A 2018-08-23 2018-08-23 直播间话题的生成方法、装置、计算机设备和存储介质 Active CN109271509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810969224.1A CN109271509B (zh) 2018-08-23 2018-08-23 直播间话题的生成方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810969224.1A CN109271509B (zh) 2018-08-23 2018-08-23 直播间话题的生成方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN109271509A CN109271509A (zh) 2019-01-25
CN109271509B true CN109271509B (zh) 2021-05-28

Family

ID=65154193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810969224.1A Active CN109271509B (zh) 2018-08-23 2018-08-23 直播间话题的生成方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109271509B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110769270B (zh) * 2019-11-08 2021-10-26 网易(杭州)网络有限公司 直播互动的方法及装置、电子设备、存储介质
CN112199578B (zh) * 2020-08-28 2022-04-22 贝壳找房(北京)科技有限公司 信息处理方法和装置、电子设备和存储介质
CN113411618B (zh) * 2020-11-26 2024-03-22 腾讯科技(深圳)有限公司 基于社交应用的数据处理方法、设备以及计算机存储介质
CN113099253A (zh) * 2021-03-30 2021-07-09 北京达佳互联信息技术有限公司 数据生成方法、装置及电子设备
CN113691825A (zh) * 2021-08-20 2021-11-23 上海哔哩哔哩科技有限公司 业务处理方法及装置
CN114125492B (zh) * 2022-01-24 2022-07-15 阿里巴巴(中国)有限公司 直播内容生成方法以及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN106503030A (zh) * 2015-09-03 2017-03-15 卡西欧计算机株式会社 对话控制装置、对话控制方法
CN107276985A (zh) * 2017-05-16 2017-10-20 德基网络科技南京有限公司 一种基于电子商务平台在线视频管理方法
CN107562843A (zh) * 2017-08-25 2018-01-09 贵州耕云科技有限公司 一种基于标题高频切分的新闻热点短语提取方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646057B1 (en) * 2013-08-05 2017-05-09 Hrl Laboratories, Llc System for discovering important elements that drive an online discussion of a topic using network analysis
CN103617169B (zh) * 2013-10-23 2017-04-05 杭州电子科技大学 一种基于Hadoop的微博热点话题提取方法
CN105488196B (zh) * 2015-12-07 2019-01-22 中国人民大学 一种基于互联语料的热门话题自动挖掘***
CN106874448B (zh) * 2017-02-10 2020-03-06 中国农业大学 一种从微博中挖掘地震主题词的方法和装置
CN107526819A (zh) * 2017-08-29 2017-12-29 江苏飞搏软件股份有限公司 一种面向短文本主题模型的大数据舆情分析方法
CN107894994A (zh) * 2017-10-18 2018-04-10 北京京东尚科信息技术有限公司 一种检测热点话题类别的方法和装置
CN108009149A (zh) * 2017-11-23 2018-05-08 东软集团股份有限公司 一种关键词提取方法、提取装置、介质和电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN106503030A (zh) * 2015-09-03 2017-03-15 卡西欧计算机株式会社 对话控制装置、对话控制方法
CN107276985A (zh) * 2017-05-16 2017-10-20 德基网络科技南京有限公司 一种基于电子商务平台在线视频管理方法
CN107562843A (zh) * 2017-08-25 2018-01-09 贵州耕云科技有限公司 一种基于标题高频切分的新闻热点短语提取方法

Also Published As

Publication number Publication date
CN109271509A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271509B (zh) 直播间话题的生成方法、装置、计算机设备和存储介质
US10546005B2 (en) Perspective data analysis and management
CN108197198B (zh) 一种兴趣点搜索方法、装置、设备和介质
US20140067842A1 (en) Information processing method and apparatus
CN109275047B (zh) 视频信息处理方法及装置、电子设备、存储介质
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
CN111506771B (zh) 一种视频检索方法、装置、设备及存储介质
CN108573393B (zh) 评论信息处理方法、装置、服务器及存储介质
CN111428049A (zh) 一种事件专题的生成方法、装置、设备和存储介质
CN108920649B (zh) 一种信息推荐方法、装置、设备和介质
US20130125008A1 (en) Systems And Methods For Providing Content Streams
CN110737824B (zh) 内容查询方法和装置
US11423219B2 (en) Generation and population of new application document utilizing historical application documents
CN112969079A (zh) 主播的资源分配方法、装置、计算机设备及存储介质
CN112307318B (zh) 一种内容发布方法、***及装置
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
US10042913B2 (en) Perspective data analysis and management
CN113672758A (zh) 歌单生成方法、装置、介质和计算设备
CN110287338B (zh) 行业热点确定方法、装置、设备和介质
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN111556326A (zh) 公开课视频片段推送方法、装置、电子设备、存储介质
CN107391556B (zh) 基于推荐应用的搜索方法、服务器及计算机可读介质
CN114880458A (zh) 书籍推荐信息的生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant