CN112802454B - 一种唤醒词的推荐方法、装置、终端设备及存储介质 - Google Patents

一种唤醒词的推荐方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN112802454B
CN112802454B CN202011633865.3A CN202011633865A CN112802454B CN 112802454 B CN112802454 B CN 112802454B CN 202011633865 A CN202011633865 A CN 202011633865A CN 112802454 B CN112802454 B CN 112802454B
Authority
CN
China
Prior art keywords
score
alternative
keyword
behavior
recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011633865.3A
Other languages
English (en)
Other versions
CN112802454A (zh
Inventor
曹金磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Original Assignee
Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Volkswagen Mobvoi Beijing Information Technology Co Ltd filed Critical Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority to CN202011633865.3A priority Critical patent/CN112802454B/zh
Publication of CN112802454A publication Critical patent/CN112802454A/zh
Application granted granted Critical
Publication of CN112802454B publication Critical patent/CN112802454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种唤醒词的推荐方法、装置、终端设备及存储介质,该方法包括:获取预设时间段内目标用户的网络数据;获取每个内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个备选关键词的文本重要性得分;根据与至少一个内容展示页对应的用户行为类型,确定至少一个内容展示页中每个备选关键词的行为类型得分;根据每个备选关键词的文本重要性得分和行为类型得分,确定每个备选关键词的推荐得分;根据每个备选关键词的推荐得分,确定与目标用户匹配的推荐唤醒词,并展示给目标用户。本发明实施例中公开的技术方案,根据用户的实际关注点和兴趣点,实现了针对不同用户的个性化推送,提升了用户的人机交互体验。

Description

一种唤醒词的推荐方法、装置、终端设备及存储介质
技术领域
本发明实施例涉及语音交互领域,尤其涉及一种唤醒词的推荐方法、装置、终端设备及存储介质。
背景技术
随着科技的不断进步,语音识别技术得到了迅速发展,这也为用户与智能终端设备之间的语音交互提供了技术支持。
用户与智能终端设备之间的人机交互,与人与人之间的交流极为相似,包括了唤醒、响应、输入、理解和反馈等多个环节,在这其中,唤醒是每一次用户与终端设备交互的第一个接触点,唤醒环节的体验在整个语音交互流程中至关重要,它的体验好坏也直接影响用户对产品的第一印象。
现有技术通常是将确定的词组作为唤醒词,例如,将“开始问答”作为唤醒词,或者向用户推荐多个固定的词组搭配,例如,“开始问答”、“请回答”和“我要问”等,由用户选择确定的唤醒词,但这样的推荐方式,不能根据用户的实际需求推荐匹配的唤醒词,无法实现针对不同用户的个性化推送,用户的人机交互体验较差。
发明内容
本发明实施例提供了一种唤醒词的推荐方法、装置、设备及存储介质,以向用户推荐个性化的语音唤醒词。
第一方面,本发明实施例提供了一种唤醒词的推荐方法,包括:
获取预设时间段内目标用户的网络数据;其中,所述网络数据包括至少一个内容展示页,以及与所述至少一个内容展示页对应的用户行为类型;
获取每个所述内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个所述备选关键词的文本重要性得分;
根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分;
根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分;
根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户。
第二方面,本发明实施例提供了一种唤醒词的推荐装置,包括:
网络数据获取模块,用于获取预设时间段内目标用户的网络数据;其中,所述网络数据包括至少一个内容展示页,以及与所述至少一个内容展示页对应的用户行为类型;
文本重要性得分获取模块,用于获取每个所述内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个所述备选关键词的文本重要性得分;
行为类型得分获取模块,用于根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分;
推荐得分获取模块,用于根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分;
唤醒词展示模块,用于根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户。
第三方面,本发明实施例提供了一种终端设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的唤醒词的推荐方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的唤醒词的推荐方法。
本发明实施例中公开的技术方案,根据用户过去一段时间内的网络数据,获取每个内容展示页中的备选关键词,并计算文本重要性得分,同时根据该备选关键词对应的行为类型得分,获取每个备选关键词推荐得分,进而根据推荐得分,确定展示给用户的推荐唤醒词,根据用户的实际关注点和兴趣点,实现了针对不同用户的个性化推送,提升了用户的人机交互体验。
附图说明
图1是本发明实施例一提供的一种唤醒词的推荐方法的流程图;
图2是本发明实施例二提供的一种唤醒词的推荐装置的结构框图;
图3是本发明实施例三提供的一种终端设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种唤醒词的推荐方法的流程图,本实施例可适用根据用户的网络数据,向与用户推荐相关的语音唤醒词,该方法可以由本发明实施例中的唤醒词的推荐装置来执行,该装置可以通过软件和/或硬件实现,并集成在终端设备或服务器中,该方法具体包括如下步骤:
S110、获取预设时间段内目标用户的网络数据;其中,所述网络数据包括至少一个内容展示页,以及与所述至少一个内容展示页对应的用户行为类型。
网络数据,包括用户通过终端设备获取的页面信息,例如,用户通过车载终端设备搜索到的附近路况的展示页面,也包括用户通过与终端设备相关的手机应用程序(Application,APP)和PC(Personal Computer,个人计算机)端软件程序获取的页面信息,还包括通过手机浏览器或PC端浏览器获取的页面信息,例如,根据终端设备的注册账号,通过手机或PC设备中的浏览器,以网页形式获取的页面信息;用户的身份信息,则可以通过终端设备的注册账号进行区分;在本发明实施例中,终端设备为具有语音交互功能的电子设备,对终端设备的类型则不作具体限定。
不同的用户行为,例如,浏览行为、搜索行为、评论行为、点赞行为、收藏行为、添加购物车行为和购买行为等,都会获取到对应的内容展示页,例如,用户在执行购买行为后,可以获取到对应的订单页面和付款页面;用户在执行搜索行为后,可以获取到对应的搜索结果页面;因此,对于获取到的每个内容展示页,都可以获取到与该内容展示页对应的用户行为类型,也即获取到触发该内容展示页的用户行为类型,例如,内容展示页A是通过用户的浏览行为获取到的,内容展示页B是通过用户的搜索行为获取到的。特别的,所述浏览行为包括音频播放行为;音频播放行为包括用户通过访问互联网获取的音频信息,以及通过车载终端设备播放的本地音频信息,音频信息中包括了音频的内容展示页,展示了该音频的类型(例如,音乐、相声和评书等)、曲目名称、对白和/或表演者等信息。可以提取音频内容的关键信息作为备选关键词,例如:当音频的类型为音乐时,可以提取该音乐的名称、该音乐中出现次数最多的名词、该音乐的歌唱者的名称或者该歌唱者的爱好物的名称等;当音频的类型为评书时,可以提取该评书的书名、该评书中主人公的名称、该评书的作者的名称或者该评书中最受欢迎的角色的名称等。
预设时间段内的网络数据,反应了用户过去一段时间内关注的事物信息,与用户具有较强的关联性,也更能引起用户的兴趣,其具体的时间数值可以根据需要设定,例如,预设时间段为5天,也即获取过去5天内目标用户的网络数据;特别的,预设时间段可以与用户的活跃程度相关,活跃程度高,预设时间段则可以设定为较小数值,即较短时间内即可获取到该用户较为丰富的网络数据,以此反应用户的关注点和兴趣点;活跃程度低,预设时间段则需要设定为较大数值,即需要较长时间来获取用户的网络数据,才能准确反应用户的关注点和兴趣点;其中,用户的活跃程度,可以根据该用户每天的平均网络访问时长确定。
S120、获取每个所述内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个所述备选关键词的文本重要性得分。
词频和逆文本频率指数,反应了词汇在所有内容展示页中的重要程度;其中,词频(Term Frequency,TF),表示一个内容展示页中的各个词汇在该内容展示页中出现的频率,频率值越大,该词汇在内容展示页中的重要性越大;例如,词汇“布偶猫”在一个内容展示页中出现了20次,而该内容展示页中共有100个词汇,那么TF数值即为20/100=0.2;逆向文件频率指数(Inverse Document Frequency,IDF),是词汇普遍重要性的度量,如果包含该词汇的内容展示页越少,那么IDF越大,说明该词汇所在的内容展示页越重要,IDF数值可以由内容展示页的总数除以包括该词汇的内容展示页数量,再将得到的结果除以10为底的对数得到,例如,内容展示页的总数为100,各内容展示页中包括“布偶猫”的内容展示页数目为10,经过计算IDF值为
Figure BDA0002880712400000061
最后将IF乘以IDF得到的TF-IDF数值,即为该词汇的文本重要性得分;以上述技术方案为例,词汇“布偶猫”的文本重要性得分为0.2×1=0.2。
内容展示页通常包括了丰富的词汇信息,不需要将每个内容展示页中的所有词汇均作为备选关键词,可以通过筛选的方式,在每个内容展示页中获取出现次数较多的部分词汇作为备选关键词,以减轻终端设备或服务器的计算压力;具体的,所述获取每个所述内容展示页中的备选关键词,包括:获取每个所述内容展示页中,出现次数大于或等于预设最小出现次数的备选关键词;或在每个所述内容展示页中,将各词汇按照出现次数从大到小的顺序进行排列,并在每个所述内容展示页中,根据各词汇的排列顺序获取第一预设数量的备选关键词。可以将每个内容展示页中,出现次数达到一定次数要求(例如,5次)的词汇作为备选关键词;还可以在每个内容展示页中,设定备选关键词的数量要求,即第一预设数量(例如,3个),也即在每个内容展示页中,将出现次数最多的3个词汇作为备选关键词,以减少备选关键词的数量,减轻了终端设备或服务器的计算压力,
S130、根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分。
不同的用户行为,反应了不同程度的用户关注度,例如,用户的浏览行为仅反应了用户的一般性关注,而用户的购买行为,显然为用户非常关注的兴趣点,因此,为不同的用户行为类型,分配不同的行为类型得分,例如,上述技术方案中的浏览行为、搜索行为、评论行为、点赞行为、收藏行为、添加购物车行为和购买行为,其行为类型得分依次递增,分别设定行为类型得分为0.4、0.5、0.6、0.7、0.8、0.9和1。
S140、根据每个所述备选关键词的重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分。
将备选关键词的文本重要性得分和行为类型得分进行乘积运算,乘积运算结果即为该备选关键词的推荐得分,推荐得分越高,词汇本身的文本内容越重要,与用户的关联关系也越大,越匹配用户的关注点和兴趣点。
可选的,在本发明实施例中,在根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分后,还包括:根据每个所述备选关键词对应的单位时间内的用户行为次数,确定每个所述备选关键词的行为次数得分;所述根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分,包括:根据每个所述备选关键词的文本重要性得分、行为类型得分和行为次数得分,确定每个所述备选关键词的推荐得分。
单位时间与上述技术方案中的预设时间段相关,如果预设时间段为过去几天(即以“天”为时间单位),那么单位时间可以设定为一天,如果预设时间段为过去几个月(即以“月”为时间单位),那么单位时间可以设定为一个月;备选关键词对应的单位时间内的用户行为次数,反应了该备选关键词对用户的影响程度,单位时间内的用户行为次数越大,对用户的影响程度越大;例如,一天中,备选关键词A在用户的2次网络行为获取到的内容展示页中出现,而备选关键词B在用户的50次网络行为获取到的内容展示页中出现,显然,备选关键词B对用户的影响要大于备选关键词A。根据单位时间内的用户行为次数所在的次数波段,可以获取对应的行为次数得分,例如,备选关键词在对应的单位时间内的用户行为次数为0至10次时,对应的行为次数得分为1;11次至50次时,对应的行为次数得分为1.5;50次至100次,对应的行为次数得分为1.8,大于100次时,对应的行为次数得分为2。将备选关键词的文本重要性得分、行为类型得分和行为次数得分进行乘积运算,乘积运算结果即为该备选关键词的推荐得分。
可选的,在本发明实施例中,在根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分后,还包括:获取每个所述备选关键词的兴趣衰减得分;其中,所述兴趣衰减得分与所述备选关键词的获取时间和当前时间之间的间隔时间相关;所述根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分,包括:根据每个所述备选关键词的文本重要性得分、行为类型得分和兴趣衰减得分,确定每个所述备选关键词的推荐得分;或根据每个所述备选关键词的文本重要性得分、行为类型得分、行为次数得分和兴趣衰减得分,确定每个所述备选关键词的推荐得分。
用户对一个事物的兴趣度通常会随着时间不断衰减,例如,用户在五天前浏览过一个网页,该网页获取的备选关键词中包括了备选关键词“布偶猫咪”,用户在一天前浏览过一个网页,该网页获取的备选关键词中包括了备选关键词“波斯猫咪”,显然,一天前的浏览内容相比于五天前的浏览内容,更能真实预测用户当前的兴趣点所在,因此,根据每个备选关键词的获取时间与当前时间之间的间隔时间,可以确定出每个备选关键词的兴趣衰减得分,例如,预设时间段为5天,那么对应的上述间隔时间可以为5天、4天、3天、2天和1天,兴趣衰减得分可以分别设定为0.6、0.7、0.8、0.9和1,即兴趣衰减得分随间隔时间的变短而增加。
可选的,在本发明实施例中,所述获取每个所述备选关键词的兴趣衰减得分,包括:基于如下公式获取每个所述备选关键词的兴趣衰减得分
ni=ki×exp(-mi×ti) (式1-1)
其中,mi为衰减系数,ti为备选关键词的获取时间和当前时间之间的间隔时间,ki为备选关键词的初始兴趣得分,ni为备选关键词的兴趣衰减得分,exp为以e为底的指数函数,i为与备选关键词对应的用户行为类型的编号。
以上述技术方案为例,浏览行为、搜索行为、评论行为、点赞行为、收藏行为、添加购物车行为和购买行为的编号分别为1至7,也即i值分别为1至7。不同的用户行为类型,其初始兴趣得分也不相同,行为类型得分越高,对应的初始兴趣得分越高,相同间隔时间下的兴趣衰减得分也越高;例如,浏览行为反应了用户的一般性关注,那么相应的,该用户行为类型下的备选关键词的初始兴趣得分较低,经过时间衰减后,兴趣衰减得分会更低;购买行为显然为用户非常关注的兴趣点,那么相应的,该用户行为类型下的备选关键词的初始兴趣得分较高,虽然经过一段时间的衰减,但兴趣衰减得分依然可能保持一个较高的数值;由此,为不同的用户行为类型,预设不同的初始兴趣得分和间隔时间为预设时间段后的兴趣衰减得分,并最终计算出与每个用户行为类型分别匹配的衰减系数,由此,获取到与每个用户行为类型分别对应的兴趣衰减得分的计算公式。
例如,浏览行为(对应的i值为1)的初始兴趣得分k1设定为100,预设时间段为5天,期望在5天后的兴趣衰减得分为1,即t1值为5时,n1值为1,由此可以计算获取对应的衰减系数m1为0.921,相应的式1-1具体可变为n1=100×exp(-0.921×t1),由此根据各备选关键词的获取时间和当前时间之间的间隔时间t1,即可以获取到该备选关键词的兴趣衰减得分n1
S150、根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户。
在用户唤醒终端设备,或者用户修改终端设备的唤醒词时,将推荐得分最高的一个或多个备选关键词作为推荐唤醒词,以TTS(Text To Speech,从文本到语音)播报的形式,和/或在屏幕上展示的形式,向用户进行推送。
可选的,在本发明实施例中,所述根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户,包括:将各所述备选关键词进行分类处理,并分别获取各分类类别下推荐得分最高的备选关键词作为备选推荐词;在各所述备选推荐词中,获取推荐得分最高且为第二预设数量的唤醒推荐词,并展示给所述目标用户。对各备选关键词进行的分类处理,包括将获取到的各个备选关键词进行关键词聚类,例如,通过Word2vec(word to vector,词向量)模型进行关键词聚类,以聚合形成不同的分类类别;还包括预先设定多个分类类别,在获取到各个备选关键词后,根据词义划分入各个分类类别中。对备选关键词进行的分类处理,并在各分类类别下分别获取唤醒推荐词,从多个不同的角度向用户推荐了关联性较强的唤醒词,进一步扩展了推荐词汇涉及的推荐范围,避免了单一类别下,推荐唤醒词多样性较差的问题发生。例如,用户在过去5天内获取的网络数据多数与“猫”相关,根据各备选关键词的推荐得分,可以确定得分最高的备选关键词依次为“布偶猫”、“波斯猫”、“孟加拉猫”、“滑板”和“口红”等,如果唤醒推荐词的数量(即第二预设数量)为3个,显然推荐唤醒词应为“布偶猫”、“波斯猫”和“孟加拉猫”;但实质上上述三个备选关键词均在同一类别(即类别“猫”)下,即使只向用户推荐其中的一个(即仅将推荐得分最高的“布偶猫”作为推荐唤醒词),用户也能联想到其它两个备选关键词,依然能够根据推荐,设定符合自己需求的唤醒词;因此,在不同的分类类别下,最终确定的三个推荐唤醒词分别为“布偶猫”(对应的类别为“猫”)、“滑板”(对应的类别为“运动器材”)和“口红”(对应的类别为“化妆品”),实现了唤醒词的多角度推送。
本发明实施例中公开的技术方案,根据用户过去一段时间内的网络数据,获取每个内容展示页中的备选关键词,并计算文本重要性得分,同时根据该备选关键词对应的行为类型得分,获取每个备选关键词推荐得分,进而根据推荐得分,确定展示给用户的推荐唤醒词,根据用户的实际关注点和兴趣点,实现了针对不同用户的个性化推送,提升了用户的人机交互体验。
实施例二
图2是本发明实施例二所提供的一种唤醒词的推荐装置的结构框图,该装置具体包括:网络数据获取模块210、文本重要性得分获取模块220、行为类型得分获取模块230、推荐得分获取模块240和唤醒词展示模块250;
网络数据获取模块210,用于获取预设时间段内目标用户的网络数据;其中,所述网络数据包括至少一个内容展示页,以及与所述至少一个内容展示页对应的用户行为类型;
文本重要性得分获取模块220,用于获取每个所述内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个所述备选关键词的文本重要性得分;
行为类型得分获取模块230,用于根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分;
推荐得分获取模块240,用于根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分;
唤醒词展示模块250,用于根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户。
本发明实施例中公开的技术方案,根据用户过去一段时间内的网络数据,获取每个内容展示页中的备选关键词,并计算文本重要性得分,同时根据该备选关键词对应的行为类型得分,获取每个备选关键词推荐得分,进而根据推荐得分,确定展示给用户的推荐唤醒词,根据用户的实际关注点和兴趣点,实现了针对不同用户的个性化推送,提升了用户的人机交互体验。
可选的,在上述技术方案的基础上,所述用户行为类型包括浏览行为、搜索行为、评论行为、点赞行为、收藏行为、添加购物车行为和/或购买行为。
可选的,在上述技术方案的基础上,文本重要性得分获取模块220,具体用于获取每个所述内容展示页中,出现次数大于或等于预设最小出现次数的备选关键词;或在每个所述内容展示页中,将各词汇按照出现次数从大到小的顺序进行排列,并在每个所述内容展示页中,根据各词汇的排列顺序获取第一预设数量的备选关键词。
可选的,在上述技术方案的基础上,唤醒词的推荐装置,还包括:
行为次数得分获取模块,用于根据每个所述备选关键词对应的单位时间内的用户行为次数,确定每个所述备选关键词的行为次数得分。
可选的,在上述技术方案的基础上,推荐得分获取模块240,具体用于根据每个所述备选关键词的文本重要性得分、行为类型得分和行为次数得分,确定每个所述备选关键词的推荐得分。
可选的,在上述技术方案的基础上,唤醒词的推荐装置,还包括:
兴趣衰减得分获取模块,用于获取每个所述备选关键词的兴趣衰减得分;其中,所述兴趣衰减得分与所述备选关键词的获取时间和当前时间之间的间隔时间相关。
可选的,在上述技术方案的基础上,推荐得分获取模块240,具体用于根据每个所述备选关键词的文本重要性得分、行为类型得分和兴趣衰减得分,确定每个所述备选关键词的推荐得分;或根据每个所述备选关键词的文本重要性得分、行为类型得分、行为次数得分和兴趣衰减得分,确定每个所述备选关键词的推荐得分。
可选的,在上述技术方案的基础上,兴趣衰减得分获取模块,具体用于基于如下公式获取每个所述备选关键词的兴趣衰减得分
ni=ki×exp(-mi×ti)
其中,mi为衰减系数,ti为备选关键词的获取时间和当前时间之间的间隔时间,ki为备选关键词的初始兴趣得分,ni为备选关键词的兴趣衰减得分,exp为以e为底的指数函数,i为与备选关键词对应的用户行为类型的编号。
可选的,在上述技术方案的基础上,唤醒词展示模块250,具体包括:
分类执行单元,用于将各所述备选关键词进行分类处理,并分别获取各分类类别下推荐得分最高的备选关键词作为备选推荐词;
唤醒词展示单元,用于在各所述备选推荐词中,获取推荐得分最高且为第二预设数量的唤醒推荐词,并展示给所述目标用户。
可选的,在上述技术方案的基础上,所述浏览行为包括音频播放行为。
上述装置可执行本发明任意实施例所提供的唤醒词的推荐方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的方法。
实施例三
图3为本发明实施例三提供的一种终端设备的结构示意图。图3示出了适于用来实现本发明实施方式的示例性终端设备12的框图。图3显示的终端设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,终端设备12以通用计算设备的形式表现。终端设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,存储器28,连接不同***组件(包括存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,***总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。
终端设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被终端设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机***可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。终端设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例,存储***34可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
终端设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该终端设备12交互的设备通信,和/或与使得该终端设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,终端设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与终端设备12的其它模块通信。应当明白,尽管图中未示出,可以结合终端设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
处理单元16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例提供的唤醒词的推荐方法。也即:获取预设时间段内目标用户的网络数据;其中,所述网络数据包括至少一个内容展示页,以及与所述至少一个内容展示页对应的用户行为类型;获取每个所述内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个所述备选关键词的文本重要性得分;根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分;根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分;根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户。
实施例四
本发明实施例四还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所述的唤醒词的推荐方法;该方法包括:
获取预设时间段内目标用户的网络数据;其中,所述网络数据包括至少一个内容展示页,以及与所述至少一个内容展示页对应的用户行为类型;
获取每个所述内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个所述备选关键词的文本重要性得分;
根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分;
根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分;
根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被提示执行***、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由提示执行***、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (15)

1.一种唤醒词的推荐方法,其特征在于,包括:
获取预设时间段内目标用户的网络数据;其中,所述网络数据包括至少一个内容展示页,以及与所述至少一个内容展示页对应的用户行为类型;所述用户行为类型用于触发所述内容展示页;
获取每个所述内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个所述备选关键词的文本重要性得分;
根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分;
根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分;
根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户。
2.根据权利要求1所述的方法,其特征在于,所述用户行为类型包括浏览行为、搜索行为、评论行为、点赞行为、收藏行为、添加购物车行为和/或购买行为。
3.根据权利要求1所述的方法,其特征在于,所述获取每个所述内容展示页中的备选关键词,包括:
获取每个所述内容展示页中,出现次数大于或等于预设最小出现次数的备选关键词;
或在每个所述内容展示页中,将各词汇按照出现次数从大到小的顺序进行排列,并在每个所述内容展示页中,根据各词汇的排列顺序获取第一预设数量的备选关键词。
4.根据权利要求1所述的方法,其特征在于,在根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分后,还包括:
根据每个所述备选关键词对应的单位时间内的用户行为次数,确定每个所述备选关键词的行为次数得分;
所述根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分,包括:
根据每个所述备选关键词的文本重要性得分、行为类型得分和行为次数得分,确定每个所述备选关键词的推荐得分。
5.根据权利要求1或4所述的方法,其特征在于,在根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分后,还包括:
获取每个所述备选关键词的兴趣衰减得分;其中,所述兴趣衰减得分与所述备选关键词的获取时间和当前时间之间的间隔时间相关;
所述根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分,包括:
根据每个所述备选关键词的文本重要性得分、行为类型得分和兴趣衰减得分,确定每个所述备选关键词的推荐得分;
或根据每个所述备选关键词的文本重要性得分、行为类型得分、行为次数得分和兴趣衰减得分,确定每个所述备选关键词的推荐得分。
6.根据权利要求5所述的方法,其特征在于,所述获取每个所述备选关键词的兴趣衰减得分,包括:
基于如下公式获取每个所述备选关键词的兴趣衰减得分
ni=ki×exp(-mi×ti)
其中,mi为衰减系数,ti为备选关键词的获取时间和当前时间之间的间隔时间,ki为备选关键词的初始兴趣得分,ni为备选关键词的兴趣衰减得分,exp为以e为底的指数函数,i为与备选关键词对应的用户行为类型的编号。
7.根据权利要求1所述的方法,其特征在于,所述根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户,包括:
将各所述备选关键词进行分类处理,并分别获取各分类类别下推荐得分最高的备选关键词作为备选推荐词;
在各所述备选推荐词中,获取推荐得分最高且为第二预设数量的唤醒推荐词,并展示给所述目标用户。
8.根据权利要求2所述的方法,其特征在于,所述浏览行为包括音频播放行为。
9.一种唤醒词的推荐装置,其特征在于,包括:
网络数据获取模块,用于获取预设时间段内目标用户的网络数据;其中,所述网络数据包括至少一个内容展示页,以及与所述至少一个内容展示页对应的用户行为类型;所述用户行为类型用于触发所述内容展示页;
文本重要性得分获取模块,用于获取每个所述内容展示页中的备选关键词,并根据词频和逆文本频率指数,获取每个所述备选关键词的文本重要性得分;
行为类型得分获取模块,用于根据与所述至少一个内容展示页对应的用户行为类型,确定所述至少一个内容展示页中每个所述备选关键词的行为类型得分;
推荐得分获取模块,用于根据每个所述备选关键词的文本重要性得分和行为类型得分,确定每个所述备选关键词的推荐得分;
唤醒词展示模块,用于根据每个所述备选关键词的推荐得分,确定与所述目标用户匹配的推荐唤醒词,并展示给所述目标用户。
10.根据权利要求9所述的装置,其特征在于,所述唤醒词的推荐装置,还包括:
行为次数得分获取模块,用于根据每个所述备选关键词对应的单位时间内的用户行为次数,确定每个所述备选关键词的行为次数得分;
所述推荐得分获取模块,具体用于根据每个所述备选关键词的文本重要性得分、行为类型得分和行为次数得分,确定每个所述备选关键词的推荐得分。
11.根据权利要求9或10所述的装置,其特征在于,所述唤醒词的推荐装置,还包括:
兴趣衰减得分获取模块,用于获取每个所述备选关键词的兴趣衰减得分;其中,所述兴趣衰减得分与所述备选关键词的获取时间和当前时间之间的间隔时间相关;
所述推荐得分获取模块,具体用于根据每个所述备选关键词的文本重要性得分、行为类型得分和兴趣衰减得分,确定每个所述备选关键词的推荐得分;或根据每个所述备选关键词的文本重要性得分、行为类型得分、行为次数得分和兴趣衰减得分,确定每个所述备选关键词的推荐得分。
12.根据权利要求11所述的装置,其特征在于,所述兴趣衰减得分获取模块,具体用于基于如下公式获取每个所述备选关键词的兴趣衰减得分
ni=ki×exp(-mi×ti)
其中,mi为衰减系数,ti为备选关键词的获取时间和当前时间之间的间隔时间,ki为备选关键词的初始兴趣得分,ni为备选关键词的兴趣衰减得分,exp为以e为底的指数函数,i为与备选关键词对应的用户行为类型的编号。
13.根据权利要求9所述的装置,其特征在于,所述唤醒词展示模块,具体包括:
分类执行单元,用于将各所述备选关键词进行分类处理,并分别获取各分类类别下推荐得分最高的备选关键词作为备选推荐词;
唤醒词展示单元,用于在各所述备选推荐词中,获取推荐得分最高且为第二预设数量的唤醒推荐词,并展示给所述目标用户。
14.一种终端设备,其特征在于,所述终端设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的唤醒词的推荐方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的唤醒词的推荐方法。
CN202011633865.3A 2020-12-31 2020-12-31 一种唤醒词的推荐方法、装置、终端设备及存储介质 Active CN112802454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011633865.3A CN112802454B (zh) 2020-12-31 2020-12-31 一种唤醒词的推荐方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011633865.3A CN112802454B (zh) 2020-12-31 2020-12-31 一种唤醒词的推荐方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN112802454A CN112802454A (zh) 2021-05-14
CN112802454B true CN112802454B (zh) 2023-02-21

Family

ID=75808578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011633865.3A Active CN112802454B (zh) 2020-12-31 2020-12-31 一种唤醒词的推荐方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN112802454B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343084A (zh) * 2021-05-25 2021-09-03 北京字节跳动网络技术有限公司 发文关键字段推送方法、装置、存储介质及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664513A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 用于推送关键词的方法、装置以及设备
CN109615487A (zh) * 2019-01-04 2019-04-12 平安科技(深圳)有限公司 基于用户行为的产品推荐方法、装置、设备及存储介质
CN111414498A (zh) * 2020-04-29 2020-07-14 北京字节跳动网络技术有限公司 多媒体信息推荐方法、装置及电子设备
CN111723260A (zh) * 2019-03-19 2020-09-29 百度在线网络技术(北京)有限公司 推荐内容的获取方法、装置、电子设备及可读存储介质
CN111949887A (zh) * 2020-08-31 2020-11-17 华东理工大学 物品推荐方法、装置及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5395461B2 (ja) * 2009-02-27 2014-01-22 株式会社東芝 情報推薦装置、情報推薦方法および情報推薦プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664513A (zh) * 2017-03-31 2018-10-16 北京京东尚科信息技术有限公司 用于推送关键词的方法、装置以及设备
CN109615487A (zh) * 2019-01-04 2019-04-12 平安科技(深圳)有限公司 基于用户行为的产品推荐方法、装置、设备及存储介质
CN111723260A (zh) * 2019-03-19 2020-09-29 百度在线网络技术(北京)有限公司 推荐内容的获取方法、装置、电子设备及可读存储介质
CN111414498A (zh) * 2020-04-29 2020-07-14 北京字节跳动网络技术有限公司 多媒体信息推荐方法、装置及电子设备
CN111949887A (zh) * 2020-08-31 2020-11-17 华东理工大学 物品推荐方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN112802454A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
US10417344B2 (en) Exemplar-based natural language processing
US10733197B2 (en) Method and apparatus for providing information based on artificial intelligence
CN110069608B (zh) 一种语音交互的方法、装置、设备和计算机存储介质
US9280595B2 (en) Application query conversion
US9852215B1 (en) Identifying text predicted to be of interest
CN109299316B (zh) 音乐推荐方法、装置和计算机设备
US10810374B2 (en) Matching a query to a set of sentences using a multidimensional relevancy determination
US20110099003A1 (en) Information processing apparatus, information processing method, and program
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN110147494B (zh) 信息搜索方法、装置,存储介质及电子设备
AU2018250372B2 (en) Method to construct content based on a content repository
CN113806588A (zh) 搜索视频的方法和装置
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
Arguello et al. Using query performance predictors to reduce spoken queries
CN106202087A (zh) 一种信息推荐方法及装置
US20120239382A1 (en) Recommendation method and recommender computer system using dynamic language model
CN112802454B (zh) 一种唤醒词的推荐方法、装置、终端设备及存储介质
US20230401250A1 (en) Systems and methods for generating interactable elements in text strings relating to media assets
JP4883644B2 (ja) リコメンド装置、リコメンドシステム、リコメンド装置の制御方法、およびリコメンドシステムの制御方法
WO2016103519A1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
CN113407775A (zh) 视频搜索方法、装置及电子设备
CN111460177A (zh) 影视类表情搜索方法、装置、存储介质、计算机设备
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
US11768867B2 (en) Systems and methods for generating interactable elements in text strings relating to media assets
JP2016177690A (ja) サービス推薦装置およびサービス推薦方法並びにサービス推薦プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant