CN108241667A - 用于推送信息的方法和装置 - Google Patents
用于推送信息的方法和装置 Download PDFInfo
- Publication number
- CN108241667A CN108241667A CN201611216735.3A CN201611216735A CN108241667A CN 108241667 A CN108241667 A CN 108241667A CN 201611216735 A CN201611216735 A CN 201611216735A CN 108241667 A CN108241667 A CN 108241667A
- Authority
- CN
- China
- Prior art keywords
- phrase
- frequency
- candidate keywords
- target text
- pushed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
- G06Q30/0256—User search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了用于推送信息的方法和装置。该方法的一具体实施方式包括:将目标文本进行分词,生成短语集合;计算短语集合中各个短语在目标文本中的词频逆向文件频率;获取预设的候选关键词与各个短语的相似度;根据各个短语在目标文本中的词频逆向文件频率、候选关键词与各个短语的相似度,计算候选关键词与目标文本的相关度;根据预设的相关度阈值,或者根据相关度和预设的推送数量,从候选关键词中选取出待推送的候选关键词,并向第一用户终端推送待推送的候选关键词。该实施方式提高了信息推送的准确性。
Description
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及用于推送信息的方法和装置。
背景技术
搜索广告是互联网商业变现市场的一个重要组成部分。借助匹配网民搜索的问题与广告主购买的关键词之间的相关度,搜索引擎向网民展示他们可能感兴趣的广告,并通过网民的点击向广告主收取一定的费用,从而实现搜索引擎、网民、广告主三者的共赢。在这个过程中,广告主购买的关键词是连接三者的一个重要纽带。因此,如何选择合适的关键词,是众多广告主和搜索引擎营销(Search Engine Marketing,SEM)公司面临的基本问题之一。
然而,现有的关键词筛选方式通常是从广告主的已经购买的词语出发,计算它们与候选关键词的字面相关性,作为广告主业务与候选关键词的相关性,但是这种方式存在着准确性低下的问题。
发明内容
本申请的目的在于提出一种改进的用于推送信息的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种用于推送信息的方法,该方法包括:将目标文本进行分词,生成短语集合;计算短语集合中各个短语在目标文本中的词频逆向文件频率;获取预设的候选关键词与各个短语的相似度;根据各个短语在目标文本中的词频逆向文件频率、候选关键词与各个短语的相似度,计算候选关键词与目标文本的相关度;根据预设的相关度阈值,或者根据相关度和预设的推送数量,从候选关键词中选取出待推送的候选关键词,并向第一用户终端推送待推送的候选关键词。
在一些实施例中,根据各个短语在目标文本中的词频逆向文件频率、候选关键词与各个短语的相似度,计算候选关键词与目标文本的相关度,包括:对于短语集合中的每个短语,利用候选关键词与该短语的相似度乘以该短语在目标文本中的词频逆向文件频率,并将得到的各个乘积相加,得到候选关键词与目标文本的相关度。
在一些实施例中,在向第一用户终端推送待推送的候选关键词之后,该方法还包括:建立待推送的候选关键词与目标文本的对应关系;响应于检测到第二用户终端对待推送的候选关键词的检索操作,向第二用户终端推送与待推送的候选关键词对应的文本。
在一些实施例中,计算短语集合中各个短语在目标文本中的词频逆向文件频率,包括:统计各个短语在预设的文本集合中出现的逆向文件频率;统计各个短语在目标文本中出现的频率;计算逆文档频率与频率的乘积作为各个词语的词频逆向文件频率。
在一些实施例中,在生成短语集合之后,该方法还包括:删除短语集合中的停用词。
第二方面,本申请提供了一种用于推送信息的装置,该装置包括:生成单元,配置用于将目标文本进行分词,生成短语集合;第一计算单元,配置用于计算短语集合中各个短语在目标文本中的词频逆向文件频率;获取单元,配置用于获取预设的候选关键词与各个短语的相似度;第二计算单元,配置用于根据各个短语在目标文本中的词频逆向文件频率、候选关键词与各个短语的相似度,计算候选关键词与目标文本的相关度;第一推送单元,配置用于根据预设的相关度阈值,或者根据相关度和预设的推送数量,从候选关键词中选取出待推送的候选关键词,并向第一用户终端推送待推送的候选关键词。
在一些实施例中,第二计算单元进一步配置用于:对于短语集合中的每个短语,利用候选关键词与该短语的相似度乘以该短语在目标文本中的词频逆向文件频率,并将得到的各个乘积相加,得到候选关键词与目标文本的相关度。
在一些实施例中,该装置还包括:建立单元,配置用于建立待推送的候选关键词与目标文本的对应关系;第二推送单元,配置用于响应于检测到第二用户终端对待推送的候选关键词的检索操作,向第二用户终端推送与待推送的候选关键词对应的文本。
在一些实施例中,第一计算单元包括:第一统计模块,配置用于统计各个短语在预设的文本集合中出现的逆向文件频率;第二统计模块,配置用于统计各个短语在目标文本中出现的频率;计算模块,配置用于计算逆文档频率与频率的乘积作为各个词语的词频逆向文件频率。
在一些实施例中,该装置还包括:删除单元,配置用于删除短语集合中的停用词。
本申请提供的用于推送信息的方法和装置,基于目标文本中的各个短语与候选关键词的相似度以及各个短语在目标文本中的词频逆向文件频率,得到各个候选关键词与目标文本的相关度,再基于相关度进行信息推送,从而提高了信息推送的准确性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的用于推送信息的方法的一个实施例的流程图;
图3是根据本申请的用于推送信息的方法的又一个实施例的流程图;
图4是根据本申请的用于推送信息的装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的服务器的计算机***的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于推送信息的方法或用于推送信息的装置的实施例的示例性***架构100。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户110可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、搜索类应用、网页浏览器应用、即时通信工具、邮箱客户端、社交平台软件、支付软件等。
终端设备101、102、103可以是具有显示屏并且支持数据接收与发送的各种电子设备,包括但不限于智能手机、平板电脑、智能手表、膝上型便携计算机和台式计算机等等。终端设备101、102、103可以是第一用户终端设备,例如广告主所在的终端设备;终端设备101、102、103也可以是第二用户终端设备,例如检索用户所在的终端设备。
服务器105可以是提供各种服务的服务器,例如对目标文本与候选关键词提供支持的后台服务器。后台服务器可以对目标文本与候选关键词进行分析等处理,并将处理结果(例如待推送的候选关键词)反馈给终端设备。
需要说明的是,本申请实施例所提供的用于推送信息的方法一般由服务器105执行,相应地,用于推送信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于推送信息的方法的一个实施例的流程200。该用于推送信息的方法,包括以下步骤:
步骤201,将目标文本进行分词,生成短语集合。
在本实施例中,用于推送信息的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式将预先获取的目标文本(例如,广告创意文本)进行分词,以生成短语集合。上述电子设备可以采用多种分词方法对目标文本进行分词,分词方法包括但不限于基于词典的分词方法(例如,最大匹配(Maximum Matching)算法、邻近匹配(Proximity Matching)算法、最短路径匹配(Shortest Path Matching)算法和基于统计的最短路径分词算法等),基于统计的分词方法(例如,采用N元文法模型(N-gram)或隐马尔科夫模型(Hidden Markov Model,HMM)的统计分词方法),基于规则的分词方法和基于人工智能技术的中文分词方法等等。作为示例,当目标文本为“走便南北喝豆浆,还是我家豆浆香”时,可以对该目标文本进行分词,生成的短语集合可以为“走、走遍、南、北、南北、豆浆、喝豆浆、还是、还、是、我家、香、豆浆香”。
在本实施例的一些可选的实现方式中,在生成短语集合之后,可以删除上述短语集合中的停用词。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(StopWords)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。上述电子设备可以将短语集合中的短语与停用词表中的词语进行比对,将出现在停用词表中的短语删除。例如,当“还是”出现在停用词表中时,则将短语集合中的“还是”删除。
步骤202,计算短语集合中各个短语在目标文本中的词频逆向文件频率。
在本实施例中,上述电子设备可以计算步骤201中生成的短语集合中各个短语在上述目标文本中的词频逆向文件频率,也可称为词频-逆向文件频率(Term Frequency-Inverse Document Frequency,TF-IDF),即计算各个短语对于上述目标文本的重要性。上述词频-逆向文件频率方法的主要思想是,如果某个词或短语在一篇文章中出现的频率(Term Frequency,TF)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。而逆向文件频率(Inverse Document Frequency,IDF)主要是指,如果包含某个词或短语的文档越少,则IDF越大,则说明该词或短语具有很好的类别区分能力。由此,使用词频-逆向文件频率方法,可以计算某个词或短语在某篇文章里面的重要性。
在本实施例的一些可选的实现方式中,上述电子设备可以首先统计各个短语在预设的文本集合中出现的逆向文件频率,可以对文本集合中的所有文本进行分词,统计各个短语在所有文本的短语集合中出现的逆向文件频率,也可以统计预设的文本集合中包含各个短语中的每个短语的文本的数量,之后利用所有文本数量除以包含该短语的文本的数量得到该短语的逆向文件频率,其中,当上述目标文本为广告创意文本时,上述文本集合可以是所有广告创意文本所组成的集合,也可以是与上述目标文本的相关度大于预设相关度阈值的广告创意文本所组成的集合,还可以是上述目标文本所属用户的账户中的所有广告创意文本所组成的集合;之后,上述电子设备可以统计各个短语在上述文本集合中出现的频率;最后,可以将上述统计出的逆向文件频率与上述统计出的频率的乘积作为该词语的词频逆向文件频率。
步骤203,获取预设的候选关键词与各个短语的相似度。
在本实施例中,上述电子设备可以首先获取预设的候选关键词,如可以采用推荐算法(例如,协同过滤(Collaborative Filtering)算法、基于内容的推荐算法等)获取候选关键词,例如,当采用协同过滤算法获取用户的候选关键词时,通常首先要收集用户针对关键词的历史行为数据,比如用户的购买历史,关注,收藏行为,评论和打分行为等;之后,基于用户的历史行为数据利用相似度算法(例如,欧几里德距离(Euclidean distance)、皮尔森相关系数(Pearson Correlation Coefficient)等等)计算该用户与其他用户之间的相似度或者用户感兴趣的关键词与其他关键词之间的相似度;最后,可以基于该用户对关键词的偏好找到与该用户具有相同偏好的邻居用户,然后将邻居用户感兴趣的关键词作为候选关键词,或者将与该用户感兴趣的关键词的相似度高的其它关键词作为候选关键词。然后,可以将上述候选关键词与各个短语进行相似度计算,可以采用余弦相似度(cosinesimilarity)算法等的公知的相似度计算方法来进行相似度计算。
步骤204,根据各个短语在目标文本中的词频逆向文件频率、候选关键词与各个短语的相似度,计算候选关键词与目标文本的相关度。
在本实施例中,上述电子设备可以根据步骤202中计算的各个短语在上述目标文本中的词频逆向文件频率和步骤203中获取的候选关键词与各个短语的相似度,计算该候选关键词与目标文本的相关度。作为示例,可以将最大词频逆向文件频率的短语的词频逆向文件频率与候选关键词和该短语的相似度的乘积作为该候选关键词与目标文本的相关度;也可以将词频逆向文件频率大于预设的频率阈值的各个短语中每个短语的词频逆向文件频率乘以该候选关键词与该短语的相似度,再将乘积相加得到该候选关键词与目标文本的相关度。
在本实施例的一些可选的实现方式中,对于上述文本集合中的每个词语,可以利用候选关键词与该词语的相似度乘以该词语在上述目标文本中词频逆向文件频率,并将得到的各个乘积相加,以得到上述候选关键词与上述目标文本的相关度,可以通过下述公式(1)计算候选关键词与目标文本的相关度。
其中,q为候选关键词,s为目标文本,sim(q,s)为候选关键词与目标文本的相关度,si为短语集合中的第i个短语,sim(q,si)为候选关键词与短语集合中的第i个短语的相似度,wi为si对应的词频逆向文件频率。
作为示例,当目标文本为“走便南北喝豆浆,还是我家豆浆香”时,生成的短语集合可以为“走遍、南北、豆浆、喝豆浆、还是、我家、豆浆香”,去除停用词之后的短语集合可以为“走遍、南北、豆浆、喝豆浆、我家、豆浆香”,“走遍”、“南北”、“豆浆”、“喝豆浆”、“我家”、“豆浆香”在上述目标文本中的词频逆向文件频率分别为2.5、3、6、3、2、3,“走遍”、“南北”、“豆浆”、“喝豆浆”、“我家”、“豆浆香”与候选关键词“豆汁”的相似度分别为0、0、0.9、0.7、0、0.7,则候选关键词“豆汁”与目标文本“走便南北喝豆浆,还是我家豆浆香”的相关度为9.6。
步骤205,根据预设的相关度阈值,或者根据相关度和预设的推送数量,从候选关键词中选取出待推送的候选关键词,并向第一用户终端推送待推送的候选关键词。
在本实施例中,在步骤204中计算出各个候选关键词与上述目标文本的相关度之后,上述电子设备可以从候选关键词中选取出大于预设的相关度阈值的候选关键词作为待推送的候选关键词,也可以按照相关度由大到小的顺序从候选关键词中选取预设推送数量的候选关键词作为待推送的候选关键词,之后,向第一用户终端推送上述待推送的候选关键词。作为示例,当第一用户终端为广告主时,上述电子设备可以向广告主推送待推送的候选关键词以供上述广告主对候选关键词进行购买。
本申请的上述实施例提供的方法基于目标文本中的各个短语与候选关键词的相似度以及各个短语在目标文本中的词频逆向文件频率,得到各个候选关键词与目标文本的相关度,再基于相关度进行信息推送,从而提高了信息推送的准确性。
进一步参考图3,其示出了用于推送信息的方法的又一个实施例的流程300。该用于推送信息的方法的流程300,包括以下步骤:
步骤301,将目标文本进行分词,生成短语集合。
在本实施例中,用于推送信息的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式将预先获取的目标文本(例如,广告创意文本)进行分词,以生成短语集合。上述电子设备可以采用多种分词方法对目标文本进行分词,分词方法包括但不限于基于词典的分词方法(例如,最大匹配算法、邻近匹配算法、最短路径匹配算法和基于统计的最短路径分词算法等),基于统计的分词方法(例如,采用N元文法模型或隐马尔科夫模型的统计分词方法),基于规则的分词方法和基于人工智能技术的中文分词方法等等。
步骤302,计算短语集合中各个短语在目标文本中的词频逆向文件频率。
在本实施例中,上述电子设备可以计算步骤301中生成的短语集合中各个短语在上述目标文本中的词频逆向文件频率,也可称为词频-逆向文件频率,即计算各个短语对于上述目标文本的重要性。上述词频-逆向文件频率方法的主要思想是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。而逆向文件频率主要是指,如果包含某个词或短语的文档越少,则IDF越大,则说明该词或短语具有很好的类别区分能力。由此,使用词频-逆向文件频率方法,可以计算某个词或短语在某篇文章里面的重要性。
步骤303,获取预设的候选关键词与各个短语的相似度。
在本实施例中,上述电子设备可以首先获取预设的候选关键词,如可以采用推荐算法(例如,协同过滤算法、基于内容的推荐算法等)获取候选关键词,例如,当采用协同过滤算法获取用户的候选关键词时,通常首先要收集用户针对关键词的历史行为数据,比如用户的购买历史,关注,收藏行为,评论和打分行为等;之后,基于用户的历史行为数据利用相似度算法(例如,欧几里德距离、皮尔森相关系数等等)计算该用户与其他用户之间的相似度或者用户感兴趣的关键词与其他关键词之间的相似度;最后,可以基于该用户对关键词的偏好找到与该用户具有相同偏好的邻居用户,然后将邻居用户感兴趣的关键词作为候选关键词,或者将与该用户感兴趣的关键词的相似度高的其它关键词作为候选关键词。然后,可以将上述候选关键词与各个短语进行相似度计算,可以采用余弦相似度算法等的公知的相似度计算方法来进行相似度计算。
步骤304,根据各个短语在目标文本中的词频逆向文件频率、候选关键词与各个短语的相似度,计算候选关键词与目标文本的相关度。
在本实施例中,上述电子设备可以根据步骤302中计算的各个短语在上述目标文本中的词频逆向文件频率和步骤303中获取的候选关键词与各个短语的相似度,计算该候选关键词与目标文本的相关度。作为示例,还可以将与上述候选关键词的相似度大于预设的相似度阈值的各个短语中每个短语的相似度乘以该短语的词频逆向文件频率,再将乘积相加得到该候选关键词与目标文本的相关度。
步骤305,根据预设的相关度阈值,或者根据相关度和预设的推送数量,从候选关键词中选取出待推送的候选关键词。
在本实施例中,在步骤304中计算出各个候选关键词与上述目标文本的相关度之后,上述电子设备可以从候选关键词中选取出大于预设的相关度阈值的候选关键词作为待推送的候选关键词,也可以按照相关度由大到小的顺序从候选关键词中选取预设推送数量的候选关键词作为待推送的候选关键词。
步骤306,建立待推送的候选关键词与目标文本的对应关系。
在本实施例中,上述电子设备可以建立步骤305选取出的待推送的候选关键词与上述目标文本的对应关系,其中,一个目标文本可以对应多个待推送的候选关键词,一个待推送的候选关键词也可以对应多个文本。
步骤307,响应于检测到第二用户终端对待推送的候选关键词的检索操作,向第二用户终端推送与待推送的候选关键词对应的文本。
在本实施例中,当检测到第二用户终端对待推送的候选关键词的检索操作,可以向上述第二用户终端推送与其检索的待推送的候选关键词对应的文本。上述电子设备可以首先获取与第二用户终端检索的待推送的候选关键词对应的文本集合,之后,可以推送与检索的待推送的候选关键词对应的所有文本,也可以推送与上述待推送的候选关键词对应的文本集合中的预设数目的文本。作为示例,当用户检索的待推送的候选关键词为“豆浆”,可以首先获取与“豆浆”对应的文本集合“走便南北喝豆浆,还是我家豆浆香”,“一杯豆浆,给您故乡的味道”和“让清醇的香气唤醒你的活力”,之后,可以向该用户推送文本集合中的所有文本,也可以向该用户推送文本集合中的任一文本。
从图3中可以看出,与图2对应的实施例相比,本实施例中的用于推送信息的方法的流程300突出了建立待推送的候选关键词与目标文本的对应关系的步骤306和响应于检测到第二用户终端对待推送的候选关键词的检索操作,向第二用户终端推送与待推送的候选关键词对应的文本的步骤307。由此,本实施例描述的方案可以用于检索端检索时对于与待推送的候选关键词对应的文本的推送,从而进一步提高了信息推送的准确性。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供的一种用于推送信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的用于推送信息的装置400包括:生成单元401、第一计算单元402、获取单元403、第二计算单元404和第一推送单元405。其中,生成单元401配置用于将目标文本进行分词,生成短语集合;第一计算单元402配置用于计算短语集合中各个短语在目标文本中的词频逆向文件频率;获取单元403配置用于获取预设的候选关键词与各个短语的相似度;第二计算单元404配置用于根据各个短语在目标文本中的词频逆向文件频率、候选关键词与各个短语的相似度,计算候选关键词与目标文本的相关度;第一推送单元405配置用于根据预设的相关度阈值,或者根据相关度和预设的推送数量,从候选关键词中选取出待推送的候选关键词,并向第一用户终端推送待推送的候选关键词。
在本实施例中,用于推送信息的装置400的生成单元401可以通过有线连接方式或者无线连接方式将预先获取的目标文本进行分词,以生成短语集合。上述电子设备可以采用多种分词方法对目标文本进行分词,分词方法包括但不限于基于词典的分词方法,基于统计的分词方法,基于规则的分词方法和基于人工智能技术的中文分词方法等等。
在本实施例中,上述第一计算单元402可以计算上述生成单元401生成的短语集合中各个短语在上述目标文本中的词频逆向文件频率,也可称为词频-逆向文件频率,即计算各个短语对于上述目标文本的重要性。上述词频-逆向文件频率方法的主要思想是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。而逆向文件频率主要是指,如果包含某个词或短语的文档越少,则IDF越大,则说明该词或短语具有很好的类别区分能力。由此,使用词频-逆向文件频率方法,可以计算某个词或短语在某篇文章里面的重要性。
在本实施例中,上述获取单元403可以首先获取预设的候选关键词,如可以采用推荐算法获取候选关键词,例如,当采用协同过滤算法获取用户的候选关键词时,通常首先要收集用户针对关键词的历史行为数据,比如用户的购买历史,关注,收藏行为,评论和打分行为等;之后,基于用户的历史行为数据利用相似度算法计算该用户与其他用户之间的相似度或者用户感兴趣的关键词与其他关键词之间的相似度;最后,可以基于该用户对关键词的偏好找到与该用户具有相同偏好的邻居用户,然后将邻居用户感兴趣的关键词作为候选关键词,或者将与该用户感兴趣的关键词的相似度高的其它关键词作为候选关键词。然后,可以将上述候选关键词与各个短语进行相似度计算,可以采用余弦相似度算法等的公知的相似度计算方法来进行相似度计算。
在本实施例中,上述第二计算单元404可以根据上述第一计算单元402计算的各个短语在上述目标文本中的词频逆向文件频率和上述获取单元403获取的候选关键词与各个短语的相似度,计算该候选关键词与目标文本的相关度。作为示例,可以将最大词频逆向文件频率的短语的词频逆向文件频率与候选关键词和该短语的相似度的乘积作为该候选关键词与目标文本的相关度;也可以将词频逆向文件频率大于预设的频率阈值的各个短语中每个短语的词频逆向文件频率乘以该候选关键词与该短语的相似度,再将乘积相加得到该候选关键词与目标文本的相关度。
在本实施例中,在上述第二计算单元404中计算出各个候选关键词与上述目标文本的相关度之后,上述第一推送单元405可以从候选关键词中选取出大于预设的相关度阈值的候选关键词作为待推送的候选关键词,也可以按照相关度由大到小的顺序从候选关键词中选取预设推送数量的候选关键词作为待推送的候选关键词,之后,向第一用户终端推送上述待推送的候选关键词。
在本实施例的一些可选的实现方式中,对于上述文本集合中的每个词语,上述第二计算单元404可以利用候选关键词与该词语的相似度乘以该词语在上述目标文本中词频逆向文件频率,并将得到的各个乘积相加,以得到上述候选关键词与上述目标文本的相关度,上述第二计算单元404可以通过下述公式(1)计算候选关键词与目标文本的相关度。
其中,q为候选关键词,s为目标文本,sim(q,s)为候选关键词与目标文本的相关度,si为短语集合中的第i个短语,sim(q,si)为候选关键词与短语集合中的第i个短语的相似度,wi为si对应的词频逆向文件频率。
在本实施例的一些可选的实现方式中,用于推送信息的装置400还可以包括建立单元407和第二推送单元408。其中,上述建立单元407可以建立上述第一推送单元405选取出的待推送的候选关键词与上述目标文本的对应关系,其中,一个目标文本可以对应多个待推送的候选关键词,一个待推送的候选关键词也可以对应多个文本。当检测到第二用户终端对待推送的候选关键词的检索操作,上述第二推送单元408可以向上述第二用户终端推送与其检索的待推送的候选关键词对应的文本。上述第二推送单元408可以首先获取与第二用户终端检索的待推送的候选关键词对应的文本集合,之后,可以推送与检索的待推送的候选关键词对应的所有文本,也可以推送与上述待推送的候选关键词对应的文本集合中的预设数目的文本。
在本实施例的一些可选的实现方式中,上述第一计算单元402可以包括第一统计模块4021、第二统计模块4022和计算模块4023。其中,上述第一统计模块4021可以首先统计各个短语在预设的文本集合中出现的逆向文件频率,可以对文本集合中的所有文本进行分词,统计各个短语在所有文本的短语集合中出现的逆向文件频率,也可以统计预设的文本集合中包含各个短语中的每个短语的文本的数量,之后利用所有文本数量除以包含该短语的文本的数量得到该短语的逆向文件频率,其中,当上述目标文本为广告创意文本时,上述文本集合可以是所有广告创意文本所组成的集合,也可以是与上述目标文本的相关度大于预设相关度阈值的广告创意文本所组成的集合,还可以是上述目标文本所属用户的账户中的所有广告创意文本所组成的集合;之后,上述第二统计模块4022可以统计各个短语在上述文本集合中出现的频率;最后,上述计算模块4023可以将上述统计出的逆向文件频率与上述统计出的频率的乘积作为该词语的词频逆向文件频率。
在本实施例的一些可选的实现方式中,用于推送信息的装置400还可以包括删除单元406。在生成短语集合之后,上述删除单元406可以删除上述短语集合中的停用词。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(Stop Words)。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。上述删除单元406可以将短语集合中的短语与停用词表中的词语进行比对,将出现在停用词表中的短语删除。
下面参考图5,其示出了适于用来实现本申请实施例的服务器的计算机***500的结构示意图。
如图5所示,计算机***500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有***500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,上述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括生成单元、第一计算单元、获取单元、第二计算单元和第一推送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。例如,生成单元还可以被描述为“生成短语集合的单元”。
作为另一方面,本发明还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中上述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当上述一个或者多个程序被一个设备执行时,使得上述设备:将目标文本进行分词,生成短语集合;计算短语集合中各个短语在目标文本中的词频逆向文件频率;获取预设的候选关键词与各个短语的相似度;根据各个短语在目标文本中的词频逆向文件频率、候选关键词与各个短语的相似度,计算候选关键词与目标文本的相关度;根据预设的相关度阈值,或者根据相关度和预设的推送数量,从候选关键词中选取出待推送的候选关键词,并向第一用户终端推送待推送的候选关键词。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种用于推送信息的方法,其特征在于,所述方法包括:
将目标文本进行分词,生成短语集合;
计算所述短语集合中各个短语在所述目标文本中的词频逆向文件频率;
获取预设的候选关键词与各个短语的相似度;
根据各个短语在所述目标文本中的词频逆向文件频率、所述候选关键词与各个短语的相似度,计算所述候选关键词与所述目标文本的相关度;
根据预设的相关度阈值,或者根据相关度和预设的推送数量,从所述候选关键词中选取出待推送的候选关键词,并向第一用户终端推送所述待推送的候选关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据各个短语在所述目标文本中的词频逆向文件频率、所述候选关键词与各个短语的相似度,计算所述候选关键词与所述目标文本的相关度,包括:
对于所述短语集合中的每个短语,利用所述候选关键词与该短语的相似度乘以该短语在所述目标文本中的词频逆向文件频率,并将得到的各个乘积相加,得到所述候选关键词与所述目标文本的相关度。
3.根据权利要求1所述的方法,其特征在于,在所述向第一用户终端推送所述待推送的候选关键词之后,所述方法还包括:
建立所述待推送的候选关键词与所述目标文本的对应关系;
响应于检测到第二用户终端对所述待推送的候选关键词的检索操作,向所述第二用户终端推送与所述待推送的候选关键词对应的文本。
4.根据权利要求1所述的方法,其特征在于,所述计算所述短语集合中各个短语在所述目标文本中的词频逆向文件频率,包括:
统计各个短语在预设的文本集合中出现的逆向文件频率;
统计各个短语在所述目标文本中出现的频率;
计算所述逆文档频率与所述频率的乘积作为各个词语的词频逆向文件频率。
5.根据权利要求1所述的方法,其特征在于,在所述生成短语集合之后,所述方法还包括:删除所述短语集合中的停用词。
6.一种用于推送信息的装置,其特征在于,所述装置包括:
生成单元,配置用于将目标文本进行分词,生成短语集合;
第一计算单元,配置用于计算所述短语集合中各个短语在所述目标文本中的词频逆向文件频率;
获取单元,配置用于获取预设的候选关键词与各个短语的相似度;
第二计算单元,配置用于根据各个短语在所述目标文本中的词频逆向文件频率、所述候选关键词与各个短语的相似度,计算所述候选关键词与所述目标文本的相关度;
第一推送单元,配置用于根据预设的相关度阈值,或者根据相关度和预设的推送数量,从所述候选关键词中选取出待推送的候选关键词,并向第一用户终端推送所述待推送的候选关键词。
7.根据权利要求6所述的装置,其特征在于,所述第二计算单元进一步配置用于:
对于所述短语集合中的每个短语,利用所述候选关键词与该短语的相似度乘以该短语在所述目标文本中的词频逆向文件频率,并将得到的各个乘积相加,得到所述候选关键词与所述目标文本的相关度。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
建立单元,配置用于建立所述待推送的候选关键词与所述目标文本的对应关系;
第二推送单元,配置用于响应于检测到第二用户终端对所述待推送的候选关键词的检索操作,向所述第二用户终端推送与所述待推送的候选关键词对应的文本。
9.根据权利要求6所述的装置,其特征在于,所述第一计算单元包括:
第一统计模块,配置用于统计各个短语在预设的文本集合中出现的逆向文件频率;
第二统计模块,配置用于统计各个短语在所述目标文本中出现的频率;
计算模块,配置用于计算所述逆文档频率与所述频率的乘积作为各个词语的词频逆向文件频率。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
删除单元,配置用于删除所述短语集合中的停用词。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611216735.3A CN108241667B (zh) | 2016-12-26 | 2016-12-26 | 用于推送信息的方法和装置 |
JP2017108224A JP6511487B2 (ja) | 2016-12-26 | 2017-05-31 | 情報プッシュ用の方法及び装置 |
US15/617,337 US10726446B2 (en) | 2016-12-26 | 2017-06-08 | Method and apparatus for pushing information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611216735.3A CN108241667B (zh) | 2016-12-26 | 2016-12-26 | 用于推送信息的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108241667A true CN108241667A (zh) | 2018-07-03 |
CN108241667B CN108241667B (zh) | 2019-10-15 |
Family
ID=62629914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611216735.3A Active CN108241667B (zh) | 2016-12-26 | 2016-12-26 | 用于推送信息的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10726446B2 (zh) |
JP (1) | JP6511487B2 (zh) |
CN (1) | CN108241667B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325178A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN109325796A (zh) * | 2018-08-13 | 2019-02-12 | 中国平安人寿保险股份有限公司 | ***筛选方法、装置、计算机设备及存储介质 |
CN109344247A (zh) * | 2018-09-29 | 2019-02-15 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN110008474A (zh) * | 2019-04-04 | 2019-07-12 | 科大讯飞股份有限公司 | 一种关键短语确定方法、装置、设备及存储介质 |
CN110008396A (zh) * | 2018-11-28 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 对象信息推送方法、装置、设备及计算机可读存储介质 |
CN110032622A (zh) * | 2018-11-28 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 关键词确定方法、装置、设备及计算机可读存储介质 |
CN110083837A (zh) * | 2019-04-26 | 2019-08-02 | 科大讯飞股份有限公司 | 一种关键词生成方法及装置 |
CN110750708A (zh) * | 2018-07-23 | 2020-02-04 | 北京字节跳动网络技术有限公司 | 关键词推荐方法、装置和电子设备 |
CN111767713A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN112241894A (zh) * | 2019-07-16 | 2021-01-19 | 百度时代网络技术(北京)有限公司 | 内容投放方法、装置以及终端 |
CN112487297A (zh) * | 2020-12-09 | 2021-03-12 | 贝壳技术有限公司 | 信息推送方法、装置、电子设备和存储介质 |
CN112579869A (zh) * | 2019-09-29 | 2021-03-30 | 北京星选科技有限公司 | 对象提取方法、装置、电子设备及存储介质 |
CN112768080A (zh) * | 2021-01-25 | 2021-05-07 | 武汉大学 | 基于医疗大数据的医学关键词库建立方法及*** |
CN112819512A (zh) * | 2021-01-22 | 2021-05-18 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质 |
CN113127766A (zh) * | 2019-12-31 | 2021-07-16 | 飞书数字科技(上海)有限公司 | 广告兴趣词的获取方法、装置、存储介质和处理器 |
CN113836346A (zh) * | 2021-09-08 | 2021-12-24 | 网易(杭州)网络有限公司 | 为音频文件生成摘要的方法、装置、计算设备及存储介质 |
CN114422584A (zh) * | 2021-12-16 | 2022-04-29 | 北京百度网讯科技有限公司 | 资源的推送方法、设备和存储介质 |
CN116167352A (zh) * | 2023-04-03 | 2023-05-26 | 联仁健康医疗大数据科技股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN116881432A (zh) * | 2023-04-07 | 2023-10-13 | 北京百度网讯科技有限公司 | 文本推送方法、装置、电子设备和存储介质 |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016081749A1 (en) | 2014-11-19 | 2016-05-26 | Google Inc. | Methods, systems, and media for presenting related media content items |
CN109828748A (zh) * | 2018-12-15 | 2019-05-31 | 深圳壹账通智能科技有限公司 | 代码命名方法、***、计算机装置及计算机可读存储介质 |
CN109918657B (zh) * | 2019-02-28 | 2023-04-18 | 云孚科技(北京)有限公司 | 一种从文本中提取目标关键词的方法 |
CN111831796A (zh) * | 2019-04-15 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 一种用户请求的处理方法、装置、电子设备及存储介质 |
CN110232126B (zh) * | 2019-06-14 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 热点挖掘方法及服务器和计算机可读存储介质 |
CN110609958A (zh) * | 2019-09-19 | 2019-12-24 | Oppo广东移动通信有限公司 | 数据推送方法、装置、电子设备及存储介质 |
CN110888970B (zh) * | 2019-11-29 | 2023-10-03 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、终端和存储介质 |
CN111191446B (zh) * | 2019-12-10 | 2022-11-25 | 平安医疗健康管理股份有限公司 | 交互信息处理方法、装置、计算机设备和存储介质 |
CN111191126B (zh) * | 2019-12-24 | 2023-11-03 | 绍兴市上虞区理工高等研究院 | 一种基于关键词的科技成果精准推送方法及装置 |
CN111242692B (zh) * | 2020-01-16 | 2022-05-17 | 南京领行科技股份有限公司 | 一种信息推送方法及装置 |
CN111371844B (zh) * | 2020-02-20 | 2024-01-19 | 平安科技(深圳)有限公司 | 课程推送方法及相关装置 |
CN113495997A (zh) * | 2020-04-01 | 2021-10-12 | 北京四维图新科技股份有限公司 | Poi别名的探索方法、装置和车辆 |
CN111881339B (zh) * | 2020-06-05 | 2024-03-22 | 百度在线网络技术(北京)有限公司 | 资源信息的推送、通知方法、装置、电子设备及存储介质 |
CN111711559B (zh) * | 2020-06-12 | 2022-04-05 | 北京百度网讯科技有限公司 | 用于撤回信息的方法和装置 |
CN112256822A (zh) * | 2020-10-21 | 2021-01-22 | 平安科技(深圳)有限公司 | 文本搜索方法、装置、计算机设备和存储介质 |
CN112395044B (zh) * | 2020-11-10 | 2023-04-28 | 新华三技术有限公司合肥分公司 | 命令行关键词填充方法、装置及网络设备 |
CN112861534B (zh) * | 2021-01-18 | 2023-07-21 | 北京奇艺世纪科技有限公司 | 一种对象名称识别方法及装置 |
CN113033198B (zh) * | 2021-03-25 | 2022-08-26 | 平安国际智慧城市科技股份有限公司 | 相似文本推送方法、装置、电子设备及计算机存储介质 |
CN113111085B (zh) * | 2021-04-08 | 2024-01-30 | 达观数据有限公司 | 基于流式数据的自动化层级探索方法和装置 |
CN113177402B (zh) * | 2021-04-26 | 2024-03-01 | 平安科技(深圳)有限公司 | 词语替换方法、装置、电子设备和存储介质 |
CN113191811B (zh) * | 2021-05-10 | 2022-07-01 | 北京顶当互动科技有限公司 | 一种广告智能推送方法、设备及计算机可读存储介质 |
CN113177061B (zh) * | 2021-05-25 | 2023-05-16 | 马上消费金融股份有限公司 | 一种搜索方法、装置和电子设备 |
CN116842138B (zh) * | 2023-07-24 | 2024-07-19 | 上海金麦穗信息技术集团有限公司 | 基于文档的检索方法、装置、设备及存储介质 |
CN117076658B (zh) * | 2023-08-22 | 2024-05-03 | 南京朗拓科技投资有限公司 | 基于信息熵的引文推荐方法、装置及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
CN102081642A (zh) * | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070150342A1 (en) * | 2005-12-22 | 2007-06-28 | Law Justin M | Dynamic selection of blended content from multiple media sources |
JP4859893B2 (ja) * | 2008-08-12 | 2012-01-25 | ヤフー株式会社 | 広告配信装置、広告配信方法、及び広告配信制御プログラム |
JP4934169B2 (ja) * | 2009-06-24 | 2012-05-16 | ヤフー株式会社 | カテゴリを対応付けする装置、方法、およびプログラム |
JP5559750B2 (ja) * | 2011-07-12 | 2014-07-23 | ヤフー株式会社 | 広告処理装置、情報処理システム及び広告処理方法 |
US20150287080A1 (en) * | 2014-04-04 | 2015-10-08 | Gayathri Ravichandran Geetha | Contextual promotions |
JP6235443B2 (ja) * | 2014-09-17 | 2017-11-22 | ヤフー株式会社 | 抽出装置、抽出方法および抽出プログラム |
CN104899322B (zh) * | 2015-06-18 | 2021-09-17 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
US20170017998A1 (en) * | 2015-07-17 | 2017-01-19 | Adobe Systems Incorporated | Determining context and mindset of users |
-
2016
- 2016-12-26 CN CN201611216735.3A patent/CN108241667B/zh active Active
-
2017
- 2017-05-31 JP JP2017108224A patent/JP6511487B2/ja active Active
- 2017-06-08 US US15/617,337 patent/US10726446B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
CN102081642A (zh) * | 2010-10-28 | 2011-06-01 | 华南理工大学 | 搜索引擎检索结果聚类的中文标签提取方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110750708A (zh) * | 2018-07-23 | 2020-02-04 | 北京字节跳动网络技术有限公司 | 关键词推荐方法、装置和电子设备 |
CN109325796A (zh) * | 2018-08-13 | 2019-02-12 | 中国平安人寿保险股份有限公司 | ***筛选方法、装置、计算机设备及存储介质 |
CN109325796B (zh) * | 2018-08-13 | 2023-09-26 | 中国平安人寿保险股份有限公司 | ***筛选方法、装置、计算机设备及存储介质 |
CN109325178A (zh) * | 2018-09-14 | 2019-02-12 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
CN109344247A (zh) * | 2018-09-29 | 2019-02-15 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN110032622B (zh) * | 2018-11-28 | 2023-07-14 | 创新先进技术有限公司 | 关键词确定方法、装置、设备及计算机可读存储介质 |
CN110032622A (zh) * | 2018-11-28 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 关键词确定方法、装置、设备及计算机可读存储介质 |
CN110008396B (zh) * | 2018-11-28 | 2023-11-24 | 创新先进技术有限公司 | 对象信息推送方法、装置、设备及计算机可读存储介质 |
CN110008396A (zh) * | 2018-11-28 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 对象信息推送方法、装置、设备及计算机可读存储介质 |
CN110008474B (zh) * | 2019-04-04 | 2023-06-02 | 科大讯飞股份有限公司 | 一种关键短语确定方法、装置、设备及存储介质 |
CN110008474A (zh) * | 2019-04-04 | 2019-07-12 | 科大讯飞股份有限公司 | 一种关键短语确定方法、装置、设备及存储介质 |
CN110083837B (zh) * | 2019-04-26 | 2023-11-24 | 科大讯飞股份有限公司 | 一种关键词生成方法及装置 |
CN110083837A (zh) * | 2019-04-26 | 2019-08-02 | 科大讯飞股份有限公司 | 一种关键词生成方法及装置 |
CN112241894A (zh) * | 2019-07-16 | 2021-01-19 | 百度时代网络技术(北京)有限公司 | 内容投放方法、装置以及终端 |
CN112579869A (zh) * | 2019-09-29 | 2021-03-30 | 北京星选科技有限公司 | 对象提取方法、装置、电子设备及存储介质 |
CN113127766A (zh) * | 2019-12-31 | 2021-07-16 | 飞书数字科技(上海)有限公司 | 广告兴趣词的获取方法、装置、存储介质和处理器 |
CN113127766B (zh) * | 2019-12-31 | 2023-04-14 | 飞书数字科技(上海)有限公司 | 广告兴趣词的获取方法、装置、存储介质和处理器 |
CN111767713A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN111767713B (zh) * | 2020-05-09 | 2023-07-21 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN112487297A (zh) * | 2020-12-09 | 2021-03-12 | 贝壳技术有限公司 | 信息推送方法、装置、电子设备和存储介质 |
CN112819512A (zh) * | 2021-01-22 | 2021-05-18 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质 |
WO2022156730A1 (zh) * | 2021-01-22 | 2022-07-28 | 北京有竹居网络技术有限公司 | 文本处理方法、装置、设备及介质 |
CN112768080A (zh) * | 2021-01-25 | 2021-05-07 | 武汉大学 | 基于医疗大数据的医学关键词库建立方法及*** |
CN113836346A (zh) * | 2021-09-08 | 2021-12-24 | 网易(杭州)网络有限公司 | 为音频文件生成摘要的方法、装置、计算设备及存储介质 |
CN113836346B (zh) * | 2021-09-08 | 2023-08-08 | 网易(杭州)网络有限公司 | 为音频文件生成摘要的方法、装置、计算设备及存储介质 |
CN114422584A (zh) * | 2021-12-16 | 2022-04-29 | 北京百度网讯科技有限公司 | 资源的推送方法、设备和存储介质 |
CN116167352A (zh) * | 2023-04-03 | 2023-05-26 | 联仁健康医疗大数据科技股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN116881432A (zh) * | 2023-04-07 | 2023-10-13 | 北京百度网讯科技有限公司 | 文本推送方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108241667B (zh) | 2019-10-15 |
US20180181988A1 (en) | 2018-06-28 |
JP6511487B2 (ja) | 2019-05-15 |
US10726446B2 (en) | 2020-07-28 |
JP2018106658A (ja) | 2018-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108241667B (zh) | 用于推送信息的方法和装置 | |
CN103020845B (zh) | 一种移动应用的推送方法及*** | |
WO2016000555A1 (zh) | 基于社交网络的内容、新闻推荐方法和*** | |
CN103885987B (zh) | 一种音乐推荐方法和*** | |
CN103064880B (zh) | 一种基于搜索信息向用户提供网站选择的方法、装置和*** | |
CN109800352A (zh) | 基于剪贴板进行信息推送的方法、***及终端设备 | |
CN104268175B (zh) | 一种数据搜索的装置及其方法 | |
US20110218859A1 (en) | Method, Apparatus and System for Increasing Website Data Transfer Speed | |
CN105868267B (zh) | 一种移动社交网络用户兴趣的建模方法 | |
CN102360364A (zh) | 一种应用自动推荐的方法及装置 | |
Handani et al. | Sentiment analysis for go-jek on *** play store | |
CN107944032B (zh) | 用于生成信息的方法和装置 | |
CN110111167A (zh) | 一种确定推荐对象的方法和装置 | |
CN110766486A (zh) | 确定物品类目的方法和装置 | |
CN107977678A (zh) | 用于输出信息的方法和装置 | |
CN105512300B (zh) | 信息过滤方法及*** | |
CN112116426A (zh) | 一种推送物品信息的方法和装置 | |
TW201118619A (en) | An opinion term mining method and apparatus thereof | |
CN110750708A (zh) | 关键词推荐方法、装置和电子设备 | |
Ashraf et al. | Personalized news recommendation based on multi-agent framework using social media preferences | |
CN110825954A (zh) | 关键词推荐方法、装置和电子设备 | |
CN116089732B (zh) | 基于广告点击数据的用户偏好识别方法及*** | |
CN105740453B (zh) | 信息推送方法和装置 | |
CN108694171B (zh) | 信息推送的方法及装置 | |
Heravi et al. | Tweet location detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |