CN105095414A - 用于预测网络搜索量的方法和装置 - Google Patents

用于预测网络搜索量的方法和装置 Download PDF

Info

Publication number
CN105095414A
CN105095414A CN201510405822.2A CN201510405822A CN105095414A CN 105095414 A CN105095414 A CN 105095414A CN 201510405822 A CN201510405822 A CN 201510405822A CN 105095414 A CN105095414 A CN 105095414A
Authority
CN
China
Prior art keywords
search amount
forecasting object
information
characteristic information
film
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510405822.2A
Other languages
English (en)
Inventor
吴桐
沈磊
张弦
陈雨
于潇潇
王晶
侯丽斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510405822.2A priority Critical patent/CN105095414A/zh
Publication of CN105095414A publication Critical patent/CN105095414A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于预测网络搜索量的方法和装置,其中的方法主要包括:获取预测对象的特征信息;根据所述特征信息的量化处理获得预定对象的特征信息的量化值;将所述预测对象的特征信息的量化值作为输入信息提供给网络搜索量预测模型,并将所述网络搜索量预测模型的输出信息作为所述预测对象在预定时间段内的网络搜索量预测结果;其中,所述网络搜索量预测模型是利用多个样本数据训练获得的,且所述样本数据包括:样本对象在预定时间段内的历史搜索量以及样本对象的特征信息的量化值。本发明提供的技术方案满足了需求方的网络搜索量的预测需求,使需求方可以根据预测出的网络搜索量提早采取相应的应对策略。

Description

用于预测网络搜索量的方法和装置
技术领域
本发明涉及网络技术,尤其是涉及一种用于预测网络搜索量的方法以及用于预测网络搜索量的装置。
背景技术
随着网络技术尤其是无线网络技术的快速发展,利用网络在线观看或者收听或者下载多媒体节目已经成为人们的一种娱乐方式,这里的多媒体节目可以包括:电影、综艺节目以及音乐专辑等。
发明人在实现本发明过程中发现,对于多媒体节目的制作方或者发行方或者销售方或者基于网络的内容提供方等方面而言,针对多媒体节目的网络搜索量是非常重要的,这可以帮助多媒体节目的制作方或者发行方或者销售方或者基于网络的内容提供方等需求方提前采取相应的应对策略;然而,目前并不存在针对多媒体节目进行网络搜索量预测的技术方案,从而使需求方的网络搜索量预测需求得不到满足。
发明内容
本发明的目的是提供一种用于预测网络搜索量的方法和装置。
根据本发明的其中一个方面,提供一种用于预测网络搜索量的方法,且所述方法包括以下步骤:获取预测对象的特征信息;根据所述特征信息的量化处理获得预定对象的特征信息的量化值;将所述预测对象的特征信息的量化值作为输入信息提供给网络搜索量预测模型,并将所述网络搜索量预测模型的输出信息作为所述预测对象在预定时间段内的网络搜索量预测结果;其中,所述网络搜索量预测模型是利用多个样本数据训练获得的,且所述样本数据包括:样本对象在预定时间段内的历史搜索量以及样本对象的特征信息的量化值。
根据本发明的另一个方面,还提供一种用于预测网络搜索量的装置,所述装置主要包括:获取模块,适于获取预测对象的特征信息;量化模块,适于根据所述特征信息的量化处理获得预定对象的特征信息的量化值;预测模块,适于将所述预测对象的特征信息的量化值作为输入信息提供给网络搜索量预测模型,并将所述网络搜索量预测模型的输出信息作为所述预测对象在预定时间段内的网络搜索量预测结果;其中,所述网络搜索量预测模型是训练模块利用多个样本数据训练获得的,且所述样本数据包括:样本对象在预定时间段内的历史搜索量以及样本对象的特征信息的量化值。
与现有技术相比,本发明具有以下优点:本发明通过对样本对象的历史搜索量进行统计,并利用历史搜索量和量化后的特征信息进行训练,使网络搜索量预测模型建立在网络基础数据的基础之上;这样,在利用网络搜索量预测模型对预测对象进行网络搜索量预测时,可以使预测结果与数据挖掘相结合,使预测结果更具有可信度;由此可知,本发明提供的技术方案在充分利用了网络基础数据的基础上,满足了需求方的网络搜索量的预测需求,使需求方可以根据预测出的网络搜索量提早采取相应的应对策略。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一的用于预测网络搜索量的方法流程图;
图2为本发明实施例二的用于预测网络搜索量的装置示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或者方法。虽然流程图将各项操作描述成顺序的处理,但是,其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的执行顺序可以被重新安排。当其操作执行完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器以及存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
下述文中所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是,本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或者“耦合”到另一个单元时,其可以直接连接或者耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
实施例一、用于预测网络搜索量的方法。
图1为本实施例的用于预测网络搜索量的方法的流程图,且图1所示的方法主要包括步骤S100、步骤S110以及步骤S120。本实施例所记载的方法可以在计算机设备中执行。下面对图1中的各步骤分别进行说明。
S100、获取预测对象的特征信息。
具体的,本实施例可以通过接收外部输入信息的方式获取预测对象的特征信息。本实施例中的预测对象为网络中提供的内容,且预测对象通常为多媒体节目,例如预测对象可以为电影或者综艺节目或者音乐专辑等,本实施例不限制预测对象的具体表现形式。
预测对象的特征信息是指用于描述预测对象的信息,利用特征信息通常可以唯一的表示出一个预测对象。
作为示例,在预测对象为电影的情况下,该预测对象的特征信息可以包括:电影名称、导演信息、演员信息、制作公司、电影上映时间以及电影制作成本类型中的一个或者多个(通常为多个)。本实施例中的电影名称可以包括电影的正式名称以及电影别名等;本实施例中的导演信息可以包括导演的真实姓名以及导演别名等,且导演的数量可以为一个或者多个;本实施例中的演员信息通常为主要演员的信息,且演员信息可以包括演员的真实姓名以及演员的艺名等,演员的数量可以为一个或者多个;本实施例中的制作公司可以包括制作公司的正式名称以及制作公司简称等,且制作公司的数量可以为一个或者多个;本实施例中的电影制作成本类型可以按照电影的制作金额划分为国产中小成本、国产中成本、国产大制作、进口电影中小成本、进口电影中成本以及进口电影大制作这六大类。
作为示例,在预测对象为综艺节目的情况下,该预测对象的特征信息可以包括:综艺节目名称、导演信息、演员信息、制作公司、综艺节目上映时间以及综艺节目制作成本类型中的一个或者多个(通常为多个)。本实施例中的综艺节目名称可以包括综艺节目的正式名称以及综艺节目别名等;导演信息、演员信息以及制作公司与上述描述相同,在此不再重复说明;本实施例中的综艺节目制作成本类型可以按照综艺节目的制作金额划分为国产中小成本、国产中成本、国产大制作、进口综艺节目中小成本、进口综艺节目中成本以及进口综艺节目大制作这六大类。
作为示例,在预测对象为音乐专辑的情况下,该预测对象的特征信息可以包括:音乐专辑名称、曲作者、词作者、演唱者信息、制作公司、音乐专辑推出时间以及音乐专辑制作成本类型中的一个或者多个(通常为多个)。本实施例中的音乐专辑名称可以包括音乐专辑的正式名称以及音乐专辑别名等;本实施例中的曲作者可以包括曲作者的真实姓名以及别名等,且曲作者的数量可以为一个或者多个;本实施例中的词作者可以包括词作者的真实姓名以及别名等,且词作者的数量可以为一个或者多个;本实施例中的演唱者信息可以包括演唱者的真实姓名以及别名等,且演唱者的数量可以为一个或者多个;制作公司与上述描述相同,在此不再重复说明;本实施例中的音乐专辑制作成本类型可以按照音乐专辑的制作金额划分为国产中小成本、国产中成本、国产大制作、进口音乐专辑中小成本、进口音乐专辑中成本以及进口音乐专辑大制作这六大类。
需要说明的是,上述预测对象的特征信息所包括的内容仅为举例,预测对象的特征信息也可以包括其他用于描述预测对象的信息,本实施例不限制预测对象的特征信息所包含的具体内容。
S110、根据特征信息的量化处理获得预定对象的特征信息的量化值。
具体的,本实施例应对预测对象的特征信息进行量化处理,量化处理的结果即为预定对象的特征信息的量化值。本实施例可以利用预测对象的特征信息所对应的历史搜索量或者预测对象的特征信息所对应的收益信息(如票房信息等)来对预测对象的特征信息进行量化处理;这里的预测对象的特征信息所对应的历史搜索量是指特征信息在S120中所记载的预定时间段之前的一段时间内的历史搜索量;这里的预测对象的特征信息所对应的收益信息(如票房信息等)是指特征信息在S120中所记载的预定时间段之前的一段时间内的票房信息。
可选地,本实施例中的预定时间段可以包括:预测对象上线(如电影上映或者综艺节目正式播出或者音乐专辑正式上线等)前的第一时间段以及预测对象上线的第二时间段,例如,对于电影而言,预定时间段可以为电影上映前13天至电影上映后42天;当然本实施例中的预定时间段也可以仅包括预测对象上线后的第二时间段,且本实施例也不排除预定时间段仅包括预测对象上线前的第一时间段的可能性。
下面以预测对象为电影为例,对本步骤中的量化处理进行详细说明。
作为示例,对预测对象的电影名称进行量化处理的过程为:统计预测对象的电影名称在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,本实施例可以统计该电影的电影名称在电影上映之前的170天至该电影上映前的30天的历史搜索量;这里的历史搜索量可以为该电影的电影名称在某一搜索网站中的历史搜索量,如该电影的电影名称在百度搜索网站中的历史搜索量总和;然后,计算该电影的电影名称的历史搜索量的自然对数,并将计算出的自然对数作为预测对象的电影名称的量化值。
作为示例,对预测对象的导演信息进行量化处理的过程为:统计预测对象的导演信息在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,本实施例可以统计该电影的导演信息在电影上映之前的170天至该电影上映前的30天的历史搜索量(在该电影具有多名导演的情况下,该历史搜索量是各导演的历史搜索量之和);这里的历史搜索量可以为该电影的导演信息在某搜索网站中的历史搜索量,如该电影的导演信息在百度搜索网站中的历史搜索量总和;然后,计算该电影的导演信息的历史搜索量的自然对数,并将计算出的自然对数作为预测对象的导演信息的量化值。
作为示例,对预测对象的演员信息进行量化处理的过程为:统计预测对象的演员信息在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,本实施例可以统计该电影的演员信息在电影上映之前的170天至该电影上映前的30天的历史搜索量(在演员信息包括多名演员的情况下,该历史搜索量应该是多名演员分别对应的历史搜索量之和);这里的历史搜索量可以为该电影的演员信息在某一搜索网站中的历史搜索量,例如,该电影的演员信息在百度搜索网站中的历史搜索量总和;然后,计算该电影的演员信息的历史搜索量的自然对数,并将计算出的自然对数作为预测对象的演员信息的量化值。
作为示例,对预测对象的制作公司进行量化处理的过程为:统计预测对象的制作公司在预测的预定时间段之前的第二预定时间范围内的票房信息,在预测对象具有多个制作公司的情况下,本实施例可以分别统计各制作公司在第二预定时间范围内的票房信息;上述第二预定时间范围可以为自2010年至今等;然后,根据制作公司的票房信息计算制作公司的票房拉动力,如预测对象的第一制作公司在第二预定时间范围内一共制作了两部电影,且第一部电影的票房为A,第二部电影的票房为B,第一部电影具有两个制作公司,第二部电影具有三个制作公司,则预测对象的第一制作公司的票房拉动力为二分之一A和三分之一B之和;本实施例可以将预测对象的各制作公司的票房拉动力之和作为预测对象的制作公司的量化值。
作为示例,对预测对象的电影上映时间进行量化处理的过程为:本实施例可以将一年划分为多个上映档期,如划分为贺岁档期、五一档期、暑期档期、十一档期以及其他档期这五个档期,判断预测对象的电影上映时间所属的档期,然后,统计在电影上映时间所属的档期上映的各电影在预定时间段内的历史搜索量,并计算各电影的历史搜索量的平均值,将计算出的平均值作为预测对象的电影上映时间的量化值;例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,如果预测对象的电影上映时间属于五一档期,则查看所有样本对象在五一档期上映的电影,并分别统计这些电影在其上映之前的13天到其上映后的42天之间的网络搜索量,并计算这些电影的网络搜索量的平均值,该平均值即为预测对象的电影上映时间的量化值。
作为示例,对预测对象的电影制作成本类型进行量化处理的过程为:本实施例可以根据电影制作成本的多少将电影划分为多种类型,如将电影划分为国产中小成本、国产中成本、国产大制作、进口音乐专辑中小成本、进口音乐专辑中成本以及进口音乐专辑大制作这六大类;判断预测对象所属的电影制作成本类型,然后,统计具有该电影制作成本类型的各电影在预定时间段内的历史搜索量,并计算各电影的历史搜索量的平均值,将计算出的平均值作为预测对象的电影制作成本类型的量化值;例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,如果预测对象属于国产中小成本的电影,则查看所有样本对象中的所有国产中小成本的电影在其上映之前的13天到其上映后的42天之间的网络搜索量,并计算这些电影的网络搜索量的平均值,该平均值即为预测对象的电影上映时间的量化值。
在预测对象为综艺节目或者音乐专辑等其他内容时,预测对象的特征信息的量化处理过程可以参照上述电影的特征信息的量化处理过程,在此不再一一详细说明。
S120、将预测对象的特征信息的量化值作为输入信息提供给网络搜索量预测模型,并将网络搜索量预测模型的输出信息作为预测对象在预定时间段内的网络搜索量预测结果。
具体的,本实施例中的用于预测网络搜索量的网络搜索量预测模型是利用多个样本数据训练获得的,且一个样本数据对应一个样本对象。用于模型训练的样本数据主要包括:样本对象在预定时间段内的历史搜索量以及样本对象的特征信息的量化值;其中的样本对象在预定时间段内的历史搜索量可以为样本对象的名称(如电影名称)在某一搜索网站中的历史搜索量,如样本对象的名称(如电影名称)在预定时间段内在百度搜索网站中的历史搜索量总和。
本实施例中的样本对象通常与预测对象为同种类型的内容,如预测对象和样本对象同为电影或者综艺节目或者音乐专辑等。另外,本实施例中的样本对象应为多个,且一个样本对象对应一个样本数据,本实施例不限制样本对象的数量以及具体内容等。
样本对象的特征信息是指用于描述样本对象的信息,利用特征信息通常可以唯一表示出一个样本对象。样本对象的特征信息和预测对象的特征信息通常包括相同类型的内容,如在预测对象和样本对象均为电影的情况下,预测对象以及样本对象的特征信息通常都包括:电影名称、导演信息、演员信息、制作公司、电影上映时间以及电影制作成本类型中的至少一个。
样本对象的各特征信息所包含的具体内容如上述针对预测对象的特征信息的描述,在此不再重复说明。
下面以预测对象和样本对象均为电影为例,对本步骤中的模型训练进行说明。
本实施例中的样本对象通常为具有一定影响力的电影,这里的影响力可以通过电影票房以及电影历史搜索量来衡量,如样本对象可以为在第二预定时间范围内票房超过预定票房且历史搜索量超过预定搜索量的电影,一个具体的例子,可以从2010年至今的所有电影中选取票房超过预定票房且历史搜索量超过预定搜索量的电影,被选取的电影均被作为样本对象。
本实施例中的网络搜索量预测模型可以具体为利用多个样本数据对SVM(SupportVectorMachine,支持向量机)进行训练而获得的网络搜索量预测模型。当然,本实施例中的网络搜索量预测模型也可以利用样本数据对其它类型的学习机器进行训练而获得,例如利用样本数据对GBDT(GradientBoostingDecisionTree,梯度提升决策树)进行训练,从而获得网络搜索量预测模型,再例如利用样本数据对LR(LogisticRegression,逻辑回归)进行训练,从而获得网络搜索量预测模型。
在训练获得网络搜索量预测模型的过程中,需要使用样本对象的特征信息的量化值,因此,本实施例需要对样本对象的特征信息进行量化处理,量化处理的结果即为样本对象的特征信息的量化值。本实施例可以利用样本对象的特征信息所对应的历史搜索量或者样本对象的特征信息所对应的收益信息(如票房信息)来对样本对象的特征信息进行量化处理;这里的样本对象的特征信息所对应的历史搜索量是指特征信息在预定时间段之前的一段时间内的历史搜索量;这里的样本对象的特征信息所对应的收益信息(如票房信息)是指特征信息在预定时间段之前的一段时间内的票房信息。
作为示例,对某一个样本对象的电影名称进行量化处理的过程为:统计样本对象的电影名称在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,本实施例可以统计样本对象的电影名称在电影上映之前的170天至该电影上映前的30天的历史搜索量;这里的历史搜索量可以为样本对象的电影名称在某搜索网站中的历史搜索量,如样本对象的电影名称在百度搜索网站中的历史搜索量总和;然后计算样本对象的电影名称的历史搜索量的自然对数,并将计算出的自然对数作为该样本对象的电影名称的量化值。
作为示例,对某一个样本对象的导演信息进行量化处理的过程为:统计样本对象的导演信息在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,本实施例可以统计样本对象的导演信息在样本对象上映之前的170天至该样本对象上映前的30天的历史搜索量(在该样本对象具有多名导演的情况下,该历史搜索量是各导演的历史搜索量之和);这里的历史搜索量可以为该样本对象的导演信息在某搜索网站中的历史搜索量,如该样本对象的导演信息在百度搜索网站中的历史搜索量总和;然后,计算该样本对象的导演信息的历史搜索量的自然对数,并将计算出的自然对数作为样本对象的导演信息的量化值。
作为示例,对样本对象的演员信息进行量化处理的过程为:统计样本对象的演员信息在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,本实施例可以统计该样本对象的演员信息在样本对象上映之前的170天至该样本对象上映前的30天的历史搜索量(在演员信息包括多名演员的情况下,该历史搜索量应该是多名演员分别对应的历史搜索量之和);这里的历史搜索量可以为该样本对象的演员信息在某一搜索网站中的历史搜索量,例如,该样本对象的演员信息在百度搜索网站中的历史搜索量总和;然后,计算该样本对象的演员信息的历史搜索量的自然对数,并将计算出的自然对数作为样本对象的演员信息的量化值。
作为示例,对样本对象的制作公司进行量化处理的过程为:统计样本对象的制作公司在预测的预定时间段之前的第二预定时间范围内的票房信息,在样本对象具有多个制作公司的情况下,本实施例可以分别统计各制作公司在第二预定时间范围内的票房信息;上述第二预定时间范围可以为自2010年至今等;然后,根据制作公司的票房信息计算制作公司的票房拉动力,如样本对象的第一制作公司在第二预定时间范围内一共制作了两部电影,且第一部电影的票房为A,第二部电影的票房为B,第一部电影具有两个制作公司,第二部电影具有三个制作公司,则样本对象的第一制作公司的票房拉动力为二分之一A和三分之一B之和;本实施例可以将样本对象的各制作公司的票房拉动力之和作为样本对象的制作公司的量化值。
作为示例,对样本对象的电影上映时间进行量化处理的过程为:判断样本对象的电影上映时间所属的档期,然后,统计在样本对象上映时间所属的档期上映的各电影在预定时间段内的历史搜索量,并计算各电影的历史搜索量的平均值,将计算出的平均值作为样本对象的电影上映时间的量化值;例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,如果样本对象的电影上映时间属于五一档期,则查看所有样本对象中所有在五一档期上映的电影,并分别统计这些电影在其上映之前的13天到其上映后的42天之间的网络搜索量,并计算这些电影的网络搜索量的平均值,该平均值即为样本对象的电影上映时间的量化值。
作为示例,对预测对象的电影制作成本类型进行量化处理的过程为:本实施例可以根据电影制作成本的多少将电影划分为多种类型,如将电影划分为国产中小成本、国产中成本、国产大制作、进口音乐专辑中小成本、进口音乐专辑中成本以及进口音乐专辑大制作这六大类;判断预测对象所属的电影制作成本类型,然后,统计具有该电影制作成本类型的各电影在预定时间段内的历史搜索量,并计算各电影的历史搜索量的平均值,将计算出的平均值作为预测对象的电影制作成本类型的量化值;例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,如果预测对象属于国产中小成本的电影,则查看自2010年至今的国产中小成本的电影在其上映之前的13天到其上映后的42天之间的网络搜索量,并计算这些电影的网络搜索量的平均值,该平均值即为预测对象的电影上映时间的量化值。
在预测对象为综艺节目或者音乐专辑等其他内容时,样本对象的特征信息的量化处理过程可以参照上述样本对象的特征信息的量化处理过程,在此不再一一详细说明。
在进行网络搜索量预测模型的训练时,可以将每一个样本对象在预定时间段内的历史搜索量以及各量化值均作为输入信息,其中的各量化值为自变量,而样本对象在预定时间段内的历史搜索量历史搜索量为因变量;为了保持输入信息在格式上的一致性等原因,在利用该网络搜索量预测模型对预测对象的网络搜索量进行预测时,同样可以将预测对象在预定时间段内的历史搜索量以及各量化值均作为输入信息提供给网络搜索量预测模型,然而,其中的预测对象在预定时间段内的历史搜索量可以设置为缺省值或者无意义数值或者任意值等,从而使输入信息与训练时的输入信息在格式上相同;该模型输出的信息为预测出的预测对象的网络搜索量。
实施例二、用于预测网络搜索量的装置。
本实施例的装置可以设置于计算机设备中,且该装置的主要结构如图2所示。
图2中,用于预测网络搜索量的装置主要包括:获取模块200、量化模块210、预测模块220以及训练模块230。
获取模块200主要用于获取预测对象的特征信息。
具体的,获取模块200可以通过接收外部输入信息的方式获取预测对象的特征信息。本实施例中的预测对象为网络中提供的内容,且预测对象通常为多媒体节目,例如预测对象可以为电影或者综艺节目或者音乐专辑等,本实施例不限制预测对象的具体表现形式。
作为示例,在预测对象为电影的情况下,获取模块200获取到的预测对象的特征信息可以包括:电影名称、导演信息、演员信息、制作公司、电影上映时间以及电影制作成本类型中的一个或者多个(通常为多个)。
作为示例,在预测对象为综艺节目的情况下,获取模块200获取到的预测对象的特征信息可以包括:综艺节目名称、导演信息、演员信息、制作公司、综艺节目上映时间以及综艺节目制作成本类型中的一个或者多个(通常为多个)。
作为示例,在预测对象为音乐专辑的情况下,获取模块200获取到的预测对象的特征信息可以包括:音乐专辑名称、曲作者、词作者、演唱者信息、制作公司、音乐专辑推出时间以及音乐专辑制作成本类型中的一个或者多个(通常为多个)。
上述电影名称、导演信息、演员信息、制作公司、电影上映时间、电影制作成本类型、综艺节目名称、综艺节目上映时间、综艺节目制作成本类型、音乐专辑名称、曲作者、词作者、演唱者信息、音乐专辑推出时间以及音乐专辑制作成本类型所包含的内容如上述实施例一中的描述,在此不再重复说明。
需要说明的是,获取模块200所获取到的预测对象的特征信息所包括的内容仅为举例,获取模块200获取到的预测对象的特征信息也可以包括其他用于描述预测对象的信息,本实施例不限制获取模块200获取到的预测对象的特征信息所包含的具体内容。
量化模块210主要用于根据特征信息的量化处理获得预定对象的特征信息的量化值。
具体的,量化模块210可以利用预测对象的特征信息所对应的历史搜索量或者预测对象的特征信息所对应的收益信息(如票房信息等)来对预测对象的特征信息进行量化处理;这里的预测对象的特征信息所对应的历史搜索量是指特征信息在预定时间段之前的一段时间内的历史搜索量;这里的预测对象的特征信息所对应的收益信息(如票房信息等)是指特征信息在预定时间段之前的一段时间内的收益信息(如票房信息)。
可选地,本实施例中的预定时间段可以包括:预测对象上线(如电影上映或者综艺节目正式播出或者音乐专辑正式上线等)前的第一时间段以及预测对象上线的第二时间段,例如,对于电影而言,预定时间段可以为电影上映前13天至电影上映后42天;当然本实施例中的预定时间段也可以仅包括预测对象上线后的第二时间段,且本实施例也不排除预定时间段仅包括预测对象上线前的第一时间段的可能性。
下面以预测对象为电影为例,对量化模块210所执行的量化处理过程进行详细说明。
作为示例,量化模块210对预测对象的电影名称进行量化处理的过程为:量化模块210统计预测对象的电影名称在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,量化模块210可以统计该电影的电影名称在电影上映之前的170天至该电影上映前的30天的历史搜索量;这里的历史搜索量可以为该电影的电影名称在某一搜索网站中的历史搜索量,如该电影的电影名称在百度搜索网站中的历史搜索量总和;然后,量化模块210计算该电影的电影名称的历史搜索量的自然对数,并将计算出的自然对数作为预测对象的电影名称的量化值提供给预测模块220。
作为示例,量化模块210对预测对象的导演信息进行量化处理的过程为:量化模块210统计预测对象的导演信息在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,量化模块210可以统计该电影的导演信息在电影上映之前的170天至该电影上映前的30天的历史搜索量(在该电影具有多名导演的情况下,该历史搜索量是各导演的历史搜索量之和);这里的历史搜索量可以为该电影的导演信息在某搜索网站中的历史搜索量,如该电影的导演信息在百度搜索网站中的历史搜索量总和;然后,量化模块210计算该电影的导演信息的历史搜索量的自然对数,并将计算出的自然对数作为预测对象的导演信息的量化值提供给预测模块220。
作为示例,量化模块210对预测对象的演员信息进行量化处理的过程为:量化模块210统计预测对象的演员信息在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,量化模块210可以统计该电影的演员信息在电影上映之前的170天至该电影上映前的30天的历史搜索量(在演员信息包括多名演员的情况下,该历史搜索量应该是多名演员分别对应的历史搜索量之和);这里的历史搜索量可以为该电影的演员信息在某一搜索网站中的历史搜索量,例如,该电影的演员信息在百度搜索网站中的历史搜索量总和;然后,量化模块210计算该电影的演员信息的历史搜索量的自然对数,并将计算出的自然对数作为预测对象的演员信息的量化值提供给预测模块220。
作为示例,量化模块210对预测对象的制作公司进行量化处理的过程为:量化模块210统计预测对象的制作公司在预测的预定时间段之前的第二预定时间范围内的票房信息,在预测对象具有多个制作公司的情况下,量化模块210可以分别统计各制作公司在第二预定时间范围内的票房信息;上述第二预定时间范围可以为自2010年至今等;然后,量化模块210根据制作公司的票房信息计算制作公司的票房拉动力,如预测对象的第一制作公司在第二预定时间范围内一共制作了两部电影,且第一部电影的票房为A,第二部电影的票房为B,第一部电影具有两个制作公司,第二部电影具有三个制作公司,则量化模块210可以计算出预测对象的第一制作公司的票房拉动力为二分之一A和三分之一B之和;量化模块210可以将预测对象的各制作公司的票房拉动力之和作为预测对象的制作公司的量化值。
作为示例,量化模块210对预测对象的电影上映时间进行量化处理的过程为:量化模块210可以将一年划分为多个上映档期,如贺岁档期、五一档期、暑期档期、十一档期以及其他档期这五个档期,量化模块210判断预测对象的电影上映时间所属的档期,然后,量化模块210统计在电影上映时间所属的档期上映的各电影在预定时间段内的历史搜索量,量化模块210计算各电影的历史搜索量的平均值,并将计算出的平均值作为预测对象的电影上映时间的量化值提供给预测模块220;例如在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,如果预测对象的电影上映时间属于五一档期,则量化模块210查看所有样本对象在五一档期上映的电影,并分别统计这些电影在其上映之前的13天到其上映后的42天之间的网络搜索量,量化模块210计算这些电影的网络搜索量的平均值,量化模块210将该平均值作为预测对象的电影上映时间的量化值提供给预测模块220。
作为示例,量化模块210对预测对象的电影制作成本类型进行量化处理的过程可以为:量化模块210可以根据电影制作成本的多少将电影划分为多种类型,如国产中小成本、国产中成本、国产大制作、进口音乐专辑中小成本、进口音乐专辑中成本以及进口音乐专辑大制作这六大类;量化模块210判断预测对象所属的电影制作成本类型,然后,量化模块210统计具有该电影制作成本类型的各电影在预定时间段内的历史搜索量,并计算各电影的历史搜索量的平均值,量化模块210将计算出的平均值作为预测对象的电影制作成本类型的量化值提供给预测模块220;例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,如果预测对象属于国产中小成本的电影,则量化模块210查看所有样本对象中的所有国产中小成本的电影在其上映之前的13天到其上映后的42天之间的网络搜索量,并计算这些电影的网络搜索量的平均值,量化模块210将该平均值作为预测对象的电影上映时间的量化值提供给预测模块220。
预测模块220主要用于将预测对象的特征信息的量化值作为输入信息提供给网络搜索量预测模型,并将网络搜索量预测模型的输出信息作为预测对象在预定时间段内的网络搜索量预测结果。
具体的,预测模块220中设置有网络搜索量预测模型,该网络搜索量预测模型是训练模块230训练获得的。预测模块220可以将预测对象在预定时间段内的历史搜索量以及各量化值均作为输入信息提供给网络搜索量预测模型,然而,预测模块220可以将其中的预测对象在预定时间段内的历史搜索量设置为缺省值或者无意义数值或者任意值等,预测模块220将网络搜索量预测模型输出的信息作为预测出的预测对象的网络搜索量。
训练模块230主要用于利用多个样本数据训练获得网络搜索量预测模型,这里的样本数据主要包括:样本对象在预定时间段内的历史搜索量以及样本对象的特征信息的量化值。
具体的,训练模块230所使用的样本数据主要包括:样本对象在预定时间段内的历史搜索量以及样本对象的特征信息的量化值;其中的样本对象在预定时间段内的历史搜索量可以为样本对象的名称(如电影名称)在某一搜索网站中的历史搜索量,如样本对象的名称(如电影名称)在预定时间段内在百度搜索网站中的历史搜索量总和。样本对象在预定时间段内的历史搜索量可以由量化模块210统计并提供给训练模块230,当然,训练模块230也可以自行统计样本对象在预定时间段内的历史搜索量。
本实施例中的样本对象通常与预测对象为同种类型的内容,如预测对象和样本对象同为电影或者综艺节目或者音乐专辑等。另外,本实施例中的样本对象应为多个,且一个样本对象对应一个样本数据,本实施例不限制样本对象的数量以及具体内容等。
样本对象的特征信息是指用于描述样本对象的信息,利用特征信息通常可以唯一表示出一个样本对象。样本对象的特征信息和预测对象的特征信息通常包括相同类型的内容,如在预测对象和样本对象均为电影的情况下,预测对象以及样本对象的特征信息通常都包括:电影名称、导演信息、演员信息、制作公司、电影上映时间以及电影制作成本类型中的至少一个。
样本对象的各特征信息所包含的具体内容如上述实施例一中的描述,在此不再重复说明。
下面以预测对象和样本对象均为电影为例,对训练模块230执行模型训练的过程进行说明。
训练模块230进行模型训练所涉及的样本对象通常为具有一定影响力的电影,这里的影响力可以通过电影票房以及电影历史搜索量来衡量,如训练模块230可以通过统计将在第二预定时间范围内票房超过预定票房且历史搜索量超过预定搜索量的电影作为样本对象,一个具体的例子,训练模块230可以从2010年至今的所有电影中选取票房超过预定票房且历史搜索量超过预定搜索量的电影,训练模块230将被选取的电影作为样本对象。需要说明的是,选取样本对象的操作也可以由量化模块210来执行。
训练模块230可以利用多个样本数据对SVM进行训练,从而获得网络搜索量预测模型。当然,训练模块230也可以利用样本数据对其它类型的学习机器进行训练获得网络搜索量预测模型,如训练模块230利用样本数据对GBDT进行训练,从而获得网络搜索量预测模型,再如训练模块230利用样本数据对LR进行训练,从而获得网络搜索量预测模型。
在训练模块230训练获得网络搜索量预测模型的过程中,需要使用样本对象的特征信息的量化值,因此,本实施例中的量化模块210还用于对样本对象的特征信息进行量化处理,量化模块210将量化处理的结果作为样本对象的特征信息的量化值提供给训练模块230。
量化模块210可以利用样本对象的特征信息所对应的历史搜索量或者样本对象的特征信息所对应的收益信息(如票房信息)来对样本对象的特征信息进行量化处理;这里的样本对象的特征信息所对应的历史搜索量是指特征信息在预定时间段之前的一段时间内的历史搜索量;这里的样本对象的特征信息所对应的收益信息(如票房信息)是指特征信息在预定时间段之前的一段时间内的收益信息(如票房信息)。
作为示例,量化模块210对某一个样本对象的电影名称进行量化处理的过程为:量化模块210统计样本对象的电影名称在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,量化模块210可以统计样本对象的电影名称在电影上映之前的170天至该电影上映前的30天的历史搜索量;这里的历史搜索量可以为样本对象的电影名称在某搜索网站中的历史搜索量,如样本对象的电影名称在百度搜索网站中的历史搜索量总和;然后,量化模块210计算样本对象的电影名称的历史搜索量的自然对数,并将计算出的自然对数作为该样本对象的电影名称的量化值提供给训练模块230。
作为示例,量化模块210对某一个样本对象的导演信息进行量化处理的过程为:量化模块210统计样本对象的导演信息在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,量化模块210可以统计样本对象的导演信息在样本对象上映之前的170天至该样本对象上映前的30天的历史搜索量(在该样本对象具有多名导演的情况下,该历史搜索量是各导演的历史搜索量之和);这里的历史搜索量可以为该样本对象的导演信息在某搜索网站中的历史搜索量,如该样本对象的导演信息在百度搜索网站中的历史搜索量总和;然后,量化模块210计算该样本对象的导演信息的历史搜索量的自然对数,并将计算出的自然对数作为样本对象的导演信息的量化值提供给训练模块230。
作为示例,量化模块210对样本对象的演员信息进行量化处理的过程为:量化模块210统计样本对象的演员信息在网络搜索量预测的预定时间段之前的第一预定时间范围内的历史搜索量(即历史搜索量总和),例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,量化模块210可以统计该样本对象的演员信息在样本对象上映之前的170天至该样本对象上映前的30天的历史搜索量(在演员信息包括多名演员的情况下,该历史搜索量应该是多名演员分别对应的历史搜索量之和);这里的历史搜索量可以为该样本对象的演员信息在某一搜索网站中的历史搜索量,例如,该样本对象的演员信息在百度搜索网站中的历史搜索量总和;然后,量化模块210计算该样本对象的演员信息的历史搜索量的自然对数,并将计算出的自然对数作为样本对象的演员信息的量化值提供给训练模块230。
作为示例,量化模块210对样本对象的制作公司进行量化处理的过程为:量化模块210统计样本对象的制作公司在预测的预定时间段之前的第二预定时间范围内的票房信息,在样本对象具有多个制作公司的情况下,量化模块210可以分别统计各制作公司在第二预定时间范围内的票房信息;上述第二预定时间范围可以为自2010年至今等;然后,量化模块210根据制作公司的票房信息计算制作公司的票房拉动力,如样本对象的第一制作公司在第二预定时间范围内一共制作了两部电影,且第一部电影的票房为A,第二部电影的票房为B,第一部电影具有两个制作公司,第二部电影具有三个制作公司,则量化模块210计算出样本对象的第一制作公司的票房拉动力为二分之一A和三分之一B之和;量化模块210可以将样本对象的各制作公司的票房拉动力之和作为样本对象的制作公司的量化值提供给训练模块230。
作为示例,量化模块210对样本对象的电影上映时间进行量化处理的过程为:量化模块210判断样本对象的电影上映时间所属的档期,然后,量化模块210统计在样本对象上映时间所属的档期上映的各电影在预定时间段内的历史搜索量,并计算各电影的历史搜索量的平均值,量化模块210将计算出的平均值作为样本对象的电影上映时间的量化值提供给训练模块230;例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,如果样本对象的电影上映时间属于五一档期,则量化模块210查看所有样本对象中所有在五一档期上映的电影,并分别统计这些电影在其上映之前的13天到其上映后的42天之间的网络搜索量,并计算这些电影的网络搜索量的平均值,量化模块210将该平均值作为样本对象的电影上映时间的量化值提供给训练模块230。
作为示例,量化模块210对预测对象的电影制作成本类型进行量化处理的过程可以为:量化模块210可以根据电影制作成本的多少将电影划分为多种类型,如将电影划分为国产中小成本、国产中成本、国产大制作、进口音乐专辑中小成本、进口音乐专辑中成本以及进口音乐专辑大制作这六大类;量化模块210判断预测对象所属的电影制作成本类型,然后,量化模块210统计具有该电影制作成本类型的各电影在预定时间段内的历史搜索量,并计算各电影的历史搜索量的平均值,量化模块210将计算出的平均值作为预测对象的电影制作成本类型的量化值提供给训练模块230;例如,在本实施例预测电影上映之前的13天到电影上映后的42天之间的网络搜索量的情况下,如果预测对象属于国产中小成本的电影,则量化模块210查看自2010年至今的国产中小成本的电影在其上映之前的13天到其上映后的42天之间的网络搜索量,并计算这些电影的网络搜索量的平均值,量化模块210将该平均值作为预测对象的电影上映时间的量化值提供给训练模块230。
需要注意的是,本发明可以在软件和/或者软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或者任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器、磁或者光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然,本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一方面来看,均应该将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明来限定,因此,旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应该将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一以及第二等词语用来表示名称,而并不表示任何特定顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,以上示例仅为说明本发明而非限制性目的,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。

Claims (14)

1.一种用于预测网络搜索量的方法,其中,该方法包括以下步骤:
获取预测对象的特征信息;
根据所述特征信息的量化处理获得预定对象的特征信息的量化值;
将所述预测对象的特征信息的量化值作为输入信息提供给网络搜索量预测模型,并将所述网络搜索量预测模型的输出信息作为所述预测对象在预定时间段内的网络搜索量预测结果;
其中,所述网络搜索量预测模型是利用多个样本数据训练获得的,且所述样本数据包括:样本对象在预定时间段内的历史搜索量以及样本对象的特征信息的量化值。
2.根据权利要求1所述的方法,其中,所述根据所述特征信息的量化处理获得预定对象的特征信息的量化值包括:
根据所述预测对象的特征信息对应的历史搜索量或者收益信息对预测对象的特征信息进行量化处理,以获得预定对象的特征信息的量化值。
3.根据权利要求1所述的方法,其中,所述预测对象包括:电影,所述预测对象的特征信息包括:电影名称、导演信息、演员信息、制作公司、电影上映时间以及电影制作成本类型中的至少一个。
4.根据权利要求3所述的方法,其中,所述根据所述特征信息的量化处理获得预定对象的特征信息的量化值包括下述至少之一:
根据预测对象的电影名称在第一预定时间范围内的历史搜索量对所述预测对象的电影名称的量化处理获得所述预测对象的电影名称的量化值;
根据预测对象的导演信息在第一预定时间范围内的历史搜索量对所述预测对象的导演信息的量化处理获得所述预测对象的导演信息的量化值;
根据预测对象的演员信息在第一预定时间范围内的历史搜索量对所述预测对象的演员信息的量化处理获得所述预测对象的演员信息的量化值;
根据预测对象的制作公司在第二预定时间范围内的票房信息对所述预测对象的制作公司的量化处理获得所述预测对象的制作公司的量化值;
根据预测对象的电影上映时间所对应的档期中的各电影在预定时间段内的历史搜索量对所述预测对象的电影上映时间的量化处理获得所述预测对象的电影上映时间的量化值;
根据属于预测对象的电影制作成本类型的各电影在预定时间段内的网络搜索量对所述预测对象的电影制作成本类型的量化处理获得所述样本对象的电影制作成本类型的量化值;
其中,所述第一预定时间范围早于预定时间段。
5.根据权利要求3所述的方法,其中,所述样本对象包括:在第二预定时间范围内票房超过预定票房且历史搜索量超过预定搜索量的电影。
6.根据权利要求1所述的方法,其中,所述预定时间段包括:预测对象上线前的第一时间段以及预测对象上线后的第二时间段。
7.根据权利要求1至6中任一权利要求所述的方法,其中,所述网络搜索量预测模型包括:利用多个样本数据对支持向量机SVM进行训练而获得的网络搜索量预测模型。
8.一种用于预测网络搜索量的装置,其中,该装置包括:
获取模块,适于获取预测对象的特征信息;
量化模块,适于根据所述特征信息的量化处理获得预定对象的特征信息的量化值;
预测模块,适于将所述预测对象的特征信息的量化值作为输入信息提供给网络搜索量预测模型,并将所述网络搜索量预测模型的输出信息作为所述预测对象在预定时间段内的网络搜索量预测结果;
其中,所述网络搜索量预测模型是训练模块利用多个样本数据训练获得的,且所述样本数据包括:样本对象在预定时间段内的历史搜索量以及样本对象的特征信息的量化值。
9.根据权利要求8所述的装置,其中,所述量化模块具体适于:
根据所述预测对象的特征信息对应的历史搜索量或者收益信息对预测对象的特征信息进行量化处理,以获得预定对象的特征信息的量化值。
10.根据权利要求8所述的装置,其中:
所述预测对象包括:电影;
所述预测对象的特征信息包括:电影名称、导演信息、演员信息、制作公司、电影上映时间以及电影制作成本类型中的至少一个。
11.根据权利要求10所述的装置,其中,所述量化模块具体适于下述至少之一:
根据预测对象的电影名称在第一预定时间范围内的历史搜索量对所述预测对象的电影名称的量化处理获得所述预测对象的电影名称的量化值;
根据预测对象的导演信息在第一预定时间范围内的历史搜索量对所述预测对象的导演信息的量化处理获得所述预测对象的导演信息的量化值;
根据预测对象的演员信息在第一预定时间范围内的历史搜索量对所述预测对象的演员信息的量化处理获得所述预测对象的演员信息的量化值;
根据预测对象的制作公司在第二预定时间范围内的票房信息对所述预测对象的制作公司的量化处理获得所述预测对象的制作公司的量化值;
根据预测对象的电影上映时间所对应的档期中的各电影在预定时间段内的历史搜索量对所述预测对象的电影上映时间的量化处理获得所述预测对象的电影上映时间的量化值;
根据属于预测对象的电影制作成本类型的各电影在预定时间段内的网络搜索量对所述预测对象的电影制作成本类型的量化处理获得所述样本对象的电影制作成本类型的量化值;
其中,所述第一预定时间范围早于预定时间段。
12.根据权利要求10所述的装置,其中,所述样本对象包括:在第二预定时间范围内票房超过预定票房且历史搜索量超过预定搜索量的电影。
13.根据权利要求8所述的装置,其中,所述预定时间段包括:预测对象上线前的第一时间段以及预测对象上线后的第二时间段。
14.根据权利要求8至13中任一权利要求所述的装置,其中,所述训练模块具体适于:
利用多个样本数据对支持向量机SVM进行训练而获得网络搜索量预测模型。
CN201510405822.2A 2015-07-10 2015-07-10 用于预测网络搜索量的方法和装置 Pending CN105095414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510405822.2A CN105095414A (zh) 2015-07-10 2015-07-10 用于预测网络搜索量的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510405822.2A CN105095414A (zh) 2015-07-10 2015-07-10 用于预测网络搜索量的方法和装置

Publications (1)

Publication Number Publication Date
CN105095414A true CN105095414A (zh) 2015-11-25

Family

ID=54575851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510405822.2A Pending CN105095414A (zh) 2015-07-10 2015-07-10 用于预测网络搜索量的方法和装置

Country Status (1)

Country Link
CN (1) CN105095414A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701207A (zh) * 2016-01-12 2016-06-22 腾讯科技(深圳)有限公司 资源的请求量预测方法、应用推荐方法和装置
CN105787075A (zh) * 2016-03-02 2016-07-20 百度在线网络技术(北京)有限公司 一种基于数据挖掘的事件预测方法和装置
CN106330558A (zh) * 2016-08-31 2017-01-11 哈尔滨工业大学(威海) 应用于软件定义网络的控制器负载预测***及方法
CN109034908A (zh) * 2018-08-07 2018-12-18 大连理工大学 一种结合排序学习的电影排名预测方法
CN109104301A (zh) * 2018-07-19 2018-12-28 国政通科技有限公司 一种基于深度学习模型针对综艺节目进行网络热度预测的方法和***
CN112258309A (zh) * 2020-09-11 2021-01-22 上海汇付数据服务有限公司 风控决策方法及装置
CN113554473A (zh) * 2021-08-11 2021-10-26 上海明略人工智能(集团)有限公司 信息搜索量的预测方法、装置、电子设备和可读存储介质
CN117473144A (zh) * 2023-12-27 2024-01-30 深圳市活力天汇科技股份有限公司 一种航线数据的存储方法、计算机设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184948A1 (en) * 2010-01-22 2011-07-28 National Cheng Kung University Music recommendation method and computer readable recording medium storing computer program performing the method
CN102510529A (zh) * 2011-09-22 2012-06-20 中国科学技术大学 对节目进行点播量预测和存储调度的方法
CN104035994A (zh) * 2014-06-11 2014-09-10 华东师范大学 一种基于网络数据的电视剧点播量预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110184948A1 (en) * 2010-01-22 2011-07-28 National Cheng Kung University Music recommendation method and computer readable recording medium storing computer program performing the method
CN102510529A (zh) * 2011-09-22 2012-06-20 中国科学技术大学 对节目进行点播量预测和存储调度的方法
CN104035994A (zh) * 2014-06-11 2014-09-10 华东师范大学 一种基于网络数据的电视剧点播量预测方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701207A (zh) * 2016-01-12 2016-06-22 腾讯科技(深圳)有限公司 资源的请求量预测方法、应用推荐方法和装置
CN105701207B (zh) * 2016-01-12 2020-04-24 腾讯科技(深圳)有限公司 资源的请求量预测方法、应用推荐方法和装置
CN105787075A (zh) * 2016-03-02 2016-07-20 百度在线网络技术(北京)有限公司 一种基于数据挖掘的事件预测方法和装置
CN106330558A (zh) * 2016-08-31 2017-01-11 哈尔滨工业大学(威海) 应用于软件定义网络的控制器负载预测***及方法
CN109104301A (zh) * 2018-07-19 2018-12-28 国政通科技有限公司 一种基于深度学习模型针对综艺节目进行网络热度预测的方法和***
CN109034908A (zh) * 2018-08-07 2018-12-18 大连理工大学 一种结合排序学习的电影排名预测方法
CN112258309A (zh) * 2020-09-11 2021-01-22 上海汇付数据服务有限公司 风控决策方法及装置
CN113554473A (zh) * 2021-08-11 2021-10-26 上海明略人工智能(集团)有限公司 信息搜索量的预测方法、装置、电子设备和可读存储介质
CN117473144A (zh) * 2023-12-27 2024-01-30 深圳市活力天汇科技股份有限公司 一种航线数据的存储方法、计算机设备及可读存储介质
CN117473144B (zh) * 2023-12-27 2024-03-29 深圳市活力天汇科技股份有限公司 一种航线数据的存储方法、计算机设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN105095414A (zh) 用于预测网络搜索量的方法和装置
CN105719001B (zh) 使用散列的神经网络中的大规模分类
CN103959192B (zh) 用于估算超越函数的数学电路
KR102240662B1 (ko) 광역 및 심층 기계 학습 모델들
CN105005911B (zh) 深度神经网络的运算***及运算方法
CN102298569A (zh) 在线学习算法的并行化
CN105023165A (zh) 社交网络平台中投放任务的控制方法、装置及***
CN105022670A (zh) 一种云计算平台中的异构分布式任务处理***及其处理方法
US20170017882A1 (en) Copula-theory based feature selection
CN103974097A (zh) 基于流行度和社交网络的个性化用户原创视频预取方法及***
CN105530272A (zh) 一种应用数据的同步方法和装置
CN105373853A (zh) 股票舆情指数预测方法以及装置
CN109087138A (zh) 数据处理方法及***、计算机***和可读存储介质
CN106919998B (zh) 一种基于aoe网络的物流模型及方法
CN106227881A (zh) 一种信息处理方法及服务器
CN102446100A (zh) 用于数据类型的类型和长度抽象
CN103885767A (zh) 用于地理区域相关网站的***和方法
CN105260906A (zh) 互动链接推送方法及装置
CN112269943B (zh) 一种信息推荐***及方法
CN110032364A (zh) 数据处理方法、装置、电子设备和计算机存储介质
US20210142197A1 (en) Methods and systems for diverse instance generation in artificial intelligence planning
CN105373854A (zh) 股票舆情指数预测方法以及装置
CN109753708A (zh) 一种付费金额预测方法、装置及可读存储介质
CN113705683B (zh) 推荐模型的训练方法、装置、电子设备及存储介质
CN114092162A (zh) 推荐质量确定方法、推荐质量确定模型的训练方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151125

RJ01 Rejection of invention patent application after publication