CN109213513A - 软件份额占比的确定方法、装置及计算机可读存储介质 - Google Patents

软件份额占比的确定方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109213513A
CN109213513A CN201710521670.1A CN201710521670A CN109213513A CN 109213513 A CN109213513 A CN 109213513A CN 201710521670 A CN201710521670 A CN 201710521670A CN 109213513 A CN109213513 A CN 109213513A
Authority
CN
China
Prior art keywords
software
probability
target
designated
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710521670.1A
Other languages
English (en)
Other versions
CN109213513B (zh
Inventor
谢毅
胡荣杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710521670.1A priority Critical patent/CN109213513B/zh
Publication of CN109213513A publication Critical patent/CN109213513A/zh
Application granted granted Critical
Publication of CN109213513B publication Critical patent/CN109213513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种软件份额占比的确定方法、装置及计算机可读存储介质,属于数据处理技术领域。该方法包括:从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件;确定目标软件与所确定的指定软件之间的联合概率;统计在安装所确定的指定软件和目标软件的条件下至少两个维度上对应的终端安装目标软件的第一条件概率;基于目标软件与所确定的指定软件之间的联合概率和第一条件概率,确定所确定的指定软件、目标软件和至少两个维度之间的联合概率;基于所确定的联合概率、存储的多个样本数据和多个样本数据的维度信息,得到目标软件的软件份额占比。由于无需行业背景经验丰富的数据统计人员人工操作,因此,提高了确定效率。

Description

软件份额占比的确定方法、装置及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,特别涉及一种软件份额占比的确定方法、装置及计算机可读存储介质。
背景技术
目前,运营商提供了丰富多样的软件,为了便于深入了解软件在市场中的使用情况及制定产品策略,运营商通常希望能够获知软件份额占比,软件份额占比是指某软件在市场中被安装的份额占比。为了确定该软件份额占比,一些数据统计商提供了一款数据采集SDK(Software Development Kit,软件开发工具包),该数据采集SDK能够存在于一些软件中,例如,存在于应用管家中,如此,当终端中安装有该软件时,即可通过该数据采集SDK获取并上报终端自身所安装软件的软件列表,以便于数据统计商根据各个终端上报的软件列表,采用抽样的方式确定各个软件的软件份额占比。
在实际应用场景中,终端机型、用户性别、用户年龄、数据采集SDK的推广策略等维度均会影响所确定的软件份额占比的准确性。例如,以终端机型为例,假如某机型的终端不支持安装软件A,如此,当统计该软件A的软件份额占比时,如果抽样的大部分软件列表均是由该机型的终端上报的,则容易导致所统计的软件份额占比具有一定的偏向性。为此,在相关技术中,一般需要具有足够行业背景经验的数据统计人员进行分析和修正,通常情况下,该数据统计人员根据经验可以获知哪些维度导致了软件份额占比具有偏向性,并针对该维度重新进行抽样,以重新统计软件的软件份额占比,从而达到修正的效果。
在实现本申请的过程中,发明人发现现有技术至少存在以下问题:由于在相关技术中需要行业背景经验丰富的数据统计人员进行人工分析和修正,如此,导致软件份额占比的确定效率较低。
发明内容
为了解决相关技术的软件份额占比的确定效率较低问题,本发明实施例提供了一种软件份额占比的确定方法及装置。所述技术方案如下:
第一方面,提供了一种软件份额占比的确定方法,所述方法包括:
从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件,每个指定软件是指对预设数量个其他软件的安装概率均具有抑制或提升作用的软件,所述目标软件为待统计软件份额占比的软件;
确定所述目标软件与所确定的指定软件之间的联合概率;
统计在安装所确定的指定软件和所述目标软件的条件下至少两个维度上对应的终端安装所述目标软件的第一条件概率,所述至少两个维度中的每个维度均影响所述目标软件的软件份额占比;
基于所述目标软件与所确定的指定软件之间的联合概率和所述第一条件概率,确定所确定的指定软件、所述目标软件和所述至少两个维度之间的联合概率;
基于所确定的指定软件、所述目标软件和所述至少两个维度之间的联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比。
第二方面,提供了一种软件份额占比的确定方法,所述方法包括:
获取目标维度上对应的终端安装目标软件的边缘概率,所述目标软件为待统计软件份额占比的软件,所述目标维度为影响所述目标软件的软件份额占比的至少两个维度中具有准确边缘概率的维度;
统计在所述目标维度上对应的终端已经安装所述目标软件的条件下所述至少两个维度中其他维度上对应的终端安装所述目标软件的第三条件概率;
基于所述边缘概率和所述第三条件概率,确定所述至少两个维度之间的联合概率;
基于所述联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比。
第三方面,提供了一种软件份额占比的确定装置,所述装置包括:
第一确定模块,用于从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件,每个指定软件是指对预设数量个其他软件的安装概率均具有抑制或提升作用的软件,所述目标软件为待统计软件份额占比的软件;
第二确定模块,用于确定所述目标软件与所确定的指定软件之间的联合概率;
第一统计模块,用于统计在安装所确定的指定软件和所述目标软件的条件下至少两个维度上对应的终端安装所述目标软件的第一条件概率,所述至少两个维度中的每个维度均影响所述目标软件的软件份额占比;
第三确定模块,用于基于所述目标软件与所确定的指定软件之间的联合概率和所述第一条件概率,确定所确定的指定软件、所述目标软件和所述至少两个维度之间的联合概率;
第四确定模块,用于基于所确定的指定软件、所述目标软件和所述至少两个维度之间的联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比。
第四方面,提供了一种软件份额占比的确定装置,所述装置包括:
获取模块,用于获取目标维度上对应的终端安装目标软件的边缘概率,所述目标软件为待统计软件份额占比的软件,所述目标维度为影响所述目标软件的软件份额占比的至少两个维度中具有准确边缘概率的维度;
第一统计模块,用于统计在所述目标维度上对应的终端已经安装所述目标软件的条件下所述至少两个维度中其他维度上对应的终端安装所述目标软件的第三条件概率;
第一确定模块,用于基于所述边缘概率和所述第三条件概率,确定所述至少两个维度之间的联合概率;
第二统计模块,用于基于所述联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比。
第五方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述第一方面或第二方面所述的软件份额占比的确定方法。
第六方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现上述第一方面或第二方面所述的软件份额占比的确定方法。
本发明实施例提供的技术方案带来的有益效果是:从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件,并确定该目标软件与该指定软件之间的联合概率。之后,统计在安装所确定的指定软件和目标软件的条件下至少两个维度上对应的终端安装目标软件的第一条件概率,基于该目标软件与所确定的指定软件之间的联合概率和该第一条件概率,确定所确定的指定软件、该目标软件和该至少两个维度之间的联合概率,以基于该联合概率和多个样本数据和多个样本数据的维度信息,确定软件份额占比。在此过程中,考虑了指定软件和至少两个维度之间的条件关系及对该目标软件的联合分布影响,保证了确定的软件份额占比的准确性,并且,由于在确定软件份额占比的过程中无需行业背景经验丰富的数据统计人员进行人工参与,因此,提高了确定效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种应用场景的示意图;
图2A是本发明实施例提供的一种软件份额占比的确定方法的流程图;
图2B是根据一示例性实施例示出的一种修正结果的示意图;
图2C是根据另一示例性实施例示出的一种修正结果的示意图;
图3A是本发明实施例提供的另一种软件份额占比的确定方法的流程图;
图3B为图3A实施例所涉及的一种软件份额占比的确定方法的流程示意图;
图3C是本发明实施例示出的一种基于终端机型确定的软件份额占比的效果示意图;
图4A是本发明实施例提供的一种软件份额占比的确定装置的结构示意图;
图4B是本发明实施例提供的另一种软件份额占比的确定装置的结构示意图;
图5A是本发明实施例提供的另一种软件份额占比的确定装置的结构示意图;
图5B是本发明实施例提供的另一种软件份额占比的确定装置的结构示意图;
图6是本发明实施例提供的一种软件份额占比的确定装置的服务器结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例涉及的名词、应用场景和实施环境予以简单说明。
首先,对本发明实施例涉及的名词进行说明。
软件份额占比:是指软件在市场中被安装的份额占比。运营商根据该软件份额占比可以获知软件在市场中被安装的情况,也即是,运营商根据该软件份额占比可以获知软件在市场中的使用情况。
KOL:(Key Opinion Development,意见领袖),这里可以理解为一种软件,该软件对其它软件的安装概率具有抑制或者提升作用,例如,该软件为应用宝,由于该应用宝通常会推广诸如QQ之类的软件,因此,该应用宝对诸如QQ之类的软件的安装概率具有一定的提升作用。
Gibbs抽样:是(Markov Chain Monte Carlo,MCMC)马尔可夫链蒙特卡尔理论中用来获取一系列近似等于指定多维概率分布(例如,在本发明实施例中是指多个维度之间的联合概率),以抽取样本数据的算法。
提升度:通常可以用于指示一个软件对另一个软件的安装概率是否具有提升或抑制作用。在实际应用中,若在安装第一软件的条件下安装第二软件,则当该第一软件与该第二软件之间的提升度大于1时,说明该第一软件对该第二软件的安装概率具有提升作用,当该第一软件与该第二软件之间的提升度小于1时,说明该第一软件对该第二软件的安装概率具有抑制作用。
其次,对本发明实施例的应用场景进行说明。
在实际应用场景中,在统计目标软件的软件份额占比时,不仅终端机型、用户性别、用户年龄、数据采集SDK的推广策略等维度会影响软件份额占比的确定的准确性,一些兄弟软件产品或竞争软件产品也会影响软件份额占比的确定的准确性。例如,请参考图1,若存在一款软件,该软件对当前统计软件份额占比的目标软件的安装概率具有提升作用,则该软件将会导致该目标软件的软件份额占比偏高,反之,如果存在一款软件,该软件对当前统计软件份额占比的目标软件的安装概率具有抑制作用,则该软件将会导致该目标软件的软件份额占比偏小。通常情况下,该类软件被称为KOL。
因此,当存在对目标软件的安装概率具有提升或抑制作用的其他软件时,在采用抽样方法对软件份额占比进行统计的过程中,还需要考虑该目标软件与能够影响该目标软件的其他软件之间的联合分布情况。
为此,本发明实施例提供了一种软件份额占比的确定方法,该软件份额占比的确定方法不仅可以解决只存在至少两个维度对软件份额占比具有偏向影响的问题,还可以解决存在至少两个维度对软件份额占比具有偏向影响的同时,上述属于KOL的软件对目标软件的软件份额占比也具有偏向影响的问题。
最后,对本发明实施例的实施环境进行说明。
本发明实施例提供的软件份额占比的确定方法可以由服务器作为执行主体来实现。在具体实现中,该服务器可以为一台服务器,也可以为由多台服务器组成的服务器集群,本发明实施例对此不做限定。
其中,该服务器可以接收来自各个数据源上报的样本数据,其中,该样本数据具体可以为软件列表。该多个数据源可以包括诸如手机、平板电脑之类的终端,该终端中可以安装有携带数据统计SDK的软件,例如,该软件可以为应用宝、软件管家等。如此,终端即可通过该软件中的SDK采集终端的所安装软件的软件列表,并将该软件列表上报给该服务器。之后,该服务器可以基于所接收的所有样本数据,通过本发明实施例提供的软件份额占比的确定方法,确定软件的软件份额占比,其具体实现过程可以参见如下图2A和图3A所示的实施例。
如前文所述,在实际应用场景中,在统计目标软件的软件份额占比时,存在两种情况:第一种情况,影响软件份额占比的即包括上述至少两个维度,且还包括对该目标软件的安装概率具有一定影响的其他软件;第二种情况,影响软件份额占比的仅包括诸如上述终端机型、用户性别、用户年龄之类的至少两个维度。为了便于理解和阅读,接下来将分别通过如下图2A和图3A两个实施例针对上述两种情况,对软件份额占比的确定方法的具体实现过程进行详细描述。
首先,以影响软件份额占比的即包括上述至少两个维度,且还包括对该目标软件的安装概率具有一定影响的其他软件为例进行说明,请参考图2A,该图2A是本发明实施例提供的一种软件份额占比的确定方法的流程图,该方法应用于服务器中。该方法包括:
步骤201:从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件,每个指定软件是指对预设数量个其他软件的安装概率均具有抑制或提升作用的软件,该目标软件为待统计软件份额占比的软件。
其中,从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件的具体实现可以包括:确定该多个指定软件中每个指定软件与该目标软件之间的提升度,如果存在与该目标软件之间的提升度大于1或小于1的指定软件,则确定该指定软件为对该目标软件的安装概率具有抑制或提升作用的指定软件。
其中,确定该多个指定软件中每个指定软件与该目标软件之间的提升度的具体实现包括:对于该指定软件中的每个指定软件,获取该指定软件的边缘概率,以及统计在安装了该指定软件的条件下安装该目标软件的条件概率,将所统计的该条件概率除以获取的该指定软件的边缘概率,即得到该指定软件与该目标软件之间的提升度。
在一种可能的实现方式中,该服务器中存储有每个指定软件的边缘概率,在实际实现中,每个指定软件的边缘概率可以通过诸如工信部之类的发布渠道获取得到后存储至该服务器中,或者,每个指定软件的边缘概率也可以通过与第三方之间进行数据交换得到后存储至服务器中,本发明实施例对此不做限定。
另外,在实际实现中,该服务器可以根据多个数据源上报的样本数据,统计在安装了该指定软件的条件下安装该目标软件的条件概率,也即是,服务器统计该多个数据源上报的样本数据中,在安装了该指定软件的条件下安装该目标软件所对应的样本数量S1,以及统计该多个数据源上报的样本数据中,安装该目标软件所对应的样本数量S2。之后,将该样本数量S1除以该样本数量S2,即得到了在安装了该指定软件的条件下安装该目标软件的条件概率。
进一步地,在从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件之前,还需要确定该多个指定软件,在具体实现中,确定该多个指定软件的实现过程中可以包括如下2011-2014:
2011:确定第一软件在该多个样本数据中所占的比例,该第一软件为该多个样本数据对应的多个软件中的任一软件。
在实际实现中,对于该多个样本数据对应的多个软件中的任一个第一软件,需要确定该第一软件在该多个样本数据中所占的份额,原因在于,如果该第一软件在多个样本数据中所占的份额较小,则说明该第一软件的影响力也比较小,可以忽视,但如果该第一软件在该多个样本数据中所占的份额较大,说明该第一软件具有较大的影响力,此时不可以忽视该第一软件带来的影响。因此,需要确定该第一软件在该多个样本数据中所占的比例。
需要说明的是,在本发明实施例中,仅是以确定该第一软件在该多个样本数据中的所占的比例为例进行说明,在另一实施例中,如果多个样本数据的数量较少,则还可以确定该第一软件在所有样本数据中所占的比例,本发明实施例对不做限定。
2012:若该比例大于或等于预设比例,则确定该第一软件与多个第二软件中每个第二软件之间的提升度,该多个第二软件为该多个软件中除该第一软件之外的软件,该提升度用于指示该第一软件对其他软件的安装概率是否具有抑制或提升作用。
其中,该预设比例可以由该服务器默认设置,也可以由技术人员根据实际需求自定义设置,本发明实施例对此不做限定。
如果上述所确定的比例大于预设比例,说明该第一软件的影响力较大,进一步需要确定该第一软件所影响的其他软件的数量。为了确定该第一软件所影响的其他软件的数量,需要确定该第一软件对哪些软件具有影响,为此,服务器确定该第一软件与多个第二软件中每个第二软件之间的提升度。
其中,确定该第一软件与多个第二软件中每个第二软件之间的提升度的具体实现可以包括:对于每个第二软件,获取该第二软件的边缘概率,以及确定在安装该第一软件的条件下安装该第二软件的第三条件概率,将该第三条件概率除以该第二软件的边缘概率,得到该第一软件与该第二软件之间的提升度。
例如,若该第一软件为K,第二软件为L,则获取该第二软件的边缘概率P(L),以及统计P(L|K),之后,通过P(L|K)/P(L)即可得到该第一软件K与该第二软件L之间的提升度。
需要说明的是,上述仅是以确定比例大于或等于预设比例对应的第一软件与多个第二软件中每个第二软件之间的提升度为例进行说明。在实际实现中,还可以按照从大到小的顺序,从所确定的所有第一软件中选择比例排名前n的多个第一软件,并确定该n个第一软件中每个第一软件与多个第二软件中每个第二软件之间的提升度,本发明实施例对此不做限定。
2013:统计该多个第二软件中与该第一软件之间的提升度小于1或者大于1的软件数量。
如前文所述,如果该多个第二软件中存在与该第一软件之间的提升度小于1或者大于1的第二软件,则说明该第一软件对该第二软件的安装概率起到抑制或者提升作用。服务器统计该多个第二软件中与该第一软件之间的提升度小于1或者大于1的软件数量。
2014:当统计的软件数量达到该预设数量时,确定该第一软件为指定软件。
其中,该预设数量可以由该服务器默认设置,也可以由技术人员根据实际需求自定义设置,本发明实施例对此不做限定。
如果统计的软件数量达到该预设数量,说明该第一软件对大量的第二软件的安装概率具有提升或抑制作用,因此,将该第一软件确定为指定软件。按照该种实现方法,即可确定上述多个指定软件。
步骤202:确定该目标软件与所确定的指定软件之间的联合概率。
由于指定软件对目标软件的安装概率具有提升或抑制作用时会影响该目标软件的软件份额占比的确定结果,因此,确定了对目标软件的安装概率具有抑制或提升作用的指定软件后,需要考虑该指定软件与该目标软件之间的联合分布,即该服务器确定该指定软件与该目标软件之间的联合概率。
在具体实现中,服务器获取所确定的指定软件的边缘概率,以及统计在安装所确定的指定软件的条件下安装该目标软件的第二条件概率,基于所确定的指定软件的边缘概率和该第二条件概率,确定该目标软件与所确定的指定软件之间的联合概率。
例如,若对目标软件Y的安装概率具有抑制或提升作用的指定软件为软件X,获取该指定软件的边缘概率为P(X),且经过统计得到在安装所确定的指定软件的条件下安装该目标软件的第二条件概率P(Y|X),则可以确定该目标软件与所确定的指定软件之间的联合概率为P(X,Y)=P(X)*P(Y|X)。
由于该指定软件的边缘概率为真实概率,且这里还考虑了在安装所确定的指定软件的条件下安装该目标软件的第二条件概率,因此,相比于指定软件的边缘概率不准确的情况,基于该指定软件的边缘概率该第二条件概率,确定的该联合概率得到了修正,即修正了该指定软件对该目标软件的影响。
步骤203:统计在安装所确定的指定软件和该目标软件的条件下至少两个维度上对应的终端安装该目标软件的第一条件概率,该至少两个维度中的每个维度均影响该目标软件的软件份额占比。
由于影响该目标软件的软件份额占比还包括至少两个维度,因此,在实际实现中,还需要统计该至少两个维度上对应的终端安装该目标软件的第一条件概率。其中,统计的具体实现与上述统计在安装了该指定软件的条件下安装该目标软件的条件概率的具体实现类似。
例如,若该至少两个维度包括终端机型和用户性别,则统计P(机型|X,Y)以及P(性别|X,Y,机型)。在具体实现中,由于该至少两个维度中的每个维度均包括多个维度信息,例如,终端机型包括A和B,用户性别包括男和女,因此,在实际实现中,统计的该P(机型|X,Y)和P(性别|X,Y,机型)也均包括多个。例如,该第一条件概率包括P(A|X,Y)、P(B|X,Y)、P(男|X,Y,A)、P(女|X,Y,A)、P(男|X,Y,B)和P(女|X,Y,B)。
步骤204:基于该目标软件与所确定的指定软件之间的联合概率和该第一条件概率,确定所确定的指定软件、该目标软件和该至少两个维度之间的联合概率。
在实际实现中,服务器基于该目标软件与所确定的指定软件之间的联合概率和该第一条件概率,采用Gibbs抽样原理P(H,M)=P(H|M)*P(M),确定所确定的指定软件、该目标软件和该至少两个维度之间的联合概率。
继续以上述例子为例,即对目标软件X的安装概率具有提升或抑制作用的指定软件为软件X,则服务器采用Gibbs抽样原理P(H,M)=P(H|M)*P(M),可以确定该指定软件X、该目标软件Y和该至少两个维度之间的联合概率包括:
P(X,Y,A,男)=P(A|X,Y,男)P(男|X,Y)*P(Y|X)*P(X);P(X,Y,B,男)=P(B|X,Y,男)P(男|X,Y)*P(Y|X)*P(X);P(X,Y,A,女)=P(A|X,Y,女)P(女|X,Y)*P(Y|X)*P(X);P(X,Y,A,男)=P(B|X,Y,女)P(女|X,Y)*P(Y|X)*P(X)。
步骤205:基于所确定的指定软件、该目标软件和该至少两个维度之间的联合概率、存储的多个样本数据和该多个样本数据的维度信息,得到该目标软件的软件份额占比。
在具体实现中,该服务器基于该联合概率和多个样本数据的维度信息,从存储的多个样本数据中抽取指定数量的样本数据,其中,指定数量可以由用户根据实际需求自定义设置,也可以由该服务器默认设置,本发明实施例对此不做限定。
例如,假设该指定数量为m,则该服务器根据该多个样本数据的维度信息,从该多个样本数据中进行样本数量抽取,例如,抽取P(X,Y,A,男)*m个维度信息为A、男,且安装有对目标软件Y具有影响的指定软件X的终端上报的样本数据;抽取P(X,Y,B,男)*m个维度信息为B、男,且安装有对目标软件Y具有影响的指定软件X的终端上报的样本数据等。
之后,服务器即可确定所抽取的m个样本数据中该目标软件的软件份额占比。例如,m个样本数据中有t个样本数据对应有该目标软件,则该软件份额占比为(t/m)*100%。
请参考图2B,该图2B是根据一示例性实施例示出的一种修正结果示意图。其中,所以确定的指定软件为X,目标软件为Y,且所确定的指定软件X与目标软件Y之间属于兄弟软件产品,即所确定的该指定软件X对该目标软件Y的安装概率具有提升作用。从该图2B中可以看出,通过上述方法修正了X对Y的软件份额占比导致的偏高问题。
请参考图2C,图2C是根据另一示例性实施例示出的一种修正结果示意图,其中,所确定的指定软件为X,目标软件为Y,且所确定的该指定软件X与目标软件Y之间属于竞争软件产品,即所确定的该指定软件X对该目标软件Y的安装概率具有抑制作用。从该图2C中可以看出,通过上述方法修正了X对Y的软件份额占比导致的偏低问题。
在基于所确定的指定软件、该目标软件和该至少两个维度之间的联合概率、存储的多个样本数据和该多个样本数据的维度信息,统计该目标软件的软件份额占比之前,需要确定多个样本数据和多个样本数据的维度信息,其具体实现包括:接收多个数据源上报的样本数据和该样本数据的维度信息,按照该多个数据源的权重,从接收的所有样本数据中确定该多个样本数据和该多个样本数据的维度信息。
在具体实现中,服务器接收多个数据源上报的样本数据和该样本数据的维度信息,按照该多个数据源的权重,从接收的所有样本数据中确定该多个样本数据和该多个样本数据的维度信息。
例如,若某数据源的权重较大,则可以从接收的所有样本数据中抽取较多部分该数据源上报的样本数据。反之,若某数据源的权重较小,则可以从接收的所有样本数据中抽取较少部分该数据源上报的样本数据。如此,即可得到该多个样本数据。
其中,上述多个样本数据中每个样本数据的维度信息可以由数据源从诸如QQ、微信之类的社交类软件中获取得到,并上报到该服务器中。
需要说明的是,该多个数据源的权重可以由技术人员根据实际情况进行设置,例如,若数据源通过软件管家上报数据样本,且该软件管家在市场中所占份额较大,则可以将该数据源的权重设置的较大一些。关于各个数据源的权重的具体设置规则,本发明实施例对此不做限定。
在本发明实施例中,从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件,并确定该目标软件与该指定软件之间的联合概率。之后,统计在安装所确定的指定软件和目标软件的条件下至少两个维度上对应的终端安装目标软件的第一条件概率,基于该目标软件与所确定的指定软件之间的联合概率和该第一条件概率,确定所确定的指定软件、该目标软件和该至少两个维度之间的联合概率,以基于该联合概率和多个样本数据和多个样本数据的维度信息,确定软件份额占比。在此过程中,考虑了指定软件和至少两个维度之间的条件关系及对该目标软件的联合分布影响,保证了确定的软件份额占比的准确性,并且,由于在确定软件份额占比的过程中无需行业背景经验丰富的数据统计人员进行人工参与,因此,提高了确定效率。
接下来,这里以影响软件份额占比的包括诸如上述终端机型、用户性别、用户年龄之类的至少两个维度为例进行说明,请参见图3A,该图3A是本发明实施例提供的一种软件份额占比的确定方法的流程图,该方法应用于服务器中,该软件份额占比的确定方法包括:
步骤301:获取目标维度上对应的终端安装目标软件的边缘概率,该目标软件为待统计软件份额占比的软件,该目标维度为影响该目标软件的软件份额占比的至少两个维度中具有准确边缘概率的维度。
在实际实现中,该目标维度可以由技术人员预先设置,也即是,技术人员可以根据实际存储的边缘概率的真实性,从该至少两个维度中确定该目标维度。
在一种可能的实现方式中,请参考图3B,该服务器中可以存储有各个维度上对应的终端安装目标软件的边缘概率。在该种情况下,该服务器可以从自身存储的各个维度上对应的终端安装目标软件的边缘概率中,获取该目标维度上对应的终端安装目标软件的边缘概率。
由于对于该至少两个维度中的每个维度,该维度均对应有多个维度信息,例如,以该维度为用户性别为例,该维度对应的维度信息包括男和女,再如,以该维度为终端机型为例,该维度对应的维度信息可以包括小米、华为、三星等。因此,在实际实现中,对于该目标维度来说,需要获取的边缘概率包括该目标维度对应的多个维度信息的边缘概率。
例如,假设该目标维度为终端机型,且该终端机型对应的维度信息包括机型A和机型B,则该服务器获取机型A对应的终端安装该目标软件的边缘概率P(A),以及获取机型B对应的终端安装该目标软件的边缘概率P(B)。
需要说明的是,上述仅是以该服务器中存储有各个维度上对应的终端安装目标软件的边缘概率为例进行说明。在另一实施例中,该服务器还可以从其他第三方合作商提供的服务器中获取该目标维度上对应的终端安装目标软件的边缘概率,本发明实施例对此不做限定。
步骤302:统计在该目标维度上对应的终端已经安装该目标软件的条件下该至少两个维度中其他维度上对应的终端安装该目标软件的第四条件概率。
在实际实现中,由于上述至少两个维度中各个维度之间不是彼此独立的,因此,本发明实施例中考虑了各个维度之间的关系,即统计在该目标维度上对应的终端已经安装该目标软件的条件下该至少两个维度中其他维度上对应的终端安装该目标软件的第四条件概率。
在具体实现中,当只存在两个维度影响软件份额占比时,如,该两个维度包括终端机型和用户性别,该服务器统计在终端机型这个维度上对应的终端已经安装该目标软件的条件下,用户性别这个维度上对应的终端安装该目标软件的第四条件概率。
当存在两个以上维度影响软件份额占比时,例如,假设该两个以上维度包括终端机型、用户性别和用户年龄,该服务器统计在终端机型这个维度上对应的终端已经安装该目标软件的条件下,该用户性别和用户年龄维度上对应的终端安装该目标软件的第四条件概率,并且,在具体实现中,该第四条件概率包括,P(用户性别|终端机型)和P(用户年龄|用户性别,终端机型)。
为了便于理解,接下来通过具体例子进行说明。假设用户年龄这个维度对应的维度信息包括大于30岁和小于或等于30岁,则在实际实现中,服务器需要统计的该第四条件概率包括P(男|A)、P(女|A)、P(>30|男,A)、P(≦30|男,A)、P(>30|女,A)、P(≦30|女,A)、P(男|B)、P(女|B)、P(>30|男,B)、P(≦30|男,B)、P(>30|女,B)以及P(≦30|女,B)。
需要说明的是,在具体实现中,该服务器可以基于各个数据源上报的所有样本数据,对上述第四条件概率包括的各个条件概率进行统计。
还需要说明的是,这里仅是以统计的方法确定在该目标维度上对应的终端已经安装该目标软件的条件下该至少两个维度中其他维度上对应的终端安装该目标软件的第四条件概率为例进行说明,在另一实施例中,还可以通过其他渠道直接获取到在该目标维度上对应的终端已经安装该目标软件的条件下该至少两个维度中其他维度上对应的终端安装该目标软件的第四条件概率,例如,可以由技术人员从官方发布的一些文件中获取得到后存储在该服务器中,本发明实施例对此不做限定。
步骤303:基于该边缘概率和该第四条件概率,确定该至少两个维度之间的联合概率。
在具体实现中,服务器可以基于该边缘概率和该第四条件概率,采用Gibbs抽样原理P(H,M)=P(H|M)*P(M)来确定该至少两个维度之间的联合概率。
继续以上述例子为例,即该目标维度上对应的终端安装所述目标软件的边缘概率包括P(A)和P(B),且该第四条件条件概率包括P(男|A)、P(女|A)、P(>30|男,A)、P(≦30|男,A)、P(>30|女,A)、P(≦30|女,A)、P(男|B)、P(女|B)、P(>30|男,B)、P(≦30|男,B)、P(>30|女,B)以及P(≦30|女,B),则服务器采用上述Gibbs抽样原理,可以确定该多个维度之间的联合概率包括:
P(A,男,>30)=P(>30|男,A)*P(男|A)*P(A);P(A,女,﹥30)=P(>30|女,A)*P(女|A)*P(A);P(A,男,≦30)=P(≦30|男,A)*P(男|A)*P(A);P(A,女,≦30)=P(≦30|女,A)*P(女|A)*P(A);P(B,男,>30)=P(>30|男,B)*P(男|A)*P(B);P(B,女,﹥30)=P(>30|女,B)*P(女|A)*P(B);P(B,男,≦30)=P(≦30|男,B)*P(男|B)*P(B);P(B,女,≦30)=P(≦30|女,B)*P(女|B)*P(B)。
由于目标维度上的终端安装该目标软件的边缘概率为准确的边缘概率,且在确定上述至少两个维度之间的联合概率时,考虑了各个维度之间的条件关系,因此,确定所得到的联合概率较为准确,如此,可以保证后续确定的软件份额占比的准确性。
步骤304:基于该联合概率、存储的多个样本数据和该多个样本数据的维度信息,得到该目标软件的软件份额占比。
在具体实现中,该服务器基于该联合概率和多个样本数据的维度信息,从存储的多个样本数据中抽取指定数量的样本数据,其中,指定数量可以由用户根据实际需求自定义设置,也可以由该服务器默认设置,本发明实施例对此不做限定。
例如,假设该指定数量为m,则该服务器根据该多个样本数据的维度信息,从该多个样本数据中分别抽取:P(A,男,>30)*m个维度信息为A,男及>30的终端上报的样本数据;P(A,女,>30)*m个维度信息为A,女及>30的终端上报的样本数据;P(A,男,≦30)*m个维度信息为A,男及≦30的终端上报的样本数据;P(A,女,≦30)*m个维度信息为A,女及≦30的终端上报的样本数据;P(B,男,>30)*m个维度信息为B,男及>30的终端上报的样本数据;P(B,女,﹥30)*m个维度信息为B,女及>30的终端上报的样本数据;P(B,男,≦30)*m个维度信息为B,男及≦30的终端上报的样本数据;以及P(B,女,≦30)*m个维度信息为B,女及≦30的终端上报的样本数据。
之后,服务器统计所抽取的m个样本数据中,该目标软件所占的份额比,即得到了该目标软件的软件份额占比。
请参考图3C,该图3C示出了基于终端机型确定的软件份额占比的效果示意图,从图3C中可以看出,针对由于终端机型导致软件份额占比偏高的情况(如图3C中的11所示),经过上述方法统计后使得软件份额占比降低了(如图3C中的12所示),即软件份额占比得到修正。
进一步地,请参考图3B,在基于该联合概率、存储的多个样本数据和该多个样本数据的维度信息,统计该目标软件的软件份额占比之前,服务器还需要确定该多个样本数据和多个样本数据的维度信息。
具体地,接收多个数据源上报的样本数据和该样本数据的维度信息,按照该多个数据源的权重,从接收的所有样本数据中确定该多个样本数据和该多个样本数据的维度信息。
例如,若某数据源的权重较大,则可以从接收的所有样本数据中抽取较多部分该数据源上报的样本数据。反之,若某数据源的权重较小,则可以从接收的所有样本数据中抽取较少部分该数据源上报的样本数据。如此,即可得到该多个样本数据。
其中,上述多个样本数据中每个样本数据的维度信息可以由数据源从诸如QQ、微信之类的社交类软件中获取得到,并上报到该服务器中。
需要说明的是,该多个数据源的权重可以由技术人员根据实际情况进行设置,例如,若数据源通过软件管家上报数据样本,且该软件管家在市场中所占份额较大,则可以将该数据源的权重设置的较大一些。关于各个数据源的权重的具体设置规则,本发明实施例对此不做限定。
另外,请参考图3B,在实际实现中,确定软件份额占比后,可以通过大数据服务平台对其进行交叉分析验证,其具体验证过程本发明实施例对此不做限定。并且,验证后的软件份额占即可得到实际的应用,例如,可以应用到算法固定、历史数据追溯、专题分析试验等场景中。
在本发明实施例中,获取目标维度上对应的终端安装待统计软件份额占比的目标软件的边缘概率,以及统计在目标维度上对应的终端已经安装所述目标软件的条件下至少两个维度中其它维度上对应的终端安装该目标软件的第四条件概率。之后,基于该边缘概率和第四条件概率,确定该至少两个维度之间的联合概率,由于该目标维度为影响该目标软件的软件份额占比的至少两个维度中具有准确边缘概率的维度,且考虑了该目标维度与其他维度之间的关系,因此,得到的联合概率较为准确。如此,当基于该联合概率、存储的多个样本数据和该多个样本数据的维度信息,统计该目标软件的软件份额占比时,可以保证统计的软件份额占比的准确性。并且,由于无需行业背景经验丰富的数据统计人员进行人工分析和修正,因此,提高了软件份额占比的确定效率。
参见图4A,图4A是本发明实施例提供的另一种软件份额占比的确定装置的结构示意图,该装置包括:第一确定模块401、第二确定模块402、第一统计模块403、第三确定模块404和第四确定模块405;
第一确定模块401,用于执行上述图2A实施例中的步骤201;
第二确定模块402,用于执行上述图2A实施例中的步骤202;
第一统计模块403,用于执行上述图2A实施例中的步骤203;
第三确定模块404,用于执行上述图2A实施例中的步骤204;
第四确定模块405,用于执行上述图2A实施例中的步骤205。
可选地,请参考图4B,该装置还包括:
第五确定模块406,用于执行上述图2A实施例中的步骤2011;
第六确定模块407,用于执行上述图2A实施例中的步骤2012;
第二统计模块408,用于执行上述图2A实施例中的步骤2013;
第七确定模块409,用于执行上述图2A实施例中的步骤2014。
在本发明实施例中,从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件,并确定该目标软件与该指定软件之间的联合概率。之后,统计在安装所确定的指定软件和目标软件的条件下至少两个维度上对应的终端安装目标软件的第一条件概率,基于该目标软件与所确定的指定软件之间的联合概率和该第一条件概率,确定所确定的指定软件、该目标软件和该至少两个维度之间的联合概率,以基于该联合概率和多个样本数据和多个样本数据的维度信息,确定软件份额占比。在此过程中,考虑了指定软件和至少两个维度之间的条件关系及对该目标软件的联合分布影响,保证了确定的软件份额占比的准确性,并且,由于在确定软件份额占比的过程中无需行业背景经验丰富的数据统计人员进行人工参与,因此,提高了确定效率。
参见图5A,图5A本发明实施例提供的一种软件份额占比的确定装置的结构示意图,该装置包括获取模块501,统计模块502、第一确定模块503和第二确定模块504。
获取模块501,用于执行上述图3A实施例中的步骤301;
统计模块502,用于执行上述图3A实施例中的步骤302;
第一确定模块503,用于执行上述图3A实施例中的步骤303;
第二确定模块504,用于执行上述图3A实施例中的步骤304。
可选地,参见图5B,该装置还包括:
接收模块505,用于接收多个数据源上报的样本数据和所述样本数据的维度信息;
第三确定模块506,用于按照所述多个数据源的权重,从接收的所有样本数据中确定所述多个样本数据和所述多个样本数据的维度信息。
在本发明实施例中,获取目标维度上对应的终端安装待统计软件份额占比的目标软件的边缘概率,以及统计在目标维度上对应的终端已经安装所述目标软件的条件下至少两个维度中其它维度上对应的终端安装该目标软件的第四条件概率。之后,基于该边缘概率和第四条件概率,确定该至少两个维度之间的联合概率,由于该目标维度为影响该目标软件的软件份额占比的至少两个维度中具有准确边缘概率的维度,且考虑了该目标维度与其他维度之间的关系,因此,得到的联合概率较为准确。如此,当基于该联合概率、存储的多个样本数据和该多个样本数据的维度信息,统计该目标软件的软件份额占比时,可以保证统计的软件份额占比的准确性。并且,由于无需行业背景经验丰富的数据统计人员进行人工分析和修正,因此,提高了软件份额占比的确定效率。
需要说明的是:上述实施例提供的软件份额占比的确定装置在实现软件份额占比的确定方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的软件份额占比的确定装置与软件份额占比的确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6是本发明实施例提供的一种软件份额占比的确定装置的服务器结构示意图。该服务器可以是后台服务器集群中的服务器。具体来讲:
服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的***存储器604,以及连接***存储器604和中央处理单元601的***总线605。服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(I/O***)606,和用于存储操作***613、应用程序614和其他程序模块615的大容量存储设备607。
基本输入/输出***606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到***总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出***606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备607通过连接到***总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器604和大容量存储设备607可以统称为存储器。
根据本发明的各种实施例,服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在***总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机***(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。所述一个或者一个以上程序包含用于进行本发明实施例提供的软件份额占比的确定方法的指令。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述图2A或图3A所述的软件份额占比的确定方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种软件份额占比的确定方法,其特征在于,所述方法包括:
从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件,每个指定软件是指对预设数量个其他软件的安装概率均具有抑制或提升作用的软件,所述目标软件为待统计软件份额占比的软件;
确定所述目标软件与所确定的指定软件之间的联合概率;
统计在安装所确定的指定软件和所述目标软件的条件下至少两个维度上对应的终端安装所述目标软件的第一条件概率,所述至少两个维度中的每个维度均影响所述目标软件的软件份额占比;
基于所述目标软件与所确定的指定软件之间的联合概率和所述第一条件概率,确定所确定的指定软件、所述目标软件和所述至少两个维度之间的联合概率;
基于所确定的指定软件、所述目标软件和所述至少两个维度之间的联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比。
2.如权利要求1所述的方法,其特征在于,所述确定所述目标软件与所确定的指定软件之间的联合概率,包括:
获取所确定的指定软件的边缘概率,以及统计在安装所确定的指定软件的条件下安装所述目标软件的第二条件概率;
基于所确定的指定软件的边缘概率和所述第二条件概率,确定所述目标软件与所确定的指定软件之间的联合概率。
3.如权利要求1或2所述的方法,其特征在于,所述从多个指定软件中确定对所述目标软件的安装概率具有抑制或提升作用的指定软件之前,还包括:
确定第一软件在所述多个样本数据中所占的比例,所述第一软件为所述多个样本数据对应的多个软件中的任一软件;
若所述比例大于或等于预设比例,则确定所述第一软件与多个第二软件中每个第二软件之间的提升度,所述多个第二软件为所述多个软件中除所述第一软件之外的软件,所述提升度用于指示所述第一软件对其他软件的安装概率是否具有抑制或提升作用;
统计所述多个第二软件中与所述第一软件之间的提升度小于1或者大于1的软件数量;
当统计的软件数量达到所述预设数量时,确定所述第一软件为指定软件。
4.如权利要求3所述的方法,其特征在于,所述确定所述第一软件与多个第二软件中每个第二软件之间的提升度,包括:
对于每个第二软件,获取所述第二软件的边缘概率,以及确定在安装所述第一软件的条件下安装所述第二软件的第三条件概率;
将所述第三条件概率除以所述第二软件的边缘概率,得到所述第一软件与所述第二软件之间的提升度。
5.如权利要求1至4任一所述的方法,其特征在于,所述基于所确定的指定软件、所述目标软件和所述至少两个维度之间联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比之前,还包括:
接收多个数据源上报的样本数据和所述样本数据的维度信息;
按照所述多个数据源的权重,从接收的所有样本数据中确定所述多个样本数据和所述多个样本数据的维度信息。
6.一种软件份额占比的确定方法,其特征在于,所述方法包括:
获取目标维度上对应的终端安装目标软件的边缘概率,所述目标软件为待统计软件份额占比的软件,所述目标维度为影响所述目标软件的软件份额占比的至少两个维度中具有准确边缘概率的维度;
统计在所述目标维度上对应的终端已经安装所述目标软件的条件下所述至少两个维度中其他维度上对应的终端安装所述目标软件的第四条件概率;
基于所述边缘概率和所述第四条件概率,确定所述至少两个维度之间的联合概率;
基于所述联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比。
7.如权利要求6所述的方法,其特征在于,所述基于所述联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比之前,还包括:
接收多个数据源上报的样本数据和所述样本数据的维度信息;
按照所述多个数据源的权重,从接收的所有样本数据中确定所述多个样本数据和所述多个样本数据的维度信息。
8.一种软件份额占比的确定装置,其特征在于,所述装置包括:
第一确定模块,用于从多个指定软件中确定对目标软件的安装概率具有抑制或提升作用的指定软件,每个指定软件是指对预设数量个其他软件的安装概率均具有抑制或提升作用的软件,所述目标软件为待统计软件份额占比的软件;
第二确定模块,用于确定所述目标软件与所确定的指定软件之间的联合概率;
第一统计模块,用于统计在安装所确定的指定软件和所述目标软件的条件下至少两个维度上对应的终端安装所述目标软件的第一条件概率,所述至少两个维度中的每个维度均影响所述目标软件的软件份额占比;
第三确定模块,用于基于所述目标软件与所确定的指定软件之间的联合概率和所述第一条件概率,确定所确定的指定软件、所述目标软件和所述至少两个维度之间的联合概率;
第四确定模块,用于基于所确定的指定软件、所述目标软件和所述至少两个维度之间的联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比。
9.如权利要求8所述的装置,其特征在于,所述第二确定模块用于:
获取所确定的指定软件的边缘概率,以及统计在安装所确定的指定软件的条件下安装所述目标软件的第二条件概率;
基于所确定的指定软件的边缘概率和所述第二条件概率,确定所述目标软件与所确定的指定软件之间的联合概率。
10.如权利要求8或9所述的装置,其特征在于,所述装置还包括:
第五确定模块,用于确定第一软件在所述多个样本数据中所占的比例,所述第一软件为所述多个样本数据对应的多个软件中的任一软件;
第六确定模块,用于若所述比例大于或等于预设比例,则确定所述第一软件与多个第二软件中每个第二软件之间的提升度,所述多个第二软件为所述多个软件中除所述第一软件之外的软件,所述提升度用于指示所述第一软件对其他软件的安装概率是否具有抑制或提升作用;
第二统计模块,用于统计所述多个第二软件中与所述第一软件之间的提升度小于1或者大于1的软件数量;
第七确定模块,用于当统计的软件数量达到所述预设数量时,确定所述第一软件为指定软件。
11.一种软件份额占比的确定装置,其特征在于,所述装置包括:
获取模块,用于获取目标维度上对应的终端安装目标软件的边缘概率,所述目标软件为待统计软件份额占比的软件,所述目标维度为影响所述目标软件的软件份额占比的至少两个维度中具有准确边缘概率的维度;
统计模块,用于统计在所述目标维度上对应的终端已经安装所述目标软件的条件下所述至少两个维度中其他维度上对应的终端安装所述目标软件的第三条件概率;
第一确定模块,用于基于所述边缘概率和所述第三条件概率,确定所述至少两个维度之间的联合概率;
第二确定模块,用于基于所述联合概率、存储的多个样本数据和所述多个样本数据的维度信息,得到所述目标软件的软件份额占比。
12.如权利要求11所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收多个数据源上报的样本数据和所述样本数据的维度信息;
第三确定模块,用于按照所述多个数据源的权重,从接收的所有样本数据中确定所述多个样本数据和所述多个样本数据的维度信息。
13.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的软件份额占比的确定方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至7任一所述的软件份额占比的确定方法。
CN201710521670.1A 2017-06-30 2017-06-30 软件份额占比的确定方法、装置及计算机可读存储介质 Active CN109213513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710521670.1A CN109213513B (zh) 2017-06-30 2017-06-30 软件份额占比的确定方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710521670.1A CN109213513B (zh) 2017-06-30 2017-06-30 软件份额占比的确定方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109213513A true CN109213513A (zh) 2019-01-15
CN109213513B CN109213513B (zh) 2021-07-27

Family

ID=64960931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710521670.1A Active CN109213513B (zh) 2017-06-30 2017-06-30 软件份额占比的确定方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109213513B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111913987A (zh) * 2020-08-10 2020-11-10 东北大学 一种基于维组-时空-概率过滤的分布式查询***及方法
CN112016792A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 用户资源配额确定方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130059738A (ko) * 2011-11-29 2013-06-07 에스케이플래닛 주식회사 컨텐츠 분석에 따른 어플리케이션 추천 시스템 및 방법
CN105868248A (zh) * 2015-12-15 2016-08-17 乐视网信息技术(北京)股份有限公司 媒体推荐方法及装置
CN106682056A (zh) * 2016-07-15 2017-05-17 腾讯科技(深圳)有限公司 不同应用软件之间相互关系的确定方法、装置及***
CN106709298A (zh) * 2017-01-04 2017-05-24 广东欧珀移动通信有限公司 一种信息处理方法、装置及智能终端
CN106775850A (zh) * 2016-12-02 2017-05-31 海马云(天津)信息技术有限公司 实例***应用的安装计算与安装方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130059738A (ko) * 2011-11-29 2013-06-07 에스케이플래닛 주식회사 컨텐츠 분석에 따른 어플리케이션 추천 시스템 및 방법
CN105868248A (zh) * 2015-12-15 2016-08-17 乐视网信息技术(北京)股份有限公司 媒体推荐方法及装置
CN106682056A (zh) * 2016-07-15 2017-05-17 腾讯科技(深圳)有限公司 不同应用软件之间相互关系的确定方法、装置及***
CN106775850A (zh) * 2016-12-02 2017-05-31 海马云(天津)信息技术有限公司 实例***应用的安装计算与安装方法
CN106709298A (zh) * 2017-01-04 2017-05-24 广东欧珀移动通信有限公司 一种信息处理方法、装置及智能终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
党田力: "基于信任行为的移动终端软件信誉和推荐***的实现与评测", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016792A (zh) * 2020-07-15 2020-12-01 北京淇瑀信息科技有限公司 用户资源配额确定方法、装置及电子设备
CN111913987A (zh) * 2020-08-10 2020-11-10 东北大学 一种基于维组-时空-概率过滤的分布式查询***及方法
CN111913987B (zh) * 2020-08-10 2023-08-04 东北大学 一种基于维组-时空-概率过滤的分布式查询***及方法

Also Published As

Publication number Publication date
CN109213513B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN108776934B (zh) 分布式数据计算方法、装置、计算机设备及可读存储介质
CN107102941B (zh) 一种测试用例的生成方法及装置
JP6685541B2 (ja) ユーザ信用スコアを最適化するための方法および装置
US10243967B2 (en) Method, apparatus and system for detecting fraudulant software promotion
US10331156B2 (en) System and method for big data geographic information system discovery
US9766884B1 (en) Computing quality metrics of source code developers
CN108833458A (zh) 一种应用推荐方法、装置、介质及设备
CN110347582B (zh) 埋点测试方法和装置
CN112070416B (zh) 基于ai的rpa流程的生成方法、装置、设备及介质
WO2019061664A1 (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN109635029A (zh) 基于标签指标体系的数据处理方法、装置、设备及介质
CN109409559B (zh) 油田产量递减率的确定方法及装置
US10943691B2 (en) Cost of healthcare analytics platform
CN109241075B (zh) 指标基础数据的处理方法、设备及计算机可读存储介质
CN113051183A (zh) 一种测试数据的推荐方法、***、电子设备及存储介质
CN109213513A (zh) 软件份额占比的确定方法、装置及计算机可读存储介质
CN106294457B (zh) 网络信息推送方法及装置
US20140214826A1 (en) Ranking method and system
CN114064445A (zh) 一种测试方法、装置、设备及计算机可读存储介质
Weiß Fully observed INAR (1) processes
CN108133234B (zh) 基于稀疏子集选择算法的社区检测方法、装置及设备
CN109376067A (zh) Monkey测试方法、装置、电子设备及计算机可读存储介质
US11481298B2 (en) Computing CPU time usage of activities serviced by CPU
CN109635226A (zh) 房地产数据的预警推送方法、服务器及存储介质
CN116991693B (zh) 一种测试方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant