WO2017101506A1 - 信息处理方法及装置 - Google Patents

信息处理方法及装置 Download PDF

Info

Publication number
WO2017101506A1
WO2017101506A1 PCT/CN2016/096978 CN2016096978W WO2017101506A1 WO 2017101506 A1 WO2017101506 A1 WO 2017101506A1 CN 2016096978 W CN2016096978 W CN 2016096978W WO 2017101506 A1 WO2017101506 A1 WO 2017101506A1
Authority
WO
WIPO (PCT)
Prior art keywords
classification
preset
accuracy
user
classification model
Prior art date
Application number
PCT/CN2016/096978
Other languages
English (en)
French (fr)
Inventor
刘恋
Original Assignee
乐视控股(北京)有限公司
乐视网信息技术(北京)股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 乐视控股(北京)有限公司, 乐视网信息技术(北京)股份有限公司 filed Critical 乐视控股(北京)有限公司
Publication of WO2017101506A1 publication Critical patent/WO2017101506A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Definitions

  • the present invention relates to the field of big data technologies, and in particular, to an information processing method and apparatus.
  • the current user attribute category extraction generally uses questionnaires, or registered users, or data exchange to obtain partial sample data. After extracting user features, the data model is trained by a supervised classification algorithm. After the data model is trained, A user attribute category that predicts users of unknown attributes through a built data model.
  • Some types of video which may cause inaccurate classification; in the case where some users have extremely sparse features and all users have large feature dimensions, most of them may be missing features, which may also Affect the accuracy of the classification.
  • the embodiments of the present invention provide an information processing method and apparatus.
  • an information processing method including:
  • the classification model whose accuracy is greater than the preset accuracy threshold is the target classification model, and the class corresponding to each of the target classification models is the target clustering category.
  • the method further includes:
  • the number of cluster categories divided when the plurality of users are divided into cluster categories is adjusted until there is a preset number of classification accuracy greater than A classification model of preset accuracy thresholds.
  • the method further includes:
  • the user in the classification model whose classification accuracy is less than the preset accuracy threshold is determined as an invalid user.
  • the method further includes:
  • the average of the accuracy of all classification models is determined as a preset accuracy threshold.
  • an information processing method including:
  • the target users are classified by using a preset classification model corresponding to the target clustering category.
  • an information processing apparatus including:
  • a first acquiring module configured to extract user feature information in media content browsed by multiple users
  • a dividing module configured to divide multiple users into at least one clustering category according to user characteristic information
  • a first training module configured to train a classification model corresponding to each cluster category
  • a determining module configured to determine whether there is a preset number of classification models whose classification accuracy is greater than a preset accuracy threshold
  • a first determining module configured to: when there is a preset number of classification models whose classification accuracy is greater than a preset accuracy threshold, determine a classification model whose classification accuracy is greater than a preset accuracy threshold as a target classification model, and, and each The class corresponding to the target classification model is a target clustering category.
  • the device further includes:
  • the adjustment module is configured to adjust the number of cluster categories divided when the plurality of users are divided into cluster categories, when there is no preset number of classification models whose classification accuracy is greater than the preset accuracy threshold, until the preset number exists A classification model with a classification accuracy greater than a preset accuracy threshold.
  • the device further includes:
  • the second determining module is configured to determine, when the preset number of classification models whose classification accuracy is greater than the preset accuracy threshold, the user in the classification model whose classification accuracy is less than the preset accuracy threshold as the invalid user.
  • the device further includes:
  • a second acquiring module configured to acquire user feature information of multiple users in the network, and labeling attribute information of each user
  • a second training module configured to train a classification model by using user feature information of multiple users
  • test module for testing each classification model by using annotation attribute information of multiple users
  • a third determining module configured to determine, according to the test result, a classification accuracy of the classification model
  • a fourth determining module configured to determine an average value of all classification model accuracy as a preset accuracy threshold.
  • an information processing apparatus including:
  • a third acquiring module configured to acquire user feature information in the media content browsed by the user to be classified
  • a fifth determining module configured to determine, according to the user feature information, a preset clustering category corresponding to the user to be classified among the plurality of preset clustering categories as a target clustering category;
  • a classification module is configured to classify the target users by using a preset classification model corresponding to the target clustering category.
  • a non-transitory computer readable storage medium stores computer executable instructions, the computer executable instructions An information processing method for performing any one of the first aspects of the embodiments of the present invention.
  • a non-transitory computer readable storage medium stores computer executable instructions for executing the present An information processing method according to any one of the second aspects of the embodiments of the invention.
  • an electronic device comprising: one or more processors; and a memory; wherein the memory stores instructions executable by the one or more processors, The instructions are set as an information processing method for performing any of the first aspects of the embodiments of the present invention.
  • an electronic device comprising: one or more processors; and a memory; wherein the memory stores instructions executable by the one or more processors, The instruction is set as an information processing method for performing any one of the second aspects of the embodiments of the present invention.
  • Embodiments of the present invention also provide a computer program product comprising a computer program stored on a non-transitory computer readable storage medium, the computer program comprising program instructions, when the program instructions are executed by a computer
  • the computer is caused to perform the information processing method of any one of the first aspects of the embodiments of the present invention.
  • Embodiments of the present invention also provide a computer program product comprising a computer program stored on a non-transitory computer readable storage medium, the computer program comprising program instructions, when the program instructions are executed by a computer
  • the computer is caused to perform the information processing method of any one of the second aspects of the embodiments of the present invention.
  • the embodiment of the present invention extracts user feature information in media content browsed by a plurality of users; divides a plurality of users into at least one cluster category according to user feature information; trains a classification model corresponding to each cluster category; and determines whether existence exists
  • a classification model for the target, and a class corresponding to each of the target classification models is a target clustering category.
  • the method provided by the embodiment of the present invention can train a classification model by using user feature information of multiple users, and select a classification model that meets an accuracy requirement and a quantity requirement among a plurality of classification models obtained by training.
  • the target classification model and the cluster category corresponding to each target classification model is used as the target cluster category, so that the target cluster category and the target classification model can be used to classify the users of the unknown category, and then cluster and re-model. Effectively filter out users who are difficult to distinguish categories, reduce noise, and have high classification accuracy.
  • FIG. 1 is a flow chart showing an information processing method according to an exemplary embodiment of the present invention
  • FIG. 2 is another flow chart of an information processing method according to an exemplary embodiment of the present invention.
  • FIG. 3 is another flow chart of an information processing method according to an exemplary embodiment of the present invention.
  • FIG. 4 is another flow chart of an information processing method according to an exemplary embodiment of the present invention.
  • FIG. 5 is another flow chart of an information processing method according to an exemplary embodiment of the present invention.
  • FIG. 6 is a structural diagram of an information processing apparatus according to an exemplary embodiment of the present invention.
  • FIG. 7 is a structural diagram of an electronic device according to an exemplary embodiment of the invention.
  • an information processing method including the following steps.
  • step S101 user feature information in media content browsed by a plurality of users is extracted.
  • each media content is generally preset with some tag information, such as a director, an actor, a year, a type, and a plot, etc.
  • tag information of the media content may include a plurality of user features
  • the user profile may be determined according to the user feature information
  • the user portrait includes a basic user interest behavior tag (eg, a favorite star, a favorite brand) Etc.) also includes user attributes (such as geography, age, gender, culture, occupation, income, lifestyle, consumption habits, etc.).
  • step S102 a plurality of users are divided into at least one cluster category according to user characteristic information.
  • the user may be clustered according to the user feature information by using the K-means clustering algorithm, and the user corresponding to the user feature information of the intersection may be divided into a cluster category, for example, the user characteristic information A of the user A. Including Zhang Yimou and Hu Ge, user B's user feature information B includes Huo Jianhua and Hu Ge. User C's user feature information C includes cherry pellets and water ice moon, then user A and user B can be divided into one.
  • the cluster category here is a classification category obtained by classifying users into coarse-grained categories.
  • step S103 a classification model corresponding to each cluster category is trained.
  • At least one classification model may be trained by using user feature information in each cluster category, where the classification model may be an SVM classification model, and the trained classification model may further classify users, for example: clustering.
  • the trained classification models could be used to classify men and women in the 1970s, or to classify undergraduate or undergraduate degrees in the 1980s.
  • step S104 it is determined whether there is a preset number of classification models whose classification accuracy is greater than a preset accuracy threshold.
  • this step it can be determined whether there is a classification model whose classification accuracy is greater than a preset accuracy threshold, but when present, it can be further determined whether the number of classification models whose classification accuracy is greater than the preset accuracy threshold is a preset number.
  • the preset number can be set as needed, such as 5, 10, and so on.
  • step S105 the classification model whose classification accuracy is greater than the preset accuracy threshold is determined as the target classification model, and, with each of the described The class corresponding to the target classification model is the target cluster category.
  • the method provided by the embodiment of the present invention can use the user feature information of multiple users to train the classification model, and select a classification model that meets the accuracy requirement and the quantity requirement as the target classification model among the plurality of classification models obtained by the training, and
  • the clustering category corresponding to each target classification model is used as the target clustering category.
  • the target clustering category and the target classification model can be used to classify users of unknown categories, first clustering and re-modeling, and effectively filtering out users who are difficult to distinguish categories. Reduce noise and high classification accuracy.
  • the method includes the following steps.
  • step S101 user feature information in media content browsed by a plurality of users is extracted.
  • step S102 a plurality of users are divided into at least one cluster category according to user characteristic information.
  • step S103 a classification model corresponding to each cluster category is trained.
  • step S104 it is determined whether there is a preset number of classification models whose classification accuracy is greater than a preset accuracy threshold.
  • step S105 the classification model whose classification accuracy is greater than the preset accuracy threshold is determined as the target classification model, and, with each of the described The class corresponding to the target classification model is the target cluster category.
  • step S201 When there is no preset number of classification models whose classification accuracy is greater than the preset accuracy threshold, in step S201, the number of cluster categories divided when the plurality of users are divided into cluster categories is adjusted until the preset number exists.
  • a classification model with a classification accuracy greater than a preset accuracy threshold is adjusted until the preset number exists.
  • the number of cluster categories when the clustering category is divided may be adjusted when there is no classification model whose classification accuracy is greater than the preset accuracy threshold, or when the number is small, for example, when the clustering category is divided
  • the number of classification categories can be increased, for example, increased to 10, etc., when the number of divided cluster categories is 5, preset
  • the number is three, there is a classification model with a classification accuracy greater than the preset accuracy threshold, and the number of classification categories can also be increased, for example, to eight.
  • the method provided by the embodiment of the present invention can adjust the number of the divided cluster categories when the number of the obtained classification models does not meet the quantity requirement or the accuracy requirement, and ensure that the classification model of the training office satisfies the preset condition and ensures the user.
  • the classification is carried out normally.
  • the method further includes:
  • step S101 user feature information in media content browsed by a plurality of users is extracted.
  • step S102 a plurality of users are divided into at least one cluster category according to user characteristic information.
  • step S103 a classification model corresponding to each cluster category is trained.
  • step S104 it is determined whether there is a preset number of classification models whose classification accuracy is greater than a preset accuracy threshold.
  • step S105 the classification model whose classification accuracy is greater than the preset accuracy threshold is determined as the target classification model, and, with each of the described The class corresponding to the target classification model is the target clustering category;
  • step S301 the user in the classification model whose classification accuracy is less than the preset accuracy threshold is determined as an invalid user.
  • the method provided by the embodiment of the invention can filter out noise users and increase classification accuracy.
  • the method further includes the following steps.
  • step S401 user feature information of a plurality of users in the network, and tag attribute information of each user are acquired.
  • a plurality of user sample users in the network may be acquired, user feature information of the sample users is obtained, and the tag attribute information artificially set for the sample users may be acquired.
  • step S402 the classification model is trained using the user feature information of the plurality of users.
  • the user feature information of the plurality of users may be first clustered, and then the classification model may be separately trained for each cluster category, or the classification model may be directly trained according to the user feature information of the plurality of users.
  • step S403 each classification model is tested using the annotation attribute information of a plurality of users.
  • the annotation attribute information can be an accurate reference instance
  • the annotation can be utilized.
  • the attribute information tests each classification model. Specifically, the user characteristic information of the user can be input into the trained classification model, and then the classification result obtained by the classification model is consistent with the annotation attribute information.
  • step S404 based on the test result, the classification accuracy of the classification model is determined.
  • the ratio of the test result obtained by each classification model to the label attribute information as a percentage of all test results can be counted, and this ratio can be used as the classification accuracy of the classification model.
  • step S405 the average value of all classification model accuracy is determined as a preset accuracy threshold.
  • the method provided by the embodiment of the invention can accurately determine the preset accuracy threshold, and is convenient for determining the preset accuracy threshold as a reference standard for whether the classification model satisfies the preset condition.
  • an information processing method including the following steps.
  • step S501 user feature information in the media content browsed by the user to be classified is acquired.
  • the user to be classified is a user of an unknown category
  • the record of the media content to be browsed by the user to be classified may be obtained
  • the tag information of the media content may be obtained as a user feature
  • each user feature information may include multiple User characteristics.
  • step S502 a preset clustering category corresponding to the user to be classified among the plurality of preset clustering categories is determined as the target clustering category according to the user characteristic information.
  • the user feature information may be compared with the target clustering category, and then the user is classified into a target clustering category according to the comparison result.
  • step S503 the target user is classified by using a preset classification model corresponding to the target clustering category.
  • the user feature information of the user to be classified may be input into a preset classification model corresponding to the target clustering category, and the classification result input by the preset classification model may be determined as the classification of the user.
  • the method provided by the embodiment of the invention can classify the users of the unknown classification, and facilitates classifying the users according to the user feature information of the users of the unknown classification, thereby facilitating recommending media content that may be of interest to the user.
  • an information processing apparatus including: a first obtaining module 601, a dividing module 602, a first training module 603, a determining module 604, and a first determining module 605. .
  • the first obtaining module 601 is configured to extract user feature information in media content that is browsed by multiple users;
  • a dividing module 602 configured to divide a plurality of users into at least one clustering category according to user characteristic information
  • a first training module 603, configured to train a classification model corresponding to each cluster category
  • the determining module 604 is configured to determine whether there is a preset number of classification models whose classification accuracy is greater than a preset accuracy threshold;
  • the first determining module 605 is configured to: when there is a preset number of classification models whose classification accuracy is greater than a preset accuracy threshold, determine a classification model whose classification accuracy is greater than a preset accuracy threshold as a target classification model, and The class corresponding to the target classification model is the target clustering category.
  • the apparatus further includes:
  • the adjustment module is configured to adjust the number of cluster categories divided when the plurality of users are divided into cluster categories, when there is no preset number of classification models whose classification accuracy is greater than the preset accuracy threshold, until the preset number exists A classification model with a classification accuracy greater than a preset accuracy threshold.
  • the apparatus further includes:
  • the second determining module is configured to determine, when the preset number of classification models whose classification accuracy is greater than the preset accuracy threshold, the user in the classification model whose classification accuracy is less than the preset accuracy threshold as the invalid user.
  • the apparatus further includes:
  • a second acquiring module configured to acquire user feature information of multiple users in the network, and labeling attribute information of each user
  • a second training module configured to train a classification model by using user feature information of multiple users
  • test module for testing each classification model by using annotation attribute information of multiple users
  • a third determining module configured to determine, according to the test result, a classification accuracy of the classification model
  • a fourth determining module configured to determine an average value of all classification model accuracy as a preset accuracy threshold.
  • an information processing apparatus including:
  • a third acquiring module configured to acquire user feature information in the media content browsed by the user to be classified
  • a fifth determining module configured to: in the plurality of preset cluster categories, according to the user feature information
  • the preset clustering category corresponding to the user to be classified is determined as the target clustering category;
  • a classification module is configured to classify the target users by using a preset classification model corresponding to the target clustering category.
  • a non-transitory computer readable storage medium is stored, the non-transitory computer readable storage medium storing computer executable instructions executable to perform the above 1 to the information processing method described in FIG.
  • a non-transitory computer readable storage medium is stored, the non-transitory computer readable storage medium storing computer executable instructions executable to perform the above The information processing method described in 5.
  • FIG. 7 is a schematic diagram showing the hardware structure of an electronic device according to any information processing method according to an embodiment of the present invention. As shown in FIG. 7, the device includes: one or more processors 710 and a memory 720, and one processing is performed in FIG. The 710 is taken as an example.
  • the electronic device that executes any of the information processing methods provided by the embodiments of the present invention may further include: an input device 730 and an output device 740.
  • the processor 710, the memory 720, the input device 730, and the output device 740 may be connected by a bus or other means, as exemplified by a bus connection in FIG.
  • the memory 720 is used as a non-transitory computer readable storage medium, and can be used for storing non-transitory software programs, non-transitory computer executable programs, and modules, such as program instructions corresponding to any one of the information processing methods in the embodiments of the present invention. / module (for example, the first obtaining module 601, the dividing module 602, the first training module 603, the judging module 604, and the first determining module 605 shown in FIG. 6, or the third obtaining module, the fifth determining module, and the classification Module).
  • the processor 710 executes various functional applications and data processing of the electronic device by executing non-transitory software programs, instructions, and modules stored in the memory 720, that is, implementing the information processing method of the above method embodiments.
  • the memory 720 may include a storage program area and a storage data area, wherein the storage program area may store an operating system, an application required for at least one function; and the storage data area may store according to any one of the information.
  • memory 720 can include high speed random access memory, and can also include non-transitory memory, such as at least one magnetic disk storage device, flash memory device, or other non-transitory solid state storage device.
  • memory 720 can optionally include memory remotely disposed relative to processor 710, which can be coupled via a network to any of the information processing devices of the embodiments of the present invention. Examples of such networks include, but are not limited to, the Internet, intranets, local area networks, mobile communication networks, and combinations thereof.
  • the input device 730 can receive input numeric or character information and generate key signal inputs related to user settings and function control of any of the information processing devices of the embodiments of the present invention.
  • the output device 740 can include a display device such as a display screen.
  • the one or more modules are stored in the memory 720, and when executed by the one or more processors 710, perform any of the information processing methods of any of the above method embodiments.
  • the electronic device of the embodiment of the invention exists in various forms, including but not limited to:
  • Mobile communication devices These devices are characterized by mobile communication functions and are mainly aimed at providing voice and data communication.
  • Such terminals include: smart phones (such as iPhone), multimedia phones, functional phones, and low-end phones.
  • Ultra-mobile personal computer equipment This type of equipment belongs to the category of personal computers, has computing and processing functions, and generally has mobile Internet access.
  • Such terminals include: PDAs, MIDs, and UMPC devices, such as the iPad.
  • Portable entertainment devices These devices can display and play multimedia content. Such devices include: audio, video players (such as iPod), handheld game consoles, e-books, and smart toys and portable car navigation devices.
  • the server consists of a processor, a hard disk, a memory, a system bus, etc.
  • the server is similar to a general-purpose computer architecture, but because of the need to provide highly reliable services, processing power and stability High reliability in terms of reliability, security, scalability, and manageability.
  • a computer program product comprising a computer program stored on a non-transitory computer readable storage medium, the computer program comprising program instructions
  • the computer is caused to execute any of the information processing methods of FIGS. 1 to 5 of the embodiment of the present invention.
  • the storage medium may be a magnetic disk, an optical disk, a read only memory (ROM), or a random access memory (RAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息处理方法及装置,所述方法包括:提取多个用户浏览的媒体内容中的用户特征信息(S101);根据用户特征信息将多个用户划分为至少一个聚类类别(S102);训练与每个聚类类别对应的分类模型(S103);判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型(S104);当存在时,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及与每个所述目标分类模型对应的用类为目标聚类类别(S105)。所述方法能够构建用于对未知类别的用户进行分类的目标聚类类别和目标分类模型,有效过滤掉难以区分类别的用户,提高了分类准确度。

Description

信息处理方法及装置
本申请要求于2015年12月14日提交中国专利局、申请号为2015109257345、发明名称为“信息处理方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及大数据技术领域,尤其涉及一种信息处理方法及装置。
背景技术
当前的用户属性类别提取一般采用调查问卷、或者注册用户、或者数据交换等方式获得部分样本数据,在提取到用户特征后,会通过有监督的分类算法训练数据模型,数据模型训练完后,可以通过构建的数据模型预测未知属性的用户的用户属性类别。
然而,发明人在实现本发明的过程中发现,互联网的用户数据非常繁杂,可能会存在不同类别的用户具有极为相似的特征,比如某些视频用户,虽然有男有女,但他们共同喜好某几个类型的视频,这样可能会造成分类不准确;在有些用户的特征极为稀疏、而所有用户总的特征维度很大的情况时,对于一个用户可能大部分都是缺失特征,这也可能会影响分类的准确率。
发明内容
为克服相关技术中存在的问题,本发明实施例提供一种信息处理方法及装置。
根据本发明实施例的第一方面,提供一种信息处理方法,包括:
提取多个用户浏览的媒体内容中的用户特征信息;
根据用户特征信息将多个用户划分为至少一个聚类类别;
训练与每个聚类类别对应的分类模型;
判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型;
当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,确定分类 准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
可选地,所述方法还包括:
当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时,调整在将多个用户划分聚类类别时划分的聚类类别的数量,直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。
可选地,所述方法还包括:
当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。
可选地,所述方法还包括:
获取网络中多个用户的用户特征信息,以及,每个用户的标注属性信息;
利用多个用户的用户特征信息训练分类模型;
利用多个用户的标注属性信息测试每个分类模型;
根据测试结果,确定分类模型的分类准确度;
将所有分类模型准确度的平均值确定为预设准确度阈值。
根据本发明实施例的第二方面,提供一种信息处理方法,包括:
获取待分类用户浏览的媒体内容中的用户特征信息;
根据所述用户特征信息,将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别;
利用与目标聚类类别对应的预设分类模型对目标用户进行分类。
根据本发明实施例的第三方面,提供一种信息处理装置,包括:
第一获取模块,用于提取多个用户浏览的媒体内容中的用户特征信息;
划分模块,用于根据用户特征信息将多个用户划分为至少一个聚类类别;
第一训练模块,用于训练与每个聚类类别对应的分类模型;
判断模块,用于判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型;
第一确定模块,用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
可选地,所述装置还包括:
调整模块,用于当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时,调整在将多个用户划分聚类类别时划分的聚类类别的数量,直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。
可选地,所述装置还包括:
第二确定模块,用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。
可选地,所述装置还包括:
第二获取模块,用于获取网络中多个用户的用户特征信息,以及,每个用户的标注属性信息;
第二训练模块,用于利用多个用户的用户特征信息训练分类模型;
测试模块,用于利用多个用户的标注属性信息测试每个分类模型;
第三确定模块,用于根据测试结果,确定分类模型的分类准确度;
第四确定模块,用于将所有分类模型准确度的平均值确定为预设准确度阈值。
根据本发明实施例的第四方面,提供一种信息处理装置,包括:
第三获取模块,用于获取待分类用户浏览的媒体内容中的用户特征信息;
第五确定模块,用于根据所述用户特征信息,将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别;
分类模块,用于利用与目标聚类类别对应的预设分类模型对目标用户进行分类。
根据本发明实施例的第五方面,提供一种非暂态计算机可读存储介质,其中,该非暂态计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令 用于执行本发明实施例的第一方面中任一项信息处理方法。
根据本发明实施例的第六方面,提供一种非暂态计算机可读存储介质,其中,该非暂态计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行本发明实施例的第二方面中任一项信息处理方法。
根据本发明实施例的第七方面,提供一种电子设备,包括:一个或多个处理器;以及,存储器;其中,所述存储器存储有可被所述一个或多个处理器执行的指令,所述指令被设置为用于执行本发明实施例的第一方面中任一项信息处理方法。
根据本发明实施例的第七方面,提供一种电子设备,包括:一个或多个处理器;以及,存储器;其中,所述存储器存储有可被所述一个或多个处理器执行的指令,所述指令被设置为用于执行本发明实施例的第二方面中任一项信息处理方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明实施例的第一方面中任一项信息处理方法。
本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明实施例的第二方面中任一项信息处理方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明实施例通过提取多个用户浏览的媒体内容中的用户特征信息;根据用户特征信息将多个用户划分为至少一个聚类类别;训练与每个聚类类别对应的分类模型;判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型;当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
本发明实施例提供的该方法,能够利用多个用户的用户特征信息训练分类模型,并在训练得到的多个分类模型中选择满足准确度要求和数量要求的分类模型 作为目标分类模型,以及将与每个目标分类模型对应的聚类类别作为目标聚类类别,以便利用目标聚类类别和目标分类模型可以对未知类别的用户进行分类,先聚类再建模,有效过滤掉难以区别类别的用户,减少噪音,分类准确度高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一示例性实施例示出的一种信息处理方法的一种流程图;
图2是根据本发明一示例性实施例示出的一种信息处理方法的另一种流程图;
图3是根据本发明一示例性实施例示出的一种信息处理方法的另一种流程图;
图4是根据本发明一示例性实施例示出的一种信息处理方法的另一种流程图;
图5是根据本发明一示例性实施例示出的一种信息处理方法的另一种流程图;
图6是根据本发明一示例性实施例示出的一种信息处理装置的结构图;
图7是根据本发明一示例性实施例示出的一种电子设备的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。 相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1所示,在本发明的一个实施例中,提供一种信息处理方法,包括以下步骤。
在步骤S101中,提取多个用户浏览的媒体内容中的用户特征信息。
在该步骤中,可以提取预设数量个用户利用终端应用浏览媒体内容的记录,由于每个媒体内容一般会预先设置有一些标签信息,如导演、演员、年份、类型和剧情等等,因此可以获取媒体内容的标签信息作为用户特征,每个用户特征信息中可以包括多个用户特征,根据用户特征信息可以确定用户画像,用户画像包括基本的用户兴趣行为标签(比如喜欢的明星,喜欢的品牌等),也包括用户属性(比如地域、年龄、性别、文化、职业、收入、生活习惯、消费习惯等)等。
在步骤S102中,根据用户特征信息将多个用户划分为至少一个聚类类别。
在该步骤中,可以利用K-means聚类算法、根据用户特征信息对用户进行聚类,将存在交集的用户特征信息对应的用户划分为一个聚类类别,例如,用户A的用户特征信息A中包括张艺谋和胡歌,用户B的用户特征信息B中包括霍建华和胡歌,用户C的用户特征信息C中包括樱桃小丸子和水冰月,那么可以将用户A和用户B划分到一个聚类类别中,这里的聚类类别是将用户进行粗粒度的分类得到的分类类别。
在步骤S103中,训练与每个聚类类别对应的分类模型。
在该步骤中,可以分别利用每个聚类类别中的用户特征信息训练至少一个分类模型,这里的分类模型可以为SVM分类模型,训练得到的分类模型可以进一步对用户进行分类,例如:聚类类别为70年代和80年代时,则训练出的分类模型可以分别对70年代的男和女进行分类,或者对80年代的本科以上学历或本科以下学历进行分类等等。
在步骤S104中,判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型。
在该步骤中,可以判断是否存在分类准确度大于预设准确度阈值的分类模型,但存在时,可以进一步判断分类准确度大于预设准确度阈值的分类模型的数量是否为预设数量个,预设数量个可以根据需要设定,如5个、10个等等。
当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,在步骤S105中,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
本发明实施例提供的该方法,可以利用多个用户的用户特征信息训练分类模型,并在训练得到的多个分类模型中选择满足准确度要求和数量要求的分类模型作为目标分类模型,以及将与每个目标分类模型对应的聚类类别作为目标聚类类别,利用目标聚类类别和目标分类模型可以对未知类别的用户进行分类,先聚类再建模,有效过滤掉难以区别类别的用户,减少噪音,分类准确度高。
如图2所示,在本发明的一个实施例中,所述方法包括以下步骤。
在步骤S101中,提取多个用户浏览的媒体内容中的用户特征信息。
在步骤S102中,根据用户特征信息将多个用户划分为至少一个聚类类别。
在步骤S103中,训练与每个聚类类别对应的分类模型。
在步骤S104中,判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型。
当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,在步骤S105中,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时,在步骤S201中,调整在将多个用户划分聚类类别时划分的聚类类别的数量,直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。
在该步骤中,可以在不存在分类准确度大于预设准确度阈值的分类模型,或者数量较少时,调整划分聚类类别时的聚类类别的数量,例如,当划分的聚类类别的数量为5个时,不存在分类准确度大于预设准确度阈值的分类模型,则可以增加分类类别的数量,如增加到10个等,当划分的聚类类别的数量为5个,预设数量个为3个时,至存在1个分类准确度大于预设准确度阈值的分类模型,则也可以增加分类类别的数量,如增加到8个等。
本发明实施例提供的该方法,能够在得到的分类模型的数量不满足数量要求或者准确度要求时,可以调整划分的聚类类别的数量,保证训练处的分类模型满足预设条件,保证用户分类正常进行。
如图3所示,在本发明的一个实施例中,所述方法还包括:
在步骤S101中,提取多个用户浏览的媒体内容中的用户特征信息。
在步骤S102中,根据用户特征信息将多个用户划分为至少一个聚类类别。
在步骤S103中,训练与每个聚类类别对应的分类模型。
在步骤S104中,判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型。
当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,在步骤S105中,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别;
在步骤S301中,将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。
在该步骤中,由于在实际应用中可能会存在一些用户特征信息中的每个用户特征可以归属于不同的聚类类型中,或者已被分到不同的聚类类别中,但是其他特征极为相似的用户特征的用户,对于这种情况,可以过滤掉这些用户,将这些用户确定为我们不感兴趣的无效用户。
本发明实施例提供的该方法,能够滤除噪音用户,增加分类准确度。
如图4所示,在本发明的又一实施例中,所述方法还包括以下步骤。
在步骤S401中,获取网络中多个用户的用户特征信息,以及,每个用户的标注属性信息。
在该步骤中,可以获取网络中的多个用户样本用户,获取这些样本用户的用户特征信息,并可以获取人为为这些样本用户设置的标注属性信息。
在步骤S402中,利用多个用户的用户特征信息训练分类模型。
在该步骤中,可以将多个用户的用户特征信息首先进行聚类,再分别对每个聚类类别训练分类模型,也可以直接根据多个用户的用户特征信息训练分类模型。
在步骤S403中,利用多个用户的标注属性信息测试每个分类模型。
在该步骤中,由于标注属性信息可以为准确的参考实例,所以可以利用标注 属性信息测试每个分类模型,具体地,可以将用户的用户特征信息输入到训练好的分类模型中,之后看分类模型得到的分类结果是否与标注属性信息一致。
在步骤S404中,根据测试结果,确定分类模型的分类准确度。
在该步骤中,可以统计每个分类模型得到的分类结果与标注属性信息一致的测试结果占所有测试结果的比率,可以将这个比率作为分类模型的分类准确度。
在步骤S405中,将所有分类模型准确度的平均值确定为预设准确度阈值。
本发明实施例提供的该方法,能够精确的确定预设准确度阈值,便于将预设准确度阈值确定为分类模型是否满足预设条件的参照标准。
如图5所示,在本发明的又一实施例中,提供一种信息处理方法,包括以下步骤。
在步骤S501中,获取待分类用户浏览的媒体内容中的用户特征信息。
在该步骤中,待分类用户即为未知类别的用户,可以获取待分类用户利用终端应用浏览媒体内容的记录,可以获取媒体内容的标签信息作为用户特征,每个用户特征信息中可以包括多个用户特征。
在步骤S502中,根据所述用户特征信息,将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别。
在该步骤中,可以采用将用户特征信息与目标聚类类别进行比对等方式,再根据比对结果将用户分类到一个目标聚类类别中。
在步骤S503中,利用与目标聚类类别对应的预设分类模型对目标用户进行分类。
在该步骤中,可以将待分类用户的用户特征信息输入到与目标聚类类别对应的预设分类模型中,将预设分类模型输入的分类结果确定为用户的分类。
本发明实施例提供的该方法,能够对未知分类的用户进行分类,便于根据未知分类的用户的用户特征信息对用户进行分类,进而便于向用户推荐可能感兴趣的媒体内容等。
如图6所示,在本发明的又一实施例中,提供一种信息处理装置,包括:第一获取模块601、划分模块602、第一训练模块603、判断模块604和第一确定模块605。
第一获取模块601,用于提取多个用户浏览的媒体内容中的用户特征信息;
划分模块602,用于根据用户特征信息将多个用户划分为至少一个聚类类别;
第一训练模块603,用于训练与每个聚类类别对应的分类模型;
判断模块604,用于判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型;
第一确定模块605,用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
在本发明的又一实施例中,所述装置还包括:
调整模块,用于当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时,调整在将多个用户划分聚类类别时划分的聚类类别的数量,直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。
在本发明的又一实施例中,所述装置还包括:
第二确定模块,用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。
在本发明的又一实施例中,所述装置还包括:
第二获取模块,用于获取网络中多个用户的用户特征信息,以及,每个用户的标注属性信息;
第二训练模块,用于利用多个用户的用户特征信息训练分类模型;
测试模块,用于利用多个用户的标注属性信息测试每个分类模型;
第三确定模块,用于根据测试结果,确定分类模型的分类准确度;
第四确定模块,用于将所有分类模型准确度的平均值确定为预设准确度阈值。
在本发明的又一实施例中,提供一种信息处理装置,包括:
第三获取模块,用于获取待分类用户浏览的媒体内容中的用户特征信息;
第五确定模块,用于根据所述用户特征信息,将多个预设聚类类别中与所述 待分类用户对应的预设聚类类别确定为目标聚类类别;
分类模块,用于利用与目标聚类类别对应的预设分类模型对目标用户进行分类。
在本发明的又一实施例中,还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述图1至图4所述的信息处理方法。
在本发明的又一实施例中,还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述图5所述的信息处理方法。
图7是本发明实施例提供的任意一种信息处理方法的电子设备的硬件结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。
执行本发明实施例提供的任意一种信息处理方法的电子设备还可以包括:输入装置730和输出装置740。
处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。
存储器720作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的任意一种信息处理方法对应的程序指令/模块(例如,附图6所示的第一获取模块601、划分模块602、第一训练模块603、判断模块604和第一确定模块605,或者,第三获取模块、第五确定模块和分类模块)。处理器710通过运行存储在存储器720中的非暂态软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的信息处理方法。
存储器720可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据任意一种信息 处理装置的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器720可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至本发明实施例中的任意一种信息处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可接收输入的数字或字符信息,以及产生与本发明实施例中的任意一种信息处理装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器720中,当被所述一个或者多个处理器710执行时,执行上述任意方法实施例中的任意一种信息处理方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
在本发明的又一实施例中,还提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明实施例的图1至图5的任意一种信息处理方法。
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非暂态计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (17)

  1. 一种信息处理方法,其特征在于,包括:
    提取多个用户浏览的媒体内容中的用户特征信息;
    根据用户特征信息将多个用户划分为至少一个聚类类别;
    训练与每个聚类类别对应的分类模型;
    判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型;
    当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
  2. 根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:
    当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时,调整在将多个用户划分聚类类别时划分的聚类类别的数量,直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。
  3. 根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:
    当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。
  4. 根据权利要求1所述的信息处理方法,其特征在于,所述方法还包括:
    获取网络中多个用户的用户特征信息,以及,每个用户的标注属性信息;
    利用多个用户的用户特征信息训练分类模型;
    利用多个用户的标注属性信息测试每个分类模型;
    根据测试结果,确定分类模型的分类准确度;
    将所有分类模型准确度的平均值确定为预设准确度阈值。
  5. 一种信息处理方法,其特征在于,包括:
    获取待分类用户浏览的媒体内容中的用户特征信息;
    根据所述用户特征信息,将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别;
    利用与目标聚类类别对应的预设分类模型对目标用户进行分类。
  6. 一种信息处理装置,其特征在于,包括:
    第一获取模块,用于提取多个用户浏览的媒体内容中的用户特征信息;
    划分模块,用于根据用户特征信息将多个用户划分为至少一个聚类类别;
    第一训练模块,用于训练与每个聚类类别对应的分类模型;
    判断模块,用于判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型;
    第一确定模块,用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
  7. 根据权利要求6所述的信息处理装置,其特征在于,所述装置还包括:
    调整模块,用于当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时,调整在将多个用户划分聚类类别时划分的聚类类别的数量,直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。
  8. 根据权利要求6所述的信息处理装置,其特征在于,所述装置还包括:
    第二确定模块,用于当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。
  9. 根据权利要求6所述的信息处理装置,其特征在于,所述装置还包括:
    第二获取模块,用于获取网络中多个用户的用户特征信息,以及,每个用户的标注属性信息;
    第二训练模块,用于利用多个用户的用户特征信息训练分类模型;
    测试模块,用于利用多个用户的标注属性信息测试每个分类模型;
    第三确定模块,用于根据测试结果,确定分类模型的分类准确度;
    第四确定模块,用于将所有分类模型准确度的平均值确定为预设准确度阈值。
  10. 一种信息处理装置,其特征在于,包括:
    第三获取模块,用于获取待分类用户浏览的媒体内容中的用户特征信息;
    第五确定模块,用于根据所述用户特征信息,将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别;
    分类模块,用于利用与目标聚类类别对应的预设分类模型对目标用户进行分类。
  11. 一种非暂态计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
    提取多个用户浏览的媒体内容中的用户特征信息;
    根据用户特征信息将多个用户划分为至少一个聚类类别;
    训练与每个聚类类别对应的分类模型;
    判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型;
    当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
  12. 一种非暂态计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
    获取待分类用户浏览的媒体内容中的用户特征信息;
    根据所述用户特征信息,将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别;
    利用与目标聚类类别对应的预设分类模型对目标用户进行分类。
  13. 一种电子设备,包括:
    至少一个处理器;以及,
    与所述至少一个处理器通信连接的存储器;其中,
    所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
    提取多个用户浏览的媒体内容中的用户特征信息;
    根据用户特征信息将多个用户划分为至少一个聚类类别;
    训练与每个聚类类别对应的分类模型;
    判断是否存在预设数量个分类准确度大于预设准确度阈值的分类模型;
    当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,确定分类准确度大于预设准确度阈值的分类模型为目标分类模型,以及,与每个所述目标分类模型对应的用类为目标聚类类别。
  14. 根据权利要求13所述的电子设备,所述处理器还能够:
    当不存在预设数量个分类准确度大于预设准确度阈值的分类模型时,调整在将多个用户划分聚类类别时划分的聚类类别的数量,直至存在预设数量个分类准确度大于预设准确度阈值的分类模型。
  15. 根据权利要求13所述的电子设备,所述处理器还能够:
    当存在预设数量个分类准确度大于预设准确度阈值的分类模型时,将分类准确度小于预设准确度阈值的分类模型中的用户确定为无效用户。
  16. 根据权利要求13所述的电子设备,所述处理器还能够:
    获取网络中多个用户的用户特征信息,以及,每个用户的标注属性信息;
    利用多个用户的用户特征信息训练分类模型;
    利用多个用户的标注属性信息测试每个分类模型;
    根据测试结果,确定分类模型的分类准确度;
    将所有分类模型准确度的平均值确定为预设准确度阈值。
  17. 一种电子设备,包括:
    至少一个处理器;以及,
    与所述至少一个处理器通信连接的存储器;其中,
    所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
    获取待分类用户浏览的媒体内容中的用户特征信息;
    根据所述用户特征信息,将多个预设聚类类别中与所述待分类用户对应的预设聚类类别确定为目标聚类类别;
    利用与目标聚类类别对应的预设分类模型对目标用户进行分类。
PCT/CN2016/096978 2015-12-14 2016-08-26 信息处理方法及装置 WO2017101506A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510925734.5A CN105868243A (zh) 2015-12-14 2015-12-14 信息处理方法及装置
CN201510925734.5 2015-12-14

Publications (1)

Publication Number Publication Date
WO2017101506A1 true WO2017101506A1 (zh) 2017-06-22

Family

ID=56623784

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/096978 WO2017101506A1 (zh) 2015-12-14 2016-08-26 信息处理方法及装置

Country Status (2)

Country Link
CN (1) CN105868243A (zh)
WO (1) WO2017101506A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800465A (zh) * 2018-12-21 2019-05-24 中车工业研究院有限公司 轨道交通车辆产品配置模块的分类方法、装置与电子设备
CN110251119A (zh) * 2019-05-28 2019-09-20 深圳和而泰家居在线网络科技有限公司 分类模型获取方法、hrv数据分类方法、装置及相关产品
CN110858313A (zh) * 2018-08-24 2020-03-03 国信优易数据有限公司 一种人群分类方法以及人群分类***
CN110909348A (zh) * 2019-09-26 2020-03-24 中国科学院信息工程研究所 一种内部威胁检测方法及装置
CN111831894A (zh) * 2019-04-23 2020-10-27 北京嘀嘀无限科技发展有限公司 一种信息匹配方法及装置
CN112035663A (zh) * 2020-08-28 2020-12-04 京东数字科技控股股份有限公司 聚类分析方法、装置、设备及存储介质
CN112148764A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 特征的筛选方法、装置、设备和存储介质
CN112214592A (zh) * 2020-11-05 2021-01-12 中科讯飞互联(北京)信息科技有限公司 一种回复对话评分模型训练方法、对话回复方法及其装置
CN112269937A (zh) * 2020-11-16 2021-01-26 加和(北京)信息科技有限公司 一种计算用户相似度的方法、***及装置
CN113032494A (zh) * 2021-03-08 2021-06-25 浙江大华技术股份有限公司 一种数据表分类、模型训练方法、装置、设备及介质
CN113099057A (zh) * 2019-12-23 2021-07-09 中国电信股份有限公司 用户提醒方法、装置和计算机可读存储介质
CN113128535A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 一种聚类模型的选取方法、装置、电子设备及存储介质
CN113727348A (zh) * 2020-05-12 2021-11-30 华为技术有限公司 用户设备ue用户数据的检测方法、设备及存储介质
CN114662595A (zh) * 2022-03-25 2022-06-24 王登辉 大数据融合处理方法及***

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868243A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置
CN106355449B (zh) * 2016-08-31 2021-09-07 腾讯科技(深圳)有限公司 用户选取方法和装置
CN108460049B (zh) * 2017-02-21 2021-10-19 阿里巴巴集团控股有限公司 一种确定信息类别的方法和***
CN108875821A (zh) 2018-06-08 2018-11-23 Oppo广东移动通信有限公司 分类模型的训练方法和装置、移动终端、可读存储介质
CN109359194B (zh) * 2018-09-30 2020-10-20 北京字节跳动网络技术有限公司 用于预测信息类别的方法和装置
CN109903087A (zh) * 2019-02-13 2019-06-18 广州视源电子科技股份有限公司 基于行为特征预测用户属性值的方法、装置及存储介质
CN109918574A (zh) * 2019-03-28 2019-06-21 北京卡路里信息技术有限公司 项目推荐方法、装置、设备及存储介质
CN111797868A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 场景识别模型建模方法、装置、存储介质及电子设备
CN110086874A (zh) * 2019-04-30 2019-08-02 清华大学 一种高速公路服务区用户分类方法、***、设备及介质
CN111080401A (zh) * 2019-11-25 2020-04-28 苏宁云计算有限公司 一种年龄估计方法及装置
CN112230555A (zh) * 2020-10-12 2021-01-15 珠海格力电器股份有限公司 智能家居设备及其控制方法、装置和存储介质
CN116127067B (zh) * 2022-12-28 2023-10-20 北京明朝万达科技股份有限公司 文本分类方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090028443A1 (en) * 2007-07-26 2009-01-29 Palo Alto Research Center Incorporated Innovative ocr systems and methods that combine a template based generative model with a discriminative model
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103425677A (zh) * 2012-05-18 2013-12-04 阿里巴巴集团控股有限公司 关键词分类模型确定方法、关键词分类方法及装置
CN103869102A (zh) * 2014-03-11 2014-06-18 广东电网公司电网规划研究中心 一种大区域电网负荷统计与分类方法
CN105868243A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102118706A (zh) * 2010-12-14 2011-07-06 北京星源无限传媒科技有限公司 一种基于手机广告用户细分的手机广告投放方法
CN104933075A (zh) * 2014-03-20 2015-09-23 百度在线网络技术(北京)有限公司 用户属性预测平台和方法
CN103984741B (zh) * 2014-05-23 2016-09-21 合一信息技术(北京)有限公司 用户属性信息提取方法及其***
CN104899579A (zh) * 2015-06-29 2015-09-09 小米科技有限责任公司 人脸识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090028443A1 (en) * 2007-07-26 2009-01-29 Palo Alto Research Center Incorporated Innovative ocr systems and methods that combine a template based generative model with a discriminative model
CN102541958A (zh) * 2010-12-30 2012-07-04 百度在线网络技术(北京)有限公司 一种用于识别短文本类别信息的方法、装置和计算机设备
CN103425677A (zh) * 2012-05-18 2013-12-04 阿里巴巴集团控股有限公司 关键词分类模型确定方法、关键词分类方法及装置
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103869102A (zh) * 2014-03-11 2014-06-18 广东电网公司电网规划研究中心 一种大区域电网负荷统计与分类方法
CN105868243A (zh) * 2015-12-14 2016-08-17 乐视网信息技术(北京)股份有限公司 信息处理方法及装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858313A (zh) * 2018-08-24 2020-03-03 国信优易数据有限公司 一种人群分类方法以及人群分类***
CN110858313B (zh) * 2018-08-24 2023-01-31 国信优易数据股份有限公司 一种人群分类方法以及人群分类***
CN109800465A (zh) * 2018-12-21 2019-05-24 中车工业研究院有限公司 轨道交通车辆产品配置模块的分类方法、装置与电子设备
CN111831894A (zh) * 2019-04-23 2020-10-27 北京嘀嘀无限科技发展有限公司 一种信息匹配方法及装置
CN110251119A (zh) * 2019-05-28 2019-09-20 深圳和而泰家居在线网络科技有限公司 分类模型获取方法、hrv数据分类方法、装置及相关产品
CN110251119B (zh) * 2019-05-28 2022-07-15 深圳数联天下智能科技有限公司 分类模型获取方法、hrv数据分类方法、装置及相关产品
CN112148764B (zh) * 2019-06-28 2024-05-07 北京百度网讯科技有限公司 特征的筛选方法、装置、设备和存储介质
CN112148764A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 特征的筛选方法、装置、设备和存储介质
CN110909348A (zh) * 2019-09-26 2020-03-24 中国科学院信息工程研究所 一种内部威胁检测方法及装置
CN113099057A (zh) * 2019-12-23 2021-07-09 中国电信股份有限公司 用户提醒方法、装置和计算机可读存储介质
CN113128535A (zh) * 2019-12-31 2021-07-16 深圳云天励飞技术有限公司 一种聚类模型的选取方法、装置、电子设备及存储介质
CN113727348A (zh) * 2020-05-12 2021-11-30 华为技术有限公司 用户设备ue用户数据的检测方法、设备及存储介质
CN113727348B (zh) * 2020-05-12 2023-07-11 华为技术有限公司 用户设备ue用户数据的检测方法、设备、***及存储介质
CN112035663A (zh) * 2020-08-28 2020-12-04 京东数字科技控股股份有限公司 聚类分析方法、装置、设备及存储介质
CN112035663B (zh) * 2020-08-28 2024-05-17 京东科技控股股份有限公司 聚类分析方法、装置、设备及存储介质
CN112214592A (zh) * 2020-11-05 2021-01-12 中科讯飞互联(北京)信息科技有限公司 一种回复对话评分模型训练方法、对话回复方法及其装置
CN112214592B (zh) * 2020-11-05 2024-06-11 科大讯飞(北京)有限公司 一种回复对话评分模型训练方法、对话回复方法及其装置
CN112269937A (zh) * 2020-11-16 2021-01-26 加和(北京)信息科技有限公司 一种计算用户相似度的方法、***及装置
CN112269937B (zh) * 2020-11-16 2024-02-02 加和(北京)信息科技有限公司 一种计算用户相似度的方法、***及装置
CN113032494A (zh) * 2021-03-08 2021-06-25 浙江大华技术股份有限公司 一种数据表分类、模型训练方法、装置、设备及介质
CN114662595A (zh) * 2022-03-25 2022-06-24 王登辉 大数据融合处理方法及***

Also Published As

Publication number Publication date
CN105868243A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
WO2017101506A1 (zh) 信息处理方法及装置
US11238310B2 (en) Training data acquisition method and device, server and storage medium
Jain et al. Fake news detection
CN105427129B (zh) 一种信息的投放方法及***
WO2017045443A1 (zh) 一种图像检索方法及***
CN108874832B (zh) 目标评论确定方法及装置
CN110475155B (zh) 直播视频热度状态识别方法、装置、设备及可读介质
CN110941738B (zh) 推荐方法、装置、电子设备及计算机可读存储介质
US20180357891A1 (en) Method of processing passage record and device
WO2022057302A1 (zh) 聚类方法及装置、电子设备和存储介质
CN107807941B (zh) 信息处理方法和装置
WO2015090215A1 (zh) 区分地域性口音的语音数据识别方法、装置和服务器
CN110909205A (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
CN103455411B (zh) 日志分类模型的建立、行为日志分类方法及装置
CN110598157A (zh) 目标信息识别方法、装置、设备及存储介质
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN111522724B (zh) 异常账号的确定方法、装置、服务器及存储介质
CN112114986A (zh) 数据异常识别方法、装置、服务器和存储介质
WO2022062968A1 (zh) 一种自训练方法、***、装置、电子设备及存储介质
WO2018033052A1 (zh) 一种评估用户画像数据的方法及***
CN113688310A (zh) 一种内容推荐方法、装置、设备及存储介质
CN112131322A (zh) 时间序列分类方法及装置
WO2015024522A1 (zh) 搜索方法、***、搜索引擎和客户端
US9355099B2 (en) System and method for detecting explicit multimedia content
CN118094118A (zh) 数据集质量评估方法、***、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16874566

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16874566

Country of ref document: EP

Kind code of ref document: A1