CN113168421A - 内容的分类方法及分类模型的生成方法 - Google Patents

内容的分类方法及分类模型的生成方法 Download PDF

Info

Publication number
CN113168421A
CN113168421A CN201980078452.2A CN201980078452A CN113168421A CN 113168421 A CN113168421 A CN 113168421A CN 201980078452 A CN201980078452 A CN 201980078452A CN 113168421 A CN113168421 A CN 113168421A
Authority
CN
China
Prior art keywords
content
classification
learning
classification model
contents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980078452.2A
Other languages
English (en)
Inventor
桃纯平
福留贵浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Semiconductor Energy Laboratory Co Ltd
Original Assignee
Semiconductor Energy Laboratory Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Semiconductor Energy Laboratory Co Ltd filed Critical Semiconductor Energy Laboratory Co Ltd
Publication of CN113168421A publication Critical patent/CN113168421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种进行内容分类的分类模型。一种内容分类方法,包括学习内容及内容,给学习内容添加第一特征量及学习标签,给内容添加第二特征量,并且包括如下步骤:通过机械学习利用多个学习内容生成多个第一分类模型的步骤;利用多个第一分类模型生成第二分类模型的步骤;以及利用第二分类模型给多个内容添加判定信息且将其显示在GUI上的步骤。判定信息包括分类标签或分数。注意,在GUI中,可以指定分数中的特定数值范围,列出显示相应内容。注意,内容被添加的特征量是管理参数(元信息)。

Description

内容的分类方法及分类模型的生成方法
技术领域
本发明的一个方式涉及一种利用计算机设备的内容分类方法、内容分类***、分类模型的生成方法以及图形用户界面。
另外,本发明的一个方式涉及一种计算机设备。本发明的一个方式涉及一种利用计算机设备的电子化内容(文字数据、图像数据、音频数据或视频数据)分类方法。尤其是,本发明的一个方式涉及一种利用机械学习基于内容集合高效地进行分类的内容分类***。另外,本发明的一个方式涉及一种利用计算机设备使用程序管理的图形用户界面的内容分类方法、内容分类***以及分类模型的生成方法。
背景技术
用户想从内容集合容易分类并提取与用户所指定的题目有关的信息。但是,当从大量内容中分类符合目的条件的内容时,基于个人的知识或经验等而内容分类结果有差异。
近年来,有如下提案:将根据个人的知识或经验分类的内容分类结果作为监督数据提供给计算机设备,使其机械学习内容分类方法。例如,专利文献1公开了用来决定与用户所指定的题目之间的相关性高的文档的机械学习的研究。
[先行技术文献]
[专利文献]
[专利文献1]日本专利申请公开第2009-104630号公报
发明内容
发明所要解决的技术问题
有时按照目的对某个内容集合进行分类。在本发明的一个方式中,说明内容为专利的情况。专利都被分配特有的专利号。因此,以下有时将内容换称为专利号而进行说明。注意,在本发明的一个方式中说明的内容分类方法中,着眼于分配到专利号的多个管理参数。注意,内容不局限于专利文献。内容也可以是文字数据、图像数据、音频数据或视频数据等信息。
利用各种元信息管理内容。元信息不是指某个内容本身,而是记述该内容所属的属性或相关信息的数据。作为一个例子,将权利要求书、说明书摘要、附图及说明书作为内容之内容与专利号相关联。并且,专利号被添加元信息(评价信息、经过天数、同族信息等)并使用元信息受管理。通过利用元信息进行基于重要性的专利号分类。分类的精度或效率根据作为对象的文件的内容而不同但是易于产生基于用户的经验或熟练程度的差异,并且需要对大量文件进行分类,因此在效率化方面有问题。
在利用机械学习的分类模型的生成中,需要准备大量的学习数据,因此有用户的负担过重的问题。有包括在学习数据中的分类内容数量的不均匀给分类模型的精度带来影响的问题。
鉴于上述问题,本发明的一个方式的目的之一是提供一种高效地生成分类模型且使用其进行信息分类的方法。另外,本发明的一个方式的目的之一是提供一种用来交互地生成分类模型的图形用户界面。另外,本发明的一个方式的目的之一是提供一种进行概率高的信息的分类的程序。
注意,这些目的的记载不妨碍其他目的的存在。本发明的一个方式并不需要实现所有上述目的。此外,上述以外的目的是可以从说明书、附图及权利要求书等的记载中自然得知并衍生出来的。
解决技术问题的手段
计算机设备所包括的存储装置储存有程序。程序可以通过图形用户界面(以下,GUI)使计算机设备所包括的显示装置显示各种信息。此外,用户可以通过GUI使计算机设备进行程序的操作、信息添加、响应数据库、机械学习的指令等。另外,程序可以通过GUI将利用机械学习的运算处理结果、从数据库下载的学习内容或未分类内容的内容等显示在显示装置上。注意,以下,简单地记载为“内容”的情况下,包括学习内容、未分类内容或已分类内容。
所提案的内容分类***利用机械学习生成内容的分类模型,利用所生成的内容的分类模型对未分类内容进行分类。例如,将包括多个元信息的内容作为学习内容。而且,当学习内容被添加学习标签时从学习内容生成特征向量。注意,在生成特征向量的情况下,可以将元信息或学习标签用作学习内容的特征量。
学习内容被用作监督数据。分类模型可以基于学习内容进行机械学习来取得。在此得到的分类模型进行包括多个元信息的内容的分类。根据用户的目的分类种类可以是两种,也可以是三种以上。与通过手工或目视进行所有文件的判断的情况相比,用户通过利用分类模型可以以更短的时间进行整个文件的分类。
可以从储存在数据库中的学习内容下载学习内容。或者,可以使用储存在计算机设备的存储装置中的学习内容。注意,学习内容也可以包括学习标签而受管理。并且,也可以下载储存在数据库中的分类模型。或者,也可以使用储存在计算机设备的存储装置中的分类模型。
本发明的一个方式是一种内容分类方法,包括学习内容及内容,给学习内容添加第一特征量及学习标签,给内容添加第二特征量,并且包括如下步骤:通过机械学习利用多个学习内容生成多个第一分类模型的步骤;利用多个第一分类模型生成第二分类模型的步骤;以及利用第二分类模型给多个内容添加判定信息且将其显示在图形用户界面上的步骤。
本发明的一个方式是一种内容分类方法,包括学***均值的步骤;利用多个平均值生成第二分类模型的步骤;以及利用第二分类模型给多个内容添加判定信息且将其显示在图形用户界面上的步骤。
本发明的一个方式是一种内容分类方法,包括学习内容及内容,给学习内容添加第一特征量及学习标签,给内容添加第二特征量,并且包括如下步骤:通过机械学习利用多个学习内容生成多个第一分类模型的步骤;多个第一分类模型中的每一个基于第一评价标准进行评价的步骤;多个第一分类模型中的每一个基于第二评价标准进行评价的步骤;根据基于多个第一评价标准的评价结果和基于第二评价标准的评价结果生成第二分类模型的步骤;以及利用第二分类模型给多个内容添加判定信息且将其显示在图形用户界面上的步骤。
在具有上述各结构的内容分类方法中,优选第一评价标准为精度(Precision)且第二评价标准为灵敏度(Sensitivity)。
在具有上述各结构的内容分类方法中,优选包括利用任意学习内容生成第一分类模型的步骤。
在具有上述各结构的内容分类方法中,优选的是,学习内容还被添加分类信息,包括利用第二分类模型的输出从添加有分类标签的多个内容中选择包括与分类信息相同的判定信息的内容且将其显示在图形用户界面上的步骤。
在具有上述各结构的内容分类方法中,添加到学习内容及内容的特征量优选为管理参数。
在具有上述各结构的内容分类方法中,判定信息优选包括分类标签或分数。
在具有上述结构的内容分类方法中,优选的是,包括图形用户界面指定分数中的特定数值范围并列出显示相应内容的步骤。
发明效果
本发明的一个方式可以提供一种以高精度进行信息分类的方法。另外,本发明的一个方式可以提供一种以高精度进行信息分类的用户界面。另外,本发明的一个方式可以提供一种以高精度进行信息分类的程序。
另外,本发明的一个方式可以给用户提供一种用来生成利用机械学习的分类模型的交互式界面,可以减轻监督数据的准备或学习结果的评价等用户的负担。
注意,本发明的一个方式的效果不局限于上述效果。上述效果并不妨碍其他效果的存在。另外,其他效果是上面没有提到而将在下面的记载中进行说明的效果。所属技术领域的普通技术人员可以从说明书或附图等的记载中导出并适当抽取上面没有提到的效果。注意,本发明的一个方式具有上述效果及/或其他效果中的至少一个效果。因此,本发明的一个方式根据情况有时不具有上述效果。
附图说明
图1是说明分类方法的流程图。
图2是说明分类方法的流程图。
图3是说明分类***100与网络的连接的图。
图4是说明分类***的方框图。
图5A及图5B是说明图形用户界面的图。
图6是说明分类模型的生成方法的图。
图7是说明分类模型的生成方法的图。
图8是说明分类模型的生成方法的图。
图9是说明图形用户界面的图。
图10是说明图形用户界面的图。
具体实施方式
在本实施方式中,使用图1至图10说明内容分类方法。
在本实施方式中说明的内容分类方法由在计算机设备中工作的程序控制。程序储存在计算机设备的存储器(memory)或者存储空间(storage)中。或者,程序储存在通过网络(LAN(Local Area Network:局部网)、WAN(Wide Area Network:广域网)、因特网等)而连接的计算机或包括数据库的服务器计算机中。
此外,在计算机设备所包括的显示装置上可以显示用户给程序提供的数据以及利用计算机设备所包括的运算装置的该数据的运算结果。注意,使用图4将详细说明设备的结构。
例如通过采用列出显示方式,用户容易确认显示在显示装置上的数据,操作性得到提高。因此,在说明中,将GUI作为用户为通过显示装置简单地与计算机设备所包括的程序交互而使用的界面。
用户可以通过GUI利用程序所具有的内容分类方法。用户可以利用GUI使内容分类操作简单。另外,用户可以通过GUI在视觉上容易对内容分类结果进行判断。另外,用户可以通过GUI简单地操作程序。此外,该内容是指文字数据、图像数据、音频数据或视频数据等的信息。
接着,按照GUI的操作步骤说明使用GUI的内容分类方法。首先,说明数据处理部。数据处理部包括数据采集部和数据生成部。例如,数据采集部通过GUI从数据库取得由多个内容构成的文件。另外,当用户通过GUI给内容添加学习标签时,数据生成部可以生成学习内容。或者,也可以从数据库中取得添加有学习标签的学习内容。多个内容是指储存在计算机设备的存储器或存储空间中的文件或者储存在连接到网络的数据库、计算机或数据服务器等中的数据。
因此,该数据库中优选储存有列出的多个学习内容或多个未分类内容。另外,学习内容及未分类内容添加有多个特征量和学习标签。用户可以通过GUI修改该学习标签。当将该学习标签添加到学习内容时,可以将被添加学习标签的学习内容储存在数据库中。
学习内容可以包括没有添加学习标签的验证内容。可以将验证内容用于使用学习内容生成的分类模型的验证。
作为一个例子,对内容为专利号的情况进行说明。作为专利号的特征量给专利号添加多个元信息。作为元信息例如有评价信息、经过天数、同族数量、同族的状态、申请类型、有效期限、同族中的待授权专利数量、同族中的放弃专利数量、费用、发明人人数、领域或权利要求数量等。就是说,元信息是指内容的管理参数。注意,同族包括专利家族或专利族等。
接着,说明学习处理部。学习处理部包括利用学习内容生成分类模型的步骤。学习处理部包括分类模型生成部或分类模型评价部。
分类模型生成部可以生成分类模型。分类模型生成部具有通过机械学习利用多个学习内容生成多个第一分类模型的步骤,并具有利用该多个第一分类模型生成第二分类模型的步骤。可以在GUI上显示第一分类模型或第二分类模型的输出值。用户可以给该输出值添加(包括修改)对应于第一分类模型的学习标签。或者,用户可以给该输出值添加新的学习内容。
分类模型评价部利用验证内容对分类模型生成部中生成的分类模型进行评价。当利用该分类模型进行验证内容的推论时,该分类模型将推论结果作为判定信息输出。GUI可以给各评价内容添加判定信息进行显示。
此外,用户可以对分类模型评价部的输出结果进行判定,根据需要修改学习标签,在分类模型生成部中更新分类模型。或者,可以通过追加学习内容在分类模型生成部中更新分类模型。
接着,说明判定处理部。判定处理部包括分类推论部和列表创建部。例如,分类推论部利用在分类模型生成部中生成的第一学习模型和第二学习模型进行多个未分类内容的推论及分类。该分类模型给各内容添加推论结果作为判定信息。
列表创建部可以使用被添加该判定信息的内容生成用户所要求的形式的列表,将其显示在GUI上。例如,在根据专利申请国别管理各内容的情况下,可以将专利申请国用作分类信息。在专利申请国为分类信息的情况下,作为所生成的分类模型优选根据专利申请国别生成不同分类模型。注意,分类信息不局限于专利申请国。例如,可以将内容所包括的元信息之一用作分类信息。
对元信息为分类信息的情况进行说明。例如,也可以将专利家族的状态作为分类信息。专利号有时被添加原申请的专利号、分案申请的专利号等作为元信息。根据从原申请的专利号可以衍生出分案申请的状态、从原申请的专利号不能衍生出分案申请的状态、原申请的专利号的权利有效的状态、原申请的专利号的权利失效的状态、从分案申请的专利号可以再衍生出分案申请的状态、从分案申请的专利号不能再衍生出分案申请的状态、分案申请的专利号的权利有效的状态、分案申请的专利号的权利失效的状态等,可以生成不同分类模型,利用该分类模型可以分别进行推论。
就是说,判定处理部可以利用分类模型对多个未分类内容进行推论。判定处理部包括将推论结果作为判定信息添加到各内容且将其显示在GUI上的步骤。判定信息至少包括分类标签、分数(概率)。另外,包括GUI指定分数中的特定数值范围且列出显示相应内容的步骤。
示出与上述分类模型生成部不同的例子。分类模型生成部包括通过机械学***均值的步骤、以及利用多个该平均值生成第二分类模型的步骤。可以在GUI上显示第一分类模型或第二分类模型的输出值。用户可以基于该输出值修改第一分类模型的学***均值是指利用算术平均计算、几何平均计算和调和平均计算中的任一个而计算出的值。
第二分类模型利用多个该平均值而生成。因为第二分类模型中第一分类模型的输出平均化,所以可以减轻学习内容中的离群值等噪声成分的影响。
接着,示出与上述分类模型生成部不同的例子。分类模型生成部包括通过机械学习利用多个学习内容生成多个第一分类模型的步骤、多个第一分类模型中的每一个基于第一评价标准进行评价的步骤、多个第一分类模型中的每一个基于第二评价标准进行评价的步骤、以及根据基于多个第一评价标准的评价结果和基于第二评价标准的评价结果生成第二分类模型的步骤。可以在GUI上显示第一分类模型或第二分类模型的输出值。用户可以基于该输出值修改第一分类模型的学习标签。或者,用户可以给该输出值添加学习内容。注意,第一评价标准为混淆矩阵的精度,第二评价标准为混淆矩阵的灵敏度。
利用基于第一评价标准及第二评价标准对多个第一分类模型的输出进行评价而得的结果生成第二分类模型。注意,在第一评价标准中,可以将混淆矩阵的精度换称为对学习标签的精确率。在第二评价标准中,可以将混淆阵列的灵敏度换称为学习标签的召回率。因此,所生成的分类模型可以包括多个第一分类模型的该精确率和该召回率。利用该多个第一分类模型生成的第二分类模型的分类精度得到提高。
在上述分类模型生成部中,例如,也可以利用所生成的m个(m表示自然数)第一分类模型生成第二分类模型。
另外,当上述分类模型生成部包括k个(k表示自然数)学习内容时,第一分类模型可以生成k个以下的任意学习内容。另外,在k个学习内容被选择的情况下,任意学习内容可以包括两个不同学习模型。另外,按号码排序的顺序使用k个分配有不同号码的学习内容中的每q个(q表示自然数)生成第一分类模型。
程序可以将从数据库读取的内容显示在GUI上。内容优选包括列出的元信息。GUI以GUI所具有的显示方式显示该内容。注意,添加到内容的列出的元信息优选以被称为记录的单位管理。例如,各记录由绑定到号码的ID(Identification)、内容(图像数据、音频数据或视频数据)或元信息等构成。
在本说明书中,着眼于元信息而进行机械学习,通过该机械学习生成分类模型。分类模型分析元信息并对特征向量化的内容进行分类。
另外,在上述内容分类方法中,可以通过不使用学习标签作为监督数据的机械学习进行分类。例如,作为分类模型可以使用K-means或DBSCAN(具有噪声的基于密度的聚类方法)等算法。
另外,程序可以通过利用添加有多个元信息及学习标签的学习内容的机械学习生成分类模型。作为分类模型可以使用决策树、朴素贝叶斯、KNN(k最近邻)、SVM(支持向量机)、感知机、逻辑回归或神经网络等算法。
并且,程序可以根据学习内容数量切换分类模型。例如,在学习内容数量较少时,也可以使用决策树、朴素贝叶斯或逻辑回归,在学习内容数量为一定量以上时,也可以使用SVM、随机森林或神经网络。本实施方式中使用的分类模型采用决策树的算法之一的随机森林。并且,作为元信息的选择方法、学习内容的选择方法或第一分类模型的选择方法可以使用随机取样或交叉验证。或者,可以根据分配号码的排序顺序按每q个进行选择。
接着,使用附图说明内容分类方法。图1是说明本实施的一个方式的内容分类方法的流程图。注意,内容分类方法由在计算机设备中工作的程序控制。因此,通过程序包括数据处理部、学习处理部或判定处理部,可以进行内容分类。程序可以通过GUI进行用户所要求的内容分类。就是说,在上述各处理部中被处理的内容相当于程序的步骤。
步骤S11中用户可以通过GUI发出加载包括内容的文件的指令。该文件储存在数据处理部所包括的数据库中。文件包括学习内容、未分类内容等。
因此,该数据库中优选储存有列出的多个学习内容或多个未分类内容。用户可以添加或修改显示在GUI上的学习内容的学习标签。文件可以包括没有添加学习标签的验证内容。
步骤S12是利用加载文件生成分类模型的学习处理部。所生成的分类模型可以对验证内容进行评价,可以将评价结果显示在GUI上。用户可以发出基于该评价结果修改学习标签、追加学习内容等指令。
此外,用户可以预测学习内容所包括的元信息的随时间的变化来更新元信息。当用户更新元信息时,分类模型可以包括分类模型的随时间的变化。因此,用户可以得到内容的随时间的分类变化。分类模型可以将预测为价值增加的内容群和预测为价值下降的内容群分类。
步骤S13是判定处理部。使用步骤S12中生成的分类模型对未分类内容进行推论。该分类模型可以根据推论结果给未分类内容添加判定信息。在判定处理部中,可以以用户所要求的形式将该被添加判定信息的内容显示在GUI上。该判定信息至少包括分类标签及分数。另外,GUI可以指定分数中的特定数值范围且显示相应内容。
接着,使用图2更详细地说明图1的流程图。首先,详细地说明步骤S11。步骤S11的数据处理部包括步骤S21的数据采集部及步骤S22的数据生成部。
说明步骤S21的数据采集部。步骤S21的数据采集部可以从数据库中加载文件。元信息或内容等可以利用不同数据库管理。元信息可能根据处理内容的公司、组织或用户而不同。因此,数据采集部具有从不同数据库中采集与内容有关的元信息的功能。另外,各数据库可以设置在不同建筑物、不同地区或不同国家中。
接着,说明步骤S22的数据生成部。数据生成部可以以被称为记录的单位管理内容和元信息。例如,各记录由绑定到号码的ID、内容(图像数据、音频数据或视频数据)或元信息等构成。另外,用户可以通过给显示在GUI上的内容添加学习标签来生成学习内容。
接着,详细地说明步骤S12。步骤S12的学习处理部包括步骤S23的分类模型生成部、步骤S24的分类模型评价部及步骤S25的输出结果判定处理。
说明步骤S23的分类模型生成部。分类模型生成部可以生成内容的分类模型。分类模型生成部可以通过机械学习利用多个学习内容生成多个第一分类模型。可以利用该多个第一分类模型生成第二分类模型。可以在GUI上显示第一分类模型或第二分类模型的输出值。
此外,在后述的步骤S25的输出结果判定处理之后,用户可以给该输出值添加(包括修改)第一分类模型的学习标签。或者,用户可以给该输出值添加新的学习内容。用户可以预测学习内容所包括的元信息的随时间的变化来更新元信息。注意,在用户更新元信息时得到的效果可以参照步骤S12的说明。
接着,说明步骤S24的分类模型评价部。分类模型评价部可以利用验证内容对分类模型生成部中生成的分类模型进行评价。该分类模型将验证内容的推论结果作为判定信息输出。GUI可以给各评价内容添加判定信息进行显示。
接着,说明步骤S25的输出结果判定处理。例如,用户可以对步骤S24的分类模型评价部的输出结果进行判断且判定为内容的分类模型学好了。用户向GUI发出分类模型的生成结束(OK)的指令。例如,用户可以判定为内容的分类模型的学习不够(NG)。用户返回到步骤S23,通过学习标签的变更、学习内容的追加或元信息的更新等进行分类模型的更新。
接着,详细地说明步骤S13。步骤S13的判定处理部包括步骤S26的分类推论部及步骤S27的列表创建部。
说明步骤S26的分类推论部。分类推论部利用在分类模型生成部中生成的第一学习模型和第二学习模型进行多个未分类内容的推论及分类。对分类推论部添加在步骤S22的数据生成部中生成的未分类内容。该分类模型给各内容添加推论结果作为判定信息。
说明步骤S27的列表创建部。列表创建部可以以用户所要求的形式列出该被添加判定信息的内容,将其显示在GUI上。各内容也可以被添加与元信息不同的分类信息。例如,当将分类信息添加到学习内容时,所生成的分类模型可以根据分类信息生成不同分类模型。或者,可以将内容所包括的元信息之一用作分类信息。
该判定信息至少包括分类标签及分数。另外,GUI可以指定分数中的特定数值范围且将相应内容列出显示在GUI上。
图3是说明有上述内容分类方法的分类***100与网络的连接的图。
分类***100与通信网LAN1连接。通信网LAN1连接有数据库DB1或客户端计算机CL1至CLn(n是自然数)等。另外,通信网LAN1可以通过网络与通信网LAN2连接。作为网络可以使用因特网、通信网WAN或卫星通信。通信网LAN2连接有数据库DB2或客户端计算机CL11至CL1n等。
分类***100可以利用包括储存在数据库DB1、数据库DB2、客户端计算机CL1至CLn或客户端计算机CL11至CL1n中的内容的文件进行内容生成、内容分类、模型生成以及未分类内容分类。
另外,用户可以利用在分类***100中工作的程序向GUI发出指令。例如,用户可以通过因特网利用设置在不同国家中的数据库中的信息生成上述分类模型,对未分类内容进行分类。就是说,内容或元信息也可以储存在不同数据库或不同客户端计算机中。
可以在GUI上显示储存在数据库DB1、数据库DB2、客户端计算机CL1至CLn或客户端计算机CL11至CL1n的计算机设备的存储装置中的被分类***100分类的分类结果。
图4是说明在图3中说明的分类***100的方框图。分类***100包括GUI(图形用户界面)110、运算部120及存储部130。GUI110包括输入部111及输出部112。输入部111具有选择内容的加载源的功能以及输入学习标签的功能。输出部112具有显示从数据库等中加载的内容列表的功能以及显示分类模型所输出的判定信息的功能。注意,用户可以通过GUI修改包括在显示内容中的元信息。
运算部120包括数据处理部121、学习处理部122及判定处理部123。数据处理部121包括数据采集部及数据生成部。学习处理部122包括生成分类模型的分类模型生成部以及将分类模型分类的分类模型评价部。另外,分类模型评价部的输出结果具有由用户判定的评价结果判定处理功能。判定处理部123具有分类推论部、列出由分类推论部分类的结果的输出列表创建部。在运算部120中,储存在计算机设备所包括的存储部中的程序使用微处理器进行运算处理。程序可以利用DSP(数字信号处理器)或GPU(图形处理器)进行运算处理。
在存储部130中,以列表形式暂时储存从数据库等中加载而生成的内容及元信息。
存储部130例如可以使用包括1T(晶体管)1C(电容器)型存储单元的DRAM(动态随机存取存储器)。另外,作为用于DRAM的存储单元的晶体管也可以使用OS晶体管。OS晶体管是在半导体层中包含金属氧化物的晶体管。将在存储单元中使用OS晶体管的存储装置称为“OS存储器”。在此,作为OS存储器的一个例子,将包括1T1C型存储单元的RAM称为“DOSRAM(Dynamic Oxide Semiconductor RAM:动态氧化物半导体随机存取存储器)”。
OS晶体管的关态电流(off-state current)非常小。由此DOSRAM可以减少刷新频率,而可以降低刷新工作所需要的功率。这里的关态电流是指在晶体管处于关闭状态时在源极和漏极之间流过的电流。在晶体管为n沟道型的情况下,例如当阈值电压为0V至2V左右时,可以将栅极和源极之间的电压为负电压时流在源极和漏极之间的电流称为关态电流。
图5A是说明GUI30的结构的图。GUI30作为一个例子显示列出显示p个学习内容的管理页面。学习内容以记录单位受管理。该记录包括号码(No)31、内容(ID)32、表示特征量的元信息(Feature)33(元信息(F1)33a至元信息(Fm)33m)、分类信息(Case)34(分类信息(C1)34a至分类信息(Cq)34q)以及学习标签(J-Label)35等。作为一个例子,图5A中学习标签35提供“Yes”和“No”这二值中的任意值,学习标签35不局限于二值,也可以是三值以上。
图5B是说明GUI30A的结构的图。GUI30A在评价推论部中进行n个未分类内容的推论,显示列出显示该推论判定信息的管理页面。未分类内容与学习内容同样地包括号码31、内容32、元信息33及分类信息34。并且,各记录被添加分类标签(A-Label)36及分数(Score)37作为判定信息。
GUI30及GUI30A可以在同一显示页面上管理。在后述的图9或图10中,示出可以在同一管理页面上显示学习内容和判定信息的GUI的显示例子。
图6是说明通过机械学习利用与上述学习内容Sample相关联的多个特征Feature生成分类模型的方法的图。各特征Feature表示任一个元信息,并相当于用来管理内容的管理参数。注意,在本实施的一个方式中,利用运算部F、运算部S、运算部V、第一分类模型及第二分类模型说明分类模型生成方法。
学习内容Sample(1)至学习内容Sample(k)都被添加j个特征Feature及学习标签Label。作为一个例子,运算部F1可以从学习内容Sample(1)生成计算机能够处理的形式的特征向量Vlabel1(1)。另外,运算部Fk可以从学习内容Sample(k)生成计算机能够处理的形式的特征向量Vlabel1(k)。另外,特征向量Vlabel1(1)可以通过运算部F1对各特征给予不同权系数来生成。另外,特征向量Vlabel1(1)可以使用随机选择的j个以下的特征Feature生成。
接着,生成多个第一分类模型。运算部S1至运算部Sm分别相当于不同第一分类模型。作为一个例子,运算部S1可以利用特征向量Vlabel1(1)至特征向量Vlabel1(k)生成第一分类模型。提供到运算部S1的特征向量Vlabel1只要是k个以下即可。作为不同例子,运算部Sm可以利用与上述不同的特征向量Vlabel1(1)至特征向量Vlabel1(k)生成第一分类模型。因此,两个不同第一分类模型可以各自包括k个以下的特征向量Vlabel1,并且其中特征向量Vlabel1中的任一个是同一的。
为生成第一分类模型而选择的k个学习内容Sample可以随机选择,也可以按分配给学习内容的号码排序的顺序选择。在随机选择学习内容的情况下,第一分类模型可以包括学习内容的不均匀。另外,在按分配给学习内容的号码排序的顺序选择的情况下,可以包括按基于时间序列和元信息中的任一个特征分配的号码的倾向。
因此,第一分类模型可以利用从学习内容Sample(1)至学习内容Sample(k)生成的特征向量Vlabel1生成特征向量Vlabel2。
第二分类模型由运算部V1生成。作为一个例子,运算部V1包括利用m个特征向量Vlabel2生成第二分类模型的步骤。此外,第二分类模型可以通过利用特征向量Vlabel2(1)至特征向量Vlabel2(m)生成具有不同特征的分类模型。
因此,第二分类模型可以利用从学习内容Sample(1)至学习内容Sample(k)生成的特征向量Vlabel1输出输出值POUT。GUI可以显示输出值POUT。此外,输出值POUT包括为判定信息的分类标签及分数。因此,第二分类模型可以进行内容分类。此外,第二分类模型可以给各内容添加判定信息。
在利用图6中说明的该分类模型进行推论时,通过给该分类模型的学习内容Sample添加未分类内容,得到判定结果。注意,与学习内容不同,未分类内容没有添加学习标签。
图7是说明不同于图6的分类模型的生成方法的图。在图7中说明与图6的不同点,在发明的结构(或实施例的结构)中,在不同的附图中共同使用相同的附图标记来表示相同的部分或具有相同功能的部分,而省略反复说明。
在图7中,计算出m个特征向量Vlabel2的平均值Av,生成特征向量Vlabel_a。第二分类模型可以利用p个特征向量Vlabel_a生成。第二分类模型可以通过计算出m个特征向量Vlabel2的平均值Av而生成具有不同特征的分类模型。所生成的分类模型可以使内容分类更加准确。
图8是说明不同于图7的分类模型的生成方法的图。在图8中说明与图7的不同点,在发明的结构(或实施例的结构)中,在不同的附图中共同使用相同的附图标记来表示相同的部分或具有相同功能的部分,而省略反复说明。
在图8中,将用来评价m个特征向量Vlabel2的评价标准提供到评价判定部JG。例如,向评价判定部JG1作为第一评价标准提供精度(Precision),可以进行各特征向量Vlabel2(1)的评价。接着,向评价判定部JG1作为第二评价标准提供灵敏度(Sensitivity),可以进行各特征向量Vlabel2(1)的评价。评价判定部JG1输出评价结果Vlabel_b(1)。
第二分类模型利用评价结果Vlabel_b(1)至评价结果Vlabel_b(p)生成。例如,多个特征向量Vlabel2可以基于不同的第一评价标准及第二评价标准被评价,也可以基于相同的评价标准被评价。注意,虽然在图8中未图示,但是可以与图7同样地计算出基于第一评价标准及第二评价标准的评价结果Vlabel_b的平均值。
第二分类模型可以通过使用m个特征向量Vlabel2的评价结果而生成具有不同特征的分类模型。所生成的分类模型可以使内容分类更加准确。
图9是说明GUI50的图。GUI50具有内容(学习内容、未分类内容、已分类内容)的显示区域、选择包括内容的文件的下载源的图标58a、显示储存被选择的文件的地址信息的文本框58b以及执行机械学习的图标(Learning Start)59。
作为一个例子示出在显示区域上加载八个记录的例子。各记录包括号码(No)51、ID(Index)52、特征量(Feature)53、分类信息(Case)54、学习标签(JL)55、分类标签(AL)56及分数(Prob)57等构成要素。特征量53可以作为详细信息显示特征量F(1)53a至特征量F(j)53j。j是自然数。另外,分类信息54可以作为详细信息显示分类信息C(1)54a至分类信息C(4)54d。分类信息可以有能够用自然数表示的种类。
此外,图9示出在GUI50上显示由分类模型将学习内容和未分类内容分类的结果的例子。
作为一个例子,记录号码No1至No3相当于学习内容。学习内容被添加学习标签,记录号码No1至No3被添加分类信息。
记录号码No4至No8相当于已分类内容。已分类内容被添加分类标签56及分数57。在图9中,显示利用通过学习记录号码No1及记录号码No3来得到的分类模型将记录号码No4至记录号码No7分类的结果。作为一个例子,显示利用通过学习记录号码No2来得到的分类模型进行记录号码No8的分类的结果。在图9中,由于空间的关系仅显示八个记录,但是也可以处理多种记录。
但是,在处理大量的记录的情况下,在显示上有问题。因此,分类标签56或分数57优选具有排序功能。作为排序条件的一个例子,在GUI上可以选择并显示分类标签56为“Yes”的判定结果。另外,GUI可以指定并显示分数57的数值范围。当向GUI提供上述排序条件时,GUI可以将具有与添加监督数据的学习内容同样的特征的内容分类并显示。
例如,说明内容为专利号的情况。专利号被添加多个元信息。在是权利有效的专利号的情况下,作为学习标签提供“Yes”。在是专利权放弃的专利号的情况下,作为学习标签提供“No”。接着,执行机械学习生成分类模型。
上述分类模型可以给未分类内容添加判定信息。作为判定信息显示分类标签56及分数57。作为一个例子,用户利用排序功能作为分类标签56提供“No”。并且,将分数57设定为“0.8”至“1.0”。通过向GUI提供上述排序条件,GUI可以选择并显示具有与专利号被放弃的学习内容同样的特征的记录。
图10是说明不同于图9的GUI50A的图。图10是在处理大量记录时有效率的GUI的显示例子。注意,在图10中说明与图9的不同点,在发明的结构(或实施例的结构)中,在不同的附图中共同使用相同的附图标记来表示相同的部分或具有相同功能的部分,而省略反复说明。
图10的与图9的不同之处在于:可以按与任意选择的分类信息有关的记录进行分类及显示。在图10中,可以根据分类信息C(1)至分类信息C(4)的种类切换显示。
用户确认添加到记录的多个特征量53及分类模型的判定信息,得到十分的分类精度就结束分类模型的更新。在用户确认添加到记录的判定信息判断为分类精度不十分的情况下,用户给没有添加指定标签的记录添加学习标签并点击图标59,由此可以更新分类模型。此外,也可以预测学习内容所包括的元信息的随时间的变化,更新特征量53。在用户更新特征量53时,分类模型可以包括分类模型的随时间的变化。因此,用户可以得到内容的随时间的分类变化。分类模型可以将预测为价值增加的内容群和预测为价值下降的内容群分类。
虽然未图示,但是也可以改变特征量53、分类信息54a至分类信息54d、学习标签55、分类标签56或分数57所包括的数值或标签信息的显示排列顺序。或者,可以利用筛选功能按所需要的排列顺序进行排序来显示所选择的数值或标签信息。由此,用户可以高效地进行分类模型的判定结果的评价。
使用图1至图10说明的内容分类方法可以提供一种概率高的信息的分类方法。例如,GUI适合于概率高的信息的分类。程序可以在分类模型被提供新的监督数据(学习标签)时更新分类模型。程序在更新分类模型时可以进行概率高的信息分类。
并且,可以将所生成的分类模型储存在电子设备主体或外部存储器中,在新的文件分类时调用并使用。并且,在追加新的监督数据的同时,可以按照上述说明的方法更新分类模型。
以上,本实施方式所示的结构、方法可以与其他实施方式所示的结构、方法适当地组合而使用。
[符号说明]
CL1:客户端计算机、CL1n:客户端计算机、CL11:客户端计算机、CLn:客户端计算机、DB1:数据库、DB2:数据库、LAN1:通信网、LAN2:通信网、Vlabel1:特征向量、Vlabel2:特征向量、31:号码、32:内容、33:元信息、34:分类信息、35:学习标签、50:GUI、50A:GUI、51:号码、53:特征量、54:分类信息、56:分类标签、57:分数、58a:图标、58b:文本框、59:图标、100:分类***、110:GUI、111:输入部、112:输出部、120:运算部、121:数据处理部、122:学习处理部、123:判定处理部、130:存储部。

Claims (9)

1.一种内容分类方法,包括:
学习内容及内容,
其中,给所述学习内容添加第一特征量及学习标签,
给所述内容添加第二特征量,
并且,包括如下步骤:
通过机械学习利用多个所述学习内容生成多个第一分类模型的步骤;
利用所述多个第一分类模型生成第二分类模型的步骤;以及
利用所述第二分类模型给多个所述内容添加判定信息且将其显示在图形用户界面上的步骤。
2.一种内容分类方法,包括:
学习内容及内容,
其中,给所述学习内容添加第一特征量及学习标签,
给所述内容添加第二特征量,
并且,包括如下步骤:
通过机械学习利用多个所述学习内容生成多个第一分类模型的步骤;
从所述多个第一分类模型的输出计算出平均值的步骤;
利用所述多个平均值生成第二分类模型的步骤;以及
利用所述第二分类模型给多个所述内容添加判定信息且将其显示在图形用户界面上的步骤。
3.一种内容分类方法,包括:
学习内容及内容,
给所述学习内容添加第一特征量及学习标签,
给所述内容添加第二特征量,
并且,包括如下步骤:
通过机械学习利用多个所述学习内容生成多个第一分类模型的步骤;
所述多个第一分类模型中的每一个基于第一评价标准进行评价的步骤;
所述多个第一分类模型中的每一个基于第二评价标准进行评价的步骤;
根据基于多个所述第一评价标准的评价结果和基于所述第二评价标准的评价结果生成第二分类模型的步骤;以及
利用所述第二分类模型给多个所述内容添加判定信息且将其显示在图形用户界面上的步骤。
4.根据权利要求3所述的内容分类方法,
其中所述第一评价标准为精度,
并且所述第二评价标准为灵敏度。
5.根据权利要求1至3中任一项所述的内容分类方法,
包括利用任意的所述学习内容生成所述第一分类模型的步骤。
6.根据权利要求1至3中任一项所述的内容分类方法,
其中所述学习内容还被添加分类信息,
并且包括利用所述第二分类模型的输出从添加有分类标签的多个所述内容中选择包括与所述分类信息相同的所述判定信息的内容且将其显示在所述图形用户界面上的步骤。
7.根据权利要求1至3中任一项所述的内容分类方法,
其中添加到所述学习内容及所述内容的特征量为管理参数。
8.根据权利要求1至3中任一项所述的内容分类方法,
其中所述判定信息包括分类标签或分数。
9.根据权利要求8所述的内容分类方法,
包括所述图形用户界面指定所述分数中的特定数值范围并列出显示相应内容的步骤。
CN201980078452.2A 2018-12-13 2019-12-03 内容的分类方法及分类模型的生成方法 Pending CN113168421A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018-233037 2018-12-13
JP2018233037 2018-12-13
PCT/IB2019/060377 WO2020121115A1 (ja) 2018-12-13 2019-12-03 コンテンツの分類方法および分類モデルの生成方法

Publications (1)

Publication Number Publication Date
CN113168421A true CN113168421A (zh) 2021-07-23

Family

ID=71075466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980078452.2A Pending CN113168421A (zh) 2018-12-13 2019-12-03 内容的分类方法及分类模型的生成方法

Country Status (5)

Country Link
US (1) US20220027799A1 (zh)
KR (1) KR20210100613A (zh)
CN (1) CN113168421A (zh)
DE (1) DE112019006203T5 (zh)
WO (1) WO2020121115A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287136A1 (en) * 2020-03-11 2021-09-16 Synchrony Bank Systems and methods for generating models for classifying imbalanced data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7287012B2 (en) 2004-01-09 2007-10-23 Microsoft Corporation Machine-learned approach to determining document relevance for search over large electronic collections of documents
JP2008242880A (ja) * 2007-03-28 2008-10-09 Kenwood Corp コンテンツ表示システム、コンテンツ表示方法および車載用の情報端末装置
JP5733229B2 (ja) * 2012-02-06 2015-06-10 新日鐵住金株式会社 分類器作成装置、分類器作成方法、及びコンピュータプログラム
WO2014203328A1 (ja) * 2013-06-18 2014-12-24 株式会社日立製作所 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
KR20210100613A (ko) 2021-08-17
US20220027799A1 (en) 2022-01-27
DE112019006203T5 (de) 2021-09-02
WO2020121115A1 (ja) 2020-06-18
JPWO2020121115A1 (zh) 2020-06-18

Similar Documents

Publication Publication Date Title
WO2020207196A1 (zh) 用户标签生成方法、装置、存储介质和计算机设备
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
JP7043786B2 (ja) 営業活動支援システム、営業活動支援方法および営業活動支援プログラム
US10692017B2 (en) Systems and methods for predictive document coding using continuous active machine learning
US20090164416A1 (en) Adaptive data classification for data mining
CN110705719A (zh) 执行自动机器学习的方法和装置
Olorunnimbe et al. Dynamic adaptation of online ensembles for drifting data streams
Bureva et al. Generalized net of cluster analysis process using STING: a statistical information grid approach to spatial data mining
US20220351004A1 (en) Industry specific machine learning applications
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
CN113168421A (zh) 内容的分类方法及分类模型的生成方法
CN117171403A (zh) 数据处理方法、装置、计算机设备和存储介质
Huang et al. Rough set theory: a novel approach for extraction of robust decision rules based on incremental attributes
CN117312657A (zh) 金融应用的异常功能定位方法、装置、计算机设备和介质
Mousin et al. Feature selection using tabu search with learning memory: learning Tabu Search
CN117038074A (zh) 基于大数据的用户管理方法、装置、设备及存储介质
JPWO2020099986A1 (ja) コンテンツの分類方法
Olorunnimbe et al. Intelligent adaptive ensembles for data stream mining: a high return on investment approach
Chen et al. Using granular computing model to induce scheduling knowledge in dynamic manufacturing environments
CN111784069B (zh) 用户偏好预测方法、装置、设备及存储介质
Jishag et al. Automated review analyzing system using sentiment analysis
Correia et al. Dataset morphing to analyze the performance of collaborative filtering
Chen et al. Customer segmentation and classification from blogs by using data mining: an example of VOIP phone
CN114519406B (zh) 工业数据的分类方法及其模型训练方法、装置
Santana-Morales et al. Predicting insurance claims through a variety of data mining techniques: facing lots of missing values and moderate class-imbalanced levels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination