CN108763242B - 标签生成方法及装置 - Google Patents
标签生成方法及装置 Download PDFInfo
- Publication number
- CN108763242B CN108763242B CN201810255380.1A CN201810255380A CN108763242B CN 108763242 B CN108763242 B CN 108763242B CN 201810255380 A CN201810255380 A CN 201810255380A CN 108763242 B CN108763242 B CN 108763242B
- Authority
- CN
- China
- Prior art keywords
- conference
- label
- preset
- probability
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012360 testing method Methods 0.000 claims description 71
- 238000012549 training Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种标签生成方法及装置。其中,该方法包括:采集预设会议的多个特征信息,其中,特征信息是根据预设会议的会议内容得到的;对多个特征信息进行分析,得到预设会议在多个标签类别中每个标签类别下的概率;根据预设会议在多个标签类别中每个标签类别下的概率,生成与预设会议对应的标签。
Description
技术领域
本发明涉及文件处理技术领域,具体而言,涉及一种标签生成方法及装置。
背景技术
相关技术,在文件***中,用户可以给文件打上相关的标签,方便快速找到对应的文件或链接。但是这种通过标签查找文件的方式,缺乏自动生成标签功能,每次都需要用户手动输入对应的标签标记,这样就需要用户多次生成文件标签,用户根据该生成标签查找对应的文件效率较低。另外,在相关会议平板或教育平板中,若存在很多文件,想要翻查相关内容的文件相当麻烦,例如,若按文件名查找相关文件,用户需记住对应的文件的几个关键词,但会议平板和教育平板并不是每天都用到,容易遗忘关键词,这样就会导致无法查找文件,并且查找文件速度较慢;或者,当用户想找出某个相关的会议文件时,往往需要回忆起会议内容,根据会议内容反向回想会议日期、开会情景等线索,以找出对应的文件,但这种反向寻找的方法十分耗时,不易找到想要的文件,查找会议内容效率也是很低的,这样就会造成用户查找文件的体验感下降。
针对上述的相关技术中无法自动生成标签,导致用户查找文件效率低,用户体验感下降的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种标签生成方法及装置,以至少解决相关技术中无法自动生成标签,导致用户体验感下降的技术问题。
根据本发明实施例的一个方面,提供了一种标签生成方法,包括:采集预设会议的多个特征信息,其中,所述特征信息是根据所述预设会议的会议内容得到的;对所述多个特征信息进行分析,得到所述预设会议在多个标签类别中每个标签类别下的概率;根据所述预设会议在多个标签类别中每个标签类别下的概率,生成与所述预设会议对应的标签。
进一步地,在采集预设会议的多个特征信息之前,包括:获取多次会议所产生的历史文件数据,其中,所述历史文件数据为根据多次会议生成的特征信息,所述历史文件数据至少包括:会议文件大小、会议特征、会议时长、会议人员数量、会议工具使用信息;对每次会议所产生的历史文件数据进行过滤,得到待训练数据;对所述待训练数据进行分类,得到待训练数据集和待测试数据集;根据所述待训练数据集,确定所述待训练数据集中每个会议特征在多个标签类别中每个标签类别下的概率;根据所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对所述待测试数据集进行分类,得到测试分类结果;根据所述测试分类结果和所述待测试数据的准确分类结果进行对比,得到目标训练结果;根据多个所述目标训练结果,确定预设分类器。
进一步地,根据所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对所述待测试数据集进行分类,得到测试分类结果包括:获取所述待训练数据集中每个会议特征的权重值;根据所述待训练数据集中每个会议特征的权重值和所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,确定所述得到测试分类结果。
进一步地,获取所述待训练数据集中每个会议特征的权重值包括:获取会议工具使用信息;根据所述会议工具使用信息,确定与会议工具相关的会议特征;根据与会议工具相关的会议特征,确定与会议工具使用信息相关的会议特征的权重值。
进一步地,在确定预设分类器之后,所述方法还包括:将所述待测试数据集输入至所述预设分类器中;获取目标测试结果,其中,所述目标测试结果是利用所述预设分类器根据所述待测试数据和所述目标训练结果得到的;计算所述目标测试结果的准确率和召回率;根据所述目标测试结果的准确率和召回率,确定所述预设分类器的分类结果。
进一步地,在确定所述预设分类器的分类结果之后,所述方法还包括:根据所述预设分类器的分类结果,调整所述预设分类器的标签生成参数,其中,所述标签生成参数为预设分类器根据会议的特征信息确定与会议对应的标签的参数。
进一步地,对所述多个特征信息进行分析,得到所述预设会议在多个标签类别中每个标签类别下的概率包括:将所述多个特征信息输入至预设分类器,其中,所述预设分类器用于确定每个特征信息在多个标签中每个标签类别下的概率;根据所述预设分类器确定每个特征信息在多个标签中每个标签类别下的概率。
进一步地,根据所述预设会议在多个标签类别中每个标签类别下的概率,生成与所述预设会议对应的标签包括:对多个标签类别中每个标签类别下的概率进行排序;根据预设阈值,选择预设数量的标签类别;根据所述预设数量的标签类别,生成与所述预设会议对应的标签。
进一步地,在生成与所述预设会议对应的标签之后,所述方法还包括:将与所述预设会议对应的标签发送至显示面板中;接收用户反馈信息,其中,所述用户反馈信息至少包括下述之一:用户选择生成的标签、用户自定义标签;根据所述用户反馈信息,调整标签生成参数。
根据本发明实施例的另一方面,还提供了一种标签生成装置,包括:采集单元,用于采集预设会议的多个特征信息,其中,所述特征信息是根据所述预设会议的会议内容得到的;分析单元,用于对所述多个特征信息进行分析,得到所述预设会议在多个标签类别中每个标签类别下的概率;生成单元,用于根据所述预设会议在多个标签类别中每个标签类别下的概率,生成与所述预设会议对应的标签。
进一步地,所述装置还包括:第一获取单元,用于在采集预设会议的多个特征信息之前,获取多次会议所产生的历史文件数据,其中,所述历史文件数据为根据多次会议生成的特征信息,所述历史文件数据至少包括:会议文件大小、会议特征、会议时长、会议人员数量、会议工具使用信息;过滤单元,用于对每次会议所产生的历史文件数据进行过滤,得到待训练数据;第一分类单元,用于对所述待训练数据进行分类,得到待训练数据集和待测试数据集;第一确定单元,用于根据所述待训练数据集,确定所述待训练数据集中每个会议特征在多个标签类别中每个标签类别下的概率;第二分类单元,用于根据所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对所述待测试数据集进行分类,得到测试分类结果;对比单元,用于根据所述测试分类结果和所述待测试数据的准确分类结果进行对比,得到目标训练结果;第二确定单元,用于根据多个所述目标训练结果,确定预设分类器。
进一步地,所述第二分类单元包括:第一获取模块,用于获取所述待训练数据集中每个会议特征的权重值;第一确定模块,用于根据所述待训练数据集中每个会议特征的权重值和所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,确定所述得到测试分类结果。
进一步地,所述第一获取模块包括:第一获取子模块,用于获取会议工具使用信息;根据所述会议工具使用信息,确定与会议工具相关的会议特征;第一确定子模块,用于根据与会议工具相关的会议特征,确定与会议工具使用信息相关的会议特征的权重值。
进一步地,所述装置还包括:输入单元,用于在确定预设分类器之后,将所述待测试数据集输入至所述预设分类器中;第二获取单元,用于获取目标测试结果,其中,所述目标测试结果是利用所述预设分类器根据所述待测试数据和所述目标训练结果得到的;计算所述目标测试结果的准确率和召回率;第三确定单元,用于根据所述目标测试结果的准确率和召回率,确定所述预设分类器的分类结果。
进一步地,所述装置还包括:第一调整单元,用于在确定所述预设分类器的分类结果之后,根据所述预设分类器的分类结果,调整所述预设分类器的标签生成参数,其中,所述标签生成参数为预设分类器根据会议的特征信息确定与会议对应的标签的参数。
进一步地,分析单元包括:输入子模块,用于将所述多个特征信息输入至预设分类器,其中,所述预设分类器用于确定每个特征信息在多个标签中每个标签类别下的概率;第二确定子模块,用于根据所述预设分类器确定每个特征信息在多个标签中每个标签类别下的概率。
进一步地,所述生成单元包括:排序模块,用于对多个标签类别中每个标签类别下的概率进行排序;选择模块,用于根据预设阈值,选择预设数量的标签类别;生成模块,用于根据所述预设数量的标签类别,生成与所述预设会议对应的标签。
进一步地,所述装置还包括:发送单元,用于在生成与所述预设会议对应的标签之后,将与所述预设会议对应的标签发送至显示面板中;接收单元,用于接收用户反馈信息,其中,所述用户反馈信息至少包括下述之一:用户选择生成的标签、用户自定义标签;第二调整单元,用于根据所述用户反馈信息,调整标签生成参数。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的标签生成方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的标签生成方法。
在本发明实施例中,可以先采集预设会议的多个特征信息,并对多个特征信息中的每个特征信息进行分析,确定出预设会议在多个标签类别中每个标签类别下的概率,然后可以根据每个标签类别的概率,生成与预设会议对应的标签。在该实施例中,可以在采集到预设会议的特征信息后,确定会议在标签类别下的概率,从而根据确定出的概率,生成会议标签,用户可以根据生成的标签进行文件查找,由于生成的标签与预设会议的相关概率较高,可以方便对会议的文件进行查找,进而解决相关技术中无法自动生成标签,导致用户体验感下降的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的标签生成方法的流程图;
图2是根据本发明实施例的一种可选的标签生成方法的流程图;
图3是根据本发明实施例的标签生成装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于用户理解本发明,下面对本发明实施例中涉及的部分术语或者名称做出解释:
决策树分类器,由边和点构成的决策树,可以通过监督学习,训练生成的决策树作为分类器用于新样本的分类决策,因为决策树的生成可能会产生过拟合,需要提前停止树的生成或剪枝来解决。
贝叶斯分类器,是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。分为两个阶段,包括构造分类器和对分类数据进行分类,其中,构造分类器时,从样本数据中构造分类器。
根据本发明实施例,提供了一种标签生成的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
以下实施例可以应用于各种标签生成方案中,应用于的范围和场景不做具体限定,例如,可以应用于对会议的标签生成中,对会议进行特征提取,以确定预议的类型和重要度。其中,本发明中对会议的类型不做具体限定,可以包括但不限于:讨论会议、头脑风暴会议、生日会议等,其中,有的会议属于封闭性会议,有的会议属于开放型会议。本发明中对于不同的会议,设置对应的级别,例如,头脑风暴属于第一级别,即最重要的会议,讨论会议属于第二级别,其重要度低于头脑风暴,生日会议属于第三级别,属于较低级别的会议。本发明中的头脑风暴可以是指不同公司的负责人就不同议题进行封闭式讨论。本发明中对于每一级别的具体会议有具体区分,在确定会议标签后,根据会议标签和标签所属类别,确定会议级别。
本发明中可以先确定出分类器,以对最新采集的预设会议对应的多个特征信息进行标签类别分类,确定出预设会议在每个标签类别下的概率,从而确定出与该会议对应的标签。下述实施例中可以通过对特征信息的概率确定,预测生成会议对应的标签,可以利用不同的机器学习算法对标签类别进行分类,并可以根据输入的特征信息,输出对应的标签类别概率,方便生成标签,从而利用不同的标签分类计算方法对标签进行归类和预测。
下面结合优选的实施步骤对本发明进行说明,图1是根据本发明实施例的标签生成方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,采集预设会议的多个特征信息,其中,特征信息是根据预设会议的会议内容得到的。
其中,上述的预设会议可以不同类型的会议,不同的会议所使用的文件不同(如使用PPT、word文件不同)、讨论的议题不同、参加的人数也可能不同。本发明中对于具体的会议不做限定,例如,讨论会议,风暴会议,生日会议等,其中对于不同会议,会存在不同的会议信息,该会议信息可以包括但不限于:会议开始时间、会议结束时间、会议议题、会议参加人员、会议参加人员数量、会议使用的文件、会议所要达到的结果、会议过程中的讲话内容等。在每一次会议过程中,都会产生不同的会议信息,本发明中可以对每一次会议过程中的会议内容进行采集,重点对会议过程中的会议特征、会议文件进行采集,确定出会议文件大小、会议文件创建时间、会议标签等信息。
每一次会议可能使用不同的会议文件,因此获取到的会议内容和会议特征信息也会出现不同。另外,本发明中还可以利用会议过程中使用的各种会议工具进行会议信息采集,该会议工具可以包括但不限于:会议平板、会议笔等。通过会议工具可以得到更准确的预设会议的特征信息,如开会人员在会议过程中通过会议工具记录的会议关键词,或者,会议讲话人员通过会议平板展示的会议文件(如通过PPT展示讨论主题),这样就可以利用会议工具记录对应会议的特征信息。其中,利用会议工具记录的会议信息可以包括但不限于:会议文件大小、会议时长、会议人员自定义的会议标签、使用的会议工具、使用会议工具的频次。通过会议工具记录的会议内容,和上述会议人员记录的会议内容,可以得到较为准确的预设会议的特征信息。
本发明中的预设会议的特征信息,可以是会议过程中记录的每次会议的相关属性特征信息,该特征信息可以是会议人员通过会议工具记录的会议关键词或者会议文件信息,也可以包括上述的会议信息,如会议起始时间、会议时长、会议文件名、会议工具等。例如,在一次讨论“北京旅游”的会议中,特征信息可以包括多种类型的内容,如包括北京的景点。
对于上述步骤,在采集预设会议的多个特征信息之前,包括:获取多次会议所产生的历史文件数据,其中,历史文件数据为根据多次会议生成的特征信息,历史文件数据至少包括:会议文件大小、会议特征、会议时长、会议人员数量、会议工具使用信息;对每次会议所产生的历史文件数据进行过滤,得到待训练数据;对待训练数据进行分类,得到待训练数据集和待测试数据集;根据待训练数据集,确定待训练数据集中每个会议特征在多个标签类别中每个标签类别下的概率;根据待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对待测试数据集进行分类,得到测试分类结果;根据测试分类结果和待测试数据的准确分类结果进行对比,得到目标训练结果;根据多个目标训练结果,确定预设分类器。
上述的预设分类器可以包括多种分类器,包括但不限于:贝叶斯分类器、决策树分类器、逻辑回归分类器、神经网络分类器等,本发明实施例中通过贝叶斯分类器对本发明进行说明。即可以在使用预设分类器之前,构造并训练预设分类器,在构造过程中,可以先采集历史过程中的每次会议对应的历史文件数据、提取的会议特征信息、确定的会议标签和会议标签类别,从而根据采集到的会议信息,确定预设分类器。其中,在采集到历史文件数据后,可以对文件数据先进行过滤,包括过滤异常数据、误触数据,使得采集到的数据满足预设分类器输入数据的要求。在建立预设分类器过程中,可以先对过滤后的历史文件数据进行划分,得到预设份数(如K份)的待训练数据,然后根据划分的训练数据,确定待训练数据集和待测试数据集,对随机划分后的数据集,取其中一份作为待测试数据集,其他作为待训练数据集,每次训练时,从多份训练数据中取一份作为待测试数据集,每份数据仅被作为一次待测试数据集。例如,将待训练数据分为20份,可以确定其中一份为待测试数据集,该待测试数据集可以用于在构建预设分类器后,对预设分类器进行测试使用。而其它的19份作为待训练数据集,以用于构建预设分类器。当然,在分类过程中,每一份数据都可以循环作为一个待测试数据集,其它作为待训练数据集,例如,将数据集划分为N份,分别为D1,D2,D3,…,Dn,其中选取子集D1作为测试集,剩余的N-1份作为训练集,通过分类后得到一次分类的实验结果。第二次,选取子集D2作为测试集,剩余的N-1份作为训练集来构建模型;重复这个步骤,直到所有的子集都仅被用于作为一次测试集,这样就可以建立N-1次预设分类器,在通过测试集测试后,可以选出效率最高、使用效果最好的一个预设分类器。
其中,在根据多个目标训练结果,确定预设分类器时,可以根据训练的总次数,确定多个目标训练结果,如将数据划分为K份,则可以得到K个目标训练结果,根据每个目标训练结果都可以得到一个分类器,即可以得到K个分类器,然后根据每个分类器确定出的分类器预测会议对应的标签的结果和实际结果中确定的标签进行对比,准确率较高和分类效果最好的分类器作为预设分类器。然后可以将该预设分类器应用于确定会议对应的标签工作中。
在建立预设分类器时,可以将待训练数据集输入至分类器中,计算出会议在每个标签类别下出现的概率,例如,会议标签类别分为A、B、C,其中,一次会议中,在标签类别A出现的概率0.3,标签类别B出现的概率0.1,标签类别C出现概率0.1,另外,会议特征a1出现在A下的概率为0.3,a2出现在A下的概率为0.1。
另外,根据待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对待测试数据集进行分类,得到测试分类结果包括:获取待训练数据集中每个会议特征的权重值;根据待训练数据集中每个会议特征的权重值和待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,确定得到测试分类结果。
对于上述实施方式,获取待训练数据集中每个会议特征的权重值包括:获取会议工具使用信息;根据会议工具使用信息,确定与会议工具相关的会议特征;根据与会议工具相关的会议特征,确定与会议工具使用信息相关的会议特征的权重值。
该会议特征的权重值可以是针对采集的特征信息中的特征设置的权重值,例如,对于会议工具相关的特征,可以赋予一定的权重值,根据会议特征的权重值,得到与会议的标签的训练结果,并进一步得到测试分类结果,从而确定目标训练结果。
可选的,本发明中可以对各个会议工具设置权重,即不同的会议工具记录的内容的重要度不同,例如会议工具A的权重为0.6,会议工具B的权重为0.4。根据会议工具记录的会议特征,结合会议标签类别的概率,确定出标签。而在验证预设分类器过程中,可以调整设置的会议工具的权重,例如,在一次会议工具使用过程中,选取会议工具B的特征对应的标签,则可以提高会议工具B的权重,如由0.4调整为0.45,在下次生成标签的过程中,可以参考会议工具的权重,生成标签。
其中,在确定预设分类器之后,还包括:将待测试数据集输入至预设分类器中;获取目标测试结果,其中,目标测试结果是利用预设分类器根据待测试数据和目标训练结果得到的;计算目标测试结果的准确率和召回率;根据目标测试结果的准确率和召回率,确定预设分类器的分类结果。
其中,准确率是指,每次训练完数据集之后,对预测结果进行统计,预测正确的测试集样本数占总的测试集样本数的比例。如对某个会议样本数据集进行分类预测,对每个样本都得到一个标签,将这些预测出的标签和真实选择的标签进行比较。预测正确的数量占总的测试样本数的比例,越高,即准确率越高。而召回率是指,每次训练完数据集之后,对预测结果进行统计,预测正确的测试集样本数占应该被正确预测的样本总数。如某个会议样本数据集,有10个会议样本标签是环境,经过算法运行得到正确预测为环境标签的会议样本有6个,其中4个应该被预测为环境标签的样本被错误地预测成其他的标签,因此对该数据集中环境类别的会议样本,其召回率为6/10=0.6。通过计算准确率和召回率,可以验证分类器的分类效果。
可选的,在确定预设分类器的分类结果之后,还包括:根据预设分类器的分类结果,调整预设分类器的标签生成参数,其中,标签生成参数为预设分类器根据会议的特征信息确定与会议对应的标签的参数。
即可以通过待测试数据集对预设分类器进行测试,以选出最好的预设分类器。并且,在测试过程中还可以调整标签生成参数,以用于后续在输入最新的特征信息时,输出较为准确的标签。
步骤S104,对多个特征信息进行分析,得到预设会议在多个标签类别中每个标签类别下的概率。
通过上述步骤,可以对预设会议中的特征信息进行分析,从而确定出每个特征信息在每个标签类别下的概率。其中,在确定时可以是先确定预设会议的多个特征信息,得到预设会议在多个标签类别中每个标签类别下的概率时,可以通过先确定每个特征信息在多个特征范围中每个特征范围所确定的标识数值,从而根据该标识数值和特征信息在每个标签类别下的概率,确定该次预设会议在每个标签类别下的概率。对于特征范围可以是划分特征信息的范围,标识数值可以是标识特征信息的数值,例如,标识数值为1或0,例如,特征信息为“会议时长”,会议时长分为0至3小时范围,0至2小时范围,0至1小时范围,0至半小时范围,然后,在获取特征信息,确定该次预设会议的会议时长为20分钟,会议时长在0至半小时范围内,这时可以将0至半小时范围的标识数值设置为1,其他会议时长的特征范围的标识数值为0。然后可以根据特征信息的标识数值和历史会议特征信息,确定该次会议在每个标签类别下的概率,如,对于头脑风暴,会议时长在0至半小时范围内的次数为3次,头脑风暴共6次,则确定预设会议时长的特征信息对应的会议属于头脑风暴的概率为0.5,然后结合特征信息在标签范围的标识数值,确定会议在每个标签类别下的概率。
本发明在得到一次会议的多个特征信息后,可以预先对特征信息进行预处理,该预处理可以是对特征信息中的异常数据和误触数据进行过滤,并对过滤后的数据进行处理,以使其满足预设分类器的要求,通过分类器可以根据输入至预设分类器的特征信息,得到每个特征信息在多个标签类别中每个标签下的概率。其中,异常数据可以是特征信息中与预设会议不相关,也与常见的数据有明显差异,如在一次会议后,采集到会议文件大小、创建文件时间、会议时长、用户对该次会的自定义标签、会议工具、使用工具频次,这里的数据包括时间数据和文件数据,并不会出现负数,但是,在采集到的数据中存在-123,则可以定义该数据为异常数据。而对于误触数据,可以是指用户不小心碰到按键或者应用后产生的数据,如特征信息中采集到预设会议打开多个应用APP,而其中存在一个打开只有两秒的应用APP,这时可以判断该应用APP,会议人员并没有使用,是不小心打开的,可以确定其为误触数据。
其中,上述步骤中对多个特征信息进行分析,得到预设会议在多个标签类别中每个标签类别下的概率可以包括:将多个特征信息输入至预设分类器,其中,预设分类器用于确定每个特征信息在多个标签中每个标签类别下的概率;根据预设分类器确定每个特征信息在多个标签中每个标签类别下的概率。即可以通过预设分类器确定出预设会议在每个标签类别下的概率。
可选的,本发明中的标签类别可以是用户预先定义的多个标签类别,例如,以会议类型为例,标签类别可以包括但不限于:普通会议、头脑风暴会议、生日会议、闭路会议、临时会议等。
步骤S106,根据预设会议在多个标签类别中每个标签类别下的概率,生成与预设会议对应的标签。
其中,根据每个标签类别的概率,生成与预设会议对应的标签包括:对多个标签类别中每个标签类别下的概率进行排序;根据预设阈值,选择预设数量的标签类别;根据预设数量的标签类别,生成与预设会议对应的标签。
即可以在得到会议在每个标签类别下的概率后,先对概率数值进行排序,在排序时,可以将概率较高的标签类别排在前边。上述的预设阈值,可以是针对标签类别的概率的预设阈值,如75%、70%。即可以选出大于预设阈值的标签类别,预设数量可以是根据预设阈值确定的,并不做具体限定,例如,在75%以上的标签类别有5个,预设数量可以3,则可以选择三个标签类别。
在选择预设数量的标签类别后,可以生成标签,在生成标签过程中,可以是将预设数量的标签类别直接作为标签,并不需要其他的步骤。当然,也可以是根据多个标签类别,确定一个标签,例如从三个标签类别中选择一个标签类别作为预设会议的标签。
对于上述实施方式,其还可以包括:将与预设会议对应的标签发送至显示面板中;接收用户反馈信息,其中,用户反馈信息至少包括下述之一:用户选择生成的标签、用户自定义标签;根据用户反馈信息,调整标签生成参数。
即可以将标签发送至用户使用的显示面板中,用户在看到标签后,可以直接根据该生成标签进行文件选择,当然,若用户对生成的标签不满意,也可以直接自定义标签。在面板接收到用户反馈信息后,可以调整标签生成参数,如对于用户直接选择生成的标签,则表示该次生成的标签符合预设会议的标签,令用户比较满意,确定这次使用预设分类器生成的标签是正确的。而用户自定义标签,则表示该次生成的标签与用户期待的内容不相符合,该次生成的标签不好,这时可以根据用户自定义标签,调整预设分类器生成标签的参数,以用于后续更好地生成标签。
通过上述步骤,可以先采集预设会议的多个特征信息,并对多个特征信息中的每个特征信息进行分析,确定出预设会议在多个标签类别中每个标签类别下的概率,然后可以根据每个标签类别的概率,生成与预设会议对应的标签。在该实施例中,可以在采集到预设会议的特征信息后,确定会议在标签类别下的概率,从而根据确定出的概率,生成会议标签,用户可以根据生成的标签进行文件查找,由于生成的标签与预设会议的相关概率较高,可以方便对会议的文件进行查找,进而解决相关技术中无法自动生成标签,导致用户体验感下降的技术问题。
下面结合另一种实施例对本发明进行说明。
下述实施例中的预设分类器可以是贝叶斯分类器,在使用贝叶斯分类器生成标签之前,可以先生成贝叶斯分类器,具体生成方案如下:
根据会议平板现时的使用情况,收集用户每次会议所产生的会议文件大小、创建时间、时长、自定义标签数据,以及使用了何种小工具、小工具的使用时长、使用频次等数据。
针对收集到的数据进行数据预处理,过滤异常数据和误触数据,并对过滤后的数据进行处理,使其满足贝叶斯分类器的数据输入要求。
将第一阶段获得的数据集随机分k份,其中k-1份作训练集,剩下1份作为测试集,每次训练时都从k份中选取1份作为测试集,每份数据仅被作为一次测试集。
输入上述获得的训练集数据,计算每个会议标签类别出现的概率P(yi),以及在对应会议标签类别yi出现的前提下,每个特征属性的概率。并对与小工具相关的特征,赋予一定的权重,并记录相关的训练结果,生成贝叶斯分类器;
使用第二步获得的贝叶斯分类器,输入测试集数据,计算测试结果的准确率和召回率,验证分类器效果。并调整设置的小工具的权重;
重复上述步骤k次,选取分类效果最佳的一个分类器,并应用该分类器中对会议小工具设置的权重。
其中,在建立分类器后,可以根据下述步骤生成该次会议对应的标签。
图2是根据本发明实施例的一种可选的标签生成方法的流程图,如图2所示,该方法包括如下步骤:
步骤S201,用户会议结束,保存会议文件。会议结束后,用户保存某个文件。
步骤S202,记录该次会议的相关属性特征。
其中,相关属性特征可以包括会议起始时间、时长、会议文件名、会议小工具使用状态等。
步骤S203,文件数据预处理。即可以对记录的该次会议产生的相关属性特征进行数据预处理。
步骤S204,判断贝叶斯分类器是否初始化。
若是,执行步骤S205,若否,执行步骤S206。
步骤S205,将会议数据输入至贝叶斯分类器,计算该次会议的生成的标签概率。
步骤S206,初始化贝叶斯分类器。
步骤S207,根据计算结果选择概率超出预设阈值的目标标签。
在选择标签后,可以将标签呈现给用户,以让用户选择标签。
步骤S208,判断用户是否选择目标标签。
若是,执行步骤S210,若否,执行步骤S209。
步骤S209,用户自定义标签。
步骤S210,根据用户反馈信息调整分类器生成标签参数。其中,用户反馈信息可以包括:用户选择目标标签、用户自定义标签。
相关文件***中,在存在大量文件时,往往需要根据文件名、文件时间等条件进行搜索,或自定义文件标签增加搜索的便捷性,而本方案采用朴素贝叶斯分类的方法,根据用户的使用记录及现有会议平板(Maxhub)特有的会议小工具的相关特征自动预测并生成相关的文件标签,减少了用户自定义标签的麻烦,并且增加了文件搜索的便捷性。
本实施例中在贝叶斯分类器中加入了现有会议平板(Maxhub)特有的会议小工具特征,并对其设置了一定的权重,有助于提升分类效果,相对于从普通文件中获取特征进行标签预测生成有着明显的优势。
本实施例除了应用贝叶斯分类器进行文件标签的预测生成外,还可以利用其他的机器学习算法进行分类,或通过其他机器学习相关的方法(如聚类)对标签进行归类或预测。
图3是根据本发明实施例的标签生成装置的示意图,如图3所示,该装置可以包括:采集单元31,用于采集预设会议的多个特征信息,其中,特征信息是根据预设会议的会议内容得到的;分析单元33,用于对多个特征信息进行分析,得到预设会议在多个标签类别中每个标签类别下的概率;生成单元35,用于根据预设会议在多个标签类别中每个标签类别下的概率,生成与预设会议对应的标签。
在本发明上述实施例中,可以先通过采集单元31采集预设会议的多个特征信息,并通过分析单元33对多个特征信息中的每个特征信息进行分析,确定出预设会议在多个标签类别中每个标签类别下的概率,然后可以根据每个标签类别的概率,通过生成单元35生成与预设会议对应的标签。在该实施例中,可以在采集到预设会议的特征信息后,确定会议在标签类别下的概率,从而根据确定出的概率,生成会议标签,用户可以根据生成的标签进行文件查找,由于生成的标签与预设会议的相关概率较高,可以方便对会议的文件进行查找,进而解决相关技术中无法自动生成标签,导致用户体验感下降的技术问题。
可选的,上述的装置还可以包括:第一获取单元,用于在采集预设会议的多个特征信息之前,获取多次会议所产生的历史文件数据,其中,历史文件数据为根据多次会议生成的特征信息,历史文件数据至少包括:会议文件大小、会议特征、会议时长、会议人员数量、会议工具使用信息;过滤单元,用于对每次会议所产生的历史文件数据进行过滤,得到待训练数据;第一分类单元,用于对待训练数据进行分类,得到待训练数据集和待测试数据集;第一确定单元,用于根据待训练数据集,确定待训练数据集中每个会议特征在多个标签类别中每个标签类别下的概率;第二分类单元,用于根据待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对待测试数据集进行分类,得到测试分类结果;对比单元,用于根据测试分类结果和待测试数据的准确分类结果进行对比,得到目标训练结果;第二确定单元,用于根据多个目标训练结果,确定预设分类器。
另外,上述的第二分类单元包括:第一获取模块,用于获取待训练数据集中每个会议特征的权重值;第一确定模块,用于根据待训练数据集中每个会议特征的权重值和待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,确定得到测试分类结果。
其中,第一获取模块包括:第一获取子模块,用于获取会议工具使用信息;根据会议工具使用信息,确定与会议工具相关的会议特征;第一确定子模块,用于根据与会议工具相关的会议特征,确定与会议工具使用信息相关的会议特征的权重值。
对于上述实施例中的还包括:输入单元,用于在确定预设分类器之后,将待测试数据集输入至预设分类器中;第二获取单元,用于获取目标测试结果,其中,目标测试结果是利用预设分类器根据待测试数据和目标训练结果得到的;计算目标测试结果的准确率和召回率;第三确定单元,用于根据目标测试结果的准确率和召回率,确定预设分类器的分类结果。
可选的,上述装置还包括:第一调整单元,用于在确定预设分类器的分类结果之后,根据预设分类器的分类结果,调整预设分类器的标签生成参数,其中,标签生成参数为预设分类器根据会议的特征信息确定与会议对应的标签的参数。
需要说明的是,分析单元33包括:输入子模块,用于将多个特征信息输入至预设分类器,其中,预设分类器用于确定每个特征信息在多个标签中每个标签类别下的概率;第二确定子模块,用于根据预设分类器确定每个特征信息在多个标签中每个标签类别下的概率。
其中,生成单元35包括:排序模块,用于对多个标签类别中每个标签类别下的概率进行排序;选择模块,用于根据预设阈值,选择预设数量的标签类别;生成模块,用于根据预设数量的标签类别,生成与预设会议对应的标签。
可选的,装置还包括:发送单元,用于在生成与预设会议对应的标签之后,将与预设会议对应的标签发送至显示面板中;接收单元,用于接收用户反馈信息,其中,用户反馈信息至少包括下述之一:用户选择生成的标签、用户自定义标签;第二调整单元,用于根据用户反馈信息,调整标签生成参数。
上述的标签生成装置还可以包括处理器和存储器,上述采集单元31、分析单元33、生成单元35等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数对会议过程中的预设会议的特征信息进行采集,以分析出对应于预设会议的标签,方便用户通过标签查找会议文件。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的标签生成方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的标签生成方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:采集预设会议的多个特征信息,其中,特征信息是根据预设会议的会议内容得到的;对多个特征信息进行分析,得到预设会议在多个标签类别中每个标签类别下的概率;根据预设会议在多个标签类别中每个标签类别下的概率,生成与预设会议对应的标签。
可选地,上述处理器执行程序时,还可以获取多次会议所产生的历史文件数据,其中,历史文件数据为根据多次会议生成的特征信息,历史文件数据至少包括:会议文件大小、会议特征、会议时长、会议人员数量、会议工具使用信息;对每次会议所产生的历史文件数据进行过滤,得到待训练数据;对待训练数据进行分类,得到待训练数据集和待测试数据集;根据待训练数据集,确定待训练数据集中每个会议特征在多个标签类别中每个标签类别下的概率;根据待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对待测试数据集进行分类,得到测试分类结果;根据测试分类结果和待测试数据的准确分类结果进行对比,得到目标训练结果;根据多个目标训练结果,确定预设分类器。
可选地,上述处理器执行程序时,还可以获取待训练数据集中每个会议特征的权重值;根据待训练数据集中每个会议特征的权重值和待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,确定得到测试分类结果。
可选地,上述处理器执行程序时,还可以获取会议工具使用信息;根据会议工具使用信息,确定与会议工具相关的会议特征;根据与会议工具相关的会议特征,确定与会议工具使用信息相关的会议特征的权重值。
可选地,上述处理器执行程序时,还可以将待测试数据集输入至预设分类器中;获取目标测试结果,其中,目标测试结果是利用预设分类器根据待测试数据和目标训练结果得到的;计算目标测试结果的准确率和召回率;根据目标测试结果的准确率和召回率,确定预设分类器的分类结果。
可选地,上述处理器执行程序时,还可以根据预设分类器的分类结果,调整预设分类器的标签生成参数,其中,标签生成参数为预设分类器根据会议的特征信息确定与会议对应的标签的参数。
可选地,上述处理器执行程序时,还可以将多个特征信息输入至预设分类器,其中,预设分类器用于确定每个特征信息在多个标签中每个标签类别下的概率;根据预设分类器确定每个特征信息在多个标签中每个标签类别下的概率。
可选地,上述处理器执行程序时,还可以对多个标签类别中每个标签类别下的概率进行排序;根据预设阈值,选择预设数量的标签类别;根据预设数量的标签类别,生成与预设会议对应的标签。
可选地,上述处理器执行程序时,还可以将与预设会议对应的标签发送至显示面板中;接收用户反馈信息,其中,用户反馈信息至少包括下述之一:用户选择生成的标签、用户自定义标签;根据用户反馈信息,调整标签生成参数。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:采集预设会议的多个特征信息,其中,特征信息是根据预设会议的会议内容得到的;对多个特征信息进行分析,得到预设会议在多个标签类别中每个标签类别下的概率;根据预设会议在多个标签类别中每个标签类别下的概率,生成与预设会议对应的标签。
可选地,上述数据处理设备执行程序时,还可以获取多次会议所产生的历史文件数据,其中,历史文件数据为根据多次会议生成的特征信息,历史文件数据至少包括:会议文件大小、会议特征、会议时长、会议人员数量、会议工具使用信息;对每次会议所产生的历史文件数据进行过滤,得到待训练数据;对待训练数据进行分类,得到待训练数据集和待测试数据集;根据待训练数据集,确定待训练数据集中每个会议特征在多个标签类别中每个标签类别下的概率;根据待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对待测试数据集进行分类,得到测试分类结果;根据测试分类结果和待测试数据的准确分类结果进行对比,得到目标训练结果;根据多个目标训练结果,确定预设分类器。
可选地,上述数据处理设备执行程序时,还可以获取待训练数据集中每个会议特征的权重值;根据待训练数据集中每个会议特征的权重值和待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,确定得到测试分类结果。
可选地,上述数据处理设备执行程序时,还可以获取会议工具使用信息;根据会议工具使用信息,确定与会议工具相关的会议特征;根据与会议工具相关的会议特征,确定与会议工具使用信息相关的会议特征的权重值。
可选地,上述数据处理设备执行程序时,还可以将待测试数据集输入至预设分类器中;获取目标测试结果,其中,目标测试结果是利用预设分类器根据待测试数据和目标训练结果得到的;计算目标测试结果的准确率和召回率;根据目标测试结果的准确率和召回率,确定预设分类器的分类结果。
可选地,上述数据处理设备执行程序时,还可以根据预设分类器的分类结果,调整预设分类器的标签生成参数,其中,标签生成参数为预设分类器根据会议的特征信息确定与会议对应的标签的参数。
可选地,上述数据处理设备执行程序时,还可以将多个特征信息输入至预设分类器,其中,预设分类器用于确定每个特征信息在多个标签中每个标签类别下的概率;根据预设分类器确定每个特征信息在多个标签中每个标签类别下的概率。
可选地,上述数据处理设备执行程序时,还可以对多个标签类别中每个标签类别下的概率进行排序;根据预设阈值,选择预设数量的标签类别;根据预设数量的标签类别,生成与预设会议对应的标签。
可选地,上述数据处理设备执行程序时,还可以将与预设会议对应的标签发送至显示面板中;接收用户反馈信息,其中,用户反馈信息至少包括下述之一:用户选择生成的标签、用户自定义标签;根据用户反馈信息,调整标签生成参数。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种标签生成方法,其特征在于,包括:
采集预设会议的多个特征信息,其中,所述特征信息是根据所述预设会议的会议内容得到的;
对所述多个特征信息进行分析,得到所述预设会议在多个标签类别中每个标签类别下的概率;
根据所述预设会议在多个标签类别中每个标签类别下的概率,生成与所述预设会议对应的标签;
其中,对所述多个特征信息进行分析,得到所述预设会议在多个标签类别中每个标签类别下的概率包括:
将所述多个特征信息输入至预设分类器,其中,所述预设分类器用于确定每个特征信息在多个标签中每个标签类别下的概率;
根据所述预设分类器确定每个特征信息在多个标签中每个标签类别下的概率;
其中,根据所述预设会议在多个标签类别中每个标签类别下的概率,生成与所述预设会议对应的标签包括:
对多个标签类别中每个标签类别下的概率进行排序;
根据预设阈值,选择预设数量的标签类别;
根据所述预设数量的标签类别,生成与所述预设会议对应的标签;
其中,在生成与所述预设会议对应的标签之后,所述方法还包括:
将与所述预设会议对应的标签发送至显示面板中;
接收用户反馈信息,其中,所述用户反馈信息至少包括下述之一:用户选择生成的标签、用户自定义标签;
根据所述用户反馈信息,调整标签生成参数;
其中,在采集预设会议的多个特征信息之前,包括:
获取多次会议所产生的历史文件数据,其中,所述历史文件数据为根据多次会议生成的特征信息,所述历史文件数据至少包括:会议文件大小、会议特征、会议时长、会议人员数量、会议工具使用信息;
对每次会议所产生的历史文件数据进行过滤,得到待训练数据;
对所述待训练数据进行分类,得到待训练数据集和待测试数据集;
根据所述待训练数据集,确定所述待训练数据集中每个会议特征在多个标签类别中每个标签类别下的概率;
根据所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对所述待测试数据集进行分类,得到测试分类结果;
根据所述测试分类结果和所述待测试数据的准确分类结果进行对比,得到目标训练结果;
根据多个所述目标训练结果,确定预设分类器;
其中,根据所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对所述待测试数据集进行分类,得到测试分类结果包括:
获取所述待训练数据集中每个会议特征的权重值;
根据所述待训练数据集中每个会议特征的权重值和所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,确定所述得到测试分类结果;
其中,对所述多个特征信息进行分析,得到所述预设会议在多个标签类别中每个标签类别下的概率包括:
确定每个特征信息在多个特征范围中每个特征范围所对应的标识数值;
根据所述标识数值以及所述特征信息在每个标签类别下的概率,确定所述预设会议在每个标签类别下的概率。
2.根据权利要求1所述的方法,其特征在于,获取所述待训练数据集中每个会议特征的权重值包括:
获取会议工具使用信息;
根据所述会议工具使用信息,确定与会议工具相关的会议特征;
根据与会议工具相关的会议特征,确定与会议工具使用信息相关的会议特征的权重值。
3.根据权利要求1所述的方法,其特征在于,在确定预设分类器之后,还包括:
将所述待测试数据集输入至所述预设分类器中;
获取目标测试结果,其中,所述目标测试结果是利用所述预设分类器根据所述待测试数据和所述目标训练结果得到的;
计算所述目标测试结果的准确率和召回率;
根据所述目标测试结果的准确率和召回率,确定所述预设分类器的分类结果。
4.根据权利要求3所述的方法,其特征在于,在确定所述预设分类器的分类结果之后,还包括:
根据所述预设分类器的分类结果,调整所述预设分类器的标签生成参数,其中,所述标签生成参数为预设分类器根据会议的特征信息确定与会议对应的标签的参数。
5.一种标签生成装置,其特征在于,包括:
采集单元,用于采集预设会议的多个特征信息,其中,所述特征信息是根据所述预设会议的会议内容得到的;
分析单元,用于对所述多个特征信息进行分析,得到所述预设会议在多个标签类别中每个标签类别下的概率;
生成单元,用于根据所述预设会议在多个标签类别中每个标签类别下的概率,生成与所述预设会议对应的标签;
其中,所述分析单元包括:输入子模块,用于将多个特征信息输入至预设分类器,其中,预设分类器用于确定每个特征信息在多个标签中每个标签类别下的概率;第二确定子模块,用于根据预设分类器确定每个特征信息在多个标签中每个标签类别下的概率;
其中,生成单元包括:排序模块,用于对多个标签类别中每个标签类别下的概率进行排序;选择模块,用于根据预设阈值,选择预设数量的标签类别;生成模块,用于根据预设数量的标签类别,生成与预设会议对应的标签;
其中,装置还包括:发送单元,用于在生成与预设会议对应的标签之后,将与预设会议对应的标签发送至显示面板中;接收单元,用于接收用户反馈信息,其中,用户反馈信息至少包括下述之一:用户选择生成的标签、用户自定义标签;第二调整单元,用于根据用户反馈信息,调整标签生成参数;
其中,所述装置还包括:第一获取单元,用于在采集预设会议的多个特征信息之前,获取多次会议所产生的历史文件数据,其中,所述历史文件数据为根据多次会议生成的特征信息,所述历史文件数据至少包括:会议文件大小、会议特征、会议时长、会议人员数量、会议工具使用信息;过滤单元,用于对每次会议所产生的历史文件数据进行过滤,得到待训练数据;第一分类单元,用于对所述待训练数据进行分类,得到待训练数据集和待测试数据集;第一确定单元,用于根据所述待训练数据集,确定所述待训练数据集中每个会议特征在多个标签类别中每个标签类别下的概率;第二分类单元,用于根据所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,对所述待测试数据集进行分类,得到测试分类结果;对比单元,用于根据所述测试分类结果和所述待测试数据的准确分类结果进行对比,得到目标训练结果;第二确定单元,用于根据多个所述目标训练结果,确定预设分类器;
其中,所述第二分类单元包括:第一获取模块,用于获取所述待训练数据集中每个会议特征的权重值;第一确定模块,用于根据所述待训练数据集中每个会议特征的权重值和所述待训练数据集中每个会议特征在多个标签类别中每个标签类别的概率,确定所述得到测试分类结果;
其中,所述分析单元包括:确定每个特征信息在多个特征范围中每个特征范围所对应的标识数值;根据所述标识数值以及所述特征信息在每个标签类别下的概率,确定所述预设会议在每个标签类别下的概率。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的标签生成方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至4中任意一项所述的标签生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810255380.1A CN108763242B (zh) | 2018-03-26 | 2018-03-26 | 标签生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810255380.1A CN108763242B (zh) | 2018-03-26 | 2018-03-26 | 标签生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763242A CN108763242A (zh) | 2018-11-06 |
CN108763242B true CN108763242B (zh) | 2022-03-08 |
Family
ID=63980265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810255380.1A Active CN108763242B (zh) | 2018-03-26 | 2018-03-26 | 标签生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763242B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569330A (zh) * | 2019-07-18 | 2019-12-13 | 华瑞新智科技(北京)有限公司 | 一种基于智能选词的文本标注***及装置、设备、介质 |
CN116760942B (zh) * | 2023-08-22 | 2023-11-03 | 云视图研智能数字技术(深圳)有限公司 | 一种全息互动远程会议方法及*** |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102419976A (zh) * | 2011-12-02 | 2012-04-18 | 清华大学 | 一种基于量子学习优化决策的音频索引方法 |
US8750472B2 (en) * | 2012-03-30 | 2014-06-10 | Cisco Technology, Inc. | Interactive attention monitoring in online conference sessions |
CN104166840A (zh) * | 2014-07-22 | 2014-11-26 | 厦门亿联网络技术股份有限公司 | 一种基于视频会议***的聚焦实现方法 |
CN104216876A (zh) * | 2013-05-29 | 2014-12-17 | 中国电信股份有限公司 | 信息文本过滤方法及*** |
CN104992557A (zh) * | 2015-05-13 | 2015-10-21 | 浙江银江研究院有限公司 | 一种城市交通警情等级预测方法 |
CN106844732A (zh) * | 2017-02-13 | 2017-06-13 | 长沙军鸽软件有限公司 | 针对无法直接采集的会话场景标签进行自动获取的方法 |
CN107070852A (zh) * | 2016-12-07 | 2017-08-18 | 东软集团股份有限公司 | 网络攻击检测方法和装置 |
US10621509B2 (en) * | 2015-08-31 | 2020-04-14 | International Business Machines Corporation | Method, system and computer program product for learning classification model |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107861951A (zh) * | 2017-11-17 | 2018-03-30 | 康成投资(中国)有限公司 | 智能客服中的会话主题识别方法 |
-
2018
- 2018-03-26 CN CN201810255380.1A patent/CN108763242B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102419976A (zh) * | 2011-12-02 | 2012-04-18 | 清华大学 | 一种基于量子学习优化决策的音频索引方法 |
US8750472B2 (en) * | 2012-03-30 | 2014-06-10 | Cisco Technology, Inc. | Interactive attention monitoring in online conference sessions |
CN104216876A (zh) * | 2013-05-29 | 2014-12-17 | 中国电信股份有限公司 | 信息文本过滤方法及*** |
CN104166840A (zh) * | 2014-07-22 | 2014-11-26 | 厦门亿联网络技术股份有限公司 | 一种基于视频会议***的聚焦实现方法 |
CN104992557A (zh) * | 2015-05-13 | 2015-10-21 | 浙江银江研究院有限公司 | 一种城市交通警情等级预测方法 |
US10621509B2 (en) * | 2015-08-31 | 2020-04-14 | International Business Machines Corporation | Method, system and computer program product for learning classification model |
CN107070852A (zh) * | 2016-12-07 | 2017-08-18 | 东软集团股份有限公司 | 网络攻击检测方法和装置 |
CN106844732A (zh) * | 2017-02-13 | 2017-06-13 | 长沙军鸽软件有限公司 | 针对无法直接采集的会话场景标签进行自动获取的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108763242A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209764B (zh) | 语料标注集的生成方法及装置、电子设备、存储介质 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN110163647B (zh) | 一种数据处理方法及装置 | |
WO2021098648A1 (zh) | 文本推荐方法、装置、设备及介质 | |
EP2461273A2 (en) | Method and system for machine-learning based optimization and customization of document similarities calculation | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
EP3133511A1 (en) | Systems and methods for automatic clustering and canonical designation of related data in various data structures | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及*** | |
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
WO2018040068A1 (zh) | 基于知识图谱的语意分析***及方法 | |
CN105488151A (zh) | 参考文档的推荐方法及装置 | |
CN109657137B (zh) | 舆情新闻分类模型构建方法、装置、计算机设备和存储介质 | |
CN112860943A (zh) | 一种教学视频审核方法、装置、设备及介质 | |
CN108733791B (zh) | 网络事件检测方法 | |
CN109241451B (zh) | 一种内容组合推荐方法、装置及可读存储介质 | |
CN106843941B (zh) | 信息处理方法、装置和计算机设备 | |
EP3608799A1 (en) | Search method and apparatus, and non-temporary computer-readable storage medium | |
CN108763242B (zh) | 标签生成方法及装置 | |
CN111160959A (zh) | 一种用户点击转化预估方法及装置 | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
CN114780606A (zh) | 一种大数据挖掘方法及*** | |
Ali et al. | Fake accounts detection on social media using stack ensemble system | |
CN114238764A (zh) | 基于循环神经网络的课程推荐方法、装置及设备 | |
Khatun et al. | Data mining technique to analyse and predict crime using crime categories and arrest records | |
CN113360305A (zh) | 计算机设备及其异常操作检测方法、装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |