CN110689040A - 一种基于主播画像的声音分类方法 - Google Patents

一种基于主播画像的声音分类方法 Download PDF

Info

Publication number
CN110689040A
CN110689040A CN201910765774.6A CN201910765774A CN110689040A CN 110689040 A CN110689040 A CN 110689040A CN 201910765774 A CN201910765774 A CN 201910765774A CN 110689040 A CN110689040 A CN 110689040A
Authority
CN
China
Prior art keywords
anchor
model
program
data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910765774.6A
Other languages
English (en)
Other versions
CN110689040B (zh
Inventor
朱玉婷
杜睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Li Zhi Network Technology Co Ltd
Original Assignee
Guangzhou Li Zhi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Li Zhi Network Technology Co Ltd filed Critical Guangzhou Li Zhi Network Technology Co Ltd
Priority to CN201910765774.6A priority Critical patent/CN110689040B/zh
Publication of CN110689040A publication Critical patent/CN110689040A/zh
Application granted granted Critical
Publication of CN110689040B publication Critical patent/CN110689040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于主播画像的声音分类方法,包括如下步骤:构建主播画像***,该画像***用来描述主播历史行为,以及主播与音频内容之间的关系;音频类别分类,基于主播画像***,采用深度学***台的音频分类方法,对于音频内容进行自动分类,实现对海量音频资源的快速处理,节省服务器资源。

Description

一种基于主播画像的声音分类方法
技术领域
本发明属于大数据领域,为AI人工智能方向,具体涉及一种基于主播画像的声音分类方法。
背景技术
随着信息化社会、AI以及5G的快速发展,人们通过各种渠道获取文字、视频、音频等信息越来越多。在移动互联网相关的应用中,音频占用非常重要的地位。而对于音频信息的各种处理中,音频类型的判断与分类是最重要的处理过程之一。
在现阶段互联网各大音频平台上,音频分类方法的技术方案一般为:首先,对于输入的语音信号进行预处理,剔除音频录入中噪音等问题;然后,对于音频内容进行相关特征提取。
上述音频分类方法,对于互联网相关的音频平台来说的不足之处在于:
一、由于移动互联网(互联网)相关音频平台,每天要处理海量音频数据,使用传统方式进行,会消耗大量计算资源及存储资源来进行音频特征的提取,以完成音频内容的分类;
二、特征与分类信息以及分类算法强依赖,音频的分类依据于规定好的类别完成分类,当产品需求发生改变,整体***需要优化和升级可扩展性差;
三、音频分类不具备自我学习及自我增长性,新增类目均需要独立研发。
发明内容
为解决上述存在的不足之处,本发明提供一种基于主播画像的声音分类方法,本发明的具体方案如下:一种基于主播画像的声音分类方法,包括如下步骤:
构建主播画像***,该画像***用来描述主播历史行为,以及主播与音频内容之间的关系;
音频类别分类,基于主播画像***,采用深度学习算法,通过主播历史上传的节目及分类信息、主播上传频率,构建模型算法,完成音频类别分类;
错误数据分类,对于分类错误的数据进行人工标记以及人工分类,并且将相关数据更新到主播画像***中。产品以及用户通过反馈渠道,反馈给***,对于分类错误的音频;***自动将更新后的音频分类更新到主播画像,完成分类错误的矫正。
进一步,所述构建主播画像***包括:
采集主播以及音频相关服务端操作日志;
基于采集到的日志,采用数据挖掘的算法,挖掘关键信息;
至少提取的关键信息为:主播上传音频的时间;主播上传音频时定义的分类。
将挖掘好的信息,根据主播的唯一标识,进行合并与聚类,形成主播画像***。
进一步,基于主播画像***,构建模型训练数据集合,测试集合每一条包含如下信息:主播相关唯一标识;音频内容的唯一标识;具体音频内容的上传时间;具体音频内容的分类.
进一步,按照如下步骤进行训练模型:步骤一,根据主播历史数据,生成主播特征向量;步骤二,通过朴素贝叶斯提取类别概率分布特征,通过长短期记忆网络提取时间序列波动规律;步骤三,模型预测;步骤四,模型迭代优化。
所述步骤一中算法中使用到两种特征向量:a、主播上传节目类型序列特征;b、主播上传节目类型概率分布特征。
生成主播上传节目类型序列特征向量和label的方式:
a.把用户上传的节目按照上传时间排序,生成上传节目时间序列;
b.设置时间序列窗口长度k,k作为模型超参,k根据序列长度和模型训练验证集精确度调整;
c.根据时间窗把上传节目类别时间序列生成模型训练特征数据。
序列数据转化为特征向量方式如下:
Ti为该主播第i个节目上传时的时间点,Xi为该主播第i个节目,L(Xi)为节目Xi的类别
序列数据:
Figure BDA0002171883780000031
Figure BDA0002171883780000041
特征数据:
Feature1 Feature2 Featurek label
L(X1) L(X2) L(Xk+1) L(Xk+2)
L(X2) L(X3) L(Xk+2) L(Xk+3)
生成节目类别概率分布特征和label的方式:
针对每个主播上传节目序列的每个时间点,统计该时间点前该主播上传的每个类别的节目的频率,label为该时间点对应的上传节目的类别;
主播上传节目序列生成节目概率特征的格式:
Feature1 Feature2 Featurek label
N1/S N2/S Nk/S O(X1)
Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量。S为节目x上传的时间点之前主播上传节目总数量;O(Xi)为Xi的类别的onehot编码。
模型训练方法:
2.1、所有由时间序列生成的训练数据平均分为两组,第一组为lstm模型训练数据,第二组为DNN模型训练数据,使用第一组数据训练lstm模型;
2.2、lstm模型训练方法:训练lstm时把序列数据转化为序列特征向量,对于每条训练数据序列,向网络逐条输入序列中的每条特征向量,网络最终把数据序列映射为一个二维特征向量,二维特征向量经softmax函数映射为每个节目类别的概率分布,把概率分布与真实概率分布对比,通过损失函数计算损失,把损失反向传播迭代更新参数;
2.3、使用第二组训练数据训练DNN模型;对于每条训练数据,生成类别概率分布特征和序列特征,把类别概率分布特征输入贝叶斯模型,贝叶斯模型使用的数据为第一组训练数据;把序列特征输入2.2中训练的lstm模型;拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码;使用拼接特征作为新特征,训练dnn模型。
Stacking公式如下:
D1={xi,yi},i=[1,m]
i={h1(t1(xi)),h2(t2(xi))}
h3(′i)
t1(xi)为数据xi的概率分布特征向量,t2(xi)为数据xi的序列特征向量;h1为贝叶斯算法,h2为lstm,h3为dnn。
模型预测方法,
3.1.使用所有历史数据生成贝叶斯模型;计算当前主播上传节目概率分布向量;通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布。
3.2.使用最近k个时间点数据生成时间序列特征向量;输入2.2中训练的lstm,得到下一个节目的类别概率分布。
3.3.使用2中相同的顺序拼接贝叶斯模型和lstm模型输出结果的特征向量,把拼接的特征向量输入2.2中训练的dnn模型,最终输出的onehot编码为模型预测类别的概率分布,概率最高的类别为模型预测下一个音频的类别。
模型迭代优化:
对于每个主播,取全量该主播历史上传节目数据,字段包括上传节目时间和节目类别。生成该主播节目概率分布特征和主播节目序列特征。使用全量数据训练lstm和dnn模型;
主播上传新节目时,人工对节目分类,当发现人工分类与模型分类不同,把该数据作为错误样本存入数据库;定时使用数据库中的错误样本微调模型,模型的错误率低于阈值后,可以省去人工分类,把模型自动化使用。
本发明的有益效果:具备自我学***台的音频分类方法,对于音频内容进行自动分类,实现对海量音频资源的快速处理,节省服务器资源。
解决了从音频生产者角度,短期内不会更改自己擅长的音频方向,如擅长脱口秀的音频生产者,短期内并不会大量做新闻类音频的技术问题。
附图说明
图1是根据一示例性实施例示出的一种基于主播画像的声音分类方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种基于主播画像的声音分类方法的流程图;如图1所示,
一种基于主播画像的声音分类方法,包括如下步骤:
A:构建主播画像***,该画像***用来描述主播历史行为,以及主播与音频内容之间的关系;
B:音频类别分类,基于主播画像***,采用深度学习算法,通过主播历史上传的节目及分类信息、主播上传频率,构建模型算法,完成音频类别分类;
C:错误数据分类,对于分类错误的数据进行人工标记以及人工分类,并且将相关数据更新到主播画像***中。
其中,步骤A具体包括:
A1:采集主播以及音频相关服务端操作日志;
A2:基于采集到的日志,采用数据挖掘的算法,至少挖掘如下关键信息:
(1):主播上传音频的时间;
(2):主播上传音频时定义的分类;
A3:将挖掘好的信息,根据主播的唯一标识,进行合并与聚类,形成主播相关画像。
其中,步骤B具体内容包括:
B1:基于主播画像***,构建模型训练数据集合,测试集合每一条包含如下信息:(1):主播相关唯一标识;(2):音频内容的唯一标识;(3):具体音频内容的上传时间;(4):具体音频内容的分类;
B2:按照如下方法训练模型:
1.根据主播历史数据,生成主播特征向量。算法中使用到两种特征向量:
a.主播上传节目类型序列特征
b.主播上传节目类型概率分布特征。
生成主播上传节目类型序列特征向量和label的方式:
a.把用户上传的节目按照上传时间排序,生成上传节目时间序列。
b.设置时间序列窗口长度k,k作为模型超参。k根据序列长度和模型训练验证集精确度调整。
c.根据时间窗把上传节目类别时间序列生成模型训练特征数据,序列数据转化为特征向量方式如下:
Ti为该主播第i个节目上传时的时间点,Xi为该主播第i个节目,L(Xi)为节目Xi的类别
序列数据:
Figure BDA0002171883780000081
Figure BDA0002171883780000091
特征数据:
Feature1 Feature2 Featurek label
L(X1) L(X2) L(Xk+1) L(Xk+2)
L(X2) L(X3) L(Xk+2) L(Xk+3)
生成节目类别概率分布特征和label的方式:
针对每个主播上传节目序列的每个时间点,统计该时间点前该主播上传的每个类
别的节目的频率,label为该时间点对应的上传节目的类别.
主播上传节目序列生成节目概率特征的格式:
Feature1 Feature2 Featurek label
N1/S N2/S Nk/S O(X1)
Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量。S为节目x上传的时间点之前主播上传节目总数量。O(Xi)为Xi的类别的onehot编码。
2.分类模型采用bayes(朴素贝叶斯)与lstm(长短期记忆网络)的融合模型,融合方式为stacking。bayes用于提取类别概率分布特征,lstm用于提取时间序列波动规律。模型训练方法:
2.1所有由时间序列生成的训练数据平均分为两组,第一组为lstm模型训练数据,第二组为DNN模型训练数据。使用第一组数据训练lstm模型。
2.2lstm模型训练方法:训练lstm时把序列数据转化为序列特征向量,对于每条训练数据序列,向网络逐条输入序列中的每条特征向量,网络最终把数据序列映射为一个二维特征向量,二维特征向量经softmax函数映射为每个节目类别的概率分布,把概率分布与真实概率分布对比,通过损失函数计算损失,把损失反向传播迭代更新参数。
2.3使用第二组训练数据训练DNN模型。对于每条训练数据,生成类别概率分布特征和序列特征,把类别概率分布特征输入贝叶斯模型,贝叶斯模型使用的数据为第一组训练数据。把序列特征输入2.2中训练的lstm模型。拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码。使用拼接特征作为新特征,训练dnn模型。
Stacking公式如下:
D1={xi,yi},i=[1,m]
′i={h1(t1(xi)),h2(t2(xi))}
h3(′i)
t1(xi)为数据xi的概率分布特征向量,t2(xi)为数据xi的序列特征向量。h1为贝叶斯算法,h2为lstm,h3为dnn。
3.模型预测方法:
3.1.使用所有历史数据生成贝叶斯模型。计算当前主播上传节目概率分布向量。通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布。
3.2.使用最近k个时间点数据生成时间序列特征向量,k与1.2中k的取值相同。输入2.2中训练的lstm,得到下一个节目的类别概率分布。
3.3.使用2中相同的顺序拼接贝叶斯模型和lstm模型输出结果的特征向量,把拼接的特征向量输入2.2中训练的dnn模型,最终输出的onehot编码为模型预测类别的概率分布,概率最高的类别为模型预测下一个音频的类别。
模型迭代优化:
1.对于每个主播,取全量该主播历史上传节目数据,字段包括上传节目时间和节目类别。生成该主播节目概率分布特征和主播节目序列特征。使用全量数据训练lstm和dnn模型。
主播上传新节目时,人工对节目分类,当发现人工分类与模型分类不同,
2.把该数据作为错误样本存入数据库。定时使用数据库中的错误样本微调模型,模型的错误率低于阈值后,可以省去人工分类,把模型自动化使用。
其中C部分包括:
C1:产品以及用户通过反馈渠道,反馈给***,对于分类错误的音频。
C2:***自动将更新后的音频分类更新到主播画像,完成分类错误的矫正。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

Claims (12)

1.一种基于主播画像的声音分类方法,其特征在于,包括如下步骤:
构建主播画像***,该画像***用来描述主播历史行为,以及主播与音频内容之间的关系;
音频类别分类,基于主播画像***,采用深度学习算法,通过主播历史上传的节目及分类信息、主播上传频率,构建模型算法,完成音频类别分类;
错误数据分类,对于分类错误的数据进行人工标记以及人工分类,并且将相关数据更新到主播画像***中。
2.根据权利要求1所述的一种基于主播画像的声音分类方法,其特征在于,所述构建主播画像***包括:
采集主播以及音频相关服务端操作日志;
基于采集到的日志,采用数据挖掘的算法,挖掘关键信息;
将挖掘好的信息,根据主播的唯一标识,进行合并与聚类,形成主播画像***。
3.根据权利要求2所述的一种基于主播画像的声音分类方法,其特征在于,所述关键信息包括:主播上传音频的时间;主播上传音频时定义的分类。
4.根据权利要求1所述的一种基于主播画像的声音分类方法,其特征在于,基于主播画像***,构建模型训练数据集合,测试集合每一条包含如下信息:主播相关唯一标识;音频内容的唯一标识;具体音频内容的上传时间;具体音频内容的分类。
5.根据权利要求1所述的一种基于主播画像的声音分类方法,其特征在于,按照如下步骤进行训练模型:步骤一,根据主播历史数据,生成主播特征向量;步骤二,通过朴素贝叶斯提取类别概率分布特征,通过长短期记忆网络提取时间序列波动规律;步骤三,模型预测;步骤四,模型迭代优化。
6.根据权利要求5所述的一种基于主播画像的声音分类方法,其特征在于,所述步骤一中算法中使用到两种特征向量:a、主播上传节目类型序列特征;b、主播上传节目类型概率分布特征。
7.根据权利要求6所述的一种基于主播画像的声音分类方法,其特征在于,所述步骤一中,生成主播上传节目类型序列特征向量和label的方式:
a.把用户上传的节目按照上传时间排序,生成上传节目时间序列;
b.设置时间序列窗口长度k,k作为模型超参,k根据序列长度和模型训练验证集精确度调整;
c.根据时间窗把上传节目类别时间序列生成模型训练特征数据。
8.根据权利要求7所述的一种基于主播画像的声音分类方法,其特征在于,所述步骤一中,
序列数据转化为特征向量方式如下:
Ti为该主播第i个节目上传时的时间点,Xi为该主播第i个节目,L(Xi)为节目Xi的类别
序列数据:
时间点 节目类别 T1 L(X1) T2 L(X2) Tk L(Xk)
特征数据:
Feature 1 Feature 2 …. Feature k label L(X1) L(X2) …. L(X k+1) L(X k+2) L(X2) L(X3) …. L(X k+2) L(X k+3)
生成节目类别概率分布特征和label的方式:
针对每个主播上传节目序列的每个时间点,统计该时间点前该主播上传的每个类别的节目的频率,label为该时间点对应的上传节目的类别;
主播上传节目序列生成节目概率特征的格式:
Feature 1 Feature 2 Feature k label N1/S N2/S Nk/S O(X1)
Ni为节目X1上传时间点之前主播上传的所有节目中类别i的数量。
S为节目x上传的时间点之前主播上传节目总数量;O(Xi)为Xi的类别的onehot编码。
9.根据权利要求8所述的一种基于主播画像的声音分类方法,其特征在于,其中所述步骤二中,模型训练方法:
2.1、所有由时间序列生成的训练数据平均分为两组,第一组为lstm模型训练数据,第二组为DNN模型训练数据,使用第一组数据训练lstm模型;
2.2、lstm模型训练方法:训练lstm时把序列数据转化为序列特征向量,对于每条训练数据序列,向网络逐条输入序列中的每条特征向量,网络最终把数据序列映射为一个二维特征向量,二维特征向量经softmax函数映射为每个节目类别的概率分布,把概率分布与真实概率分布对比,通过损失函数计算损失,把损失反向传播迭代更新参数;
2.3、使用第二组训练数据训练DNN模型;对于每条训练数据,生成类别概率分布特征和序列特征,把类别概率分布特征输入贝叶斯模型,贝叶斯模型使用的数据为第一组训练数据;把序列特征输入2.2 中训练的lstm模型;拼接贝叶斯模型输出的onehot编码和lstm输出的onehot编码;使用拼接特征作为新特征,训练dnn模型。
Stacking公式如下:
D1={xi,yi},i=[1,m]
′i={h1(t1(xi)),h2(t2(xi))}
h3(′i)
t1(xi)为数据xi的概率分布特征向量,t2(xi)为数据xi的序列特征向量;h1为贝叶斯算法,h2为lstm,h3为dnn。
10.根据权利要求9所述的一种基于主播画像的声音分类方法,其特征在于,其中步骤三中:模型预测方法,
3.1.使用所有历史数据生成贝叶斯模型;计算当前主播上传节目概率分布向量;通过贝叶斯模型根据该数据预测主播上传的下一个节目的类别概率分布。
3.2.使用最近k个时间点数据生成时间序列特征向量;输入2.2中训练的lstm,得到下一个节目的类别概率分布。
3.3.使用2中相同的顺序拼接贝叶斯模型和lstm模型输出结果的特征向量,把拼接的特征向量输入2.2中训练的dnn模型,最终输出的onehot编码为模型预测类别的概率分布,概率最高的类别为模型预测下一个音频的类别。
11.根据权利要求10所述的一种基于主播画像的声音分类方法,其特征在于,其中步骤四中:模型迭代优化:
对于每个主播,取全量该主播历史上传节目数据,字段包括上传节目时间和节目类别。生成该主播节目概率分布特征和主播节目序列特征。使用全量数据训练lstm和dnn模型;
主播上传新节目时,人工对节目分类,当发现人工分类与模型分类不同,把该数据作为错误样本存入数据库;定时使用数据库中的错误样本微调模型,模型的错误率低于阈值后,可以省去人工分类,把模型自动化使用。
12.根据权利要求1所述的一种基于主播画像的声音分类方法,其特征在于:产品以及用户通过反馈渠道,反馈给***,对于分类错误的音频;***自动将更新后的音频分类更新到主播画像,完成分类错误的矫正。
CN201910765774.6A 2019-08-19 2019-08-19 一种基于主播画像的声音分类方法 Active CN110689040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910765774.6A CN110689040B (zh) 2019-08-19 2019-08-19 一种基于主播画像的声音分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910765774.6A CN110689040B (zh) 2019-08-19 2019-08-19 一种基于主播画像的声音分类方法

Publications (2)

Publication Number Publication Date
CN110689040A true CN110689040A (zh) 2020-01-14
CN110689040B CN110689040B (zh) 2022-10-18

Family

ID=69108370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910765774.6A Active CN110689040B (zh) 2019-08-19 2019-08-19 一种基于主播画像的声音分类方法

Country Status (1)

Country Link
CN (1) CN110689040B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127074A (zh) * 2023-02-23 2023-05-16 哈尔滨工业大学 基于LDA主题模型和kmeans聚类算法的主播画像分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740158A (zh) * 2012-07-04 2012-10-17 合一网络技术(北京)有限公司 一种供用户上传3d视频到视频网站的***和方法
CN105845128A (zh) * 2016-04-06 2016-08-10 中国科学技术大学 基于动态剪枝束宽预测的语音识别效率优化方法
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN107679227A (zh) * 2017-10-23 2018-02-09 柴建华 视频索引标签设置方法、装置及服务器
CN108257614A (zh) * 2016-12-29 2018-07-06 北京酷我科技有限公司 音频数据标注的方法及其***
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN108932451A (zh) * 2017-05-22 2018-12-04 北京金山云网络技术有限公司 音视频内容分析方法及装置
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740158A (zh) * 2012-07-04 2012-10-17 合一网络技术(北京)有限公司 一种供用户上传3d视频到视频网站的***和方法
US20180204111A1 (en) * 2013-02-28 2018-07-19 Z Advanced Computing, Inc. System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform
CN105845128A (zh) * 2016-04-06 2016-08-10 中国科学技术大学 基于动态剪枝束宽预测的语音识别效率优化方法
CN108257614A (zh) * 2016-12-29 2018-07-06 北京酷我科技有限公司 音频数据标注的方法及其***
CN108932451A (zh) * 2017-05-22 2018-12-04 北京金山云网络技术有限公司 音视频内容分析方法及装置
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN107679227A (zh) * 2017-10-23 2018-02-09 柴建华 视频索引标签设置方法、装置及服务器
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN110110143A (zh) * 2019-04-15 2019-08-09 厦门网宿有限公司 一种视频分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XU TIAN,JUN ZHANG,ZEJUN MA: "DEEP LSTM FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION", 《ARXIV:1703.07090V1[CS.CL]》 *
司阳,肖秦琨: "基于长短时记忆和动态贝叶斯网络的序列预测", 《计算机技术与发展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127074A (zh) * 2023-02-23 2023-05-16 哈尔滨工业大学 基于LDA主题模型和kmeans聚类算法的主播画像分类方法
CN116127074B (zh) * 2023-02-23 2024-03-01 哈尔滨工业大学 基于LDA主题模型和kmeans聚类算法的主播画像分类方法

Also Published As

Publication number Publication date
CN110689040B (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN107423442B (zh) 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
US11645554B2 (en) Method and apparatus for recognizing a low-quality article based on artificial intelligence, device and medium
CN110856037B (zh) 一种视频封面确定方法、装置、电子设备及可读存储介质
CN110705607B (zh) 一种基于循环重标注自助法的行业多标签降噪方法
Vrysis et al. Crowdsourcing audio semantics by means of hybrid bimodal segmentation with hierarchical classification
CN112910690A (zh) 基于神经网络模型的网络流量预测方法、装置及设备
CN111160191A (zh) 一种视频关键帧提取方法、装置及存储介质
CN117408650B (zh) 基于人工智能的数字化招标文件制作和评估***
CN112036168A (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN110689040B (zh) 一种基于主播画像的声音分类方法
CN110866169B (zh) 一种基于学习的物联网实体消息解析方法
CN112163074A (zh) 用户意图识别方法、装置、可读存储介质及电子设备
CN112199376B (zh) 一种基于聚类分析的标准知识库管理方法及***
CN113988156A (zh) 一种时间序列聚类方法、***、设备以及介质
CN109033413B (zh) 一种基于神经网络的需求文档和服务文档匹配方法
CN115358473A (zh) 基于深度学习的电力负荷预测方法及预测***
CN116186266A (zh) Bert、ner实体抽取以及知识图谱的物料分类优化方法及***
CN114385876B (zh) 一种模型搜索空间生成方法、装置及***
CN115345600A (zh) 一种rpa流程的生成方法和装置
CN114840717A (zh) 面向图数据的挖掘方法、装置、电子设备及可读存储介质
CN110992982A (zh) 音频分类方法、装置及可读存储介质
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN115292388B (zh) 一种基于历史数据的方案自动挖掘***
CN111460160A (zh) 一种基于强化学习的流式文本数据的事件聚类方法
CN117350409B (zh) 一种基于机器学习的人机对话模型训练***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant