CN110807370B - 一种基于多模态的会议发言人身份无感确认方法 - Google Patents
一种基于多模态的会议发言人身份无感确认方法 Download PDFInfo
- Publication number
- CN110807370B CN110807370B CN201910968323.2A CN201910968323A CN110807370B CN 110807370 B CN110807370 B CN 110807370B CN 201910968323 A CN201910968323 A CN 201910968323A CN 110807370 B CN110807370 B CN 110807370B
- Authority
- CN
- China
- Prior art keywords
- word
- speaker
- conference
- algorithm
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012790 confirmation Methods 0.000 title claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008447 perception Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000004801 process automation Methods 0.000 abstract 1
- 230000006872 improvement Effects 0.000 description 5
- 238000000556 factor analysis Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Acoustics & Sound (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于多模态的会议发言人身份无感确认方法,是基于使用图像、语音、文本多模态的会议时,通过识别发言人表情、发言人声音、发言人讲话风格来确认发言人身份,具体包括基于深度学习模型的表情识别方法、基于人工智能算法的声音识别方法、采用文本聚类算法对于讲话内容进行识别方法。该方法能够实现整个过程全程自动,无需人工干预,通过人工智能算法模型,可以实现无感确认发言人身份,不用人工干预,大大提高了开会和办公的效率,且准确度较高。
Description
技术领域
本发明属于自然语言处理领域,特别涉及一种基于多模态的会议发言人身份无感确认方法。
背景技术
随着经济的发展,高效办公越来越离不开会议***,现阶段很多会议***为了方便总结和汇报,需要记录各发言人的讲话内容。因此,针对这一需求,需要一种智能、快速区分发言人的方法。
目前,现阶段会议***多采用话筒录入发言人声音来记录讲话内容,如果要区分不同发言人则需要给每一个发言人分配一个话筒,但是如果分配多个话筒的话可能会造成串音问题,也就是因为距离太近,一个人讲话多个话筒都会识别到,当一个人讲话的时候需要关闭其他话筒才能区分发言人,这种方法虽然可以实现发言人的区分,但是非常麻烦,需要人为干预。因此需要一种能基于图像、语音、文本等多模态的发言人身份无感确认方法。
发明内容
为了解决常规会议时传统的分配制定话筒带来的,由于距离远近调整需要进行多次关闭、开启不同位置的话筒,以来区分不同的发言人的繁琐问题,本发明提供了一种基于多模态的会议发言人身份无感确认方法,具体为:通过对发言人的表情、声音及讲话风格三个方面进行自动识别区分会议发言人的方法,其中,包括基于深度学习模型的表情识别方法、基于人工智能算法的声音识别方法、基于文本聚类算法的讲话内容识别方法。
作为改进,在基于深度学习模型的表情识别方法中,首先采集会议现场发言人脸部照片信息,通过信息预处理包括随机干扰、变形、旋转等操作,再利用Gan网络生成多组训练集,接着采用Faster R-Cnn模型训练样本数据,最终生成深度学习模型。
作为改进,声音识别方法的具体步骤为:
(1)数据采集及处理
实时采集会议现场语音数据,并将数据间隔4-8秒分段,每一段作为一个处理单元且对数据进行处理,除噪;
(2)构建模型及训练
假设训练数据语音中由多个人多条语音,其中定义第i个人的第j条语音为Xij,构建模型为:Xij=μ+Fhi+Gwij+∈ij,其中μ为数据均值,Fhi和Gwij为空间特征矩阵,∈ij为噪声协方差;构建后,训练过程采用EM算法迭代进行求解;
(3)模型测试
计算两条语音是否为同一说话人是由说话人空间中的特征hi生成,或者由hi生成的似然程度通过对数似然比score来计算得分生成,计算公式如下:
其中η1,η2表示两条测试语音,和/>分别表示两条测试语音来自同一空间和来自不同空间假设;/>表示η1,η2来自统一空间的概率;/>和/>分别表示属于各自不同空间的概率。
作为改进,采用文本聚类算法对于讲话内容进行识别方法,包括句子向量表示和文本聚类两部分,先进行所有句子向量表示,再通过DBSCAN算法对所有的句子向量表示进行文本聚类。
作为改进,采用word2vec工具的Skip-gram模型对文本进行词向量训练,组成词向量矩阵X∈Rmn,以xi∈Rm表示特征词i在m维空间中的词向量,且表达两个向量之间的欧式距离,公式为:d(wi,wj)=|xi-xj|2,其中d(wi,wj)表示特征词i和特征词j的语义距离;xi和xj表示特征词wi和wj对应的词向量。
作为改进,Skip-gram模型包括输入层、投影层和输出层;其中,输入层为当前特征词,词向量记为Wt∈Rm,输出层为该特征词上下文窗口中词出现的概率;投影层用于使目标函数L值最大化。
作为改进,假定有一组词序列w1,w2,…,wN,目标函数的公式记为:
其中,N为词序列的长度;c表示当前特征词的上下文长度,长度为5~10词长度;p(wj+1|wj)为已知当前词wj出现的概率下,其上下文特征词wj+1出现的概率。
作为改进,通过DBSCAN算法对所有的句子向量表示进行文本聚类时,在已知发言人的人数下,通过调整该算法的参数半径和最少点个数值来得到对应发言人数的簇数,获得对应的文本簇,再将不同发言人的讲话内容分隔开。
有益效果:本发明提供的一种基于多模态的会议发言人身份无感确认方法,是基于使用图像、语音、文本多模态的会议时,通过识别发言人表情、发言人声音、发言人讲话风格来确认发言人身份,整个过程全程自动,无需人工干预,通过人工智能算法模型,可以实现无感确认发言人身份,不用人工干预,大大提高了开会和办公的效率,且准确度较高。
附图说明
图1为本发明原理结构流程图。
图2为本发明DBSCAN算法示意图。
具体实施方式
下面对本发明附图结合实施例作出进一步说明。
本发明是基于图像、语音、文本多模态的会议,通过识别发言人表情、发言人声音、发言人讲话风格来确认发言人身份,能够实现整个过程全程自动,无需人工干预,具体:
(1)发言人表情识别
人在讲话的时候表情和不在讲话的时候有很大区别,通过会议现场实时视频,基于深度学习模型识别各参会人员表情,判断参会人员发言状态,确认发言人;
(2)发言人声音识别
每个人的声音在频率、音调都有很大差异,通过会议现场的实时语音,基于人工智能算法区分出发言人,从而确定发言人身份;
(3)发言人讲话风格识别
每个人讲话都有自己的风格,在前面两种效果不好的时候,可以通过语音识别后的讲话内容文字信息,采用聚类算法,根据已知的讲话人个数分类出对应数目类别的段落,从而区分发言分身份。
针对发言人表情识别,先采集的会议现场发言人脸部照片信息,通过信息预处理包括随机干扰、变形、旋转等操作,再利用Gan网络生成多组训练集,接着采用Faster R-Cnn模型训练样本数据,最终生成深度学习模型。
实施例1
采集了约1000张会议现场的发言人脸部照片,人工对这些照片分类,共分为讲话和非讲话两个类别,然后通过随机干扰、变形、旋转等基本操作,再利用Gan网络生成更多的训练集,得到源数据集的10倍左右数据集。接着采用Faster R-Cnn模型训练样本数据,最终模型准确率达到85%。
针对发言人声音识别,作为本发明的具体实施方式为:1)数据采集:会议现场实时采集语音数据,并将数据每4-8秒,优选5秒分段,每一段作为一个处理单元;2)数据处理:因为会议现场的发言都比较规范、大多都是普通话、并且会场比较安静,噪音少,所以基本不用对数据处理;3)模型构建:假设训练数据语音由I个说话人的语音组成,其中每个说话人有J段自己不同的语音。那么,定义第i个说话人的第j条语音为Xij。然后,根据因子分析,定义Xij的生成模型为:
Xij=μ+Fhi+Gwij+∈ij
其中μ为数据均值,Fhi和Gwij为空间特征矩阵,∈ij为噪声协方差。这个模型可以看成两个部分:等号右边前两项只跟说话人有关而跟说话人的具体某一条语音无关,称为信号部分,这描述了说话人类间的差异;等号右边后两项描述了同一说话人的不同语音之间的差异,称为噪音部分。
使用两个假想变量来描述一条语音的数据结构。等号右边的中间两项分别是一个矩阵和一个向量的表示形式,这便是因子分析的又一核心部分。这两个矩阵F和G包含了各自假想变量空间中的基本因子,这些因子可以看作是各自空间的特征向量。比如,F的每一列就相当于类间空间的特征向量,G的每一列相当于类内空间的特征向量。而hi和wi分别表示F和G在各自空间的特征表示,比如hi就可以看做是xij在说话人空间中的特征表示。在识别打分阶段,如果两条语音的hi特征相同的似然度越大,那么这两条语音就更确定地属于同一个说话人。4)模型训练:μFhiGwij∈ij模型的训练过程采用EM算法迭代求解。5)模型测试:计算两条语音是否由说话人空间中的特征hi生成,或者由hi生成的似然程度,使用对数似然比score来计算得分,计算公式如下:
其中η1,η2表示两条测试语音,和/>分别表示两条测试语音来自同一空间和来自不同空间假设;/>表示η1,η2来自同一空间的概率;/>和/>分别表示属于各自不同空间的概率。通过计算对数似然比,就能衡量两条语音的相似程度,即score得分越高,则两条语音属于同一说话人的可能性越大。
针对发言人讲话风格识别,采用文本聚类算法对于讲话内容进行识别方法,包括句子向量表示和文本聚类两部分,先进行所有句子向量表示,再通过DBSCAN算法对所有的句子向量表示进行文本聚类。
1)句子向量表示
本发明采用Word2vec工具的Skip-gram模型对文本进行词向量训练。该模型是基于Hierarchical Softmax构造的一颗Huffman树,能够根据当前输入的词,从大规模非标注的文本数据中预测上下文词出现的概率,即能够通过当前词语出现的概率来预测周围出现的词。根据词语在窗口中的共现原理,基于窗口滑动来计算词语间的共现概率,这样每个特征词生成的词向量中都包含了一定的文本结构信息和语义信息。
Skip-gram模型包括输入层、投影层和输出层。其中,输入层为当前特征词,词向量Wt∈Rm;输出层为该特征词上下文窗口中词出现的概率;投影层的目的是使目标函数L值最大化。假定有一组词序列w1,w2,…,wN,目标函数的公式记为:
上式中N为词序列的长度;c表示当前特征词的上下文长度,一般取5~10个词长度;p(wj+1|wj)为已知当前词wj出现的概率下,其上下文特征词wj+1出现的概率。
通过Skip-gram模型训练得到的全部词向量,组成词向量矩阵X∈Rmn。以xi∈Rm表示特征词i在m维空间中的词向量。特征词之问的相似度,可以使用对应词向量之间的距离来衡量。其中两个向量之间的欧式距离,如下式所示:
d(wi,wj)=|xi-xj|2
式中:d(wi,wj)表示特征词i和特征词j的语义距离;xi和xj表示特征词wi和wj对应的词向量。d(wi,wj)的值越小,说明两个特征词之间的语义距离越小,语义越相似,最后各词向量相加得到句子向量。
2)文本聚类
使用聚类法对所有句子向量表示进行聚类时,采用DBSCAN算法,它是一种基于密度的算法。DBSCAN将样本点划分为三类,样本点在这里是向量表示:核心点:核心点邻域内的样本数大于等于最小样本数。这里领域是指定半径内的区域。边缘点:边缘点不是核心点,但是它邻域内有核心点。噪声点:噪声点是除了核心点和边缘点的其它点。这是三类点的视觉效果,其中A是核心点,B、C为边缘点,N为噪声点,见图2所示。
第一步:按照邻域内的样本数,将样本分为核心点和非核心点。
第二步:按照邻域内是否有核心点,将非核心点划分为边缘点和噪声点。
第三步:为每个点初始化一个簇。
第四步:选取一个核心点,遍历它邻域内的样本,将二者的簇合并。
第五步:重复第四步,直到所有核心点都已访问。
在已知发言人的人数下,通过调整该算法的参数半径和最少点个数值来得到对应发言人数的簇数,获得对应的文本簇,再将不同发言人的讲话内容分隔开。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于多模态的会议发言人身份无感确认方法,其特征在于:是通过对发言人的表情、声音及讲话风格三个方面进行自动识别区分会议发言人的方法,其中,包括基于深度学习模型的表情识别方法、基于人工智能算法的声音识别方法、基于文本聚类算法的讲话内容识别方法;
其中声音识别方法的具体步骤为:
(1)数据采集及处理
实时采集会议现场语音数据,并将数据间隔4-8秒分段,每一段作为一个处理单元且对数据进行除噪处理;
(2)构建模型及训练
假设训练数据语音中有多个人多条语音,其中定义第i个人的第j条语音为Xij,构建模型为:Xij=μ+Fhi+Gwij+∈ij,其中μ为数据均值,Fhi和Gwij为空间特征矩阵,∈ij为噪声协方差;构建后,训练过程采用EM算法迭代进行求解;
(3)模型测试
计算两条语音是否为同一说话人是由说话人空间中的特征hi生成,或者由hi生成的似然程度通过对数似然比score来计算得分生成,计算公式如下:
其中η1,η2表示两条测试语音,和/>分别表示两条测试语音来自同一空间和来自不同空间假设;/>表示η1,η2来自同一空间的概率;/>和/>分别表示η1,η2属于各自不同空间的概率。
2.根据权利要求1所述的基于多模态的会议发言人身份无感确认方法,其特征在于:在基于深度学习模型的表情识别方法中,首先采集会议现场发言人脸部照片信息,通过信息预处理包括随机干扰、变形、旋转,再利用Gan网络生成多组训练集,接着采用Faster R-Cnn模型训练样本数据,最终生成深度学习模型。
3.根据权利要求1所述的基于多模态的会议发言人身份无感确认方法,其特征在于:采用文本聚类算法对于讲话内容进行识别方法,包括句子向量表示和文本聚类两部分,先进行所有句子向量表示,再通过DBSCAN算法对所有的句子向量表示进行文本聚类。
4.根据权利要求3所述的基于多模态的会议发言人身份无感确认方法,其特征在于:采用word2vec工具的Skip-gram模型对文本进行词向量训练,组成词向量矩阵X∈Rmn,以xi∈Rm表示特征词i在m维空间中的词向量,且表达两个向量之间的欧式距离,公式为:d(wi,wj)=|xi-xj|2,其中d(wi,wj)表示特征词i和特征词j的语义距离;xi和xj表示特征词wi和wj对应的词向量。
5.根据权利要求4所述的基于多模态的会议发言人身份无感确认方法,其特征在于:Skip-gram模型包括输入层、投影层和输出层;其中,输入层为当前特征词,词向量记为Wt∈Rm,输出层为该特征词上下文窗口中词出现的概率;投影层用于使目标函数L值最大化。
6.根据权利要求5所述的基于多模态的会议发言人身份无感确认方法,其特征在于:假定有一组词序列w1,w2,…,wN,目标函数的公式记为:
其中,N为词序列的长度;c表示当前特征词的上下文长度,长度为5~10个词长度;p(wj+1|wj)为已知当前词wj出现的概率下,其上下文特征词wj+1出现的概率。
7.根据权利要求3所述的基于多模态的会议发言人身份无感确认方法,其特征在于:通过DBSCAN算法对所有的句子向量表示进行文本聚类时,在已知发言人的人数下,通过调整该算法的参数半径和最少点个数值来得到对应发言人数的簇数,获得对应的文本簇,再将不同发言人的讲话内容分隔开。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910968323.2A CN110807370B (zh) | 2019-10-12 | 2019-10-12 | 一种基于多模态的会议发言人身份无感确认方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910968323.2A CN110807370B (zh) | 2019-10-12 | 2019-10-12 | 一种基于多模态的会议发言人身份无感确认方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807370A CN110807370A (zh) | 2020-02-18 |
CN110807370B true CN110807370B (zh) | 2024-01-30 |
Family
ID=69488298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910968323.2A Active CN110807370B (zh) | 2019-10-12 | 2019-10-12 | 一种基于多模态的会议发言人身份无感确认方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807370B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113746822B (zh) * | 2021-08-25 | 2023-07-21 | 广州市昇博电子科技有限公司 | 一种远程会议管理方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993665A (zh) * | 2017-12-14 | 2018-05-04 | 科大讯飞股份有限公司 | 多人会话场景中发言人角色确定方法、智能会议方法及*** |
CN109960743A (zh) * | 2019-01-16 | 2019-07-02 | 平安科技(深圳)有限公司 | 会议内容区分方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110046941A1 (en) * | 2009-08-18 | 2011-02-24 | Manuel-Devados Johnson Smith Johnson | Advanced Natural Language Translation System |
-
2019
- 2019-10-12 CN CN201910968323.2A patent/CN110807370B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993665A (zh) * | 2017-12-14 | 2018-05-04 | 科大讯飞股份有限公司 | 多人会话场景中发言人角色确定方法、智能会议方法及*** |
CN109960743A (zh) * | 2019-01-16 | 2019-07-02 | 平安科技(深圳)有限公司 | 会议内容区分方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110807370A (zh) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kanda et al. | Joint speaker counting, speech recognition, and speaker identification for overlapped speech of any number of speakers | |
CN106503805B (zh) | 一种基于机器学习的双模态人人对话情感分析方法 | |
CN111524527B (zh) | 话者分离方法、装置、电子设备和存储介质 | |
US10515292B2 (en) | Joint acoustic and visual processing | |
EP0549265A2 (en) | Neural network-based speech token recognition system and method | |
CN108735200A (zh) | 一种说话人自动标注方法 | |
WO2023048746A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
CN107358947A (zh) | 说话人重识别方法及*** | |
CN104538025A (zh) | 手势到汉藏双语语音转换方法及装置 | |
CN113113022A (zh) | 一种基于说话人声纹信息的自动识别身份的方法 | |
CN113239903B (zh) | 一种跨模态唇读的对抗性双重对比自监督学习方法 | |
CN111091809A (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
CN111091840A (zh) | 一种建立性别识别模型的方法及性别识别方法 | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
CN114970695B (zh) | 一种基于非参贝叶斯模型的说话人分割聚类方法 | |
WO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、および記録媒体 | |
CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
Chit et al. | Myanmar continuous speech recognition system using convolutional neural network | |
CN110265003B (zh) | 一种识别广播信号中语音关键字的方法 | |
Maruf et al. | Effects of noise on RASTA-PLP and MFCC based Bangla ASR using CNN | |
Kim | Noise-Tolerant Self-Supervised Learning for Audio-Visual Voice Activity Detection. | |
Hussein et al. | Arabic speaker recognition using HMM | |
Abd El-Moneim et al. | Effect of reverberation phenomena on text-independent speaker recognition based deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210311 Address after: 210000 rooms 1201 and 1209, building C, Xingzhi Science Park, Qixia Economic and Technological Development Zone, Nanjing, Jiangsu Province Applicant after: Nanjing Xingyao Intelligent Technology Co.,Ltd. Address before: Room 1211, building C, Xingzhi Science Park, 6 Xingzhi Road, Nanjing Economic and Technological Development Zone, Jiangsu Province, 210000 Applicant before: Nanjing Shixing Intelligent Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |