CN110807370B

CN110807370B - 一种基于多模态的会议发言人身份无感确认方法

Info

Publication number: CN110807370B
Application number: CN201910968323.2A
Authority: CN
Inventors: 杨理想; 王云甘; 周亚; 孙振平
Original assignee: Nanjing Xingyao Intelligent Technology Co ltd
Current assignee: Nanjing Xingyao Intelligent Technology Co ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2024-01-30
Anticipated expiration: 2039-10-12
Also published as: CN110807370A

Abstract

本发明提供了一种基于多模态的会议发言人身份无感确认方法，是基于使用图像、语音、文本多模态的会议时，通过识别发言人表情、发言人声音、发言人讲话风格来确认发言人身份，具体包括基于深度学习模型的表情识别方法、基于人工智能算法的声音识别方法、采用文本聚类算法对于讲话内容进行识别方法。该方法能够实现整个过程全程自动，无需人工干预，通过人工智能算法模型，可以实现无感确认发言人身份，不用人工干预，大大提高了开会和办公的效率，且准确度较高。

Description

一种基于多模态的会议发言人身份无感确认方法

技术领域

本发明属于自然语言处理领域，特别涉及一种基于多模态的会议发言人身份无感确认方法。

背景技术

随着经济的发展，高效办公越来越离不开会议***，现阶段很多会议***为了方便总结和汇报，需要记录各发言人的讲话内容。因此，针对这一需求，需要一种智能、快速区分发言人的方法。

目前，现阶段会议***多采用话筒录入发言人声音来记录讲话内容，如果要区分不同发言人则需要给每一个发言人分配一个话筒，但是如果分配多个话筒的话可能会造成串音问题，也就是因为距离太近，一个人讲话多个话筒都会识别到，当一个人讲话的时候需要关闭其他话筒才能区分发言人，这种方法虽然可以实现发言人的区分，但是非常麻烦，需要人为干预。因此需要一种能基于图像、语音、文本等多模态的发言人身份无感确认方法。

发明内容

为了解决常规会议时传统的分配制定话筒带来的，由于距离远近调整需要进行多次关闭、开启不同位置的话筒，以来区分不同的发言人的繁琐问题，本发明提供了一种基于多模态的会议发言人身份无感确认方法，具体为：通过对发言人的表情、声音及讲话风格三个方面进行自动识别区分会议发言人的方法，其中，包括基于深度学习模型的表情识别方法、基于人工智能算法的声音识别方法、基于文本聚类算法的讲话内容识别方法。

作为改进，在基于深度学习模型的表情识别方法中，首先采集会议现场发言人脸部照片信息，通过信息预处理包括随机干扰、变形、旋转等操作，再利用Gan网络生成多组训练集，接着采用Faster R-Cnn模型训练样本数据，最终生成深度学习模型。

作为改进，声音识别方法的具体步骤为：

(1)数据采集及处理

实时采集会议现场语音数据，并将数据间隔4-8秒分段，每一段作为一个处理单元且对数据进行处理，除噪；

(2)构建模型及训练

假设训练数据语音中由多个人多条语音，其中定义第i个人的第j条语音为X_ij，构建模型为：X_ij＝μ+Fh_i+Gw_ij+∈_ij，其中μ为数据均值，Fh_i和Gw_ij为空间特征矩阵，∈_ij为噪声协方差；构建后，训练过程采用EM算法迭代进行求解；

(3)模型测试

计算两条语音是否为同一说话人是由说话人空间中的特征h_i生成，或者由hi生成的似然程度通过对数似然比score来计算得分生成，计算公式如下：

其中η₁，η₂表示两条测试语音，和/>分别表示两条测试语音来自同一空间和来自不同空间假设；/>表示η₁，η₂来自统一空间的概率；/>和/>分别表示属于各自不同空间的概率。

作为改进，采用文本聚类算法对于讲话内容进行识别方法，包括句子向量表示和文本聚类两部分，先进行所有句子向量表示，再通过DBSCAN算法对所有的句子向量表示进行文本聚类。

作为改进，采用word2vec工具的Skip-gram模型对文本进行词向量训练，组成词向量矩阵X∈R^mn，以x_i∈R^m表示特征词i在m维空间中的词向量，且表达两个向量之间的欧式距离，公式为：d(w_i，w_j)＝|x_i-x_j|₂，其中d(w_i，w_j)表示特征词i和特征词j的语义距离；x_i和x_j表示特征词w_i和w_j对应的词向量。

作为改进，Skip-gram模型包括输入层、投影层和输出层；其中，输入层为当前特征词，词向量记为W_t∈R^m，输出层为该特征词上下文窗口中词出现的概率；投影层用于使目标函数L值最大化。

作为改进，假定有一组词序列w₁，w₂，…，w_N，目标函数的公式记为：

其中，N为词序列的长度；c表示当前特征词的上下文长度，长度为5～10词长度；p(w_j+1|w_j)为已知当前词w_j出现的概率下，其上下文特征词w_j+1出现的概率。

作为改进，通过DBSCAN算法对所有的句子向量表示进行文本聚类时，在已知发言人的人数下，通过调整该算法的参数半径和最少点个数值来得到对应发言人数的簇数，获得对应的文本簇，再将不同发言人的讲话内容分隔开。

有益效果：本发明提供的一种基于多模态的会议发言人身份无感确认方法，是基于使用图像、语音、文本多模态的会议时，通过识别发言人表情、发言人声音、发言人讲话风格来确认发言人身份，整个过程全程自动，无需人工干预，通过人工智能算法模型，可以实现无感确认发言人身份，不用人工干预，大大提高了开会和办公的效率，且准确度较高。

附图说明

图1为本发明原理结构流程图。

图2为本发明DBSCAN算法示意图。

具体实施方式

下面对本发明附图结合实施例作出进一步说明。

本发明是基于图像、语音、文本多模态的会议，通过识别发言人表情、发言人声音、发言人讲话风格来确认发言人身份，能够实现整个过程全程自动，无需人工干预，具体：

(1)发言人表情识别

人在讲话的时候表情和不在讲话的时候有很大区别，通过会议现场实时视频，基于深度学习模型识别各参会人员表情，判断参会人员发言状态，确认发言人；

(2)发言人声音识别

每个人的声音在频率、音调都有很大差异，通过会议现场的实时语音，基于人工智能算法区分出发言人，从而确定发言人身份；

(3)发言人讲话风格识别

每个人讲话都有自己的风格，在前面两种效果不好的时候，可以通过语音识别后的讲话内容文字信息，采用聚类算法，根据已知的讲话人个数分类出对应数目类别的段落，从而区分发言分身份。

针对发言人表情识别，先采集的会议现场发言人脸部照片信息，通过信息预处理包括随机干扰、变形、旋转等操作，再利用Gan网络生成多组训练集，接着采用Faster R-Cnn模型训练样本数据，最终生成深度学习模型。

实施例1

采集了约1000张会议现场的发言人脸部照片，人工对这些照片分类，共分为讲话和非讲话两个类别，然后通过随机干扰、变形、旋转等基本操作，再利用Gan网络生成更多的训练集，得到源数据集的10倍左右数据集。接着采用Faster R-Cnn模型训练样本数据，最终模型准确率达到85％。

针对发言人声音识别，作为本发明的具体实施方式为：1)数据采集：会议现场实时采集语音数据，并将数据每4-8秒，优选5秒分段，每一段作为一个处理单元；2)数据处理：因为会议现场的发言都比较规范、大多都是普通话、并且会场比较安静，噪音少，所以基本不用对数据处理；3)模型构建：假设训练数据语音由I个说话人的语音组成，其中每个说话人有J段自己不同的语音。那么，定义第i个说话人的第j条语音为X_ij。然后，根据因子分析，定义X_ij的生成模型为：

X_ij＝μ+Fh_i+Gw_ij+∈_ij

其中μ为数据均值，Fh_i和Gw_ij为空间特征矩阵，∈_ij为噪声协方差。这个模型可以看成两个部分：等号右边前两项只跟说话人有关而跟说话人的具体某一条语音无关，称为信号部分，这描述了说话人类间的差异；等号右边后两项描述了同一说话人的不同语音之间的差异，称为噪音部分。

使用两个假想变量来描述一条语音的数据结构。等号右边的中间两项分别是一个矩阵和一个向量的表示形式，这便是因子分析的又一核心部分。这两个矩阵F和G包含了各自假想变量空间中的基本因子，这些因子可以看作是各自空间的特征向量。比如，F的每一列就相当于类间空间的特征向量，G的每一列相当于类内空间的特征向量。而h_i和w_i分别表示F和G在各自空间的特征表示，比如h_i就可以看做是x_ij在说话人空间中的特征表示。在识别打分阶段，如果两条语音的h_i特征相同的似然度越大，那么这两条语音就更确定地属于同一个说话人。4)模型训练：μFh_iGw_ij∈_ij模型的训练过程采用EM算法迭代求解。5)模型测试：计算两条语音是否由说话人空间中的特征h_i生成，或者由h_i生成的似然程度，使用对数似然比score来计算得分，计算公式如下：

其中η₁，η₂表示两条测试语音，和/>分别表示两条测试语音来自同一空间和来自不同空间假设；/>表示η₁，η₂来自同一空间的概率；/>和/>分别表示属于各自不同空间的概率。通过计算对数似然比，就能衡量两条语音的相似程度，即score得分越高，则两条语音属于同一说话人的可能性越大。

针对发言人讲话风格识别，采用文本聚类算法对于讲话内容进行识别方法，包括句子向量表示和文本聚类两部分，先进行所有句子向量表示，再通过DBSCAN算法对所有的句子向量表示进行文本聚类。

1)句子向量表示

本发明采用Word2vec工具的Skip-gram模型对文本进行词向量训练。该模型是基于Hierarchical Softmax构造的一颗Huffman树，能够根据当前输入的词，从大规模非标注的文本数据中预测上下文词出现的概率，即能够通过当前词语出现的概率来预测周围出现的词。根据词语在窗口中的共现原理，基于窗口滑动来计算词语间的共现概率，这样每个特征词生成的词向量中都包含了一定的文本结构信息和语义信息。

Skip-gram模型包括输入层、投影层和输出层。其中，输入层为当前特征词，词向量W_t∈R^m；输出层为该特征词上下文窗口中词出现的概率；投影层的目的是使目标函数L值最大化。假定有一组词序列w₁，w₂，…，w_N，目标函数的公式记为：

上式中N为词序列的长度；c表示当前特征词的上下文长度，一般取5～10个词长度；p(w_j+1|w_j)为已知当前词w_j出现的概率下，其上下文特征词w_j+1出现的概率。

通过Skip-gram模型训练得到的全部词向量，组成词向量矩阵X∈R^mn。以x_i∈R^m表示特征词i在m维空间中的词向量。特征词之问的相似度，可以使用对应词向量之间的距离来衡量。其中两个向量之间的欧式距离，如下式所示：

d(w_i，w_j)＝|x_i-x_j|₂

式中：d(w_i，w_j)表示特征词i和特征词j的语义距离；x_i和x_j表示特征词w_i和w_j对应的词向量。d(w_i，w_j)的值越小，说明两个特征词之间的语义距离越小，语义越相似，最后各词向量相加得到句子向量。

2)文本聚类

使用聚类法对所有句子向量表示进行聚类时，采用DBSCAN算法，它是一种基于密度的算法。DBSCAN将样本点划分为三类，样本点在这里是向量表示：核心点：核心点邻域内的样本数大于等于最小样本数。这里领域是指定半径内的区域。边缘点：边缘点不是核心点，但是它邻域内有核心点。噪声点：噪声点是除了核心点和边缘点的其它点。这是三类点的视觉效果，其中A是核心点，B、C为边缘点，N为噪声点，见图2所示。

第一步：按照邻域内的样本数，将样本分为核心点和非核心点。

第二步：按照邻域内是否有核心点，将非核心点划分为边缘点和噪声点。

第三步：为每个点初始化一个簇。

第四步：选取一个核心点，遍历它邻域内的样本，将二者的簇合并。

第五步：重复第四步，直到所有核心点都已访问。

在已知发言人的人数下，通过调整该算法的参数半径和最少点个数值来得到对应发言人数的簇数，获得对应的文本簇，再将不同发言人的讲话内容分隔开。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多模态的会议发言人身份无感确认方法，其特征在于：是通过对发言人的表情、声音及讲话风格三个方面进行自动识别区分会议发言人的方法，其中，包括基于深度学习模型的表情识别方法、基于人工智能算法的声音识别方法、基于文本聚类算法的讲话内容识别方法；

其中声音识别方法的具体步骤为：

(1)数据采集及处理

实时采集会议现场语音数据，并将数据间隔4-8秒分段，每一段作为一个处理单元且对数据进行除噪处理；

(2)构建模型及训练

假设训练数据语音中有多个人多条语音，其中定义第i个人的第j条语音为X_ij，构建模型为：X_ij＝μ+Fh_i+Gw_ij+∈_ij，其中μ为数据均值，Fh_i和Gw_ij为空间特征矩阵，∈_ij为噪声协方差；构建后，训练过程采用EM算法迭代进行求解；

(3)模型测试

计算两条语音是否为同一说话人是由说话人空间中的特征h_i生成，或者由h_i生成的似然程度通过对数似然比score来计算得分生成，计算公式如下：

其中η₁，η₂表示两条测试语音，和/>分别表示两条测试语音来自同一空间和来自不同空间假设；/>表示η₁，η₂来自同一空间的概率；/>和/>分别表示η₁，η₂属于各自不同空间的概率。

2.根据权利要求1所述的基于多模态的会议发言人身份无感确认方法，其特征在于：在基于深度学习模型的表情识别方法中，首先采集会议现场发言人脸部照片信息，通过信息预处理包括随机干扰、变形、旋转，再利用Gan网络生成多组训练集，接着采用Faster R-Cnn模型训练样本数据，最终生成深度学习模型。

3.根据权利要求1所述的基于多模态的会议发言人身份无感确认方法，其特征在于：采用文本聚类算法对于讲话内容进行识别方法，包括句子向量表示和文本聚类两部分，先进行所有句子向量表示，再通过DBSCAN算法对所有的句子向量表示进行文本聚类。

4.根据权利要求3所述的基于多模态的会议发言人身份无感确认方法，其特征在于：采用word2vec工具的Skip-gram模型对文本进行词向量训练，组成词向量矩阵X∈R^mn，以x_i∈R^m表示特征词i在m维空间中的词向量，且表达两个向量之间的欧式距离，公式为：d(w_i，w_j)＝|x_i-x_j|₂，其中d(w_i，w_j)表示特征词i和特征词j的语义距离；x_i和x_j表示特征词w_i和w_j对应的词向量。

5.根据权利要求4所述的基于多模态的会议发言人身份无感确认方法，其特征在于：Skip-gram模型包括输入层、投影层和输出层；其中，输入层为当前特征词，词向量记为W_t∈R^m，输出层为该特征词上下文窗口中词出现的概率；投影层用于使目标函数L值最大化。

6.根据权利要求5所述的基于多模态的会议发言人身份无感确认方法，其特征在于：假定有一组词序列w₁，w₂，…，w_N，目标函数的公式记为：

其中，N为词序列的长度；c表示当前特征词的上下文长度，长度为5～10个词长度；p(w_j+1|w_j)为已知当前词w_j出现的概率下，其上下文特征词w_j+1出现的概率。

7.根据权利要求3所述的基于多模态的会议发言人身份无感确认方法，其特征在于：通过DBSCAN算法对所有的句子向量表示进行文本聚类时，在已知发言人的人数下，通过调整该算法的参数半径和最少点个数值来得到对应发言人数的簇数，获得对应的文本簇，再将不同发言人的讲话内容分隔开。