CN108074576A - 审讯场景下的说话人角色分离方法及*** - Google Patents

审讯场景下的说话人角色分离方法及*** Download PDF

Info

Publication number
CN108074576A
CN108074576A CN201711342251.8A CN201711342251A CN108074576A CN 108074576 A CN108074576 A CN 108074576A CN 201711342251 A CN201711342251 A CN 201711342251A CN 108074576 A CN108074576 A CN 108074576A
Authority
CN
China
Prior art keywords
role
speaker
analysis unit
voice
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711342251.8A
Other languages
English (en)
Other versions
CN108074576B (zh
Inventor
柳林
张程风
殷兵
顾雷雷
谢名亮
王建社
刘海波
胡良义
汪睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xun Feizhi Metamessage Science And Technology Ltd
Original Assignee
Xun Feizhi Metamessage Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xun Feizhi Metamessage Science And Technology Ltd filed Critical Xun Feizhi Metamessage Science And Technology Ltd
Priority to CN201711342251.8A priority Critical patent/CN108074576B/zh
Publication of CN108074576A publication Critical patent/CN108074576A/zh
Application granted granted Critical
Publication of CN108074576B publication Critical patent/CN108074576B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种审讯场景下的说话人角色分离方法及***,该方法包括:获取审讯场景下的语音数据;从所述语音数据中提取每个分析单元的角色识别特征,每个分析单元只包含一个说话人语音段;依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型,根据模型输出确定当前分析单元对应的说话人角色;所述说话人角色包括:讯问人和被讯问人。利用本发明,可以准确识别审讯场景下的说话人角色。

Description

审讯场景下的说话人角色分离方法及***
技术领域
本发明涉及语音信号处理领域,具体涉及一种审讯场景下的说话人角色分离方法及***。
背景技术
目前,每年全国有大量的审讯案件处理,检察机关在审讯中需要对审讯情况和问答的内容进行详细记录,相关工作耗费大量的人力。同时,因为个人原因存在记录疏漏或不准确的情况,语音识别技术的发展为解决这个问题提供了有效的途径。
当前审讯录音大多采用普通拾音器设备,可能是一个或者多个,设备一般放置在审讯室的墙边或桌上,对审讯全过程的语音进行录制。但是该种审讯录音设备具有以下缺点:不管是一个拾音器还是多个拾音器,都会同时录制所有人的语音,为后续的回听回看造成诸多不便。
发明内容
本发明实施例提供一种审讯场景下的说话人角色分离方法及***,以准确识别审讯场景下的说话人角色。
为此,本发明提供如下技术方案:
一种审讯场景下的说话人角色分离方法,所述方法包括:
获取审讯场景下的语音数据;
从所述语音数据中提取每个分析单元的角色识别特征,每个分析单元只包含一个说话人语音段;
依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型,根据模型输出确定当前分析单元对应的说话人角色;所述说话人角色包括:讯问人和被讯问人。
可选地,按以下方式构建说话人角色识别模型包括:
确定说话人角色识别模型的拓扑结构;
收集大量审讯场景下的语音数据作为训练数据;
标注所述训练数据中每个分析单元对应的说话人角色;
提取每个分析单元的角色识别特征;
根据提取的角色识别特征及标注信息训练得到模型参数。
可选地,所述方法还包括:
对所述语音数据进行端点检测,得到各有效语音段;
对所述有效语音段进行分割,得到每个分析单元。
可选地,所述角色识别特征包括以下任意一项或多项:说话人类别特征、语音特征、语义特征;所述语音特征包括平均能量、和/或语音连惯性;所述语义特征包括:句式、和/或时长。
可选地,所述方法还包括:
预先对审讯场景下各说话人进行语音采集,并根据采集的语音数据建立各说话人对应的声纹模型;
利用所述说话人对应的声纹模型确定每个分析单元的说话人类别。
可选地,所述方法还包括:
预先构建所述审讯场景下的句式判断模型;
确定每个分析单元的句式包括:
提取所述分析单元中各有效语音段的词向量,将所述词向量输入所述句式判断模型,根据所述句式判断模型的输出确定各有效语音段的句式。
可选地,所述角色识别特征还包括以下任意一项或多项:讯问人的位置、讯问人的数量、案件类型。
一种审讯场景下的说话人角色分离***,所述***包括:
语音数据获取模块,用于获取审讯场景下的语音数据;
特征提取模块,用于从所述语音数据中提取每个分析单元的角色识别特征,每个分析单元只包含一个说话人语音段;
角色分离模块,用于依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型,根据模型输出确定当前分析单元对应的说话人角色;所述说话人角色包括:讯问人和被讯问人。
可选地,所述***还包括:
角色识别模型构建模块,用于构建说话人角色识别模型;所述角色识别模型构建模块包括:
拓扑结构确定单元,用于确定说话人角色识别模型的拓扑结构;
数据收集单元,用于收集大量审讯场景下的语音数据作为训练数据;
标注单元,用于标注所述训练数据中每个分析单元对应的说话人角色;
特征提取单元,用于提取每个分析单元的角色识别特征;
参数训练单元,用于根据提取的角色识别特征及标注信息训练得到模型参数。
可选地,所述***还包括:
端点检测模块,用于对所述语音数据进行端点检测,得到各有效语音段;
分割模块,用于对所述有效语音段进行分割,得到每个分析单元。
可选地,所述角色识别特征包括以下任意一项或多项:说话人类别特征、语音特征、语义特征;所述语音特征包括平均能量、和/或语音连惯性;所述语义特征包括:句式、和/或时长。
可选地,所述***还包括:
声纹注册模块,用于预先对审讯场景下各说话人进行语音采集,并根据采集的语音数据建立各说话人对应的声纹模型;
所述特征提取模块利用所述说话人对应的声纹模型确定每个分析单元的说话人类别。
可选地,所述***还包括:
句式判断模型构建模块,用于预先构建所述审讯场景下的句式判断模型;
所述特征提取模块提取所述分析单元中各有效语音段的词向量,将所述词向量输入所述句式判断模型,根据所述句式判断模型的输出确定各有效语音段的句式。
可选地,所述角色识别特征还包括以下任意一项或多项:讯问人的位置、讯问人的数量、案件类型。
本发明实施例提供的审讯场景下的说话人角色分离方法及***,充分考虑审讯场景下的对话特点、不同角色说话人特点等信息,首先从审讯场景下的语音数据中提取每个分析单元的角色识别特征,基于预先构建的说话人角色识别模型,以及所述角色识别特征,实现讯问人和被讯问人这两种角色的自动识别,进而可以为语音转写提供有效的辅助信息。
进一步地,利用多维度的角色识别特征解决审讯场景下角色分离问题,充分保证了不同说话人角色分离的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例审讯场景下的说话人角色分离方法的流程图;
图2是本发明实施例中构建说话人角色识别模型的流程图;
图3是本发明实施例审讯场景下的说话人角色分离***的结构示意图;
图4是本发明实施例中角色识别模型构建模块的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例审讯场景下的说话人角色分离方法的流程图,包括以下步骤:
步骤101,获取审讯场景下的语音数据。
步骤102,从所述语音数据中提取每个分析单元的角色识别特征,每个分析单元只包含一个说话人语音段。
每个分析单元是一个完整的有效语音段,具体地,在确定每个分析单元时,可以先对所述语音数据进行端点检测,得到各有效语音段,然后再对所述有效语音段进行分割,得到各分析单元。
具体地,可以使用VAD(Voice Activity Detection,语音活动检测)技术,在信号中找到有效语音段,去除非语音段,从而可以精确地切分出每个有效语音段,并且标记出每个有效语音段的准确位置。
在对所述有效语音段进行分割时,首先提取所述有效语音段的语音信号特征,所述语音信号特征可以是PLP(Perceptual Linear Predictive,感知线性预测系数)、MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)、LPC(Linear PredictionCoefficient,线性预测系数)等;然后基于提取的语音信号特征,按照贝叶斯信息准则,对有效语音段进行说话人变化点检测,根据检测到的说话人变化点,将有效语音段分割成多个语音子段,每个语音子段即一个分析单元。每个语音子段对应了一个说话人,即为一个完整语音段,每个完整语音段包括一个或多个有效语音段。进一步地,还可以对所述语音子段进行聚类,得到多个语音信号类,所述语音信号类的数目大于等于说话人数目。
当然,也可以采用深度学习的说话人分离技术,得到每个语音信号类。
所述角色识别特征包括以下任意一种或多种:说话人类别特征、语音特征、语义特征。其中,所述语音特征包括平均能量、和/或语音连惯性;所述语义特征包括:句式、和/或时长。
下面对上述各特征分别进行详细说明。
1.说话人类别
对于每个语音信号类,可以利用说话人声纹模型,确定该类语音信号的说话人类别,即具体为哪一个说话人。
所述说话人声纹模型可以预先通过声纹注册过程来建立,具体地,对审讯场景下各说话人(包括讯问人和被讯问人)进行语音采集,并根据采集的语音数据建立各说话人对应的声纹模型。所述声纹模型的构建可以采用现有技术,比如首先提取语音数据的声纹特征,再基于声学特征构建声纹模型,如基于说话人因子向量构建声纹模型。当然,所述声纹模型还可以为高斯混合模型、隐马尔可夫模型、动态时间规整模型、向量化模型等,对此本发明实施例不做限定。
对各说话人进行语音采集可以通过麦克风现场采集,也可以通过录音设备采集,当然,也可以通过通讯设备比如移动电话远程采集。
为了使采集的各说话人的注册语音数据满足注册要求,还可以通过一定的规则对所述注册语音数据进行处理,例如去掉语音中能量较低、截幅、振铃、彩铃、多个说话人、有效时长较短等的语音数据。另外,还要保证有效语音时长满足注册要求。
比如,设定以下规则:
1)当采集的注册语音的能量低于能量阈值Te或截幅、并且占整个有效语音段的比例大于比例阈值P时,直接剔除,不使用该语音;
2)当采集的注册语音段中含有振铃、彩铃时,人工去除振铃、彩铃,并且保证有效语音长度满足要求,否则直接剔除,不使用该语音;
3)当采集的注册语音段中含有多个说话人语音,保证剩余语音类纯度的情况下,人工去除非目标人语音,并且保证有效语音长度满足要求,否则直接剔除,不使用该语音。
2.平均能量
所述平均能量定义为一个分析单元单位时间内的能量均值,即将所述分析单元中所有有效语音段的能量除以有效时长,得到的值即为能量均值。
3.语音连惯性
在审讯的时候,由于被讯问人心理、精神状态等问题,导致说话具有一定的不连续性,具体表现为语速慢、说话磕巴不连续、语义前后不一致或矛盾等。因此,在本发明实施例中,可以将语音连惯性作为角色识别特征之一,所述语音连贯性可以是一个一维向量,也可以是根据分析单元内单位时间有效字数、连续两有效语音之间的时间间隔得到的N维向量,N的取值取决于分析单元内有效语音段的数目。
4.句式
在审讯场景下,讯问人和被讯问人说话的语义信息具有较明显的差异,表现为讯问人讯问过程中常采用一些固定的问话模板,且多包含疑问和质询语气,疑问句较多;被讯问人说话无固定模式,且常包含肯定、否定、陈述语气,陈述句较多。
鉴于上述特点,在本发明实施例中,可以预先构建审讯场景下的句式判断模型,基于该句式判断模型确定每个分析单元的句式。
所述句式判断模型的构建可以基于一些关键词/字列表,如,请问、吗、啊、是否等,收集一些审讯人常用句式,训练得到句式判断模型。所述句式判断模型可以采用回归模型或分类模型,模型的输入为所述分析单元中各有效语音段的词向量,模型的输出具体可以是直接的句式类型结果,也可以是属于每种句式类型的概率。
5.时长
在审讯场景下,通常讯问人对应的分析单元说话时长往往较短,而被讯问人对应的分析单元说话时长较长,因此将该特征加入到角色识别判断中,可以进一步提高角色识别判断的准确性。
步骤103,依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型,根据模型输出确定当前分析单元对应的说话人角色;所述说话人角色包括:讯问人和被讯问人。
如图2所示,是本发明实施例中构建说话人角色识别模型的流程图,包括以下步骤:
步骤201,确定说话人角色识别模型的拓扑结构;
在本发明实施例中,说话人角色识别模型的拓扑结构可以采用DNN、RNN、CNN、SVM(支持向量机)等,以DNN为例,所述拓扑结构包括输入层、隐层、输出层。
步骤202,收集大量审讯场景下的语音数据作为训练数据;
步骤203,标注所述训练数据中每个分析单元对应的说话人角色;
所述分析单元如前所述,是一个完整的有效语音段,具体地,在确定每个分析单元时,可以先对所述训练数据进行端点检测,得到各有效语音段,然后再对所述有效语音段进行分割,得到各分析单元。
步骤204,提取每个分析单元的角色识别特征;
所述角色识别特征如前面所述,可以包括以下任意一项或多项:说话人类别特征、语音特征、语义特征;所述语音特征包括平均能量、和/或语音连惯性;所述语义特征包括:句式、和/或时长。各角色识别特征的具体含义在前面已有详细说明,在此不再赘述。需要说明的是,上述各角色识别特征,可以直接为其数值,即一维向量。
步骤205,根据提取的角色识别特征及标注信息训练得到模型参数。
本发明实施例提供的审讯场景下的说话人角色分离方法,充分考虑审讯场景下的对话特点、不同角色说话人特点等信息,首先从审讯场景下的语音数据中提取每个分析单元的角色识别特征,基于预先构建的说话人角色识别模型,以及所述角色识别特征,实现讯问人和被讯问人这两种角色的自动识别。
进一步地,考虑到在审讯场景下,被讯问人为一人,而讯问人通常为一人或多人,而且,为了考虑设备的安全以及录音的效果及有效性,通常需要将录音设备放置在审讯桌上,并远离被讯问人一方。因此,讯问人和被讯问人语音段的能量会因距离录音设备的远近而有明显的差异,因此,在本发明方法另一实施例中,还可以将讯问人的位置和/或数量这些特征作为角色识别特征,利用多维度的角色识别特征对审讯场景下不同角色进行自动识别,充分保证了不同说话人角色分离的准确性。
本发明实施例提供的审讯场景下的说话人角色分离方法,可以基于不同审讯场景的自身特点,构建针对该审订场景的说话人角色识别模型,利用该说话人角色识别模型对该审讯场景中的说话人角色进行识别。所述审讯场景比如可以是刑事案件审讯场景、经济案件审讯场景等。
进一步地,还可以综合不同案件审讯特点,收集大量不同案件审讯场景下的语音数据进行说话人角色识别模型训练,由于案件类型通常在审讯前都已经确定,因此在该模型训练中,可以将案件类型作为所述角色识别特征中的一个向量,提高不同审讯场景下说话人角色识别的准确性。
相应地,本发明实施例还提供一种审讯场景下的说话人角色分离***,如图3所示,是该***的一种结构示意图。
在该实施例中,所述***包括:
语音数据获取模块301,用于获取审讯场景下的语音数据;
特征提取模块302,用于从所述语音数据中提取每个分析单元的角色识别特征,每个分析单元只包含一个说话人语音段;
角色分离模块303,用于依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型,根据模型输出确定当前分析单元对应的说话人角色;所述说话人角色包括:讯问人和被讯问人。
每个分析单元对应了一个说话人,包括一个或多个有效语音段。
进一步地,在本发明***另一实施例中,还可包括:端点检测模块和分割模块,其中:
所述端点检测模块用于对所述语音数据进行端点检测,得到各有效语音段,比如可以使用VAD技术得到各有效语音段;
所述分割模块用于对所述有效语音段进行分割,得到每个分析单元,具体可以提取有效语音段的语音信号特征,所述语音信号特征可以是PLP、MFCC、LPC等;然后基于提取的语音信号特征,按照贝叶斯信息准则,对有效语音段进行说话人变化点检测,根据检测到的说话人变化点,将有效语音段分割成多个完整语音段。
上述特征提取模块302在提取所述分析单元的说话人类别特征时,
可以利用预先建立的各说话人对应的声纹模型确定每个分析单元的说话人类别。所述声纹模型可以由相应的声纹注册模块(未图示)来预先构建,具体地,对审讯场景下各说话人进行语音采集,并根据采集的语音数据建立各说话人对应的声纹模型。
所述声纹注册模块可以作为本发明***的一部分,也可以独立于本***,对此本发明实施例不做限定。
上述特征提取模块303在提取所述分析单元的句式特征时,可以根据预先构建的审讯场景下的句式判断模型来确定每个分析单元中包含的句式信息。
所述句式判断模型可以由相应的句式判断模型构建模块(未图示)预先构建,具体地,基于一些关键词/字列表,如,请问、吗、啊、是否等,收集一些审讯人常用句式,训练得到句式判断模型。
相应地,所述特征提取模块从所述分析单元中每个有效语音段提取词向量,将所述词向量输入所述句式判断模型,根据所述句式判断模型的输出确定所述分析单元中每个有效语音段的句式。
上述说话人角色识别模型可以由相应的角色识别模型构建模块采用离线方式构建,所述角色识别模型构建模块可以作为本发明***的一部分,也可以独立于本***,对此本发明实施例不做限定。
如图4所示,是本发明实施例中角色识别模型构建模块的结构示意图,包括以下各单元:
拓扑结构确定单元401,用于确定说话人角色识别模型的拓扑结构;
数据收集单元402,用于收集大量审讯场景下的语音数据作为训练数据;
标注单元403,用于标注所述训练数据中每个分析单元对应的说话人角色;
特征提取单元404,用于提取每个分析单元的角色识别特征;
参数训练单元405,用于根据提取的角色识别特征及标注信息训练得到模型参数。
在本发明实施例中,所述角色识别特征包括以下任意一项或多项:说话人类别特征、语音特征、语义特征;所述语音特征包括平均能量、和/或语音连惯性;所述语义特征包括:句式、和/或时长。其中,各特征的具体含义前面已有详细说明,在此不再赘述。
本发明实施例提供的审讯场景下的说话人角色分离***,充分考虑审讯场景下的对话特点、不同角色说话人特点等信息,首先从审讯场景下的语音数据中提取每个分析单元的角色识别特征,基于预先构建的说话人角色识别模型,以及所述角色识别特征,实现讯问人和被讯问人这两种角色的自动识别。
进一步地,考虑到在审讯场景下,被讯问人为一人,而讯问人通常为一人或多人,而且,为了考虑设备的安全以及录音的效果及有效性,通常需要将录音设备放置在审讯桌上,并远离被讯问人一方。因此,讯问人和被讯问人语音段的能量会因距离录音设备的远近而有明显的差异,相应地,在本发明方法另一实施例中,还可以将讯问人的位置及数量这些特征作为角色识别特征,利用多维度的角色识别特征对审讯场景下不同角色进行自动识别,充分保证了不同说话人角色分离的准确性。
本发明实施例提供的审讯场景下的说话人角色分离***,可以基于不同审讯场景的自身特点,构建针对该审讯场景的说话人角色识别模型,利用该说话人角色识别模型对该审讯场景中的说话人角色进行识别。所述审讯场景比如可以是刑事案件审讯场景、经济案件审讯场景等。
进一步地,还可以综合不同案件审讯特点,收集大量不同案件审讯场景下的语音数据进行说话人角色识别模型训练,由于案件类型通常在审讯前都已经确定,因此在该模型训练中,可以将案件类型作为所述角色识别特征中的一个向量,提高不同审讯场景下说话人角色识别的准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。而且,以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及***;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种审讯场景下的说话人角色分离方法,其特征在于,所述方法包括:
获取审讯场景下的语音数据;
从所述语音数据中提取每个分析单元的角色识别特征,每个分析单元只包含一个说话人语音段;
依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型,根据模型输出确定当前分析单元对应的说话人角色;所述说话人角色包括:讯问人和被讯问人。
2.根据权利要求1所述的方法,其特征在于,按以下方式构建说话人角色识别模型包括:
确定说话人角色识别模型的拓扑结构;
收集大量审讯场景下的语音数据作为训练数据;
标注所述训练数据中每个分析单元对应的说话人角色;
提取每个分析单元的角色识别特征;
根据提取的角色识别特征及标注信息训练得到模型参数。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
对所述语音数据进行端点检测,得到各有效语音段;
对所述有效语音段进行分割,得到每个分析单元。
4.根据权利要求1或2所述的方法,其特征在于,所述角色识别特征包括以下任意一项或多项:说话人类别特征、语音特征、语义特征;所述语音特征包括平均能量、和/或语音连惯性;所述语义特征包括:句式、和/或时长。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
预先对审讯场景下各说话人进行语音采集,并根据采集的语音数据建立各说话人对应的声纹模型;
利用所述说话人对应的声纹模型确定每个分析单元的说话人类别。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
预先构建所述审讯场景下的句式判断模型;
确定每个分析单元的句式包括:
提取所述分析单元中各有效语音段的词向量,将所述词向量输入所述句式判断模型,根据所述句式判断模型的输出确定各有效语音段的句式。
7.根据权利要求4所述的方法,其特征在于,所述角色识别特征还包括以下任意一项或多项:讯问人的位置、讯问人的数量、案件类型。
8.一种审讯场景下的说话人角色分离***,其特征在于,所述***包括:
语音数据获取模块,用于获取审讯场景下的语音数据;
特征提取模块,用于从所述语音数据中提取每个分析单元的角色识别特征,每个分析单元只包含一个说话人语音段;
角色分离模块,用于依次将每个分析单元的角色识别特征输入预先构建的说话人角色识别模型,根据模型输出确定当前分析单元对应的说话人角色;所述说话人角色包括:讯问人和被讯问人。
9.根据权利要求8所述的***,其特征在于,所述***还包括:
角色识别模型构建模块,用于构建说话人角色识别模型;所述角色识别模型构建模块包括:
拓扑结构确定单元,用于确定说话人角色识别模型的拓扑结构;
数据收集单元,用于收集大量审讯场景下的语音数据作为训练数据;
标注单元,用于标注所述训练数据中每个分析单元对应的说话人角色;
特征提取单元,用于提取每个分析单元的角色识别特征;
参数训练单元,用于根据提取的角色识别特征及标注信息训练得到模型参数。
10.根据权利要求8或9所述的***,其特征在于,所述***还包括:
端点检测模块,用于对所述语音数据进行端点检测,得到各有效语音段;
分割模块,用于对所述有效语音段进行分割,得到每个分析单元。
11.根据权利要求8或9所述的***,其特征在于,所述角色识别特征包括以下任意一项或多项:说话人类别特征、语音特征、语义特征;所述语音特征包括平均能量、和/或语音连惯性;所述语义特征包括:句式、和/或时长。
12.根据权利要求11所述的***,其特征在于,所述***还包括:
声纹注册模块,用于预先对审讯场景下各说话人进行语音采集,并根据采集的语音数据建立各说话人对应的声纹模型;
所述特征提取模块利用所述说话人对应的声纹模型确定每个分析单元的说话人类别。
13.根据权利要求11所述的***,其特征在于,所述***还包括:
句式判断模型构建模块,用于预先构建所述审讯场景下的句式判断模型;
所述特征提取模块提取所述分析单元中各有效语音段的词向量,将所述词向量输入所述句式判断模型,根据所述句式判断模型的输出确定各有效语音段的句式。
14.根据权利要求11所述的***,其特征在于,所述角色识别特征还包括以下任意一项或多项:讯问人的位置、讯问人的数量、案件类型。
CN201711342251.8A 2017-12-14 2017-12-14 审讯场景下的说话人角色分离方法及*** Active CN108074576B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711342251.8A CN108074576B (zh) 2017-12-14 2017-12-14 审讯场景下的说话人角色分离方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711342251.8A CN108074576B (zh) 2017-12-14 2017-12-14 审讯场景下的说话人角色分离方法及***

Publications (2)

Publication Number Publication Date
CN108074576A true CN108074576A (zh) 2018-05-25
CN108074576B CN108074576B (zh) 2022-04-08

Family

ID=62158591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711342251.8A Active CN108074576B (zh) 2017-12-14 2017-12-14 审讯场景下的说话人角色分离方法及***

Country Status (1)

Country Link
CN (1) CN108074576B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735200A (zh) * 2018-06-27 2018-11-02 北京灵伴即时智能科技有限公司 一种说话人自动标注方法
CN109243446A (zh) * 2018-10-01 2019-01-18 厦门快商通信息技术有限公司 一种基于rnn网络的语音唤醒方法
CN109256150A (zh) * 2018-10-12 2019-01-22 北京创景咨询有限公司 基于机器学习的语音情感识别***及方法
CN110310683A (zh) * 2019-07-01 2019-10-08 科大讯飞股份有限公司 录音处理方法及装置
CN110517667A (zh) * 2019-09-03 2019-11-29 龙马智芯(珠海横琴)科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN110688640A (zh) * 2019-09-03 2020-01-14 深圳市声扬科技有限公司 一种基于声纹识别的数据处理方法、装置、***及服务器
CN110853666A (zh) * 2019-12-17 2020-02-28 科大讯飞股份有限公司 一种说话人分离方法、装置、设备及存储介质
CN110858476A (zh) * 2018-08-24 2020-03-03 北京紫冬认知科技有限公司 一种基于麦克风阵列的声音采集方法及装置
CN111105801A (zh) * 2019-12-03 2020-05-05 云知声智能科技股份有限公司 一种角色语音分离方法及装置
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN111444701A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 问讯提示方法及装置
CN111524527A (zh) * 2020-04-30 2020-08-11 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111627448A (zh) * 2020-05-15 2020-09-04 公安部第三研究所 实现基于语音大数据的审讯与谈话控制***及其方法
CN112861509A (zh) * 2021-02-08 2021-05-28 青牛智胜(深圳)科技有限公司 基于多头注意力机制的角色分析方法及***
CN113707173A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质
CN113744742A (zh) * 2020-05-29 2021-12-03 中国电信股份有限公司 对话场景下的角色识别方法、装置和***

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认***
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及***
CN102664011A (zh) * 2012-05-17 2012-09-12 吉林大学 一种快速说话人识别方法
CN102968991A (zh) * 2012-11-29 2013-03-13 华为技术有限公司 一种语音会议纪要的分类方法、设备和***
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及***
US20130253931A1 (en) * 2010-12-10 2013-09-26 Haifeng Shen Modeling device and method for speaker recognition, and speaker recognition system
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及***
US20160093129A1 (en) * 2014-09-26 2016-03-31 Honeywell International Inc. System and Method of Enhanced Identity Recognition Incorporating Random Actions
CN105913849A (zh) * 2015-11-27 2016-08-31 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法
CN106528530A (zh) * 2016-10-24 2017-03-22 北京光年无限科技有限公司 一种确定句子类型的方法及装置
CN106653002A (zh) * 2016-12-15 2017-05-10 咪咕数字传媒有限公司 一种文字直播方法及平台
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议***
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认***
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
US20130253931A1 (en) * 2010-12-10 2013-09-26 Haifeng Shen Modeling device and method for speaker recognition, and speaker recognition system
CN102270451A (zh) * 2011-08-18 2011-12-07 安徽科大讯飞信息科技股份有限公司 说话人识别方法及***
CN102664011A (zh) * 2012-05-17 2012-09-12 吉林大学 一种快速说话人识别方法
CN102968991A (zh) * 2012-11-29 2013-03-13 华为技术有限公司 一种语音会议纪要的分类方法、设备和***
CN103258535A (zh) * 2013-05-30 2013-08-21 中国人民财产保险股份有限公司 基于声纹识别的身份识别方法及***
US20160093129A1 (en) * 2014-09-26 2016-03-31 Honeywell International Inc. System and Method of Enhanced Identity Recognition Incorporating Random Actions
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及***
CN106683661A (zh) * 2015-11-05 2017-05-17 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN105913849A (zh) * 2015-11-27 2016-08-31 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法
CN107274904A (zh) * 2016-04-07 2017-10-20 富士通株式会社 说话人识别方法和说话人识别设备
CN106528530A (zh) * 2016-10-24 2017-03-22 北京光年无限科技有限公司 一种确定句子类型的方法及装置
CN106653002A (zh) * 2016-12-15 2017-05-10 咪咕数字传媒有限公司 一种文字直播方法及平台
CN106657865A (zh) * 2016-12-16 2017-05-10 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议***
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李威: "多人会话语音中的说话人角色分析", 《中国优秀博士学位论文全文数据库》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735200A (zh) * 2018-06-27 2018-11-02 北京灵伴即时智能科技有限公司 一种说话人自动标注方法
CN110858476B (zh) * 2018-08-24 2022-09-27 北京紫冬认知科技有限公司 一种基于麦克风阵列的声音采集方法及装置
CN110858476A (zh) * 2018-08-24 2020-03-03 北京紫冬认知科技有限公司 一种基于麦克风阵列的声音采集方法及装置
CN109243446A (zh) * 2018-10-01 2019-01-18 厦门快商通信息技术有限公司 一种基于rnn网络的语音唤醒方法
CN109256150A (zh) * 2018-10-12 2019-01-22 北京创景咨询有限公司 基于机器学习的语音情感识别***及方法
CN109256150B (zh) * 2018-10-12 2021-11-30 北京创景咨询有限公司 基于机器学习的语音情感识别***及方法
CN111199741A (zh) * 2018-11-20 2020-05-26 阿里巴巴集团控股有限公司 声纹识别方法、声纹验证方法、装置、计算设备及介质
CN111444701A (zh) * 2019-01-16 2020-07-24 阿里巴巴集团控股有限公司 问讯提示方法及装置
CN110310683A (zh) * 2019-07-01 2019-10-08 科大讯飞股份有限公司 录音处理方法及装置
CN110310683B (zh) * 2019-07-01 2021-07-06 科大讯飞股份有限公司 录音处理方法及装置
CN110688640A (zh) * 2019-09-03 2020-01-14 深圳市声扬科技有限公司 一种基于声纹识别的数据处理方法、装置、***及服务器
CN110517667A (zh) * 2019-09-03 2019-11-29 龙马智芯(珠海横琴)科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN111105801A (zh) * 2019-12-03 2020-05-05 云知声智能科技股份有限公司 一种角色语音分离方法及装置
CN111105801B (zh) * 2019-12-03 2022-04-01 云知声智能科技股份有限公司 一种角色语音分离方法及装置
CN110853666A (zh) * 2019-12-17 2020-02-28 科大讯飞股份有限公司 一种说话人分离方法、装置、设备及存储介质
CN111524527A (zh) * 2020-04-30 2020-08-11 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111524527B (zh) * 2020-04-30 2023-08-22 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111627448A (zh) * 2020-05-15 2020-09-04 公安部第三研究所 实现基于语音大数据的审讯与谈话控制***及其方法
CN113744742A (zh) * 2020-05-29 2021-12-03 中国电信股份有限公司 对话场景下的角色识别方法、装置和***
CN113744742B (zh) * 2020-05-29 2024-01-30 中国电信股份有限公司 对话场景下的角色识别方法、装置和***
CN112861509A (zh) * 2021-02-08 2021-05-28 青牛智胜(深圳)科技有限公司 基于多头注意力机制的角色分析方法及***
CN113707173A (zh) * 2021-08-30 2021-11-26 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质
CN113707173B (zh) * 2021-08-30 2023-12-29 平安科技(深圳)有限公司 基于音频切分的语音分离方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108074576B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN108074576A (zh) 审讯场景下的说话人角色分离方法及***
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN108320733B (zh) 语音数据处理方法及装置、存储介质、电子设备
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及***
CN107437415B (zh) 一种智能语音交互方法及***
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN105679310A (zh) 一种用于语音识别方法及***
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN111105785B (zh) 一种文本韵律边界识别的方法及装置
CN108877769B (zh) 识别方言种类的方法和装置
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
CN108735200A (zh) 一种说话人自动标注方法
CN111581348A (zh) 一种基于知识图谱的查询分析***
CN106356054A (zh) 一种基于语音识别的农产品信息采集方法和***
Kumar et al. Machine learning based speech emotions recognition system
CN117198338B (zh) 一种基于人工智能的对讲机声纹识别方法及***
CN110808050B (zh) 语音识别方法及智能设备
CN110853669A (zh) 音频识别方法、装置及设备
CN114254096A (zh) 一种基于交互机器人对话的多模态情感预测方法及***
CN112309398B (zh) 工作时长监控方法、装置、电子设备和存储介质
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN115063155B (zh) 一种数据标注方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant