CN110556114A - 基于注意力机制的通话人识别方法及装置 - Google Patents

基于注意力机制的通话人识别方法及装置 Download PDF

Info

Publication number
CN110556114A
CN110556114A CN201910684343.7A CN201910684343A CN110556114A CN 110556114 A CN110556114 A CN 110556114A CN 201910684343 A CN201910684343 A CN 201910684343A CN 110556114 A CN110556114 A CN 110556114A
Authority
CN
China
Prior art keywords
tested
speaker
call
voice
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910684343.7A
Other languages
English (en)
Other versions
CN110556114B (zh
Inventor
林格平
戚梦苑
沈亮
李娅强
刘发强
孙旭东
孙晓晨
宁珊
蔡文强
王玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
National Computer Network and Information Security Management Center
Original Assignee
Beijing University of Posts and Telecommunications
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, National Computer Network and Information Security Management Center filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910684343.7A priority Critical patent/CN110556114B/zh
Publication of CN110556114A publication Critical patent/CN110556114A/zh
Application granted granted Critical
Publication of CN110556114B publication Critical patent/CN110556114B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/64Automatic arrangements for answering calls; Automatic arrangements for recording messages for absent subscribers; Arrangements for recording conversations
    • H04M1/65Recording arrangements for recording a message from the calling party
    • H04M1/656Recording arrangements for recording a message from the calling party for recording conversations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72454User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to context-related or environment-related conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种基于注意力机制的说话人识别方法及装置,包括如下步骤:采集多个被测试通话人的通话录音和测试通话人的通话录音;根据所述被测试通话人对应的通话录音,建立通话人语音库;采用基于注意力的神经网络对所述被测试通话人语音进行训练,获得训练模型;存储所述测试通话人的通话录音,获得录音文件;将所述录音文件采用所述训练模型识别所述被测试通话人是否目标通话人。通过采用基于注意力的神经网络对所述被测试通话人语音进行训练,获得训练模型,采用训练模型识别所述被测试通话人,确认了拨号码对应的主人的一致性,避免了由于通话人身份被仿冒带来的通信安全隐患,进一步提高了通话过程中的信息的安全性。

Description

基于注意力机制的通话人识别方法及装置
技术领域
本发明涉及语音识别领域,特别涉及基于注意力机制的通话人识别方法及装置。
背景技术
语音是人类生产生活中最直接也是最主要的交流方式,人的语音中包含了语义信息、语言或者方言信息、信道信息等。随着计算机技术的不断进步与发展及网络时代的到来,有越来越多的措施去伪装说话人的身份。
在通信过程中,确定说话者的身份有利于确定通信的安全。现有技术中的说话人识别方式有利用KL散度的近似值作为说话人之间相似度的度量标准、利用BP神经网络进行说话人的识别、利用MFCC和GFCC的混合特征进行说话人识别等。然而,大部分技术的应用场景都是基于智能家居,如扫地机器人等根据声音去识别说话人是否为自己的主人。现有技术中并没有针对通信过程中的说话人识别方法,更没有对通信过程中语音的静默过程进行考虑。
现有技术中的语音识别的方法多数适用于对外界直接获取的语音信号进行识别的场景,缺乏在通信过程中对通话人的语音识别方法,存在通话人身份可被仿冒的安全隐患。
发明内容
本发明的目的是提出一种基于注意力机制的通话人识别方法及装置,以解决上述技术问题。
为实现上述目的,本发明提供了如下方案:
本发明实施例的第一个方面,提供了一种基于注意力机制的通话人识别方法,包括如下步骤:
采集多个被测试通话人的通话录音和测试通话人的通话录音;
根据被测试通话人对应的通话录音,建立通话人语音库;
采用基于注意力的神经网络对被测试通话人语音进行训练,获得训练模型;
存储测试通话人的通话录音,获得录音文件;
将录音文件采用训练模型识别被测试通话人是否为目标通话人。
可选的,步骤采集多个被测试通话人的通话录音和测试通话人的通话录音,包括:
测试方使用智能手机在通话过程中的内置录音功能录制被测试通话人在通话过程的语音;在通话过程中使用***自带的通话录音功能,需要明确手机设备型号,录音文件保存格式,通话时外部环境特征;并将通话录音保存为Wave格式的无损文件形式。
可选的,步骤根据所述被测试通话人对应的通话录音,建立通话人语音库,包括:
获取被测试通话人身份与被测试语音的对应关系;
根据对应关系建立通话人语音库,通话人语音库中包括被识别方通话音频数据、被测试通话人身份信息、被测试通话人环境特性、测试方录制设备信息、测试方环境特性、通话时长、通话时间、通话音量。
可选的,步骤采用基于注意力的神经网络对所述被测试通话人语音进行训练,获得训练模型,包括:
将录音文件采用维纳滤波器进行去噪处理,获得预处理录音文件;
采用基于注意力机制的时间递归神经网络训练所述预处理录音文件,获得训练模型。
可选的,步骤采用基于注意力机制的时间递归神经网络训练预处理录音文件,获得训练模型,包括:
将预处理录音文件通过时间递归神经网络的输入层提取语音特征,获得预处理录音文件中的语音的梅尔倒谱系数特征向量;
将梅尔倒谱系数特征向量发送至全连接层,全连接层(可以看作为自编码器)对梅尔倒谱系数特征向量进行特征提取,获得预处理录音文件中的语音的第二特征向量;
将第二特征向量发送至基于注意力的时间递归神经网络层,基于注意力的时间递归神经网络层包括多个LSTM层,通过多个LSTM层处理第二特征向量获得处理数据;
将处理数据发送至归一化指数函数层,归一化指数函数层将处理数据与人名对应转换,获得处理数据对应的人名。
可选的,步骤将录音文件采用训练模型识别被测试通话人是否目标通话人,包括:
判断通话人语音库中是否存在待测试语音,如果是,识别出通话人语音库中已有的被测试人;否则,如果待识别的音频文件属于新测试人,则会被识别为最相近的已有被测试人,即置信度值最大的已有分类。
为了实现上述目的,本发明还提供了如下方案:
基于注意力机制的通话人识别装置,包括:
收集模块,用于采集多个被测试通话人的通话录音和测试通话人的通话录音;
语音库建立模块,用于根据被测试通话人对应的通话录音,建立通话人语音库;
训练模块,用于采用基于注意力的神经网络对被测试通话人语音进行训练,获得训练模型;
文件存储模块,用于存储测试通话人的通话录音,获得录音文件;
测试模块,用于将录音文件采用训练模型识别被测试通话人是否目标通话人。
可选的,收集模块具体包括:
测试方单元,用于测试方使用智能手机在通话过程中的内置录音功能录制被测试通话人在通话过程的语音;
录音单元,用于在通话过程中使用***自带的通话录音功能,需要明确手机设备型号,录音文件保存格式,通话时外部环境特征;并将通话录音保存为Wave格式的无损文件形式。
可选的,语音库建立模块具体包括:
对应关系获取单元,用于获取被测试通话人身份与被测试语音的对应关系;
语音库建立单元,用于根据对应关系建立通话人语音库,通话人语音库中包括被识别方通话音频数据、被测试通话人身份信息、被测试通话人环境特性、测试方录制设备信息、测试方环境特性、通话时长、通话时间、通话音量。
可选的,训练模块具体包括:
预处理单元,用于将录音文件采用维纳滤波器进行去噪处理,获得预处理录音文件;
训练模型建立单元,用于采用基于注意力机制的时间递归神经网络训练预处理录音文件,获得训练模型。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了基于注意力机制的说话人识别方法及装置,通过采用基于注意力的神经网络对被测试通话人语音进行训练,获得训练模型,采用训练模型识别被测试通话人,能在仅有音频的情况下利用已有通信语音库确定通信过程中的说话,以便用户通过号码显示通话人与实际通话人进行匹配,从而进行可靠性的判断,可有效防御通过仿冒通话人语音而进行的诈骗等行为,间接保护用户通信安全。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1基于注意力机制的通话人识别方法的一个实施例的流程示意图;
图2为本发明实施例2提供的一种基于注意力机制的说话人识别方法的流程图;
图3为本发明实施例3基于注意力机制的通话人识别装置的结构示意图;
图4为本发明提供的神经网络结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例1提供一种基于注意力机制的说话人识别方法的一个实施例,如图1所示,该方法,包括如下步骤:
S101:采集多个被测试通话人的通话录音和测试通话人的通话录音;
S102:根据被测试通话人对应的通话录音,建立通话人语音库;
S103:采用基于注意力的神经网络对被测试通话人语音进行训练,获得训练模型;
S104:存储测试通话人的通话录音,获得录音文件;
S105:将录音文件采用训练模型识别被测试通话人是否为目标通话人。
在接听过程中,测试方对通话进行录音,后续将通话录音与被测试通话人对应,构建被测试通话人语音库;
利用基于注意力的LSTM神经网络对通话人语音特征进行学习,生成通话人识别模型;
在进行通话人识别时,测试方对通话过程进行录音,并将录音文件保存成wave的音频文件;
将保存好的音频文件经过维纳滤波器,提取梅尔倒谱系数后输入到训练好的通话人识别模型,进行被测试通话人的识别。
其中基于注意力的时间递归神经网络的使用可以直接利用开源工具tensorflow实现。
其中本发明实例中使用的网络参数为:rnn_size为任一实数,如64,
attn_length为任一实数,如64。需要强调的是本发明的核心是基于注意力机制的通话人识别方法,修改网络参数等针对网络的操作均包含在本发明中。
本发明实施例提供的基于注意力机制的通话人识别,能在仅有音频的情况下利用已有通信语音库确定通信过程中的说话,以便用户通过号码显示通话人与实际通话人进行匹配,从而进行可靠性的判断,间接保护用户通信安全,通过采用训练模型识别被测试通话人是否为目标通话人,通过语音仿冒通话者身份进行通话的行为具有一定的识别能力,提高了用户通话过程中的通话信息的安全性。
实施例2
本发明实施例2提供一种基于注意力机制的说话人识别方法的一个优选实施例。参见图2所示,在该实施例中,该方法包括步骤:
S201:收集用户的通话录音,将通话录音与被测试通话人对应,构建通话人语音库。
测试方使用智能手机在通话过程中的内置录音设备或使用含有录音功能的耳机录制被测试通话人在通话过程的语音。
安卓手机在通话过程中可以使用***自带的通话录音功能,需要明确手机设备型号,录音文件保存格式,通话时外部环境特征(如安静、嘈杂);而苹果手机由于隐私设置***并未提供通话录音功能,可以通过带有录音功能的耳机进行录音,需要明确耳机的品牌、耳机的型号,录音文件保存格式,外部环境特征(如安静、嘈杂)。
当测试方是主叫时,可以在被叫接听后打开智能手机内置录音设备或含有录音功能的耳机;当测试方是被叫时,可以在接听主叫呼叫时打开智能手机内置录音设备或含有录音功能的耳机。
语音库是被测试通话人身份与被测试语音的关联库,目的是为后续的模型训练提供数据。
语音库中包含被识别方通话音频数据;被识别方身份信息(例如:电话号码、姓名、所在地);被叫方环境特性(例如:室内、街道、商店等);测试方录制设备信息(例如:采样频率、降噪特性、音频存储格式等);测试方环境特性(例如:室内、街道、商店等);通话时长;通话时间;通话音量。
S202:利用基于注意力的神经网络对通信人语音进行训练生成训练模型。
具体而言,将语音库中的语音文件进行预处理,使用维纳滤波器进行语音的简单降噪,避免噪声对整个实验过程的影响。
使用的神经网络基于注意力机制的时间递归神经网络,网络结构如图4所示。
S203:测试过程中测试方对通话过程进行录音,并将录音文件保存。
具体而言,要求保存的音频文件格式是无损的,如WAVE、FLAC、APE、ALAC、WavPack等。
其中WAVE通常使用三个参数来表示声音,量化位数,取样频率和采样点振幅。量化位数分为8位,16位,24位三种,声道有单声道和立体声之分,单声道振幅数据为n*1矩阵点,立体声为n*2矩阵点,取样频率一般有11025Hz(11kHz),22050Hz(22kHz)和44100Hz(44kHz)三种,音质出色,但文件体积较大。并记录录音文件的编码方式。
S204:将录音文件输入到训练好的模型,进行被测试通话人的识别。
具体而言,保存好的音频文件要先经过预处理,经过维纳滤波对语音信号进行降噪处理,然后截取成相同长度的语音片段,如10秒,将每个语音片段提取Mel频率倒谱系数特征后输入训练好的模型,进行分类,神经网络模型如图4所示。
神经网络结构包括:
S301为特征输入层,对通信语音库中的语音进行特征工程,提取所需特征,这里提取语音库中语音的梅尔倒谱系数作为特征向量;
S302为全连接层;
S303为基于注意力的时间递归神经网络层;
S304中归一化指数函数层计算的结果;
S305输出层,做编码与人名的转换,用于输出S304中归一化指数函数层计算的结果。
本实施例只能识别出已有的被测试人,即通话人语音库中已有的被测试人,如果待识别的音频文件属于新测试人,则会被识别为最相近的已有被测试人。
本发明提供的实施例2通过采用基于注意力的神经网络对被测试通话人语音进行训练,获得训练模型,采用训练模型识别被测试人通话人,确认了拨号码对应的主人的一致性,避免了通话人身份被仿冒的安全隐患。
实施例3
本发明实施例3还提供一种基于注意力机制的通话人识别装置,如图3所示。
收集模块10,用于构建被测试通话人身份和音频文件对应的被测试通话人语音库。收集模块10中还可细分为电话录音模块11和数据库处理模块12。
电话录音模块11,用于对通话过程进行录音,具体实施方法为测试方有计划或无计划的与被测试通话人产生通话,对通话过程进行录音,并将录音文件保存成如Wave格式的音频文件。
测试方使用智能手机在通话过程中的内置录音设备或使用含有录音功能的耳机录制被测试通话人在通话过程的语音。
安卓手机在通话过程中可以使用***自带的通话录音功能,需要明确手机设备型号,录音文件保存格式,通话时外部环境特征(如安静、嘈杂);而苹果手机由于隐私设置***并未提供通话录音功能,可以通过带有录音功能的耳机进行录音,需要明确耳机的品牌、耳机的型号,录音文件保存格式,外部环境特征(如安静、嘈杂)。
当测试方是主叫时,可以在被叫接听后打开智能手机内置录音设备或含有录音功能的耳机;当测试方是被叫时,可以在接听主叫呼叫时打开智能手机内置录音设备或含有录音功能的耳机。
数据库处理模块12,用于关联音频文件与被测试人身份。
测试方将收集到的音频文件与被测试通话人身份,及音频文件的相关配置信息存入数据库。配置信息中含有被识别方身份信息(例如:电话号码、姓名、所在地);被叫方环境特性(例如:室内、街道、商店等);测试方录制设备信息(例如:采样频率、降噪特性、音频存储格式等);测试方环境特性(例如:室内、街道、商店等);通话时长;通话时间;通话音量的信息。
训练模块20,用来训练被测试人语音库中的音频文件。使用的网络结构模型如图4所示。
具体而言,在此之前还要对音频文件进行降噪处理并提取特征。降噪处理用的是维纳滤波,特征使用的是音频文件的梅尔倒谱系数。这里可以使用Python提供的音频处理模块python_speech_features。
测试模块30,用来识别新音频文件所属的通话人。
在测试过程中,测试方仍通过上述录音方法对与被测试通话人的通话过程进行录音。录音文件进行预处理,即训练模块20中所说的降噪处理和提取特征后将其传入训练好的模型,接收模型的输出结果。
测试模块30只能识别出训练模块20中已有的被测试人,即通话人语音库中已有的被测试人。如果测试模块30中待识别的音频文件属于新测试人,则会被识别为最相近的已有被测试人,最相近的已有被测试人为置信度值最大的已有分类的被测试人。
本发明相比于现有技术具有如下的技术效果:
本发明公开了基于注意力机制的说话人识别方法及装置,通过采用基于注意力的神经网络对所述被测试通话人语音进行训练,获得训练模型,采用训练模型识别所述被测试通话人,确认了拨号码对应的主人的一致性,避免了由于通话人身份被仿冒带来的通信安全隐患,进一步提高了通话过程中的信息的安全性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

Claims (10)

1.基于注意力机制的说话人识别方法,其特征在于,包括如下步骤:
采集多个被测试通话人的通话录音和测试通话人的通话录音;
根据所述被测试通话人对应的通话录音,建立通话人语音库;
采用基于注意力的神经网络对所述被测试通话人语音进行训练,获得训练模型;
存储所述测试通话人的通话录音,获得录音文件;
将所述录音文件采用所述训练模型识别所述被测试通话人是否为目标通话人。
2.根据权利要求1所述的基于注意力机制的说话人识别方法,其特征在于,所述步骤采集多个被测试通话人的通话录音和测试通话人的通话录音,包括:
测试方使用智能手机在通话过程中的内置录音功能录制被测试通话人在通话过程的语音;在通话过程中使用***自带的通话录音功能,需要明确手机设备型号,录音文件保存格式,通话时外部环境特征;并将通话录音保存为Wave格式的无损文件形式。
3.根据权利要求1所述的基于注意力机制的说话人识别方法,其特征在于,所述步骤根据所述被测试通话人对应的通话录音,建立通话人语音库,包括:
获取被测试通话人身份与被测试语音的对应关系;
根据所述对应关系建立通话人语音库,所述通话人语音库中包括被识别方通话音频数据、被测试通话人身份信息、被测试通话人环境特性、测试方录制设备信息、测试方环境特性、通话时长、通话时间、通话音量。
4.根据权利要求1所述的基于注意力机制的说话人识别方法,其特征在于,所述步骤采用基于注意力的神经网络对所述被测试通话人语音进行训练,获得训练模型,包括:
将所述录音文件采用维纳滤波器进行去噪处理,获得预处理录音文件;
采用基于注意力机制的时间递归神经网络训练所述预处理录音文件,获得训练模型。
5.根据权利要求4所述的基于注意力机制的说话人识别方法,其特征在于,所述步骤采用基于注意力机制的时间递归神经网络训练所述预处理录音文件,获得训练模型,包括:
将所述预处理录音文件通过时间递归神经网络的输入层提取语音特征,获得所述预处理录音文件中的语音的梅尔倒谱系数特征向量;
将所述梅尔倒谱系数特征向量发送至全连接层,所述全连接层,对所述梅尔倒谱系数特征向量进行特征提取,获得所述预处理录音文件中的语音的第二特征向量;
将所述第二特征向量发送至基于注意力的时间递归神经网络层,所述基于注意力的时间递归神经网络层包括多个LSTM层,通过所述多个LSTM层处理所述第二特征向量获得处理数据;
将所述处理数据发送至归一化指数函数层,所述归一化指数函数层将所述处理数据与人名对应转换,获得处理数据对应的人名。
6.根据权利要求4所述的基于注意力机制的说话人识别方法,其特征在于,所述步骤将所述录音文件采用所述训练模型识别所述被测试通话人是否目标通话人,包括:
判断所述通话人语音库中是否存在待测试语音,如果是,识别出所述通话人语音库中已有的被测试人;否则,如果待识别的音频文件属于新测试人,则会被识别为最相近的已有被测试人。
7.基于注意力机制的通话人识别装置,其特征在于,包括:
收集模块,用于采集多个被测试通话人的通话录音和测试通话人的通话录音;
语音库建立模块,用于根据所述被测试通话人对应的通话录音,建立通话人语音库;
训练模块,用于采用基于注意力的神经网络对所述被测试通话人语音进行训练,获得训练模型;
文件存储模块,用于存储所述测试通话人的通话录音,获得录音文件;
测试模块,用于将所述录音文件采用所述训练模型识别所述被测试通话人是否目标通话人。
8.根据权利要求7所述的一种基于注意力机制的通话人识别装置,其特征在于,收集模块具体包括:
测试方单元,用于测试方使用智能手机在通话过程中的内置录音功能录制被测试通话人在通话过程的语音;
录音单元,用于在通话过程中使用***自带的通话录音功能,需要明确手机设备型号,录音文件保存格式,通话时外部环境特征;并将通话录音保存为Wave格式的无损文件形式。
9.根据权利要求7所述的一种基于注意力机制的通话人识别装置,其特征在于,所述语音库建立模块具体包括:
对应关系获取单元,用于获取被测试通话人身份与被测试语音的对应关系;
语音库建立单元,用于根据所述对应关系建立通话人语音库,所述通话人语音库中包括被识别方通话音频数据、被测试通话人身份信息、被测试通话人环境特性、测试方录制设备信息、测试方环境特性、通话时长、通话时间、通话音量。
10.根据权利要求7所述的一种基于注意力机制的通话人识别装置,其特征在于,所述训练模块具体包括:
预处理单元,用于将所述录音文件采用维纳滤波器进行去噪处理,获得预处理录音文件;
训练模型建立单元,用于采用基于注意力机制的时间递归神经网络训练所述预处理录音文件,获得训练模型。
CN201910684343.7A 2019-07-26 2019-07-26 基于注意力机制的通话人识别方法及装置 Expired - Fee Related CN110556114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910684343.7A CN110556114B (zh) 2019-07-26 2019-07-26 基于注意力机制的通话人识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910684343.7A CN110556114B (zh) 2019-07-26 2019-07-26 基于注意力机制的通话人识别方法及装置

Publications (2)

Publication Number Publication Date
CN110556114A true CN110556114A (zh) 2019-12-10
CN110556114B CN110556114B (zh) 2022-06-17

Family

ID=68736524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910684343.7A Expired - Fee Related CN110556114B (zh) 2019-07-26 2019-07-26 基于注意力机制的通话人识别方法及装置

Country Status (1)

Country Link
CN (1) CN110556114B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785287A (zh) * 2020-07-06 2020-10-16 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
CN114040052A (zh) * 2021-11-01 2022-02-11 江苏号百信息服务有限公司 一种电话声纹识别音频采集和有效音频筛选的方法

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1713667A (zh) * 2004-06-25 2005-12-28 联想(北京)有限公司 一种使移动终端实现多模通信的***和方法
CN101848277A (zh) * 2010-04-23 2010-09-29 中兴通讯股份有限公司 一种移动终端及实时保存通话内容的方法
CN103167371A (zh) * 2013-04-09 2013-06-19 北京兴科迪科技有限公司 具有录音保存功能的蓝牙耳机及装有该蓝牙耳机的车辆
CN103391347A (zh) * 2012-05-10 2013-11-13 中兴通讯股份有限公司 一种自动录音的方法及装置
CN104580647A (zh) * 2014-12-31 2015-04-29 惠州Tcl移动通信有限公司 一种通话录音的缓存方法及通讯装置
CN205961381U (zh) * 2016-07-20 2017-02-15 深圳唯创知音电子有限公司 一种录音耳机
CN107580102A (zh) * 2017-08-22 2018-01-12 深圳传音控股有限公司 耳机及耳机录音的方法
CN107993663A (zh) * 2017-09-11 2018-05-04 北京航空航天大学 一种基于Android的声纹识别方法
CN108269569A (zh) * 2017-01-04 2018-07-10 三星电子株式会社 语音识别方法和设备
US20180308487A1 (en) * 2017-04-21 2018-10-25 Go-Vivace Inc. Dialogue System Incorporating Unique Speech to Text Conversion Method for Meaningful Dialogue Response
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
CN109040444A (zh) * 2018-07-27 2018-12-18 维沃移动通信有限公司 一种通话录音方法、终端及计算机可读存储介质
US20180374486A1 (en) * 2017-06-23 2018-12-27 Microsoft Technology Licensing, Llc Speaker recognition
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和***
CN109215662A (zh) * 2018-09-18 2019-01-15 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN109256135A (zh) * 2018-08-28 2019-01-22 桂林电子科技大学 一种端到端说话人确认方法、装置及存储介质
CN109637545A (zh) * 2019-01-17 2019-04-16 哈尔滨工程大学 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及***

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1713667A (zh) * 2004-06-25 2005-12-28 联想(北京)有限公司 一种使移动终端实现多模通信的***和方法
CN101848277A (zh) * 2010-04-23 2010-09-29 中兴通讯股份有限公司 一种移动终端及实时保存通话内容的方法
CN103391347A (zh) * 2012-05-10 2013-11-13 中兴通讯股份有限公司 一种自动录音的方法及装置
CN103167371A (zh) * 2013-04-09 2013-06-19 北京兴科迪科技有限公司 具有录音保存功能的蓝牙耳机及装有该蓝牙耳机的车辆
CN104580647A (zh) * 2014-12-31 2015-04-29 惠州Tcl移动通信有限公司 一种通话录音的缓存方法及通讯装置
CN109155132A (zh) * 2016-03-21 2019-01-04 亚马逊技术公司 说话者验证方法和***
CN205961381U (zh) * 2016-07-20 2017-02-15 深圳唯创知音电子有限公司 一种录音耳机
CN108269569A (zh) * 2017-01-04 2018-07-10 三星电子株式会社 语音识别方法和设备
US20180308487A1 (en) * 2017-04-21 2018-10-25 Go-Vivace Inc. Dialogue System Incorporating Unique Speech to Text Conversion Method for Meaningful Dialogue Response
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
US20180374486A1 (en) * 2017-06-23 2018-12-27 Microsoft Technology Licensing, Llc Speaker recognition
CN107580102A (zh) * 2017-08-22 2018-01-12 深圳传音控股有限公司 耳机及耳机录音的方法
CN107993663A (zh) * 2017-09-11 2018-05-04 北京航空航天大学 一种基于Android的声纹识别方法
CN109040444A (zh) * 2018-07-27 2018-12-18 维沃移动通信有限公司 一种通话录音方法、终端及计算机可读存储介质
CN109256135A (zh) * 2018-08-28 2019-01-22 桂林电子科技大学 一种端到端说话人确认方法、装置及存储介质
CN109215662A (zh) * 2018-09-18 2019-01-15 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
CN109637545A (zh) * 2019-01-17 2019-04-16 哈尔滨工程大学 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN109801635A (zh) * 2019-01-31 2019-05-24 北京声智科技有限公司 一种基于注意力机制的声纹特征提取方法及装置
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHI-XIONG ZHANG ET AL.: "End-to-End Attention based Text-Dependent Speaker Verification", 《SPOKEN LANGUAGE TECHNOLOGY WORKSHOP》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785287A (zh) * 2020-07-06 2020-10-16 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
WO2022007766A1 (zh) * 2020-07-06 2022-01-13 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
CN111785287B (zh) * 2020-07-06 2022-06-07 北京世纪好未来教育科技有限公司 说话人识别方法、装置、电子设备及存储介质
US11676609B2 (en) 2020-07-06 2023-06-13 Beijing Century Tal Education Technology Co. Ltd. Speaker recognition method, electronic device, and storage medium
CN114040052A (zh) * 2021-11-01 2022-02-11 江苏号百信息服务有限公司 一种电话声纹识别音频采集和有效音频筛选的方法
CN114040052B (zh) * 2021-11-01 2024-01-19 江苏号百信息服务有限公司 一种电话声纹识别音频采集和有效音频筛选的方法

Also Published As

Publication number Publication date
CN110556114B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN108877823B (zh) 语音增强方法和装置
CN104766608A (zh) 一种语音控制方法及装置
CN104485102A (zh) 声纹识别方法和装置
CN107240405B (zh) 一种音箱及告警方法
CN108010513B (zh) 语音处理方法及设备
CN113488024B (zh) 一种基于语义识别的电话打断识别方法和***
CN113823293B (zh) 一种基于语音增强的说话人识别方法及***
CN109829691B (zh) 基于位置和深度学习多重生物特征的c/s打卡方法和装置
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
CN111145763A (zh) 一种基于gru的音频中的人声识别方法及***
CN105679323B (zh) 一种号码发现方法及***
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
CN116631412A (zh) 一种通过声纹匹配判断语音机器人的方法
CN110517697A (zh) 用于交互式语音应答的提示音智能打断装置
CN108665901B (zh) 一种音素/音节提取方法及装置
CN109273012B (zh) 一种基于说话人识别和数字语音识别的身份认证方法
CN109817223A (zh) 基于音频指纹的音素标记方法及装置
CN113744742B (zh) 对话场景下的角色识别方法、装置和***
Zou et al. Automatic cell phone recognition from speech recordings
CN107886940A (zh) 语音翻译处理方法及装置
CN114461842A (zh) 生成劝阻话术的方法、装置、设备及存储介质
CN112151070B (zh) 一种语音检测的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220617