CN109309763B - 一种基于声纹的外呼检测方法以及*** - Google Patents

一种基于声纹的外呼检测方法以及*** Download PDF

Info

Publication number
CN109309763B
CN109309763B CN201710617650.4A CN201710617650A CN109309763B CN 109309763 B CN109309763 B CN 109309763B CN 201710617650 A CN201710617650 A CN 201710617650A CN 109309763 B CN109309763 B CN 109309763B
Authority
CN
China
Prior art keywords
voice
voiceprint
sample
prompt tone
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710617650.4A
Other languages
English (en)
Other versions
CN109309763A (zh
Inventor
郑传琴
廖永坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Dongjin Yintong Electronics Co ltd
Original Assignee
Shenzhen Dongjin Yintong Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Dongjin Yintong Electronics Co ltd filed Critical Shenzhen Dongjin Yintong Electronics Co ltd
Priority to CN201710617650.4A priority Critical patent/CN109309763B/zh
Publication of CN109309763A publication Critical patent/CN109309763A/zh
Application granted granted Critical
Publication of CN109309763B publication Critical patent/CN109309763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/229Wire identification arrangements; Number assignment determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

一种基于声纹的外呼检测方法以及***,方法包括:获取输入帧信号并检测出满足条件的预设事件,所述预设事件包括:真人摘机最大静音事件、最大彩铃语音事件、提示音最大静音事件、最小静音事件、最小语音事件;根据预设事件的检测时序进行语音模型分析得到语音检测结果,所述语音检测结果为彩铃、真人摘机或提示音;若语音检测结果为彩铃或真人摘机,判断当前的外呼号码有效;若语音检测结果为提示音,据语音声纹特点对提示音的内容进行识别并根据识别结果判断外呼号码是否有效。本发明可以区分线路状态为彩铃、真人摘机还是提示音,同时根据语音声纹特点,还能对提示音的内容加以区分,以判断当前线路的有效性,本发明可以实现高效而快速的号码有效性筛查。

Description

一种基于声纹的外呼检测方法以及***
技术领域
本发明涉及通信技术领域,尤其涉及一种基于声纹的外呼检测方法以及***。
背景技术
IVR(interactive Voice Response)即互动式语音应答***,在***主动外呼进行业务推销、意见反馈调查等应用中,为提高工作效率,需要对外呼号码的有效性、应答情况等进行检测判断,以使得外呼***尽量呼叫到有效的号码上。对外呼线路状态检测的方法有很多,但是效率并不高。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于声纹的外呼检测方法以及***。
本发明解决其技术问题所采用的技术方案是:构造一种基于声纹的外呼检测方法,包括:
获取输入帧信号并检测出满足条件的预设事件;
根据预设事件的检测时序进行语音模型分析得到语音检测结果,所述语音检测结果为彩铃、真人摘机或提示音;
若语音检测结果为彩铃或真人摘机,判断当前的外呼号码有效;
若语音检测结果为提示音,据语音声纹特点对提示音的内容进行识别并根据识别结果判断外呼号码是否有效。
较佳的,所述的获取输入帧信号并检测出满足条件的预设事件具体包括:
获取输入帧信号的时域能量及过零率,通过时域能量及过零率的双门限,对输入帧进行语音帧及静音帧区分,统计连续语音帧和连续静音帧的时长;
将连续语音帧和连续静音帧的时长与预设的真人摘机最大静音时长、最大彩铃语音时长、提示音最大静音时长、最小静音时长、最小语音时长进行比较,检测得到所述预设事件。
较佳的,所述预设事件包括:真人摘机最大静音事件、最大彩铃语音事件、提示音最大静音事件、最小静音事件、最小语音事件;
所述的根据预设事件的检测时序进行语音模型分析得到语音检测结果具体包括:若两个最小语音事件之间,存在真人摘机最大静音事件,则判断为真人摘机;若语音事件中存在彩铃最大语音事件则判断为彩铃;若语音事件中存在多个最小语音事件和最小静音事件,且还存在提示音最大静音事件,则判断为提示音。
较佳的,所述据语音声纹特点对提示音的内容进行识别并根据识别结果判断外呼号码是否有效具体包括:
将提示音的语音基于语音特征分析生成声纹码信息,所述声纹码信息包括声纹码及声纹码在语音中的时间位置;
在样本库中查找与提示音所生成的声纹码相同的声纹码对应的样本ID,统计每一个相同的声纹码在提示音中与在每一个样本语音中的时间位置差,获取时间段相同范围内时间位置差个数最多的样本ID;
判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第一阈值,如果是,则判断该提示音与该样本ID的样本语音匹配;否则,继续判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第二阈值,且提示音中与样本ID的样本语音中相同的声纹码个数占提示音总的声纹码比例是否大于第三阈值,如果是,则判断该提示音与该样本ID的样本语音匹配,否则判断提示音语音并不在样本库中;
通过与提示音匹配的样本ID的样本语音查询提示音内容,根据提示音内容判断当前的外呼号码是否有效。
较佳的,所述方法还包括:初始化样本语音ID及样本语音内容,针对每一个样本语音基于语音特征分析生成声纹码信息,将所有样本语音的声纹码建立一个声纹检索表,同时记录每一个声纹码对应的样本ID及在样本语音中的时间位置,将声纹检索表通过散列表进行存储,完成样本库的建立。
较佳的,所述语音特征分析包括:
对每个语音进行语音预处理;
将语音信号进行八子带分频,获取每一帧的八个子带的频域子带能量;
根据频域子带能量获取每一帧的频域能量和,当某一帧的频域能量和大于预设能量阈值时确定该帧为语音帧,统计连续语音帧的帧数,达到设定值时的语音帧为语音有效起始帧;
从语音有效起始帧开始,搜索每一帧的八个子带的能量极大值点,对于每个子带的极大值点,记录该极大值点的时间;
根据能量极大值点生成声纹码信息:针对每个子带的每个能量极大值点,将其作为目标点,找到目标点接下来的N个能量极大值点,针对目标点接下来的N个能量极大值点中的各个点,分别计算其与目标点之间的第一时间差以及其与N个能量极大值点中位于其后的各个能量极大值点之间的各个第二时间差,将目标点接下来的N个能量极大值点中的各个点对应的第一时间差与各个第二时间差组成配对,将目标点接下来的N个能量极大值点的所有配对连同子带标号组合生成声纹码,同时记录该声纹码在语音中的时间位置,其中N为不超过4的正整数。
本发明还要求保护一种基于声纹的外呼检测***,包括存储模块以及处理模块,所述处理模块适于实现各指令,所述存储模块适于存储多条指令,所述指令适于由处理模块加载并执行以下步骤:
获取输入帧信号并检测出满足条件的预设事件;
根据预设事件的检测时序进行语音模型分析得到语音检测结果,所述语音检测结果为彩铃、真人摘机或提示音;
若语音检测结果为彩铃或真人摘机,判断当前的外呼号码有效;
若语音检测结果为提示音,据语音声纹特点对提示音的内容进行识别并根据识别结果判断外呼号码是否有效。
较佳的,所述预设事件包括:真人摘机最大静音事件、最大彩铃语音事件、提示音最大静音事件、最小静音事件、最小语音事件;
所述的根据预设事件的检测时序进行语音模型分析得到语音检测结果具体包括:若两个最小语音事件之间,存在真人摘机最大静音事件,则判断为真人摘机;若语音事件中存在彩铃最大语音事件则判断为彩铃;若语音事件中存在多个最小语音事件和最小静音事件,且还存在提示音最大静音事件,则判断为提示音。
较佳的,所述据语音声纹特点对提示音的内容进行识别并根据识别结果判断外呼号码是否有效具体包括:
将提示音的语音基于语音特征分析生成声纹码信息,所述声纹码信息包括声纹码及声纹码在语音中的时间位置;
在样本库中查找与提示音所生成的声纹码相同的声纹码对应的样本ID,统计每一个相同的声纹码在提示音中与在每一个样本语音中的时间位置差,获取时间段相同范围内时间位置差个数最多的样本ID;
判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第一阈值,如果是,则判断该提示音与该样本ID的样本语音匹配;否则,继续判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第二阈值,且提示音中与样本ID的样本语音中相同的声纹码个数占提示音总的声纹码比例是否大于第三阈值,如果是,则判断该提示音与该样本ID的样本语音匹配,否则判断提示音语音并不在样本库中;
通过与提示音匹配的样本ID的样本语音查询提示音内容,根据提示音内容判断当前的外呼号码是否有效。
较佳的,所述语音特征分析包括:
对每个语音进行语音预处理;
将语音信号进行八子带分频,获取每一帧的八个子带的频域子带能量;
根据频域子带能量获取每一帧的频域能量和,当某一帧的频域能量和大于预设能量阈值时确定该帧为语音帧,统计连续语音帧的帧数,达到设定值时的语音帧为语音有效起始帧;
从语音有效起始帧开始,搜索每一帧的八个子带的能量极大值点,对于每个子带的极大值点,记录该极大值点的时间;
根据能量极大值点生成声纹码信息:针对每个子带的每个能量极大值点,将其作为目标点,找到目标点接下来的N个能量极大值点,针对目标点接下来的N个能量极大值点中的各个点,分别计算其与目标点之间的第一时间差以及其与N个能量极大值点中位于其后的各个能量极大值点之间的各个第二时间差,将目标点接下来的N个能量极大值点中的各个点对应的第一时间差与各个第二时间差组成配对,将目标点接下来的N个能量极大值点的所有配对连同子带标号组合生成声纹码,同时记录该声纹码在语音中的时间位置,其中N为不超过4的正整数。
实施本发明的基于声纹的外呼检测方法以及***,具有以下有益效果:本发明可以区分线路状态为彩铃、真人摘机还是提示音,同时根据语音声纹特点,还能对提示音的内容加以区分,以判断当前线路的有效性,本发明可以实现高效而快速的号码有效性筛查。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:
图1是本发明的基于声纹的外呼检测方法的流程图;
图2是真人摘机、彩铃、提示音的三种语音模型示意图;
图3是样本库中的声纹检索表示意图;
图4是步骤S400的详细流程图;
图5是语音特征分析的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,词语“相等”、“相同”“同时”或者其他类似的用语,不限于数学术语中的绝对相等或相同,在实施本专利所述权利时,可以是工程意义上的相近或者在可接受的误差范围内。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本说明书中使用的“第一”、“第二”等包含序数的术语可用于说明各种构成要素,但是这些构成要素不受这些术语的限定。使用这些术语的目的仅在于将一个构成要素区别于其他构成要素。例如,在不脱离本发明的权利范围的前提下,第一构成要素可被命名为第二构成要素,类似地,第二构成要素也可以被命名为第一构成要素。
为了更好的理解本发明的技术方案,下面将结合说明书附图以及具体的实施方式对本发明的技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例一
参考图1,本发明的基于声纹的外呼检测方法总的思路是:
S100、获取输入帧信号并检测出满足条件的预设事件,所述预设事件包括:真人摘机最大静音事件、最大彩铃语音事件、提示音最大静音事件、最小静音事件、最小语音事件;
S200、根据预设事件的检测时序进行语音模型分析得到语音检测结果,所述语音检测结果为彩铃、真人摘机或提示音;
S300、若语音检测结果为彩铃或真人摘机,判断当前的外呼号码有效;
S400、若语音检测结果为提示音,识别提示音的内容并根据识别结果判断外呼号码是否有效。例如,识别结果一般包括:空号、无人接听、线路正忙等等,根据这些识别结果可以很容易的判断外呼号码是否有效。
其中,步骤S100中,所述的获取输入帧信号并检测出满足条件的预设事件具体包括:
S110、获取输入帧信号的时域能量及过零率,通过时域能量及过零率的双门限,对输入帧进行语音帧及静音帧区分,统计连续语音帧和连续静音帧的时长;
S120、将连续语音帧和连续静音帧的时长与预设的真人摘机最大静音时长、最大彩铃语音时长、提示音最大静音时长、最小静音时长、最小语音时长进行比较,检测得到所述预设事件。具体的,如果连续静音帧的时长大于预设的真人摘机最大静音时长,则判断出现真人摘机最大静音事件;如果连续静音帧的时长大于预设的最小静音时长,则判断出现最小静音事件;如果连续静音帧的时长大于预设的提示音最大静音时长,则判断出现提示音最大静音事件;如果连续语音帧的时长大于预设的最大彩铃语音时长,则判断出现最大彩铃语音事件;如果连续语音帧的时长大于预设的最小语音时长,则判断出现最小语音事件。
参考图2中第一幅图为真人摘机的语音模型,第二幅图为彩铃的语音模型,第三幅图为提示音的语音模型。其中,步骤S200中,所述的根据预设事件的检测时序进行语音模型分析得到语音检测结果具体包括:
若两个最小语音事件之间,存在真人摘机最大静音事件,则判断为真人摘机;
若语音事件中存在彩铃最大语音事件则判断为彩铃;
若语音事件中存在多个最小语音事件和最小静音事件,且还存在提示音最大静音事件,则判断为提示音。
参考图4,其中,步骤S400中,所述的识别提示音的内容并根据识别结果判断外呼号码是否有效具体包括:
S410、将提示音的语音基于语音特征分析生成声纹码信息,所述声纹码信息包括声纹码及声纹码在语音中的时间位置,其中,参考图5,所述语音特征分析包括:
S1)、对每个语音进行语音预处理:将定点语音信号转换为浮点信号,语音分帧,通过自相关法对帧信号进行增强平滑处理;
S2)、将语音信号进行八子带分频,获取每一帧的八个子带的频域子带能量;
S3)、根据频域子带能量获取每一帧的频域能量和,当某一帧的频域能量和大于预设能量阈值时确定该帧为语音帧,统计连续语音帧的帧数,达到设定值时的语音帧为语音有效起始帧;
S4)、从语音有效起始帧开始,搜索每一帧的八个子带的能量极大值点,在能量极大值点搜索过程中,对步长进行控制,同时当长时间搜索不到极大值点时复位阈值,使得极大值点间的距离不会太大,以生成更多具有较好区分性的声纹码;对于每个子带的极大值点,记录该极大值点的时间,没有频率,也就是说输出的矩阵一维是时间,另一维就是8个子带的标号;
S5)、根据能量极大值点生成声纹码信息,具体为:针对每个子带的每个能量极大值点,将其作为目标点,找到目标点接下来的N个能量极大值点,针对目标点接下来的N个能量极大值点中的各个点,分别计算其与目标点之间的第一时间差以及其与N个能量极大值点中位于其后的各个能量极大值点之间的各个第二时间差,将目标点接下来的N个能量极大值点中的各个点对应的第一时间差与各个第二时间差组成配对,将目标点接下来的N个能量极大值点的所有配对连同子带标号组合生成声纹码,同时记录该声纹码在语音中的时间位置(即帧号)。
优选的,N等于4。当然,也可以选择其他不超过4的正整数,对此并不做限制。
假如,以0点作为目标点,其后的4个点1-4。则针对点1,其与目标点0之间的第一时间差为记为(0,1),其与点2之间的第二时间差为记为(1,2),其与点3之间的第二时间差为记为(1,3),其与点4之间的第二时间差为记为(1,4),因此点1的所有配对共3个:((0,1),(1,2))、((0,1),(1,3))、((0,1),(1,4))。同理,针对点2,其与目标点0之间的第一时间差为记为(0,2),其与点3之间的第二时间差为记为(2,3),其与点4之间的第二时间差为记为(2,4),因此点2的所有配对共2个:((0,2),(2,3))、((0,3),(3,4))。同理,针对点3,所有配对共1个:((0,3),(3,4))。针对点4,不存在配对。因此,对于点0来说,总共有6个配对:((0,1),(1,2))、((0,1),(1,3))、((0,1),(1,4))、((0,2),(2,3))、((0,3),(3,4))、((0,3),(3,4))。
S420、在样本库中查找与提示音所生成的声纹码相同的声纹码对应的样本ID,统计每一个相同的声纹码在提示音中与在每一个样本语音中的时间位置差,获取时间段相同范围内时间位置差个数最多的样本ID;
样本库需要在一开始就建立好的,其建立过程如下:
首先,初始化样本语音ID及样本语音内容,由于样本是事先预知的,而且样本语音有限,可通过听录音的方式初始化样本语音内容;
然后,针对每一个样本语音基于语音特征分析生成声纹码信息,将所有样本语音的声纹码建立一个声纹检索表,同时记录每一个声纹码对应的样本ID及在样本语音中的时间位置,将声纹检索表通过散列表进行存储,完成样本库的建立,参考图3所示。左边表示声纹码链表,其中的声纹码包括声纹1-声纹N,右边表示声纹码在样本语音中的时间位置,id1-idn分别表示样本语音的样本ID,pos1-posn表示帧号。
S430、判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第一阈值,如果是,则判断该提示音与该样本ID的样本语音匹配;否则,继续判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第二阈值,且提示音中与样本ID的样本语音中相同的声纹码个数占提示音总的声纹码比例是否大于第三阈值,如果是,则判断该提示音与该样本ID的样本语音匹配,否则判断提示音语音并不在样本库中;
S440、通过与提示音匹配的样本ID的样本语音查询提示音内容,根据提示音内容判断当前的外呼号码是否有效。
实施例二
基于同一发明构思,本发明还公开了一种基于声纹的外呼检测***,包括存储模块以及处理模块,所述处理模块适于实现各指令,所述存储模块适于存储多条指令,所述指令适于由处理模块加载并执行以下步骤:
获取输入帧信号并检测出满足条件的预设事件,所述预设事件包括:真人摘机最大静音事件、最大彩铃语音事件、提示音最大静音事件、最小静音事件、最小语音事件;
根据预设事件的检测时序进行语音模型分析得到语音检测结果,所述语音检测结果为彩铃、真人摘机或提示音;
若语音检测结果为彩铃或真人摘机,判断当前的外呼号码有效;
若语音检测结果为提示音,识别提示音的内容并根据识别结果判断外呼号码是否有效。
具体的,所述的获取输入帧信号并检测出满足条件的预设事件具体包括:
获取输入帧信号的时域能量及过零率,通过时域能量及过零率的双门限,对输入帧进行语音帧及静音帧区分,统计连续语音帧和连续静音帧的时长;
将连续语音帧和连续静音帧的时长与预设的真人摘机最大静音时长、最大彩铃语音时长、提示音最大静音时长、最小静音时长、最小语音时长进行比较,检测得到所述预设事件。具体的,如果连续静音帧的时长大于预设的真人摘机最大静音时长,则判断出现真人摘机最大静音事件;如果连续静音帧的时长大于预设的最小静音时长,则判断出现最小静音事件;如果连续静音帧的时长大于预设的提示音最大静音时长,则判断出现提示音最大静音事件;如果连续语音帧的时长大于预设的最大彩铃语音时长,则判断出现最大彩铃语音事件;如果连续语音帧的时长大于预设的最小语音时长,则判断出现最小语音事件。
具体的,所述的根据预设事件的检测时序进行语音模型分析得到语音检测结果具体包括:若两个最小语音事件之间,存在真人摘机最大静音事件,则判断为真人摘机;若语音事件中存在彩铃最大语音事件则判断为彩铃;若语音事件中存在多个最小语音事件和最小静音事件,且还存在提示音最大静音事件,则判断为提示音。
具体的,所述的识别提示音的内容并根据识别结果判断外呼号码是否有效具体包括:
将提示音的语音基于语音特征分析生成声纹码信息,所述声纹码信息包括声纹码及声纹码在语音中的时间位置;
在样本库中查找与提示音所生成的声纹码相同的声纹码对应的样本ID,统计每一个相同的声纹码在提示音中与在每一个样本语音中的时间位置差,获取时间段相同范围内时间位置差个数最多的样本ID;
判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第一阈值,如果是,则判断该提示音与该样本ID的样本语音匹配;否则,继续判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第二阈值,且提示音中与样本ID的样本语音中相同的声纹码个数占提示音总的声纹码比例是否大于第三阈值,如果是,则判断该提示音与该样本ID的样本语音匹配,否则判断提示音语音并不在样本库中;
通过与提示音匹配的样本ID的样本语音查询提示音内容,根据提示音内容判断当前的外呼号码是否有效。
具体的,所述语音特征分析包括:
对每个语音进行语音预处理;
将语音信号进行八子带分频,获取每一帧的八个子带的频域子带能量;
根据频域子带能量获取每一帧的频域能量和,当某一帧的频域能量和大于预设能量阈值时确定该帧为语音帧,统计连续语音帧的帧数,达到设定值时的语音帧为语音有效起始帧;
从语音有效起始帧开始,搜索每一帧的八个子带的能量极大值点,对于每个子带的极大值点,记录该极大值点的时间;
根据能量极大值点生成声纹码信息:针对每个子带的每个能量极大值点,将其作为目标点,找到目标点接下来的N个能量极大值点,针对目标点接下来的N个能量极大值点中的各个点,分别计算其与目标点之间的第一时间差以及其与N个能量极大值点中位于其后的各个能量极大值点之间的各个第二时间差,将目标点接下来的N个能量极大值点中的各个点对应的第一时间差与各个第二时间差组成配对,将目标点接下来的N个能量极大值点的所有配对连同子带标号组合生成声纹码,同时记录该声纹码在语音中的时间位置,其中N为不超过4的正整数。
综上所述,实施本发明的基于声纹的外呼检测方法以及***,具有以下有益效果:本发明可以区分线路状态为彩铃、真人摘机还是提示音,同时根据语音声纹特点,还能对提示音的内容加以区分,以判断当前线路的有效性,本发明可以实现高效而快速的号码有效性筛查。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种基于声纹的外呼检测方法,其特征在于,包括:
获取输入帧信号并检测出满足条件的预设事件;
根据预设事件的检测时序进行语音模型分析得到语音检测结果,所述语音检测结果为彩铃、真人摘机或提示音;
若语音检测结果为彩铃或真人摘机,判断当前的外呼号码有效;
若语音检测结果为提示音,据语音声纹特点对提示音的内容进行识别并根据识别结果判断外呼号码是否有效;
其中,所述据语音声纹特点对提示音的内容进行识别包括:将提示音的语音基于语音特征分析生成声纹码信息,所述声纹码信息包括声纹码及声纹码在语音中的时间位置;
其中,所述语音特征分析包括:
对每个语音进行语音预处理;
将语音信号进行八子带分频,获取每一帧的八个子带的频域子带能量;
根据频域子带能量获取每一帧的频域能量和,当某一帧的频域能量和大于预设能量阈值时确定该帧为语音帧,统计连续语音帧的帧数,达到设定值时的语音帧为语音有效起始帧;
从语音有效起始帧开始,搜索每一帧的八个子带的能量极大值点,对于每个子带的极大值点,记录该极大值点的时间;
根据能量极大值点生成声纹码信息:针对每个子带的每个能量极大值点,将其作为目标点,找到目标点接下来的N个能量极大值点,针对目标点接下来的N个能量极大值点中的各个点,分别计算其与目标点之间的第一时间差以及其与N个能量极大值点中位于其后的各个能量极大值点之间的各个第二时间差,将目标点接下来的N个能量极大值点中的各个点对应的第一时间差与各个第二时间差组成配对,将目标点接下来的N个能量极大值点的所有配对连同子带标号组合生成声纹码,同时记录该声纹码在语音中的时间位置,其中N为不超过4的正整数。
2.根据权利要求1所述的基于声纹的外呼检测方法,其特征在于,所述的获取输入帧信号并检测出满足条件的预设事件具体包括:
获取输入帧信号的时域能量及过零率,通过时域能量及过零率的双门限,对输入帧进行语音帧及静音帧区分,统计连续语音帧和连续静音帧的时长;
将连续语音帧和连续静音帧的时长与预设的真人摘机最大静音时长、最大彩铃语音时长、提示音最大静音时长、最小静音时长、最小语音时长进行比较,检测得到所述预设事件。
3.根据权利要求1所述的基于声纹的外呼检测方法,其特征在于,所述预设事件包括:真人摘机最大静音事件、最大彩铃语音事件、提示音最大静音事件、最小静音事件、最小语音事件;
所述的根据预设事件的检测时序进行语音模型分析得到语音检测结果具体包括:若两个最小语音事件之间,存在真人摘机最大静音事件,则判断为真人摘机;若语音事件中存在彩铃最大语音事件则判断为彩铃;若语音事件中存在多个最小语音事件和最小静音事件,且还存在提示音最大静音事件,则判断为提示音。
4.根据权利要求1所述的基于声纹的外呼检测方法,其特征在于,所述根据识别结果判断外呼号码是否有效具体包括:
在样本库中查找与提示音所生成的声纹码相同的声纹码对应的样本ID,统计每一个相同的声纹码在提示音中与在每一个样本语音中的时间位置差,获取时间段相同范围内时间位置差个数最多的样本ID;
判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第一阈值,如果是,则判断该提示音与该样本ID的样本语音匹配;否则,继续判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第二阈值,且提示音中与样本ID的样本语音中相同的声纹码个数占提示音总的声纹码比例是否大于第三阈值,如果是,则判断该提示音与该样本ID的样本语音匹配,否则判断提示音语音并不在样本库中;
通过与提示音匹配的样本ID的样本语音查询提示音内容,根据提示音内容判断当前的外呼号码是否有效。
5.根据权利要求4所述的基于声纹的外呼检测方法,其特征在于,所述方法还包括:初始化样本语音ID及样本语音内容,针对每一个样本语音基于语音特征分析生成声纹码信息,将所有样本语音的声纹码建立一个声纹检索表,同时记录每一个声纹码对应的样本ID及在样本语音中的时间位置,将声纹检索表通过散列表进行存储,完成样本库的建立。
6.一种基于声纹的外呼检测***,其特征在于,包括存储模块以及处理模块,所述处理模块适于实现各指令,所述存储模块适于存储多条指令,所述指令适于由处理模块加载并执行以下步骤:
获取输入帧信号并检测出满足条件的预设事件;
根据预设事件的检测时序进行语音模型分析得到语音检测结果,所述语音检测结果为彩铃、真人摘机或提示音;
若语音检测结果为彩铃或真人摘机,判断当前的外呼号码有效;
若语音检测结果为提示音,据语音声纹特点对提示音的内容进行识别并根据识别结果判断外呼号码是否有效;
其中,所述据语音声纹特点对提示音的内容进行识别包括:将提示音的语音基于语音特征分析生成声纹码信息,所述声纹码信息包括声纹码及声纹码在语音中的时间位置;
其中,所述语音特征分析包括:
对每个语音进行语音预处理;
将语音信号进行八子带分频,获取每一帧的八个子带的频域子带能量;
根据频域子带能量获取每一帧的频域能量和,当某一帧的频域能量和大于预设能量阈值时确定该帧为语音帧,统计连续语音帧的帧数,达到设定值时的语音帧为语音有效起始帧;
从语音有效起始帧开始,搜索每一帧的八个子带的能量极大值点,对于每个子带的极大值点,记录该极大值点的时间;
根据能量极大值点生成声纹码信息:针对每个子带的每个能量极大值点,将其作为目标点,找到目标点接下来的N个能量极大值点,针对目标点接下来的N个能量极大值点中的各个点,分别计算其与目标点之间的第一时间差以及其与N个能量极大值点中位于其后的各个能量极大值点之间的各个第二时间差,将目标点接下来的N个能量极大值点中的各个点对应的第一时间差与各个第二时间差组成配对,将目标点接下来的N个能量极大值点的所有配对连同子带标号组合生成声纹码,同时记录该声纹码在语音中的时间位置,其中N为不超过4的正整数。
7.根据权利要求6所述的基于声纹的外呼检测***,其特征在于,所述预设事件包括:真人摘机最大静音事件、最大彩铃语音事件、提示音最大静音事件、最小静音事件、最小语音事件;
所述的根据预设事件的检测时序进行语音模型分析得到语音检测结果具体包括:若两个最小语音事件之间,存在真人摘机最大静音事件,则判断为真人摘机;若语音事件中存在彩铃最大语音事件则判断为彩铃;若语音事件中存在多个最小语音事件和最小静音事件,且还存在提示音最大静音事件,则判断为提示音。
8.根据权利要求6所述的基于声纹的外呼检测***,其特征在于,所述根据识别结果判断外呼号码是否有效具体包括:
在样本库中查找与提示音所生成的声纹码相同的声纹码对应的样本ID,统计每一个相同的声纹码在提示音中与在每一个样本语音中的时间位置差,获取时间段相同范围内时间位置差个数最多的样本ID;
判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第一阈值,如果是,则判断该提示音与该样本ID的样本语音匹配;否则,继续判断样本ID的样本语音中与提示音语音相同的声纹码个数占样本语音中总的声纹码的比例是否大于第二阈值,且提示音中与样本ID的样本语音中相同的声纹码个数占提示音总的声纹码比例是否大于第三阈值,如果是,则判断该提示音与该样本ID的样本语音匹配,否则判断提示音语音并不在样本库中;
通过与提示音匹配的样本ID的样本语音查询提示音内容,根据提示音内容判断当前的外呼号码是否有效。
CN201710617650.4A 2017-07-26 2017-07-26 一种基于声纹的外呼检测方法以及*** Active CN109309763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710617650.4A CN109309763B (zh) 2017-07-26 2017-07-26 一种基于声纹的外呼检测方法以及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710617650.4A CN109309763B (zh) 2017-07-26 2017-07-26 一种基于声纹的外呼检测方法以及***

Publications (2)

Publication Number Publication Date
CN109309763A CN109309763A (zh) 2019-02-05
CN109309763B true CN109309763B (zh) 2021-02-09

Family

ID=65202349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710617650.4A Active CN109309763B (zh) 2017-07-26 2017-07-26 一种基于声纹的外呼检测方法以及***

Country Status (1)

Country Link
CN (1) CN109309763B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109714491B (zh) * 2019-02-26 2021-05-14 上海凯岸信息科技有限公司 基于语音信箱的智能语音外呼检测***
CN110992930A (zh) * 2019-12-06 2020-04-10 广州国音智能科技有限公司 声纹特征提取方法、装置、终端及可读存储介质
CN111629108A (zh) * 2020-04-27 2020-09-04 北京青牛技术股份有限公司 呼叫结果的实时识别方法
CN112351146B (zh) * 2020-11-04 2022-05-31 安徽讯飞至悦科技有限公司 摘机检测方法、装置、设备、存储介质及电话呼叫***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100538701C (zh) * 2000-07-31 2009-09-09 兰德马克数字服务公司 用于从媒体样本辨认媒体实体的方法
US8990142B2 (en) * 2009-10-30 2015-03-24 The Nielsen Company (Us), Llc Distributed audience measurement systems and methods
CN102314875B (zh) * 2011-08-01 2016-04-27 北京音之邦文化科技有限公司 一种音频文件的识别方法和装置
CN105979106B (zh) * 2016-06-13 2019-06-18 北京容联易通信息技术有限公司 一种呼叫中心***的铃音识别方法和***
CN106484837B (zh) * 2016-09-30 2020-08-04 腾讯科技(北京)有限公司 相似视频文件的检测方法和装置

Also Published As

Publication number Publication date
CN109309763A (zh) 2019-02-05

Similar Documents

Publication Publication Date Title
CN109309763B (zh) 一种基于声纹的外呼检测方法以及***
CA2866347C (en) System and method for fingerprinting datasets
CN103903612B (zh) 一种实时语音识别数字的方法
US7995732B2 (en) Managing audio in a multi-source audio environment
CN106847305B (zh) 一种处理客服电话的录音数据的方法及装置
CN111161758B (zh) 一种基于音频指纹的听歌识曲方法、***及音频设备
CN105190746A (zh) 用于检测目标关键词的方法和设备
US11282514B2 (en) Method and apparatus for recognizing voice
CN111583912A (zh) 语音端点检测方法、装置以及电子设备
CN111508527B (zh) 一种电话应答状态检测方法、装置及服务器
EP2913822A1 (en) Speaker recognition method
CN113194210A (zh) 一种语音通话接入方法及装置
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
CN110933236A (zh) 一种基于机器学习的空号识别方法
CN107154996B (zh) 来电拦截方法、装置、存储介质及终端
KR20030042286A (ko) 잡음 환경에서의 음성신호 검출방법 및 그 장치
CN114005436A (zh) 语音端点的确定方法、装置及存储介质
CN109509474A (zh) 通过语音识别选择电话客服中服务项的方法及其设备
CN108877777B (zh) 一种语音识别方法及***
CN109587346A (zh) 来电管理方法、移动终端及存储介质
CN111884729B (zh) 录音通道选择方法、装置及电子设备
CN115766943A (zh) 通话未接通状态的确定方法及装置、存储介质和电子设备
CN116013342A (zh) 针对音视频通话的数据处理方法、装置、电子设备及介质
CN113808591A (zh) 音频处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant