CN108428455A

CN108428455A - 声纹特征的采集方法及***

Info

Publication number: CN108428455A
Application number: CN201810150902.1A
Authority: CN
Inventors: 张志勇; 王潇滨
Original assignee: Shanghai Aiyouwei Software Development Co Ltd
Current assignee: Shanghai Aiyouwei Software Development Co Ltd
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2018-08-21

Abstract

本申请公开了一种声纹特征的采集方法及***，涉及终端技术领域，该方法包括：获取至少一条本地声纹特征；获取至少一个用户的若干声音素材，并上传至服务器；在服务器中，根据获取的声音素材生成线上声纹特征；获取更新指令；根据更新指令，将本地声纹特征替换成线上声纹特征。相较于现有技术，本申请提供的声纹特征的采集方法，通过持续的获取用户的声音素材，并在服务器上生成线上声纹特征，用于更新本地声纹特征，使用于身份验证的本地声纹特征始终保持与用户当下的声纹特征保持最佳匹配，解决声纹特征变化造成声纹识别精度不足的问题。而且，根据获取的声音素材生成线上声纹特征的运算在服务器上运行，能够简化本地运算工作。

Description

声纹特征的采集方法及***

技术领域

本申请涉及终端技术领域，尤其涉及一种声纹特征的采集方法及***。

背景技术

声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。现代科学研究表明，声纹不仅具有特定性，而且有相对稳定性的特点，因此能够用于身份识别或者验证。声纹识别技术，就是一种利用声纹的特定性以及稳定性进行身份验证的技术，现已较为广泛的应用于智能终端中。

现有技术的声纹识别存在一些缺点，例如，虽然声纹具有相对稳定的特点，但是仍会受身体状况、年龄、情绪等的影响，因此，现有技术中缺少一种能够适应声纹的变化，保证声纹识别精度的方法。

发明内容

本申请实施例的目的在于提供一种声纹特征的采集方法及***，旨在解决现有技术中的声纹特征采集精度不高的问题。

为了解决上述问题，本申请提供了一种声纹特征的采集方法，包括：

获取至少一条本地声纹特征；

获取至少一个用户的若干声音素材，并上传至服务器；

在服务器中，根据获取的声音素材生成线上声纹特征；

获取更新指令；

根据更新指令，将线上声纹特征替代旧的本地声纹特征，成为新的本地声纹特征。

在上述技术方案中，进一步的，获取至少一条本地声纹特征的方法为：

通过语音通话获取声音素材；

根据声音素材生成本地声纹特征。

在上述技术方案中，进一步的，获取根据更新指令之后，还包括：

获取用户已经通过声纹验证的声音素材；

将声音素材与线上声纹特征匹配得出第一匹配值；

将声音素材与本地声纹特征匹配得出第二匹配值；

当第一配置值大于第二匹配值时，才将本地声纹特征替换成线上声纹特征。

在上述技术方案中，进一步的，获取的更新指令通过下述方式产生：

当用户连续若干次声纹验证均失败，或者在一定时间段内声纹验证失败的次数超过设定值，则产生更新指令。

在上述技术方案中，进一步的，获取的更新指令是根据时间自动生成的。

在上述技术方案中，进一步的，获取的更新指令由用户直接输入。

在上述技术方案中，进一步的，在所述获取至少一个用户的若干声音素材之前，还包括：检测环境噪音，当环境噪音低于设定值时，才会获取声音素材。

在上述技术方案中，进一步的，根据获取的声音素材生成线上声纹特征指：

根据服务器中的部分声音素材生成线上声纹特征；所述部分声音素材指最新一段时间段内获取的声音素材。

在上述技术方案中，进一步的，所述获取至少一个用户的若干声音素材指：在语音通话时，通过麦克风获取声音素材。

此外，本申请还提供一种声纹特征的采集***，包括：

一个存储器，被配置为存储数据及指令；

一个与存储器建立通信的处理器，其中，当执行存储器中的指令时，所述处理器被配置为：

获取至少一条本地声纹特征；

获取至少一个用户的若干声音素材，并上传至服务器；

在服务器中，根据获取的声音素材生成线上声纹特征；

获取更新指令；

根据更新指令，将本地声纹特征替换成线上声纹特征。

相较于现有技术，本申请提供的声纹特征的采集方法，通过持续的获取用户的声音素材，并在服务器上生成线上声纹特征，用于更新本地声纹特征，使用于身份验证的本地声纹特征始终保持与用户当下的声纹特征保持最佳匹配，因此，提高声纹特征的采集精度。而且，获取的声音素材上传至服务器，不占用本地的存储空间，根据获取的声音素材生成线上声纹特征的运算也在服务器上运行，能够节约本地运算。

本申请的附加方面和优点将在下面的描述部分中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

为更好地理解并阐述本申请的一些实施例，以下将结合附图参考实施例的描述，在这些附图中，同样的数字编号在附图中指示相应的部分。

图1是根据本申请的一些实施例提供的网络环境***的示例性示意图。

图2是图1所示的电子设备功能配置的示例性单元示意图。

图3是根据本申请的一些实施例提供的声纹特征的采集方法的示例性流程图。

具体实施方式

以下参考附图的描述为便于综合理解有权利要求及其等效内容所定义的本申请的各种实施例。这些实施例包括各种特定细节以便于理解，但这些仅被视为示例性的。因此，本领域技术人员可以理解对在此描述的各种实施例进行各种变化和修改而不会脱离本申请的范围和精神。另外，为简要并清楚地描述本申请，本申请将省略对公知功能和结构的描述。

在以下说明书和权利要求书中使用的术语和短语不限于字面含义，而是仅为能够清楚和一致地理解本申请。因此，对于本领域技术人员，可以理解，提供对本申请各种实施例的描述仅仅是为说明的目的，而不是限制所附权利要求及其等效定义的本申请。

下面将结合本申请一些实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中使用的术语是仅仅处于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一”、“一个”、“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相绑定的列出项目的任何或所有可能组合。表达“第一”、“第二”、“所述第一”和“所述第二”是用于修饰相应元件而不考虑顺序或者重要性，仅仅被用于区分一种元件与另一元件，而不限制相应元件。

根据本申请一些实施例的终端可以是电子设备，该电子设备可以包括智能手机、个人电脑(PC，例如平板电脑、台式电脑、笔记本、上网本、掌上电脑PDA)、移动电话、电子书阅读器、便携式多媒体播放器(PMP)、音频/视频播放器(MP3/MP4)、摄像机、虚拟现实设备(VR)和可穿戴设备等中的一种或几种的组合。根据本申请的一些实施例，所述可穿戴设备包括附件类型(例如手表、戒指、手环、眼镜、或头戴式装置(HMD))、集成类型(例如电子服装)、装饰类型(例如皮肤垫、纹身或内置电子装置)等中的一种或几种的组合。在本申请的一些实施例中，所述电子设备可以是灵活的，不限于上述设备，或者可以是上述各种设备中的一种或几种的组合。在本申请中，术语“用户”可指示使用电子设备的人或使用电子设备的设备(例如人工智能电子设备)。

本申请实施例提供了一种声纹特征的采集方法。为了便于理解本申请实施例，以下将参考附图对本申请实施例进行详细描述。

图1是根据本申请的一些实施例提供的网络环境***100的示例性示意图。如图1所示，网络环境***100可以包括电子设备110、网络120和服务器130等。电子设备110可以包括总线111、处理器112、存储器113、输入/输出模块114、显示器115、通信模块116和物理键117等。在本申请的一些实施例中，电子设备110可以省略一个或多个元件，或者可以进一步包括一个或多个其他元件。

总线111可以包括电路。所述电路可以互连电子设备110内的一个或多个元件(例如，总线111、处理器112、存储器113、输入/输出模块114、显示器115和通信模块116)。所述电路也可以在电子设备110内的一个或多个元件之间实现通信(例如，获取和/或发送数据)。

处理器112可以包括一个或多个协处理器(Co-processor)、应用处理器(AP，Application Processor)和通信处理器(Communication Processor)。作为示例，处理器112可以执行与电子设备110的一个或多个元件的控制和/或数据处理。例如，处理器12可以设定相关权限，并能够启动认证流程，以判断使用者是否具备权限。

存储器113可以存储数据。所述数据可以包括与电子设备110中的一个或多个其它元件相关的指令或数据。例如，所述数据可以包括处理器112处理前的原始数据，中间数据和/或处理后的数据。具体而言，存储器113可以存储照片、图像、虹膜信息等。存储器113可以包括非永久记忆性存储器和/或永久记忆性存储器。

根据本申请的一些实施例，存储器113可以存储软件和/或程序。所述程序可以包括内核、中间件、应用编程接口(API，Application Programming Interface)和/或应用程序。所述内核、所述中间件或所述应用编程接口的至少一部分可以包括操作***(OS，Operating System)。作为示例，所述内核可以控制或管理用于执行其他程序(例如，中间件、应用编程接口和应用程序)中实现的操作或功能的***资源(例如，总线111、处理器112、存储器113等)。此外，所述内核可以提供接口。所述接口可以通过所述中间件、所述应用编程接口或所述应用程序访问电子设备110的一个或多个元件以控制或管理***资源。

所述中间件可以作为数据传输的中间层。所述数据传输可以允许应用编程接口或应用程序与所述内核通信用以交换数据。作为示例，所述中间件可以处理从所述应用程序获取的一个或多个任务请求。例如，所述中间件可以向一个或多个应用程序分配电子设备110的***资源(例如，总线111、处理器112、存储器113等)的优先级，以及处理所述一个或多个任务请求。所述应用编程接口可以是所述应用程序用于控制从所述内核或所述中间件提供功能的接口。所述应用编程接口也可以包括一个或多个接口或功能。所述功能可以用于安全控制、通信控制、文件控制、窗口控制、文本控制、图像处理、信号处理等。

输入/输出模块114可以向电子设备110的其他元件发送从用户或外部设备输入的指令或数据。输入/输出模块114也可以将从电子设备110的其他元件获取的指令或数据输出给用户或外部设备。

显示器115可以显示内容。所述内容可以向用户显示各种类型(例如，文本、图像、视频、图标和/或符号)。显示器115可以包括液晶显示器(LCD，Liquid Crystal Display)、发光二极管(LED，Light-Emitting Diode)显示器、有机发光二极管(OLED，Organic LightEmitting Diode)显示器、微型机电***(MEMS，Micro Electro Mechanical Systems)显示器或电子纸显示器等，或几种的组合。显示器115可以包括触摸屏。在一些实施例中，显示器115可以显示虚拟键。所述触摸屏可以获取所述虚拟键的输入。显示器115可以通过所述触摸屏获取输入。所述输入可以包括触摸输入、手势输入、动作输入、接近输入、电子笔或用户身体部分的输入(例如，悬停输入)。在一些实施例中，显示器115可以显示应用程序图标。

通信模块116可以配置设备之间的通信。在一些实施例中，网络环境100可以进一步包括电子设备140。作为示例，所述设备之间的通信可以包括电子设备110和其他设备(例如，服务器130或电子设备140)之间的通信。例如，通信模块116可以通过无线通信或有线通信连接到网络120，与其他设备(例如，服务器130或电子设备140)实现通信。

所述无线通信可以包括微波通信和/或卫星通信等。所述无线通信可以包括蜂窝通信(例如，全球移动通信(GSM，Global System for Mobile Communications)、码分多址(CDMA，Code Division Multiple Access)、第三代移动通信(3G，The 3rd GenerationTelecommunication)、***移动通信(4G)、第五代移动通信(5G))、长期演进技术(LTE，Long Term Evolution)、长期演进技术升级版(LTE-A，LTE-Advanced)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、通用移动通信***(UMTS，Universal Mobile Telecommunications System)、无线宽带(WiBro，WirelessBroadband)等，或几种的组合。根据本申请的一些实施例，所述无线通信可以包括无线局域网(WiFi，Wireless Fidelity)、蓝牙、低功耗蓝牙(BLE，Bluetooth Low Energy)、紫蜂协议(ZigBee)、近场通讯(NFC，Near Field Communication)、磁安全传输、射频和体域网(BAN，Body Area Network)等，或几种的组合。根据本申请的一些实施例，所述有线通信可以包括全球导航卫星***(Glonass/GNSS，Global Navigation Satellite System)、全球定位***(GPS，Global Position System)、北斗导航卫星***或伽利略(欧洲全球卫星导航***)等。所述有线通信可以包括通用串行总线(USB，Universal Serial Bus)、高清多媒体接口(HDMI，High-Definition Multimedia Interface)、推荐标准232(RS-232，RecommendStandard 232)、和/或简易老式电话服务(POTS，Plain Old Telephone Service)等中的一种，或几种的组合。

物理键117可以用于用户交互。物理键117可以包括一个或多个实体键。在一些实施例中，用户可以自定义物理键117的功能。作为示例，物理键117可以用于启动认证程序。

网络120可以包括通信网络。所述通信网络可以包括计算机网络(例如，局域网(LAN，Local Area Network)或广域网(WAN，Wide Area Network))、互联网和/或电话网络等，或几种的组合。网络120可以向网络环境***100中的其他设备(例如，电子设备110、服务器130、电子设备140等)发送信息。所述信息可以包括指示标记以及操控面板的样式模板等。

服务器130可以通过网络120连接网络环境***100中的其他设备(例如，电子设备110、电子设备140等)。

电子设备140可以与电子设备110相同或不同的类型。根据本申请的一些实施例，在电子设备110中执行的部分或全部操作可以在另一设备或多个设备(例如，电子设备140和/或服务器130)中执行。在一些实施例中，当电子设备110自动或响应于请求执行一种或多种功能和/或服务时，电子设备110可以请求其他设备(例如，电子设备140和/或服务器130)替代执行功能和/或服务。在一些实施例中，电子设备110除执行功能或服务外，进一步执行与其相关的一种或多种功能。在一些实施例中，其他设备(例如，电子设备140和/或服务器130)可以执行所请求的功能或其它相关的一种或多种功能，可以将执行结果发送给电子设备110。电子设备110可以重复执行结果或进一步处理执行结果，以提供所请求的功能或服务。作为示例，电子设备110可以使用云计算、分布式技术和/或客户端-服务端计算计算等，或几种的组合。

需要说明的是，以上对于网络环境***100的描述，仅为描述方便，并不能把本申请限制在所举实施例的范围之内。可以理解，对于本领域技术人员，基于本***的原理，可能在不背离该原理的前提下，对各个元件进行任意组合，或者构成子***与其他元件连接，对实施上述方法和***的应用领域进行形式和细节上的各种修正和改变。例如，网络环境***100可以进一步包括数据库等。诸如此类的变形，均在本申请的保护范围之内。

图2是根据本申请的一些实施例提供的电子设备功能配置的示例性单元框图。如图2所示，处理器112可以包括处理模块200，所述处理模块200可以包括获取单元210、分析单元220、控制单元230。

根据本申请的一些实施例，获取单元210可以获取信息。所述信息可以包括但不限于文字、图片、音频、视频、动作、手势等，或几种的组合。在一些实施例中，获取单元210可以通过输入/输出模块114、显示器115的触摸屏和/或物理键117获取输入信息。作为示例，获取单元210可以获取存储器113内存储的信息，例如照片、图像等。作为示例，获取单元210可以获取电子设备110的输入信息。所述输入信息可以包括按键输入、触控输入、手势输入、动作输入、远程输入、传输输入等，或几种的组合。具体来说，输入信息可以包括能够代表用户身份的指纹、虹膜、面部特征等信息。

在一些实施例中，获取单元210可以进一步包括传感器，获取单元210可以通过所述传感器获取信息，例如，通过所述传感器获取触发信号。所述传感器可以包括但不限于光敏传感器、声敏传感器、气敏传感器、化学传感器、压敏传感器、温敏传感器、流体传感器、生物传感器、激光传感器、霍尔传感器、智能传感器等，或几种的组合。

在一些实施例中，获取单元210可以用于获取用于生成声纹特征的声音素材。在一些实施例中，获取单元210可以用于获取更新指令。

根据本申请的一些实施例，分析单元220至少能够对获取单元210获取的信息以及电子设备中存储的信息进行分析。在一些实施例中，分析单元220能够分析获取的声音素材，以得出声纹特征。

根据本申请的一些实施例，控制单元230可以控制电子设备。所述控制电子设备可以包括控制电子设备110执行动作。在一些实施例中，控制单元230根据分析单元220的分析结果，来控制电子设备110执行动作。在一些实施例中，控制单元230能够将获取的声音素材上传至服务器，还能够更新声纹特征。

需要说明的是，以上对于处理模块200中的单元描述，仅为描述方便，并不能把本申请限制在所举实施例的范围之内。可以理解，对于本领域技术人员，基于本***的原理，可能在不背离该原理的前提下，对各个单元进行任意组合，或者构成子模块与其他单元连接，对实施上述模块和单元的功能进行形式和细节上的各种修正和改变。例如，电子设备110可以进一步包括传感器等，获取单元210可以通过传感器获取信息。又例如，处理单元220可以进一步包括划分子单元等。诸如此类的变形，均在本申请的保护范围之内。

图3是根据本申请的一些实施例提供的声纹特征的采集方法的示例性流程图。如图3所示，流程300可以通过处理模块200实现。

在步骤310中，获取至少一条本地声纹特征。

本地声纹特征用于验证用户的身份信息，可通过如下方式获取：在声纹设置界面采集用户主动输入的、符合形式要求的声音素材，以声音素材为基础，建立声纹特征模型。

在一些实施例中，本地声纹的获取无需采用专设的采集途径，而是通过在电话、网络语音通话、网络视频通话等方式获取。

在步骤320中，获取至少一个用户的若干声音素材，并上传至服务器。

获取声音素材的方式可采用无感知的获取方式，即在后台获取；也可采取人为主动获取方式；也可通过在电话、网络语音通话、网络视频通话等方式获取。

在语音交流过程中，声音素材可能来源于通话双方，因此，如果通过移动终端的麦克风获取声音素材，则仅记录机主的声音素材，更为符合实际需求。当然，也可先同时获取双方的声音素材，再切分成若干段，然后利用语音识别技术，将机主的声音素材识别挑选出来。

在一些实施例中，获取声音素材时，需要检测环境噪音，当环境噪音低于设定值时，才会获取声音素材，以保证获取声音素材的质量。

在步骤330中，在服务器中，根据获取的声音素材生成线上声纹特征。

在一些实施例中，根据获取的全部的声音素材生成线上声纹特征。在一些实施例中，是根据最新的声音素材生成线上声纹特征，具体来说，根据服务器中的部分声音素材生成线上声纹特征；所述部分声音素材指最新一段时间段内获取的声音素材。

在步骤340中，获取更新指令。

在一些实施例中，获取的更新指令通过下述方式产生：

当认证失败的次数超过设定值表面声纹特征有可能存在不准确的问题，因此，在此时机更新本地声纹特征，比较符合实际需求。

在一些实施例中，获取的更新指令是根据时间自动生成的。每隔一段时间更新一次本地生特征，执行效率高，而且可较为便捷的设置更新间隔。

在一些实施例中，获取的更新指令由用户直接输入。用户可以根据实际需求，主动进行更新，例如：当用户感冒时，声音特征在一定程度上发生了变化，导致验证通过率降低，此时，用户可主动进行更新。

在步骤350中，根据更新指令，将本地声纹特征替换成线上声纹特征。

通过更新声纹特征，使用于验证身份信息的本地声纹特征处于最接近用户当下的声音特征，提高了声纹特征的准确性。

在一些实施例中，在获取更新指令后，还需要进行如下步骤：

获取用户已经通过声纹验证的声音素材；

将声音素材与线上声纹特征匹配得出第一匹配值；

将声音素材与本地声纹特征匹配得出第二匹配值；

如果在一段时间内，用户的声纹特征变动频率较大，通过匹配值的比较，能够保证本地声纹特征始终是最近接当下用户声音特征。

综上所述，本申请提供的声纹特征的采集方法，先收集可能的使用者的信息，在安装应用时，从中选择具有使用权限的使用者，仅选中的使用者能够运行该应用，避免使用者接触不合适的应用，杜绝类似儿童打赏主播的情况。相较于同类技术，具有操作便捷的优点。

需要注意的是，上述的实施例仅仅是用作示例，本申请不限于这样的示例，而是可以进行各种变化。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序指令相关的硬件来完成，所述的程序可存储于一计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请一些优选的实施例，不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种声纹特征的采集方法，其特征在于，包括：

获取至少一条本地声纹特征；

获取至少一个用户的若干声音素材，并上传至服务器；

在服务器中，根据获取的声音素材生成线上声纹特征；

获取更新指令；

2.根据权利要求1所述的声纹特征的采集方法，其特征在于，获取至少一条本地声纹特征的方法为：

通过语音通话获取声音素材；

根据声音素材生成本地声纹特征。

3.根据权利要求1所述的声纹特征的采集方法，其特征在于，获取根据更新指令之后，还包括：

获取用户已经通过声纹验证的声音素材；

将声音素材与线上声纹特征匹配得出第一匹配值；

将声音素材与本地声纹特征匹配得出第二匹配值；

4.根据权利要求1所述的声纹特征的采集方法，其特征在于，获取的更新指令通过下述方式产生：

5.根据权利要求1所述的声纹特征的采集方法，其特征在于，获取的更新指令是根据时间自动生成的。

6.根据权利要求1所述的声纹特征的采集方法，其特征在于，获取的更新指令由用户直接输入。

7.根据权利要求1所述的声纹特征的采集方法，其特征在于，在所述获取至少一个用户的若干声音素材之前，还包括：检测环境噪音，当环境噪音低于设定值时，才会获取声音素材。

8.根据权利要求3所述的声纹特征的采集方法，其特征在于，根据获取的声音素材生成线上声纹特征指：

9.根据权利要求1所述的声纹特征的采集方法，其特征在于，所述获取至少一个用户的若干声音素材指：在语音通话时，通过麦克风获取声音素材。

10.一种声纹特征的采集***，其特征在于，包括：

一个存储器，被配置为存储数据及指令；

获取至少一条本地声纹特征；

获取至少一个用户的若干声音素材，并上传至服务器；

在服务器中，根据获取的声音素材生成线上声纹特征；

获取更新指令；

根据更新指令，将本地声纹特征替换成线上声纹特征。