CN116935859A - 一种声纹识别处理方法及*** - Google Patents

一种声纹识别处理方法及*** Download PDF

Info

Publication number
CN116935859A
CN116935859A CN202310900334.3A CN202310900334A CN116935859A CN 116935859 A CN116935859 A CN 116935859A CN 202310900334 A CN202310900334 A CN 202310900334A CN 116935859 A CN116935859 A CN 116935859A
Authority
CN
China
Prior art keywords
voiceprint
user
information
cloud system
wearable device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310900334.3A
Other languages
English (en)
Inventor
崔晓飞
石磊
刘岁成
于海波
尹学海
石科峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Huawang Computer Technology Co ltd
Original Assignee
Hebei Huawang Computer Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Huawang Computer Technology Co ltd filed Critical Hebei Huawang Computer Technology Co ltd
Priority to CN202310900334.3A priority Critical patent/CN116935859A/zh
Publication of CN116935859A publication Critical patent/CN116935859A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1108Web based protocols, e.g. webRTC

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种声纹识别处理方法,包括:建立穿戴设备与云端***的通信连接;语音解锁穿戴设备,穿戴设备采集用户的语音信息形成用户声纹信息并上传至云端***,云端***提取用户声纹信息中的声纹特征并与云端***的声纹特征库中的全部声纹特征进行一一比对,若声纹特征库中存在用户声纹信息中的声纹特征,穿戴设备则解锁;若穿戴设备解锁,穿戴设备则采集当前环境中的环境语音形成环境语音信息并上传至云端***,云端***对环境语音信息进行分析并作出不同的指令。本发明通过在施工人员身上携带可穿戴设备,然后使穿戴设备与云端***建立连接,然后利用云端***对施工环境中的声音进行分辨,有效的提高了施工人员的安全性。

Description

一种声纹识别处理方法及***
技术领域
本发明涉及声纹的识别与处理领域,尤其是涉及一种声纹识别处理方法及***。
背景技术
在当前全球化的数字信息时代,互联网、大数据、人工智能等新兴技术已经成为了现实生活中不可或缺的一部分。而这些技术的发展也给我们带来了更多的创造力和机会。其中,智能可穿戴设备是一种快速发展的智能移动设备,它将传统穿戴设备的功能与智能化技术相结合,提供更加便捷、高效、智能的使用体验。声纹识别是近年来人工智能领域中非常重要和热门的研究方向之一。它源自语音识别的基础,但相比语音识别更为复杂,因为声纹不仅包含了说话者的口音特征,还包括了其发音、语调、语气等多种属性。这些属性在表现出文化、个体、地域等信息,使得声纹成为判断某个人或群体身份的有效手段。然而,声纹识别也面临着许多技术上的挑战。
首先,声纹的质量通常受到影响的噪声、网络传输的数据质量以及录音设备的质量等因素,这会导致声纹识别模型的性能下降。其次,声纹的变化是非常大,从而使得对声纹进行定量分类和标注变得非常困难。最后,由于声纹中包含了多种属性,如果只用单一的特征提取,就无法全面反映声纹的特点。
虽然声纹识别存在很多技术上的挑战,但也在很多方向上取得发展进步,比如对特征提取、模型构建和算法优化等方面的进展,在特征提取方面,开始将声纹视为时间序列,利用频谱分析、声速分析、语调分析等方法提取声纹的特征;同时,由于声纹中包含了多种属性,所以需要结合多种特征来进行提取。在模型构建方面,将声纹识别模型架构化,通过深度学习、支持向量机等方式构建声纹识别模型,并通过训练来优化模型的性能。在算法优化方面,通过改良算法,提高声纹识别模型的准确率和鲁棒性。
未来,声纹识别将会越来越成熟,其应用场景也将逐渐扩展。除了当前已经广泛应用的语音识别和情感分析等领域,声纹识别还可以应用于身份认证、智能家居、安防***等多个场景,比如本例中使用声纹识别来验证智能可穿戴设备的身份。
近年来,随着人工智能技术的发展,智能手表、智能耳机等可穿戴设备语音交互的应用也越来越广泛。这些设备通过使用语音识别和语音合成技术,实现了与计算机或其他设备进行语音交互的功能。
在日常生活中,可穿戴设备语音交互有着广泛的应用场景,比如语音控制,可穿戴设备语音交互的最为明显的特点就是语音控制。通过智能手表或智能耳机等设备,用户可以通过语音指令来控制相关设备,如调节音量、实时语音通话、导航、发送定位数据等。这种语音控制方式非常方便,可以避免需要手动操作设备的麻烦,同时还能提高用户的效率,即使在严重受伤或者失去活动能力的情况下也能够进行远程汇报,为救援节省了宝贵的时间。例如,通过智能手表,用户可以通过语音指令来查看今天的安排、发送文件等。除了语音控制外,可穿戴设备语音交互还可以作为语音助理。通过智能手表或智能耳机等设备,用户可以获取当地時间、气象信息、健康数据等。此外,这些设备还可以根据用户的喜好和需求,提供定制化的服务,如推荐某个类型的食物或运动等。这种语音助理方式非常方便,可以让用户在任何时候都能得到帮助。用户可以与其他人进行语音聊天,而无需手动输入文本。这种语音聊天方式非常方便,可以让用户更加自由地表达思想,并且还能增强社交联系。例如,通过智能手表,用户可以与家人、朋友进行远程语音聊天。用户可以通过语音指令来命名某个文件、批处理某些内容等。这种语音命名方式非常方便,可以减少手动操作的麻烦,同时还能提高用户的效率。例如,通过智能手表,用户可以通过语音指令来命名某个照片。
总之,可穿戴设备语音交互是一种非常方便、高效的语音交互方式,已经在日常生活中被广泛应用。未来,随着技术的不断发展,可穿戴设备语音交互的应用前景也会越来越广阔。
在工程施工的过程中存在着各种各样的安全隐患,尤其是一些隧道类施工,但是在施工过程中,施工人员很难分辨周围工作环境中发出的声音是否为异响,致使施工人员的安全得不到有效的保障。
发明内容
为了提高施工人员施工过程中的安全性,本发明提供了一种声纹识别处理方法及***,其通过在施工人员身上携带可穿戴设备,然后使穿戴设备与云端***建立连接,然后利用云端***对施工环境中的声音进行分辨,有效的提高了施工人员的安全性。
第一方面,本发明提供的一种声纹识别处理方法,采用如下的技术方案:
一种声纹识别处理方法,包括:
建立通信连接,启动穿戴设备,建立穿戴设备与云端***的通信连接;
语音解锁穿戴设备,穿戴设备采集用户的语音信息形成用户声纹信息并上传至云端***,云端***提取用户声纹信息中的声纹特征并与云端***的声纹特征库中的全部声纹特征进行一一比对,若声纹特征库中存在用户声纹信息中的声纹特征,则云端***向穿戴设备发送穿戴设备解锁码,若声纹特征库中不存在用户声纹信息中的声纹特征,则云端***向穿戴设备发送重试码;
若穿戴设备接收到解锁码,穿戴设备则解锁;
若穿戴设备接收到重试码,穿戴设备则进行重试语音播报以提示用户重新进行语音解锁;
若穿戴设备解锁,穿戴设备则采集当前环境中的环境语音形成环境语音信息并上传至云端***,云端***对环境语音信息进行分析并作出不同的指令。
优选的,建立声纹特征库,云端***根据用户需求提前建立声纹特征库,穿戴设备预先采集用户的语音信息,然后提取用户语音信息作为声纹特征信息并上传至云端***,云端***根据提取的穿戴设备上传上来的声纹特征信息中的声纹特征建立声纹特征库。
优选的,在云端***上设定语音解锁上限次数M,当穿戴设备进行语音解锁的次数大于或等于上限次数M时,云端***则向穿戴设备发送警告码,若穿戴设备在接收到警告码,穿戴设备则进行警告语音播报以提示用户为非法用户。
优选的,建立使用权限,当穿戴设备提示用户为非法用户时用户可通过穿戴设备向云端***申请使用权限,其中,使用权限包括将用户声纹特征信息中的声纹特征储存于声纹特征库内,若云端***同意建立使用权限,则将用户声纹信息中的声纹特征储存于声纹特征库内,若云端***不同意建立使用权限,则将用户声纹信息删除。
优选的,云端***对环境声纹信息分析后形成分析结果,分析结果包括异常声音分类和用户声音分类,云端***操作员根据异常声音分类的形式通过云端***向穿戴设备发出相应异常指令,穿戴设备接收异常指令并转换成语音播报传递给穿戴设备用户。
优选的,所述异常声音分类包括噪音干扰、有害声波、争吵声波和预设声音声波。
第二方面,本发明提供的一种声纹识别处理***,采用如下的技术方案:
一种声纹识别处理***,包括:
云端***;
穿戴设备,穿戴用户身体上,与云端***建立通信连接,用于采集声音并上传至云端***以及在根据接收到的云端***的指令做出相应的相应;
声纹特征提取模块,用于提取用户声纹信息中的声纹特征以及环境声纹信息中的声纹特征;
比对判断模块,用于将用户声纹信息中的声纹特征与声纹特征库内的声纹特征进行一一比对,并判断声纹特征库内是否存在用户声纹信息中的声纹特征;
分类模块,对声纹特征提取模块提取出的环境声纹信息中的声纹特征进行特征分类。
优选的,云端***包括:
云端接收模块,用于接收穿戴设备发送的电信号;
云端发送模块,用于向穿戴设备发送电信号。
优选的,穿戴设备包括:
穿戴设备接收模块,用于接收云端发送模块发送的电信号;
穿戴设备发送模块,用于向云端***发送电信号。
优选的,穿戴设备还包括:
语音采集模块,用于采集用户的语音信息及用户所在环境中的语音信息;
语音播报模块,用于播报相应的提示播报信息。
综上所述,本发明包括以下有益技术效果:
1.本发明通过在施工人员身上携带可穿戴设备,然后使穿戴设备与云端***建立连接,然后利用云端***对施工环境中的声音进行分辨,有效的提高了施工人员的安全性。
2.可穿戴设备具备便捷操作、节省时间和精力、适用多种应用场景并且设计人性化。本例可穿戴设备通过控制器方式实现了手动操作的功能转移,使得用户无需直接接触物体,只需要通过设备进行指示,就可以完成任务的执行。这样可以大大降低人为操作失败的原因,同时也能够提高工作效率。
3.本发明中的可穿戴设备的使用不仅可以提高工作效率,还能够节省时间和精力。比如可以减少人类在危险区域进行操作的次数,保护人员安全,并且避免人员暴露在潮湿、高温、低温下等环境下工作,提高工作效率。可穿戴设备的应用场景十分广泛,可以运用于建筑工程、军事行动、救援行动、交通管理等多个领域。比如说,在救援行动中,可穿戴设备可以用于地震、火灾、水灾等自然灾害中的救援工作。这些可以提高工作效率,节省时间和精力,最重要的是可以减少人员休息次数,保护人员安全。此外本例可穿戴设备的设计非常注重人性化设计,使得使用起来更加方便。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例中声纹特征识别的一种流程图。
图3是本发明实施例中声纹特征识别的另一种流程图。
图4是本发明实施例中语音信息合成的流程图。
图5是本发明实施例中WebRTC架构的流程图。
具体实施方式
以下结合附图对本申请作进一步详细说明。
本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
下面结合说明书附图对本申请实施例作进一步详细描述。
本申请实施例提供了一种声纹识别处理方法,由穿戴设备与云端***执行,该穿戴设备可以为服务器也可以为终端设备,其中,该云端***可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。终端设备可以是代智慧安全帽、智慧手表、智慧矿灯等,但并不局限于此,该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制,优选的,在本实施例中,穿戴设备与云端***通过无线通信方式连接。
S1、建立通信连接;
用户启动穿戴设备,建立穿戴设备与云端***的通信连接,具体的,穿戴设备优先选用与云端***通过无线通信连接,包括但不限于WIFI连接和蓝牙连接。其中,穿戴设备可通过用户手动建立与云端***的通信连接,也可在启动后自动搜索并与云端***建立通信连接。
S2、语音解锁穿戴设备;
在穿戴设备启动后,用户向穿戴设备输入语音信息,穿戴设备采集用户的语音信息并形成用户声纹信息,接着穿戴设备将用户声纹信息上传至云端***,云端***对用户声纹信息中的声纹特征进行提取,然后将提取的用户声纹信息中的声纹特征与声纹特征库中的声纹特征进行一一比对。若声纹特征库中存在用户声纹信息中的声纹特征,则云端***会进一步验证当前用户的使用权限,若用户具备相应的使用权限,云端***则会向穿戴设备发送解锁码,穿戴设备在接收到解锁码后,穿戴设备自动完成解锁。若声纹特征库中不存在当前用户声纹信息中的声纹特征,或者当前用户不具备穿戴设备相应的使用权限,云端***则会向穿戴设备发送重试码,在穿戴设备接收到重试码后,穿戴设备发出语音播报以提示当前用户重新进行语音解锁,语音播报可以是“请重试”、“当前用户不具备使用权限”、“当前用户未注册”等提示语。
其中,声纹特征库是通过用户预先注册的,即穿戴设备采集用户的语音信息并形成用户声纹信息,接着穿戴设备将用户声纹信息上传至云端***,云端***对用户声纹信息中的声纹特征进行提取,然后云端***将采集的全部用户的声纹特征组建成声纹特征库,在使用时,云端***对当前穿戴设备用户的声纹特征与声纹特征库中的全部声纹特征进行一一比对,然后发出相应的指令。
在云端***上设定语音解锁上限次数M;
在穿戴设备的当前用户无法打开穿戴设备时,当前用户可尝试打开穿戴设备解锁的上限次数设定为M,当用户在尝试M次打开穿戴设备无果后,穿戴设备可自动进入锁定状态,并且云端***向当前穿戴设备发送警告码,当前穿戴设备在接收到警告码后进行语音播报以提示当前用户无法继续尝试打开该穿戴设备,具体的,语音播报可以是“当前用户为非法用户”或“当前用户不具备使用权限”
建立使用权限;
当用户无法打开穿戴设备时,用户可通过穿戴设备向云端***申请使用权限,具体的,无法打开穿戴设备的情况包括但不限于用户初次使用穿戴设备、穿戴设备提醒用户请重新打开穿戴设备、穿戴设备提示用户无法打开穿戴设备以及当前用户为非法用户等。
其中,使用权限可以是包括将用户声纹特征信息中的声纹特征储存于声纹特征库内,若云端***同意建立使用权限,则将用户声纹信息中的声纹特征储存于声纹特征库内,若云端***不同意建立使用权限,则将用户声纹信息删除。
使用权限可以是当前用户是否具备使用该穿戴设备的权限,以及当前用户是否具备利用当前穿戴设备实现某个特定功能或目的的权限。
使用权限还可以是其他权限或应用,比如利用穿戴设备实现其他语音播报、语音采集、语音对话、与其他穿戴设备的语音通话以及对云端***进行管理并开放其他应用权限等。
在当前用户不具备某个使用权限时,当前用户可通过当前穿戴设备向云端***申请建立相应的使用权限,云端***若同意当前用户拥有相应的使用权限,则给当前用户开通相应的使用权限,云端***若不同意当前用户拥有相应的使用权限,则拒绝并驳回当前用户开通相应使用权限的请求。
如此设计,首先使用户操作简便,并且提升安全性。在当今数字化和信息技术发展迅速的时代,身份认证已成为日常生活中必不可少的一部分。由于人们对个人信息安全越来越重视,传统的身份认证方式已经无法满足现代需求。因此,开发新型的声纹识别技术,作为基于特征提取与机器学习算法的非接触、高效、安全的身份认证方式,正处于研究前景之中。随着神经网络和自然语言处理技术的兴起,基于深度学习的声纹识别技术得到了广泛的关注。相比于传统的声音特征提取方法,新型的方法能够更加有效地提取声纹中的特征,同时还可以实现对特征的自动选择和结构建模。基于深度学习的声纹识别技术已被广泛应用于多个领域。作为一种可穿戴智能设备,对于身份安全验证当然是必须具备的。
其中,声纹特征库是指在云端存储的可穿戴设备信息及对应可穿戴设备注册的声纹特征,用户通过可穿戴设备初始设置向云端服务注册预留声纹特征,云端服务根据注册的声纹特征采取授权确认或者不授权驳回选项,如果云端服务采取授权确认,那么此用户的声纹特征被注册到声纹特征库,即可被用来验证可穿戴设备的用户权限,反之,如果云端服务采取不授权选项,那么用户没有使用可穿戴设备的权限,并且在云端可对已注册用户声纹特征进行维护,比如删除过期用户或者配置用户权限期限等。
如此设计,保证了数据存储及***的安全性。本例中提出云端存储声纹特征,云端存储数据提供了可靠的数据存储解决方案,使得用户不必再需要担心数据丢失或损坏的问题。云端数据存储也更加安全,因为它使用了高度安全的技术来保护用户的数据。这意味着数据在云端存储时不容易被外部被窃取或篡改。云端数据存储还能提供实时数据访问和共享,使得身份验证、数据分享更加安全便捷。云端数据存储通常比本地存储更加节省成本,因为它不需要花费大量的硬件和软件资源。
其中,将提取的用户声纹特征信息中的声纹特征与声纹特征库中的声纹特征一一比对的过程可通过声纹识别算法模型实现。即计算用户声纹特征和声纹特征库对应可穿戴设备的注册预留存储声纹特的距离,如果该距离小于设定阈值,即认为用户声纹特征和声纹特征库对应可穿戴设备的注册预留存储声纹特相似,并且判断此用户验证成功,如果用户声纹特征和声纹特征库对应可穿戴设备的注册预留存储声纹特的距离大于设定阈值,即认为用户验证失败。
如此设计,应用算法模型提升身份验证安全性。在进行声纹识别之前,对音频进行预处理。包括去除噪声、提取声纹信息等。后者是将音频转换为时间序列图形,其中每个像素表示一个声波的能量。从原始声纹信息中提取有用的声纹特征,以便于建立模型并进行分类。特征包括声纹的能量、相位和速度。本例应用的声纹识别模型是基于神经网络的算法模型。本例声纹识别模型可以达到较高的精度,能够准确地识别声纹信息。并且可以实现很高的复杂性,能够处理复杂的声纹信息。本例声纹识别模型是应用先进的技术,具有较高的精度和复杂性,并能广泛应用于许多领域。
若穿戴设备解锁,穿戴设备则采集当前环境中的环境语音形成环境语音信息并上传至云端***,云端***对环境语音信息进行分析并作出不同的指令。
其中,可穿戴设备解锁成功后即可处于工作状态,此时可穿戴设备自动设定为作业模式。可穿戴设备在作业模式下会自动收集外部音频信息,根据收集的外部音频信息,可穿戴设备会进行实时的数据上报到云端,云端服务接收到可穿戴设备上报的数据,根据可穿戴设备发送的音频信息数据进行智能分析。根据可穿戴设备上报的数据智能分析的结果,如果分析结果中包含异常声音分类,解析异常声音分类,比如噪音干扰、有害声波、指定种类声音等,云端服务发送对应语音提示给穿戴设备用户,指导穿戴设备用户完成相应指令。如果分析结果中包含用户声纹特征,云端服务自动解析可穿戴设备上报的音频信息,根据可穿戴设备上报的音频信息进行语音识别,理解用户意图,根据理解的用户意图采取多种应对方式,如发送给助手机器人或者操作员,助手机器人或者操作员根据云端***发送的语音意图指导可穿戴设备的用户完成相应指令。
如此设计,能够显著提升穿戴设备用户的效率,并且收集和积累数据。随着人工智能技术的快速发展,声纹分析、声音分类等在各个行业中的应用也越来越广泛。尤其是在语音辨识方面,人工智能技术已经成为了一种非常有力的工具。本例中使用的语音模型能够分析大量的声音数据,实现更加高效、准确的声音分析。随着现代科技的发展,远程技能指导在各个行业中得到了广泛应用。通过智能可穿戴设备,将专业知识和技能从一个人或一组人传递给其他地方的对象,以实现提高工作效率的目的。远程技术指导可以节省时间成本。一些工作通常需要花费大量的时间和金额,而通过远程技术指导,只需要少数时间就可以完成大量的任务,同时也可以显著降低成本。本例中通过可穿戴设备进行远程技术指导可以用户的工作效率。
云端服务根据可穿戴设备上报的音频信息,对可穿戴设备上报的音频信息进行第一智能分析,声音分类,云端服务集成声音分类模型,可识别异常声音如噪音干扰、求救音、争吵音、谩骂音等等异常声音,如发现异常分类,云端服务即时处理,采取语音指示可穿戴设备用户或者联系云端服务操作员或者机器人助手进行报警的操作。完成第一智能分析后,可进行第二智能分析,语音识别及语义理解,云端服务集成语音识别及语义理解模型,云端服务解析可穿戴设备上报的音频信息,对可穿戴设备上报的音频信息进行语音识别,如识别到用户声纹,根据用户表达信息理解用户意图,如果用户寻求指导或者遇到突发事件无法解决寻求云端服务帮助,云端服务根据用户需求采取发送到助手机器人或者云端服务操作员,可穿戴设备用户根据云端服务指导完成应对突发事件或者紧急情况。WebRTC实时视频语音通话可以实时进行汇报现场状况,对现场情况进行分析,为救助伤员或者抢修设备提供了宝贵的时间。
如此设计,包含云端***及可穿戴设备。云端***能够实现无限制的扩展性,因为数据都在云端存储,只需要根据业务需求调整资源,就可以实现大量化扩展。云端***保证数据的安全性和可靠性,确保业务的连续运行。因为云端***中的数据都已经被集中管理,因此操作变得非常简单,只需要通过Web界面或移动应用程序进行操作,而无需考虑技术细节。云端***支持多个用户之间的数据共享,可以减少重复挑选和建立基础设施的开发和运营成本。云端***可以实现数据的版本控制,方便用户对数据信息回溯和查看历史数据。云端***可以通过使用专业的加密算法来保护用户数据的安全性。云端***可以实现定期的数据备份,防止数据丢失。边缘端的智能可穿戴设备可以实现网络流量的路由和交换,从而实现传输节点之间的信息交换。边缘端的智能可穿戴设备可以通过使用高效的处理器和内存组件来提高***的处理速度。边缘端的智能可穿戴设备可以通过调整硬件和软件参数来实现配置灵活性。边缘端的智能可穿戴设备可以提高故障容错。并且边缘端的智能可穿戴设备可以通过小型化和标准化来实现安装方便。边缘端的智能可穿戴设备可以通过使用标准化的设备和开源软件来降低成本。边缘端的智能可穿戴设备作为一种新型的网络管理解决方案,具有广泛的应用前景和重要性。它提供了高度自主控制、高度可定制性、高度安全性、高度灵活性、高度可扩展性、高度易用性、高度数据支持、高度性能和低成本等优点,从而能够满足不同类型和规模的需求。
可穿戴设备可以是智慧安全帽、智慧手表、智慧矿灯等人员便携式可穿戴设备。可穿戴设备用户在佩戴设备处于工作模式下,需要自动检测识别外部信息或者可穿戴设备用户需要寻求云端服务指导或者帮助。
如此设计,减少用户操作,提升操作便捷性。穿戴边缘设备通过将智能化控制器和其他电子设备放在人体周围,使用户可以通过手触或语音指令来进行控制。设备为用户提供了方便、高效、安全的能力,可穿戴边缘设备可以实现自动化控制,更好的数据保护。本例可穿戴边缘设备是一种较为前瞻的技术,它能够为用户带来了许多便利、安全和健康的好处。可穿戴边缘设备将会越来越成熟、智能化,为用户创造更加美好的生活体验。
声纹特征识别可通过图2所示的流程实现,具体步骤如下:
1)、语音信息通过穿戴设备采集形成声纹信息后上传至云端***后,首先进入预处理阶段。预处理包括端点检测和噪声消除等环节,端点检测环节对输入的音频流进行分析,自动删除音频中静音或非人声等无效部分,保留有效声纹信息。噪声消除环节滤除背景噪声,满足用户在不同环境下使用需求。
2)、经过预处理后的声纹信息进入声纹特征提取阶段,从说话人的声纹信息中提取出能够表征说话人特定器官结构或行为习惯的频谱特征参数。该特征参数对同一说话人具有相对稳定性,不随时间或环境变化而变化,对同一说话人的不同话语一致,具有不易模仿性和较强的抗噪性。
3)、提取到的个人声纹特征参数通过声纹识别***的学习训练,生成用户专有的声纹特征模型,存储在声纹特征模型数据库中,与用户ID一一对应。
4)、当需要进行声纹识别时,声纹识别***将采集到的声纹信息进行预处理、声纹特征提取后,得到待识别的声纹特征参数,与声纹特征模型数据库中某一用户的声纹特征模型或全部声纹特征模型进行相似性匹配,得到声纹特征模式之间的相似性距离度量,通过选取适当的距离度量作为门限值,得出识别结果并输出。
上述声纹特征识别实现如图3所示,大致步骤如下:
1)、预处理。
首尾端的静音切除,降低干扰,静音切除的操作一般称为VAD。声音分帧,也就是把声音切开成一小段,每小段称为一帧,使用移动窗函数来实现,不是简单的切开,各帧之间一般是有交叠的。
2)、声纹特征提取。
主要算法有线性预测倒谱系数和倒谱系数,目的是把每一帧波形变成一个包含声音信息的多维向量;
3)、声学模型。
通过对语音数据进行训练获得,输入是特征向量,输出为音素信息;
4)字典。
字或者词与音素的对应,简单来说,中文就是拼音和汉字的对应,英文就是音标与单词的对应;
5)语言模型。
通过对大量文本信息进行训练,得到单个字或者词相互关联的概率;
6)解码。
就是通过声学模型、字典、语言模型对提取声纹特征后的音频数据进行文字输出。
上述语音信息合成实现如图4所示,大致步骤如下:
1)、文本正则化。
文本正则化用以消除非标准词在读音上的歧义,将书面文本词转换为口语词,比如数字、缩写、符号、网址等。
2)、分词和词性。
分词和词性预测在自然语言处理领域也是较为常见的任务,在语音合成***中,这两个任务的生成结果虽然不会直接放入到前端抄本中,但对于前端中的注音和韵律预测问题,却是非常重要的输入信息。
3)、注音。
由于端到端算法的进步,对于英文而言,注音问题已经不那么重要。但对于中文而言,注音仍然是语音合成非常重要的一步。
4)、韵律预测。
韵律的概念相对抽象,包含句调、重读、焦点、韵律边界等信息。在此处的中文韵律预测问题完成三层韵律等级树的预测。三层韵律等级树分别是韵律词、韵律短语、语调短语;不同的等级在重读、停顿时间等处存在差异。
上述WebRTC架构如图5所示,其中使用的技术和原理如下:
1)、WebRTC C++API层。
绿色部分包裹的浅紫色WebRTCC++API(Peer Connection)部分,这部分主要是一些C++的接口层,这一层提供了一些C++API,主要是供浏览器支持WebRTC规范而调用的API,又比如需要Android上实现webRTC功能就需要编写JNI函数调用这一层API。
这一层的主要作用就是把WebRTC的核心功能暴露出来,如设备管理,音视频流数据采集等,方便各个软件厂商集成到自家应用中,比如浏览器厂商等。
其中Peer Connection是该层最核心的一个模块,即对等连接模块;该模块中实现了很多功能,如P2P穿墙打洞、通信链路的建立和优选、流数据传输、非音视频数据传输、传输质量报告和统计等等。
2)、Sessionmanagement层;
绿色部分被Session management/Abstract signaling(Session)标注的一层就是会话管理层。
这一层提供了会话功能管理功能,可进行创建会话、管理会话、管理上下文环境等。而这一层又会涉及到各种协议,比如说信令服务器的SDP协议等,主要用于进行信令交互和管理RTCPeer Connection的连接状态。
3)、引擎层;
这一层为WebRTC核心层中最重、最复杂的一层。而这一层又分为三个小模块,分别是:Voice Engine(音频引擎)、Video Engine(视频引擎)以及Transport(传输模块)。
第一个模块Voice Engine(音频引擎),Voice Engine是一个包含了系列音频处理功能的框架,如音频采集、音频编解码、音频优化(包括降噪、回声消除等)等一系列的音频功能。
第二个模块Video Engine(视频引擎),Video Engine是一个包含了系列视频处理功能的框架,如视频采集、视频编解码、根据网络抖动动态修改视频传输质量、图像处理等。
第三个模块Transport(传输模块),在WebRTC中,数据传输除了音视频等流媒体数据之外,还可以传输文件、文本、图片等其他二进制数据,这些功能就是这个模块所提供的。
本申请实施例还公开了一种声纹识别处理***。
声纹识别处理***包括:
云端***;
穿戴设备,穿戴用户身体上,与云端***建立通信连接,用于采集声音并上传至云端***以及在根据接收到的云端***的指令做出相应的相应;
声纹特征提取模块,用于提取用户声纹信息中的声纹特征以及环境声纹信息中的声纹特征;
比对判断模块,用于将用户声纹信息中的声纹特征与声纹特征库内的声纹特征进行一一比对,并判断声纹特征库内是否存在用户声纹信息中的声纹特征;
分类模块,对声纹特征提取模块提取出的环境声纹信息中的声纹特征进行特征分类。
声纹特征提取模块、比对判断模块和分类模块均安装于云端***上,穿戴设备与云端***建立无线通信连接。
云端***上还设有云端接收模块和云端发送模块,云端接收模块用于接收穿戴设备发送的电信号;云端发送模块用于向穿戴设备发送电信号。
云端***还包括声纹特征数据库模块,声纹特征数据库模块用于储存用户的声纹特征。
穿戴设备还设有穿戴设备接收模块和穿戴设备发送模块,穿戴设备接收模块用于接收云端发送模块发送的电信号;穿戴设备发送模块用于向云端***发送电信号。
穿戴设备上还设有语音采集模块和语音播报模块,语音采集模块用于采集用户的语音信息及用户所在环境中的语音信息,语音播报模块用于播报相应的提示播报信息。
以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。

Claims (10)

1.一种声纹识别处理方法,其特征在于,包括:
建立通信连接,启动穿戴设备,建立穿戴设备与云端***的通信连接;
语音解锁穿戴设备,穿戴设备采集用户的语音信息形成用户声纹信息并上传至云端***,云端***提取用户声纹信息中的声纹特征并与云端***的声纹特征库中的全部声纹特征进行一一比对,若声纹特征库中存在用户声纹信息中的声纹特征,则云端***向穿戴设备发送穿戴设备解锁码,若声纹特征库中不存在用户声纹信息中的声纹特征,则云端***向穿戴设备发送重试码;
若穿戴设备接收到解锁码,穿戴设备则解锁;
若穿戴设备接收到重试码,穿戴设备则进行重试语音播报以提示用户重新进行语音解锁;
若穿戴设备解锁,穿戴设备则采集当前环境中的环境语音形成环境语音信息并上传至云端***,云端***对环境语音信息进行分析并作出不同的指令。
2.根据权利要求1所述的一种声纹识别处理方法,其特征在于,建立声纹特征库,云端***根据用户需求提前建立声纹特征库,穿戴设备预先采集用户的语音信息,然后提取用户语音信息作为声纹特征信息并上传至云端***,云端***根据提取的穿戴设备上传上来的声纹特征信息中的声纹特征建立声纹特征库。
3.根据权利要求1所述的一种声纹识别处理方法,其特征在于,在云端***上设定语音解锁上限次数M,当穿戴设备进行语音解锁的次数大于或等于上限次数M时,云端***则向穿戴设备发送警告码,若穿戴设备在接收到警告码,穿戴设备则进行警告语音播报以提示用户为非法用户。
4.根据权利要求3所述的一种声纹识别处理方法,其特征在于,建立使用权限,当穿戴设备提示用户为非法用户时用户可通过穿戴设备向云端***申请使用权限,其中,使用权限包括将用户声纹特征信息中的声纹特征储存于声纹特征库内,若云端***同意建立使用权限,则将用户声纹信息中的声纹特征储存于声纹特征库内,若云端***不同意建立使用权限,则将用户声纹信息删除。
5.根据权利要求1所述的一种声纹识别处理方法,其特征在于,云端***对环境声纹信息分析后形成分析结果,分析结果包括异常声音分类和用户声音分类,云端***操作员根据异常声音分类的形式通过云端***向穿戴设备发出相应异常指令,穿戴设备接收异常指令并转换成语音播报传递给穿戴设备用户。
6.根据权利要求5所述的一种声纹识别处理方法,其特征在于,所述异常声音分类包括噪音干扰、有害声波、争吵声波和预设声音声波。
7.一种声纹识别处理***,其特征在于,包括:
云端***;
穿戴设备,穿戴用户身体上,与云端***建立通信连接,用于采集声音并上传至云端***以及在根据接收到的云端***的指令做出相应的相应;
声纹特征提取模块,用于提取用户声纹信息中的声纹特征以及环境声纹信息中的声纹特征;
比对判断模块,用于将用户声纹信息中的声纹特征与声纹特征库内的声纹特征进行一一比对,并判断声纹特征库内是否存在用户声纹信息中的声纹特征;
分类模块,对声纹特征提取模块提取出的环境声纹信息中的声纹特征进行特征分类。
8.根据权利要求7所述的一种声纹识别处理***,其特征在于,云端***包括:
云端接收模块,用于接收穿戴设备发送的电信号;
云端发送模块,用于向穿戴设备发送电信号。
9.根据权利要求7所述的一种声纹识别处理***,其特征在于,穿戴设备包括:
穿戴设备接收模块,用于接收云端发送模块发送的电信号;
穿戴设备发送模块,用于向云端***发送电信号。
10.根据权利要求9所述的一种声纹识别处理***,其特征在于,穿戴设备还包括:
语音采集模块,用于采集用户的语音信息及用户所在环境中的语音信息;
语音播报模块,用于播报相应的提示播报信息。
CN202310900334.3A 2023-07-21 2023-07-21 一种声纹识别处理方法及*** Pending CN116935859A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310900334.3A CN116935859A (zh) 2023-07-21 2023-07-21 一种声纹识别处理方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310900334.3A CN116935859A (zh) 2023-07-21 2023-07-21 一种声纹识别处理方法及***

Publications (1)

Publication Number Publication Date
CN116935859A true CN116935859A (zh) 2023-10-24

Family

ID=88389159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310900334.3A Pending CN116935859A (zh) 2023-07-21 2023-07-21 一种声纹识别处理方法及***

Country Status (1)

Country Link
CN (1) CN116935859A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529929A (zh) * 2006-09-05 2009-09-09 Gn瑞声达A/S 具有基于直方图的声环境分类的助听器
CN105893554A (zh) * 2016-03-31 2016-08-24 广东小天才科技有限公司 可穿戴设备交友方法及***
CN207264779U (zh) * 2017-08-30 2018-04-20 深圳金康特智能科技有限公司 一种带声纹唤醒功能的智能穿戴设备
CN111243603A (zh) * 2020-01-09 2020-06-05 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
CN112542156A (zh) * 2020-12-08 2021-03-23 山东航空股份有限公司 基于声纹识别和语音指令控制的民航维修工卡***
CN113077803A (zh) * 2021-03-16 2021-07-06 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
US20210390959A1 (en) * 2020-06-15 2021-12-16 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN114724566A (zh) * 2022-04-18 2022-07-08 中国第一汽车股份有限公司 语音处理方法、装置、存储介质及电子设备
CN114842843A (zh) * 2022-03-29 2022-08-02 青岛海尔空调器有限总公司 终端设备控制方法、装置、电子设备及存储介质
CN114974255A (zh) * 2022-05-16 2022-08-30 上海华客信息科技有限公司 基于酒店场景的声纹识别方法、***、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529929A (zh) * 2006-09-05 2009-09-09 Gn瑞声达A/S 具有基于直方图的声环境分类的助听器
CN105893554A (zh) * 2016-03-31 2016-08-24 广东小天才科技有限公司 可穿戴设备交友方法及***
CN207264779U (zh) * 2017-08-30 2018-04-20 深圳金康特智能科技有限公司 一种带声纹唤醒功能的智能穿戴设备
CN111243603A (zh) * 2020-01-09 2020-06-05 厦门快商通科技股份有限公司 声纹识别方法、***、移动终端及存储介质
US20210390959A1 (en) * 2020-06-15 2021-12-16 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
CN112542156A (zh) * 2020-12-08 2021-03-23 山东航空股份有限公司 基于声纹识别和语音指令控制的民航维修工卡***
CN113077803A (zh) * 2021-03-16 2021-07-06 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
CN114842843A (zh) * 2022-03-29 2022-08-02 青岛海尔空调器有限总公司 终端设备控制方法、装置、电子设备及存储介质
CN114724566A (zh) * 2022-04-18 2022-07-08 中国第一汽车股份有限公司 语音处理方法、装置、存储介质及电子设备
CN114974255A (zh) * 2022-05-16 2022-08-30 上海华客信息科技有限公司 基于酒店场景的声纹识别方法、***、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王志良: "脑与认知科学概论 第2版", 31 December 2021, 北京邮电大学出版社 *
谭喆: "应用软件开发协议栈", 31 March 2020, 东南大学出版社 *

Similar Documents

Publication Publication Date Title
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
CN108428446B (zh) 语音识别方法和装置
CN110047481B (zh) 用于语音识别的方法和装置
WO2016112634A1 (zh) 一种机器人***的声音识别***及方法
CN112102850B (zh) 情绪识别的处理方法、装置、介质及电子设备
CN108062212A (zh) 一种基于场景的语音操作方法及装置
CN112151015A (zh) 关键词检测方法、装置、电子设备以及存储介质
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
KR20190096308A (ko) 전자기기
CN109462482A (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
KR102312993B1 (ko) 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치
CN111916088B (zh) 一种语音语料的生成方法、设备及计算机可读存储介质
CN113129867A (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN115457938A (zh) 识别唤醒词的方法、装置、存储介质及电子装置
US20240012893A1 (en) Headphone biometric authentication
CN106980640A (zh) 针对照片的交互方法、设备和计算机可读存储介质
CN116935859A (zh) 一种声纹识别处理方法及***
CN109887490A (zh) 用于识别语音的方法和装置
CN113571063B (zh) 语音信号的识别方法、装置、电子设备及存储介质
Kos et al. A speech-based distributed architecture platform for an intelligent ambience
CN112150103B (zh) 一种日程设置方法、装置和存储介质
KR102631143B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
CN111582708A (zh) 医疗信息的检测方法、***、电子设备及计算机可读存储介质
CN110125946A (zh) 自动通话方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination