CN116312513A - 一种智能语音控制*** - Google Patents

一种智能语音控制*** Download PDF

Info

Publication number
CN116312513A
CN116312513A CN202310103970.3A CN202310103970A CN116312513A CN 116312513 A CN116312513 A CN 116312513A CN 202310103970 A CN202310103970 A CN 202310103970A CN 116312513 A CN116312513 A CN 116312513A
Authority
CN
China
Prior art keywords
voice
wake
module
control
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310103970.3A
Other languages
English (en)
Inventor
张凯元
张凯斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Junkai Electronic Technology Co ltd
Original Assignee
Shaanxi Junkai Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Junkai Electronic Technology Co ltd filed Critical Shaanxi Junkai Electronic Technology Co ltd
Priority to CN202310103970.3A priority Critical patent/CN116312513A/zh
Publication of CN116312513A publication Critical patent/CN116312513A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Lock And Its Accessories (AREA)

Abstract

本发明提供了一种智能语音控制***,其用于配置唤醒语音时,通过语音唤醒设备实时接收唤醒语音,并在唤醒后,采集唤醒语音的声音纹理;其中,首次接收唤醒语音时,进行唤醒语音分级;还可以根据唤醒语音的声音纹理,对唤醒语音的对应用户进行分级加密;其中,不同等级的用户的语音加密方式不同;语音特征验证模块:并且在接收到语音信息时,通过特征识别网络进行语音特征识别,验证语音发出对象的身份信息;通过在语音唤醒设备在唤醒状态接收到语音信息时,通过语意分割识别网络,进行语音指令识别;也能够在接收到语音指令时,根据语音发出对象的身份信息,进行管理级别判定,并基于管理级别,确定语音指令的优先度。

Description

一种智能语音控制***
技术领域
本发明涉及语音控制技术领域,特别涉及一种智能语音控制***。
背景技术
目前,语音控制技术可以很好地解决电器因功能复杂导致的UI界面过于复杂的问题。具有语音控制功能的电器通常会包含控制模块和语音模块,二者之间通过命令词和播放词的传递实现UI信息交互。但是,现有的语音控制设备,只能设置单一或者有限的语音控制管理员,而且,不同管理员的语音控制权限相同,可以控制功能相同,对于,需要多等级,多权限控制的语音唤醒设备,现有的语音控制设备的功能达不到要求。
发明内容
本发明提供一种智能语音控制***,用以解决不同管理员的语音控制权限相同,可以控制功能相同,对于,需要多等级,多权限控制的语音唤醒设备,现有的语音控制设备的功能达不到要求的情况。
本发明提出了一种智能语音控制***,包括:
语音唤醒模块:用于配置唤醒语音时,通过语音唤醒设备实时接收唤醒语音,并在唤醒后,采集唤醒语音的声音纹理;其中,
首次接收唤醒语音时,进行唤醒语音分级;
语音加密模块:用于根据唤醒语音的声音纹理,对唤醒语音的对应用户进行分级加密;其中,
不同等级的用户的语音加密方式不同;
语音特征验证模块:用于在接收到语音信息时,通过特征识别网络进行语音特征识别,验证语音发出对象的身份信息;
语音指令识别模块:用于在语音唤醒设备在唤醒状态接收到语音信息时,通过语意分割识别网络,进行语音指令识别;
控制权限划分模块:用于在接收到语音指令时,根据语音发出对象的身份信息,进行管理级别判定,并基于管理级别,确定语音指令的优先度。
作为本发明的一种实施例:所述语音唤醒模块包括:
配置启动单元:用于在语音唤醒设备接收到用户的唤醒语音配置指令时,启动唤醒语音录用程序;
语音采集单元:用于通过唤醒语音录用程序,录取用户发出的实时唤醒语音;
纹理识别单元:用于对唤醒语音进行增强,生成音频信号功率图谱的灰度图像,通过灰度图像进行语音向量的正则化计算,确定纹理特征值;
唤醒语音分级单元:用于在录入唤醒语音后,通过用户对唤醒语音进行管理等级划分,根据管理等级设定不同等级唤醒语音的管理权限。
作为本发明的一种实施例:所述纹理识别单元包括:
增强子单元:用于确定唤醒语音的频谱图,并进行宽带增强处理,生成增强的音频信号,并确定对应的灰度图像;
矩阵搭建单元:用于根据唤醒语音的音频信号的灰度图像,生成唤醒语音的邻接矩阵和属性矩阵;其中,
邻接矩阵通过灰度图像的坐标构建;
属性矩阵通过灰度图像的属性构建;
特征提取子单元:用于通过邻接矩阵和属性矩阵,进行属性特征和结构特征提取;
正则化子单元:用于对属性特征和结构特征进行正则化,并进行特征融合;
计算子单元:用于根据融合特征,进行特征损失计算,根据特征损失,确定纹理特征值。
作为本发明的一种实施例:所述语音加密模块包括:
密钥设置单元:用于设置加密数据库,并根据不同等级的唤醒语音,进行加密程序分区存储;其中,
每类加密程序均设置有对应的单一算法;
加密单元:用于利用加密数据库的用户密钥对待唤醒语音进行加密处理,得到唤醒语音对应的语音密文数据,并基于唤醒语音中的关键词信息进行加密处理,得到密文索引数据;
结果单元:用于依据语音密文数据和密文索引数据,生成唤醒语音对应的语音加密处理结果。
作为本发明的一种实施例:所述语音加密模块还包括:
循环获取模块:用于定时循环获取语音唤醒设备的用户指令;其中,
用户指令中包含唤醒语音的权限信息;
权限分级模块:用于基于预设分级指标和用户指令,确定语音唤醒设备的当前权限等级;
分级判定模块:用于判断语音唤醒设备的当前唤醒语音与前一次确定的分级等级是否相同;其中,
若不相同,则在语音唤醒设备中执行预设分级策略;
若相同,则不做处理。
作为本发明的一种实施例:所述语音特征验证模块包括:
声纹网络搭建模块:用于预先搭建声纹识别模型,该声纹识别模型是基于神经网络构建的具有主神经网络;其中,
主神经网络包括多个神经单元,每个神经单元一种唤醒语音;
训练模块:用于通过主神经网络单元依据预设语音集合对唤醒语音进行动态训练
验证模块:当存在唤醒语音时,识别声纹特征,并在主神经网络内通过加载通用特征库对应的选择识别特征来建立一个与唤醒语音对应的验证神经网络单元,进行唤醒语音验证,判断唤醒语音的语音发出对象;
学习模块:用于将训练资源按照设定规则调配给主神经网络单元以对唤醒语音进行学习,当监测到新新唤醒语音学习完毕后,主神经网络单元所具有的网络资源被释放并重新融合到训练资源集合中。
作为本发明的一种实施例:所述语音指令识别模块包括:
指令获取单元:语音获取用户针对语音唤醒设备输入的语音指令;
指令识别单元:按照预设的语音指令识别网络,对语音指令进行语意分割解析,获得语音指令对应的目标控制逻辑;其中,
目标控制逻辑用于指示针对语音唤醒设备进行功能控制所使用的功能实施方式;
目标识别单元:用于根据所述目标控制逻辑,对语音唤醒设备进行控制。
作为本发明的一种实施例:所述语意分割解析包括:
特征提取单元:用于将语音指令输入至骨干网络中进行编码输出语意信息,并对语意信息进行卷积特征提取生成多层语意特征图;
解析分割单元:用于基于多层语意特征图进行多尺度特征解析分割,得到语意特征图;
融合输出单元:用于将语意特征图中的深层特征与多层特征图中的浅层特征进行融合,输出融合语意特征图。
作为本发明的一种实施例:所述控制权限划分模块包括:
体系搭建单元:用于通过语音唤醒设备的可执行指令,设计语音控制功能体系;
权限设置单元:用于根据用户设定不同唤醒对象的控制信息,构建语音控制功能体系的指令对象信息;其中,
指令对象信息包括语音对象信息和语音对象的管理级别信息;
权限划分单元:用于根据指令对象信息,在语音控制功能体系中对语音唤醒用户的优先度进行划分权限等级。
作为本发明的一种实施例:所述***还包括:
协同验证模块:用于当语音唤醒设备接收到唤醒语音无法识别时,获取协同验证信息;其中,
协同验证信息包括:指纹信息、人脸识别信息、密码信息;
控制指令识别模块:用于在语音唤醒设备的安全性验证都通过之后,对进行控制指令识别其中,
控制指令包括语音指令和用户输入指令;
功能执行模块:用于根据控制指令,控制语音唤醒设备指定对应控制功能。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中智能语音控制***的***组成图;
图2为本发明实施例中智能语音控制***的声纹识别单元组成图;
图3为本发明实施例中智能语音控制***的协同识别功能的模块图;
图4为本发明实施例中声音信号的音频信号的图像;
图5为本发明实施例中音频信号转化的灰度图像。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明的***可应用于所有车辆(车辆前装、后装的车载终端***、车联网***等所有车载终端)、所有电子产品(手机、电视机、智能锁、电视机顶盒、智能音箱、电脑、平板电脑等所有电子产品)、安防(保险柜、监控设备、智能锁等)、人工智能(智能机器人、智能终端等)、智能家居、与本软件***配套使用的智能终端设备、电器(智能洗衣机、智能电冰箱、智能洗衣机等所有电器)等所有设备,其中车辆包括汽车(例如小轿车、越野车、SUV、跑车、货车、客车、半挂牵引车等所有商用及私家车辆)、摩托车、自行车、电动自行车、电动摩托车、专项作业车(例如洒水车、吸污车、水泥搅拌车、起重车等)、机械设备(例如拖拉机、播种机、收割机、矿山机、起重机械、装卸机械、工矿车辆、叉车、装载机、挖掘机、塔吊、石油钻采等所有机械设备)、飞行器(例如飞机、滑翔机等)等所有交通工具、机械及机械设备(以上所描述的所有类型车辆、机械及设备以下统一简称为:“车辆”),包含所有领域及行业,例如互联网、银行、金融、科研、航天、教育、医疗、军事、警务、行政、娱乐、购物、媒体、法律、餐饮、化工业、制造业、采矿业、服务业等所有领域及行业。本***还可通过硬件集成或技术接口对接等方式嵌入到任何软件、硬件、***中来实现本***功能。
本发明提出了一种智能语音控制***,包括:
语音唤醒模块:用于配置唤醒语音时,通过语音唤醒设备实时接收唤醒语音,并在唤醒后,采集唤醒语音的声音纹理;其中,
首次接收唤醒语音时,进行唤醒语音分级;
语音加密模块:用于根据唤醒语音的声音纹理,对唤醒语音的对应用户进行分级加密;其中,
不同等级的用户的语音加密方式不同;
语音特征验证模块:用于在接收到语音信息时,通过特征识别网络进行语音特征识别,验证语音发出对象的身份信息;
语音指令识别模块:用于在语音唤醒设备在唤醒状态接收到语音信息时,通过语意分割识别网络,进行语音指令识别;
控制权限划分模块:用于在接收到语音指令时,根据语音发出对象的身份信息,进行管理级别判定,并基于管理级别,确定语音指令的优先度。
上述技术方案的原理在于:
本发明是一种可以用于不同终端设备的语音控制***,终端设备不局限于手机、电脑、系能源智能汽车等等;如附图1所示,本发明在进行语音唤醒的时候,会实时接收唤醒语音,采集唤醒语音中存在的声音纹理,而且在第一次就收唤醒语音的时候,即,会对每一个新的,作为管理权限进行分级授权,授权授予的是管理权限,而且可以通过用户端设置,规定一个授权的声音纹理对应的声音主体是主管理员,主管理员,即权限最大的管理员。
语音加密模块可以对声音的声音纹理进行加密,每一个授权等级的声音纹理,在进行加密的时候具有不同的加密方式,不同的加密方式 ,起到的加密作用,加密强度都不同。因为本发明存在语音的加密,所以可以实现银行卡这些需要加密文件进行加密。
本发明预先搭建有特征识别网络,特征识别网络是预先设置的,其作用是对声音纹理进行识别,从而确定声音发出对象的具体身份信息。语音特征识别包括声音纹理的特征,语音唤醒的声音包含的具体的语音内容的特征,这里面包括方言的识别,也能让控制的时候更加的智能化。
语意分割识别网络,是为了终端设备在语音唤醒状态下,自动对用户发出的语音信息进行处理,以语音分割的方式,确定用户下达的具体指令信息,通过具体的指令信息进行终端设备控制。
控制权限划分的时候,主要是基于唤醒语音,判断发出语音指令的用户身份,并且判断用户授权的权限级别。当同时接收到多个语音指令的时候,即,终端设备接收到多个语音指令,此时会根据语音指令发出用户的身份权限,确定语音指令的优先度,对于权限更高的用户发出的指令进行更优先的指令实施速度。
上述技术方案的有益效果在于:
本智能语音控制功能通过人工智能及深度学习技术,使本***相较于普通语音控制***更加智能、语音识别率更高、更加人性化、更加全面等,并支持世界各国语言及各地方言识别,提高语音识别准确率。
智能语音控制***支持人声特征形式加密、解密、解锁等功能,在设置环节,通过采集使用人(首次采集的人默认为管理员,可另外增加管理密码来管理使用人语音特征数据)的一段声音,经过***分析及记录使用人的声音特征,以此特征来作为唤醒时的验证机制(可记录一个或多个人的声音特征,在新增使用人时,须通过管理员声音验证或密码验证后才可新增或删除),在设置成功后,只有***记录的人才可唤醒语音控制功能,提高了***使用的安全性及防止误唤醒的情况。
语音特征安全验证。本***利用对人声特征的精细采集及分析,安全度不亚于指纹识别、人脸识别等生物识别方式,可单独应用于支付验证、房门开锁验证、保险柜开锁验证、银行账户登录及支付验证等所有领域、行业、设备的安全验证,也可与其它方式协同验证,例如指纹+语音、人脸识别+语音、密码+语音,或者多种方式同时进行验证来提高安全度。
本智能语音控制***可设置多个不同级别管理员,每个管理员可设不同权限和级别,当出现高级别管理员和低级别管理员同时唤醒和下发指令时(例如高级别管理员的指令是执行A任务,低级别管理员的指令是执行B任务),此时***只听从高级别管理员的指令并执行。
在一种可选的实施例中:
本发明在对用户的语音进行分级加密的时候,包括如下步骤:
步骤1:获取用户的等级系数,构建用户的权限模型:
Figure SMS_1
其中,S表示用户的权限模型;
i为正整数,,i∈M;M表示当前语音控制设备的具体功能的控制权限总数量;
ci表示语音控制设备的第i个功能的控制权限;x表示用户的等级系数;
y(x|ci)表示语音控制设备的第i个功能的控制权限归属于等级系数为x的用户的归属函数;
上述权限模型时为了确定不同用户等级的具有那些权限,所以设定了归属函数,通过归属函数和控制权限的指数函数进行融合,从而能够基于权限模型的指数图像,确定用户的权限指数图;
步骤2:获取用户的等级系数,构建用户的加密模型:
Figure SMS_2
其中,f(x)表示用户的加密模型;d(x)表示等级系数为x的用户的加密系数;μ(ci)表示语音控制设备在第j种加密方式下的功能控制权限函数;γ(cj)表示语音控制设备在第j种加密方式下的控制权限和用户等级的匹配度;当f(x)≤1的时候,表示可以选择第j种加密方式,当f(x)>1的时候,表示不可以选择第j种加密方式。
上述步骤2中,d(x)用于确定用户的加密系数,其和权限模型的乘积,确定了加密和权限相互影响的最大界线值;加密的时候,高于这个界限值,可能存在加密不符合现有等级的问题,导致加密影响指令识别。
Figure SMS_3
用于确定加密和权限相互影响的实际值,实际值,当实际值高于这个最大界限值,表示加密方式和用户等级存在巨大干扰性,这个干扰性为加密的准确度的干扰性。
作为本发明的一种实施例:所述语音唤醒模块包括:
配置启动单元:用于在语音唤醒设备接收到用户的唤醒语音配置指令时,启动唤醒语音录用程序;
语音采集单元:用于通过唤醒语音录用程序,录取用户发出的实时唤醒语音;
纹理识别单元:用于对唤醒语音进行增强,生成音频信号功率图谱的灰度图像,通过灰度图像进行语音向量的正则化计算,确定纹理特征值;
唤醒语音分级单元:用于在录入唤醒语音后,通过用户对唤醒语音进行管理等级划分,根据管理等级设定不同等级唤醒语音的管理权限。
上述技术方案的原理在于:在具体实施的时候,语音唤醒设备中设置有语音录用的程序,这个程序通过捕捉唤醒语音实现录音功能启动,在没有接收到唤醒语音之前,不具备录音功能,然后通过录音功能录取的语音数据回通过实时增强,语音增强的方式,将音频信号的功率图谱,转换为灰度图谱,例如附图4的音频信号,转变为附图5形式中的基于时间的音频灰度图像,在这种情况下,每一个小方块就代表音频信号的强度,也是声纹的具体体现状态,从而实现声纹特征基于增强,这是一种图像转化的方式,其实质与常规的音频去噪和音频放大的增强方式不同,属于图像转化之后,让声纹更加具体化的显示增强的方式,这种方式也便于通过正则化计算的方式确定纹理特征值,正则化计算具有岭回归和LASSO回归和弹性网回归等方式,我们在计算的时候主要采用LASSO回归的方式,这种方式会让音频信号的声音纹理的变量在较小的情况下实现语音的纹理计算,不同管理员用户的声音纹理会划分的比较清晰,从而实现对用户或者管理员的分类,以及等级划分,本发明中设备第一次录入的唤醒语音为主要语音,而后续录入的语音都是低等级语音,也可以在唤醒语音录入后,设定不同管理员或者用户的权限,从而达到进行不同唤醒语音,即,同一用户的不同管理权限。
上述技术方案的有益效果在于:
本发明能够在对语音唤醒设备设置其用户权限的时候,能够更加清楚因为语音增强的方式,具有灰度图谱,可以实现方言、外语、普通话、以及发音相似状态下,通过转换增强的方式,进行语音的精细划分,声纹的正则化计算,让声纹的处理,声纹的分辨更加清楚,从而达到不同用户,不同管理权限的功能。即,实现对不同管理员的唤醒语音进行等级划分,从而实现不同管理权的设定。
作为本发明的一种实施例:所述纹理识别单元包括:
增强子单元:用于确定唤醒语音的频谱图,并进行宽带增强处理,生成增强的音频信号,并确定对应的灰度图像;
矩阵搭建单元:用于根据唤醒语音的音频信号的灰度图像,生成唤醒语音的邻接矩阵和属性矩阵;其中,
邻接矩阵通过灰度图像的坐标构建;
属性矩阵通过灰度图像的属性构建;
特征提取子单元:用于通过邻接矩阵和属性矩阵,进行属性特征和结构特征提取;
正则化子单元:用于对属性特征和结构特征进行正则化,并进行特征融合;
计算子单元:用于根据融合特征,进行特征损失计算,根据特征损失,确定纹理特征值。
上述技术方案的原理在于:本发明在确定唤醒语音的频谱图的时候,还会对语音频谱的带宽进行增强,从而在进行灰度图像转化的时候,语音频谱的带宽是每一时刻语音频谱图的频宽;唤醒语音的邻接矩阵和属性矩阵就是如附图5中,邻接矩阵中,坐标表示的是每个小方块的具体坐标,属性表示每个小方块的灰度强度。而正则化计算,就是对这两个矩阵对应的每一时刻的属性特征(声音强度)和结构特征(声音频谱规律)进行提取,从而实现正则化计算,即,回归计算,从而确定特征融合后的正则化值,进而通过特征损失计算,就是采集的语音数据的总体预期损失,对正则化计算后的纹理特征值进行调整,获取最终的目标特征值。这种方式不仅仅改变的是常规状态下确定声音纹理特征的缺陷,即,需要消噪等功能,还能够更加快速的,更加准确的确定不同用户的唤醒语音的纹理特征。
上述技术方案的有益效果在于:
不需要常规的消噪等过程,直接通过声纹的属性和结构进行计算,损失计算中,已经包含了可能存在噪声等情况下带来的声音纹理的损失,从而确定最终的目标唤醒语音的声纹特征,灰度图像的方式,使得就算是存在噪音,也不干扰其识别声纹特征,因为灰度图像和正则化计算是一种完全不同的计算声纹特征值的方式。
作为本发明的一种实施例:所述语音加密模块包括:
密钥设置单元:用于设置加密数据库,并根据不同等级的唤醒语音,进行加密程序分区存储;其中,
每类加密程序均设置有对应的单一算法;
加密单元:用于利用加密数据库的用户密钥对待唤醒语音进行加密处理,得到唤醒语音对应的语音密文数据,并基于唤醒语音中的关键词信息进行加密处理,得到密文索引数据;
结果单元:用于依据语音密文数据和密文索引数据,生成唤醒语音对应的语音加密处理结果。
上述技术方案的原理在于:
本发明可以对不同管理员的唤醒语音和语音指令进行加密处理,通过加密处理防止用户的升温特征和指令信息泄露,保证语音唤醒设备的信息安全性,特别是远程语音控制的唤醒设备。
本发明对于进行唤醒语音的加密方式,参考了现有技术中基于关键词的加密方式,但是,本发明语音唤醒领域,为了实现不同用户的唤醒语音隔离,会设置转用的:“加密数据库”,这个数据库中会有很多的加密方式,加密方式还进行了等级划分,相同等级的用户采用的同一加密等级的不同加密方式,不同等级的用户采用不同等级的不同加密方式,实现每一个用户都具备一种加密方式,保证每个用户的语音指令可以完美的间隔开,而且每个用于的语音指令均具备安全性。而关键词信息的加密形式是市场上主流的加密形式,可以生成加密处理语音文件。
上述技术方案的有益效果在于:
首先,便于对不同等级的用户的唤醒语音进行快速划分,能够保证唤醒语音的安全性,可以清晰隔离不同用户的唤醒语音和语音指令。
作为本发明的一种实施例:所述语音加密模块还包括:
循环获取模块:用于定时循环获取语音唤醒设备的用户指令;其中;
用户指令中包含唤醒语音的权限信息;
权限分级模块:用于基于预设分级指标和用户指令,确定语音唤醒设备的当前权限等级;
分级判定模块:用于判断语音唤醒设备的当前唤醒语音与前一次确定的分级等级是否相同;其中,
若不相同,则在语音唤醒设备中执行预设分级策略;
若相同,则不做处理。
上述技术方案的原理在于:
本发明会根据循环性的获取管理用户的指令信息,并且预先设置有语音的分级指标,通过对权限等级的划分,不同等级的唤醒用户具有不同的控制权限。
本发明会按照定时的时间,不间断的获取外部进行唤醒语音唤醒设备的用户指令,当接收到用户的唤醒语音之后,***就明确了唤醒用户的权限。在每一次接收到唤醒语音,用户进行唤醒语音权限设定的时候,都会判断与前一次分级的时候,分级的等级是不是相同,相同的情况下,不做权限变更,分级不同的情况下,根据划分的等级,通过预设分级策略,确定其具体权限。
上述技术方案的有益效果在于:
在每一次进行权限划分的时候,都会进行权限等级的验证,从而保证权限等级划分的时候,能够执行的功能权限实现了具体的变更,保证功能权限的准确性。
作为本发明的一种实施例:所述语音特征验证模块包括:
声纹网络搭建模块:用于预先搭建声纹识别模型,该声纹识别模型是基于神经网络构建的具有主神经网络;其中,
主神经网络包括多个神经单元,每个神经单元一种唤醒语音;
训练模块:用于通过主神经网络单元依据预设语音集合对唤醒语音进行动态训练,生成唤醒语音神经网络;
验证模块:当存在唤醒语音时,识别声纹特征,并在主神经网络内通过加载通用特征库对应的选择识别特征来建立一个与唤醒语音对应的验证神经网络单元,进行唤醒语音验证,判断唤醒语音的语音发出对象;
学习模块:用于将训练资源按照设定规则调配给主神经网络单元以对唤醒语音进行学习,当监测到新新唤醒语音学习完毕后,主神经网络单元所具有的网络资源被释放并重新融合到训练资源集合中。
上述技术方案的原理在于:
本发明会搭建声纹识别网络,通过声纹识别网络,对采集的唤醒语音进行训练划分,验证唤醒语音和语音指令,从而实现语音识别控制。
声纹识别模型是基于现有技术中的基于深度神经网络的声纹识别模型转换而成,声纹识别模型由多个神经元构成,包括多层,每一层代表一种等级的管理员或者用户。每一层中都设置有多个神经单元,每个神经单元对应一种唤醒语音,这样可以提高进行唤醒语音识别的时候,语音识别的准确性。验证模块可以对唤醒语音进行快速的验证,从而快速确定发出唤醒语音的用户。学习模块会对新出现的唤醒语音进行快速的训练融合从而保证能够快速的载入新的唤醒语音。
上述技术方案的有益效果在于:
本发明可以实现不同唤醒语音的快速划分,快速的对不同用户的唤醒语音进行快速的识别,从而快速确定发出唤醒语音的语音对象。
作为本发明的一种实施例:所述语音指令识别模块包括:
指令获取单元:语音获取用户针对语音唤醒设备输入的语音指令;
指令识别单元:按照预设的语音指令识别网络,对语音指令进行语意分割解析,获得语音指令对应的目标控制逻辑;其中,
目标控制逻辑用于指示针对语音唤醒设备进行功能控制所使用的功能实施方式;
目标控制逻辑包括:基于模糊控制的多功能同步控制逻辑、基于跟随控制的单一功能控制和基于等级梯度的阶梯功能控制;
目标识别单元:用于根据所述目标控制逻辑,对语音唤醒设备进行控制。
上述技术方案的原理在于:
在语音指令识别的过程中,采用语意分割的方式进行语音指令的识别,这是经常采用的方式。现有技术中在进行语音控制的时候,语音内容直接转换为具体的执行指令,但是控制逻辑都是相同,而本发明不同的用户,可能存在等级不同,所以目标控制逻辑是不同的,而且因为存在多个唤醒语音,所以可能同时需要执行多个指令
本发明在进行指令识别的时候,通过指令识别网络进行指令高效识别,每个指令都具有对应的目标控制逻辑,通过控制逻辑执行对应的控制功能,对语音唤醒设备进行控制。基于模糊控制的多功能同步控制逻辑是存在多个唤醒语音的时候,采用模糊控制,执行多个唤醒语音对应的用户的控制功能,多个用户控制功能同步;基于跟随控制的单一功能控制是在只有一个用户发出控制语音时,进行单一用户的唤醒语音的语音指令跟随式的控制,保证唤醒语音的控制功能准确性。当存在不同等级的唤醒语音的时候,会根据唤醒语音的发出用户的唤醒语音的等级,对于高等级的用户的语音指令先行执行,对于等级低的用户的语音指令后执行,从而实现阶梯控制。
上述技术方案的有益效果在于:
这种方式的控制方法首先能够保证控制的全面性,其次,因为针对不同的用户数量具有不同的控制逻辑,所以可以实现多维度的精准控制。
作为本发明的一种实施例:所述语意分割解析包括:
特征提取单元:用于将语音指令输入至骨干网络中进行编码输出语意信息,并对语意信息进行卷积特征提取生成多层语意特征图;
解析分割单元:用于基于多层语意特征图进行多尺度特征解析分割,得到语意特征图;
融合输出单元:用于将语意特征图中的深层特征与多层特征图中的浅层特征进行融合,输出融合语意特征图。
上述技术方案的原理在于:本发明设置有骨干网络,骨干网络式进行用户语音的语音指令的识别和语意分析功能。分析出语意对应的多层含义,因为用户的语音可能同时存在多个指令,例如听某人的歌曲,存在三个指令,音乐APP的调用指令,歌曲的检索指令和歌曲的播放指令,从而生成多层语意特征图。进行多尺度特征解析分割,得到语意特征图;是将语意特征图划分为多种单个的语意,从而执行多个指令,多层特征和浅层特征,表述主要指令和跟随指令的融合执行。
上述技术方案的有益效果在于:
本发明可以实现语意分析,从而保证语意的融合,从而在语音指令实施的时候,快速,且可以同步执行。
作为本发明的一种实施例:所述控制权限划分模块包括:
体系搭建单元:用于通过语音唤醒设备的可执行指令,设计语音控制功能体系;
权限设置单元:用于根据用户设定不同唤醒对象的控制信息,构建语音控制功能体系的指令对象信息;其中,
指令对象信息包括语音对象信息和语音对象的管理级别信息;
权限划分单元:用于根据指令对象信息,在语音控制功能体系中对语音唤醒用户的优先度进行划分权限等级。
上述技术方案的原理在于:本发明可以根据语音唤醒设备能够执行的功能,设计对应的控制功能体系,权限设置单元式根据不同的用户的等级,进行对应指令的设计,确定对应的指令对象信息,从而对用户的语音指令可以进行优先性划分。
上述技术方案的有益效果在于:
本发明可以实现对用户权限指令的精确划分,确定每个用户的权限等级,对语音唤醒设备接收的语音指令进行排序。
作为本发明的一种实施例:所述***还包括:
协同验证模块:用于当语音唤醒设备接收到唤醒语音无法识别时,获取协同验证信息;其中,
协同验证信息包括:指纹信息、人脸识别信息、密码信息;
控制指令识别模块:用于在语音唤醒设备的安全性验证都通过之后,对进行控制指令识别其中,
控制指令包括语音指令和用户输入指令;
功能执行模块:用于根据控制指令,控制语音唤醒设备指定对应控制功能。
上述技术方案的原理在于:
本发明在语音唤醒没有明确的唤醒信息的时候,会通过其它的验证方式进行协同验证,用于证明语音唤醒者的身份信息,从而实现对语音唤醒设备的控制,具体为:
在实际的语音控制过程中,现有的只能程序总有些无法识别的语音,而本发明中在无法识别语音时,就进行了协同验证,就是基于用户的具体身份信息中的指纹、人脸和密码。协同验证的任意一项验证成功之后,表示安全性验证成功,从而实现根据具体的控制指令进行语音唤醒设备控制,安全性验证成功之后,可能还是无法识别用户的语音,也可能只是唤醒语音无法识别,所以存在语音指令和用户输入指令两种指令。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种智能语音控制***,其特征在于,包括:
语音唤醒模块:用于配置唤醒语音时,通过语音唤醒设备实时接收唤醒语音,并在唤醒后,采集唤醒语音的声音纹理;其中,
首次接收唤醒语音时,进行唤醒语音分级;
语音加密模块:用于根据唤醒语音的声音纹理,对唤醒语音的对应用户进行分级加密;其中,
不同等级的用户的语音加密方式不同;
语音特征验证模块:用于在接收到语音信息时,通过特征识别网络进行语音特征识别,验证语音发出对象的身份信息;
语音指令识别模块:用于在语音唤醒设备在唤醒状态接收到语音信息时,通过语意分割识别网络,进行语音指令识别;
控制权限划分模块:用于在接收到语音指令时,根据语音发出对象的身份信息,进行管理级别判定,并基于管理级别,确定语音指令的优先度。
2.如权利要求1所述的一种智能语音控制***,其特征在于,所述语音唤醒模块包括:
配置启动单元:用于在语音唤醒设备接收到用户的唤醒语音配置指令时,启动唤醒语音录用程序;
语音采集单元:用于通过唤醒语音录用程序,录取用户发出的实时唤醒语音;
纹理识别单元:用于对实时唤醒语音进行增强,生成音频信号功率图谱的灰度图像,通过灰度图像进行语音向量的正则化计算,确定纹理特征值;
唤醒语音分级单元:用于在录入唤醒语音后,通过用户对唤醒语音进行管理等级划分,根据管理等级设定不同等级唤醒语音的管理权限。
3.如权利要求1所述的一种智能语音控制***,其特征在于,所述语音唤醒模块还包括:
增强子单元:用于确定唤醒语音的频谱图,并进行宽带增强处理,生成增强的音频信号,并确定对应的灰度图像;
矩阵搭建单元:用于根据唤醒语音的音频信号的灰度图像,生成唤醒语音的邻接矩阵和属性矩阵;其中,
邻接矩阵通过灰度图像的坐标构建;
属性矩阵通过灰度图像的属性构建;
特征提取子单元:用于通过邻接矩阵和属性矩阵,进行属性特征和结构特征提取;
正则化子单元:用于对属性特征和结构特征进行正则化,并进行特征融合;
计算子单元:用于根据融合特征,进行特征损失计算,根据特征损失,确定纹理特征值。
4.如权利要求1所述的一种智能语音控制***,其特征在于,所述语音加密模块包括:
密钥设置单元:用于设置加密数据库,并根据不同等级的唤醒语音,进行加密程序分区存储;其中,
每类加密程序均设置有对应的单一算法;
加密单元:用于利用加密数据库的用户密钥对待唤醒语音进行加密处理,得到唤醒语音对应的语音密文数据,并基于唤醒语音中的关键词信息进行加密处理,得到密文索引数据;
结果单元:用于依据语音密文数据和密文索引数据,生成唤醒语音对应的语音加密处理结果。
5.如权利要求1所述的一种智能语音控制***,其特征在于,所述语音加密模块还包括:
循环获取模块:用于定时循环获取语音唤醒设备的用户指令;其中,
用户指令中包含唤醒语音的权限信息;
权限分级模块:用于基于预设分级指标和用户指令,确定语音唤醒设备的当前权限等级;
分级判定模块:用于判断语音唤醒设备的当前唤醒语音与前一次确定的分级等级是否相同;其中,
若不相同,则在语音唤醒设备中执行预设分级策略;
若相同,则不做处理。
6.如权利要求1所述的一种智能语音控制***,其特征在于,所述语音特征验证模块包括:
声纹网络搭建模块:用于预先搭建声纹识别模型,该声纹识别模型是基于神经网络构建的具有主神经网络;其中,
主神经网络包括多个神经单元,每个神经单元一种唤醒语音;
训练模块:用于通过主神经网络单元依据预设语音集合对唤醒语音进行动态训练,生成唤醒语音神经网络;
验证模块:当存在唤醒语音时,识别声纹特征,并在主神经网络内通过加载通用特征库对应的选择识别特征来建立一个与唤醒语音对应的验证神经网络单元,进行唤醒语音验证,判断唤醒语音的语音发出对象;
学习模块:用于将训练资源按照设定规则调配给主神经网络单元以对唤醒语音进行学习,当监测到新新唤醒语音学习完毕后,主神经网络单元所具有的网络资源被释放并重新融合到训练资源集合中。
7.如权利要求1所述的一种智能语音控制***,其特征在于,所述语音指令识别模块包括:
指令获取单元:获取用户针对语音唤醒设备输入的语音指令;
指令识别单元:按照预设的语音指令识别网络,对语音指令进行语意分割解析,获得语音指令对应的目标控制逻辑;其中,
目标控制逻辑用于指示针对语音唤醒设备进行功能控制所使用的功能实施方式;
目标控制逻辑包括:基于模糊控制的多功能同步控制逻辑、基于跟随控制的单一功能控制和基于等级梯度的阶梯功能控制;
目标识别单元:用于根据所述目标控制逻辑,对语音唤醒设备进行控制。
8.如权利要求7所述的一种智能语音控制***,其特征在于,所述语意分割解析包括:
特征提取单元:用于将语音指令输入至骨干网络中进行编码输出语意信息,并对语意信息进行卷积特征提取生成多层语意特征图;
解析分割单元:用于基于多层语意特征图进行多尺度特征解析分割,得到语意特征图;
融合输出单元:用于将语意特征图中的深层特征与多层特征图中的浅层特征进行融合,输出融合语意特征图。
9.如权利要求1所述的一种智能语音控制***,其特征在于,所述控制权限划分模块包括:
体系搭建单元:用于通过语音唤醒设备的可执行指令,设计语音控制功能体系;
权限设置单元:用于根据用户设定不同唤醒对象的控制信息,构建语音控制功能体系的指令对象信息;其中,
指令对象信息包括语音对象信息和语音对象的管理级别信息;
权限划分单元:用于根据指令对象信息,在语音控制功能体系中对语音唤醒用户的优先度进行划分权限等级。
10.如权利要求1所述的一种智能语音控制***,其特征在于,所述***还包括:
协同验证模块:用于当语音唤醒设备接收到唤醒语音无法识别时,获取协同验证信息;其中,
协同验证信息包括:指纹信息、人脸识别信息、密码信息;
控制指令识别模块:用于在语音唤醒设备的安全性验证都通过之后,对进行控制指令识别;其中,
控制指令包括语音指令和用户输入指令;
功能执行模块:用于根据控制指令,控制语音唤醒设备指定对应控制功能。
CN202310103970.3A 2023-02-13 2023-02-13 一种智能语音控制*** Pending CN116312513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310103970.3A CN116312513A (zh) 2023-02-13 2023-02-13 一种智能语音控制***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310103970.3A CN116312513A (zh) 2023-02-13 2023-02-13 一种智能语音控制***

Publications (1)

Publication Number Publication Date
CN116312513A true CN116312513A (zh) 2023-06-23

Family

ID=86826558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310103970.3A Pending CN116312513A (zh) 2023-02-13 2023-02-13 一种智能语音控制***

Country Status (1)

Country Link
CN (1) CN116312513A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117201879A (zh) * 2023-11-06 2023-12-08 深圳市微浦技术有限公司 机顶盒显示方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117201879A (zh) * 2023-11-06 2023-12-08 深圳市微浦技术有限公司 机顶盒显示方法、装置、设备及存储介质
CN117201879B (zh) * 2023-11-06 2024-04-09 深圳市微浦技术有限公司 机顶盒显示方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111914256B (zh) 一种机器学习训练数据受投毒攻击的防御方法
CN102890776B (zh) 通过面部表情调取表情图释的方法
CN104348829B (zh) 一种网络安全态势感知***及方法
CN109447099B (zh) 一种基于pca降维的多分类器融合方法
KR101055070B1 (ko) 리소스에 대한 액세스를 제어하는 컴퓨터 구현 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체
CN106203333A (zh) 人脸识别方法及***
Hao et al. The design of intelligent transportation video processing system in big data environment
CN111368926B (zh) 图像筛选方法、装置和计算机可读存储介质
CN110276189B (zh) 一种基于步态信息的用户身份认证方法
US20230027527A1 (en) Identity authentication method, and method and apparatus for training identity authentication model
CN116312513A (zh) 一种智能语音控制***
CN110414429A (zh) 人脸聚类方法、装置、设备和存储介质
CN114022713A (zh) 模型训练方法、***、设备及介质
Buriro et al. SWIPEGAN: swiping data augmentation using generative adversarial networks for smartphone user authentication
CN109660522B (zh) 面向综合电子***的基于深层自编码器的混合入侵检测方法
CN114612011A (zh) 一种风险防控决策方法及装置
CN111091102B (zh) 一种视频分析装置、服务器、***及保护身份隐私的方法
US11436340B2 (en) Encrypted device identification stream generator for secure interaction authentication
Neha et al. Biometric re-authentication: An approach towards achieving transparency in user authentication
CN110084143B (zh) 一种用于人脸识别的情绪信息保护方法及***
CN110889467A (zh) 一种公司名称匹配方法、装置、终端设备及存储介质
CN115393997A (zh) 基于多维数据识别的汽车电子解锁方法、装置及电子设备
CN114840834A (zh) 一种基于步态特征的隐式身份认证方法
CN107742140B (zh) 基于rfid技术的智能身份信息识别方法
CN112115446B (zh) 一种基于Skyline查询生物特征的身份认证方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 710000 floor 12, block C, Eurasia international, No. 666, west section of Eurasia Avenue, Chanba Ecological District, Xi'an City, Shaanxi Province

Applicant after: Shaanxi Junkai Technology Group Co.,Ltd.

Address before: 710000 floor 12, block C, Eurasia international, No. 666, west section of Eurasia Avenue, Chanba Ecological District, Xi'an City, Shaanxi Province

Applicant before: Shaanxi Junkai Electronic Technology Co.,Ltd.

Country or region before: China