CN109637520A - 基于语音分析的敏感内容识别方法、装置、终端及介质 - Google Patents

基于语音分析的敏感内容识别方法、装置、终端及介质 Download PDF

Info

Publication number
CN109637520A
CN109637520A CN201811202988.4A CN201811202988A CN109637520A CN 109637520 A CN109637520 A CN 109637520A CN 201811202988 A CN201811202988 A CN 201811202988A CN 109637520 A CN109637520 A CN 109637520A
Authority
CN
China
Prior art keywords
speech
sensitive
measured
audio fragment
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811202988.4A
Other languages
English (en)
Other versions
CN109637520B (zh
Inventor
刘轲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811202988.4A priority Critical patent/CN109637520B/zh
Publication of CN109637520A publication Critical patent/CN109637520A/zh
Application granted granted Critical
Publication of CN109637520B publication Critical patent/CN109637520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语音分析的敏感内容识别方法、装置、终端及介质,终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量,根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本,再确定与所述当前语音场景对应的敏感信息库,不同的语音场景对应不同的敏感信息库,提高了判断敏感内容的准确性,再根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数,将语义文本与敏感信息库语义比较,进一步提高准确性,在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。

Description

基于语音分析的敏感内容识别方法、装置、终端及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于语音分析的敏感内容识别方法、装置、终端及介质。
背景技术
人工智能,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家***等,而语音识别技术在人工智能中尤为重要。
目前,敏感词的语音识别技术主要基于建立的语音敏感词语语料库,用匹配分析的方式对敏感词进行识别,由于敏感词单一,缺乏根据不同的应用场景,搭建对应的敏感词模型,敏感内容识别不够准确。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种基于语音分析的敏感内容识别方法、装置、终端及介质,旨在解决现有技术对敏感内容识别不够准确的技术问题。
为实现上述目的,本发明提供了一种基于语音分析的敏感内容识别方法,包括:
终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;
根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;
确定与所述当前语音场景对应的敏感信息库;
根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;
在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。
优选地,所述获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤之前,还包括:
建立前馈型序列记忆网络模型,所述前馈型序列记忆网络模型的隐层连接有反馈连接块,以存储历史信息和未来信息。
优选地,所述根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本的步骤,具体为:
根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量采用拼接帧作为输入,获得与所述语音特征向量对应的语义文本。
优选地,所述根据预先建立的双向神经网络模型以及确定的敏感信息库,确定所述语义文本的敏感指数的步骤,具体包括:
将所述语义文本作为第一输入语句、所述敏感信息库中的一条敏感语句作为第二输入语句,对所述第一输入语句和第二输入语句进行预处理;
将预处理后的第一输入语句和第二输入语句分别作为双向神经网络模型的输入,分别得到第一输出和第二输出;
比对第一输出和第二输出的相似度,以得到所述语义文本与所述敏感语句的相似度值;
确定所述敏感信息库中与所述语义文本相似度值最高的敏感语句,将最高的所述相似度值作为敏感指数。
优选地,所述获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤,具体包括:
获取待测音频片段和当前语音场景;
对所述待测音频片段的首尾端的静音切除处理;
对静音切除处理后的所述待测音频分帧处理得到多个语音帧;
对每个所述语音帧进行特征提取,得到每个所述语音帧的语音特征向量。
优选地,所述获取待测音频片段和当前语音场景的步骤,具体包括:
获取待测音频片段;
根据所述待测音频片段,获取所述待测音频片段的背景音频;
根据所述背景音频,确定当前语音场景。
优选地,所述获取待测音频片段和当前语音场景的步骤,具体包括:获取所述待测音频片段和所述终端的当前位置;
根据所述当前位置,判断当前所处的地理环境;
根据所述待测音频片段,获取所述待测音频片段的背景音频;
根据当前的所述地理环境和所述背景音频,确定当前语音场景。
为实现上述目的,本发明还提供一种基于语音分析的敏感内容识别装置,包括:
参数获取模块,用于获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;
语义分析模块,用于根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;
信息确定模块,用于确定与所述当前语音场景对应的敏感信息库;
敏感分析模块,用于根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;
敏感确定模块,用于在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。
为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音分析的敏感内容识别程序,所述基于语音分析的敏感内容识别程序配置为实现上述的基于语音分析的敏感内容识别方法的步骤。
为实现上述目的,本发明还提供一种存储介质,所述存储介质上存储有基于语音分析的敏感内容识别程序,所述基于语音分析的敏感内容识别程序被处理器执行时实现如上述的基于语音分析的敏感内容识别方法的步骤。
本发明终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量,根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本,再确定与所述当前语音场景对应的敏感信息库,不同的语音场景对应不同的敏感信息库,提高了判断敏感内容的准确性,再根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数,将语义文本与敏感信息库语义比较,进一步提高准确性,在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容,解决了现有技术对敏感内容识别不够准确的技术问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端的结构示意图;
图2为本发明基于语音分析的敏感内容识别方法第一实施例的流程示意图;
图3为本发明基于语音分析的敏感内容识别方法第二实施例的流程示意图;
图4为本发明基于语音分析的敏感内容识别方法第三实施例的流程示意图;
图5为本发明基于语音分析的敏感内容识别方法第四实施例的流程示意图;
图6为本发明基于语音分析的敏感内容识别方法第五实施例的流程示意图;
图7为本发明基于语音分析的敏感内容识别方法第六实施例的流程示意图;
图8为本发明基于语音分析的敏感内容识别方法第七实施例的流程示意图;
图9为本发明基于语音分析的敏感内容识别装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端结构示意图。
如图1所示,该终端可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity, WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory, NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001 的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作***、数据存储模块、网络通信模块、用户接口模块以及基于语音分析的敏感内容识别程序。
在图1所示的终端中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明终端中的处理器 1001、存储器1005可以设置在终端中,所述终端通过处理器1001调用存储器1005中存储的基于语音分析的敏感内容识别程序,并执行本发明实施例提供的基于语音分析的敏感内容识别方法。
本发明实施例提供了一种基于语音分析的敏感内容识别方法,参照图2,图2为本发明基于语音分析的敏感内容识别方法第一实施例的流程示意图。
本实施例中,所述基于语音分析的敏感内容识别方法包括如下步骤:
步骤S10:终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;
需要说明的是,本实施例方法的执行主体为终端,所述待测音频片段可以为包含目标敏感词语音的音频,还可以是包含非语音的背景音以及非目标敏感词语音的其他语音。
应该理解的是,由于描述一个语音,需要的参数个数比较多,对处理速度的要求很高,因此需要降维,用语音帧frames去分割语音波形,每帧大概 10ms,每帧提取可以代表该语音帧语音的39个数字,这39个数字也就是该帧语音的特征,用语音特征向量来表示,可以有效反映出语音信号特征的关键特征参数形成特征矢量序列。
具体实现时,还需要对所述待测音频片段预处理,即对输入的原始语音信号进行处理,例如进行反混叠滤波、采样、A/D转换等过程进行数字化,再进行预处理,包括预加重、加窗和分帧、端点检测等,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理,再进行语音特征提取。其中,端点检测方法包括短时能量En、短时平均过另率Zn、双门限端点检测等。
而语音特征的提取方法包括线性预测***(LPCC)、Mel频率倒谱系数 (MFCC)参数以及小波分析等方式,在此不做具体限制。
语音场景对于敏感信息库的确定具有一定的影响,例如在家里,在KTV,在酒店,在办公场所等的敏感信息库是不相同的。以办公场所为例,工资待遇等为敏感内容,而在家里工资待遇不一定为敏感内容。
具体实现时,获取当前语音场景可以是终端所处网络环境、地理位置等体现终端当前所处环境特征的参数,也可以是根据待测音频片段分析的当前环境,例如待测音频片段中背景的噪音量以及背景声音,例如在商场,背景声音会有卖场广播,在KTV会有较大的噪音量,在饭店,会有劝酒等声音,也可以前后两种的结合,例如当前所处于用户家中,但是根据待测音频片段分析是同事在家聚餐,则语音场景需要根据两者的结合进行判断。
其中,网络环境参数可以包括终端当前的无线或有线网络的名称、IP地址等参数,地理位置参数可以是终端当前所处的位置区域、位置坐标等参数,再根据电子地图判断当前的地理环境,例如酒店、住宅、办公楼等;也可以是获取终端当前所处的地理环境以及当前时间,根据终端当前所处的位置区域以及当前时间判断当前语音场景;也可以是统计在预设时间内固定时间点终端在出现在同一位置的次数以及时间,例如若是晚上12点以后到早6点经常所在的位置,则判断为住所。
步骤S20:根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;
需要说明的是,前馈型序列记忆网络模型FSMN(Feed-forward SequentialMemory Network)。
步骤S30:确定与所述当前语音场景对应的敏感信息库;
需要说明的是,敏感信息库的建立可以根据不同的语音场景分别建立,能更有效真实的反应出当前语音场景下的敏感内容。敏感信息库可以是用户自定义设定的,也可以是根据获取例如根据用户对不同地理环境敏感内容的评分或设定,再例如在酒桌上的敏感内容,可以选取评分高的敏感内容增添至该地理环境的敏感信息库,又例如在用户家中,公司同事聚餐的语音场景,可以选择与工作环境对应的敏感信息库,也可以用户自定义。
步骤S40:根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;
应该理解的是,双向神经网络可以为双向LSTM神经网络,通常第一输入语句和第二输入语句分别输入双向LSTM神经网络后是分隔开的,在本实施例中,两条语句输入后的双向LSTM神经网络模型首尾是联接在一起的,可以将第一输入语句与第二输入语句结合在一起分析。
通过预先建立的双向神经网络模型以及确定的所述敏感信息库,判断语义文本与敏感信息库中的语句的语义相似程度,以此来确定语义文本的敏感指数,相较于现有技术中仅仅采用关键词匹配来判断敏感指数更准确,更贴近实际。例如在工作环境下“主管面试时对面试人员说你期望的薪资是多少”,此时若仅采用关键词匹配,在工作环境下关键词“工资”是敏感词,则此时会提示为敏感内容,而对于面试时对询问期望薪资是正常沟通需要,而并非敏感内容。
在其他实施例中,也可以根据其他本领域公知的分析两个语句语义相似程度的算法模型,在此不做具体限制。
需要说明的是,所述确定语义文本的敏感指数,可以是根据语义文本与敏感信息库中的语句进行理解,判断相似度,取相似度最高的值作为该语义文本的敏感指数;也可以是对敏感信息库中的语句设置敏感权值λ,语义文本与敏感信息库中的语句的相似度γ,取λ·γ作为敏感指数,将语义文本与各敏感信息库中语句的敏感指数值最高的值作为该语义文本的敏感指数。
步骤S50:在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。
需要说明的是,预设敏感阀值可以是用户自定义的,也可以是根据当前语音场景定义的,例如在办公环境下,敏感阀值会相对低一些,可以提高敏感度;而在家,敏感阀值会相对高一些,可以有效降低敏感度。
具体实现时,在敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容,可以是发出声音或震动等方式以提醒用户,也可以是采用其他方式提醒用户,在此不做限制。
终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量,根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本,再确定与所述当前语音场景对应的敏感信息库,不同的语音场景对应不同的敏感信息库,提高了判断敏感内容的准确性,再根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数,将语义文本与敏感信息库语义比较,进一步提高准确性,在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容,解决了现有技术对敏感内容识别不够准确的技术问题。
参考图3,图3为本发明基于语音分析的敏感内容识别方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10之前,还包括:
步骤S101,建立前馈型序列记忆网络模型,所述前馈型序列记忆网络模型的隐层连接有反馈连接块,以存储历史信息和未来信息;
需要说明的是,所述反馈连接块连接在隐层旁,用于记录对当前语音有用的历史信息和未来信息,记录的长度根据需要而定;在前馈型序列记忆网络模型的隐层连接有反馈连接块,可以是隐层当前时刻的输入中有一部分是前一时刻(也可以是历史的某一时刻)的隐层输出,如此通过循环反馈连接看到前面所有时刻的信息,提高语义理解的准确性;对未来信息记忆时,不用等待语音输入结束才能对当前语音帧进行判断的限制,它只需要等待有限长度的未来语音帧即可。
具体实现时,所述前馈型序列记忆网络模型的建立具体包括:获取语音样本数据;初始化前馈型序列记忆网络模型的参数,根据所述前馈型序列记忆网络模型以及所述样本数据计算前馈型序列记忆网络模型的参数。
反馈连接块设置在隐层旁,使用前馈结构,一方面,使得模型对未来信息记忆时,只需要等待有限长度的未来语音帧即可;另一方面,反馈连接块与隐层的连接权重返回传给各个时刻即可,梯度传播在任何时刻的衰减可以是常数,也可以是训练的。
参考图4,图4为本发明基于语音分析的敏感内容识别方法第三实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S20,具体包括:
步骤S21:根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量采用拼接帧作为输入,获得与所述语音特征向量对应的语义文本。
需要说明的是,语音是一种各帧之间具有很强相关性的复杂时变信号,这种相关性主要体现在说话时的协同发音现象上,往往前后好几个字对我们正要说的字都有影响,也就是语音的各帧之间具有长时相关性,输入特征采用拼接帧,可以学到一定程度的上下文信息,可以有效提高语义文本的准确性。
具体实现时,将所述语音特征向量采用拼接帧是通过将多个语音帧的语音特征向量拼接为一帧语音,输入到前馈型序列记忆网络模型中。
参考图5,图5为本发明基于语音分析的敏感内容识别方法第四实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S50,具体包括:
步骤S51:将所述语义文本作为第一输入语句、所述敏感信息库中的一条敏感语句作为第二输入语句,对所述第一输入语句和第二输入语句进行预处理;
需要注意的是,对所述第一输入语句和第二输入语句进行预处理可以包括对第一输入语句和第二输入语句进行切词,主要是以词语为一个单位进行切词;在切词的同时也可以对词语的词性(例如动词、介词、名词等)及位置进行标记。
步骤S52:将预处理后的第一输入语句和第二输入语句分别作为双向神经网络模型的输入,分别得到第一输出和第二输出;
步骤S53:比对第一输出和第二输出的相似度,以得到所述语义文本与所述敏感语句的相似度值;
需要说明的是,相似度的计算公式可以是通过余弦相似性来计算,计算公式如下:
其中,cosθ余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0,第一输出y1和第二输出y2相应的相似度也越高。
也可以将第一输出和第二输出拼接在一起,作为完整的上下文语义向量,根据完成的上下文语义向量计算匹配度,以此判断第一输出和第二输出的相似度。
步骤S54:确定所述敏感信息库中与所述语义文本相似度值最高的敏感语句,将最高的所述相似度值作为敏感指数。
需要说明的是,敏感指数的判断是以所述敏感信息库中与所述语义文本相似度值最高的敏感语句最高的相似度,即只要语义文本与敏感信息库中任一语句相似度达到阀值,则判断该语句为敏感语句。
参考图6,图6为本发明基于语音分析的敏感内容识别方法第五实施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10,具体包括:
步骤S11:获取待测音频片段和当前语音场景;
需要说明的是,所述待测音频片段可以为包含目标敏感词语音的音频,还可以是包含非语音的背景音以及非目标敏感词语音的其他语音。
步骤S12:对所述待测音频片段的首尾端的静音切除处理;
需要说明的是,对所述待测音频片段的首尾端的静音切除处理可以有效提高语义分析效率。
步骤S13:对静音切除处理后的所述待测音频分帧处理得到多个语音帧;
应该理解的是,由于描述一个语音,需要的参数个数比较多,对处理速度的要求很高,因此需要降维,用语音帧frames去分割语音波形,每帧大概 10ms,每帧提取可以代表该语音帧语音的39个数字。
步骤S14:对每个所述语音帧进行特征提取,得到每个所述语音帧的语音特征向量。
需要说明的是,语音特征的提取方法包括线性预测***(LPCC)、Mel频率倒谱系数(MFCC)参数以及小波分析等方式,在此不做具体限制。用语音帧 frames去分割语音波形,每帧大概10ms,每帧提取可以代表该语音帧语音的 39个数字,这39个数字也就是该帧语音的特征,用语音特征向量来表示,可以有效反映出语音信号特征的关键特征参数形成特征矢量序列。
参考图7,图7为本发明基于语音分析的敏感内容识别方法第六施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10中所述获取待测音频片段和当前语音场景,具体包括:
步骤S11:获取待测音频片段;
需要说明的是,所述待测音频片段可以为包含目标敏感词语音的音频,还可以是包含非语音的背景音以及非目标敏感词语音的其他语音。
步骤S12:根据所述待测音频片段,获取所述待测音频片段的背景音频;
需要说明的是,在本实施例中,获取所述待测音频片段的背景音频可以是待测音频片段中的背景音频分隔出来,在其他实施例中,也可以是通过其他本领域技术人员公知的方式。
步骤S13:根据所述背景音频,确定当前语音场景。
需要说明的是,背景音频也可以在一定程度上说明当前的语音场景,例如在商场,商场的背景会有卖场广播,根据卖场广播可以判断出该语音场景;而饭桌上,会有劝酒等声音,根据劝酒等声音可以判断出该语音场景。
具体实现时,可以是根据背景音频中的关键词与语音场景的关键词匹配,以确定当前语音场景。
参考图8,图8为本发明基于语音分析的敏感内容识别方法第七施例的流程示意图。
基于上述第一实施例,在本实施例中,所述步骤S10中所述获取待测音频片段和当前语音场景,具体包括:
步骤S11’:获取所述待测音频片段和所述终端的当前位置;
需要说明的是,获取所述终端的当前位置可以是通过全球定位*** (GlobalPositioning System,通常简称GPS)来进行获取。
步骤S12’:根据所述当前位置,判断当前所处的地理环境;
具体实现时,地理环境的判断可以是根据电子地图,查找当前位置所在的地理环境,例如饭店、住宅、商场等。
步骤S13’:根据所述待测音频片段,获取所述待测音频片段的背景音频;
需要说明的是,背景音频也可以在一定程度上说明当前的语音场景,例如在商场,商场的背景会有卖场广播,根据卖场广播可以判断出该语音场景;而饭桌上,会有劝酒等声音,根据劝酒等声音可以判断出该语音场景。
步骤S14’:根据当前的所述地理环境和所述背景音频,确定当前语音场景。
需要说明的是,将地理环境与背景音频相结合综合考虑,以此判断当前敏感内容。在本实施例中,通过分别对地理环境和背景音频预先设置权重,以此判断当前语音场景。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于语音分析的敏感内容识别程序,所述基于语音分析的敏感内容识别程序被处理器执行时实现如上文所述的基于语音分析的敏感内容识别方法的步骤。
参照图9,图9为本发明基于语音分析的敏感内容识别装置第一实施例的结构框图。
如图9所示,本发明实施例提出的基于语音分析的敏感内容识别装置包括:
参数获取模块901,用于获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;
应该理解的是,由于描述一个语音,需要的参数个数比较多,对处理速度的要求很高,因此需要降维,用语音帧frames去分割语音波形,每帧大概 10ms,每帧提取可以代表该语音帧语音的39个数字,这39个数字也就是该帧语音的特征,用语音特征向量来表示,可以有效反映出语音信号特征的关键特征参数形成特征矢量序列。
语义分析模块902,用于根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;
需要说明的是,前馈型序列记忆网络模型FSMN(Feed-forward SequentialMemory Network)。
信息确定模块903,用于确定与所述当前语音场景对应的敏感信息库;
需要说明的是,敏感信息库的建立可以根据不同的语音场景分别建立,能更有效真实的反应出当前语音场景下的敏感内容。敏感信息库可以是用户自定义设定的,也可以是根据获取,例如根据用户对不同地理环境敏感内容的评分或设定,例如在酒桌上的敏感内容,可以选取评分高的敏感内容增添至该地理环境的敏感信息库。
例如,在用户家中,公司同事聚餐的语音场景,可以选择与工作环境对应的敏感信息库,也可以用户自定义。
敏感分析模块904,用于根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;
应该理解的是,双向神经网络可以为双向LSTM神经网络,通常第一输入语句和第二输入语句分别输入两个双向LSTM神经网络后是分隔开的,在本实施例中,两个双向LSTM神经网络模型是联接在一起的。通过预先建立的双向神经网络模型以及确定的所述敏感信息库,判断语义文本与敏感信息库中的语句的语义相似程度,以此来确定语义文本的敏感指数,相较于现有技术中仅仅采用关键词匹配来判断敏感指数更准确,更贴近实际。例如在工作环境下“主管面试时对面试人员说你期望的薪资是多少”,此时若仅采用关键词匹配,假设工作环境下工资是敏感词,则此时会提示为敏感内容,而对于面试时对询问期望薪资是正常沟通,而并非敏感内容。
在其他实施例中,也可以根据其他本领域公知的分析两个语句语义相似程度的算法模型,在此不做具体限制。
敏感确定模块905,用于在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。
需要说明的是,预设敏感阀值可以是用户自定义的,也可以是根据当前语音场景定义的,例如在办公环境下,敏感阀值会相对低一些,可以提高敏感度;而在家,敏感阀值会相对高一些,可以有效降低敏感度。
具体实现时,在敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容,可以是发出声音或震动等方式以提醒用户,也可以是采用其他方式提醒用户,在此不做限制。
本发明终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量,根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本,再确定与所述当前语音场景对应的敏感信息库,不同的语音场景对应不同的敏感信息库,提高了判断敏感内容的准确性,再根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数,将语义文本与敏感信息库语义比较,进一步提高准确性,在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容,解决了现有技术对敏感内容识别不够准确的技术问题。
本发明基于语音分析的敏感内容识别装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于语音分析的敏感内容识别方法,其特征在于,包括:
终端获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;
根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;
确定与所述当前语音场景对应的敏感信息库;
根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;
在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。
2.如权利要求1所述的基于语音分析的敏感内容识别方法,其特征在于,所述获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤之前,还包括:
建立前馈型序列记忆网络模型,所述前馈型序列记忆网络模型的隐层连接有反馈连接块,以存储历史信息和未来信息。
3.如权利要求2所述的基于语音分析的敏感内容识别方法,其特征在于,所述根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本的步骤,具体为:
根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量采用拼接帧作为输入,获得与所述语音特征向量对应的语义文本。
4.如权利要求1所述的基于语音分析的敏感内容识别方法,其特征在于,所述根据预先建立的双向神经网络模型以及确定的敏感信息库,确定所述语义文本的敏感指数的步骤,具体包括:
将所述语义文本作为第一输入语句、所述敏感信息库中的一条敏感语句作为第二输入语句,对所述第一输入语句和第二输入语句进行预处理;
将预处理后的第一输入语句和第二输入语句分别作为双向神经网络模型的输入,分别得到第一输出和第二输出;
比对第一输出和第二输出的相似度,以得到所述语义文本与所述敏感语句的相似度值;
确定所述敏感信息库中与所述语义文本相似度值最高的敏感语句,将最高的所述相似度值作为敏感指数。
5.如权利要求1所述的基于语音分析的敏感内容识别方法,其特征在于,所述获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量的步骤,具体包括:
获取待测音频片段和当前语音场景;
对所述待测音频片段的首尾端的静音切除处理;
对静音切除处理后的所述待测音频分帧处理得到多个语音帧;
对每个所述语音帧进行特征提取,得到每个所述语音帧的语音特征向量。
6.如权利要求1所述的基于语音分析的敏感内容识别方法,其特征在于,所述获取待测音频片段和当前语音场景的步骤,具体包括:
获取待测音频片段;
根据所述待测音频片段,获取所述待测音频片段的背景音频;
根据所述背景音频,确定当前语音场景。
7.如权利要求1所述的基于语音分析的敏感内容识别方法,其特征在于,所述获取待测音频片段和当前语音场景的步骤,具体包括:获取所述待测音频片段和所述终端的当前位置;
根据所述当前位置,判断当前所处的地理环境;
根据所述待测音频片段,获取所述待测音频片段的背景音频;
根据当前的所述地理环境和所述背景音频,确定当前语音场景。
8.一种基于语音分析的敏感内容识别装置,其特征在于,包括:
参数获取模块,用于获取待测音频片段和当前语音场景,并获得所述待测音频片段中的每个语音帧的语音特征向量;
语义分析模块,用于根据预先建立的前馈型序列记忆网络模型,将所述语音特征向量作为输入,获得与所述语音特征向量对应的语义文本;
信息确定模块,用于确定与所述当前语音场景对应的敏感信息库;
敏感分析模块,用于根据预先建立的双向神经网络模型以及确定的所述敏感信息库,确定所述语义文本的敏感指数;
敏感确定模块,用于在所述敏感指数大于预设敏感阀值时,将所述待测音频片段标记为敏感内容。
9.一种终端,其特征在于,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音分析的敏感内容识别程序,所述基于语音分析的敏感内容识别程序配置为实现如权利要求1至7中任一项所述的基于语音分析的敏感内容识别方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于语音分析的敏感内容识别程序,所述基于语音分析的敏感内容识别程序被处理器执行时实现如权利要求1至7任一项所述的基于语音分析的敏感内容识别方法的步骤。
CN201811202988.4A 2018-10-16 2018-10-16 基于语音分析的敏感内容识别方法、装置、终端及介质 Active CN109637520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811202988.4A CN109637520B (zh) 2018-10-16 2018-10-16 基于语音分析的敏感内容识别方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811202988.4A CN109637520B (zh) 2018-10-16 2018-10-16 基于语音分析的敏感内容识别方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN109637520A true CN109637520A (zh) 2019-04-16
CN109637520B CN109637520B (zh) 2023-08-22

Family

ID=66066353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811202988.4A Active CN109637520B (zh) 2018-10-16 2018-10-16 基于语音分析的敏感内容识别方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN109637520B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534113A (zh) * 2019-08-26 2019-12-03 深圳追一科技有限公司 音频数据脱敏方法、装置、设备和存储介质
CN110751958A (zh) * 2019-09-25 2020-02-04 电子科技大学 一种基于rced网络的降噪方法
CN110827796A (zh) * 2019-09-23 2020-02-21 平安科技(深圳)有限公司 基于语音的面试者判定方法、装置、终端及存储介质
CN110826319A (zh) * 2019-10-30 2020-02-21 维沃移动通信有限公司 应用信息的处理方法及终端设备
CN111639157A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 音频标记方法、装置、设备及可读存储介质
CN111883128A (zh) * 2020-07-31 2020-11-03 中国工商银行股份有限公司 语音处理方法及***、语音处理装置
CN111968625A (zh) * 2020-08-26 2020-11-20 上海依图网络科技有限公司 融合文本信息的敏感音频识别模型训练方法及识别方法
CN112669821A (zh) * 2020-12-17 2021-04-16 科大讯飞股份有限公司 一种语音意图识别方法、装置、设备及存储介质
CN112786054A (zh) * 2021-02-25 2021-05-11 深圳壹账通智能科技有限公司 基于语音的智能面试评估方法、装置、设备及存储介质
CN112885371A (zh) * 2021-01-13 2021-06-01 北京爱数智慧科技有限公司 音频脱敏的方法、装置、电子设备以及可读存储介质
CN116364072A (zh) * 2023-05-31 2023-06-30 北京师范大学 一种基于人工智能的教育信息监管方法
US11929080B2 (en) 2020-12-10 2024-03-12 Samsung Electronics Co., Ltd. Electronic device and method for providing memory service by electronic device

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572839A (zh) * 2010-12-14 2012-07-11 ***通信集团四川有限公司 一种控制语音通信的方法和***
CN104505090A (zh) * 2014-12-15 2015-04-08 北京国双科技有限公司 敏感词的语音识别方法和装置
CN104866465A (zh) * 2014-02-25 2015-08-26 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
CN105006230A (zh) * 2015-06-10 2015-10-28 合肥工业大学 一种面向非特定人的语音敏感信息检测和过滤方法
CN106325095A (zh) * 2016-10-25 2017-01-11 广州华睿电子科技有限公司 一种智能语音管家机器人***
CN107358120A (zh) * 2017-07-06 2017-11-17 珠海市魅族科技有限公司 文档编辑方法及装置、终端设备及计算机可读存储介质
CN108334487A (zh) * 2017-07-14 2018-07-27 腾讯科技(深圳)有限公司 缺失语意信息补全方法、装置、计算机设备和存储介质
CN108364650A (zh) * 2018-04-18 2018-08-03 北京声智科技有限公司 语音识别结果的调整装置及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102572839A (zh) * 2010-12-14 2012-07-11 ***通信集团四川有限公司 一种控制语音通信的方法和***
CN104866465A (zh) * 2014-02-25 2015-08-26 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
CN104505090A (zh) * 2014-12-15 2015-04-08 北京国双科技有限公司 敏感词的语音识别方法和装置
CN105006230A (zh) * 2015-06-10 2015-10-28 合肥工业大学 一种面向非特定人的语音敏感信息检测和过滤方法
CN106325095A (zh) * 2016-10-25 2017-01-11 广州华睿电子科技有限公司 一种智能语音管家机器人***
CN107358120A (zh) * 2017-07-06 2017-11-17 珠海市魅族科技有限公司 文档编辑方法及装置、终端设备及计算机可读存储介质
CN108334487A (zh) * 2017-07-14 2018-07-27 腾讯科技(深圳)有限公司 缺失语意信息补全方法、装置、计算机设备和存储介质
CN108364650A (zh) * 2018-04-18 2018-08-03 北京声智科技有限公司 语音识别结果的调整装置及方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534113A (zh) * 2019-08-26 2019-12-03 深圳追一科技有限公司 音频数据脱敏方法、装置、设备和存储介质
CN110827796A (zh) * 2019-09-23 2020-02-21 平安科技(深圳)有限公司 基于语音的面试者判定方法、装置、终端及存储介质
CN110827796B (zh) * 2019-09-23 2024-05-24 平安科技(深圳)有限公司 基于语音的面试者判定方法、装置、终端及存储介质
CN110751958A (zh) * 2019-09-25 2020-02-04 电子科技大学 一种基于rced网络的降噪方法
CN110826319A (zh) * 2019-10-30 2020-02-21 维沃移动通信有限公司 应用信息的处理方法及终端设备
CN111639157B (zh) * 2020-05-13 2023-10-20 广州国音智能科技有限公司 音频标记方法、装置、设备及可读存储介质
CN111639157A (zh) * 2020-05-13 2020-09-08 广州国音智能科技有限公司 音频标记方法、装置、设备及可读存储介质
CN111883128A (zh) * 2020-07-31 2020-11-03 中国工商银行股份有限公司 语音处理方法及***、语音处理装置
CN111968625A (zh) * 2020-08-26 2020-11-20 上海依图网络科技有限公司 融合文本信息的敏感音频识别模型训练方法及识别方法
US11929080B2 (en) 2020-12-10 2024-03-12 Samsung Electronics Co., Ltd. Electronic device and method for providing memory service by electronic device
CN112669821B (zh) * 2020-12-17 2024-04-30 中国科学技术大学 一种语音意图识别方法、装置、设备及存储介质
CN112669821A (zh) * 2020-12-17 2021-04-16 科大讯飞股份有限公司 一种语音意图识别方法、装置、设备及存储介质
CN112885371A (zh) * 2021-01-13 2021-06-01 北京爱数智慧科技有限公司 音频脱敏的方法、装置、电子设备以及可读存储介质
CN112786054A (zh) * 2021-02-25 2021-05-11 深圳壹账通智能科技有限公司 基于语音的智能面试评估方法、装置、设备及存储介质
CN112786054B (zh) * 2021-02-25 2024-06-11 深圳壹账通智能科技有限公司 基于语音的智能面试评估方法、装置、设备及存储介质
CN116364072A (zh) * 2023-05-31 2023-06-30 北京师范大学 一种基于人工智能的教育信息监管方法

Also Published As

Publication number Publication date
CN109637520B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN109637520A (zh) 基于语音分析的敏感内容识别方法、装置、终端及介质
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
CN107195296B (zh) 一种语音识别方法、装置、终端及***
US10074363B2 (en) Method and apparatus for keyword speech recognition
CN105938716B (zh) 一种基于多精度拟合的样本复制语音自动检测方法
US8768700B1 (en) Voice search engine interface for scoring search hypotheses
US9558743B2 (en) Integration of semantic context information
US7225128B2 (en) System and method for providing information using spoken dialogue interface
CN105976812A (zh) 一种语音识别方法及其设备
JPWO2008114811A1 (ja) 情報検索システム、情報検索方法及び情報検索用プログラム
CN112530408A (zh) 用于识别语音的方法、装置、电子设备和介质
KR20150037986A (ko) 핫워드 적합성을 결정하는 방법 및 장치
CN107967916A (zh) 确定语音关系
KR101988165B1 (ko) 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
CN110998719A (zh) 信息处理设备和信息处理方法
Sarmah et al. GMM based Language Identification using MFCC and SDC Features
CN112927674A (zh) 语音风格的迁移方法、装置、可读介质和电子设备
CN104700831B (zh) 分析音频文件的语音特征的方法和装置
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN115168563B (zh) 一种基于意图识别的机场服务引导方法、***及装置
Das et al. Multi-style speaker recognition database in practical conditions
Woollacott et al. Benchmarking speech technologies
CN112037772B (zh) 基于多模态的响应义务检测方法、***及装置
US11328713B1 (en) On-device contextual understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant