CN110990685B - 基于声纹的语音搜索方法、设备、存储介质及装置 - Google Patents
基于声纹的语音搜索方法、设备、存储介质及装置 Download PDFInfo
- Publication number
- CN110990685B CN110990685B CN201910970870.4A CN201910970870A CN110990685B CN 110990685 B CN110990685 B CN 110990685B CN 201910970870 A CN201910970870 A CN 201910970870A CN 110990685 B CN110990685 B CN 110990685B
- Authority
- CN
- China
- Prior art keywords
- target
- voice
- voiceprint
- historical
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 230000006399 behavior Effects 0.000 claims description 38
- 239000000203 mixture Substances 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 14
- 238000007477 logistic regression Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000009432 framing Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于声纹的语音搜索方法、设备、存储介质及装置,该方法通过获取多个历史用户的历史搜索内容,将历史搜索内容与历史用户的声纹特征进行绑定,以获得语音搜索推荐数据集,接收目标用户录入的目标语音,对目标语音进行声纹提取,获得目标声纹特征,将目标声纹特征与语音搜索推荐数据集中的声纹特征进行匹配,若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从语音搜索推荐数据集中获取与匹配声纹特征对应的历史搜索内容作为目标推荐数据,根据目标推荐数据和目标语音进行搜索,获得目标页面,基于人工智能,通过历史数据与声纹的绑定,实现个性化推荐,提高搜索的准确度,更加符合用户需求。
Description
技术领域
本发明涉及人工智能的技术领域,尤其涉及一种基于声纹的语音搜索方法、设备、存储介质及装置。
背景技术
常见的应用程序(Application,缩写APP)内的语音搜索都是通过语音转文字后,再进行语义识别和意图解析,帮助用户进行功能和内容的检索,以及简单的对话式交互。目前,语音搜索仅仅根据用户当前的语音信息进行搜索,不同的用户即使说出相同的语音信息,对应的真实意图可能因为业务需求或其他原因导致真实意图不同,则搜索到的页面内容可能偏离用户的真实意图,导致语音搜索到的内容不能满足用户真实意图,用户体验差。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于声纹的语音搜索方法、设备、存储介质及装置,旨在解决现有技术中语音搜索到的内容准确度不高的技术问题。
为实现上述目的,本发明提供一种基于声纹的语音搜索方法,所述基于声纹的语音搜索方法包括以下步骤:
获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系,将所述语音搜索推荐数据集存储在预设服务器中;
接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征;
从所述预设服务器中获取所述语音搜索推荐数据集,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配;
若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据;
根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面。
优选地,所述获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,包括:
记录多个历史用户在进行语音搜索时说出的历史搜索内容,对所述历史搜索内容进行识别,获得文本形式的初始意图,并将所述初始意图进行展示,以使所述历史用户对所述初始意图进行确认或纠正;
接收所述历史用户对所述初始意图进行确认或纠正的回复语音,根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图;
获取多个历史用户的历史搜索内容和对应的所述历史意图;
对所述历史搜索内容和对应的所述历史意图进行关键词提取,获得历史关键词;
将所述历史关键词与所述历史用户的声纹特征进行绑定,以获得语音搜索推荐数据集。
优选地,所述根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面,包括:
获取所述目标用户的目标用户类别,根据所述目标用户类别配置目标热词;
对所述目标语音进行文本识别,获得目标文本;
根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索,获得目标页面。
优选地,所述根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索,获得目标页面,包括:
根据所述目标推荐数据、所述目标热词及所述目标文本,通过预设推测模型推测所述目标用户的多个推测意图;
获取所述目标用户在预设时段内的用户行为数据;
从所述用户行为数据中选取所述目标用户使用频率最高的功能和/或停留时间最久的页面作为目标行为数据;
根据所述目标行为数据,从多个所述推测意图中选取目标意图;
根据所述目标意图进行搜索,获得目标页面。
优选地,所述根据所述目标行为数据,从多个所述推测意图中选取目标意图,包括:
分别计算所述目标行为数据与多个所述推测意图之间的语义特征、文本特征、句法特征和主题特征;
通过逻辑回归将所述语义特征、所述文本特征、所述句法特征和所述主题特征进行聚合,获得各推测意图与所述目标行为数据之间的相似度;
选取所述相似度最高的推测意图作为目标意图。
优选地,所述根据所述目标意图进行搜索,获得目标页面,包括:
将所述目标意图转换成语音形式的意图语音,播放所述意图语音;
接收所述目标用户基于所述意图语音的反馈语音,根据所述反馈语音和所述目标意图进行搜索,获得目标页面。
优选地,所述将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配,包括:
对所述语音搜索推荐数据集中的声纹特征进行遍历,将遍历到的声纹特征作为当前声纹特征;
将所述目标声纹特征分别与预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型和通用背景模型进行似然度比较,获得第一似然和第二似然;
将所述第一似然和所述第二似然相除再取对数,获得目标值;
根据所述目标值判断所述目标声纹特征是否与所述当前声纹特征对应的目标说话人模型匹配。
此外,为实现上述目的,本发明还提出一种基于声纹的语音搜索设备,所述基于声纹的语音搜索设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹的语音搜索程序,所述基于声纹的语音搜索程序配置为实现如上文所述的基于声纹的语音搜索方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于声纹的语音搜索程序,所述基于声纹的语音搜索程序被处理器执行时实现如上文所述的基于声纹的语音搜索方法的步骤。
此外,为实现上述目的,本发明还提出一种基于声纹的语音搜索装置,所述基于声纹的语音搜索装置包括:
绑定模块,用于获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系,将所述语音搜索推荐数据集存储在预设服务器中;
提取模块,用于接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征;
匹配模块,用于从所述预设服务器中获取所述语音搜索推荐数据集,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配;
获取模块,用于若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据;
搜索模块,用于根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面。
本发明中,通过获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,以获得语音搜索推荐数据集,通过历史数据与与声纹进行绑定,实现个性化推荐;接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配,若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据,根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面,基于人工智能,通过声纹识别,从而获取个性化推荐数据,结合个性化推荐数据进行搜索,提高搜索的准确度,更加符合用户需求。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的基于声纹的语音搜索设备的结构示意图;
图2为本发明基于声纹的语音搜索方法第一实施例的流程示意图;
图3为本发明基于声纹的语音搜索方法第二实施例的流程示意图;
图4为本发明基于声纹的语音搜索方法第三实施例的流程示意图;
图5为本发明基于声纹的语音搜索装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于声纹的语音搜索设备结构示意图。
如图1所示,该基于声纹的语音搜索设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的存储器(Non-volatileMemory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于声纹的语音搜索设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及基于声纹的语音搜索程序。
在图1所示的基于声纹的语音搜索设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述基于声纹的语音搜索设备通过处理器1001调用存储器1005中存储的基于声纹的语音搜索程序,并执行本发明实施例提供的基于声纹的语音搜索方法。
基于上述硬件结构,提出本发明基于声纹的语音搜索方法的实施例。
参照图2,图2为本发明基于声纹的语音搜索方法第一实施例的流程示意图,提出本发明基于声纹的语音搜索方法第一实施例。
在第一实施例中,所述基于声纹的语音搜索方法包括以下步骤:
步骤S10:获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系,将所述语音搜索推荐数据集存储在预设服务器中。
应理解的是,本实施例的执行主体是所述基于声纹的语音搜索设备,其中,所述基于声纹的语音搜索设备可为智能手机、智能手表、平板电脑、个人电脑或服务器等电子设备,本实施例对此不加以限制。通常将用户对应的声纹特征作为特征标识,用以区分不同的用户身份,对各用户每次的搜索内容和相关意图做记录,并进行数据分析和学习,并与其声纹特征进行绑定,形成各个用户对应的个性化的语音搜索推荐数据。所述历史用户为通过语音搜索设备的目标应用程序进行过语音搜索的用户,所述历史搜索内容可以是所述历史用户经过语音搜索之后浏览的页面内容的关键词,通过将所述历史搜索内容与对应的历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,即所述语音搜索推荐数据集中包括多个历史用户的声纹特征与对应的历史搜索内容之间的对应关系。
步骤S20:接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征。
可理解的是,所述目标用户为通过所述基于声纹的语音搜索设备进行语音搜索的用户,所述目标语音为所述目标用户与所述基于声纹的语音搜索设备进行语音搜索时录入的语音信息。首先,对所述目标语音进行预处理,去除非语音信号和静默语音信号,获得预处理语音。再对所述预处理语音进行分帧,提取每一帧语音信号的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,缩写MFCC)并保存,具体包括以下步骤:
预增强(Pre-Emphasis):即差分语音信号;音框化(Framing):对语音数据分帧;汉明窗(Hamming Windowing):对每帧信号加窗,以减小吉布斯效应的影响;快速傅立叶变换(fast Fourier transform,缩写FFT):将时域信号变换成为信号的功率谱;三角带通滤波器(Triangle Filters):三角滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;离散余弦转换(Discrete Cosine Transform,缩写DCT):去除各维信号之间的相关性,将信号映射到低维空间。可从提取的MFCC参数中提取语音动态特性参数作为所述目标声纹特征。
步骤S30:从所述预设服务器中获取所述语音搜索推荐数据集,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配。
需要说明的是,提供所述目标声纹特征与预设高斯混合模型(Gaussian mixturemodel,缩写GMM)的匹配运算函数,以判断所述目标声纹特征是否与所述语音搜索推荐数据集中的声纹匹配,具体为:
所述预设高斯混合模型将空间分布的概率密度用多个高斯概率密度函数的加权和来拟合,可以平滑地逼近任意形状的概率密度函数,并且是一个易于处理的参数模型。在具体表示上,这个模型实际上就是把高斯混合模型的每个高斯分量的均值向量排列在一起组成一个超向量作为某一个说话人的模型,称为均值超矢量。
在训练说话人模型的时候,由于注册时说话人的数据稀疏,通常利用一个通用背景模型(Universal Background Model,UBM)和少量的说话人数据,通过自适应算法(如最大后验概率MAP,最大似然线性回归MLLR等)得到目标说话人模型。
对数似然比的评价指标。用所述目标声纹特征分别与所述目标说话人模型和UBM进行似然度比较,然后将这两个似然相除再取对数,用得到的值作为打分来评价所述目标声纹特征是否和所述目标说话人模型匹配。由于UBM代表了最最普遍的平凡的语音特征,而所述目标说话人模型代表了属于这一个说话人的特征。用对数似然比来表示,就是评价所述目标声纹特征到底和所述目标说话人模型更接近还是和UBM最接近。最后设定一个阀值,用来进行最后的分类判断。UBM平均每个混合得到100帧左右训练样本时,能够获得较高且较稳定识别率。
也就是说,所述语音搜索推荐数据集中包括各历史用户的说话人模型,及通用背景模型,将所述目标声纹特征与各历史用户的说话人模型及通用背景模型进行似然度比较,匹配出最接近的说话人模型,并且相比于所述通用背景模型,所述目标声纹特征更接近匹配出的说话人模型,则认为匹配成功,匹配成功的说话人模型就是所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征。
步骤S40:若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据。
应理解的是,若匹配成功,说明所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征,则将匹配成功的声纹特征作为匹配声纹特征,所述匹配声纹特征与所述目标声纹特征为同一用户的声纹特征,即所述目标用户的声纹特征,并根据绑定的对应关系从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据。
需要说明的是,所述语音搜索推荐数据集是存储在预设服务器上,所述语音搜索推荐数据集中预先存储了大量不同历史用户的声纹特征,更换手机时或者未进行登录操作时,可从所述预设服务器中获取所述语音搜索推荐数据集,通过将所述目标用户的所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配,判断所述语音搜索推荐数据集中是否存在与所述目标声纹特征匹配的声纹特征。若匹配失败,则将所述目标声纹特征作为一组新的声纹特征,***所述语音搜索推荐数据集中,并获取本次的搜索内容与所述目标声纹特征进行绑定。
步骤S50:根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面。
在具体实现中,将所述目标语音进行识别,获得目标文本,对所述目标文本和所述目标推荐数据进行关键词提取,根据提取的关键词进行搜索,获得所述目标页面。将所述目标页面进行展示,供所述目标用户浏览,满足所述目标用户的需求。记录所述目标语音及所述目标页面,并将所述目标语音及所述目标页面添加至所述目标用户的目标声纹特征对应的语音搜索推荐数据中,以便于提高后续的语音搜索的准确性。
本实施例中,通过获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,以获得语音搜索推荐数据集,通过历史数据与与声纹进行绑定,实现个性化推荐;接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配,若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据,根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面,基于人工智能,通过声纹识别,从而获取个性化推荐数据,结合个性化推荐数据进行搜索,提高搜索的准确度,更加符合用户需求。
参照图3,图3为本发明基于声纹的语音搜索方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明基于声纹的语音搜索方法的第二实施例。
在第二实施例中,所述步骤S10,包括:
步骤S101:记录多个历史用户在进行语音搜索时说出的历史搜索内容,对所述历史搜索内容进行识别,获得文本形式的初始意图,并将所述初始意图进行展示,以使所述历史用户对所述初始意图进行确认或纠正。
应理解的是,每次所述历史用户在进行语音搜索时,均对所述历史搜索内容进行记录,所述历史搜索内容为一段语音信息,对其首尾端的静音进行切除,降低对后续步骤造成的干扰,对所述历史搜索内容进行分帧,也就是把声音切开成一小段一小段,每小段称为一帧,分帧操作使用移动窗函数来实现。分帧后,所述历史搜索内容就变成了很多小段,但波形在时域上几乎没有描述能力,因此必须将波形作变换,可对分帧后的小段波形提取MFCC特征,把每一帧波形变成一个多维向量,这个向量包含了这帧语音的内容信息,再把帧识别成状态,把状态组合成音素,把音素组合成单词,从而获得文本形式的初始意图。
在具体实现中,为了搜索的准确性,可将所述初始意图进行展示,在所述基于声纹的语音搜索设备的显示节面进行展示,以使所述历史用户查看所述初始意图是否正确,以对所述初始意图进行确认或纠正。
步骤S102:接收所述历史用户对所述初始意图进行确认或纠正的回复语音,根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图。
需要说明的是,所述历史用户在查看所述初始意图之后,在所述初始意图正确时,对所述初始意图进行确认,则所述回复语音可以是正确或对的等语音内容,在所述初始意图存在错误时,对所述初始意图进行纠正,则所述回复语音为用户对所述初始意图中错误信息的纠正信息,因此,根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图,所述历史意图能够正确表达所述历史搜索内容的含义,从而搜索到更加准确的页面。
步骤S103:获取多个历史用户的历史搜索内容和对应的所述历史意图。
应理解的是,记录所述历史用户在进行语音搜索时说出的历史语音,对所述历史语音进行识别,获得文本形式的所述历史意图。所述历史意图为经过所述历史用户确认或纠正之后的正确意图,则获取多个历史用户的历史搜索内容和对应的所述历史意图,能够准确表示所述历史用户的历史搜索目的。
步骤S104:对所述历史搜索内容和对应的所述历史意图进行关键词提取,获得历史关键词。
可理解的是,对所述历史搜索内容和所述历史意图进行分词处理,获得所述历史搜索内容的所有第一词语和所述历史意图的所有第二词语,计算所述第一词语和所述第二词语的词频逆文档频率,所述词频逆文档频率越大,说明对应的词语的区分能力越强。将所述第一词语按照所述词频逆文档频率从大到小进行排序,获取排在前面的预设数量(比如1个或2个等)的第一词语作为所述历史关键词;将所述第二词语按照所述词频逆文档频率从大到小进行排序,获取排在前面的所述预设数量的第二词语也作为所述历史关键词。
步骤S105:将所述历史关键词与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系,将所述语音搜索推荐数据集存储在预设服务器中。
需要说明的是,所述历史关键词能够准确体现所述历史用户的历史搜索意图,将所述历史关键词与对应的历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,即所述语音搜索推荐数据集中包括多个历史用户的声纹特征与对应的历史关键词之间的对应关系。从而能够未后续的搜索提供参考,以提高后续搜索内容的准确度。
在本实施例中,所述步骤S40,包括:
步骤S401:若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史关键词作为目标推荐数据。
应理解的是,若匹配成功,说明所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征,则将匹配成功的声纹特征作为匹配声纹特征,所述匹配声纹特征与所述目标声纹特征为同一用户的声纹特征,即所述目标用户的声纹特征,并根据绑定的对应关系从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史关键词作为目标推荐数据。
在本实施例中,所述步骤S30,包括:
对所述语音搜索推荐数据集中的声纹特征进行遍历,将遍历到的声纹特征作为当前声纹特征;
将所述目标声纹特征分别与预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型和通用背景模型进行似然度比较,获得第一似然和第二似然;
将所述第一似然和所述第二似然相除再取对数,获得目标值;
根据所述目标值判断所述目标声纹特征是否与所述当前声纹特征对应的目标说话人模型匹配。
在具体实现中,所述语音搜索推荐数据集中包括多个所述历史用户的声纹特征,为了实现所述目标声纹特征的匹配,则需将所述目标声纹特征与所述语音搜索推荐数据集中的多个声纹特征依次进行匹配,可对所述语音搜索推荐数据集中的声纹特征进行遍历,将遍历到的声纹特征作为当前声纹特征,通过预设高斯混合声纹模型,将所述目标声纹特征与所述当前声纹特征进行匹配,具体为:
用所述目标声纹特征分别与所述预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型和UBM进行似然度比较,获得所述目标声纹特征与所述预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型之间的第一似然,所述目标声纹特征与所述预设高斯混合声纹模型中的所述UBM之间的第二似然,然后将这两个似然相除再取对数,获得目标值,用所述目标值作为打分来评价所述目标声纹特征是否和所述当前声纹特征对应的目标说话人模型匹配。由于UBM代表了最最普遍的平凡的语音特征,而所述目标说话人模型代表了属于这一个说话人的特征。用对数似然比来表示,就是评价所述目标声纹特征到底和所述当前声纹特征对应的目标说话人模型更接近还是和UBM最接近。最后设定一个阀值,用来进行最后的分类判断。
也就是说,所述语音搜索推荐数据集中包括各历史用户的说话人模型,及通用背景模型,将所述目标声纹特征与各历史用户的说话人模型及通用背景模型进行似然度比较,匹配出最接近的说话人模型,并且相比于所述通用背景模型,所述目标声纹特征更接近匹配出的说话人模型,则认为匹配成功,匹配成功的说话人模型就是所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征。
在本实施例中,获取多个历史用户的历史搜索内容和对应的所述历史意图,能够准确表示所述历史用户的历史搜索目的;将所述历史关键词与所述历史用户的声纹特征进行绑定,以获得语音搜索推荐数据集,从而能够未后续的搜索提供参考,以提高后续搜索内容的准确度。
参照图4,图4为本发明基于声纹的语音搜索方法第三实施例的流程示意图,基于上述图3所示的第二实施例,提出本发明基于声纹的语音搜索方法的第三实施例。
在第三实施例中,所述步骤S50,包括:
步骤S501:获取所述目标用户的目标用户类别,根据所述目标用户类别配置目标热词。
应理解的是,为了提高搜索的准确度,通常对于使用所述目标应用程序进行语音搜索的用户,会根据业务需求对各用户进行分类,获得各用户的用户类别,对不同类别的用户,设定不同的热词范围,如新注册的用户,实名认证、代理人考试为这一类角色用户的个性化热词。获取所述匹配声纹特征对应的目标用户类别,查找所述目标用户类别对应的目标热词。通常还可将所述目标应用程序内的一些主要功能的关键字作为通用热词,比如会员权益、宝币、资金、团队以及产品名称,还可将所述通用热词和所述个性化热词一同配置为所述目标热词。
步骤S502:对所述目标语音进行文本识别,获得目标文本。
需要说明的是,语音识别之前,将所述目标语音的首尾端的静音切除,降低对后续步骤造成的干扰,静音切除的操作称为语音活动检测(Voice Activity Detection,VAD),获得第一语音;接着对所述第一语音分帧,也就是把所述第一语音切开成一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现。分帧后,所述第一语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。把帧识别成状态,状态是比音素更细致的语音单位,通常把一个音素划分成3个状态。把状态组合成音素。把音素组合成单词。若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。从而获得所述目标文本。
步骤S503:根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索,获得目标页面。
在具体实现中,对所述目标文本、所述目标热词和所述目标推荐数据进行关键词提取,根据提取的关键词进行搜索,获得所述目标页面。将所述目标页面进行展示,供所述目标用户浏览,满足所述目标用户的需求。记录所述目标语音及所述目标页面,并将所述目标语音及所述目标页面添加至所述目标用户的目标声纹特征对应的语音搜索推荐数据中,以便于提高后续的语音搜索的准确性。
在本实施例中,所述步骤S503,包括:
根据所述目标推荐数据、所述目标热词及所述目标文本,通过预设推测模型推测所述目标用户的多个推测意图;
获取所述目标用户在预设时段内的用户行为数据;
从所述用户行为数据中选取所述目标用户使用频率最高的功能和/或停留时间最久的页面作为目标行为数据;
根据所述目标行为数据,从多个所述推测意图中选取目标意图;
根据所述目标意图进行搜索,获得目标页面。
应理解的是,基于统计分词,在给定大量已经分词的样本文本的前提下,利用统计机器学习模型学习所述样本文本的词语切分规律,通过训练获得的统计机器学习模型对所述目标文本进行分词,获得所述目标文本的第三词语。对所述目标推荐数据进行分词处理,获得所述目标推荐数据的第四词语,将所述第三词语分别与所述第四词语、所述目标热词进行匹配,将匹配成功的第三词语进行保留,未匹配成功的第三词语,可计算其与各第四词语与目标热词之间的相似度,将相似度较高的第四词语或者目标热词作为目标词语,将未匹配成功的第三词语替换为所述目标词语,从而获得所述目标用户的多个预测意图。
可理解的是,对大量的业务相关的点击事件进行埋点,获得所述目标用户基于业务的用户行为数据,通过获取预设时段的用户行为数据,所述预设时段通常指的是最近一段时间,比如最近一周、最近一个月或者最近一个季度等,从所述用户行为数据中获取所述目标用户使用频率高的功能、停留时间久的页面作为所述目标行为数据,所述目标用户使用频率高的功能和停留时间久的页面说明所述用户近期对该功能和页面有需求或者感兴趣,能够体现用户的习惯和偏好。
本实施例中,所述根据所述目标行为数据,从多个所述推测意图中选取目标意图,包括:
分别计算所述目标行为数据与多个所述推测意图之间的语义特征、文本特征、句法特征和主题特征;
通过逻辑回归将所述语义特征、所述文本特征、所述句法特征和所述主题特征进行聚合,获得各推测意图与所述目标行为数据之间的相似度;
选取所述相似度最高的推测意图作为目标意图。
需要说明的是,通过计算各推测意图与所述目标行为数据之间的相似度,通过计算各推测意图与所述目标行为数据之间的语义特征、文本特征、句法特征和主题特征,通过逻辑回归将所述语义特征、所述文本特征、所述句法特征和所述主题特征进行聚合,获得各推测意图与所述目标行为数据之间的相似度,所述相似度越高说明与所述目标行为数据越接近,也就是与所述目标用户近期的习惯和偏好越接近,选取所述相似度最高的推测意图作为目标意图。
在具体实现中,基于长短期记忆网络(Long Short-Term Memory,LSTM)构建所述目标行为数据及各推测意图的向量,计算所述向量之间的余弦相似度,将该余弦相似度作为所述语义特征。通过文档主题生成模型(Latent Dirichlet Allocation,LDA)对所述目标行为数据及各推测意图进行对应的主题特征的生成。所述逻辑回归(LogisticRegression,LR)在线性回归的基础上,套用了一个逻辑函数,通过所述逻辑回归可将所述语义特征、文本特征、句法特征和所述主题特征进行聚合,获得各推测意图与所述目标行为数据之间的相似度。
在本实施例中,所述根据所述目标意图进行搜索,获得目标页面,包括:
将所述目标意图转换成语音形式的意图语音,播放所述意图语音;
接收所述目标用户基于所述意图语音的反馈语音,根据所述反馈语音和所述目标意图进行搜索,获得目标页面。
在具体实现中,为了提高语音搜索的准确性,通常在识别出所述目标意图之后,通过语音交互方式将所述目标意图以语音形式进行播放,首先将文本形式的所述目标意图转换成语音形式的意图语音,并将所述意图语音进行播放,所述目标用户在听到所述意图语音时,可通过语音交互方式对所述意图语音进行确认或者纠正。
应理解的是,所述目标用户在听到所述意图语音时,若所述意图语音符合所述目标用户的真实意图,则所述目标用户可以录入所述反馈语音,对所述意图语音进行确认,所述反馈语音包括:是的、正确或者对的等,此时,可直接搜索与所述目标意图相关的页面作为所述目标页面进行推送,所述目标用户可浏览所述目标页面,满足所述目标用户的需求。
所述目标用户在听到所述意图语音时,若所述意图语音不符合所述目标用户的真实意图,则所述目标用户可以录入所述反馈语音,对所述意图语音进行纠正,此时所述目标用户可通过所述反馈语音纠正所述意图语音中错误的地方,或者直接说出正确的真实意图,根据所述反馈语音对所述目标意图进行纠正,根据纠正后的意图搜索相关页面作为目标页面,推送所述目标页面供所述目标用户浏览,满足所述目标用户的需求。记录所述目标意图及所述目标页面,并将所述目标意图及所述目标页面添加至所述目标用户的目标声纹特征对应的语音搜索推荐数据中,以便于提高后续的语音搜索意图识别的准确性。
本实施例中,获取所述目标用户的目标用户类别,根据所述目标用户类别配置目标热词,对所述目标语音进行文本识别,获得目标文本,根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索,获得目标页面,所述目标热词能够体现所述目标用户的业务需求,结合所述目标热词进行搜索,从而提高搜索的准确度。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于声纹的语音搜索程序,所述基于声纹的语音搜索程序被处理器执行时实现如上文所述的基于声纹的语音搜索方法的步骤。
此外,参照图5,本发明实施例还提出一种基于声纹的语音搜索装置,所述基于声纹的语音搜索装置包括:
绑定模块10,用于获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系,将所述语音搜索推荐数据集存储在预设服务器中。
应理解的是,通常将用户对应的声纹特征作为特征标识,用以区分不同的用户身份,对各用户每次的搜索内容和相关意图做记录,并进行数据分析和学习,并与其声纹特征进行绑定,形成各个用户对应的个性化的语音搜索推荐数据。所述历史用户为通过语音搜索设备的目标应用程序进行过语音搜索的用户,所述历史搜索内容可以是所述历史用户经过语音搜索之后浏览的页面内容的关键词,通过将所述历史搜索内容与对应的历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,即所述语音搜索推荐数据集中包括多个历史用户的声纹特征与对应的历史搜索内容之间的对应关系。
提取模块20,用于接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征。
可理解的是,所述目标用户为通过所述基于声纹的语音搜索设备进行语音搜索的用户,所述目标语音为所述目标用户与所述基于声纹的语音搜索设备进行语音搜索时录入的语音信息。首先,对所述目标语音进行预处理,去除非语音信号和静默语音信号,获得预处理语音。再对所述预处理语音进行分帧,提取每一帧语音信号的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,缩写MFCC)并保存,具体包括以下步骤:预增强(Pre-Emphasis):即差分语音信号;音框化(Framing):对语音数据分帧;汉明窗(HammingWindowing):对每帧信号加窗,以减小吉布斯效应的影响;快速傅立叶变换(fast Fouriertransform,缩写FFT):将时域信号变换成为信号的功率谱;三角带通滤波器(TriangleFilters):三角滤波器覆盖的范围都近似于人耳的一个临界带宽,以此来模拟人耳的掩蔽效应;离散余弦转换(Discrete Cosine Transform,缩写DCT):去除各维信号之间的相关性,将信号映射到低维空间。可从提取的MFCC参数中提取语音动态特性参数作为所述目标声纹特征。
匹配模块30,用于从所述预设服务器中获取所述语音搜索推荐数据集,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配。
需要说明的是,提供所述目标声纹特征与预设高斯混合模型(Gaussian mixturemodel,缩写GMM)的匹配运算函数,以判断所述目标声纹特征是否与所述语音搜索推荐数据集中的声纹匹配,具体为:
所述预设高斯混合模型将空间分布的概率密度用多个高斯概率密度函数的加权和来拟合,可以平滑地逼近任意形状的概率密度函数,并且是一个易于处理的参数模型。在具体表示上,这个模型实际上就是把高斯混合模型的每个高斯分量的均值向量排列在一起组成一个超向量作为某一个说话人的模型,称为均值超矢量。
在训练说话人模型的时候,由于注册时说话人的数据稀疏,通常利用一个通用背景模型(Universal Background Model,UBM)和少量的说话人数据,通过自适应算法(如最大后验概率MAP,最大似然线性回归MLLR等)得到目标说话人模型。
对数似然比的评价指标。用所述目标声纹特征分别与所述目标说话人模型和UBM进行似然度比较,然后将这两个似然相除再取对数,用得到的值作为打分来评价所述目标声纹特征是否和所述目标说话人模型匹配。由于UBM代表了最最普遍的平凡的语音特征,而所述目标说话人模型代表了属于这一个说话人的特征。用对数似然比来表示,就是评价所述目标声纹特征到底和所述目标说话人模型更接近还是和UBM最接近。最后设定一个阀值,用来进行最后的分类判断。UBM平均每个混合得到100帧左右训练样本时,能够获得较高且较稳定识别率。
也就是说,所述语音搜索推荐数据集中包括各历史用户的说话人模型,及通用背景模型,将所述目标声纹特征与各历史用户的说话人模型及通用背景模型进行似然度比较,匹配出最接近的说话人模型,并且相比于所述通用背景模型,所述目标声纹特征更接近匹配出的说话人模型,则认为匹配成功,匹配成功的说话人模型就是所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征。
获取模块40,用于若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据。
应理解的是,若匹配成功,说明所述语音搜索推荐数据集中存在与所述目标声纹特征一致的声纹特征,则将匹配成功的声纹特征作为匹配声纹特征,所述匹配声纹特征与所述目标声纹特征为同一用户的声纹特征,即所述目标用户的声纹特征,并根据绑定的对应关系从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据。
需要说明的是,所述语音搜索推荐数据集是存储在预设服务器上,所述语音搜索推荐数据集中预先存储了大量不同历史用户的声纹特征,更换手机时或者未进行登录操作时,可从所述预设服务器中获取所述语音搜索推荐数据集,通过将所述目标用户的所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配,判断所述语音搜索推荐数据集中是否存在与所述目标声纹特征匹配的声纹特征。若匹配失败,则将所述目标声纹特征作为一组新的声纹特征,***所述语音搜索推荐数据集中,并获取本次的搜索内容与所述目标声纹特征进行绑定。
搜索模块50,用于根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面。
在具体实现中,将所述目标语音进行识别,获得目标文本,对所述目标文本和所述目标推荐数据进行关键词提取,根据提取的关键词进行搜索,获得所述目标页面。将所述目标页面进行展示,供所述目标用户浏览,满足所述目标用户的需求。记录所述目标语音及所述目标页面,并将所述目标语音及所述目标页面添加至所述目标用户的目标声纹特征对应的语音搜索推荐数据中,以便于提高后续的语音搜索的准确性。
本实施例中,通过获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,以获得语音搜索推荐数据集,通过历史数据与与声纹进行绑定,实现个性化推荐;接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配,若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据,根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面,基于人工智能,通过声纹识别,从而获取个性化推荐数据,结合个性化推荐数据进行搜索,提高搜索的准确度,更加符合用户需求。
在一实施例中,所述绑定模块10,还用于记录多个历史用户在进行语音搜索时说出的历史搜索内容,对所述历史搜索内容进行识别,获得文本形式的初始意图,并将所述初始意图进行展示,以使所述历史用户对所述初始意图进行确认或纠正;接收所述历史用户对所述初始意图进行确认或纠正的回复语音,根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图;获取多个历史用户的历史搜索内容和对应的所述历史意图;对所述历史搜索内容和对应的所述历史意图进行关键词提取,获得历史关键词;将所述历史关键词与所述历史用户的声纹特征进行绑定,以获得语音搜索推荐数据集。
在一实施例中,所述搜索模块50,还用于获取所述目标用户的目标用户类别,根据所述目标用户类别配置目标热词;对所述目标语音进行文本识别,获得目标文本;根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索,获得目标页面。
在一实施例中,所述搜索模块50,还用于根据所述目标推荐数据、所述目标热词及所述目标文本,通过预设推测模型推测所述目标用户的多个推测意图;获取所述目标用户在预设时段内的用户行为数据;从所述用户行为数据中选取所述目标用户使用频率最高的功能和/或停留时间最久的页面作为目标行为数据;根据所述目标行为数据,从多个所述推测意图中选取目标意图;根据所述目标意图进行搜索,获得目标页面。
在一实施例中,所述搜索模块50,还用于分别计算所述目标行为数据与多个所述推测意图之间的语义特征、文本特征、句法特征和主题特征;通过逻辑回归将所述语义特征、所述文本特征、所述句法特征和所述主题特征进行聚合,获得各推测意图与所述目标行为数据之间的相似度。
在一实施例中,所述搜索模块50,还用于将所述目标意图转换成语音形式的意图语音,播放所述意图语音;接收所述目标用户基于所述意图语音的反馈语音,根据所述反馈语音和所述目标意图进行搜索,获得目标页面。
在一实施例中,所述匹配模块30,还用于对所述语音搜索推荐数据集中的声纹特征进行遍历,将遍历到的声纹特征作为当前声纹特征;将所述目标声纹特征分别与预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型和通用背景模型进行似然度比较,获得第一似然和第二似然;将所述第一似然和所述第二似然相除再取对数,获得目标值;根据所述目标值判断所述目标声纹特征是否与所述当前声纹特征对应的目标说话人模型匹配。
本发明所述基于声纹的语音搜索装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为标识。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于声纹的语音搜索方法,其特征在于,所述基于声纹的语音搜索方法包括以下步骤:
获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系,将所述语音搜索推荐数据集存储在预设服务器中;
接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征;
从所述预设服务器中获取所述语音搜索推荐数据集,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配;
若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据;
根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面;
所述获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,包括:
记录多个历史用户在进行语音搜索时说出的历史搜索内容,对所述历史搜索内容进行识别,获得文本形式的初始意图,并将所述初始意图进行展示,以使所述历史用户对所述初始意图进行确认或纠正;
接收所述历史用户对所述初始意图进行确认或纠正的回复语音,根据所述初始意图和所述回复语音确定所述历史搜索内容对应的历史意图;
获取多个历史用户的历史搜索内容和对应的所述历史意图;
对所述历史搜索内容和对应的所述历史意图进行关键词提取,获得历史关键词;
将所述历史关键词与所述历史用户的声纹特征进行绑定,以获得语音搜索推荐数据集;
所述将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配,包括:
对所述语音搜索推荐数据集中的声纹特征进行遍历,将遍历到的声纹特征作为当前声纹特征;
将所述目标声纹特征分别与预设高斯混合声纹模型中的所述当前声纹特征对应的目标说话人模型和通用背景模型进行似然度比较,获得第一似然和第二似然;
将所述第一似然和所述第二似然相除再取对数,获得目标值;
根据所述目标值判断所述目标声纹特征是否与所述当前声纹特征对应的目标说话人模型匹配;
所述根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面,包括:
获取所述目标用户的目标用户类别,根据所述目标用户类别配置目标热词;
对所述目标语音进行文本识别,获得目标文本;
根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索,获得目标页面。
2.如权利要求1所述的基于声纹的语音搜索方法,其特征在于,所述根据所述目标推荐数据、所述目标热词及所述目标文本进行搜索,获得目标页面,包括:
根据所述目标推荐数据、所述目标热词及所述目标文本,通过预设推测模型推测所述目标用户的多个推测意图;
获取所述目标用户在预设时段内的用户行为数据;
从所述用户行为数据中选取所述目标用户使用频率最高的功能和/或停留时间最久的页面作为目标行为数据;
根据所述目标行为数据,从多个所述推测意图中选取目标意图;
根据所述目标意图进行搜索,获得目标页面。
3.如权利要求2所述的基于声纹的语音搜索方法,其特征在于,所述根据所述目标行为数据,从多个所述推测意图中选取目标意图,包括:
分别计算所述目标行为数据与多个所述推测意图之间的语义特征、文本特征、句法特征和主题特征;
通过逻辑回归将所述语义特征、所述文本特征、所述句法特征和所述主题特征进行聚合,获得各推测意图与所述目标行为数据之间的相似度;
选取所述相似度最高的推测意图作为目标意图。
4.如权利要求2所述的基于声纹的语音搜索方法,其特征在于,所述根据所述目标意图进行搜索,获得目标页面,包括:
将所述目标意图转换成语音形式的意图语音,播放所述意图语音;
接收所述目标用户基于所述意图语音的反馈语音,根据所述反馈语音和所述目标意图进行搜索,获得目标页面。
5.一种基于声纹的语音搜索设备,其特征在于,所述基于声纹的语音搜索设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于声纹的语音搜索程序,所述基于声纹的语音搜索程序被所述处理器执行时实现如权利要求1至4中任一项所述的基于声纹的语音搜索方法的步骤。
6.一种存储介质,其特征在于,所述存储介质上存储有基于声纹的语音搜索程序,所述基于声纹的语音搜索程序被处理器执行时实现如权利要求1至4中任一项所述的基于声纹的语音搜索方法的步骤。
7.一种基于声纹的语音搜索装置,其特征在于,所述基于声纹的语音搜索装置用于实现权利要求1-4中任一项所述的基于声纹的语音搜索方法,所述基于声纹的语音搜索装置包括:
绑定模块,用于获取多个历史用户的历史搜索内容,将所述历史搜索内容与所述历史用户的声纹特征进行绑定,获得语音搜索推荐数据集,所述语音搜索推荐数据集中包括所述多个历史用户的声纹特征与对应的所述历史搜索内容之间的对应关系,将所述语音搜索推荐数据集存储在预设服务器中;
提取模块,用于接收目标用户录入的目标语音,对所述目标语音进行声纹提取,获得目标声纹特征;
匹配模块,用于从所述预设服务器中获取所述语音搜索推荐数据集,将所述目标声纹特征与所述语音搜索推荐数据集中的声纹特征进行匹配;
获取模块,用于若匹配成功,则将匹配成功的声纹特征作为匹配声纹特征,从所述语音搜索推荐数据集中获取与所述匹配声纹特征对应的历史搜索内容作为目标推荐数据;
搜索模块,用于根据所述目标推荐数据和所述目标语音进行搜索,获得目标页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910970870.4A CN110990685B (zh) | 2019-10-12 | 2019-10-12 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910970870.4A CN110990685B (zh) | 2019-10-12 | 2019-10-12 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990685A CN110990685A (zh) | 2020-04-10 |
CN110990685B true CN110990685B (zh) | 2023-05-26 |
Family
ID=70081885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910970870.4A Active CN110990685B (zh) | 2019-10-12 | 2019-10-12 | 基于声纹的语音搜索方法、设备、存储介质及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990685B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597435B (zh) * | 2020-04-15 | 2023-08-08 | 维沃移动通信有限公司 | 一种语音搜索方法、装置及电子设备 |
CN111932296B (zh) * | 2020-07-20 | 2024-05-28 | 中国建设银行股份有限公司 | 一种产品推荐方法及装置、服务器、存储介质 |
CN112185374A (zh) * | 2020-09-07 | 2021-01-05 | 北京如影智能科技有限公司 | 一种确定语音意图的方法及装置 |
CN112185362A (zh) * | 2020-09-24 | 2021-01-05 | 苏州思必驰信息科技有限公司 | 针对用户个性化服务的语音处理方法及装置 |
CN112201257A (zh) * | 2020-09-29 | 2021-01-08 | 北京百度网讯科技有限公司 | 基于声纹识别的信息推荐方法、装置、电子设备及存储介质 |
CN112835951A (zh) * | 2021-01-12 | 2021-05-25 | 平安科技(深圳)有限公司 | 数据预测方法、装置、计算机设备及存储介质 |
CN113707183B (zh) * | 2021-09-02 | 2024-04-19 | 北京奇艺世纪科技有限公司 | 一种视频中的音频处理方法及装置 |
CN114694650A (zh) * | 2022-03-29 | 2022-07-01 | 青岛海尔科技有限公司 | 智能设备的控制方法和装置、存储介质及电子设备 |
CN116226297B (zh) * | 2023-05-05 | 2023-07-25 | 深圳市唯特视科技有限公司 | 数据模型的可视化搜索方法、***、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2680165A1 (en) * | 2012-06-28 | 2014-01-01 | JaJah Ltd | System and method to peform textual queries on voice communications |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106601259A (zh) * | 2016-12-13 | 2017-04-26 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
WO2019000991A1 (zh) * | 2017-06-30 | 2019-01-03 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN109376288A (zh) * | 2018-09-28 | 2019-02-22 | 北京北斗方圆电子科技有限公司 | 一种实现语义搜索的云计算平台及其均衡方法 |
-
2019
- 2019-10-12 CN CN201910970870.4A patent/CN110990685B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2680165A1 (en) * | 2012-06-28 | 2014-01-01 | JaJah Ltd | System and method to peform textual queries on voice communications |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106601259A (zh) * | 2016-12-13 | 2017-04-26 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
WO2019000991A1 (zh) * | 2017-06-30 | 2019-01-03 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
CN109376288A (zh) * | 2018-09-28 | 2019-02-22 | 北京北斗方圆电子科技有限公司 | 一种实现语义搜索的云计算平台及其均衡方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110990685A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110990685B (zh) | 基于声纹的语音搜索方法、设备、存储介质及装置 | |
US11270074B2 (en) | Information processing apparatus, information processing system, and information processing method, and program | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
Henderson et al. | Discriminative spoken language understanding using word confusion networks | |
US9190055B1 (en) | Named entity recognition with personalized models | |
CN111177359A (zh) | 多轮对话方法和装置 | |
JP6464650B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
US20090326947A1 (en) | System and method for spoken topic or criterion recognition in digital media and contextual advertising | |
US20100241430A1 (en) | System and method for using meta-data dependent language modeling for automatic speech recognition | |
CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
JPWO2005122144A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
CN109545185B (zh) | 交互***评价方法、评价***、服务器及计算机可读介质 | |
CN109119069B (zh) | 特定人群识别方法、电子装置及计算机可读存储介质 | |
CN110019741B (zh) | 问答***答案匹配方法、装置、设备及可读存储介质 | |
CN111986675A (zh) | 语音对话方法、设备及计算机可读存储介质 | |
CN112614510B (zh) | 一种音频质量评估方法及装置 | |
WO2023184942A1 (zh) | 语音交互方法、装置及电器 | |
CN112201275B (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
CN112468659A (zh) | 应用于电话客服的质量评价方法、装置、设备及存储介质 | |
CN112017694A (zh) | 语音数据的评测方法和装置、存储介质和电子装置 | |
CN111611358A (zh) | 信息交互方法、装置、电子设备及存储介质 | |
CN111832305A (zh) | 一种用户意图识别方法、装置、服务器和介质 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及*** | |
JP7160778B2 (ja) | 評価システム、評価方法、及びコンピュータプログラム。 | |
CN111091809A (zh) | 一种深度特征融合的地域性口音识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |