CN105551485A - 语音文件检索方法及*** - Google Patents

语音文件检索方法及*** Download PDF

Info

Publication number
CN105551485A
CN105551485A CN201510882391.9A CN201510882391A CN105551485A CN 105551485 A CN105551485 A CN 105551485A CN 201510882391 A CN201510882391 A CN 201510882391A CN 105551485 A CN105551485 A CN 105551485A
Authority
CN
China
Prior art keywords
word
degree
text
confidence
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510882391.9A
Other languages
English (en)
Other versions
CN105551485B (zh
Inventor
王建社
柳林
冯翔
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xun Feizhi Metamessage Science And Technology Ltd
Original Assignee
Xun Feizhi Metamessage Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xun Feizhi Metamessage Science And Technology Ltd filed Critical Xun Feizhi Metamessage Science And Technology Ltd
Priority to CN201510882391.9A priority Critical patent/CN105551485B/zh
Publication of CN105551485A publication Critical patent/CN105551485A/zh
Application granted granted Critical
Publication of CN105551485B publication Critical patent/CN105551485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音文件检索方法及***,该方法包括:训练对应检索关键词的用户兴趣模型;获取待检索的各语音文件;对所述语音文件进行语音转写,得到转写结果;根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征;利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句;根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;根据所述相关度展示检索出的语音文件。利用本发明,可以提高语音文件检索效率及准确性。

Description

语音文件检索方法及***
技术领域
本发明涉及语音信号处理领域,具体涉及一种语音文件检索方法及***。
背景技术
随着语音处理技术的不断发展,在越来越多的应用中,相关技术人员已尝试从语音数据中获取所需信息,如从海量语音数据中检索出特定应用场景所需的语音文件。传统的从大量语音文件中检索出有用文件的做法主要有两种:
第一种是人工进行语音文件监听,进而找出相关性较高、有用的文件,而这种方法需要耗费大量的人力和物力,效率较低。
第二种是先将语音文件进行转写,得到文本文件,然后对文本文件进行检索。由于受复杂的噪声环境、远场等因素的影响,语音转写的正确率还不能较好的保证,因而在进行语音文件检索时,为保证检索的准确性,通常都需要对语音转写的结果进行人工校验,因而同样存在人力消耗大、效率低的问题。
发明内容
本发明提供一种语音文件检索方法及***,以解决现有语音文件检索时由于语音转写错误导致的效率低、准确性差的问题。
为此,本发明提供如下技术方案:
一种语音文件检索方法,包括:
训练对应检索关键词的用户兴趣模型;
获取待检索的各语音文件;
对所述语音文件进行语音转写,得到转写结果;
根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征;
利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句;
根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;
根据所述相关度展示检索出的语音文件信息。
优选地,所述检索关键词是用户在检索时输入的一个或多个检索关键词,或者是预先从一些特定情景语料中搜集得到的一个或多个关键词。
优选地,所述训练对应检索关键词的用户兴趣模型包括:
收集包含所述检索关键词的语料;
计算所述语料中各词的词向量;
利用所述词向量训练回归模型,将所述回归模型作为用户兴趣模型。
优选地,所述转写结果为词级混淆网络格式,所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度;
所述多知识源特征包括以下特征中的至少两种:词后验概率;竞争词的后验概率差;语言模型得分;帧平均声学模型得分。
优选地,所述方法还包括:
对所述混淆网络中的各词进行切分,得到该词对应的音素信息;
所述多知识源特征还包括以下任意一种或多种:各词对应的音素后验概率、状态帧方差;词位置系数;词长;是否为停止词;时长;竞争词个数;短时平均能量。
优选地,所述对所述文本文件中各词进行置信度评估包括:
根据所述多知识源特征为各词生成一组多维特征向量;
利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。
优选地,所述根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度包括:
对于每个文本文件,计算所述文本文件中各词的词向量;
将各词的置信度重估结果作为该词的权重,对所述文本文件中出现的所有词的词向量进行加权平均,得到所述文本文件的向量:
根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。
优选地,所述根据所述相关度展示检索出的语音文件信息包括:
按照相关度从大到小依次展示相关度大于设定阈值的语音文件信息;或者
按照相关度从大到小依次展示设定个数的语音文件信息。
优选地,所述方法还包括:
设定针对不同重要性级别的相关度阈值;
根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别;
在展示所述语音文件信息时,展示所述语音文件的重要性级别信息。
一种语音文件检索***,包括:
模型训练模块,用于训练对应检索关键词的用户兴趣模型;
语音文件获取模块,用于获取待检索的各语音文件;
语音转写模块,用于对所述语音文件进行语音转写,得到转写结果;
文本文件生成模块,用于根据所述转写结果获得所述语音文件对应的文本文件;
特征获取模块,用于获取所述文本文件中各词的多知识源特征;
置信度重估模块,用于利用所述多知识源特征对各词进行置信度重估;
过滤模块,用于滤除所述文本文件中无意义的词句;
相关度计算模块,用于根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;
展示模块,用于根据所述相关度展示检索出的语音文件信息。
优选地,所述模型训练模块包括:
语料收集单元,用于收集包含所述检索关键词的语料;
词向量计算单元,用于计算所述语料中各词的词向量;
训练单元,用于利用所述词向量训练回归模型,将所述回归模型作为用户兴趣模型。
优选地,所述转写结果为词级混淆网络格式,所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度;所述多知识源特征包括以下特征中的至少两种:词后验概率;竞争词的后验概率差;语言模型得分;帧平均声学模型得分;
所述置信度重估模块包括:
多维特征向量生成单元,用于根据所述多知识源特征为各词生成一组多维特征向量;
置信度计算单元,用于利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。
优选地,所述相关度计算模块包括:
词向量计算单元,用于对于每个文本文件,计算所述文本文件中各词的词向量;
文件向量计算单元,用于将各词的置信度重估结果作为该词的权重,对所述文本文件中出现的所有词的词向量进行加权平均,得到所述文本文件的向量:
相关度计算单元,用于根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。
优选地,所述展示模块具体用于按照相关度从大到小依次展示相关度大于设定阈值的语音文件,或者按照相关度从大到小依次展示设定个数的语音文件。
优选地,所述***还包括:
设定模块,用于设定针对不同重要性级别的相关度阈值;
级别确定模块,用于根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别;
所述展示模块,还用于在展示所述语音文件信息时,展示所述语音文件的重要性级别信息。本发明实施例提供的语音文件检索方法及***,针对语音转写得到的文本文件存在一定数量的转写错误的现象,通过提取语音转写得到的文本文件中各词的多知识源特征,利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句,根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;根据所述相关度展示检索出的语音文件,从而有效地减少了转写错误对文件排序的影响。本发明实施例的语音文件检索方法及***,不仅大大提高了语音文件检索的效率,而且保证了检索结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例语音文件检索方法的流程图;
图2是本发明实施例语音文件检索***的一种结构示意图;
图3是本发明实施例中相关度计算模块的一种结构示意图;
图4是本发明实施例语音文件检索***的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图1所示,是本发明实施例语音文件检索方法的流程图,包括以下步骤:
步骤101,训练对应检索关键词的用户兴趣模型。
需要说明的是,所述检索关键词可以是用户在检索时输入的一个或多个检索关键词,也可以是预先从一些特定情景语料中搜集得到的一个或多个检索关键词,对此本发明实施例不做限定。
所述用户兴趣模型可以采用回归模型,比如SVM(支持向量机)模型或RNN(RecurrentNeuralNetwork、循环神经网络)模型,在训练回归模型时,可以采用现有的WordEmbedding技术计算检索关键词的词向量表示,并结合待检索文本中与检索词无关的词向量动态训练回归模型,作为最终的用户兴趣模型。具体地,可以分别在预先准备的大语料库和待检索语音的文本中搜索包含所述检索关键词的语料作为正例样本,并随机抽取一些与所述检索关键词无关的语料作为反例样本,然后利用WordEmbedding方法将这些样本语料转换为词向量,利用这些正例词向量和反例词向量即可训练回归模型。
步骤102,获取待检索的各语音文件。
步骤103,对所述语音文件进行语音转写,得到转写结果。
具体地,可以采用大规模语音转写技术对所述语音文件进行转写,得到转写结果。
在本发明实施例中,转写结果采用词级混淆网络格式,其不仅包括最优候选词,还包括多个竞争候选词。所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度等信息,以方便后续获取各词的多知识源特征。其中,所述原始置信度可以根据每个词的后验概率计算得到。
需要说明的是,在实际应用中,可以设置每个词的相同位置上最多可以保留的竞争候选词的个数,比如15个。这些竞争候选词可以按照设定数量依照各词的原始置信度由大到小来选择,也可以按照设定的置信度阈值选择大于该阈值的候选词。而且,相同位置上所有竞争候选词的原始置信度之和为1。
步骤104,根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征。
具体地,通过混淆网络解码,可以得到所述语音文件对应的文本文件。
所述多知识源特征可以包括以下特征中的至少两种:词后验概率;竞争词的后验概率差;语言模型得分;帧平均声学模型得分。当然,为了使后续置信度重估结果更准确,提取的多知识源特征还可进一步包括以下任意一种或多种:各词对应的音素后验概率、状态帧方差;词位置系数;词长;是否为停止词;时长;竞争词个数;短时平均能量等。
下面对上述这些特征分别加以说明:
(1)词后验概率:当前词的后验概率;
(2)竞争词的后验概率差:混淆网络上两个相邻节点间最优的两个候选词的后验概率之差;
(3)语言模型得分;即当前词的N-Gram语言模型得分;
(4)帧平均声学模型得分:当前词的声学模型得分除以该词的特征总帧数;比如提取语音的声学特征(如MFCC)时帧移为10毫秒,则1秒钟语音能提出约100帧特征。按照这样的计算,比如“科大讯飞”这个词在语音文件中所占的长度为0.7秒,换算成总帧数就是70帧;
(5)音素后验概率:当前词对应各音素后验概率的平均值;
(6)状态帧方差:当前词对应各状态上特征总帧数的方差;
(7)词位置系数:当前词在句子中的位置i除以该词所在句子的总词数N;
(8)词长:当前词包含的总字数;
(9)是否为停止词;
(10)时长:当前词持续的时间长度;
(11)竞争词个数:混淆网络中两个相邻节点之间词的总数;
(12)短时平均能量:当前词对应语音文件中相应片段的短时平均能量。
需要说明的是,可以通过对所述混淆网络中的各词进行FA进行强制切分,得到状态级信息(即语音的最小建模单元,一般一个词包含多个音素,每个音素包含多个状态),即得到每个状态的后验概率,则每个音素的后验概率为该音素中所有状态后验概率的均值。
步骤105,利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句。
具体地,可以根据上述多知识源特征为各词生成一组多维特征向量,然后利用预先训练的回归模型(后面以SVM模型为例)及各词的多维特征向量计算该词的置信度。
下面以后验概率及竞争词的后验概率差这两种知识源特征,说明为各词生成一组多维特征向量(以18维为例)的过程。
为了描述方便,下面按照各特征在所述多维特征向量中的下标顺序进行说明:
1)第1至9维:词的后验概率WPP(i-1),WPP2(i-1),WPP3(i-1),WPP(i),WPP2(i),WPP3(i),WPP(i+1),WPP2(i+1),WPP3(i+1),其中i为当前词在句子中的位置,词i的后验概率WPP(i)的定义如下:
W P P ( i ) = α t ( i ) β t ( i ) p ( i ) Σ i ∈ Ω α t ( i ) β t ( i ) - - - ( 1 )
p(i)=pac(i)plm(i)(2)
其中,αt(i)表示词i在t时刻的前向概率,βt(i)表示词i在t时刻的后向概率,前后向概率使用现有的前向后向算法计算得到,Ω表示t时刻出现的所有候选词的集合;pac(i)为词i的声学模型得分,plm(i)为词i的语言模型得分。
2)第10至18维:竞争词的后验概率差
WPP o n e b e s t ( i - 1 ) - WPP t w o b e s t ( i - 1 ) , WPP o n e b e s t 2 ( i - 1 ) - WPP t w o b e s t 2 ( i - 1 ) ,
WPP o n e b e s t 3 ( i - 1 ) - WPP t w o b e s t 3 ( i - 1 ) WPP o n e b e s t ( i ) - WPP t w o b e s t ( i ) ,
WPP o n e b e s t 2 ( i ) - WPP t w o b e s t 2 ( i ) , WPP o n e b e s t 3 ( i ) - WPP t w o b e s t 3 ( i ) ,
WPP o n e b e s t ( i + 1 ) - WPP t w o b e s t ( i + 1 ) , WPP o n e b e s t 2 ( i + 1 ) - WPP t w o b e s t 2 ( i + 1 ) ,
WPP o n e b e s t 3 ( i + 1 ) - WPP t w o b e s t 3 ( i + 1 )
其中i为当前词在句子中的位置,下标onebest代表第一候选,twobest代表第二候选。
将该多知识源特征向量在事先训练好的SVM模型上计算得分Sword
Sword=w1·x+b1(3)
上式中,w1是SVM分类平面的法向量,x是输入的多知识源特征向量,b1是偏置参数(常量),这里的w1和b1是事先利用词的正例和反例数据训练出的。
由于标准SVM分类器的输出结果不是以概率的形式给出,而本发明实施例需要使用SVM分类器获得关键词新的置信度,因此必须对SVM的输出结果施加变换以获得概率形式的得分输出。具体可以采用现有的方法对SVM输出结果进行变换,方法之一是对SVM的输出结果进行sigmoid变换:
WPP w o r d = 1 1 + exp ( A · S w o r d + B ) - - - ( 4 )
其中,WPPword即为词置信度的重估结果;变量A和B是变换参数,采用最大似然准则训练得到。
下面再以上述12种特征为例,说明为各词生成一组多维特征向量(以32维为例)的过程。
为了描述方便,下面按照各特征在所述多维特征向量中的下标顺序进行说明:
1)第1至9维:词的后验概率WPP(i-1),WPP2(i-1),WPP3(i-1),WPP(i),WPP2(i),WPP3(i),WPP(i+1),WPP2(i+1),WPP3(i+1),其中i为当前词在句子中的位置,词i的后验概率WPP(i)的定义参照前面公式(1)、(2)。
2)第10至18维:竞争词的后验概率差
WPP o n e b e s t ( i - 1 ) - WPP t w o b e s t ( i - 1 ) , WPP o n e b e s t 2 ( i - 1 ) - WPP t w o b e s t 2 ( i - 1 ) ,
WPP o n e b e s t 3 ( i - 1 ) - WPP t w o b e s t 3 ( i - 1 ) , WPP o n e b e s t ( i ) - WPP t w o b e s t ( i ) ,
WPP o n e b e s t 2 ( i ) - WPP t w o b e s t 2 ( i ) , WPP o n e b e s t 3 ( i ) - WPP t w o b e s t 3 ( i ) ,
WPP o n e b e s t ( i + 1 ) - WPP t w o b e s t ( i + 1 ) , WPP o n e b e s t 2 ( i + 1 ) - WPP t w o b e s t 2 ( i + 1 ) ,
WPP o n e b e s t 3 ( i + 1 ) - WPP t w o b e s t 3 ( i + 1 )
其中i为当前词在句子中的位置,下标onebest代表第一候选,twobest代表第二候选。
3)第19至21维:词的N-Gram语言模型得分Plm(i-1),Plm(i),Plm(i+1);
4)第22至24维:帧平均声学模型得分Pac (i-1)/Ni-1,Pac (i)/Ni,Pac (i+1)/Ni+1,其中Ni代表词i对应的语音帧数;
5)第25维:词的音素后验概率PPPi
PPP i = 1 N p h o n e Σ j = 1 N p h o n e PPP phone j - - - ( 5 )
PPP phone j = Π t = t s t e p ( ph j | O t ) Σ s = 1 s Σ j = 1 M Π t = t s s t s e p ( ph j | O t ) - - - ( 6 )
本案采用深度神经网络(如RNN)对音素的声学分布建模,其输入是声学特征,输出是音素的后验概率,上式中M表示神经网络的输出维度。对于中文而言,M表示40个无调的音素加上sil(表示静音)和sp(表示词间停顿)共42个音素。上式中Nphone表示词i对应的音素总数,p(phj|Ot)是当前语音帧为Ot时音素为j的后验概率,ts和te分别表示当前(待重估)音素的开始帧和结束帧(语音转写过程中得到),为当前音素中第s个状态的开始帧和结束帧(对词做状态级切分后获得)。
6)第26维:状态帧方差σsframe
σ s f r a m e = 1 N Σ s = 1 N s ( F s - μ s f r a m e ) 2 - - - ( 7 )
μ s f r a m e = 1 N Σ s = 1 N s F s - - - ( 8 )
上式中,Ns表示当前词对应的状态数,Fs表示当前词第s个状态上获得的帧数(对词做状态级切分后获得),μsframe是Ns个状态对应帧数的平均值。
7)第27维:词的位置系数iloc/Nw,iloc表示当前词在句子中的位置序号,Nw表示当前句子包含的词的总数;
8)第28维:词长,即当前词包含的字数;
9)第29维:判断当前词是否为停止词,是停止词时为1,否则为0;
10)第30维:当前词的时间长度,单位为秒;
11)第31维:当前词对应的竞争词总数,即混淆网络中两个相邻结点间弧的总数;
12)第32维:当前关键词对应语音文件中相应片段的短时平均能量。
利用上述多知识源特征生成的32维特征向量对各词进行置信度重估的过程可参照前面公式(3)、(4)的描述,在此不再赘述。
上面所述滤除文本文件中无意义的词句可以采用依存句法分析技术对转写后的文本进行句法分析,并将句法分析结果转换为词向量(如one-hot向量),将该词向量作为特征,结合分类器(如SVM)对转写后文本中的词进行分类,依据分类结果过滤掉无意义的词(如语气词)和句子等内容。
需要说明的是,上述对各词进行置信度重估和滤除文本文件中无意义的词句这两个过程在处理时不分先后,即可以先对各词进行置信度重估,再滤除文本文件中无意义的词句;也可以先滤除所述文本文件中无意义的词句,再对各词进行置信度重估。
步骤106,根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度。
首先,对过滤后的文本文件,采用现有的WordEmbedding技术计算过滤后文本文件中每个词的词向量,记为V。
然后,将各词的置信度重估结果作为该词的权重,对文本文件中出现的所有词的词向量进行加权平均,得到该文本文件的向量:
V d o c = 1 WPP a l l Σ i = 1 N w o r d WPP i V i - - - ( 9 )
WPP a l l = Σ i = 1 N w o r d WPP i - - - ( 10 )
上式中Nword为过滤后的文本文件包含词的总数,WPPi表示第i个词的置信度,Vi表示第i个词的词向量,Vdoc表示过滤后文本文件的向量。
最后,计算当前文本文件与用户兴趣模型(以SVM模型为例)之间的相关度;
Sdoc=w2·Vdoc+b2(11)
其中,参数w2为SVM分类平面的法向量、b2为偏置参数(常量),由大量训练数据训练得到。
进一步的,还可以将上述SVM输出的相关度值进行归一化处理,以便更直观地进行检索文件的排序。
步骤107,根据所述相关度展示检索出的语音文件信息。
具体地,可以按照相关度从大到小依次展示相关度大于设定阈值的语音文件信息;或者按照相关度从大到小依次展示设定个数的语音文件信息。
此外,还可对文件相关度得分划分对应不同级别的阈值,得到原始语音文件的重要性级别,如“高”、“中”和“低”等级别,将最终展示的语音文件信息和其级别信息一起展示给用户。
需要说明的是,展示的语音文件信息可以是语音文件的主题名称、摘要、链接等信息,对此本发明实施例不做限定。
本发明实施例提供的语音文件检索方法,针对语音转写得到的文本文件存在一定数量的转写错误的现象,通过提取语音转写得到的文本文件中各词的多知识源特征,利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句,根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;根据所述相关度展示检索出的语音文件,从而有效地减少了转写错误对文件排序的影响。本发明实施例的语音文件排序方法,不仅大大提高了语音文件检索的效率,而且保证了检索结果的准确性。
相应地,本发明实施例还提供一种语音文件检索***,如图2所示,是该***的一种结构示意图。
在该实施例中,所述***包括:
模型训练模块201,用于训练对应检索关键词的用户兴趣模型;
语音文件获取模块202,用于获取待检索的各语音文件;
语音转写模块203,用于对所述语音文件进行语音转写,得到转写结果;
文本文件生成模块204,用于根据所述转写结果获得所述语音文件对应的文本文件;
特征获取模块205,用于获取所述文本文件中各词的多知识源特征;
置信度重估模块206,用于利用所述多知识源特征对所述文本文件中各词进行置信度重估;
过滤模块207,用于滤除所述文本文件中无意义的词句;
相关度计算模块208,用于根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;
展示模块209,用于根据所述相关度展示检索出的语音文件信息。
需要说明的是,在实际应用中,所述检索关键词可以是用户在检索时输入的一个或多个检索关键词,也可以是预先从一些特定情景语料中搜集得到的一个或多个检索关键词,对此本发明实施例不做限定。
所述用户兴趣模型可以采用回归模型,模型训练模块201在训练回归模型时,可以采用现有的WordEmbedding技术计算检索关键词的词向量表示,并结合待检索文本中与检索词无关的词向量动态训练回归模型,作为最终的用户兴趣模型。相应地,模型训练模块201的一种具体结构可以包括以下各单元:
语料收集单元,用于收集包含所述检索关键词的语料;
词向量计算单元,用于计算所述语料中各词的词向量;
训练单元,用于利用所述词向量训练回归模型,将所述回归模型作为用户兴趣模型。
在本发明实施例中,所述转写结果为词级混淆网络格式,其不仅包括最优候选词,还包括多个竞争候选词。所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度。另外,所述多知识源特征包括以下特征中的至少两种:词后验概率;竞争词的后验概率差;语言模型得分;帧平均声学模型得分。当然,为了使后续置信度重估结果更准确,所述多知识源特征还可进一步包括以下任意一种或多种:各词对应的音素后验概率、状态帧方差;词位置系数;词长;是否为停止词;时长;竞争词个数;短时平均能量等。对于这些特征前面已有详细说明,在此不再赘述。
相应地,所述置信度重估模块206可以利用上述多知识源特征为各词生成一组多维特征向量,然后利用预先训练的回归模型(后面以SVM模型为例)及各词的多维特征向量计算该词的置信度。置信度重估模块206的一种具体结构可以包括:多维特征向量生成单元和置信度计算单元,其中,所述多维特征向量生成单元用于根据所述多知识源特征为各词生成一组多维特征向量;置信度计算单元用于利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。
如图3所示,是本发明实施例中相关度计算模块的一种结构示意图,该模块包括:
词向量计算单元31,用于对于每个文本文件,计算所述文本文件中各词的词向量;
文件向量计算单元32,用于将各词的置信度重估结果作为该词的权重,对所述文本文件中出现的所有词的词向量进行加权平均,得到所述文本文件的向量:
相关度计算单元33,用于根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。
上述各计算单元的具体计算过程可参照前面本发明方法实施例中的描述,在此不再赘述。
上展示模块209可以根据所述相关度展示检索出的语音文件信息。在实际应用中,可以按照相关度从大到小的顺序依次展示相应语音文件信息,比如,可以展示相关度大于设定阈值的所有语音文件信息,或者展示设定个数的语音文件信息。所述语音文件信息可以是语音文件的主题名称、摘要、链接等信息,对此本发明实施例不做限定。
如图4所示,是本发明实施例语音文件检索***的另一种结构示意图。
与图2所示实施例不同的是,在该实施例中,所述***还包括:设定模块401和级别确定模块402。其中,设定模块401用于设定针对不同重要性级别的相关度阈值;级别确定模块402用于根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别。
相应地,在该实施例中,展示模块209不仅用于展示检索出的语音文件信息,还用于在展示所述语音文件信息时,展示所述语音文件的重要性级别信息。
本发明实施例提供的语音文件检索***,针对语音转写得到的文本文件存在一定数量的转写错误的现象,通过提取语音转写得到的文本文件中各词的多知识源特征,利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句,根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;根据所述相关度展示检索出的语音文件,从而有效地减少了转写错误对文件排序的影响。本发明实施例的语音文件检索***,不仅大大提高了语音文件检索的效率,而且保证了检索结果的准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及***;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种语音文件检索方法,其特征在于,包括:
训练对应检索关键词的用户兴趣模型;
获取待检索的各语音文件;
对所述语音文件进行语音转写,得到转写结果;
根据所述转写结果获得所述语音文件对应的文本文件及所述文本文件中各词的多知识源特征;
利用所述多知识源特征对各词进行置信度重估,并滤除所述文本文件中无意义的词句;
根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;
根据所述相关度展示检索出的语音文件信息。
2.根据权利要求1所述的方法,其特征在于,所述检索关键词是用户在检索时输入的一个或多个检索关键词,或者是预先从一些特定情景语料中搜集得到的一个或多个关键词。
3.根据权利要求1所述的方法,其特征在于,所述训练对应检索关键词的用户兴趣模型包括:
收集包含所述检索关键词的语料;
计算所述语料中各词的词向量;
利用所述词向量训练回归模型,将所述回归模型作为用户兴趣模型。
4.根据权利要求1所述的方法,其特征在于,所述转写结果为词级混淆网络格式,所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度;
所述多知识源特征包括以下特征中的至少两种:词后验概率;竞争词的后验概率差;语言模型得分;帧平均声学模型得分。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对所述混淆网络中的各词进行切分,得到该词对应的音素信息;
所述多知识源特征还包括以下任意一种或多种:各词对应的音素后验概率、状态帧方差;词位置系数;词长;是否为停止词;时长;竞争词个数;短时平均能量。
6.根据权利要求4或5所述的方法,其特征在于,所述对所述文本文件中各词进行置信度评估包括:
根据所述多知识源特征为各词生成一组多维特征向量;
利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。
7.根据权利要求6所述的方法,其特征在于,所述根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度包括:
对于每个文本文件,计算所述文本文件中各词的词向量;
将各词的置信度重估结果作为该词的权重,对所述文本文件中出现的所有词的词向量进行加权平均,得到所述文本文件的向量:
根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述相关度展示检索出的语音文件信息包括:
按照相关度从大到小依次展示相关度大于设定阈值的语音文件信息;或者
按照相关度从大到小依次展示设定个数的语音文件信息。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
设定针对不同重要性级别的相关度阈值;
根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别;
在展示所述语音文件信息时,展示所述语音文件的重要性级别信息。
10.一种语音文件检索***,其特征在于,包括:
模型训练模块,用于训练对应检索关键词的用户兴趣模型;
语音文件获取模块,用于获取待检索的各语音文件;
语音转写模块,用于对所述语音文件进行语音转写,得到转写结果;
文本文件生成模块,用于根据所述转写结果获得所述语音文件对应的文本文件;
特征获取模块,用于获取所述文本文件中各词的多知识源特征;
置信度重估模块,用于利用所述多知识源特征对各词进行置信度重估;
过滤模块,用于滤除所述文本文件中无意义的词句;
相关度计算模块,用于根据置信度重估结果计算各文本文件与所述用户兴趣模型的相关度;
展示模块,用于根据所述相关度展示检索出的语音文件信息。
11.根据权利要求10所述的***,其特征在于,所述模型训练模块包括:
语料收集单元,用于收集包含所述检索关键词的语料;
词向量计算单元,用于计算所述语料中各词的词向量;
训练单元,用于利用所述词向量训练回归模型,将所述回归模型作为用户兴趣模型。
12.根据权利要求10所述的***,其特征在于,所述转写结果为词级混淆网络格式,所述混淆网络中保存有每个词在语音文件中的时间位置、声学模型得分、语言模型得分和原始置信度;所述多知识源特征包括以下特征中的至少两种:词后验概率;竞争词的后验概率差;语言模型得分;帧平均声学模型得分;
所述置信度重估模块包括:
多维特征向量生成单元,用于根据所述多知识源特征为各词生成一组多维特征向量;
置信度计算单元,用于利用预先训练的回归模型及各词的多维特征向量计算该词的置信度。
13.根据权利要求10所述的***,其特征在于,所述相关度计算模块包括:
词向量计算单元,用于对于每个文本文件,计算所述文本文件中各词的词向量;
文件向量计算单元,用于将各词的置信度重估结果作为该词的权重,对所述文本文件中出现的所有词的词向量进行加权平均,得到所述文本文件的向量:
相关度计算单元,用于根据所述文本文件的向量计算所述文本文件与所述用户兴趣模型的相关度。
14.根据权利要求10至13任一项所述的***,其特征在于,所述展示模块具体用于按照相关度从大到小依次展示相关度大于设定阈值的语音文件,或者按照相关度从大到小依次展示设定个数的语音文件。
15.根据权利要求14所述的***,其特征在于,所述***还包括:
设定模块,用于设定针对不同重要性级别的相关度阈值;
级别确定模块,用于根据各文本文件与所述用户兴趣模型的相关度及所述相关度阈值确定各语音文件的重要性级别;
所述展示模块,还用于在展示所述语音文件信息时,展示所述语音文件的重要性级别信息。
CN201510882391.9A 2015-11-30 2015-11-30 语音文件检索方法及*** Active CN105551485B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510882391.9A CN105551485B (zh) 2015-11-30 2015-11-30 语音文件检索方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510882391.9A CN105551485B (zh) 2015-11-30 2015-11-30 语音文件检索方法及***

Publications (2)

Publication Number Publication Date
CN105551485A true CN105551485A (zh) 2016-05-04
CN105551485B CN105551485B (zh) 2020-04-21

Family

ID=55830634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510882391.9A Active CN105551485B (zh) 2015-11-30 2015-11-30 语音文件检索方法及***

Country Status (1)

Country Link
CN (1) CN105551485B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202574A (zh) * 2016-08-19 2016-12-07 清华大学 面向微博平台话题推荐的评估方法及装置
CN107194260A (zh) * 2017-04-20 2017-09-22 中国科学院软件研究所 一种基于机器学习的Linux‑Kernel关联CVE智能预测方法
CN108615526A (zh) * 2018-05-08 2018-10-02 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
CN109376224A (zh) * 2018-10-24 2019-02-22 深圳市壹鸽科技有限公司 语料过滤方法与装置
CN109708256A (zh) * 2018-12-06 2019-05-03 珠海格力电器股份有限公司 一种语音确定方法、装置、存储介质及空调
CN109891404A (zh) * 2016-08-15 2019-06-14 因特拉松尼克斯有限公司 音频匹配
CN111179939A (zh) * 2020-04-13 2020-05-19 北京海天瑞声科技股份有限公司 语音转写方法、语音转写装置及计算机存储介质
CN111429912A (zh) * 2020-03-17 2020-07-17 厦门快商通科技股份有限公司 关键词检测方法、***、移动终端及存储介质
CN113314108A (zh) * 2021-06-16 2021-08-27 深圳前海微众银行股份有限公司 语音数据的处理方法、装置、设备、存储介质和程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0651372A2 (en) * 1993-10-27 1995-05-03 AT&T Corp. Automatic speech recognition (ASR) processing using confidence measures
GB2364814A (en) * 2000-07-12 2002-02-06 Canon Kk Speech recognition
CN101021856A (zh) * 2006-10-11 2007-08-22 鲍东山 分布式语音检索***
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其***
CN102023994A (zh) * 2009-09-22 2011-04-20 株式会社理光 检索语音文件的设备和方法
CN102314876A (zh) * 2010-06-29 2012-01-11 株式会社理光 语音检索的方法和***
CN103793515A (zh) * 2014-02-11 2014-05-14 安徽科大讯飞信息科技股份有限公司 一种客服语音智能搜索和分析***及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0651372A2 (en) * 1993-10-27 1995-05-03 AT&T Corp. Automatic speech recognition (ASR) processing using confidence measures
GB2364814A (en) * 2000-07-12 2002-02-06 Canon Kk Speech recognition
CN101021856A (zh) * 2006-10-11 2007-08-22 鲍东山 分布式语音检索***
CN101510222A (zh) * 2009-02-20 2009-08-19 北京大学 一种多层索引语音文档检索方法及其***
CN102023994A (zh) * 2009-09-22 2011-04-20 株式会社理光 检索语音文件的设备和方法
CN102314876A (zh) * 2010-06-29 2012-01-11 株式会社理光 语音检索的方法和***
CN103793515A (zh) * 2014-02-11 2014-05-14 安徽科大讯飞信息科技股份有限公司 一种客服语音智能搜索和分析***及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐杰: "基于内容的音频检索技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109891404A (zh) * 2016-08-15 2019-06-14 因特拉松尼克斯有限公司 音频匹配
CN109891404B (zh) * 2016-08-15 2023-10-24 因特拉松尼克斯有限公司 音频匹配
CN106202574A (zh) * 2016-08-19 2016-12-07 清华大学 面向微博平台话题推荐的评估方法及装置
CN107194260A (zh) * 2017-04-20 2017-09-22 中国科学院软件研究所 一种基于机器学习的Linux‑Kernel关联CVE智能预测方法
US11341957B2 (en) 2018-05-08 2022-05-24 Tencent Technology (Shenzhen) Company Limited Method for detecting keyword in speech signal, terminal, and storage medium
CN108615526A (zh) * 2018-05-08 2018-10-02 腾讯科技(深圳)有限公司 语音信号中关键词的检测方法、装置、终端及存储介质
CN109376224A (zh) * 2018-10-24 2019-02-22 深圳市壹鸽科技有限公司 语料过滤方法与装置
CN109708256A (zh) * 2018-12-06 2019-05-03 珠海格力电器股份有限公司 一种语音确定方法、装置、存储介质及空调
CN109708256B (zh) * 2018-12-06 2020-07-03 珠海格力电器股份有限公司 一种语音确定方法、装置、存储介质及空调
CN111429912A (zh) * 2020-03-17 2020-07-17 厦门快商通科技股份有限公司 关键词检测方法、***、移动终端及存储介质
CN111429912B (zh) * 2020-03-17 2023-02-10 厦门快商通科技股份有限公司 关键词检测方法、***、移动终端及存储介质
CN111179939A (zh) * 2020-04-13 2020-05-19 北京海天瑞声科技股份有限公司 语音转写方法、语音转写装置及计算机存储介质
CN111179939B (zh) * 2020-04-13 2020-07-28 北京海天瑞声科技股份有限公司 语音转写方法、语音转写装置及计算机存储介质
CN113314108A (zh) * 2021-06-16 2021-08-27 深圳前海微众银行股份有限公司 语音数据的处理方法、装置、设备、存储介质和程序产品
CN113314108B (zh) * 2021-06-16 2024-02-13 深圳前海微众银行股份有限公司 语音数据的处理方法、装置、设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN105551485B (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN105551485A (zh) 语音文件检索方法及***
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和***
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
CN108416032B (zh) 一种文本分类方法、装置及存储介质
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN105427858A (zh) 实现语音自动分类的方法及***
WO2003010754A1 (fr) Systeme de recherche a entree vocale
CN102955772B (zh) 一种基于语义的相似度计算方法和装置
CN108538286A (zh) 一种语音识别的方法以及计算机
CN105336324A (zh) 一种语种识别方法及装置
CN103744953A (zh) 一种基于中文文本情感识别的网络热点挖掘方法
CN109377985B (zh) 一种领域词的语音识别增强方法和装置
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN110502742B (zh) 一种复杂实体抽取方法、装置、介质及***
CN111144097B (zh) 一种对话文本的情感倾向分类模型的建模方法和装置
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
CN108345612A (zh) 一种问题处理方法和装置、一种用于问题处理的装置
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN116450883A (zh) 基于视频内容细粒度信息的视频时刻检索方法
CN107092679B (zh) 一种特征词向量获得方法、文本分类方法及装置
EP3654249A1 (en) Dilated convolutions and gating for efficient keyword spotting
CN112182159A (zh) 一种基于语义表示的个性化检索式对话方法和***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant