CN102334119B - 声音检索装置及声音检索方法 - Google Patents

声音检索装置及声音检索方法 Download PDF

Info

Publication number
CN102334119B
CN102334119B CN201080009141.XA CN201080009141A CN102334119B CN 102334119 B CN102334119 B CN 102334119B CN 201080009141 A CN201080009141 A CN 201080009141A CN 102334119 B CN102334119 B CN 102334119B
Authority
CN
China
Prior art keywords
mentioned
retrieval
threshold value
unit
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080009141.XA
Other languages
English (en)
Other versions
CN102334119A (zh
Inventor
桂田浩一
新田恒雄
手岛茂树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyohashi University of Technology NUC
Original Assignee
Toyohashi University of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyohashi University of Technology NUC filed Critical Toyohashi University of Technology NUC
Publication of CN102334119A publication Critical patent/CN102334119A/zh
Application granted granted Critical
Publication of CN102334119B publication Critical patent/CN102334119B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供一种检索速度快速、且检索性能良好的进行模糊检索的声音检索装置及声音检索方法,不仅共同使用后缀数组和动态规划法进行对声音的模糊检索,而且计算声音数据中含有的音素辨别特征间的距离并判断类似性,通过基于音素的检索关键词分割、及对多个分割的检索关键词的检索阈值,缩小检索对象,逐次增加检索阈值的同时反复进行检索,对应检索关键词的长度判断有无关键词分割,从而实现检索速度快速、检索性能良好的声音检索。

Description

声音检索装置及声音检索方法
技术领域
本发明涉及一种声音检索装置及声音检索方法,具体而言,涉及一种快速且有效地进行对声音的检索的装置及方法。
背景技术
通过宽带线路普及等信息通信技术的发展,在Web上利用声音、动画图像的内容的机会增加,内容数也急剧增加。因此,为了有效搜索、利用Web上的声音数据、动画数据,声音检索技术是必不可少的。尤其要求快速进行检索的***。
为满足这种需求,在非专利文献1及2所述的在先技术中,提出了以下方法:通过声音数据库做成索引数据,使用它实现快速的声音检索。
并且,在专利文献1所述的在先技术中,记载了组合后缀数组和动态规划法在文档检索中消除表达混乱及实现快速化的内容。
专利文献1:国际公开2005/122002号
非专利文献1:N.Kanda,et al.,“Open-Vocabulary KeywordDetection from Super-Large Scale Speech Database”IEEE MMSP 2008,pp.939-944,2008.
非专利文献2:K.Thambiratnam & S.Sridharan,“Dynamic MatchPhone-Lattice Searches For Very Fast And Accurate UnrestrictedVocabulary Keyword Spotting.”ICASSP 2005,vol.1,pp.465-468,2005.
发明内容
在上述专利文献1所述的在先技术中,以文档检索为对象,不是本发明涉及的声音识别形成的对音素组的模糊检索。尤其明确的是,仅组合后缀数组和动态规划法时,计算时间明显增大。
另一方面,在上述在先技术(非专利文献1及2)中,当声音数据库规模变大时,在现有的声音检索快速化方法中,必须做成符合数据库的规模的索引数据。因此,需要快速的二次存储装置,从成本角度而言不利。
并且,与主存储装置相比,二次存储装置的存取消耗时间,因此也存在检索速度下降的缺点。
进一步,一般情况下,由单词或词根做成索引数据,但这种情况以检索关键词(或子关键词)和单词或词根的完全一致为前提,因此在错误识别较多的现在的声音识别中,可能无法获得充分的检索性能。
本发明针对上述课题,提供一种进行模糊检索的声音检索装置及声音检索方法,其无需二次存储装置,检索速度快速,且检索所需的成本较低,且可发挥良好的检索性能。
在本发明涉及的声音检索中,进行模糊检索的声音检索装置及声音检索方法具体如下构成。
权利要求1涉及的发明是一种声音检索装置,其以声音为输入,对采样上述输入的声音获得的声音数据进行检索,其特征在于,具有:数据库用声音识别器,识别记录到声音数据库中的声音;声音用音素组生成部,由通过上述数据库用声音识别器识别的单词组,生成音素组;后缀数组生成部,由通过上述声音用音素组生成部生成的音素组,生成后缀数组;输入装置,输入检索关键词;输入音素生成部,由通过上述输入装置输入的检索关键词生成音素组;声音检索部,通过动态规划法在上述后缀数组上检索检索关键词;输出装置,输出通过上述声音检索部检索的结果,上述声音检索部是具有以下单元的声音检索部:设定在检索中使用的第1阈值的单元;使用上述第1阈值,通过动态规划法检索检索对象的单元;阈值调整单元,逐渐增加上述第1阈值的同时反复进行检索,逐渐提示检索结果。
该声音检索装置是以声音为输入、对采样上述输入的声音获得的声音数据进行检索的声音检索装置,共同使用后缀数组和动态规划法进行模糊检索。因通过音素单位进行与检索关键词的匹配,所以即使不与索引中注册的单词或词根完全一致也可进行检索。
上述构成具有下述阈值调整功能:对上述检索的第1阈值通过iterative lengthening search(一种反复深化搜索)逐次增加的同时反复进行检索,并逐次提示检索结果。在装置使用者确认初始提示的检索结果的期间,更新阈值的同时逐次提示新的检索结果,从而实现感觉明显的检索速度的提高。
权利要求2涉及的发明是权利要求1所述的声音检索装置,其特征在于,上述声音检索部进一步具有:当检索关键词为规定长度以上时,通过音素分割该检索关键词的单元;由上述第1阈值决定第2阈值的单元,上述第2阈值是对通过上述检索关键词的分割单元分割的关键词的检索中使用的阈值;检索上述检索对象的单元是使用上述第2阈值通过动态规划法检索检索对象的单元。
上述构成的声音检索装置除了权利要求1涉及的发明外,为防止处理时间的指数性激增,进行检索关键词的分割、因2处以上匹配的检索第1阈值的变更、和关键词的长度对应的分割音素数、分割/非分割的决定,实现快速的检索。上述因2处以上匹配的检索的第1阈值的变更根据下述公式1(即数式1)进行。
(数式1)
t ′ = p p - 1 t
其中,p是分割数,t是通过决定对上述多个分割的检索关键词的检索阈值的单元求出的作为源的第1阈值,t’是通过上述阈值变更单元变更后的第2阈值。
权利要求4涉及的发明是权利要求1或2所述的声音检索装置,其特征在于,上述声音检索部是进一步具有以下单元的声音检索部:通过检索关键词的长度判断有无关键词分割的单元;进行上述关键词分割后的音素数的决定的关键词分割单元。
上述构成的装置可根据检索关键词的长度决定有无关键词分割,进行上述关键词分割后的音素数的决定。
权利要求5涉及的发明是权利要求1至4的任意一项所述的声音险索装置,其特征在于,通过上述动态规划法检索检索对象的单元是进一步具有以下单元的、检索检索对象的单元:在动态规划法中,使用基于音素辨别特征的音素间距离,计算音素间的类似性的单元。
上述音素间距离包括例如音素辨别特征的差异的海明距离。因此,在上述构成中,通过使用该海明距离计算出音素间的类似性。
权利要求6涉及的发明是一种声音检索方法,以声音为输入,对采样上述输入的声音获得的声音数据进行检索,其特征在于,包括以下步骤:将声音数据变换为音素组,做成后缀数组的步骤;接受检索关键词,变换为音素组的步骤;设定在检索中使用的第1阈值的步骤;使用上述第1阈值,通过动态规划法检索检索对象的步骤;逐次增加上述第1阈值的同时反复进行检索的阈值调整步骤;输出通过上述检索步骤检索的结果的步骤。
上述构成的声音检索方法共同使用后缀数组(以下也记载为SuffixArray)和动态规划法(以下也记载为DP(Dynamic Programming)匹配)进行模糊检索。因通过音素单位进行与检索关键词的匹配,所以即使索引中注册的单词或词根不完全一致也可进行检索。
上述构成的声音检索方法具有如下阈值调整功能:对上述检索的第1阈值通过iterative lengthening search(一种反复深化搜索)逐次增加的同时反复进行检索,并逐次提示检索结果。在第1阈值较小的初始搜索中,根据后缀数组的特征变为接近二分搜索的检索,因此可进行非常快速的检索。
权利要求7涉及的发明是权利要求6所述的声音检索方法,其特征在于,进一步具有以下步骤:当检索关键词为规定长度以上时,通过音素分割该检索关键词的步骤;由上述第1阈值决定第2阈值的步骤,上述第2阈值是对通过上述检索关键词的分割步骤分割的关键词的检索中使用的阈值,检索上述检索对象的步骤是使用上述第2阈值通过动态规划法检索检索对象的步骤。
上述构成的声音检索方法为防止处理时间的指数性激增,进行检索关键词的分割、2处以上匹配的方法、检索第1阈值的变更、和关键词的长度对应的分割音素数、分割/非分割的决定,实现快速的检索。此外,对分割的关键词的检索的第2阈值可根据数式1所示的公式1决定。
权利要求9涉及的发明是权利要求6或7所述的声音检索方法,其特征在于,进一步包括以下步骤:通过上述检索关键词的长度判断有无关键词分割的步骤;进行上述关键词分割后的音素数的决定的关键词分割步骤。
上述构成的声音检索方法可根据检索关键词的长度判断有无关键词分割,进行上述关键词分割后的音素数的决定。
权利要求10所述的发明是权利要求6至9的任意一项所述的声音检索方法,其特征在于,检索上述检索对象的步骤具有以下步骤:在上述动态规划法中,使用基于音素辨别特征的音素间距离,计算音素间的类似性。
上述构成的声音检索方法可进行以下处理:在上述动态规划法中,使用基于音素辨别特征的音素间距离(例如音素辨别特征的差异的海明距离)计算音素间的类似性。
根据本发明,不需要较多数据区域,因此无需快速的二次存储装置,可降低备置二次存储所需的必要成本。即,可提供一种检索速度快速且低成本的、具有良好的检索功能的声音检索装置及声音检索方法。
附图说明
图1是本发明涉及的声音检索的流程图。
图2是本发明涉及的声音检索的内部构造框图。
图3是本发明涉及的由声音数据库做成后缀数组(Suffix Array)的说明图。
图4是本发明涉及的后缀数组(Suffix Array)上的动态规划法(DP匹配)下的模糊检索的说明图。
图5是本发明涉及的关键词的分割和声音检索的说明图。
图6是本发明的实施例涉及的以6音素的检索关键词为对象,使第1阈值最低时,到输出最初的检索结果为止的时间的图。图表的横轴表示第1阈值,纵轴表示检索的查全率、查准率及处理时间。
图7是本发明的实施例涉及的以12音素的检索关键词为对象,使第1阈值最低时,到输出最初的检索结果为止的时间的图。图表的横轴表示第1阈值,纵轴表示检索的查全率、查准率及处理时间。
图8是本发明的实施例涉及的以18音素的检索关键词为对象,使第1阈值最低时,到输出最初的检索结果为止的时间的图。图表的横轴表示第1阈值,纵轴表示检索的查全率、查准率及处理时间。
图9是本发明的实施例涉及的以24音素的检索关键词为对象,使第1阈值最低时,到输出最初的检索结果为止的时间的图。图表的横轴表示第1阈值,纵轴表示检索的查全率、查准率及处理时间。
图10是本发明的实施例涉及的以6音素的检索关键词为对象,到检测出一半正确关键词为止的时间的图。图表的横轴表示第1阈值,纵轴表示检索的查全率、查准率及处理时间。
图11是本发明的实施例涉及的以12音素的检索关键词为对象,到检测出一半正确关键词为止的时间的图。图表的横轴表示第1阈值,纵轴表示检索的查全率、查准率及处理时间。
图12是本发明的实施例涉及的将第1阈值设定为初始值0.0,检索6音素到24音素的检索关键词,到检索结果组提示给用户为止的时间的图。图表的横轴是模拟声音数据库(每日新闻语料库(每日新聞コ一パス))的声音换算的时间(单位:时间),纵轴是检索的处理时间(单位:毫秒)。
图13是本发明的实施例涉及的将第1阈值从图12的状态更新为0.2,重新检索6音素到24音素的检索关键词,到检索结果组提示给用户为止的时间的图。图表的横轴是模拟声音数据库(每日新闻语料库)的声音换算的时间(单位:时间),纵轴是检索的处理时间(单位:毫秒)。
图14是本发明的实施例涉及的将第1阈值从图13的状态进一步更新为0.4,重新检索6音素到24音素的检索关键词,到检索结果组提示给用户为止的时间的图。图表的横轴是模拟声音数据库(每日新闻语料库)的声音换算的时间(单位:时间),纵轴是检索的处理时间(单位:毫秒)。
图15是本发明的实施例涉及的在和图12不同的实施环境下,将第1阈值设定为初始值0.0,检索6音素到24音素的检索关键词,到检索结果组提示给用户为止的时间的图。图表的横轴是模拟声音数据库(每日新闻语料库)的声音换算的时间(单位:时间),纵轴是检索的处理时间(单位:毫秒)。
图16是本发明的实施例涉及的将第1阈值从图15的状态更新为0.2,重新检索6音素到24音素的检索关键词,到检索结果组提示给用户为止的时间的图。图表的横轴是模拟声音数据库(每日新闻语料库)的声音换算的时间(单位:时间),纵轴是检索的处理时间(单位:毫秒)。
图17是本发明的实施例涉及的将第1阈值从图16的状态更新为0.4,重新检索6音素到24音素的检索关键词,到检索结果组提示给用户为止的时间的图。图表的横轴是模拟声音数据库(每日新闻语料库)的声音换算的时间(单位:时间),纵轴是检索的处理时间(单位:毫秒)。
图18是本发明的实施例涉及的将第1阈值从图17的状态进一步更新为1.0,重新检索6音素到24音素的检索关键词,到检索结果组提示给用户为止的时间的图。图表的横轴是模拟声音数据库(每日新闻语料库)的声音换算的时间(单位:时间),纵轴是检索的处理时间(单位:毫秒)。
附图标记
21 声音输入装置
22 声音识别器
23 声音/文字用音素组生成部
24 文字输入装置
25 声音数据库
26 数据库用声音识别器
27 声音用音素组生成部
28 后缀数组生成部
29 声音检索部
30 显示装置
31 声音输出装置
32 声音检索装置
具体实施方式
以下参照附图说明本发明的实施方式中的声音检索装置及声音检索方法。这些附图用于说明本发明可采用的技术特征,记载的装置构成、各种处理的流程图等如无特别限定,则不仅限于此,是单纯的说明例。
根据图1的流程图说明本发明涉及的声音检索方法的实施方式。本实施方式中,开始时以声音作为输入,针对采样上述输入的声音(例如采样位数16bit,采样频率44.1kHz)所得的声音数据共同使用后缀数组和DP匹配,进行模糊检索。
首先,将声音数据库中记录的声音数据变换为音素组(a),由该音素列(a)做成后缀数组(S11)。接着接受检索关键词,将该检索关键词变换为音素组(S12)。与该处理同时,设定检索中使用的第1阈值(在图1中标记为阈值1)(S12)。在上述处理中,当变换为音素组的检索关键词的长度为规定以上(例如音素数是9以上)时,对其进行分割,当是其以下时,不进行分割,判断该分割/非分割(S13)。判断应分割时,将该检索关键词分割为规定的音素数(S14)。此时,可预先决定分割后的音素数。例如,通过使分割后的音素数为3,当检索关键词的音素数是9时,可按照每3个音素进行3分割。并且,检索关键词的音素数是10~12时,可进行4分割。
对分割的关键词,计算声音数据中含有的音素辨别特征间的距离,判断类似性。即,通过数式1所示的数式,由第1阈值决定第2阈值(在图1中标记为阈值2),并且对使用该第2阈值分割的关键词在后缀数组上进行DP匹配(S15)。其结果作为第1阶段候选(b)暂时保存(S15),由该第1阶段候选(b)的位置关系决定最终候选(c)(S16)。并且,对于该最终候选(c)的结果,使用第1阈值在后缀数组(a)上进行DP匹配,输出其结果(提示用户)(S16)。由此结束第1次检索。
在本实施方式中,在第1次检索结束后,将第1阈值更新为略高的值(例如增加0.2),再次重复检索步骤来进行处(S17、S18)。因第1阈值变更为略高的值,所以根据该第1阈值计算出的第2阈值也变为略高的值。这样一来,变为实施音素辨别特征间的距离略远的类似语(类似的音素组的语言)的检索。此外,上述检索步骤的重复可如下处理:在第1阈值达到规定值时、或检索结果的总数达到规定数时结束(S18)。例如可构建为:第1阈值达到1.4,或检索结果达到100时,结束处理。
其次,当检索关键词较短时(例如音素数为8以下),不分割检索关键词,在后缀数组(a)上使用第1阈值进行DP匹配(S19)。此时,使用的阈值仅是第1阈值。并且,在此获得的结果直接输出(提示用户)(S19)。因检索关键词未被分割,所以无需参照匹配的结果的位置关系。
此外,在不分割检索关键词的情况下,将第1阈值变更为略高的值(例如增加0.2)(S20),再次重复检索步骤(S21)。这是因为要检索音素辨别特征间的距离较远的类似语(类似的音素组的语言)。并且,上述检索的重复可如下构建:更新的阈值达到规定的值时,或检索结果数达到规定数时,结束处理。
根据上述检索方法,在使第1阈值较小的初始检索中,是接近二分搜索的检索条件,因此可快速检索距检索关键词非常近的音素组。并且,通过逐渐增大该第1阈值,可进行一种反复深化搜索。进一步,通过在更新第1阈值前逐次输出(提示用户),可由近似检索关键词的音素组逐次输出。对于关键词的分割,在上述实施方式中,对于判断检索关键词的长短时的音素数,示例了9以上的情况,而在使分割后的音素数为6的情况下,可使检索关键词的长短边界为18。这是因为,分割后的音素数较少时,第1阶段候选(b)数增大,处理速度可能变慢。因此,通过调整分割后的音素数,可进一步使检索时间快速化。
并且在上述检索方法中,也可是这样的构成,即:不更新第1阈值而结束处理。这种情况下,通过检索获得的音素组限定为与检索关键词近似,通过预先将第1阈值设定得略大,可通过一次检索步骤检索较多的音素组。
并且,对于关键词的分割,虽设有判断有无该分割的步骤(S13),但也可放弃这一步骤,以分割为预先确定的音素数来进行处理,或可作为未分割的来进行处理。在选择分割为规定的音素数的处理时,为了根据数式1所示的数式由第1阈值计算出第2阈值,应分割为3以上,因此需要判断分割为规定音素数时的分割数是否小于3,或是否为3以上的步骤。
另一方面,本发明涉及的声音检索装置的实施方式如图2的内部构造框图一样构成。本实施方式实现以下单元:将预先采样(例如采样位数16位,采样频率44.1kHz)的大规模声音数据存储到声音数据库25中,共同使用后缀数组做成部28和进行DP匹配的声音检索部29,进行模糊检索。
本实施方式的声音检索装置31为了从声音数据做成后缀数组,设有声音数据库25、数据库用声音识别器26、声音用音素组生成部27及后缀数组做成部28。另一方面,为了做成输入的检索关键词的音素组,设有输入装置21、24及音素组生成部23。输入装置21、24中的一个是声音输入装置(例如麦克)21,另一个是文字输入装置(例如键盘)24。两者是不同的输入单元,但也可是共同具有两者的构成,或是仅具有任意一个的构成。但在具有声音输入装置(例如麦克)21时,需要具有声音识别器22。并且,作为单词组输入或将声音变换为单词组的关键词,通过音素组生成部23变换为音素组。图2记载的“声音/文字用音素组生成部”是表示也对应于声音输入或文字输入的任意一种情况。
如图2所示,由声音数据做成的后缀数组的信息、及输入的检索关键词的音素组的信息的构成是,在声音检索部29中进行检索处理。该声音检索部29中具有:设定检索中使用的第1阈值的单元;当检索关键词为规定长度以上时,通过音素分割该检索关键词的单元;对通过检索关键词的分割单元分割的关键词的检索中使用的第2阈值,由第1阈值决定的单元;使用第1及第2阈值的至少任意一个通过动态规划法对检索对象进行检索的单元。
因此,计算声音数据中含有的音素辨别特征间的距离并判断类似性的单元通过声音检索部29实现。另一方面,使通过音素分割输入的检索关键词的单元、为了使分割的检索关键词必须在2处以上匹配而根据上述公式1(数式1)变更第1阈值并求出第2阈值的单元、及检索通过上述第1阈值及上述第2阈值决定的检索对象的单元,均通过图2中的声音检索部29实现。
并且,逐次增加检索的第1阈值的同时重复进行检索的单元通过声音检索部29实现,逐次调整检索结果的阈值调整单元也在声音检索部29中实现。与此同时,逐次输出检索结果(提示用户)的单元通过显示装置(例如显示器)30或声音输出装置(例如扬声器)31实现。
进一步,根据检索关键词的长度判断有无关键词分割的单元在声音检索部29中实现,并且进行关键词分割后的音素数的决定的关键词分割单元由声音/文字用单列组生成部23及声音检索部29实现。
本实施方式的声音检索装置如图2所示,声音检索结果通过显示装置30(例如显示器)显示和检索相关的文字、图像等的信息,且声音信息由声音输出装置31(例如扬声器)作为声音重放。也可是仅具有其中一个的构成。
图2所示的声音处理装置32可使用ROM、RAM(以下称为存储器)、CPU、HDD、声音输入输出接口(例如可处理采样位数16位,采样频率44.1kHz的接口)通过***总线电连接的个人计算机来实现。将声音数据库存储到HDD,将声音输入装置21和声音输出装置31连接到声音输入输出接口,将上述之外的单元通过C#语言或C++语言作为软件构成,存储到HDD中,上述软件在起动时读入到存储器中,通过***总线主要使存储器和CPU联动,可实现必要的单元。
接着参照图3至图5说明声音检索的具体方法。
图3是由声音数据库做成后缀数组(Suffix Array)的说明图。使用数据库用声音识别器26将声音数据库25中存储的声音数据变换为单词组,通过声音用音素组生成部27进一步将单词组变换为音素组(a)。接着通过后缀数组生成部28由上述音素组做成后缀数组,保存到存储器或HDD上。
通过声音接受检索关键词时(由声音输入装置21输入),使用声音识别器22变换为单词组,通过声音/文字用音素组生成部23变换为音素组。通过文本(文字串)接受时(由文字输入装置24输入),也通过声音/文字用音素组生成部23变换为音素组。通过声音检索部29将检索中使用的各音素的平均第1阈值设定为较低的值(例如0.0)。
图4表示上述后缀数组上的DP匹配下的模糊检索的说明。在分割为最佳的音素数、或非分割后,在后缀数组上通过DP匹配进行检索。作为DP匹配的阈值,关键词在非分割时使用第1阈值,在分割时使用将第1阈值通过上述公式1(数式1)变更的值(第2阈值)。这样一来可获得检索结果的第1阶段候选(b)。非分割时,将(b)作为结果通过显示装置30及声音输出装置31提示给用户。
图5表示关键词的分割和声音检索的说明。在分割音素的情况下,分割的关键词中有2个以上被检索,因此根据检索结果的位置关系求出检索结果的最终候选(c)。
对最终候选(c)使用音素组(a)和第1阈值进行DP匹配,将检索结果通过显示装置30及声音输出装置31提示给用户。检索结果提示后,将第1阈值更新为略高的值(例如增加0.2)后,返回到使用第1阈值的DP匹配。
实施例1
以CSJ(Corpus of Spontaneous Japanese:日语谈话语料库)语料库(男性发言人,390小时)的声音数据为对象,在个人计算机(Intel(注册商标)Pentium(注册商标)D2.8GHz、存储器4GB)上,将图2的声音检索装置32以C#语言构建,进行检索实验的结果是,第1阈值最低时(0.0),到输出最初的检索结果为止的时间如图6至图9所示。在图6至图9中,图表的横轴表示第1阈值,纵轴表示检索的查全率、查准率及处理时间。检索关键词6音素(参照图6)、12音素(参照图7)、18音素(参照图8)、24音素(参照图9)下,使上述第1阈值最低时,到输出最初的检索结果为止的时间分别是数毫秒。
实施例2
图10及图11表示到检索出上述语料库中含有的一半正确的关键词为止的时间。在图10和图11中,图表的横轴表示第1阈值,纵轴表示检索的查全率、查准率及处理时间。检索关键词6音素(参照图10)、12音素(参照图11)下,到检索出上述一半正确关键词为止的时间分别是1秒以下。
实施例3
以换算为声音相当于10000小时的时间数的新闻纪事数据为对象,在个人计算机(Intel(注册商标)Pentium(注册商标)D2.8GHz、存储器4GB)上,将图2的声音检索装置32以C#语言构建,进行检索实验的结果如图12至图14所示。非专利文献1中记载有:从2031小时的声音数据库检索5.2短音节(5至11音素的范围内)的检索关键词,需要2.17秒。而在本发明中,如图12所示,使第1阈值为0.0,检索6音素到24音素的检索关键词,到将最初的检索结果提示给用户为止的时间是数毫秒到120毫秒。并且,将第1阈值更新为0.2重新检索6音素到24音素的检索关键词,到将新获得的检索结果组提示给用户为止所需的时间如图13所示,是数毫秒到130毫秒。进一步,将第1阈值更新为0.4重新检索6音素到24音素的检索关键词,到将新获得的检索结果组提示给用户为止所需的时间如图14所示,是数十毫秒到600毫秒。由此可知,可快速地进行声音检索。
实施例4
以换算为声音相当于10000小时的时间数的新闻纪事数据为对象,在个人计算机(Intel(注册商标)Core2Duo E8600 3.3GHz、存储器8GB)上,将图2的声音检索装置32以C++语言构建,进行检索实验的结果如图15至图18所示。如图15所示,使第1阈值为0.0,检索6音素到24音素的检索关键词,到将最初的检索结果组提示给用户为止的时间是数毫秒。并且如图16所示,将第1阈值更新为0.2重新检索6音素到24音素的检索关键词,到将新获得的检索结果组提示给用户为止所需的时间是数毫秒。进一步如图17所示,将第1阈值更新为0.4重新检索6音素到24音素的检索关键词,到将新获得的检索结果组提示给用户为止所需的时间是数毫秒到27毫秒。进一步如图18所示,将第1阈值更新为1.0重新检索6音素到24音素的检索关键词,到将新获得的检索结果组提示给用户为止所需的时间是十几毫秒到约1秒。由此可知,可快速地进行声音检索。

Claims (8)

1.一种声音检索装置,以声音为输入,对采样上述输入的声音获得的声音数据进行检索,其特征在于,具有:
数据库用声音识别器,识别记录到声音数据库中的声音;
声音用音素组生成部,由通过上述数据库用声音识别器识别的单词组,生成音素组;
后缀数组生成部,由通过上述声音用音素生成部生成的音素组,生成后缀数组;
输入装置,输入检索关键词;
输入音素生成部,由通过上述输入装置输入的检索关键词生成音素组;
声音检索部,通过动态规划法在上述后缀数组上检索检索关键词;以及
输出装置,输出通过上述声音检索部检索的结果,
上述声音检索部是具有以下单元的声音检索部:
设定检索中使用的第1阈值的单元;
使用上述第1阈值,通过动态规划法检索检索对象的单元;
在逐次增加上述第1阈值的同时反复进行检索,逐次提示检索结果的阈值调整单元。
2.根据权利要求1所述的声音检索装置,其特征在于,上述声音检索部进一步具有:
当检索关键词为规定长度以上时,通过音素分割该检索关键词的单元;
由上述第1阈值决定第2阈值的单元,上述第2阈值是对通过上述检索关键词的分割单元分割的关键词的检索中使用的阈值;
检索上述检索对象的单元是使用上述第2阈值通过动态规划法检索检索对象的单元。
3.根据权利要求1或2所述的声音检索装置,其特征在于,上述声音检索部是进一步具有以下单元的声音检索部:
通过检索关键词的长度判断有无关键词分割的单元;
进行在上述关键词分割后的音素数的决定的关键词分割单元。
4.根据权利要求1或2所述的声音检索装置,其特征在于,通过上述动态规划法检索检索对象的单元是进一步具有以下单元的、检索检索对象的单元:在动态规划法中,使用基于音素辨别特征的音素间距离,计算音素间的类似性的单元。
5.一种声音检索方法,以声音为输入,对采样上述输入的声音获得的声音数据进行检索,其特征在于,包括以下步骤:
识别记录到声音数据库中的声音的步骤;
由所识别的单词组生成音素组的步骤;
由所生成的音素组生成后缀数组的步骤;
输入检索关键词的步骤;
由所输入的检索关键词生成音素组的步骤;
通过动态规划法在上述后缀数组上检索检索关键词的步骤;以及
输出所检索的结果的步骤,
其中通过动态规划法在上述后缀数组上检索检索关键词的上述步骤包括:
设定检索中使用的第1阈值的步骤;
使用上述第1阈值,通过动态规划法检索检索对象的步骤;
在逐次增加上述第1阈值的同时反复进行检索,逐次提示检索结果的阈值调整步骤。
6.根据权利要求5所述的声音检索方法,其特征在于,进一步具有以下步骤:
当检索关键词为规定长度以上时,通过音素分割该检索关键词的步骤;
由上述第1阈值决定第2阈值的步骤,上述第2阈值是对通过上述检索关键词的分割步骤分割的关键词的检索中使用的阈值,
检索上述检索对象的步骤是使用上述第2阈值通过动态规划法检索检索对象的步骤。
7.根据权利要求5或6所述的声音检索方法,其特征在于,进一步包括以下步骤:
通过上述检索关键词的长度判断有无关键词分割的步骤;
进行在上述关键词分割后的音素数的决定的关键词分割步骤。
8.根据权利要求5或6所述的声音检索方法,其特征在于,检索上述检索对象的步骤具有以下步骤:在上述动态规划法中,使用基于音素辨别特征的音素间距离,计算音素间的类似性。
CN201080009141.XA 2009-02-26 2010-02-10 声音检索装置及声音检索方法 Expired - Fee Related CN102334119B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009-044842 2009-02-26
JP2009044842 2009-02-26
PCT/JP2010/051937 WO2010098209A1 (ja) 2009-02-26 2010-02-10 音声検索装置および音声検索方法

Publications (2)

Publication Number Publication Date
CN102334119A CN102334119A (zh) 2012-01-25
CN102334119B true CN102334119B (zh) 2014-05-21

Family

ID=42665420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080009141.XA Expired - Fee Related CN102334119B (zh) 2009-02-26 2010-02-10 声音检索装置及声音检索方法

Country Status (5)

Country Link
US (1) US8626508B2 (zh)
EP (1) EP2402868A4 (zh)
JP (1) JP5408631B2 (zh)
CN (1) CN102334119B (zh)
WO (1) WO2010098209A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US8745061B2 (en) * 2010-11-09 2014-06-03 Tibco Software Inc. Suffix array candidate selection and index data structure
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
WO2015143708A1 (zh) * 2014-03-28 2015-10-01 华为技术有限公司 后缀数组的构造方法及装置
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP6003971B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
KR101945234B1 (ko) 2017-07-14 2019-02-08 (주)인터버드 마지막 알파벳 제거 알고리즘을 이용한 반도체 부품 검색 방법
CN110970022B (zh) * 2019-10-14 2022-06-10 珠海格力电器股份有限公司 一种终端控制方法、装置、设备以及可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604185A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 利用可变长子字的语音合成***和方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2980420B2 (ja) * 1991-07-26 1999-11-22 富士通株式会社 動的計画法照合装置
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
EP0800158B1 (en) * 1996-04-01 2001-06-27 Hewlett-Packard Company, A Delaware Corporation Word spotting
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
WO2005122002A2 (ja) 2004-06-07 2005-12-22 Hitachi Medical Corp 構造化文書作成方法ならびに装置
KR100664960B1 (ko) * 2005-10-06 2007-01-04 삼성전자주식회사 음성 인식 장치 및 방법
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
JP4786384B2 (ja) * 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
US8457959B2 (en) * 2007-03-01 2013-06-04 Edward C. Kaiser Systems and methods for implicitly interpreting semantically redundant communication modes
JP5072415B2 (ja) 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
WO2008142836A1 (ja) * 2007-05-14 2008-11-27 Panasonic Corporation 声質変換装置および声質変換方法
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1604185A (zh) * 2003-09-29 2005-04-06 摩托罗拉公司 利用可变长子字的语音合成***和方法

Also Published As

Publication number Publication date
EP2402868A4 (en) 2013-07-03
WO2010098209A1 (ja) 2010-09-02
JP5408631B2 (ja) 2014-02-05
EP2402868A1 (en) 2012-01-04
CN102334119A (zh) 2012-01-25
US20120036159A1 (en) 2012-02-09
US8626508B2 (en) 2014-01-07
JPWO2010098209A1 (ja) 2012-08-30

Similar Documents

Publication Publication Date Title
CN102334119B (zh) 声音检索装置及声音检索方法
US9418152B2 (en) System and method for flexible speech to text search mechanism
KR101780760B1 (ko) 가변길이 문맥을 이용한 음성인식
US8380505B2 (en) System for recognizing speech for searching a database
US8209171B2 (en) Methods and apparatus relating to searching of spoken audio data
US6873993B2 (en) Indexing method and apparatus
EP2248051B1 (en) Computer implemented method for indexing and retrieving documents in database and information retrieval system
EP0285353A2 (en) Speech recognition system and technique
CN102365639B (zh) 检索装置
KR20080069990A (ko) 음성 세그먼트 색인 및 검색 방법과 컴퓨터 실행 가능명령어를 갖는 컴퓨터 판독 가능 매체
Hu et al. Multilingual jointly trained acoustic and written word embeddings
Rutherford et al. Pronunciation learning for named-entities through crowd-sourcing.
Moyal et al. Phonetic search methods for large speech databases
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
Sarı et al. Fusion of LVCSR and posteriorgram based keyword search
CN108899016B (zh) 一种语音文本规整方法、装置、设备及可读存储介质
EP2270685A1 (en) Method for converting set of words to corresponding set of particles
Norouzian et al. An approach for efficient open vocabulary spoken term detection
JP2011215899A (ja) 類似文書検索装置
Wang Mandarin spoken document retrieval based on syllable lattice matching
Hsieh et al. Improved spoken document retrieval with dynamic key term lexicon and probabilistic latent semantic analysis (PLSA)
Yulita et al. Feature extraction analysis for hidden Markov models in Sundanese speech recognition
Kruspe et al. Retrieval of song lyrics from sung queries
Dobrišek et al. An edit-distance model for the approximate matching of timed strings
Chien et al. A spoken‐access approach for chinese text and speech information retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140521

Termination date: 20170210