CN102667773A - 搜索设备、搜索方法及程序 - Google Patents

搜索设备、搜索方法及程序 Download PDF

Info

Publication number
CN102667773A
CN102667773A CN2010800538230A CN201080053823A CN102667773A CN 102667773 A CN102667773 A CN 102667773A CN 2010800538230 A CN2010800538230 A CN 2010800538230A CN 201080053823 A CN201080053823 A CN 201080053823A CN 102667773 A CN102667773 A CN 102667773A
Authority
CN
China
Prior art keywords
string
search results
speech
search
diacritic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800538230A
Other languages
English (en)
Other versions
CN102667773B (zh
Inventor
本田等
前田幸德
朝川智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102667773A publication Critical patent/CN102667773A/zh
Application granted granted Critical
Publication of CN102667773B publication Critical patent/CN102667773B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

公开了一种搜索设备、搜索方法和程序,采用该搜索设备、搜索方法和程序,能够鲁棒地搜索对应于输入语音的词串。公开的搜索设备包括:语音识别单元(11),用于对输入语音进行语音识别;匹配单元(16),用于关于多个搜索结果词串中的每个执行搜索结果发音符号串与识别结果发音符号串的匹配,其中,多个搜索结果词串是要成为对应于输入语音的词串的搜索结果的词串,搜索结果发音符号串是表示词串搜索结果的发音的发音符号排列,而识别结果发音符号串是表示输入语音的语音识别结果的发音的发音符号排列;以及输出单元(17),用于基于搜索结果发音符号串与识别结果发音符号串的匹配结果输出搜索结果词串,其中搜索结果词串是从多个搜索结果词串中搜索对应于输入语音的词串而得到的结果。公开的搜索设备例如可以应用于语音搜索。

Description

搜索设备、搜索方法及程序
技术领域
本发明涉及搜索设备、搜索方法和程序,并且具体涉及例如能够以鲁棒的方式执行对对应于输入语音的词串的搜索的搜索设备、搜索方法和程序。
背景技术
关于使用作为来自用户的输入语音的输入语音并且搜索词串(诸如对应于其语音的文本等)的语音搜索方法,例如,有一种仅使用语音识别设备的方法(例如,见专利文献1)。
利用仅使用语音识别设备的语音搜索,在语音识别设备中,对事先登记在词典中词(词汇)的排列执行输入语音的语音识别,以语音识别结果作为对象,并输出其语音识别结果作为搜索结果词串,该搜索结果词串是搜索对应于输入语音的词串的结果。
因而,通过仅使用语音识别设备的语音搜索,要作为对应于输入语音的词串的搜索结果的词串(下文中也称为搜索结果词串)仅仅是作为登记在词典中的词的排列(根据本说明书,包括一个词)中的要作为语音识别结果的词串,从而,用户的话语限于用于语音识别的词典中所登记的词的排列。
近年来,已经提出了称为语音搜索(Voice Search)的语音搜索方法。
在语音搜索中,使用如N连字(N-gram)等的语言模型执行连续语音识别,并且执行语音识别结果与登记在分别根据用于语音识别的词典而准备的DB(数据库)中的文本的匹配(从登记在DB中的文本中搜索对应于语音识别结果的文本的文本搜索)。
随后,基于该匹配结果,输出与语音识别结果匹配的最高排名的文本或前N位中的文本作为搜索结果词串。
利用语音搜索,登记在分别根据用于语音识别的词典准备的DB中的文本成为搜索结果词串,从而,通过在DB中登记多个文本,可以对该多个文本进行语音搜索,作为搜索结果的词串。
也就是说,根据语音搜索,即使用户说出除了登记在用于语音识别的词典中的词之外的词,仍然能够在登记在DB中的用作搜索结果词串的文本的范围内以一定的准确度执行语音搜索。
引用列表
专利文献
专利文献1:日本未审查专利申请公开第2001-242884号
发明内容
技术问题
现在,利用传统的语音搜索,通过使用语音识别结果和标记符号,以词为单位或以标记符号为单位来执行语音识别结果与用作搜索结果词串的文本的匹配,其中,标记符号是表示搜索结果词串中的每个搜索结果词串的标记的符号。
因而,如果在匹配过程中语音识别结果的标记符号存在错误,则可能使完全不同于对应于输入语音的词串的搜索结果词串与语音识别结果匹配,从而,可能输出这样的完全不同于对应于输入语音的词串的搜索结果词串作为搜索结果词串。
也就是说,如果用户用日文说出例如“toshi no sekai”作为输入语音,并且,如果其语音识别结果的符号串为“toshi no sekai”(英文“world ofcities”),则利用以词为单位的匹配,语音识别结果的标记符号串“toshi nosekai”被分割成每次一个词,如“toshi/no/sekai/”(斜线(/)表示分段),并且执行匹配,而利用以标记符号为单位的匹配,语音识别结果的标记符号串“toshi no sekai”被分割成每次一个标记符号,如“to/shi/no/se/kai”,并且执行匹配。
另一方面,如果输入语音“toshi no sekai”的语音识别结果的标记符号串为“toshi-no-se kai”(英文“is it the end of the year?”),则利用以词为单位的匹配,语音识别结果的标记符号串“toshi-no-se kai”被分割成一次一个词,如“/toshi/no/se/kai/”,执行匹配,而利用以标记符号为单位的匹配,语音识别结果的标记符号串“toshi-no-se kai”被分割成一次一个标记符号,如“toshi/no/se/ka/i”,并且执行匹配。
因而,在输入语音“toshi no sekai”的语音识别结果的标记符号串为“toshi no sekai”(英文“world of cities”)的情况下,以及在“toshi-no-sekai”(英文“is it the end of the year?”)的情况下,与语音识别结果匹配的搜索结果的词串极为不同,从而,可能输出完全不同于对应于搜索结果词串的词串的搜索结果词串作为搜索结果词串,而可能不会输出对应于输入语音的词串作为搜索结果词串。
如上所述,使用标记符号的匹配与语音识别结果不具有高度的一致性,并且,可能不会输出对应于输入语音的词串作为搜索结果词串。
此外,如果用户例如用英文说出“tolkien”(《指环王》作者(“指环王”的作者))作为输入语音,并且,其语音识别结果的标记符号串为一个词,例如“tolkien”,在以词为单位的匹配中,使用为语音识别结果的标记符号串的一个词“tolkien”而不执行变化和匹配,而在以标记符号(字母字符)为单位的匹配中,语音识别结果的标记符号串“tolkien”被分割成单个标记符号,如t/o/l/k/i/e/n,并且执行匹配。
另一方面,如果输入语音“tolkien”的语音识别结果的标记符号串例如为“toll keene”,则在以词为单位的匹配中,语音识别结果的标记符号串“toll keene”被分割成单个词,如toll/keene,并且执行匹配,而在以标记符号(字母字符)为单位的匹配中,以作为单个符号标记的字母为单位进行分割,如t/o/l/l/k/e/e/n/e,并且执行匹配。
因而,在输入语音“tolkien”的语音识别结果的标记符号串为“tolkien”的情况下与在输入语音“tolkien”的语音识别结果的标记符号串为“tollkeene”的情况下,与语音识别结果匹配的搜索结果词串极为不同,因而,输出完全不同于对应于输入语音的词串的搜索结果词串作为搜索结果词串,而可能不会输出对应于输入语音的词串作为搜索结果词串。
考虑到这种情况作出本发明,本发明使得能够以鲁棒的方式搜索对应于输入语音的词串并且使得能够获得对应于输入语音的词串作为搜索结果词串。
问题的解决方案
本发明一方面是一种搜索设备或者使计算机用作搜索设备的程序,其中,根据本发明一方面的搜索设备或程序具有:语音识别单元,用于对输入语音进行语音识别;匹配单元,用于关于多个搜索结果词串中的每个执行搜索结果发音符号串与识别结果发音符号串的匹配,其中,多个搜索结果词串是要成为针对对应于输入语音的词串的搜索结果的词串,搜索结果发音符号串是表示词串搜索结果的发音的发音符号排列,而识别结果发音符号串是表示输入语音的语音识别结果的发音的发音符号排列;以及输出单元,用于基于搜索结果发音符号串与识别结果发音符号串的匹配结果输出搜索结果词串,其中搜索结果词串是从多个搜索结果词串中搜索对应于输入语音的词串而得到的结果。
根据本发明一方面的搜索方法是一种包括由搜索设备用来搜索对应于输入语音的词串的步骤,其中,对输入语音进行语音识别;关于多个搜索结果词串中的每个执行搜索结果发音符号串与识别结果发音符号串的匹配,其中,多个搜索结果词串是要成为针对对应于输入语音的词串的搜索结果的词串,搜索结果发音符号串是表示词串搜索结果的发音的发音符号排列,而识别结果发音符号串是表示输入语音的语音识别结果的发音的发音符号排列;以及基于搜索结果发音符号串与识别结果发音符号串的匹配结果输出搜索结果词串,其中搜索结果词串是从多个搜索结果词串中搜索对应于输入语音的词串而得到的结果。
根据上述方面,对输入语音进行语音识别,关于多个搜索结果词串中的每个执行搜索结果发音符号串与识别结果发音符号串的匹配,其中多个搜索结果词串是要成为针对对应于输入语音的词串的搜索结果的词串,搜索结果发音符号串是表示词串搜索结果的发音的发音符号(音标)的排列,识别结果发音符号串是表示输入语音的语音识别结果的发音的发音符号的排列。此外,基于搜索结果发音符号串与识别结果发音符号串的匹配结果输出搜索结果词串,搜索结果词串是从多个搜索结果词串中搜索对应于输入语音的词串而得到的结果。
需要注意,搜索设备可以是独立的设备,或者可以是构成一个设备的内部模块。
此外,可以通过经由传输介质传输来提供程序,或者可以通过记录在记录介质上来提供程序。
本发明的有益效果
根据本发明一方面,能够以鲁棒的方式搜索对应于输入语音的词串。
附图说明
图1是示出应用了本发明的语音搜索设备的实施例的第一配置示例的框图。
图2是示出应用了本发明的语音搜索设备的实施例的第二配置示例的框图。
图3是示出应用了本发明的语音搜索设备的实施例的第三配置示例的框图。
图4是示出应用了本发明的语音搜索设备的实施例的第四配置示例的框图。
图5是描述使用用作具有语音搜索功能的信息处理***的记录器播放被记录的节目的处理的图。
图6是描述用户从N个播放候选节目中选择期望的节目的方法的图。
图7是描述用作具有语音搜索功能的信息处理***的记录器的其他处理的图。
图8是描述用作具有语音搜索功能的信息处理***的各种类型的设备所执行的处理的图。
图9是示出用作应用了语音搜索设备的信息处理***的记录器的配置示例的框图。
图10是示出用作应用了语音搜索设备的信息处理***的记录器的另一配置示例的框图。
图11是示出以词为单位分别使用语音识别结果标记符号和搜索结果词串来执行语音识别结果与搜索结果词串之间的匹配的情况下的处理的图。
图12是示出以词为单位分别使用语音识别结果标记符号和搜索结果词串来执行语音识别结果与搜索结果词串之间的匹配的情况下的处理的图。
图13是描述语音识别结果与搜索结果词串之间的匹配的图,其中,在以词为单位和以一个或更多个标记符号为单位的情况下分别使用语音识别结果的标记符号和搜索结果的词串来进行该匹配。
图14是描述语音识别结果与搜索结果词串之间的匹配的图,其中,在以词为单位和以一个或更多个标记符号为单位的情况下分别使用语音识别结果的标记符号和搜索结果的词串来进行该匹配。
图15是描述如下情况的图,其中,在使用标记符号的匹配的情况下,关于具有不同标记的语音识别结果获得不同的匹配结果对于语音搜索性能不利。
图16是描述如下情况的图,其中,在使用标记符号的匹配的情况下,关于具有不同标记的语音识别结果获得不同的匹配结果对于语音搜索性能不利。
图17是描述在采用2连字音节作为匹配的单位的情况下发音符号转换单元52中的处理的图。
图18是描述在采用2连字音节作为匹配的单位的情况下发音符号转换单元55中的处理的图。
图19是描述在采用2连字音素作为匹配的单位的情况下发音符号转换单元52和55中的处理的图。
图20是描述匹配单元56以2连字音节为单位执行的匹配的图。
图21是描述匹配单元56以2连字音素为单位执行的匹配的图。
图22是示出以词为单位的匹配的结果、以音节为单位的匹配的结果和以2连字音节为单位的匹配的结果的图。
图23是示出以词为单位的匹配的结果、以音节为单位的匹配的结果和以2连字音节为单位的匹配的结果的图。
图24是示出搜索结果向量VTITLE(i)的大小|VTITLE(i)|与替代大小S(i)的关系的图。
图25是示出在采用余弦距离D、第一修正距离D1和第二修正距离D2作为语音识别结果与搜索结果词串之间的相似度的情况下匹配模拟结果的示例的图。
图26是示出在采用余弦距离D、第一修正距离D1和第二修正距离D2作为语音识别结果与搜索结果词串之间的相似度的情况下匹配模拟结果的示例的图。
图27是示出在采用余弦距离D、第一修正距离D1和第二修正距离D2作为语音识别结果与搜索结果词串之间的相似度的情况下匹配模拟结果的示例的图。
图28是示出在采用余弦距离D、第一修正距离D1和第二修正距离D2作为语音识别结果与搜索结果词串之间的相似度的情况下匹配模拟结果的示例的图。
图29是示出语音识别单元51的配置示例的框图。
图30是示出用作被存储在搜索结果存储单元53中的搜索结果词串的节目元数据的示例的图。
图31是描述用语言模型生成单元85生成语言模型的处理的图。
图32是描述用语言模型生成单元85生成每个字段的语言模型的处理的图。
图33是描述在使用每个字段的语言模型执行语音识别、求出每个字段的语音识别结果以及针对每个字段执行语音识别结果与搜索结果词串的匹配的情况下语音搜索设备50的处理的图。
图34是示出求出全序的输出单元57的一部分的配置示例的框图。
图35是示出总分计算单元91的配置示例的框图。
图36是描述在使用每个字段的语言模型执行语音识别、求出所有字段的总的语音识别结果以及针对每个字段执行语音识别结果与搜索结果词串的匹配的情况下语音搜索设备50的处理的图。
图37是描述在使用每个字段的语言模型执行语音识别、求出所有字段的总的语音识别结果以及针对每个字段执行语音识别结果与搜索结果词串的匹配的情况下语音搜索设备50的处理的图。
图38是示出在识别单元81求出总语音识别结果的情况下用于求出全序的输出单元57的一部分的配置示例的框图。
图39是示出输出单元57输出的搜索结果词串的显示屏示例的图。
图40是示出包括标识短语的输入语音的语音搜索的示例的图。
图41是示出包括标识短语的输入语音的语音搜索的示例的图。
图42是示出包括标识短语的输入语音的语音搜索的示例的图。
图43是示出包括标识短语的输入语音的语音搜索的示例的图。
图44是示出搜索结果向量和向量替代信息的图。
图45是描述在使用向量替代信息代替搜索结果向量的情况下计算语音识别结果与搜索结果词串之间的相似度的图。
图46是描述根据搜索结果词串的向量替代信息产生反向查找索引的方法的图。
图47是描述使用反向查找索引计算内积VUTR·VTITLE(i)的方法的图。
图48是描述语音搜索设备50的处理的流程图。
图49是示出应用了本发明的计算机的实施例的配置示例的框图。
具体实施方式
下面描述本发明的实施例,首先简要描述使用语音搜索(VoiceSearch)的语音搜索的概述。
[语音搜索概述]
利用语音搜索,使用作为表示语音识别结果和搜索结果词串中的每个的符号的标记符号,以词为单位或以标记符号为单位执行语音识别结果与用作搜索结果词串的文本之间的匹配。
因而,如果语音识别结果的标记符号存在错误,在匹配过程中,可能使完全不同于对应于输入语音的词串的搜索结果的词串与语音识别结果匹配,从而,可能输出这样完全不同于对应于输入语音的词串的搜索结果词串作为搜索结果词串。
也就是说,如果用户用日文说出例如“toshi no sekai”作为输入语音,并且如果其语音识别结果的符号串为“toshi no sekai”(英文“world ofcities”),使用以词为单位的匹配,语音识别结果的标记符号串“toshi nosekai”被分割成一次一个词,如“toshi/no/sekai/”(斜线(/)表示分段),并且执行匹配,而使用以标记符号为单位的匹配,语音识别结果的标记符号串“toshi no sekai”被分割成一次一个标记符号,如“to/shi/no/se/kai”,并且执行匹配。
另一方面,如果输入语音“toshi no sekai”的语音识别结果的标记符号串为“toshi-no-se kai”(英文“is it the end of the year?”),使用以词为单位的匹配,语音识别结果的标记符号串“toshi-no-se kai”被分割成一次一个词,如“/toshi/no/se/kai/”,执行匹配,而使用以标记符号为单位的匹配,语音识别结果的标记符号串“toshi-no-se kai”被分割成一次一个标记符号,如“toshi/no/se/ka/i”,并且执行匹配。
因而,在输入语音“toshi no sekai”的语音识别结果的标记符号串为“toshi no sekai”(英文“world of cities”)的情况下,以及在“toshi-no-sekai”(英文“is it the end of the year?”)的情况下,与语音识别结果匹配的搜索结果词串极为不同,从而,可能输出完全不同于对应于搜索结果词串的词串的搜索结果词串作为搜索结果词串,而可能不会输出对应于输入语音的词串作为搜索结果词串。
此外,如果用户例如用英文说出“tolkien”作为输入语音,并且其语音识别结果的标记符号串为一个词,例如“tolkien”,则在以词为单位的匹配中,在不改变的情况下使用作为语音识别结果的标记符号串的一个词“tolkien”并执行匹配,而在以标记符号为单位的匹配中,语音识别结果的标记符号串“tolkien”被分割成单个标记符号,如t/o/l/k/i/e/n,并且执行匹配。
另一方面,如果输入语音“tolkien”的语音识别结果的标记符号串例如为“toll keene”,则在以词为单位的匹配中,语音识别结果的标记符号串“toll keene”被分割成单个词,如toll/keene,并且执行匹配,而在以标记符号为单位的匹配中,以作为单个符号标记的字母为单位进行分割,如t/o/l/l/k/e/e/n/e,并且执行匹配。
因而,在输入语音“tolkien”的语音识别结果的标记符号串为“tolkien”的情况下以及在输入语音“tolkien”的语音识别结果的标记符号串为“tollkeene”的情况下,与语音识别结果匹配的搜索结果词串极为不同,因而,输出完全不同于对应于输入语音的词串的搜索结果词串作为搜索结果词串,而可能不会输出对应于输入语音的词串作为搜索结果词串。
如上所述,使用标记符号的匹配与语音识别结果没有很高的一致性,并且可能不会输出对应于输入语音的词串作为搜索结果词串。
现在,根据本实施例,通过使用作为表示语音识别结果和搜索结果词串中的每个的发音的符号的发音符号来进行语音识别结果与搜索结果词串的匹配,能够以鲁棒的方式搜索对应于输入语音的词串,从而可以防止输出对应于输入语音的词串作为搜索结果词串。
此外,利用语音搜索,在语音识别结果与搜索结果词串的匹配过程中求出如下相似度,该相似度是语音识别结果与搜索结果词串的相似程度。
例如,可以使用向量空间法的余弦距离(cosine distance)等作为相似度。
现在,在向量空间中,如果用X表示指示语音识别结果的向量,而用Y表示指示搜索结果词串的向量,则可以通过用向量X与Y的内积除以向量X大小(模)|X|与向量Y大小|Y|相乘得到的值来求出作为语音识别结果与搜索结果词串之间的相似度的余弦距离。
如上所述,通过用内积除以表示语音识别结果的向量X的大小|X|与表示搜索结果词串的向量Y的大小|Y|相乘得到的值来求出余弦距离,从而,语音识别结果与搜索结果词串之间的长度差异可能会影响余弦距离。
因此,如果采用余弦距离作为相似度,例如,对于包含与语音识别结果中包含的词串相同的词串但是长度大于语音识别结果的词串的搜索结果词串,以及短于语音识别结果的搜索结果词串,存在如下强烈倾向,其中,与短于语音识别结果的搜索结果词串的相似度较高(相似),而与长于语音识别结果的搜索结果词串的相似度较低(不相似)。
因而,如果输出作为匹配结果获得的具有前N位之内的高相似度的搜索结果词串以用作搜索结果词串,则与包含与语音识别结果中包含的词串相同的词串但是长度大于语音识别结果的搜索结果词串的相似度变低,并且通常不会输出这中长搜索结果词串作为搜索结果词串,而使对应于输入语音的词串的搜索准确度劣化。
因而,根据本实施例,为了降低语音识别结果与搜索结果词串之间的长度差异的影响,采用修正余弦距离的修正距离作为语音识别结果与搜索结果词串之间的相似度,从而能够以鲁棒的方式执行对对应于输入语音的词串的搜索,从而防止使对应于输入语音的词串的搜索准确度劣化。
需要注意,关于其中对余弦距离进行修正以降低语音识别结果与搜索结果词串之间的长度差异的影响的求出修正距离的方法,例如存在使用非比例值(non-proportional value)代替与在求出余弦距离时使用的搜索结果词串的长度成比例的大小|Y|的方法,以及不使用大小|Y|的方法。
接着,利用语音搜索,可能存在大量用作搜索结果词串的文本,诸如几十万个文本,并且为了关于用户的讲话快速输出作为对应于该讲话(输入语音)的词串的搜索结果的搜索结果词串,需要快速地执行匹配。
因而,根据本实施例,使用反向查找索引等来快速地执行匹配。
此外,利用语音搜索的音频识别,使用诸如HMM(隐藏马尔科夫模型)等的声学模型来求出指示作为语音识别结果候选(假设)的识别假设的语音识别结果的声学可能性的声学得分,同时使用诸如N连字等的语言模型来求出表示识别假设的语言学可能性的语言得分,并且通过考虑其声学得分和语言得分二者来求出语音识别结果(用作语音识别结果的识别假设)。
语音搜索的语音识别中使用的语言模型例如是使用报纸上记载的词串生成的。
因而,如果试图获得包括报纸上记载的文本中出现频率低的词串(包括不出现的词串)(低频词串)的搜索结果词串作为搜索结果词串的用户说出该低频词串,则在语音识别中针对低频词串获得的语言得分较低,并且可能不会获得正确的语音识别结果。
因此,如果没有获得正确的语音识别结果,则在语音搜索中,甚至利用在语音识别之后进行的匹配,对应于输入语音的搜索结果词串(适合于输入语音的搜索结果词串)与语音识别结果不匹配,并且可能不会输出对应于输入语音的搜索结果的词串作为搜索结果词串。
具体地,例如,利用应用了语音搜索的记录器,如果关于用户的讲话通过语音搜索从EPG(电子节目指南)中搜索具有用户所讲标题的节目,并且利用语音搜索执行该节目的记录预定,则首先执行对用户所讲的节目标题的语音识别。
节目标题中经常使用新造词、艺人姓名(艺名等)和独特的表达,因而,经常包含报纸上所记载的文章中不通常使用的词串的词串。
如果使用利用报纸上所记载的词串生成的语言模型(下文中也称为通用语言模型)来执行这种节目标题的讲话的语音识别,则没有获得与节目标题匹配的识别假设的较高的语言得分。
因而,没有获得与节目标题匹配的识别假设作为语音识别结果,并且使语音识别准确度劣化。
因此,根据本实施例,使用多个搜索结果词串来生成所谓的专用语言模型,并且可以通过使用这种专用语言模型执行语音识别来提高语音识别的准确度,其中,该多个搜索结果的词串是对应于输入语音的词串的搜索结果的词串,即,在语音搜索中与语音识别结果匹配的词串的搜索结果词串。
也就是说,例如,如上所述,如果从EPG中搜索节目标题,则作为构成EPG的构成元素(节目标题、艺人姓名等)的词串是与语音识别结果匹配的搜索结果词串,从而,使用作为构成EPG的构成元素的搜索结果词串生成专用语言模型。
现在,如果作为构成EPG的构成元素(节目标题、艺人姓名等)的词串是搜索结果词串,则可以将搜索结果的词串分成字段,如节目标题、艺人姓名等。
现在,如果准备好了被分成多个字段的词串,则使用每个字段的词串针对每个字段生成语言模型,并且将每个字段的语言模型内插(interpolate)成一个语言模型,并且当使用该一个语言模型执行语音识别时,能够增加其中排列有不同字段的词串(中的每个的一部分)的识别假设的语言得分。
也就是说,例如,如上所述,如果使用通过对每个字段的语言模型进行内插而获得的一个语言模型执行语音识别,则由某个节目A的标题的一部分和另外的节目B中的艺人的艺人姓名的一部分排列成的词串能够变成识别假设,并且还能够增加该识别假设的语言得分,其中,每个字段的语言模型是使用被字段(诸如节目标题、艺人姓名等)划分的搜索结果的词串生成的。
然而,作为搜索结果词串的EPG的构成元素中不存在由节目A的标题的一部分和节目B的艺人姓名的一部分排列成的词串,从而,不期望这样的词串能够成为能够成为语音识别结果的具有高语言得分的识别假设。
因此,根据本实施例,如果搜索结果词串被分成多个字段(如果能够进行划分),则使用各个字段的搜索结果的词串来生成每个字段的语言模型(取决于字段的语言模型),并且使用各个字段语言模型来执行语音识别。
此外,例如,如上所述,如果用被分成字段(诸如节目标题和艺人姓名)的EPG的构成元素执行语音搜索,作为搜索结果词串,即使用户说出例如节目标题,不仅对节目标题字段的搜索结果词串进行与用户讲话的声音识别结果的匹配,还对所有字段的搜索结果词串进行与用户讲话的声音识别结果的匹配,输出与语音识别结果匹配的搜索结果词串作为搜索结果词串。
因而,利用语音搜索,能够获得如下节目作为语音搜索的结果,其中该节目在作为搜索结果词串的详细信息等中包括如下词串,该词串是与用户所讲标题的节目无关的节目,即,例如,类似于与用户所讲节目标题不相似的节目标题的词串,但是该词串包括在用户所讲节目标题中(包括匹配的情况)。
如上所述,作为语音搜索结果获得与用户所讲标题的节目无关的节目可能使用户感到厌烦。
因此,根据本实施例,在搜索结果词串被分成多个字段的情况下,可以仅对预定字段(诸如用户期望的字段等)的搜索结果的词串执行与语音识别结果的匹配。
在这种情况下,用户可以灵活地执行搜索,诸如,搜索仅标题中包含某个词串的节目,或者搜索仅艺人姓名中包含某个词串的节目。
此外,例如,在说出了与被定义为控制记录器的命令的词串相匹配的词串的情况下,利用应用了语音搜索的设备,诸如记录器等,可能不能够执行节目的语音搜索。
具体地,应用了语音搜索的记录器具有节目搜索功能,其中,例如,关于用户的讲话,通过语音搜索来搜索标题等中包含用户的讲话的节目。
此外,根据用户说出“选择”,记录器具有从一个或更多个节目中选择一个节目的语音控制功能,该一个或更多个节目通过节目搜索功能被搜索作为要播放的节目。
根据用户的讲话“选择”,通过语音搜索的语音识别,选择节目的语音控制功能将“选择”的语音识别结果作为目标,并且用记录器可以明白根据语音识别结果获得的“选择”要被理解为控制记录器的命令。
根据如上所述具有利用语音搜索的节目选择功能和语音控制功能的记录器,用户说出“选择”,从而可以通过记录器从通过节目选择功能获得的节目中选择要播放的一个节目。
然而,在这种情况下,当通过语音搜索的节目搜索功能执行节目搜索时,用户不能说出匹配对记录器进行控制的命令“选择”的“选择”。
也就是说,在这种情况下,如果用户说出“选择”以通过节目搜索功能搜索在其标题等中包含“选择”的节目,则通过语音搜索的语音识别获得用作控制记录器的命令的“选择”作为语音识别结果。
因而,利用记录器,用户讲话“选择”被理解为命令,并且不执行对在其标题等中包含“选择”的节目的搜索。
因此,根据本实施例,通过使用户允许小的负荷,诸如在讲话等中包括标识短语,即使说出了与被定义为控制设备的命令的词串相匹配的词串,仍然能够灵活地执行对应于输入语音的词串的搜索,诸如执行节目等的语音搜索。
[应用了本发明的语音搜索设备的实施例]
图1是示出应用了本发明的语音搜索设备的实施例的第一配置示例的框图。
在图1中,语音搜索设备具有语音识别单元11、发音符号转换单元12、搜索结果存储单元13、词素分析单元14、发音符号转换单元15、匹配单元16和输出单元17。
从未示出的麦克风等向语音识别单元11提供作为用户的讲话的输入语音(的数据)。
语音识别单元11对提供给其的输入语音进行语音识别,并且将语音识别结果(的例如标记符号)提供给发音符号转换单元12。
发音符号转换单元12将从语音识别单元11提供的输入语音的语音识别结果(的例如标记符号)转换成识别结果发音符号串,识别结果发音符号串是表示该语音识别结果的发音的发音符号的排列,并且发音符号转换单元12将识别结果发音符号串提供给匹配单元16。
搜索结果存储单元13存储多个搜索结果词串,即在匹配单元16中执行与语音识别结果的匹配,并且存储能够成为搜索结果词串的词串(的例如用作标记符号的文本),其中搜索结果词串为对应于输入语音的词串的搜索结果。
词素分析单元14通过对存储在搜索结果存储单元13中的搜索结果词串进行词素分析,例如以词(词素)为单位对搜索结果词串进行分割,并且将其提供给发音符号转换单元15。
发音符号转换单元15将从词素分析单元14提供的搜索结果词串(的例如标记符号)转换成搜索结果的发音符号串,其中搜索结果的发音符号串是表示搜索结果词串的发音的发音符号的排列,并且,发音符号转换单元15将搜索结果的发音符号串提供给匹配单元16。
匹配单元16对来自发音符号转换单元12的识别结果发音符号串与来自发音符号转换单元15的搜索结果发音符号串进行匹配,并且将匹配结果提供给输出单元17。
也就是说,匹配单元16使用语音识别结果的发音符号和搜索结果词串的发音符号,执行存储在搜索结果存储单元13中的所有搜索结果词串中的每个搜索结果词串与输入语音的语音识别结果的匹配。
匹配单元16执行存储在搜索结果存储单元13中的所有搜索结果词串中的每个搜索结果词串与输入语音的语音识别结果的匹配,并且将匹配结果提供给输出单元17。
输出单元17根据来自匹配单元16的匹配结果输出搜索结果词串,该搜索结果词串是存储在搜索结果存储单元13中的搜索结果词串中针对对应于输入语音的词串的搜索结果的词串。
利用如上配置的语音搜索设备,根据用户的讲话执行语音搜索处理。
也就是说,当用户进行讲话,并且用作该讲话的输入声音被提供给语音识别单元11时,通过语音识别单元11对该输入语音进行语音识别,并且将输入语音的语音识别结果提供给发音符号转换单元12。
发音符号转换单元12将来自语音识别单元11的输入语音的语音识别结果转换成识别结果发音符号串,并且将识别结果发音符号串提供给匹配单元16。
另一方面,词素分析单元14执行对存储在搜索结果存储单元13中的所有搜索结果词串的词素分析,并且将其提供给发音符号转换单元15。
发音符号转换单元15将来自词素分析单元14的搜索结果词串转换成搜索结果的发音符号串,并且将搜索结果的发音符号串提供给匹配单元16。
匹配单元16使用来自发音符号转换单元12的识别结果发音符号串和来自发音符号转换单元15的搜索结果的发音符号串,对存储在搜索结果存储单元13中的所有搜索结果词串中的每个搜索结果词串与输入语音的语音识别结果进行匹配,并且将匹配结果提供给输出单元17。
输出单元17基于来自匹配单元16的匹配结果,从存储在搜索结果存储单元13中的搜索结果词串中选择作为针对对应于输入语音的词串的搜索结果的搜索结果词串(用作搜索结果的词串),并且输出搜索结果词串。
因而,用户仅通过讲话就能够从存储在搜索结果存储单元13中的搜索结果词串中获得用作与用户的讲话匹配的搜索结果词串的搜索结果词串。
图2是示出应用了本发明的语音搜索设备的实施例的第二配置示例的框图。
需要注意,在附图中,对应于图1的情况的部分与其具有相同的附图标记,并且下面将根据情况省略其描述。
图2的语音搜索设备在如下方面与图1的情况相同:语音识别单元11、搜索结果存储单元13、词素分析单元14、匹配单元16和输出单元17,而与图1的情况的不同之处在于,图2中用发音符号转换单元21代替图1的发音符号转换单元12和15。
在图2中,发音符号转换单元21将从语音识别单元11提供的输入语音的语音识别结果转换成识别结果发音符号串,并且将该识别结果发音符号串提供给匹配单元16,而将从词素分析单元14提供的搜索结果词串转换成搜索结果的发音符号串,并且将该搜索结果的发音符号串提供给匹配单元16。
也就是说,在图1中,将输入语音的语音识别结果转换成识别结果发音符号串以及将搜索结果词串转换成搜索结果的发音符号串分别由发音符号转换单元12和15来执行,而在图2中,将输入语音的语音识别结果转换成识别结果发音符号串以及将搜索结果词串转换成搜索结果的发音符号串通过公用所谓一个发音符号转换单元21来执行。
因此,除了将输入语音的语音识别结果转换成识别结果发音符号串以及将搜索结果词串转换成搜索结果的发音符号串不是分别由发音符号转换单元12和15来执行,而是由发音符号转换单元21来执行之外,利用图2的语音搜索设备执行与图1的情况类似的语音搜索处理。
图3是示出应用了本发明的语音搜索设备的实施例的第三配置示例的框图。
需要注意,在附图中,对应于图1的情况的部分与其具有相同的附图标记,并且下面将根据情况省略其描述。
图3的语音搜索设备在如下方面与图1的情况相同:语音识别单元11、发音符号转换单元12、匹配单元16和输出单元17,而与图1的情况的不同之处在于,图3中设置有搜索结果存储单元31,代替了图1的搜索结果存储单元13、词素分析单元14和发音符号转换单元15。
在图3中,搜索结果存储单元31存储与存储在搜索结果存储单元13中的搜索结果词串相同的搜索结果词串(的例如标记符号)以及搜索结果的发音符号串,其中,上述搜索结果词串已经转换成了发音符号。
因而,利用图3的语音搜索设备,通过匹配单元16进行匹配时使用的搜索结果的发音符号串被存储在搜索结果存储单元31中,从而,除了不执行搜索结果词串的词素分析以及向搜索结果的发音符号串的转换之外,执行与图1的情况类似的语音搜索处理。
图4是示出应用了本发明的语音搜索设备的实施例的第四配置示例的框图。
需要注意,在该图中,对应于图1或图3的情况的部分具有与其相同的附图标记,并且下面将根据情况省略其描述。
图4中的语音搜索设备在如下方面与图3的情况是相同的:匹配单元16、输出单元17和搜索结果存储单元31,而与图3的情况的不同之处在于,图4中用语音识别单元41代替了图3的语音识别单元11和发音符号转换单元12。
在图4中,语音识别单元41对输入语音进行语音识别,并且将输入语音的语音识别结果的识别结果发音符号串提供给匹配单元16。
也就是说,例如,语音识别单元41内置有图3的语音识别单元11和发音符号转换单元12。
因而,利用图4的语音搜索设备,除了语音识别单元41输出语音识别结果的例如识别结果发音符号串而非标记符号之外,执行与图3的情况类似的语音搜索处理。
[应用了语音搜索设备的信息处理***]
图1至图4的语音搜索设备可以应用于各种类型的信息处理***(“***”是指多个设备的逻辑集合,而不管各种构造的设备是否在同一外壳内)。
也就是说,例如,图1至图4的语音搜索设备可以应用于作为信息处理***的执行节目记录和播放的记录器。
利用用作图1至图4的应用了语音搜索设备的信息处理***(下文中也称为具有语音搜索功能的信息处理***)的记录器,例如可以通过语音搜索来从已被记录的节目(已记录节目)中搜索用户期望的节目,并且播放该节目。
也就是说,例如,如果用户说出输入语音“世界遗产”作为执行要播放的节目的语音搜索的关键字,则记录器能够通过执行作为搜索结果词串的已记录节目标题的语音搜索等,从已记录节目中搜索标题的发音类似于输入语音“世界遗产”的发音的节目。
接着,记录器(在记录器所连接的TV(电视接收机)等上)显示如下节目(的标题等)作为执行播放的候选节目(播放候选节目),作为语音搜索结果,其中,该节目的标题的发音与输入语音“世界遗产”的发音的相似程度在前N位之内。
接着,一旦用户从N个播放候选节目中选择了一个节目作为要播放的节目,则通过记录器播放该节目。
现在,关于用户从N个播放候选节目中选择一个节目的方法,有如下方法,其中,用户操作远程控制记录器的遥控器,以从N个播放候选节目中选择一个节目。
此外,关于用户从N个播放候选节目中选择一个节目的方法,如果用触摸面板来执行N个播放候选节目的显示,则有如下方法,其中,用户通过操作该触摸面板来从N个播放候选节目中选择一个节目。
此外,关于用户从N个播放候选节目中选择一个节目的方法,有如下方法,其中,用户通过语音从N个播放候选节目中选择一个节目。
也就是说,例如,如果N个播放候选节目中的第二播放候选节目的标题是“世界遗产/中国的长城”,并且,作为“世界遗产/中国的长城”的第二播放候选节目是用户想要播放的节目之一,则用户可以通过说出作为播放候选节目的顺序的“第二”、或者标题“世界遗产/中国的长城”等来选择该播放候选节目。
此外,例如,通过用作具有语音搜索功能的信息处理***的记录器,可以通过语音搜索来从EPG节目中搜索用户期望的节目,并且可以进行记录预定(和观看预定)。
也就是说,作为用于执行节目的语音搜索以预定记录的关键词,例如,一旦用户说出输入语音“世界遗产”,记录器就可以通过使用作为构成EPG的构成元素的节目标题等执行语音搜索以作为搜索结果词串,来从EPG中搜索具有类似于输入语音“世界遗产”的发音的标题等的发音的节目。
通过记录器,类似于执行已记录节目的播放,作为语音搜索的结果,显示标题的发音与输入语音“世界遗产”的发音最相似的前N位之内的节目(的标题等),作为执行记录预定的候选节目(记录候选节目)。
接着,一旦用户从N个记录候选节目中选择了一个节目作为要执行记录预定的节目,则记录器执行该节目的记录预定,此外,根据该记录预定执行节目的记录。
现在,作为从N个记录候选节目中选择一个节目的方法,在播放上述已记录节目的过程中,可以采用类似于从N个播放候选节目中选择一个节目的方法的方法。
需要注意,作为可应用图1至图4的语音搜索设备的信息处理***,除了上述记录器之外,还有如下***:用于通过经由网络链接的视频点播站点来搜索和购买节目(视频内容)的***、用于通过经由网络链接的游戏软件销售站点来搜索和购买游戏的***等。
此外,在语音搜索中,可以采用各种类型的词串作为搜索结果的词串。
也就是说,例如,如果搜索电视广播节目,则可以采用节目的元数据、重叠在节目的图像上的字幕(的一部分或全部)(闭合字幕)、节目标题的其他内容、艺人姓名和描述节目内容的详细信息作为搜索结果的词串。
此外,例如,如果搜索乐曲(音乐),则可以采用乐曲的标题(的一部分或全部)、歌词、艺术家姓名等作为搜索结果的词串。
图5是描述使用作为具有语音搜索功能的信息处理***的记录器播放已记录节目的处理的图。
例如,通过用作具有语音搜索功能的信息处理***的记录器,通过例如语音搜索来从已记录节目中搜索用户期望的节目,并且在播放的情况下,用户说出关键字以执行对要播放的节目的搜索,诸如日文输入语音“toshi no sekai isan”(英文“world heritage city”)或者英文输入语音“World Heritage City”。
通过用作具有语音搜索功能的信息处理***的记录器,对于作为搜索结果词串的已记录节目的标题等进行语音搜索,并且,从已记录节目中搜索标题发音类似于输入语音“toshi no sekai isan”(英文“world heritagecity”)或者英文输入语音“World Heritage City”的发音的节目。
此外,通过用作具有语音搜索功能的信息处理***的记录器,作为搜索结果,显示标题的发音类似于输入语音“toshi no sekai isan”(英文“world heritage city”)或者英文输入语音“World Heritage City”的发音的节目中前N位内的节目(的标题等),作为为执行播放的候选的节目的播放候选节目。
在图5中,显示出了5个播放候选节目(作为语音搜索的结果)。
如果播放候选节目中不存在用户期望的节目,则用户可以通过讲话来请求显示当前显示的前N位内的节目之后的前N个节目作为播放候选节目,或者请求使用不同的关键字作为执行语音搜索的关键字。
此外,如果播放候选节目中存在用户期望的节目,则用户可以选择该期望的节目。
如上所述,作为用户选择期望节目的方法,有如下方法:操作触摸面板的方法、操作遥控器的方法和通过语音来选择的方法。
一旦用户从N个播放候选节目中选择了期望的节目,则可以使用作为具有语音搜索功能的信息处理***的记录器来播放该节目。
图6是描述用户从N个播放候选节目中选择期望的节目的方法的图。
例如,如果N个播放候选节目显示在触摸面板上,则用户可以通过触摸期望节目(的例如标题)的显示部分来从显示在触摸面板上的N个播放候选节目中选择期望的节目。
此外,例如,如果N个播放候选节目被与可以选择性地关注每个播放候选节目的可以通过遥控器来移动的光标一起显示,则用户可以通过操作遥控器来移动光标,使得能够关注期望的节目,并通过操作遥控器来确认对所关注的期望节目的选择,以选择期望的节目。
此外,例如,如果与附加的表示播放候选节目的顺序的数字一起显示N个播放候选节目,并且,用于指定数字的数字按钮被设置在遥控器上,则用户可以通过操作遥控器上的指定附加给期望的节目的数字的数字按钮来选择期望的节目。
此外,用户可以通过说出期望的节目的标题来从N个播放候选节目中选择期望的节目。
此外,例如,如果与附加的表示播放候选节目的顺序的数字一起显示N个播放候选节目,则用户可以通过说出附加给期望节目的数字来选择期望的节目。
图7是描述作为具有语音搜索功能的信息处理***的记录器的其他处理的图。
在图5中,作为从已记录节目中搜索期望节目的语音搜索的搜索结果显示出多个,诸如5个播放候选节目,而在图7中,仅显示出一个播放候选节目。
也就是说,如果用户说出例如作为执行要播放的节目的语音搜索的关键字的输入语音“世界遗产城市”,则通过用作具有语音搜索功能的信息处理***的记录器,对已记录节目的标题等进行语音搜索以作为搜索结果的词串,并且从已记录节目中搜索标题的发音类似于输入语音“世界遗产城市”的发音的节目。
通过作为具有语音搜索功能的信息处理***,作为语音搜索的搜索结果,显示标题的发音类似于输入语音“世界遗产城市”的发音的头一个节目(的标题等)作为播放候选节目。
在这种情况下,用户可以选择是选择(接受)根据语音搜索的结果获得的一个播放候选节目作为要播放的节目,还是重新显示另一个节目作为播放候选节目。
例如,如果远程控制用作具有语音搜索功能的信息处理***的记录器的遥控器上设置有表示接受的接受按钮和表示要重新显示另一个节目作为播放候选节目的另一节目按钮,则用户可以通过操作接受按钮或者另一节目按钮来指明选择根据语音搜索的结果获得的一个播放候选节目作为要播放的节目,还是重新显示另一个节目作为播放候选节目。
此外,例如,用户可以通过说出例如“OK”作为指明接受的语音或者说出例如“更改”作为指明要重新显示另一个节目作为播放候选节目的语音,来指明选择根据声音搜索的结果获得的一个播放候选节目作为要播放的节目,还是重新显示另一个节目作为播放候选节目。
使用作为具有语音搜索功能的信息处理***的记录器,在选择了根据语音搜索的结果获得的一个播放候选节目作为执行播放的节目的情况下,可以播放该播放候选节目。
此外,如果指明重新显示另一个节目作为播放候选节目,则利用作为具有语音搜索功能的信息处理***的记录器显示当前显示的一个播放候选节目之后的下一个播放候选节目。
图8是描述由作为具有语音搜索功能的信息处理***的各种类型的设备执行的处理的图。
图8中的A是描述使用作为具有语音搜索功能的信息处理***的记录器执行记录预定的处理的图。
一旦用户说出作为执行节目的语音搜索的关键字以执行记录预定,通过记录器对作为构成EPG的构成元素的节目标题等作为搜索结果的词串进行语音搜索,从而从EPG中搜索标题等的发音类似于输入语音的发音的节目。
此外,作为语音搜索的结果,显示标题的发音类似于输入语音的发音的前N位内的节目(的标题等)作为记录候选节目,这些记录候选节目是用于执行记录预定的候选。
接着,一旦用户从N个记录候选节目中选择了一个节目作为要执行记录预定的节目,则通过记录器执行该节目的记录预定,此外,根据该记录预定执行节目的记录。
图8中的B是描述利用作为具有语音搜索功能的信息处理***的用于购买节目(视频内容)的节目购买***执行的购买节目的处理的图。
一旦用户说出作为用于执行要购买的节目的语音搜索的关键字的输入语音,节目购买***可以通过网络诸如因特网访问销售节目的视频点播站点,并且,作为搜索结果的词串,对视频点播站点销售的节目标题等进行语音搜索(视频点播搜索),从而搜索标题的发音类似于输入语音的发音的节目。
此外,作为语音搜索的结果,节目购买***可以显示标题的发音类似于输入语音的发音的前N位内的节目(的标题等),作为购买候选节目,这些购买候选节目是作为购买的候选的节目。
接着,一旦用户从N个购买候选节目中选择了一个节目作为要购买的节目,节目购买***就执行对该节目的购买处理,即,从视频点播网站下载该节目、结算该节目的价格的支付等。
图8中的C是描述作为具有语音搜索功能的信息处理***的用于购买乐曲(音乐)的音乐购买***的购买的处理的图。
一旦用户说出用作执行要购买的乐曲的语音搜索的关键字的输入语音,音乐购买***通过网络诸如因特网访问销售乐曲的乐曲销售站点,并且,对作为搜索结果的词串的乐曲销售站点销售的乐曲标题(乐曲名称)等进行语音搜索,从而搜索标题等的发音类似于输入语音的发音的乐曲。
此外,乐曲购买***作为语音搜索的结果显示标题的发音类似于输入语音的发音的前N位内的乐曲(的标题等),作为购买候选乐曲,这些购买候选乐曲是作为购买的候选的乐曲。
接着,一旦从N个购买候选乐曲中选择了一个乐曲作为要购买的乐曲,音乐购买***执行该乐曲的购买处理。
图8中的D是描述作为具有语音搜索功能的信息处理***的播放乐曲(音乐)的音乐播放***播放记录在存储介质上的乐曲的处理的图。
一旦用户说出作为用于执行要播放的乐曲的语音搜索的关键字的输入语音,音乐播放***对作为搜索结果的词串的记录在存储介质中的乐曲标题(乐曲名称)等进行语音搜索,从而,从存储介质中搜索标题等的发音类似于输入语音的发音的乐曲。
此外,作为语音搜索的结果,音乐播放***显示标题的发音类似于输入语音的发音的前N位内的乐曲(的标题等),作为播放候选乐曲,这些播放候选乐曲是要播放的候选乐曲。
接着,一旦用户从N个播放候选乐曲中选择了一个乐曲作为要播放的乐曲,音乐播放***执行该乐曲的播放。
图8中的E是描述作为具有语音搜索功能的信息处理***的购买游戏软件(软件)的游戏软件购买***购买游戏软件的处理的图。
一旦用户说出作为用于执行要购买的游戏软件的语音搜索的关键字的输入语音,游戏软件购买***通过网络诸如因特网访问销售游戏软件的游戏软件销售站点,并且,对作为搜索结果的词串的游戏软件销售站点销售的游戏软件标题(游戏标题)等进行语音搜索,从而搜索标题的发音类似于输入语音的发音的游戏软件。
此外,游戏软件购买***作为语音搜索的结果显示标题的发音类似于输入语音的发音的前N位内的游戏软件(的标题等),作为购买候选游戏软件,这些购买候选游戏软件是作为购买的候选的游戏软件。
接着,一旦用户从N个购买候选游戏软件中选择了一个游戏软件作为要购买的游戏软件,游戏软件购买***就执行对该游戏软件的购买处理。
需要注意,不在连接至站点诸如视频点播站点(图8中的B)、音乐销售站点(图8中的C)和游戏软件销售站点(图8中的E)的信息处理***侧执行语音搜索,而是可以在站点侧执行语音搜索。
此外,图1至图4的语音搜索设备可以应用于除上述信息处理***之外的其他***。
也就是说,图1至图4的语音搜索设备可以应用于:搜索乐曲的信息处理***,该乐曲包括歌词,用户已经说出了该歌词的一部分;搜索电影的内容的信息处理***,该电影的内容包括对白,用户已经说出了该对白的一部分;或者搜索(电子)书或杂志的信息处理***,该书或杂志包括著作,用户已经说出了该著作的一部分。
[应用了语音搜索设备的记录器的配置示例]
图9是示出用作应用了图1至图4的语音搜索设备的信息处理***的记录器的配置示例的框图。
在图9中,记录器具有语音搜索设备50、记录器功能单元60、命令确定单元71、控制单元72和输出I/F(接口)73。
以类似于图1至图4的语音搜索设备中的例如图1的语音搜索设备的方式来配置语音搜索设备50。
也就是说,语音搜索单元50具有语音识别单元51、发音符号转换单元52、搜索结果存储单元53、词素分析单元54、发音符号转换单元55、匹配单元56和输出单元57。
分别以类似于语音识别单元11至输出单元17的方式来配置语音识别单元51至输出单元57。
需要注意,除了可以以类似于图1的语音搜索设备的方式来配置之外,还可以以类似于图2至图4的语音搜索设备中的一个语音搜索设备的方式来配置语音搜索设备50。
记录器功能单元60具有记录/播放单元62和记录介质63,并且执行电视广播节目的记录(图片记录)和播放。
也就是说,将通过未示出的天线接收的例如来自数字广播的电视广播信号提供给调谐器61。
调谐器61接收提供给其的电视广播信号,并且从该电视广播信号中提取预定频道的电视广播信号,解调位流,并且将其提供给记录/播放单元62。
记录/播放单元62从提供给调谐器61的位流中提取节目和EPG数据,并且将其提供给输出I/F 73。
此外,记录/播放单元62将EPG和节目数据(记录图片)记录在记录介质63上。
此外,记录/播放单元62播放来自记录介质63的节目数据,并且将其提供给输出I/F 73。
记录介质63例如是HD(硬盘)等,并且记录/播放单元62将EPG和节目数据记录在记录介质63上。
将输入语音的语音识别结果从语音识别单元51提供给命令确定单元71。
命令确定单元71根据来自语音识别单元51的输入语音的语音识别结果,确定输入语音是否为控制记录器的命令,并且将确定结果提供给控制单元72。
控制单元72基于输入语音是否为命令的确定结果,根据来自命令确定单元72的命令执行处理,并且还控制构成记录器的模块,诸如语音搜索设备50和记录器功能单元60等。此外,控制单元72根据未示出的遥控器等的操作执行处理。
EPG和节目数据被从记录/播放单元62提供给输出I/F 73。此外,将作为其上显示有语音搜索设备50的语音搜索的结果的搜索结果词串的搜索结果显示屏幕(的数据)从输出单元57提供给输出I/F 73。
输出单元I/F 73是例如连接至至少可以显示TV的图像等的显示设备的接口,并且将来自记录/播放单元62的EPG和节目数据以及来自输出单元57的搜索结果显示屏幕提供给例如连接至输出单元I/F 73的未示出的TV。
通过如上配置的图9的记录器,将作为构成记录在记录介质63上的EPG的构成元素的节目标题、艺人姓名、详细信息等提供给搜索结果存储单元53,并且对其进行存储。
此外,通过图9的记录器,将作为已经记录(存储)在记录基质63上的节目(已记录节目)的元数据的节目标题、艺人姓名、详细信息等提供给搜索结果存储单元53,并且对其进行存储。
因而,通过图9的语音搜索设备50,使用作为搜索结果的词串的节目标题、艺人姓名、详细信息等执行语音搜索。
图10是示出用作应用了图1至图4的语音搜索设备的信息处理***的记录器的另一配置示例的框图。
需要注意,在图10中,对应于图9的情况的部分具有与其相同的附图标记,并且,下文中将根据情况省略其描述。
除了语音搜索设备50不具有词素分析单元54之外,以类似于图9的记录器的方式来配置图10的记录器。
现在,例如通过图9的具有词素分析单元54的语音搜索设备50对日文输入语音执行语音搜索,而通过图10的不具有词素分析单元54的语音搜索设备50对不需要词素分析的英文输入语音执行语音搜索。
需要注意,通过设置用作词素分析单元54的模式和不作用于(允许旁路)具有词素分析单元54的图9的语音搜索设备50的模式,通过图9的语音搜索设备50,可以通过切换模式来分别对日文输入语音和英文输入语音执行语音搜索。
[使用发音符号的匹配]
在使用图9和图10的语音搜索设备50进行语音搜索时,用语音识别单元51执行输入语音的语音识别,并且,在存储在搜索结果存储单元53中的搜索结果词串与语音识别结果之间执行匹配。
图11是示出使用语音识别结果和搜索结果词串中的每个的标记符号以词为单位执行其语音识别结果与搜索结果词串之间的匹配的情况下的处理示例的图。
在图11中,关于日文输入语音“toshi no sekai isan jiyu no megami”(英文“World Heritage City,Statue of Liberty”),获得了语音识别结果“toshi no sekai isan jiyu no megami”(英文“World Heritage City,Statueof Liberty”),并且,语音识别结果“toshi no sekai isan jiyu no megami”被以词为单位分割为“toshi/no/sekai/isan/jiyu/no/megami”。
此外,将以词为单位的语音识别结果“toshi/no/sekai/isan/jiyu/no/megami”(英文“World Heritage City,Statueof Liberty”)与如节目标题匹配,作为以词为单位的搜索结果词串。
图12是示出使用语音识别结果和搜索结果词串中的每个的标记符号以词为单位执行其语音识别结果与搜索结果词串之间的匹配的情况下的另一处理的图。
在图12中,关于英文输入语音“World Heritage CityThe Statue ofLiberty”,获得了语音识别结果“World Heritage City The Statue ofLiberty”,并且以词为单位将语音识别结果“World Heritage City TheStatue of Liberty”分割为“World/Heritage/City/The/Statue/of/Liberty”。
此外,对以词为单位的语音识别结果“World/Heritage/City/The/Statue/of/Liberty”与作为以词为单位的搜索结果词串的例如节目标题进行匹配。
图13和图14是描述使用语音识别结果和搜索结果词串中的每个的标记符号,以词为单位执行语音识别结果与搜索结果词串之间的匹配的情况,以及以一个或更多个标记符号为单位执行匹配的情况的图。
在图13中,与英文输入语音“Lime Wire”相比,获得了语音识别结果“Dime Wired”。
输入语音为“Lime Wire”,从而期望与输入语音的语音识别结果最佳匹配的用于搜索的词串是与输入语音相同的“Lime Wire”。
然而,在这种情况下,与输入语音“Lime Wire”相比获得的语音识别结果是“Dime Wired”,从而,如果使用标记符号来执行语音识别结果“Dime Wired”与用于搜索的词串“Lime Wire”的以词为单位的匹配,则没有一个词匹配(match)。
另一方面,在使用标记符号来执行语音识别结果“Dime Wired”与用于搜索的词串“Lime Wire”的匹配的情况下,例如,如果以4连字标记符号为单位来执行匹配,则有4个字符串(字符)匹配。
现在,在图13的以4连字标记符号为单位的匹配过程中,根据字符串“$Dime Wired$”和字符串“$Lime Wire$”来确定是否可以匹配,其中,作为表示讲话的开始和结束的字符的$被附加给语音识别结果“DimeWired”的开始和结束中的每个,用作四个连续的标记符号的字符串(字符)是通过将开始位置一次移动一个标记符号来提取的,其为“$Dim”、“Dime”、“ime_w”、“me_wi”、“e_wir”、“wire”、“ired”和“red$”;并且,为表示讲话的开始和结束的字符的$被附加给用于搜索的词串“Lime Wire”的开始和结束中的每个,用作四个连续的标记符号的字符串中是通过将开始位置一次移动一个标记符号来提取的,其为“$Lim”、“Lime”、“ime_w”、“me_wi”、“e_wir”、“wire”和“ire$”。需要注意,在字符串“ime_w”等中,下划线(_)表示断字(word break)。
接着,在图14中,关于英文输入语音“tolkien”,获得了语音识别结果“toll keene”。
输入语音为“tolkien”,从而期望与输入语音的语音识别结果最佳匹配的用于搜索的词串与输入语音“tolkien”相同。
然而,在这种情况下,与输入语音“tolkien”相比获得的语音识别结果为“toll keene”,从而,如果使用标记符号以词为单位来执行语音识别结果“toll keene”与用于搜索的词串“tolkien”的匹配,则没有一个词可以匹配。
另一方面,在使用标记符号来执行语音识别结果“toll keene”与用于搜索的词串“tolkien”的匹配的情况下,如果例如以2连字标记符号为单位来执行,则有4个字符串(字符)匹配。
现在,在图14的以2连字标记符号为单位的匹配中,根据字符串“$tollkeen$”和字符串“$tolkien$”来确定是否可以进行匹配,其中,为表示讲话的开始和结束的字符的$被附加给语音识别结果“toll keen”的开始和结束中的每个,用作两个连续的标记符号的字符串(字符)是通过将开始位置一次移动一个标记符号来提取的,其为“$t”、“to”、“ol”、“ll”、“l_k”、“_ke”、“ee”、“en”、“ne”和“e$”;并且,为表示讲话的开始和结束的字符的$被附加给用于搜索的词串“tolkien”的开始和结束中的每个,用作两个连续的标记符号的字符串是通过将开始位置一次移动一个标记符号来提取的,其为“$t”、“to”、“ol”、“lk”、“ki”、“ie”、“en”和“n$”。需要注意,如图13所述,字符串“l_k”等中的下划线(_)表示断字。
根据以上描述,通过使用标记符号的匹配,可以以一个或更多个标记符号为单位而非以词为单位执行更鲁棒的匹配。
然而,通过使用标记符号的匹配,可能不会输出对应于输入语音的词串作为搜索结果词串。
也就是说,标记符号可能与发音不匹配。
具体地,例如在日文中,某个平假名字符的发音在某些情况下为“ha”,而在某些情况下为“wa”,但是使用标记符号不能表达出发音的不同。
此外,在日文中,使用标记符号,可能具有多个读法的日本汉字(Kanji,中文字符)不能表达例如某个字符应当读作(发音为)“shi”(英文“municipality”)还是“ichi”(英文“market”)。
另一方面,例如,用标记符号表示的词串“toshi no sekai isan”(英文“World Heritage City”)与“toshi-no-se kaisan”(英文“End-of-the-yearDissolution”)具有相同的发音,但是除了“no”(英文“of”)之外,标记符号不同。
因此,如果语音识别结果为“toshi no sekai isan”(英文“WorldHeritage City”)和“toshi-no-se kaisan”(英文“End-of-the-yearDissolution”),则通过使用标记符号的匹配,可以获得不同的匹配结果,但是这对于语音搜索的性能而言不一定是有利的。
也就是说,图15是描述了如下情况的图,其中,在日文中,在使用标记符号的匹配的情况下,关于发音匹配但是标记不同的语音识别结果获得不同的匹配结果对于语音搜索性能是不利的。
在图15中,执行日文输入语音“toshi no sekai isan”(英文“WorldHeritage City”)的语音识别,在发音与输入语音“toshi no sekai isan”匹配的情况下,获得了具有不同标记的错误的语音识别结果“toshi-no-sekaisan”(英文“End-of-the-year Dissolution”)。
此外,在图15中,语音识别结果“toshi-no-se kaisan”以标记符号为单位被分割成“toshi/no/se/kai/san”,并且,以标记符号为单位(1连字(一个字符)标记符号为单位)执行匹配。
此外,在图15中,例如,作为要匹配的搜索结果的词串,准备了三个节目“sekai isan toshi no isan”(英文“Heritage of World HeritageCity”)、“seto no haisha san”(濑户的牙医)和“shuin kaisan no toshi”(英文“year to dissolve the Lower House”)作为节目标题。
使用语音识别结果“toshino-se kaisan”和搜索结果的词串“sekai isantoshi no isan”,以标记符号为单位,仅图中的被圈出的一个标记符号“no”匹配。
此外,使用语音识别结果“toshi-no-se kaisan”和搜索结果词串“setono haisha san”,以标记符号为单位,图中的被圈出的两个标记符号“se”和“no”匹配。
此外,使用语音识别结果“toshi-no-se kaisan”和搜索结果的词串“shuin kaisan no toshi”,以标记符号为单位,图中的被圈出的四个标记符号“kai”、“san”、“no”和“toshi”匹配。
因而,作为语音识别结果与搜索结果词串之间的相似度,根据以标记符号为单位的匹配,语音识别结果“toshi-no-se kaisan”与搜索结果词串“shuin kaisan no toshi”之间的相似度最高。
也就是说,例如,采用余弦距离作为在以标记符号为单位匹配时建立的相似度。
此外,例如,采用如下向量作为表示词串的向量,其中,对应于词串中存在的标记符号的分量为1,而对应于词串中不存在的标记符号的分量为0,并且,使用表示两个词串的向量来求出作为两个词串之间的相似度的余弦距离。
在这种情况下,利用以标记符号为单位的匹配,分别求出:语音识别结果“toshi-no-se kaisan”与搜索结果的词串“sekai isan toshi no isan”之间的相似度为0.15;语音识别结果“toshi-no-se kaisan”与搜索结果的词串“seto no haisha san”之间的相似度为0.32;语音识别结果“toshi-no-sekaisan”与搜索结果的词串“shuin kaisan no toshi”之间的相似度为0.73。
因而,例如,通过输出作为匹配结果获得的具有最高相似度的搜索结果词串例如作为搜索结果词串,输入语音“toshi no sekai isan”的语音识别错误,并且如果获得了语音识别结果“toshi-no-se kaisan”,则输出用作搜索结果的词串的三个节目标题“sekai isan toshi no isan”、“seto nohaisha san”和“shuin kaisan no toshi”中的“shuin kaisan no toshi”作为搜索结果词串。
关于输入语音“toshi no sekai isan”,应当输出上述三个节目标题“sekai isan toshi no isan”、“seto no haisha san”和“shuin kaisan no toshi”中的第一节目标题“sekai isan toshi no isan”作为搜索结果词串。
然而,当输入语音“toshi no sekai isan”发音(读音)匹配时,如果语音识别为具有不同标记的“toshi-no-se kaisan”,则输出节目标题如与“toshi no sekai isan”无关的“shuin kaisan no toshi”而非节目标题如与输入语音“toshi no sekai isan”相称的“sekai isan toshi no isan”,作为搜索结果词串。
需要注意,如果获得了与输入语音“toshi no sekai isan”标记匹配的“toshi no sekai isan”作为语音识别结果,则“sekai isan toshi no isan”与输入语音“toshi no sekai isan”的相似度最高,并且,输出“sekai isantoshi no isan”作为搜索结果词串。
如上所述,在语音识别结果为“toshi no sekai isan”的情况下,以及在“toshi-no-se kaisan”的情况下,通过使用标记符号进行的匹配,匹配结果(语音识别结果与各搜索结果词串之间的相似度)可以不同,从而,存在如下情况,其中,输出诸如“sekai isan toshi no isan”的节目标题,其为对于输入语音“toshi no sekai isan”合适的节目标题,并且还存在如下情况,其中,输出诸如“shuin kaisan no toshi”的节目标题作为搜索结果词串,其与输入语音“toshi no sekai isan”无关。
图16是描述了如下情况的图,其中,在英文中,在使用标记符号的匹配的情况下,关于发音匹配但标记不同的语音识别结果获得不同的匹配结果对于语音搜索性能是不利的。
在英文中,标记符号(字母字符)可以不同,但是发音可以匹配。
例如,用标记符号表示的词串“tolkien”和“toll keene”发音匹配,但是标记符号不同。
因此,在语音识别结果为“tolkien”的情况下以及在“toll keene”的情况下,通过使用标记符号匹配,可以获得不同的匹配结果,但是这对于语音搜索的性能不一定是有利的。
也就是说,在图16中,执行英文输入语音“tolkien”的语音识别,并且,在匹配输入语音“tolkien”的发音的情况下,获得了具有不同标记的不同的语音识别结果“toll keene”。
此外,在图16中,作为节目标题,例如准备了“tolkien”、“tom keene”和“toe clean”三个作为要匹配的搜索结果词串。
此外,在图16中,作为使用标记符号的匹配,以词为单位、以1连字为单位(以一个字符为单位)(以标记符号为单位)和以2连字为单位执行匹配。
现在,例如,类似于图15的情况,作为要在使用标记符号的匹配时求出的相似度,如果采用余弦距离,则用作搜索结果词串的节目标题“tolkien”、“tom keene”和“toe clean”的相似度如下。
也就是说,以词为单位,语音识别结果“toll keene”与搜索结果词串“tolkien”之间没有一个词匹配。
此外,以词为单位,语音识别结果“toll keene”与搜索结果的词串“tomkeene”之间,图中的被圈出的一个词匹配。
此外,以词为单位,语音识别结果“toll keene”与搜索结果的词串“toeclean”之间没有一个词匹配。
因此,关于通过使用标记符号以词为单位匹配而求出的语音识别结果与搜索结果词串之间的相似度,语音识别结果“toll keene”与搜索结果的词串“tom keene”之间的相似度最高。
也就是说,通过使用标记符号以词(word)为单位进行匹配,分别求出:语音识别结果“toll keene”与搜索结果词串“tolkien”之间的相似度为0.0;语音识别结果“toll keene”与搜索结果词串“tom keene”之间的相似度为0.5;语音识别结果“toll keene”与搜索结果词串“toe clean”之间的相似度为0.0。
因此,例如,如果输出根据匹配结果获得的具有最高相似度的搜索结果词串作为搜索结果词串,则输入语音“tolkien”的语音识别产生错误,并且获得了语音识别结果“toll keene”,在这种情况下,在三个作为搜索结果词串的节目标题“tolkien”、“tom keene”和“toe clean”中,输出“tomkeene”作为搜索结果词串。
关于输入语音“tolkien”,应当输出上述三个节目标题“tolkien”、“tomkeene”和“toe clean”中的第一个节目标题“tolkien”作为搜索结果词串。
然而,如果语音识别由发音(读音)匹配但是标记不同的输入语音“tolkien”构成,如“toll keene”,则通过使用标记符号以词为单位进行匹配,输出节目标题如与“tolkien”无关的“tom keene”而非与输入语音“tolkien”相称的节目标题“tolkien”作为搜索结果词串。
此外,以标记符号(字母字符)为单位,在语音识别结果“toll keene”与搜索结果的词串“tolkien”之间,有6个标记符号匹配,这6个标记符号在图中被圈出。
此外,以标记符号为单位,在语音识别结果“toll keene”与搜索结果的词串“tom keene”之间,有7个标记符号匹配,这7个标记符号在图中被圈出。
此外,以标记符号为单位,在语音识别结果“toll keene”与搜索结果的词串“toe clean”之间,有6个标记符号匹配,这6个标记符号在图中被圈出。
因而,关于通过以标记符号为单位进行匹配求出的语音识别结果与搜索结果词串之间的相似度,语音识别结果“toll keene”与搜索结果的词串“tom keene”之间的相似度最高。
也就说,通过以标记符号为单位进行匹配,分别求出:语音识别结果“toll keene”与搜索结果的词串“tolkien”的相似度为0.76;语音识别结果“toll keene”与搜索结果的词串“tom keene”的相似度为0.83;语音识别结果“toll keene”与搜索结果的词串“toe clean”的相似度为0.71。
因而,例如,如果输出根据匹配结果获得的具有最高相似度的搜索结果的词串作为搜索结果词串,则输入语音“tolkien”的语音识别产生错误,并且获得了语音识别结果“toll keene”,在这种情况下,输出了作为搜索结果的词串的三个节目标题“tolkien”、“tom keene”和“toe clean”中的“tom keene”作为搜索结果词串。
关于输入语音“tolkien”,应当输出上述三个节目标题“tolkien”、“tomkeene”和“toe clean”中的第一个节目标题“tolkien”作为搜索结果词串。
然而,如果语音识别由发音(读音)匹配但标记不同的输入语音“tolkien”构成,如“toll keene”,则类似于上述以词为单位进行的匹配,通过以标记符号为单位进行匹配,输出节目标题如与“tolkien”无关的“tomkeene”而非与输入语音“tolkien”相称的节目标题“tolkien”作为搜索结果词串。
此外,以2连字标记符号(字母双连字)为单位,在语音识别结果“tollkeene”与搜索结果词串“tolkien”之间,有4个2连字标记符号匹配,这4个2连字标记符号在图中被圈出。
此外,以2连字标记符号为单位,在语音识别结果“toll keene”与搜索结果的词串“tom keene”之间,有5个2连字标记符号匹配,这5个2连字标记符号在图中被圈出。
此外,以2连字标记符号为单位,在语音识别结果“toll keene”与搜索结果的词串“toe clean”之间,有1个2连字标记符号匹配,这1个2连字标记符号在图中被圈出。
因而,关于通过以2连字标记符号为单位进行匹配求出的语音识别结果与搜索结果词串之间的相似度,语音识别结果“toll keene”与搜索结果词串“tom keene”之间的相似度最高。
也就说,通过以2连字标记符号为单位进行匹配,分别求出:语音识别结果“toll keene”与搜索结果的词串“tolkien”的相似度为0.58;语音识别结果“toll keene”与搜索结果的词串“tom keene”的相似度为0.67;语音识别结果“toll keene”与搜索结果的词串“toe clean”的相似度为0.13。
因而,例如,如果输出根据匹配结果获得的具有最高相似度的搜索结果词串作为搜索结果词串,则输入语音“tolkien”的语音识别产生错误,并且获得了语音识别结果“toll keene”,在这种情况下,输出了作为搜索结果词串的三个节目标题“tolkien”、“tom keene”和“toe clean”中的“tomkeene”作为搜索结果词串。
关于输入语音“tolkien”,应当输出上述三个节目标题“tolkien”、“tomkeene”和“toe clean”中的第一个节目标题“tolkien”作为搜索结果词串。
然而,如果语音识别由发音(读音)匹配但标记不同的输入语音“tolkien”构成,如“toll keene”,则类似于上述以词为单位和以标记符号为单位进行匹配,通过以2连字标记符号为单位进行匹配,输出节目标题如与“tolkien”无关的“tom keene”而非与输入语音“tolkien”相称的节目标题“tolkien”作为搜索结果词串。
需要注意,如果根据语音识别结果获得了标记与输入语音“tolkien”匹配的“tolkien”,则通过以词为单位、以标记符号为单位和以2连字标记符号为单位进行匹配中的任一种,输入语音“tolkien”与相称的节目标题“tolkien”之间的相似度最高,并且输出“tolkien”作为搜索结果词串。
如上所述,在语音识别结果为“tolkien”的情况下,以及在“toll keene”的情况下,通过使用标记符号进行的匹配,匹配结果(语音识别结果与各种搜索结果词串之间的相似度)不同,从而,存在如下情况,其中输出了与输入语音“tolkien”相称的节目标题“tolkien”作为搜索结果词串,并且还存在如下情况,其中没有输出相称的标题,而是输出了与输入语音“tolkien”无关的诸如“tom keene”的节目标题作为搜索结果词串。
现在,利用语音搜索设备50的匹配单元56(图9和图10),为了防止不输出与输入语音相称的节目标题作为搜索结果词串,执行使用发音符号的匹配。
现在,发音符号例如是表示音节或音素的发音的符号,并且,对于日文,采用表示读音的平假名。
对于使用发音符号的匹配,可以采用(单)音节、2连字或更多的音节、(单)音素、2连字或更多的音素等作为匹配单位。
需要注意,通过使用发音符号进行的匹配,根据采用的匹配单位的类型,匹配结果或者语音搜索的性能不同。
图17是描述在执行日文输入语音的语音识别,并且采用两个连续音节(连续的两个音节)作为匹配单元56(图9)的匹配单位的情况下,图9的发音符号转换单元52中的处理的图。
日文输入语音的语音识别结果(的例如标记符号)被从语音识别单元51提供给发音符号转换单元52。
发音符号转换单元52将从语音识别单元51提供的语音识别结果转换成音节的排列。
此外,发音符号转换单元52将要关注的音节从语音识别结果中的音节的排列的前部朝着后部移动,一次移动一个音节,并且提取作为关注的音节和紧接在关注的音节之后的音节这两个音节的2连字音节,并且将该2连字音节的排列作为识别结果发音符号串提供给匹配单元56(图9)。
图18是描述在采用2连字音节作为与匹配单元56(图9)匹配的单位的情况下图9的发音符号转换单元55中的处理的图。
通过词素分析单元54对存储在搜索结果存储单元53中的用作搜索结果词串的节目标题等进行词素分析,并且将其提供给发音符号转换单元55。
发音符号转换单元55将从词素分析单元54提供的搜索结果词串转换成音节的排列。
此外,发音符号转换单元55将要关注的关注音节从搜索结果词串中的音节排列的前部朝着后部移动,一次移动一个音节,并且提取作为关注的音节和紧接在关注的音节之后的音节这两个音节的2连字音节,并且将该2连字音节的排列作为搜索结果的发音符号串提供给匹配单元56(图9)。
图19是描述在执行英文输入语音的语音识别并且采用两个连续的音素(连续的两个音素)作为与匹配单元56(图10)的匹配单位的情况下发音符号转换单元52和55中的处理的图。
英文输入语音的语音识别结果(的例如标记符号)被从语音识别单元51提供给发音符号转换单元52。
此外,将存储在搜索结果存储单元53中的用作搜索结果词串的节目标题等提供给发音符号转换单元55。
发音符号转换单元52将从语音识别单元51提供的语音识别结果(的每个词)转换成音素的排列(表示音素的发音符号)。接着,发音符号转换单元52将要关注的音素从语音识别结果中的音素排列的前部朝着后部移动,一次移动一个音素,并且提取作为关注的音素和紧接在关注的音素之后的音素这两个音素的2连字音素,并且将该2连字音素的排列作为识别结果发音符号串提供给匹配单元56(图10)。
类似地,发音符号转换单元55将从搜索结果存储单元53提供的搜索结果词串转换成音素的排列。接着,发音符号转换单元55将要关注的音素从搜索结果词串中的音素排列的前部朝着后部移动,一次移动一个音素,并且提取作为关注的音素和紧接在关注的音素之后的音素这两个音素的2连字音素,并且将该2连字音素的排列作为识别结果发音符号串提供给匹配单元56(图10)。
现在,在图19中,具有斜线(/)的字符分段表示作为发音符号的音素,并且是作为由国际语音学协会确定的IPA(国际音标)的语音符号。稍后描述的图21和图23也是如此。
图20是描述图9的匹配单元56以2连字音节为单位执行的匹配的图。
例如,在通过语音识别单元51对日文输入语音进行语音识别的情况下,使用匹配单元56来执行以2连字音节为单位的匹配。
此外,在匹配单元56例如要求出余弦距离作为识别结果发音符号串与搜索结果发音符号串之间的相似度,用作识别结果发音符号串与搜索结果发音符号串之间的以2连字音节为单位的匹配的情况下,匹配单元56根据构成识别结果发音符号串的2连字音节来求出作为表示识别结果发音符号串的向量的识别结果向量。
也就是说,匹配单元56求出如下向量作为表示识别结果发音符号串的识别结果向量,在该向量中,对应于识别结果发音符号串中存在的2连字音节的分量为1,而对应于识别结果发音符号串中不存在的2连字音节的分量为0。
此外,仍然对于节目标题等,例如,关于存储在搜索结果存储单元53中的搜索结果词串中的每个,匹配单元56类似地基于构成搜索结果词串的搜索结果发音符号串的2连字音节来求出搜索结果的向量,该向量是表示搜索结果的发音符号串的向量。
此外,匹配单元56执行以2连字音节为单位的匹配,其中,用识别结果向量与搜索结果向量的内积除以识别结果向量的大小与搜索结果向量的大小之积,将求出的值作为余弦距离,该余弦距离作为语音识别结果与对应于搜索结果向量的搜索结果词串之间的相似度。
图21是描述图10的匹配单元56以2连字音素为单位执行匹配的情况下的匹配的图。
例如,在用语音识别单元51执行英文输入语音的语音识别的情况下,用匹配单元56执行例如以2连字音素为单位的匹配。
此外,在匹配单元56例如要求出余弦距离作为识别结果发音符号串与搜索结果发音符号串之间的相似度,用作识别结果发音符号串与搜索结果的发音符号串之间的以2连字音素为单位的匹配的情况下,匹配单元56根据构成识别结果发音符号串的2连字音素来求出作为表示识别结果发音符号串的向量的识别结果向量。
也就是说,匹配单元56求出如下向量,其中,对应于识别结果发音符号串中存在的2连字音素的分量为1,而对应于识别结果发音符号串中不存在的2连字音素的分量为0,将该向量作为表示识别结果发音符号串的识别结果向量。
此外,仍然对于节目标题等,例如,关于存储在搜索结果存储单元53中的搜索结果词串中的每个,匹配单元56类似地根据构成搜索结果词串的搜索结果发音符号串的2连字音素来求出搜索结果的向量,该向量是表示搜索结果的发音符号串的向量。
此外,匹配单元执行以2连字音素为单位的匹配,其中,用识别结果向量与搜索结果向量的内积除以识别结果向量的大小与搜索结果向量的大小之积,将求出的值作为余弦距离,该余弦距离作为语音识别结果与对应于搜索结果向量的搜索结果词串之间的相似度。
图22是示出了用日文的以词为单位的匹配、以(一个)音节为单位的匹配以及以2连字音节为单位的匹配的结果的图。
需要注意,在图22中,类似于图15,关于日文输入语音“toshi no sekaiisan”(英文“World Heritage City”),获得错误的语音识别结果“toshi nose kaisan”(英文“End-of-year Dissolution”),并且,作为搜索结果词串,准备了三个节目“sekai isan toshi no isan”(英文“Heritage of WorldHeritage City”)、“seto no haisha san”(濑户的牙医)和“shuin kaisan notoshi”(英文“year to dissolve the Lower House”)作为节目标题。
此外,在图22中,执行使用标记符号的以词为单位的匹配、使用发音符号的以音节为单位的匹配以及使用发音符号的以2连字音节为单位的匹配。
此外,在图22中,圈出了搜索结果词串中与语音识别结果“toshi-no-sekaisan”的发音符号的词匹配的词或发音符号。
通过以词为单位进行的匹配,求出语音识别结果“toshi no se kaisan”与搜索结果词串“sekai isan toshi no isan”、“seto no haisha san”和“shuinkaisan no toshi”之间的相似度(余弦距离)分别为0.22、0.25和0.75。
因而,例如,通过输出作为匹配结果获得的具有最高相似度的搜索结果词串例如作为搜索结果词串,输入语音“toshi no sekai isan”的语音识别是错误的,并且在获得了语音识别结果“toshi-no-se kaisan”的情况下,通过以词为单位进行的匹配,在用作搜索结果词串的三个节目标题“sekaiisan toshi no isan”、“seto no haisha san”和“shuin kaisan no toshi”中,与语音识别结果“toshi-no-se kaisan”具有最高相似度0.75的搜索结果词串“shuin kaisan no toshi”被作为搜索结果词串输出。
关于输入语音“toshi no sekai isan”,应当输出上述三个节目标题“sekai isan toshi no isan”、“seto no haisha san”和“shuin kaisan no toshi”中的第一个节目标题“sekai isan toshi no isan”作为搜索结果词串。
然而,当输入语音“toshi no sekai isan”在发音(读音)上匹配时,如果得到语音识别为具有不同标记的“toshi-no-se kaisan”,通过以词为单位的匹配,作为搜索结果词串输出与“toshi no sekai isan”无关的节目标题诸如“shuin kaisan no isan”,而非与输入语音“toshi no sekai isan”相称的节目标题诸如“sekai isan toshi no isan”,。
在也以标记符号为单位而非以词为单位使用标记符号进行匹配的情况下,如图15所述,关于输入语音“toshi no sekai isan”的错误语音识别结果“toshi-no-se kaisan”,输出与输入语音“toshi no sekai isan”无关的节目标题“shuin kaisan no toshi”作为搜索结果词串。
通过使用发音符号的以音节为单位的匹配,求出语音识别结果“toshi-no-se kaisan”与搜索结果词串“sekai isan toshi no isan”、“seto nohaisha san”和“shuin kaisan no toshi”的相似度分别为0.82、1.0和0.75。
因而,例如,如果输出作为匹配结果获得的具有最高相似度的搜索结果词串作为搜索结果词串,在输入语音“toshi no sekai isan”的语音识别错误,并且使用发音符号的以音节为单位匹配获得语音识别结果“toshi-no-se kaisan”的情况下,在用作搜索结果词串的三个节目标题“sekai isan toshi no isan”、“seto nohaisha san”和“shuin kaisan no toshi”中,输出与语音识别结果“toshi-no-se kaisan”具有最高相似度1.0的搜索结果的词串作为搜索结果词串。
也就是说,如果输入语音“toshi no sekai isan”在发音上匹配但是语音识别变为具有不同标记的“toshi-no-se kaisan”,则通过使用发音符号的以音节为单位的匹配,作为搜索结果词串输出与“toshi no sekai isan”无关的节目标题诸如“seto no haisha san”,而不是与输入语音“toshi no sekaiisan”相称的节目标题诸如“sekai isan toshi no isan”,。
需要注意,通过使用标记符号的以词为单位的匹配,与输入语音“toshino sekai isan”相称的标题“sekai isan toshi no isan”的相似度为0.22,其为三个搜索结果词串中的第三个(最小)值,而通过使用发音符号的以音节为单位的匹配,与输入语音“toshi no sekai isan”相称的标题“sekai isantoshi no isan”的相似度为0.82,其为三个搜索结果词串中的第二个值。
因而,使用发音符号的以音节为单位的匹配比使用标记符号的以词为单位的匹配更有效,这是因为与使用标记符号的以词为单位的匹配的情况相比,与输入语音“toshi no sekai isan”相称的节目标题“sekai isan toshino isan”的相似度更高。
在这种情况下,通过使用发音符号的以2连字音节为单位的匹配,求出语音识别结果“toshi-no-se kaisan”与搜索结果词串“sekai isan toshi noisan”、“seto no haisha san”和“shuin kaisan no toshi”之间的相似度分别为0.68、0.43和0.48。
因而,例如,通过输出作为匹配结果获得的具有最高相似度的搜索结果词串例如作为搜索结果词串,输入语音“toshi no sekai isan”的语音识别是错误的,并且即使在获得语音识别结果“toshi-no-se kaisan”的情况下,通过使用发音符号的以2连字音节为单位的匹配,在用作搜索结果词串的三个节目标题“sekai isan toshi no isan”、“seto no haisha san”和“shuin kaisan no toshi”中,作为搜索结果词串输出与语音识别结果“tosh-no-se kaisan”具有最高相似度0.68的搜索结果的词串,即与输入语音“toshi no sekai isan”相称的节目标题“sekai isan toshi no isan”。
图23是示出用英文以词为单位的匹配、以(一个)音素为单位的匹配以及以2连字音素为单位的匹配的结果的图。
需要注意,在图23中,类似于图16,关于英文输入语音“tolkien”获得了错误的语音识别结果“toll keene”,并且例如提供了三个节目标题“tolkien”、“tom keene”和“toe clean”作为搜索结果词串。
此外,在图23中,执行使用标记符号的以词为单位的匹配、使用发音符号的以音素为单位的匹配以及使用发音符号以2连字音素为单位的匹配。
此外,在图23中,圈出了搜索结果词串的与语音识别结果“toll keene”的词或发音符号(音素)匹配的词或发音符号。
通过以词为单位的匹配,求出语音识别结果“toll keene”与搜索结果词串“tolkien”、“tom keene”和“toe clean”之间的相似度分别为0.0、0.5和0.0。
因而,例如,在输出作为匹配结果获得的具有最高相似度的搜索结果词串作为搜索结果词串的情况下,输入语音“tolkien”的语音识别是错误的,并且获得语音识别结果“toll keene”,通过以词为单位的匹配,在用作搜索结果词串的三个节目标题“tolkien”、“tom keene”和“toe clean”中,输出与语音识别结果“toll keene”具有最高相似度0.5的搜索结果词串“tom keene”作为搜索结果词串。
关于输入语音“tolkien”,应当输出上述三个节目标题“tolkien”、“tomkeene”和“toe clean”中的第一个节目标题“tolkien”作为搜索结果词串。
然而,如果由发音(读音)匹配但是标记不同的输入语音“tolkien”进行语音识别,如“toll keene”,则通过使用标记符号的以词为单位的匹配,作为搜索结果词串输出与“tolkien”无关的节目标题诸如“tom keene”,而非与输入语音“tolkien”相称的节目标题“tolkien”。
需要注意,在以标记符号为单位而非以词为单位使用标记符号进行匹配的情况下,如图16所示,作为搜索结果词串输出与输入语音“tolkien”的错误语音识别结果“toll keene”无关的节目标题诸如“tom keene”。
通过使用发音符号的以音素为单位的匹配,求出语音识别结果“tollkeene”与搜索结果词串“tolkien”、“tom keene”和“toe clean”之间的相似度分别为1.0、0.46和1.0。
因而,例如,在输出根据匹配结果获得的具有最高相似度的搜索结果词串作为搜索结果词串的情况下,输入语音“tolkien”的语音识别是错误的,并且获得了语音识别结果“toll keene”,通过使用发音符号的以音素为单位的匹配,在用作搜索结果词串的三个节目标题“tolkien”、“tomkeene”和“toe clean”中,输出与语音识别结果“toll keene”具有最高相似度1.0的搜索结果的词串“tolkien”和“toe clean”作为搜索结果词串。
也就是说,如果输入语音“tolkien”被语音识别为发音匹配但是标记不同的“toll keene”,则通过使用发音符号的以音素为单位的匹配,输出与节目标题“tolkien”(其输入语音“tolkien”相称)无关的节目标题诸如“tom keene”作为搜索结果词串,然而,也输出与输入语音“tolkien”相称的节目标题“tolkien”作为搜索结果词串。
如上所述,通过使用发音符号的以音素为单位的匹配,即使在输入语音“tolkien”被识别为发音匹配但是标记不同的“toll keene”的情况下,也输出与输入语音“tolkien”相称的节目标题“tolkien”作为搜索结果词串。
通过使用发音符号的以2连字音素为单位的匹配,求出语音识别结果“toll keene”与每个搜索结果的词串“tolkien”、“tom keene”和“toe clean”之间的相似度分别为1.0、0.37和0.5。
因而,例如,在输出根据匹配结果获得的具有最高相似度的搜索结果的词串作为搜索结果词串的情况下,输入语音“tolkien”的语音识别是错误的,并且获得了语音识别结果“toll keene”,通过使用发音符号的以2连字音素为单位的匹配,在用作搜索结果词串的三个节目标题“tolkien”、“tom keene”和“toe clean”中,作为搜索结果词串输出与语音识别结果“toll keene”具有最高相似度1.0的搜索结果的词串,即与输入语音“tolkien”相称的节目标题“tolkien”。
如上所述,与使用标记符号执行匹配的情况相比,根据使用发音符号的匹配,能够以更鲁棒的方式执行对应于输入语音的词串搜索。
也就是说,根据使用发音符号的匹配,即使在语音识别不正确的情况下,也能够防止(减少)对应于输入语音的词串搜索被作为搜索结果词串输出。
[作为经修正的余弦距离的修正距离]
在匹配单元56(图9和图10)中,例如在采用余弦距离作为语音识别结果(的识别结果发音串)与搜索结果词串(的搜索结果的发音符号串)之间的相似度的情况下,如上所述,可以求出如下向量,其中,对应于识别结果发音符号串中存在的(2连字)音节的分量为1,而对应于识别结果发音符号串中不存在的音节的分量为0,将该向量作为表示识别结果发音符号串的识别结果向量。
此外,通过匹配单元56,类似地,能够求出表示搜索结果词串的搜索结果发音符号串的搜索结果向量。
现在,根据本实施例,通过根据识别结果发音符号串中是否存在对应于分量的音节将识别结果向量的分量值设置为1或0,关于识别结果向量的分量值,可以采用tf(词频),tf为对应于该分量的音节在识别结果发音符号串中出现的频率。
此外,例如,识别结果向量的分量值可以采用idf(反文档频率),idf对于不成比例地出现在某个搜索结果词串中的音节变得较大,而对于遍布很多搜索结果词串出现的音节变得较小,或者可以采用结合tf和idf的TF-IDF。
搜索结果向量也与此类似。
现在,如果将识别结果向量表示为VUTR,并且,将存储在搜索结果存储单元53(图9和图10)中的第i个搜索结果词串的搜索结果向量表示为VTITLE(i),则根据表达式(1)计算作为语音识别结果与第i个搜索结果词串之间的相似度的余弦距离D。
D=VUTR·VTITLE(i)/(|VUTR||VTITLE(i)|)(1)
在表达式(1)中,·表示内积,|x|表示向量x的大小(模)。因而,可以通过用识别结果向量VUTR与搜索结果向量VTITLE(i)的内积VUTR·VTITLE(i)除以识别结果向量VUTR的大小|VUTR|与搜索结果的向量VTITLE(i)的大小|VTITLE(i)|之积|VUTR||VTITLE(i)|来求出余弦距离D。
余弦距离D取0.0至1.0范围内的值,表示:该值越大,用识别结果向量VUTR表示的识别结果发音符号串与用搜索结果向量VTITLE(i)表示的搜索结果发音符号串越相似。
如上所述,余弦距离D是通过用识别结果向量VUTR与搜索结果向量VTITLE(i)的内积VUTR·VTITLE(i)除以识别结果向量VUTR的大小|VUTR|与搜索结果的向量VTITLE(i)的大小|VTITLE(i)|之积|VUTR||VTITLE(i)|而求出的,从而,语音识别结果与搜索结果词串之间的长度差会影响余弦距离D。
现在,关于语音识别结果与搜索结果词串之间的长度差,当执行语音识别结果与搜索结果词串之间的匹配时,即,在使用标记符号计算余弦距离作为相似度的情况下,给出语音识别结果与搜索结果词串中的标记符号的数量,如果使用标记符号以词为单位执行以计算相似度,则给出语音识别结果和搜索结果词串中的词的数量,如果使用发音符号以音节为单位执行以计算相似度,则给出语音识别结果与搜索结果词串中的音节的数量,如果使用发音符号以2连字音节为单位执行以计算相似度,则给出语音识别结果和搜索结果词串中的2连字音节的数量,如果使用发音符号以音素为单位执行以计算相似度,则给出语音识别结果和搜索结果词串中的音素的数量,而如果使用发音符号以2连字音素为单位执行以计算相似度,则给出语音识别结果和搜索结果词串中的2连字音素的数量。
现在,为了简化描述,如果计算余弦距离D作为使用标记符号的以词为单位的语音识别结果与搜索结果词串之间的匹配,则用作相似度的表达式(1)中的余弦距离D的计算包括:用搜索结果向量VTITLE(i)除以大小|VTITLE(i)|,从而,例如,虽然包括相同的词串作为语音识别结果,但是在长度(在此为词的数量)较长的搜索结果词串和长度较短的搜索结果词串中,存在如下趋势,其中,与短的搜索结果词串的相似度较高(余弦距离D较大),而与长的搜索结果词串的相似度较低(余弦距离D较小)。
因而,即使获得具有较长长度的搜索结果词串的一部分作为词识别结果,仍然不会给予词识别结果与具有较长长度的搜索结果词串之间的相似度较高的排名,并且,不输出这样的搜索结果词串作为搜索结果词串,从而,可能使对应于输入语音的词串的搜索准确度劣化。
也就是说,例如,如果说出长标题的一部分,则不给予长标题的相似度较高的排名,并且,可能不会输出长标题作为搜索结果词串。
此外,由于类似的原因,虽然相同的词串被包括作为预定的搜索结果词串,但是在具有较长长度的语音识别结果和具有较短长度的语音识别结果中,存在如下趋势,其中,长语音识别结果与预定的搜索结果词串之间的相似度较低,而短语音识别结果与预定的搜索结果词串之间的相似度较高。
因而,当相同的词串被包括作为预定的搜索结果词串,但是语音识别结果的长度较长时,不会给予预定的搜索结果词串的相似度较高的排名,并且,也不输出预定的搜索结果词串作为搜索结果词串,从而,可能使对应于输入语音的词串的搜索的准确度劣化。
也就是说,例如,如果执行包含短标题的长讲话,则不会给予短标题的相似度以较高的排名,并且,不会输出短标题作为搜索结果词串。
现在,对于匹配单元56(图9和图10),为了降低语音识别结果与搜索结果词串之间的长度差的影响,可以采用其中已经修正了余弦距离D的修正距离作为语音识别结果与搜索结果词串之间的相似度。
在采用修正距离作为语音识别结果与搜索结果词串之间的相似度的情况下,可以避免上述语音识别结果与较长的搜索结果词串之间的相似度以及较长的语音识别结果与搜索结果词串之间的相似度变低,从而,可以以鲁棒的方式执行针对对应于输入语音的词串的搜索,并且可以防止针对对应于输入语音的词串的搜索的准确度劣化。
关于修正距离,有第一修正距离和第二修正距离。
通过以下方式求出第一修正距离,在求余弦距离D的表达式(1)中,使用与搜索结果词串的长度不成比例的值|VUTR|×√(|VTITLE(i)|/|VUTR|),(即,作为识别结果向量VUTR的大小|VUTR|与搜索结果的向量VTITLE(i)的大小|VTITLE(i)|的平方根√(|VTITLE(i)||VUTR|))来替代与搜索结果词串的长度成比例的搜索结果的向量VTITLE(i)的大小|VTITLE(i)|。
下文中,也可以将在求余弦距离D的表达式(1)的计算中替代搜索结果向量VTITLE(i)的大小|VTITLE(i)|的值称为替代大小S(i)。
根据表达式(2)求第一修正距离D1。
D1=VUTR·VTITLE(i)/(|VUTR|S(i))
=VUTR·VTITLE(i)/(|VUTR||VUTR|×√(|VTITLE(i)|/|VUTR|))
=VUTR·VTITLE(i)/(|VUTR|√(|VTITLE(i)||VUTR|))(2)
图24是示出在使用识别结果向量VUTR的大小|VUTR|与搜索结果向量VTITLE(i)之积的平方根√(|VTITLE(i)||VUTR|)作为替代大小S(i)的情况下搜索结果向量VTITLE(i)的大小|VTITLE(i)|与替代大小S(i)的关系的图。
需要注意,在图24中,识别结果向量VUTR的大小|VUTR|设置为5。
此外,在图24中,如果使用搜索结果向量VTITLE(i)的大小|VTITLE(i)|作为替代大小S(i),即,如果使用根据表达式(1)的余弦距离D的计算中的搜索结果向量VTITLE(i)的大小|VTITLE(i)|,在没有改变的情况下,也示出了搜索结果向量VTITLE(i)的大小|VTITLE(i)|与替代大小S(i)的关系。
如果|VTITLE(i)|较小,即,如果搜索结果词串的长度较短,则识别结果向量VUTR的大小|VUTR|与搜索结果向量VTITLE(i)的大小|VTITLE(i)|之积的平方根√(|VTITLE(i)||VUTR|)变成大于|VTITLE(i)|,而如果|VTITLE(i)|较大,即,如果搜索结果的词串长度较长,则识别结果向量VUTR的大小|VUTR|与搜索结果的向量VTITLE(i)的大小|VTITLE(i)|之积的平方根√(|VTITLE(i)||VUTR|)变成小于|VTITLE(i)|。
这样,根据表达式(2)求出的第一修正距离D1变成如下值,用作搜索结果词串的长度的搜索结果向量VTITLE(i)的大小|VTITLE(i)|相对于语音识别结果的长度的差对该值的影响较小,即,与根据表达式(1)求出的余弦距离D相比,语音识别结果与搜索结果词串之间的长度差的影响减小。
在求余弦距离D的表达式(1)的计算中,通过使用识别结果向量VUTR的大小|VUTR|代替与搜索结果词串的长度成比例的搜索结果向量VTITLE(i)的大小|VTITLE(i)|作为替代大小S(i)来求第二修正距离。
因而,根据表达式(3)来求第二修正距离D2。
D2=VUTR·VTITLE(i)/(|VUTR|S(i))
=VUTR·VTITLE(i)/|VUTR|2    (3)
第二修正距离D2是没有使用搜索结果向量VTITLE(i)的大小|VTITLE(i)|的值,从而变成不受用作搜索结果词串的长度的搜索结果向量VTITLE(i)的大小|VTITLE(i)|的影响的值,即变成受语音识别结果与搜索结果词串之间的长度差的影响减小(消除)的值。
图25是示出在采用余弦距离D、第一修正距离D1和第二修正距离D2作为语音识别结果与搜索结果的词串之间的相似度的情况下的匹配仿真结果的第一示例的图。
注意,在图25中的仿真中,关于短的日文讲话“sekai isan”,获得正确的语音识别结果“sekai isan”(英文“World Heritage”),因此,采用长标题“za sekai isan toshi no isan supesharu itaria roma venechia”(英文“The world heritage city,heritage special Italy Rome Venice”)和短标题“sekai jousei”(英文“world affairs”)作为搜索结果的词串。
此外,使用标记符号以词为单位进行匹配。
此外,对用作搜索结果的词串的节目标题中的词加下划线,其中,搜索结果的词串与语音识别结果“sekai isan”的词“sekai/isan”匹配。
关于标题“za sekai isan toshi no isan supesharu itaria romavenechia”,两个词“sekai”和“isan”与语音识别结果“sekai isan”匹配。
另一方面,关于标题“sekai jousei”,只有一个词“sekai”与语音识别结果“sekai isan”匹配。
因而,关于标题“za sekai isan toshi no isan supesharu itaria romavenechia”和标题“sekai jousei”,具有与语音识别结果“sekai isan”匹配的更多数量的词的标题“za sekai isan toshi no isan supesharu itariaroma venechia”适合于具有比标题“sekai jousei”的相似度更高的排名。
然而,在采用余弦距离D作为相似度的情况下,关于与作为长标题“za sekai isan toshi no isan supesharu itaria roma venechia”的一部分的“sekai isan”匹配的语音识别结果“sekai isan”,短标题“sekai jousei”的相似度为0.5,而长标题“za sekai isan toshi no isan supesharu itariaroma venechia”的相似度为0.4472,从而短标题“sekai jousei”的相似度高于长标题“za sekai isan toshi no isan supesharu itaria roma venechia”的相似度。
也就是说,在采用余弦距离D作为相似度的情况下,由于与长标题“za sekai isan toshi no isan supesharu itaria roma venechia”的一部分“sekai isan”匹配的短语音识别结果“sekai isan”的长度与长标题“za sekaiisan toshi no isan supesharu itaria roma venechia”的长度之间的差的影响,与语音识别结果“sekai isan”相适合的长标题“za sekai isan toshi noisan supesharu itaria roma venechia”的相似度不会排名很高。
另一方面,在采用修正距离作为相似度的情况下,与短标题“sekaijousei”的相似度相比,长标题“za sekai isan toshi no isan supesharu itariaroma venechia”的相似度会排名更高。
也就是说,在采用第一修正距离D1的情况下,关于语音识别结果“sekai isan”,短标题“sekai jousei”的相似度为0.5,而长标题“za sekaiisan toshi no isan supesharu itaria roma venechia”的相似度为0.6687,从而长标题“za sekai isan toshi no isan supesharu itaria roma venechia”的相似度将比短标题“sekai jousei”的相似度排名更高。
此外,在采用第一修正距离D1的情况下,关于语音识别结果“sekaiisan”,短标题“sekai jousei”的相似度为0.5,而长标题“za sekai isan toshino isan supesharu itaria roma venechia”的相似度为1.0,从而长标题“zasekai isan toshi no isan supesharu itaria roma venechia”的相似度将比短标题“sekai jousei”的相似度排名更高。
如上所述,在采用修正距离的情况下,降低了由于与搜索结果的长词串的一部分匹配的语音识别结果的长度与搜索结果的长词串的长度之间的差的影响,从而与语音识别结果“sekai isan”相适合的长标题“za sekaiisan toshi no isan supesharu itaria roma venechia”的相似度排名很高。
图26是示出在采用余弦距离D、第一修正距离D1和第二修正距离D2作为语音识别结果与搜索结果的词串之间的相似度的情况下匹配仿真的第二示例的图。
注意,在图26中的仿真中,关于长的日文讲话“sekai isan toshi no isanitaria roma venchia napori firenze”(英文“world heritage city of heritageItaly Rome Venice Naples Florence”),获得了正确的语音识别结果“sekaiisan toshi no isan itaria roma venchia napori firenze”,以及采用短标题“sekai isan(英文“world heritage”)”和长标题“tanken roman sekai isanitaria firenze rekishi chiku”(英文“explore romanticism world heritageItaly Florence historical district”)作为用作搜索结果的词串的节目标题。
此外,使用标记符号以词为单位进行匹配。
此外,在图26中,对用作与语音识别结果“sekai isan toshino isanitaria roma venchia napori firenze”中的词“sekai/isan/toshi/no/isan/itaria/roma/venchia/napori/firenze”(英文“world/heritage/city/of/heritage/Italy/Rome/Venice/Naples/Florence”)匹配的搜索结果的词串的节目标题中的词加下划线。
在标题“sekai isan”(英文“world heritage”)中,两个词“sekai”(英文“world”)和“isan”(英文“heritage”)与语音识别结果“sekai isantoshi no isan itaria roma venchia napori firenze”匹配。
另一方面,关于标题“tanken roman sekai isan itaria firenze rekishichiku”(英文“explore romanticism world heritage Italy Florence historicaldistrict”),四个词“sekai”(英文“world”)、“isan”(英文“heritage”)、“itaria”(英文“Italy”)和“firenze”(英文“Florence”)与语音识别结果“sekai isan toshi no isan itaria roma venchia napori firenze”匹配。
因而,在标题“sekai isan”和标题“tanken roman sekai isan itariafirenze rekishi chiku”中,具有与语音识别结果“sekai isan toshi no isanitaria roma venchia napori firenze”匹配的更多数量的词的标题“tankenroman sekai isan itaria firenze rekishi chiku”的相似度比标题“sekai isan”的相似度排名更高是适当的。
然而,在采用余弦距离D作为相似度的情况下,关于长语音识别结果“sekai isan toshi no isan itaria roma venchia napori firenze”,长标题“tanken roman sekai isan itaria firenze rekishi chiku”的相似度为0.4472,而短标题“sekai isan”的相似度为0.4772,从而长标题“tankenroman sekai isan itaria firenze rekishi chiku”的相似度不会比短标题“sekai isan”的相似度排名更高。
也就是说,在采用余弦距离D作为相似度的情况下,由于长语音识别结果“sekai isan toshi no isan itaria roma venchia napori firenze”的长度与搜索结果的短词串“sekai isan”的长度之间的差的影响,与语音识别结果“sekai isan toshi no isan itaria roma venchia napori firenze”相适合的长标题“tanken roman sekai isan itaria firenze rekishi chiku”的相似度不会排名很高。
另一方面,在采用修正距离作为相似度的情况下,长标题“tankenroman sekai isan itaria firenze rekishi chiku”的相似度比短标题“sekaiisan”的相似度排名更高。
也就是说,在采用第一修正距离D1作为相似度的情况下,对于长语音识别结果“sekai isan toshi no isan itaria roma venchia napori firenze”,长标题“tanken roman sekai isan itaria firenze rekishi chiku”的相似度为0.4229,而短标题“sekai isan”的相似度为0.2991,从而长标题“tankenroman sekai isan itaria firenze rekishi chiku”的相似度比短标题“sekaiisan”的相似度排名更高。
此外,在采用第二修正距离D2作为相似度的情况下,对于长语音识别结果“sekai isan toshi no isan itaria roma venchia napori firenze”,长标题“tanken roman sekai isan itaria firenze rekishi chiku”的相似度为0.4,而短标题“sekai isan”的相似度为0.2,从而长标题“tanken roman sekaiisan itaria firenze rekishi chiku”的相似度比短标题“sekai isan”的相似度排名更高。
如上所述,在采用修正距离作为相似度的情况下,降低了由于长语音识别结果的长度与搜索结果的短词串的长度之间的差的影响,并且与语音识别结果“sekai isan toshi no isan itaria roma venchia napori firenze”(英文“world heritage city of hieritage Italy Rome Venice Naples Florence”)相适合的长标题“tanken roman sekai isan itaria firenze rekishi chiku”(英文“explore romanticism world heritage Italy Florence historical district”)的相似度排名更高。
图27是示出在采用余弦距离D、第一修正距离D1和第二修正距离D2作为语音识别结果与搜索结果的词串之间的相似度的情况下匹配仿真的第三示例的图。
注意,在图27中的仿真中,关于短的英文讲话“world heritage”,获得了正确的语音识别结果“world heritage”,并且采用长标题“the worldheritage special program on Italian Cities Rome Venice”和短标题“worldaffairs”作为用作搜索结果的词串的节目标题。
此外,使用标记符号以词为单位进行匹配。
此外,在图27中,对用作与语音识别结果“World Heritage”中的词“World/Heritage”匹配的搜索结果的词串的节目标题中的词加下划线。
在标题“The World Heritage Special Program on Italian Cities RomeVenice”中,两个词“World”和“Heritage”与语音识别结果“WorldHeritage”匹配。
另一方面,关于标题“World Affairs”,只有一个词“World”与语音识别结果“World Heritage”匹配。
因此,在标题“The World Heritage Special Program on Italian CitiesRome Venice”和标题“World Affairs”中,具有与语音识别结果“WorldHeritage”匹配的更多数量的词的标题“The World Heritage SpecialProgram on Italian Cities Rome Venice”的相似度比标题“World Affairs”的相似度排名更高是适当的。
然而,在采用余弦距离D作为相似度的情况下,关于与长标题“TheWorld Heritage Special Program on Italian Cities Rome Venice”的一部分“world heritage”匹配的语音识别结果“World Heritage”,短标题“WorldAffairs”的相似度为0.5,而长标题“The World Heritage Special Programon Italian Cities Rome Venice”的相似度为0.4472,从而短标题“WorldAffairs”的相似度变得比长标题“The World Heritage Special Program onItalian Cities Rome Venice”的相似度排名更高。
也就是说,在采用余弦距离D作为相似度的情况下,由于与长标题“The World Heritage Special Program on Italian Cities Rome Venice”的一部分“World Heritage”匹配的短语音识别结果“World Heritage”的长度与标题“The World Heritage Special Program on Italian Cities RomeVenice”的长度之间的差的影响,与语音识别结果“world heritage”相适合的长标题“The World Heritage Special Program on Italian Cities RomeVenice”的相似度不会排名很高。
另一方面,在采用修正距离作为相似度的情况下,长标题“The WorldHeritage Special Program on Italian Cities Rome Venice”的相似度比短标题“World Affairs”的相似度排名更高。
也就是说,在采用第一修正距离D1作为相似度的情况下,对于语音识别结果“World Heritage”,短标题“World Affairs”的相似度为0.5,而长标题“The World Heritage Special Program on Italian Cities RomeVenice”的相似度为0.6687,从而长标题“The World Heritage SpecialProgram on Italian Cities Rome Venice”的相似度比短标题“WorldAffairs”的相似度排名更高。
此外,在采用第二修正距离D2作为相似度的情况下,对于语音识别结果“World Heritage”,短标题“World Affairs”的相似度为0.5,而长标题“The World Heritage Special Program on Italian Cities RomeVenice”的相似度为1.0,从而长标题“The World Heritage Special Programon Italian Cities Rome Venice”的相似度比短标题“World Affairs”的相似度排名更高。
如上所述,在采用修正距离作为相似度的情况下,降低了与搜索结果的长词串的一部分匹配的语音识别结果的长度与搜索结果的长词串的长度之间的差的影响,并且与语音识别结果“World Heritage”相适合的长标题“The World Heritage Special Program on Italian Cities RomeVenice”的相似度排名很高。
图28是示出在采用余弦距离D、第一修正距离D1和第二修正距离D2作为语音识别结果与搜索结果的词串之间的相似度的情况下的匹配仿真的第四示例的图。
注意,在图28中的仿真中,关于长的英文讲话“Unesco WorldHeritage Sites Italy Rome Venice Naples Florence”,获得了正确的语音识别结果“Unesco World Heritage Sites Italy Rome Venice NaplesFlorence”,并且采用短标题“World Heritage”和长标题“World HeritageSites in Italy,Florence,Historic District”作为用作搜索结果的词串的节目标题。
此外,使用标记符号以词为单位进行匹配。
此外,在图28中,对用作与语音识别结果“Unesco World HeritageSites Italy Rome Venice Naples Florence”中的词“Unesco/World/Heritage/Sites/Italy/Rome/Venice/Naples/Florence”匹配的搜索结果的词串的节目标题中的词加下划线。
在标题“World Heritage”中,两个词“World”和“Heritage”与语音识别结果“Unesco World Heritage Listed Sites Italy Rome VeniceNaples Florence”匹配。
另一方面,关于标题“World Heritage Sites in Italy,Florence,HistoricDistrict”,四个词“World”、“Heritage”、“Italy”和“Florence”与语音识别结果“Unesco World Heritage Listed Sites Italy Rome Venice NaplesFlorence”匹配。
因此,在标题“World Heritage”和标题“World Heritage Sites in Italy,Florence,Historic District”中,具有与语音识别结果“Unesco WorldHeritage Sites Italy Rome Venice Naples Florence”匹配的更多数量的词的标题“World Heritage Sites in Italy,Florence,Historic District”的相似度比标题“world heritage”的相似度排名更高是适当的。
然而,在采用余弦距离D作为相似度的情况下,关于长语音识别结果“Unesco World Heritage Listed Sites Italy Rome Venice NaplesFlorence”,长标题“World Heritage Sites in Italy,Florence,HistoricDistrict”的相似度为0.4472,而短标题“World Heritage”的相似度为0.4772,从而长标题“World Heritage Sites in Italy,Florence,HistoricDistrict”的相似度不会比短标题“World Heritage”的相似度排名更高。
也就是说,在采用余弦距离D作为相似度的情况下,由于长语音识别结果“World Heritage Listed Sites in Italy,Florence,Historic District”的长度与搜索结果的短词串“World Heritage”的长度之间的差的影响,与语音识别结果“Unesco World Heritage Listed Sites Italy Rome VeniceNaples Florence”相适合的长标题“World Heritage Sites in Italy,Florence,Historic District”的相似度不会排名很高。
另一方面,在采用修正距离作为相似度的情况下,长标题“WorldHeritage Sites in Italy,Florence,Historic District”的相似度比短标题“World Heritage”的相似度排名更高。
也就是说,在采用第一修正距离D1作为相似度的情况下,对于长语音识别结果“Unesco World Heritage Listed Sites Italy Rome VeniceNaples Florence”,长标题“World Heritage Sites in Italy,Florence,HistoricDistrict”的相似度为0.4229,而短标题“World Heritage”的相似度为0.2991,从而长标题“World Heritage Sites in Italy,Florence,HistoricDistrict”的相似度比短标题“World Heritage”的相似度排名更高。
此外,在采用第二修正距离D2作为相似度的情况下,对于长语音识别结果“Unesco World Heritage Listed Sites Italy Rome Venice NaplesFlorence”,长标题“World Heritage Sites in Italy,Florence,HistoricDistrict”的相似度为0.4,而短标题“World Heritage”的相似度为0.2,从而长标题“World Heritage Sites in Italy,Florence,Historic District”的相似度比短标题“World Heritage”的相似度排名更高。
如上所述,在采用修正距离作为相似度的情况下,降低了长语音识别结果的长度与搜索结果的短词串的长度之间的差的影响,并且与语音识别结果“Unesco World Heritage Listed Sites Italy Rome Venice NaplesFlorence”相适合的长标题“World Heritage Sites in Italy,Florence,Historic District”的相似度排名更高。
因而,根据修正距离,降低了语音识别结果的长度与搜索结果的词串的长度之间的差的影响,从而可以以健壮的方式执行与输入语音对应的词串的搜索,并且可以防止与输入语音对应的词串的搜索的准确度的劣化。
[语音识别单元51的配置]
图29是示出图9和图10的语音识别单元51的配置示例的框图。
在图29中,语音识别单元51具有识别单元81、字典存储单元82、声学模型存储单元83、语言模型存储单元84和语言模型生成单元85。
将输入语音提供到识别单元81。
例如,识别单元81在根据需要参考字典存储单元82、声学模型存储单元83和语言模型存储单元84的同时,根据HMM方法等对向其提供的输入语音进行语音识别。
也就是说,字典存储单元82存储要用于语音识别的结果的每个词(词汇)的字典,其中,描述了与其读音有关的信息(音素信息)等。
声学模型存储单元83存储如下声学模型,该声学模型示出了对其执行语音识别的语音中的词中的各个音素和音节的声学特征。在此,根据HMM方法来执行语音识别,从而例如将HMM方法用作声学模型,并且将输入语音的语音识别结果输出。
语言模型存储单元84存储作为语法规则的语言模型,所述语法规则描述登记在字典存储单元82的词典中的每个词是如何链接(连接)的。现在,例如,可以使用诸如上下文无关语法(CFG)或统计词连接概率(N连字(N-gram))的语法规则作为语言模型。
识别单元81通过参考字典存储单元82中的字典来配置字声学模型(字模型),以连结存储在声学模型存储单元83中的声学模型。
此外,识别单元81还通过参考存储在语言模型存储单元84中的语言模型来连接若干个字模型,并且使用如此连接的字模型以HMM模型来识别输入语音。
也就是说,识别单元81检测向其提供的输入语音的特征量的似然性(例如,倒谱(cepstrum)等)最高的一系列字模型,并且输出对应于该字模型系列的词串作为语音识别结果。
具体地,识别单元81累计与连接的字模型对应的词串的输入语音特征量的出现概率,并且将其累计值作为识别得分,该识别得分为测量的输入语音特征量的似然性,输出具有最高识别得分的词串作为语音识别结果。
通过概略地评估由存储在声学模型存储单元83中的声学模型提供的声学似然性(下文中也被称为声学得分)和由存储在语音模型存储单元84中的语言模型提供的语言频率(下文中也被称为语言得分)来求出识别得分。
也就是说,对于声学得分,例如在使用HMM方法的情况下,针对每个词计算从构成字模型的声学模型测量到的输入语音特征量的概率。此外,对于语言得分,例如在使用双连字(bi-gram)的情况下,求出所关注的词与刚好在该词之前的词被连接(结合)的概率。
此外,通过概略地评估每个词的声学得分和语言得分来求出识别得分,并且根据该识别得分来确认语音识别结果。
现在,当由K个词构成的词串中的第k个词被表示为wk、词wk的声学得分和语言得分分别为A(wk)和L(wk)时,词串的识别得分S例如根据表达式(4)来计算。
S=∑(A(wk)+Ck×L(wk))(4)
在表达式(4)中,∑表示在k从1变化到K的情况下进行的求和。此外,Ck表示对语言得分L(wk)设置的词wk的权重。
通过识别单元81求出前M个位置(M为大于等于1的整数)以内的词串w1、w2、…、wk,并且例如将具有词串w1、w2、…、wk的表达式(4)中示出的识别得分输出为语音识别结果。
现在,如果输入语音X是词串W的的概率(条件概率)被表示为P(W|X),则根据贝叶斯定理,使用发出输入语音X的概率P(X)、发出词串W的概率P(W)和当说出词串W时测量到输入语音X的概率P(X|W),将概率P(W|X)表示为表达式P(W|X)=P(W)P(X|W)/P(X)。
在表达式P(W|X)=P(W)P(X|W)/P(X)中,概率P(W|X)表示识别得分,概率P(W)表示语言得分,以及概率P(X|W)表示声学得分。
注意,如果字典存储单元82中的字典中登记有T个词,则存在可以使用T个词来配置T个词排列的TT种方式。因此,为了简单起见,用识别单元81评估词串的TT种方式(计算识别得分),并且必需从这些方式中确定最适用于输入语音的那个方式(将识别得分在前M个位置以内进行排名)。
于是,如果字典中登记的词的数量T增加,则与词的数量相当的排列的数量变成词的数量乘以词的数量,从而必需评估的词串变成巨大的数量。
此外,通常输入语音中包括的词的数量未知,从而不仅必需评估由T个词的排列构成的词串,还要评估由一个词、两个词、……、T-1个词构成的词串。因此,要评估的词串的数量甚至更大,由此为了快速执行语音识别,关于如此多的词串的语音识别结果,需要有效地确定哪一个可能是准确的。
因此,采用识别单元81,例如在求出用作某个识别假设的词串的声学得分的过程中,在这个过程中获得的声学得分为预定阈值或在预定阈值以下的情况下,执行声学修剪或者语言修剪,其中,声学修剪终止计算识别假设的识别得分,语言修剪根据语言得分缩小要进行识别得分计算的识别假设。
现在,如上所述,采用图9和图10中的记录器,在用户根据用户说出的输入语音从记录的节目中搜索并且播放期望节目的情况下,或者在用户从EPG中搜索并且预约期望节目的录制的情况下,假定用户会说出节目元数据(也是EPG的构成元素),例如节目标题、艺人姓名、包括在详细信息中的描述等。
此外,节目元数据,即,例如节目标题中经常使用新造词、艺人姓名(艺名等)和唯一的表达,因此经常包括报纸上记载的文章中不通常使用的词串的词串。
如果使用通过使用报纸上所写的词串生成的通用语言模型来执行这样的节目标题的讲话的语音识别,则关于与节目标题匹配的识别假设的语言得分,没有获得很高的值。
因此,没有将与节目标题匹配的识别假设获得为语音识别结果,并且语音识别结果的准确度劣化。
现在,图29中的语音识别单元51具有语言模型生成单元85。
语言模型生成单元85使用存储在图9和图10中的语音搜索设备50的搜索结果存储单元53中的搜索结果的词串来生成语言模型。
现在,如上所述,将作为对记录在记录介质63上的EPG进行配置的构成元素的节目标题、艺人姓名、详细信息以及作为记录在记录介质63上的记录节目的元数据的节目标题、艺人姓名、详细信息等作为搜索结果词串存储在搜索结果存储单元53中。
图30是示出用作存储在搜索结果存储单元53中的搜索结果词串的节目元数据的示例的图。
可以将节目标题、艺人姓名和详细信息等作为节目元数据。
可以这么说,采用语言模型生成单元85,使用用作搜索结果词串的节目标题、艺人姓名、详细信息等来生成专用于搜索节目的语言模型,其中,假定节目标题、艺人姓名、详细信息等(的一部分)是由用户说出来作为输入语音的。
注意,在搜索结果词串是作为构成EPG的构成元素(节目的元数据)的诸如节目标题、艺人姓名、详细信息等词串的情况下,可以将搜索结果词串分割成诸如节目标题、艺人姓名、详细信息等字段,但是在使用分割成这样字段的搜索结果词串生成专用语言模型时,可以生成一个专用语言模型而不区分该搜索结果词串属于哪个字段,或者可以使用每个字段的搜索结果词串来生成每个字段的语言模型,并且可以对每个字段的语言模型进行插值以生成一个专用语言模型。
将语言模型生成单元85生成的专用语言模型提供到语言模型存储单元84并且存储。
因此,利用识别单元81,将使用这样的专用语言模型来求出语言得分,因此与使用通用语言模型的情况相比,可以提高语音识别的准确度。
注意,在图29中,语言模型生成单元85设置在语音识别单元51的内部,但是语言模型生成单元85也可以设置在语音识别单元51的外部。
此外,与语言模型生成单元85生成的语言模型相分离,可以在语言模型存储单元84中存储通用语言模型。
图31是描述用图29中的语言模型生成单元85生成语言模型的处理的图。
语言模型生成单元85对存储在搜索结果存储单元53(图9)中的每个搜索结果词串进行词素分析。此外,语言模型生成单元85例如使用搜索结果词串的词素分析结果来学习语言模型,例如表示词B将跟随在词A之后的概率的双连字等,并且将其提供到并且存储在语言模型存储单元84中作为专用语言模型。
注意,在语言模型生成单元85中,例如在使用作为搜索结果词串的EPG的构成元素生成专用语言模型的情况下,可以使用其后的广播被计划的预定时间段的EPG,例如一周中的预定的一天或者最近的一周等的EPG来生成专用语言模型。
利用图9中的记录器,在根据用户说出的输入语音从EPG中搜索用户期望的节目以预约记录的情况下,当用户知道一周中的某一天的节目广播是感兴趣的节目广播之一时,可以使用一周中的预定的一天的EPG来生成专用语言模型,从而提高一周中的预定的一天的节目广播的语音识别的准确度,因此可以更容易地将该一周中的预定的一天的节目广播输出为搜索结果词串。
此外,利用图9中的记录器,在使用最近一周的EPG、根据用户说出的输入语音从EPG中搜索用户期望的节目以预约记录的情况下,可以生成专用语言模型,从而提高最近一周内的节目广播的语音识别的准确度,因此可以更容易地将最近一周内的节目广播输出为搜索结果词串。
此外,利用语言模型生成单元85,在使用EPG的构成元素作为搜索结果词串来生成专用语言模型的情况下,可以生成专用语言模型,使得将更高的语言得分给予最近的EPG,即作为具有最近广播时间的节目的EPG构成元素的搜索结果词串中的更大的词排列。
在这种情况下,可以提高具有最近广播时间的节目的语音识别的准确度,因此可以更容易地将具有最近广播时间的节目输出为搜索结果词串。
现在,在如上所述将搜索结果词串分割成多个字段的情况下,根据搜索结果词串生成一个专用语言模型,并且当使用一个专用语言模型进行语音识别时,排列有不同字段的搜索结果词串中的每个中的一部分的识别假设的语言得分可以变得较高。
也就是说,例如,如上所述,当使用通过使用被分割成节目标题字段、艺人姓名字段和详细信息字段的搜索结果词串生成的一个专用语言模型来进行语音识别时,例如当其中排列有某个节目A的标题的一部分和另一节目B的艺人的艺人姓名的一部分的词串成为识别假设时,该识别假设的语言得分可以变得较高。
然而,在作为搜索结果词串的EPG的构成元素中不存在节目A的标题的一部分和节目B中的艺人姓名的一部分的词串,由此,不期望这样的词串成为具有高语言得分的可以成为语音识别结果的识别假设。
此外,例如,如上所述,在由匹配单元56(图9)使用被分割成节目标题字段、艺人姓名字段和详细信息字段而不特别区分的搜索结果词串来执行匹配的情况下,例如,即使当用户说出节目标题时,不仅对节目标题字段的搜索结果词串执行匹配,而且对所有字段的搜索结果词串和用户讲话的语音识别结果执行匹配,由此将与语音识别结果匹配的搜索结果词串输出为搜索结果词串。
因此,在这种情况下,可能将与用户说出的标题的节目无关的节目输出为搜索结果词串,即,例如该节目具有与用户说出的节目标题不相似的标题,但是在作为搜索结果词串的艺人姓名或详细信息中包括与用户说出的节目标题中包括的词串相似的词串。
如上所述,对于将与用户说出的标题的节目无关的节目输出为搜索结果词串,会给试图从用作搜索结果词串的节目中搜索并且选择要执行录制预约的节目的用户不舒服的感觉。
现在,利用匹配单元56(图9),在搜索结果词串被分割成多个字段的情况下,可以设置为仅针对诸如用户期望的字段的预定字段的搜索结果词串来进行与语音识别结果的匹配。
然而,在仅针对预定字段的搜索结果词串进行与语音识别结果的匹配的情况下,例如,如上所述,通过使用图31中的专用语言模型的语音识别,其中排列有某个节目A的标题的一部分和另一节目B中的艺人的艺人姓名的一部分的词串成为识别假设,并且该识别假设的语言得分变得很高,因此该识别假设可以成为语音识别结果。
此外,即使仅针对预定字段的搜索结果词串执行与这样的语音识别结果的匹配,也不能确定将搜索用户期望录制预约的节目的概率。
因此,利用图29中的语音识别单元51,语言模型生成单元85针对每个字段使用该字段的搜索结果词串,并且可以生成语言模型,以及识别单元81可以使用该字段的语言模型来执行语音识别,以求解每个字段的语音识别结果。
此外,在这种情况下,利用匹配单元56(图9),可以针对每个字段执行语音识别结果与搜索结果词串的匹配,并且可以在不区分字段的情况下执行语音识别结果与搜索结果词串的匹配。
图32是描述用图29中的语言模型生成单元85生成每个字段的语言模型的处理的图。
现在,如果存储在搜索结果存储单元53(图9)中的搜索结果词串分别被分割成节目标题的字段、艺人姓名的字段和详细信息的字段,则语言模型生成单元85对存储在搜索结果存储单元53中的节目标题的字段(下文中也被称为节目标题字段)的搜索结果词串进行词素分析。
此外,例如,语言模型生成单元85通过学习诸如双连字的语言模型,使用节目标题字段的搜索结果词串的词素分析结果来生成节目标题字段的语言模型,并且将其提供到语言模型存储单元84并且存储在语言模型存储单元84中。
此外,语言模型生成单元85对存储在搜索结果存储单元53中的艺人姓名的字段(下文中也被称为艺人姓名字段)的搜索结果词串进行词素分析。
此外,例如,语言模型生成单元85通过学习诸如双连字的语言模型,使用艺人姓名字段的搜索结果词串的词素分析结果来生成艺人姓名字段的语言模型,并且将其提供到语言模型存储单元84并且存储在语言模型存储单元84中。
类似地,语言模型生成单元85对存储在搜索结果存储单元53中的详细信息的字段(下文中也被称为详细信息字段)的搜索结果词串进行词素分析,生成详细信息字段的语言模型,并且将其提供到语言模型存储单元84并且存储在语言模型存储单元84中。
图33是描述在使用每个字段的语言模型进行语音识别以求出每个字段的语音识别结果、以及进行语音识别结果与每个字段的搜索结果词串之间的匹配的情况下的图9(和图10)中的语音搜索设备50的处理的图。
识别单元81使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型中的每个语言模型,独立地进行输入语音的语音识别。
识别单元81求出如下识别假设,在该识别假设中,在使用节目标题字段的语言模型的语音识别中,识别得分为最高排名或更多,并且使其成为节目标题字段的语音识别结果。
此外,识别单元81求出如下识别假设,在该识别假设中,在使用艺人姓名字段的语言模型的语音识别中,识别得分为最高排名或更多,并且使其成为艺人姓名字段的语音识别结果。
类似地,识别单元81求出如下识别假设,在该识别假设中,在使用详细信息字段的语言模型的语音识别中,识别得分为最高排名或更多,并且使其成为详细信息字段的语音识别结果。
接着,匹配单元56(图9)仅针对存储在搜索结果存储单元53(图9)中的搜索结果词串的节目标题字段的搜索结果词串,来执行与节目标题字段的语音识别结果的匹配。
此外,匹配单元56接着仅针对存储在搜索结果存储单元53中的搜索结果词串的艺人姓名字段的搜索结果词串,来执行与艺人姓名字段的语音识别结果的匹配。
类似地,匹配单元56接着仅针对存储在搜索结果存储单元53中的搜索结果词串的详细信息字段的搜索结果词串,来执行与详细信息字段的语音识别结果的匹配。
接着,输出单元57(图9)根据匹配结果,将每个字段的与语音识别结果的相似度(例如,余弦距离或修正距离等)在前N位内的搜索结果词串输出为搜索结果词串。
在图33中,关于输入语音“sekai isan”(英文“world heritage”),“sekai isan”(日文)将被求出为节目标题字段、艺人姓名字段和详细信息字段中的每个字段的语音识别结果。
此外,针对每个字段进行语音识别结果与搜索结果词串之间的匹配,并且将相似度在前三个位置以内的搜索结果词串输出为节目标题字段、艺人姓名字段和详细信息字段中的每个字段的搜索结果词串。
注意,在图33中,对用作搜索结果词串的搜索结果的词串的发音符号与语音识别结果相匹配的部分加下划线。
可以这么说,在进行全序的排序的同时,利用输出单元57(图9),针对每个字段,根据与语音识别结果的相似度对搜索结果的词串进行排序,并且将前N位内的搜索结果的词串输出为搜索结果词串,其中,在不管字段(涵盖所有字段)的情况下对搜索结果的词串进行排序,并且可以将具有前N位内的全序的搜索结果的词串输出为搜索结果词串。
图34是示出求出全序的输出单元57的一部分的配置示例的框图。
在图34中,输出单元57具有总分计算单元91。
将由语音识别单元51求出的语音识别可靠性提供到总分计算单元91,其中,语音识别可靠性表示每个字段的语音识别结果的可靠性。
现在,例如可以采用识别得分作为语音识别可靠性。
此外,将由匹配单元56求出的每个字段的搜索结果词串的相似度提供到总分计算单元91。
总分计算单元91概略地评估语音识别结果的语音识别可靠性和搜索结果词串的相似度,并且求出总分,该总分表示搜索结果词串与对应于输入语音的词串相匹配的程度。
也就是说,如果某个搜索结果的词串被设定为关注词串,并且该关注词串被关注,则总分计算单元91根据需要将语音识别结果的语音识别可靠性、和该语音识别结果与关注词串之间的相似度中的每个归一化为例如0.0至1.0范围内的值。
此外,总分计算单元91还求出语音识别结果的语音识别可靠性、以及语音识别结果与关注词串之间的相似度的加权平均和几何平均等,作为关注词串的总分。
此外,总分计算单元还按照总分最高的顺序,对搜素结果的词串进行排序。
图35是示出图34中的总分计算单元91的配置示例的框图。
在图35中,总分计算单元91具有节目标题总分计算单元92、艺人姓名总分计算单元93、详细信息总分计算单元94和得分比较排序单元95。
将由语音识别单元51求出的节目标题字段的语音识别结果的语音识别可靠性、以及由匹配单元56求出的节目标题字段的语音识别结果与节目标题字段的搜索结果词串之间的相似度提供到节目标题总分计算单元92。
节目标题总分计算单元92在将节目标题字段的搜索结果词串依次作为关注词串的情况下,使用节目标题字段的语音识别结果的语音识别可靠性、以及语音识别结果与关注词串之间的相似度来求出关注词串的总分,并且将其提供到得分比较排序单元95。
将由语音识别单元51求出的艺人姓名字段的语音识别结果的语音识别可靠性、以及由匹配单元56求出的艺人姓名字段的语音识别结果与艺人姓名字段的搜索结果词串之间的相似度提供到艺人姓名总分计算单元93。
艺人姓名总分计算单元93在将艺人姓名字段的搜索结果词串依次作为关注词串的情况下,使用艺人姓名字段的语音识别结果的语音识别可靠性、以及语音识别结果与关注词串之间的相似度来求出关注词串的总分,并且将其提供到得分比较排序单元95。
将由语音识别单元51求出的详细信息字段的语音识别结果的语音识别可靠性、以及由匹配单元56求出的详细信息字段的语音识别结果与详细信息字段的搜索结果词串之间的相似度提供到详细信息总分计算单元94。
详细信息总分计算单元94在将详细信息字段的搜索结果词串依次作为关注词串的情况下,使用详细信息字段的语音识别结果的语音识别可靠性、以及语音识别结果与关注词串之间的相似度来求出关注词串的总分,并且将其提供到得分比较排序单元95。
得分比较排序单元95比较来自节目标题总分计算单元92、艺人姓名总分计算单元93和详细信息总分计算单元94中的每个单元的总分,按照升序对这些总分进行排列,并且按照总分最高的顺序对搜索结果的词串进行全序排序。
此外,输出单元57将具有前N位内的全序的搜索结果的词串输出为搜索结果的词串。
在图33中,利用识别单元81,使用每个字段的语言模型进行语音识别,并且求出每个字段的语音识别结果,但是,可以这么说,利用识别单元81可以求出涵盖所有字段的总的语音识别结果。
图36是描述在使用每个字段的语言模型进行日文输入语音的语音识别、求出涵盖所有字段的总的语音识别结果以及进行语音识别结果与每个字段的搜索结果词串之间的匹配的情况下的图9中的语音搜索设备50的处理的图。
此外,在图36中,类似于图33中的情况,识别单元81使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型中的每个语言模型独立地进行日文输入语音的语音识别,并且求出节目标题字段、艺人姓名字段和详细信息字段中的每个字段的语音识别结果。
此外,识别单元81从节目标题字段、艺人姓名字段和详细信息字段中的每个的所有语音识别结果中检测识别得分排名最高或更多的语音识别结果,并且识别单元81将该语音识别结果设置为总的语音识别结果,可以这么说,总的语音识别结果用于由匹配单元56进行的匹配。
在存储在搜索结果存储单元53(图9)中的搜索结果词串中,匹配单元56(图9)进行总的语音识别结果与节目标题字段的搜索结果词串、艺人姓名字段的搜索结果词串和详细信息字段的搜索结果词串的匹配。
接着,输出单元57(图9)针对每个字段,根据匹配结果将与语音识别结果的相似度在前N位内的搜索结果的词串输出为搜索结果的词串。
在图36中,关于日文输入语音“sekai isan”(英文“world heritage”),“sekai isan”要被求出为总的语音识别结果。
此外,按照字段进行语音识别结果与搜索结果的词串之间的匹配,并且将具有前三个位置以内的相似度的搜索结果的词串输出为节目标题字段、艺人姓名字段和详细信息字段中的每个字段的搜索结果词串。
注意,在图36中,类似于图33,对用作搜索结果词串的搜索结果的词串的发音符号与语音识别结果相匹配的部分加下划线。
图37是描述在使用每个字段的语言模型进行英语输入语音的语音识别、求出涵盖所有字段的总的语音识别结果以及进行语音识别结果与每个字段的搜索结果的词串之间的匹配的情况下的图10中的语音搜索设备50的处理的图。
即使输入语音是英文,也进行与输入语音为日文的图36中描述的情况相似的处理。
也就是说,识别单元81使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型中的每个语言模型独立地进行英文输入语音的语音识别,并且求出节目标题字段、艺人姓名字段和详细信息字段中的每个字段的语音识别结果。
此外,识别单元81从节目标题字段、艺人姓名字段和详细信息字段中的每个的所有语音识别结果中检测识别得分排名最高或更多的语音识别结果,并且识别单元81将该语音识别结果设置为总的语音识别结果,可以这么说,总的语音识别结果用于由匹配单元56进行的匹配。
在存储在搜索结果存储单元53(图10)中的搜索结果的词串中,匹配单元56(图10)进行总的语音识别结果与节目标题字段的搜索结果的词串、艺人姓名字段的搜索结果的词串和详细信息字段的搜索结果的词串的匹配。
接着,输出单元57(图10)针对每个字段,根据匹配结果输出与语音识别结果的相似度在前N位内的搜索结果的词串作为搜索结果的词串。
在图37中,关于英文输入语音“World Heritage”,“World Heritage”要被求出为总的语音识别结果。
此外,按照字段进行语音识别结果与搜索结果的词串之间的匹配,并且将具有前三个位置以内的相似度的搜索结果的词串输出为节目标题字段、艺人姓名字段和详细信息字段中的每个字段的搜索结果词串。
注意,在图37中,类似于图36,将用作搜索结果词串的搜索结果的词串的发音符号与语音识别结果相匹配的部分加下划线。
如上所述,甚至在识别单元81将求出总的语音识别结果而不是每个字段的语音识别结果的情况下,利用输出单元57(图10)对全序进行排序,其中,对搜索结果的词串进行排序而不管字段(涵盖所有字段),并且可以将具有前N位内的全序的搜索结果的词串输出为搜索结果词串。
图38是示出在识别单元81求出总的语音识别结果的情况下用于求出全序的输出单元57的一部分的配置的框图。
在图38中,输出单元57具有相似度比较排序单元96。
将由匹配单元56求出的每个字段中的搜索结果的词串的相似度提供到相似度比较排序单元96。
注意,在图36中,用作由识别单元81求出的语音识别可靠性的识别得分为总的语音识别结果的识别得分,而不是针对每个字段都存在的值,由此不将该识别得分提供到相似度比较排序单元96。
相似度比较排序单元96比较节目标题字段的搜索结果的词串、艺人姓名字段的搜索结果的词串和详细信息字段的搜索结果的词串的所有的相似度,按照升序对这些相似度进行排列,并且按照总分最高的顺序对搜索结果的词串进行全序排序。
接着,输出单元57将具有前N位内的全序的搜索结果的词串输出为搜索结果词串。
[搜索结果词串的显示]
图39是示出输出单元57(图9和图10)输出的搜索结果词串的显示屏幕的示例的图。
可以在搜索结果词串的显示屏幕(下文中也被称为搜索结果显示屏幕)上突出地显示搜索结果的词串中与输入语音的语音识别结果相匹配(类似或匹配)的词或音节等的一部分(下文中也被称为讲话对应部分)。
图39示出显示没有突出显示讲话对应部分的搜索结果显示屏幕以及突出显示讲话对应部分的搜索结果显示屏幕。
在图39中,用下划线突出了讲话对应部分。
注意,例如,关于突出讲话对应部分的方法,存在其它方法,例如通过闪烁(闪烁)来显示讲话对应部分的方法,通过改变颜色来显示的方法,通过改变字体或大小来显示的方法等。
此外,不是所有讲话对应部分都要被突出,而是可以仅突出地显示一部分,例如仅突出地显示讲话对应部分中具有语音识别结果的高可靠性(语音识别可靠性)的部分。
此外,在搜索结果的词串很长的情况下,可以在搜索结果显示屏幕上仅显示搜索结果的词串中的讲话对应部分及其之前和之后的部分。
利用搜索结果显示屏幕,通过突出地显示搜索结果词串的讲话对应部分(或其一部分),用户可以理解是否正确地进行了语音识别,并且还可以确定是否再次进行讲话。
[利用包括识别的短语的输入语音进行的语音搜索]
图40和图41是示出通过包括识别的短语的输入语音进行的语音搜索的示例的图。
在图9(和图10)中的记录器中,命令确定单元71根据从语音识别单元51提供的语音识别结果,来确定来自用户的输入语音是否为控制记录器的命令。
也就是说,命令确定单元71存储被定义为控制记录器的命令的文本串(下文中也被称为命令文本串),并且根据来自语音识别单元51的语音识别结果是否与命令文本串匹配,来确定来自用户的输入语音是否为控制记录器的命令。
在命令确定单元71确定输入语音不是命令的情况下,即在来自语音识别单元51的语音识别结果与命令文本串不匹配的情况下,将输入语音不是命令的确定结果提供到控制单元72。
在这种情况下,例如,控制单元72控制匹配单元56执行匹配。因此,关于语音搜索设备50,由匹配单元56在语音识别结果与搜索结果的词串之间进行匹配,并且根据匹配结果,由输出单元57输出搜索结果词串。
另一方面,在命令确定单元71确定输入语音为命令的情况下,即在来自语音识别单元51的语音识别结果与命令文本串匹配的情况下,连同与语音识别结果匹配的命令文本串一起,将输入语音为命令的确定结果提供到控制单元72。
在这种情况下,控制单元72进行控制以限制语音搜索设备50的处理。因此,关于语音识别设备50,不由匹配单元56执行匹配,并且不输出搜索结果词串。
此外,在这种情况下,控制单元72根据从来自命令确定单元71的命令文本串解释的命令来进行处理,例如控制记录器功能单元60。
因此,例如,在由命令确定单元71将命令文本串“select”或者命令文本串“play”等存储为命令文本串的情况下,其中,命令文本串“select”被解释为从记录的节目中选择要进行播放的节目的命令,命令文本串“play”被解释为要播放节目的命令,例如当语音识别单元50输出与命令文本串“play”匹配的语音识别结果“play”时,由控制单元72根据从命令文本串“play”解释的命令来控制记录器功能单元60以播放节目。
现在,如上所述,在语音识别结果与命令文本串匹配的情况下,当语音搜索设备50的处理被限制时,不能针对与作为关键字的命令文本串匹配的词串来进行语音搜索。
因此,在由图9中的记录器来进行语音搜索的情况下,通过使用户用输入语音说出表示其意图的标识短语,例如包括“with voice searching(采用语音搜索)”等,可以针对与作为关键字的命令文本串匹配的词串来进行语音搜索。
注意,标识短语例如可以包括在输入语音的开始或结尾处,但是下文中将包括在输入语音的开始处。
使用词“play”作为关键词,在用户期望采用语音搜索来进行包括关键字“play”的节目搜索的情况下,例如连续地说出诸如“采用语音搜索”的表示语音搜索的标识短语、和关键词“play”。
在这种情况下,将输入语音“with voice searching,play”提供到语音识别单元51,并且由语音识别单元51来进行输入语音“with voicesearching,play”的语音识别。
现在,关于输入语音“with voice searching,play”的语音识别,在与输入语音“with voice searching,play”匹配的识别假设的语言得分很低的情况下,可能不输出与输入语音“with voice searching,play”匹配的语音识别结果。
现在,通过使用户说出包括标识短语“with voice searching”的输入语音“with voice searching,play”,进行包括关键词“play”的节目的语音搜索,由此不利的是,关于包括标识短语的输入语音,不会将包括标识短语的词串输出为语音识别结果。
也就是说,对于语音识别单元51,关于包括标识短语的输入语音“withvoice searching,play”,需要获得包括该标识短语的语音识别结果,并且为此,例如需要防止包括标识短语的识别假设的语言得分。
因此,关于语音识别单元51(图29),由语言模型生成单元85使用标识短语连同存储在搜索结果存储单元53(图9)中的搜索结果的词串来生成语言模型。
因此,例如,在采用双连字作为语言模型的情况下,在标识短语和构成搜索结果的词串的词彼此相邻的情况下,生成提供高值语言得分的语言模型(下文中也被称为标识短语语言模型)。
注意,要将命令文本串包括在存储在搜索结果存储单元53(图9)中的搜索结果的词串中。
此外,关于语音识别单元51,仅使用存储在搜索结果存储单元53(图9)中的搜索结果的词串而不使用标识短语,即使用不包括标识短语的词串,在语言模型生成单元85处生成无短语语言模型,该无短语语言模型是来自标识短语语言模型的另一个语言模型。
根据标识短语语言模型,作为包括标识短语(词串)的识别假设,将更高的值给予不包括标识短语的识别假设,。
此外,根据无短语语言模型,作为不包括标识短语的识别假设,将更高的值给予包括标识短语的识别假设。
语音识别单元51使用标识短语语言模型和无短语语言模型进行语音识别。
关于使用标识短语语言模型和无短语语言模型的语音识别,与使用无短语语言模型但是不使用标识短语语言模型的语音识别相比,将高值语言得分给予如下识别假设,在该识别假设中,标识短语和构成搜索结果的词串的词彼此相邻。
因此,对于包括标识短语的输入语音,与不使用标识短语语言模型的语音识别的情况相比,如下识别假设的语言得分(和声学得分)、因此识别得分变得更高,在该识别假设中,标识短语和构成搜索结果的词串的词彼此相邻;并且关于包括标识短语的输入语音,包括标识假设的识别假设的得分变得更低,因此可以防止不被输出为语音识别结果。
图40示出在由图9中的语音识别单元51使用标识短语语言模型和无短语语言模型进行日文输入语音的语音识别的情况下的语音搜索的示例。
如图40所示,在用户说出包括请求对节目进行语音搜索的日文标识短语“with voice searching”的日文输入语音“with voice searching,play”的情况下,,由语音识别单元51对输入语音“with voice searching,play”进行语音识别。
如上所述,由语音识别单元51使用标识短语语言模型进行语音识别,由此对于包括标识短语“with voice searching”的输入语音,与不使用标识短语的语言模型的情况相比,包括标识短语的识别假设“with voicesearching,play”的语言得分(和声学得分)、因此识别得分变得足够地更高。
因此,对于包括标识短语“with voice searching”的输入语音,将包括标识短语的识别假设“with voice searching,play”输出为语音识别结果。
由语音识别单元51输出的语音识别结果“with voice searching,play”提供到发音符号转换单元52和命令确定单元71。
语音识别结果“with voice searching,play”包括标识短语“with voicesearching”,由此该语音识别结果与命令文本串不匹配,因此命令确定单元71确定输入语音不是命令。
因此,控制单元72不执行控制,以限制语音搜索设备50的处理。
另一方面,来自语音识别单元51的语音识别结果“with voicesearching,play”由发音符号转换单元52转换成识别结果发音符号串,并且被提供到匹配单元56。
此外,经由词素分析单元54和发音符号转换单元55,将搜索结果的词串中的搜索结果的发音符号串从搜索结果存储单元53提供到匹配单元56。
在标识短语(的发音符号)包括在识别结果发音符号串中的情况下,匹配单元56从识别结果发音符号串中删除标识短语,并且执行删除标识短语之后的识别结果发音符号串与搜索结果的发音符号串之间的匹配。
接着,匹配单元56将用作识别结果发音符号串与搜索结果的发音符号串之间的匹配结果的相似度提供到输出单元57。
输出单元57根据来自匹配单元56的用作匹配结果的相似度,将具有前N位内的相似度的搜索结果的词串输出为搜索结果词串。
在图40中,关于包括标识短语的输入语音“with voice searching,play”,将用作前两个位置以内的搜索结果的词串的节目标题输出为搜索结果词串。
现在,在本情况下,执行删除了标识短语的识别结果发音符号串与搜索结果的发音符号串之间的匹配,即由匹配单元56执行删除了标识短语的语音识别结果与搜索结果的词串之间的匹配,并且根据匹配结果,将与删除了标识短语的语音识别结果匹配的搜索结果的词串输出为搜索结果词串。
因此,在这种情况下,可以将搜索结果的词串称为如下词串,该词串用于与从输入语音中移除(删除)了标识短语的语音相对应的词串的搜索结果。
另一方面,例如,如图40所示,在说出与命令文本串匹配的日文输入语音“play”而不包括标识短语的情况下,由语音识别单元51对输入语音“play”进行语音识别,并且将语音识别结果“play”提供到发音符号转换单元52和命令确定单元71。
语音识别结果“play”与命令文本串“play”匹配,由此命令确定单元71确定输入语音为命令,并且连同与语音识别结果匹配的命令文本串“play”一起,将输入语音为命令的确定结果提供到控制单元72。
当从命令确定单元71提供了输入语音为命令的确定结果时,控制单元72进行控制以限制语音搜索设备50的处理。因此,语音搜索设备50不进行语音搜索,并且不输出搜索结果词串。
此外,控制单元72根据从来自命令确定单元71的命令文本串“play”解释的命令,控制记录器功能单元60,以便进行节目的播放。
图41示出在使用标识短语语言模型和无短语语言模型进行英文输入语音的语音识别的情况下由图10的语音识别单元进行的语音搜索的示例。
如图41所示,例如,在用户说出包括请求对节目进行语音搜索的英文标识短语“Program Search”的英文输入语音“Program Search,Play”的情况下,由语音识别单元51对输入语音“Program Search,Play”进行语音识别。
如上所述,由语音识别单元51使用标识短语语言模型进行语音识别,由此对于包括标识短语“Program Search”的输入语音,与不使用标识短语的语言模型的情况相比,包括标识短语的识别假设“Program Search,Play”的语言得分(和声学得分)、因此识别得分变得足够地更高。
因此,对于包括标识短语“Program Search”的输入语音,将包括标识短语的识别假设“Program Search,Play”输出为语音识别结果。
由语音识别单元51输出的语音识别结果“Program Search,Play”提供到发音符号转换单元52和命令确定单元71。
语音识别结果“Program Search,Play”包括标识短语“ProgramSearch”,由此该语音识别结果与命令文本串不匹配,因此命令确定单元71确定输入语音不是命令。
因此,控制单元72不执行控制,以限制语音搜索设备50的处理。
另一方面,来自语音识别单元51的语音识别结果“Program Search,Play”由发音符号转换单元52转换成识别结果发音符号串,并且被提供到匹配单元56。
此外,经由发音符号转换单元55,将搜索结果的词串中的搜索结果的发音符号串从搜索结果存储单元53提供到匹配单元56。
在标识短语(的发音符号)包括在识别结果发音符号串中的情况下,匹配单元56从识别结果发音符号串中删除标识短语,并且进行删除标识短语之后的识别结果发音符号串与搜索结果的发音符号串之间的匹配。
接着,匹配单元56将用作识别结果发音符号串与搜索结果的发音符号串之间的匹配结果的相似度提供到输出单元57。
输出单元57根据来自匹配单元56的用作匹配结果的相似度,将具有前N位内的相似度的搜索结果的词串输出为搜索结果词串。
在图41中,关于包括标识短语的输入语音“Program Search,Play”,将用作前两个位置以内的搜索结果的词串的节目标题输出为搜索结果词串。
另一方面,例如,如图41所示,在用户说出与命令文本串匹配的英文输入语音“Play”而不包括标识短语的情况下,由语音识别单元51对输入语音“Play”进行语音识别,并且将语音识别结果“Play”提供到发音符号转换单元52和命令确定单元71。
语音识别结果“Play”与命令文本串“Play”匹配,由此命令确定单元71确定输入语音为命令,并且连同与语音识别结果匹配的命令文本串“Play”一起,将输入语音为命令的确定结果提供到控制单元72。
当从命令确定单元71提供了输入语音为命令的确定结果时,控制单元72进行控制以限制语音搜索设备50的处理。因此,语音搜索设备50不进行语音搜索,并且不输出搜索结果词串。
此外,控制单元72根据从来自命令确定单元71的命令文本串“Play”解释的命令,控制记录器功能单元60以进行节目的播放。
如上所述,由语音识别单元51使用标识短语语言模型和无短语语言模型进行语音识别,由此可以对包括标识短语的输入语音和不包括标识短语的输入语音二者准确地进行语音识别。
此外,在通过使用户讲话包括标识短语来进行语音搜索的情况下,可以区分用户讲话是语音搜索请求还是控制记录器的命令,并且即使词串与命令文本串匹配,也可以通过将词串用作关键字来进行语音搜索。
也就是说,根据标识短语是否包括在用户讲话中(或者根据用户讲话是否与命令文本串匹配),可以来回地切换语音搜索和记录器控制。
注意,在图40和图41中,命令文本串包括在搜索结果的词串中,并且由语言模型生成单元85通过仅使用搜索结果的词串而未使用标识短语来生成无短语语言模型,但是附加地,例如,可以采用仅使用命令文本串生成的语言模型作为无短语语言模型。
此外,在图40和图41中,由命令确定单元71通过是否根据来自语音识别单元51的语音识别结果来确定来自用户的输入语音是否为控制记录器的命令,该语音识别结果与命令文本串匹配,但是附加地,例如,关于输入语音是否为控制记录器的命令,可以由命令确定单元71根据匹配单元56的匹配结果来确定。
也就是说,在这种情况下,采用对于控制记录器的命令而言唯一的词串作为命令文本串,即在搜索结果的词串中出现的概率极低(理想地,在搜索结果的词串中出现的概率为零)的词串。
例如,作为使记录器进行播放的命令的命令文本串,采用“recoodacontorooru saisei”或者“Recorder Control Play”等,而不是“saisei”或者“Play”。
此外,命令文本串包括在搜索结果的词串中,并且由匹配单元56进行搜索结果的词串中的搜索结果的发音符号串与所有语音识别结果中的识别结果发音符号串之间的匹配,并且将匹配结果提供到命令确定单元71。
在具有最高相似度的搜索结果的词串与命令文本串匹配的情况下,由命令确定单元71确定输入语音为命令,其中,最高相似度是根据来自匹配单元56的匹配结果、通过与所有语音识别结果(的识别结果发音符号串)进行匹配而获得的;并且在最高的搜索结果的词串与命令文本串不匹配的情况下,由命令确定单元71确定输入语音不是命令。
在命令确定单元72确定输入语音为命令的情况下,控制单元72根据该命令进行处理,并且根据匹配单元56的匹配结果限制输出单元57输出搜索结果的词串。
另一方面,在命令确定单元71确定输入语音不是命令的情况下,当标识短语包括在输入语音的语音识别结果中时,控制单元72从识别结果发音符号中删除标识短语,并且控制单元72控制匹配单元56,以便进行删除标识短语之后的识别结果发音符号串与搜索结果的发音符号串之间的匹配,同时根据匹配单元56的匹配结果对输出单元57进行控制以输出搜索结果的词串。
注意,如上所述,在采用对于命令而言唯一的词串作为命令文本串的情况下,不管标识短语是否包括在输入语音中,命令确定单元71都可以确定输入语音是否为命令,由此进行语音搜索,用户可以说出仅用于语音搜索关键字的输入语音,而不用说出包括标识短语的输入语音(用户不需要说出标识短语以进行语音搜索)。
在这种情况下,当命令确定单元71确定输入语音不是命令时,控制单元72根据已经由匹配单元56进行的搜索结果的词串与所有语音识别结果之间的匹配的匹配结果,来控制输出单元57以输出搜索结果词串。
图42和图43是示出采用包括标识短语的输入语音进行的语音搜索的其它示例的图。
如采用图36和图37所描述的,在搜索结果的词串被分割为诸如节目标题字段、艺人姓名字段和详细信息字段等多个字段的情况下,语音识别单元51(图9(和图10))生成节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型作为每个字段的语言模型,并且可以使用每个字段的语言模型来进行语音识别,从而求出每个字段的语音识别结果。
此外,由语音识别单元51从节目标题字段、艺人姓名字段和详细信息字段中的每个字段的所有语音识别结果中检测识别得分排名最高或更多的语音识别结果,该语音识别结果可被设置为总的语音识别结果,该总的语音识别结果用于由匹配单元56进行的匹配。
此外,匹配单元56(图9)可以进行总的语音识别结果与每个字段的搜索结果的词串之间的匹配,并且输出单元57(图9)可以根据每个字段的匹配结果将具有前N位内的相似度的搜索结果的词串输出为搜索结果词串。
在这种情况下,针对每个字段输出搜索结果词串。
也就是说,分别针对节目标题字段、艺人姓名字段和详细信息字段输出搜索结果词串。
因此,甚至在用户试图搜索标题中包括预定文本串的节目时说出预定文本串的情况下,不仅输出节目标题的搜索结果的词串,而且输出与节目标题字段、艺人姓名字段和详细信息字段中的每个字段的语音识别结果相匹配的搜索结果的词串,作为搜索结果词串。
因此,即使节目标题与用户说出的预定文本串不匹配,也可以将与该预定文本串匹配的包括作为元数据的艺人姓名或详细信息的节目输出为搜索结果文本串。
如上所述,对于将与用户说出的预定文本串不匹配的节目标题输出为搜索结果文本串,会使用户感觉不舒服。
此外,例如,在搜索节目的情况下,方便的是,能够搜索只有标题中包括预定文本串的节目,或者能够搜索只有艺人姓名中包括预定文本串的节目等。
因此,例如,在通过使用户说出包括标识短语的输入语音来进行语音搜索的情况下,其中,标识短语指示语音搜索并且表示与语音识别结果匹配的搜索结果的词串的字段,例如“search with program name”、“searchwith person name”等,则可以由图9(和图10)中的记录器在将与语音识别结果匹配的搜索结果的词串的字段限制为标识字段的同时进行语音搜索。
在将与语音识别结果匹配的搜索结果的词串的字段限制为标识字段的同时进行语音搜索的情况下,针对每个字段,由语音识别单元51(图29)的语言模型生成单元85使用存储在搜索结果存储单元53(图9)中的搜索结果的词串和字段短语来生成语言模型,其中,该字段短语是用于指示字段的标识短语。
也就是说,例如,如上所述,在搜索结果的词串被分割为三个字段:节目标题字段、艺人姓名字段和详细信息字段的情况下,例如语言模型生成单元85使用用作字段短语的“search by program name”(日文)或“program title search by”、以及节目标题字段的搜索结果的词串,来生成节目标题字段的语言模型,其中,字段短语是表示节目标题字段的标识短语。
此外,例如,语言模型生成单元85通过使用用作表示艺人姓名字段的标识短语的字段短语的“search by person name”(日文)或“cast searchby”、以及艺人姓名字段的搜索结果的词串,来生成艺人姓名字段的语言模型;以及例如,还使用用作表示详细信息字段的标识短语的字段短语的“search by detailed information”(日文)或“information search by”、以及详细信息字段的搜索结果的词串,来生成详细信息字段的语言模型。
注意,例如在根据节目标题字段的语言模型采用双连字作为语言模型的情况下,在节目标题字段的字段短语“search by program name”(日文)或“program title search by”与构成节目标题字段的搜索结果的词串的词彼此相邻的情况下,给予高值语言得分。
艺人姓名字段的语言模型和详细信息字段的语言模型也是类似的。
语音识别单元51使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型来进行语音识别。
根据使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型的语音识别,在如下识别假设下,给予高值语言得分,在该识别假设中,节目标题字段的字段短语“search by program name”(日文)或“program title search by”与构成节目标题字段的搜索结果的词串的词彼此相邻,艺人姓名字段的字段短语“search by person name”(日文)或“cast search by”与构成艺人姓名字段的搜索结果的词串的词彼此相邻,或者详细信息字段的字段短语“search by detailed information”(日文)或“information search by”与构成详细信息字段的搜索结果的词串的词彼此相邻。
因此,在用户说出包括字段短语的输入语音的情况下,可以准确地对输入语音进行语音识别。
如上所述,在将与语音识别结果匹配的搜索结果的词串的字段限制为用于进行语音识别的识别字段的情况下,,语音识别单元51(图29)使用每个字段的语言模型来进行语音识别,并且匹配单元56仅对用于识别由包括在语音识别结果中的字段短语表示的字段(用于获得语音识别结果的语言模型的字段)的词串进行与语音识别结果的匹配,以及输出单元57根据匹配结果输出搜索结果的词串。
图42示出在如下情况下由图9中的语音识别单元51进行的语音搜索的示例,在该情况下,使用每个字段的语言模型来进行日文输入语音的语音识别,并且匹配单元56进行语音识别结果与仅用于识别由包括在语音识别结果中的字段短语表示的字段的词串之间的匹配。
如图42所示,例如,在用户说出包括字段短语“search by programname”的输入语音“search by program name for…”的情况下,由语音识别单元51对输入语音“search by program name for…”进行语音识别。
如上所述,语音识别单元51使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型来进行语音识别,由此,关于包括节目标题字段的字段短语“search by program name”的输入语音“search by program name for…”,与不包括字段短语“search byprogram name”的识别假设(包括如下识别假设,该识别假设包括除了节目标题字段的字段短语“search by program name”之外的字段短语)的识别得分相比,包括节目标题字段的字段短语“search by programname”的识别假设“search by program name for…”的语言得分(和声学得分)、因此识别得分足够地更高。
因此,关于包括节目标题字段的字段短语“search by program name”的日文输入语音,包括该节目标题字段的字段短语的识别假设“search byprogram name for…”成为语音识别结果,同时可以防止不包括节目标题字段的字段短语的识别假设成为语音识别结果。
经由发音符号转换单元52,语音识别单元51输出的语音识别结果“search by program name for…”被转换成识别结果发音符号串,并且被提供到匹配单元56。
此外,经由词素分析单元54和发音符号转换单元55,将搜索结果的词串中的搜索结果的发音符号串从搜索结果存储单元53提供到匹配单元56。
在字段短语(的发音符号)包括在识别结果发音符号串中的情况下,匹配单元56从识别结果发音符号串中删除字段短语,并且从搜索结果的词串中,仅针对由包括在识别结果发音符号串中的字段短语所表示的字段的搜索结果的词串中的搜索结果的发音符号串,进行与删除字段短语之后的识别结果发音符号串的匹配。
接着,匹配单元56将用作识别结果发音符号串与搜索结果的发音符号串之间的匹配结果的相似度提供到输出单元57。
因此,关于包括节目标题字段的字段短语的语音识别结果“search byprogram name for…”,匹配单元56仅针对节目标题字段的搜索结果的词串,来进行与语音识别结果(删除了字段短语的语音识别结果)的匹配。
根据来自匹配单元56的用作匹配结果的相似度,输出单元57将具有前N位内的相似度的搜索结果的词串输出为搜索结果词串。
因此,在用户说出包括节目标题字段的字段短语的日文输入语音“search by program name for…”的情况下,将删除字段短语之后的语音识别结果“search by program name for…”的文本串“…”与节目标题字段的搜索结果的词串进行匹配,因此将与文本串“…”匹配的节目输出为搜索结果的词串。
此外,如图42所示,例如,在用户说出包括艺人姓名字段的字段短语的输入语音“search by person name for…”的情况下,由语音识别单元51对输入语音“search by person name for…”进行语音识别。
如上所述,由语音识别单元51使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型来进行语音识别,由此,关于包括艺人姓名字段的字段短语“search by person name”的输入语音“search by person name for…”,与不包括字段短语“search by personname”的识别假设的识别得分相比,包括艺人姓名字段的字段短语“searchby person name”的识别假设“search by person name for…”的语言得分(和声学得分)、因此识别得分足够地更高。
因此,关于包括艺人姓名字段的字段短语“search by person name”的日文输入语音,包括艺人姓名字段的字段短语的识别假设“search byperson name for…”成为语音识别结果,同时可以防止不包括艺人姓名字段的字段短语的识别假设成为语音识别结果。
经由发音符号转换单元52,语音识别单元51输出的语音识别结果“search by person name for…”被转换成识别结果发音符号串,并且被提供到匹配单元56。
此外,经由词素分析单元54和发音符号转换单元55,将搜索结果的词串中的搜索结果的发音符号串从搜索结果存储单元53提供到匹配单元56。
在字段短语(的发音符号)包括在识别结果发音符号串中的情况下,匹配单元56从识别结果发音符号串中删除字段短语,并且从搜索结果的词串中,仅针对由包括在识别结果发音符号串中的字段短语所表示的字段的搜索结果的词串中的搜索结果的发音符号串,来进行与删除字段短语之后的识别结果发音符号串的匹配。
接着,匹配单元56将用作识别结果发音符号串与搜索结果的发音符号串之间的匹配结果的相似度提供到输出单元57。
因此,关于包括艺人姓名字段的字段短语的语音识别结果“search byperson name for…”,匹配单元56仅针对艺人姓名字段的搜索结果的词串,来进行与语音识别结果(删除了字段短语的语音识别结果)的匹配。
根据来自匹配单元56的用作匹配结果的相似度,输出单元57将具有前N位内的相似度的搜索结果的词串输出为搜索结果词串。
因此,在用户说出包括艺人姓名字段的字段短语的日文输入语音“search by person name for…”的情况下,将删除字段短语之后的语音识别结果“search by person name for…”的文本串“…”与艺人姓名字段的搜索结果的词串进行匹配,因此将与文本串“…”匹配的艺人姓名输出为搜索结果的词串。
根据以上描述,甚至在采用某个文本串“…”作为关键字进行节目搜索的情况下,根据包括在日文输入语音中的字段短语,可以获得不同的节目作为搜索结果。
图43示出在如下情况下由图10中的语音识别单元51进行的语音搜索的示例,在该情况下,使用每个字段的语言模型来进行英文输入语音的语音识别,并且匹配单元56进行语音识别结果与仅用于识别由包括在语音识别结果中的字段短语表示的字段的词串的匹配。
如图42所示,例如,在用户说出包括字段短语“Program Title Searchby”的输入语音“Program Title Search by XX”的情况下,由语音识别单元51对输入语音“Program Title Search by XX”进行语音识别。
如上所述,语音识别单元51使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型来进行语音识别,由此,关于包括节目标题字段的字段短语“Program Title Search by”的输入语音“Program Title Search by XX”,与不包括字段短语“Program TitleSearch by”的识别假设(包括如下识别假设,该识别假设包括除了节目标题字段的字段短语“Program Title Search by”之外的字段短语)的识别得分相比,包括节目标题字段的字段短语“Program Title Search by”的识别假设“Program Title Search by XX”的语言得分(和声学得分)、因此识别得分足够地更高。
因此,关于包括节目标题字段的字段短语“Program Title Search by”的英文输入语音,包括节目标题字段的字段短语的识别假设“ProgramTitle Search by XX”成为语音识别结果,同时可以防止不包括节目标题字段的字段短语的识别假设成为语音识别结果。
经由发音符号转换单元52,语音识别单元51输出的语音识别结果“Program Title Search by XX”被转换成识别结果发音符号串,并且被提供到匹配单元56。
此外,经由发音符号转换单元55,将搜索结果的词串中的搜索结果的发音符号串从搜索结果存储单元53提供到匹配单元56。
在字段短语(的发音符号)包括在识别结果发音符号串中的情况下,匹配单元56从识别结果发音符号串中删除字段短语,并且从搜索结果的词串中,仅针对由包括在识别结果发音符号串中的字段短语所表示的字段的搜索结果的词串中的搜索结果的发音符号串,来进行与删除字段短语之后的识别结果发音符号串的匹配。
接着,匹配单元56将用作识别结果发音符号串与搜索结果的发音符号串之间的匹配结果的相似度提供到输出单元57。
因此,关于包括节目标题字段的字段短语的语音识别结果“ProgramTitle Search by XX”,匹配单元56仅针对节目标题字段的搜索结果的词串,来进行与语音识别结果(删除了字段短语的语音识别结果)的匹配。
根据来自匹配单元56的用作匹配结果的相似度,输出单元57将具有前N位内的相似度的搜索结果的词串输出为搜索结果词串。
因此,在用户说出包括节目标题字段的字段短语的英文输入语音“Program Title Search by XX”的情况下,将删除字段短语之后的语音识别结果“Program Title Search by XX”的文本串“XX”与节目标题字段的搜索结果的词串进行匹配,因此将与文本串“XX”匹配的节目标题输出为搜索结果的词串。
如图42所示,例如,在用户说出包括字段短语“Cast Search by”的输入语音“Cast Search by XX”的情况下,由语音识别单元51对输入语音“Cast Search by XX”进行语音识别。
如上所述,由语音识别单元51使用节目标题字段的语言模型、艺人姓名字段的语言模型和详细信息字段的语言模型来进行语音识别,由此,关于包括艺人姓名字段的字段短语“Cast Search by”的输入语音“CastSearch by XX”,与不包括字段短语“Cast Search by”的识别假设的识别得分相比,包括艺人姓名字段的字段短语“Cast Search by”的识别假设“Cast Search by XX”的语言得分(和声学得分)、因此识别得分足够地更高。
因此,关于包括艺人姓名字段的字段短语“Cast Search by”的英文输入语音,包括艺人姓名字段的字段短语的识别假设“Cast Search by XX”成为语音识别结果,同时可以防止不包括艺人姓名字段的字段短语的识别假设成为语音识别结果。
经由发音符号转换单元52,语音识别单元51输出的语音识别结果“Cast Search by XX”被转换成识别结果发音符号串,并且被提供到匹配单元56。
此外,经由发音符号转换单元55,将搜索结果的词串中的搜索结果的发音符号串从搜索结果存储单元53提供到匹配单元56。
在字段短语(的发音符号)包括在识别结果发音符号串中的情况下,匹配单元56从识别结果发音符号串中删除字段短语,并且从搜索结果的词串中,仅针对由包括在识别结果发音符号串中的字段短语所表示的字段的搜索结果的词串中的搜索结果的发音符号串,来进行与删除字段短语之后的识别结果发音符号串的匹配。
接着,匹配单元56将用作识别结果发音符号串与搜索结果的发音符号串之间的匹配结果的相似度提供到输出单元57。
因此,关于包括艺人姓名字段的字段短语的语音识别结果“CastSearch by XX”,匹配单元56仅针对艺人姓名字段的搜索结果的词串,来进行与语音识别结果(删除了字段短语的语音识别结果)的匹配。
根据来自匹配单元56的用作匹配结果的相似度,输出单元57将具有前N位内的相似度的搜索结果的词串输出为搜索结果词串。
因此,在用户说出包括艺人姓名字段的字段短语的英文输入语音“Cast Search by XX”的情况下,将删除字段短语之后的语音识别结果“Cast Search by XX”的文本串“XX”与艺人姓名字段的搜索结果的词串进行匹配,因此将与文本串“XX”匹配的艺人姓名输出为搜索结果的词串。
根据以上描述,甚至在采用某个文本串“XX”作为关键字进行节目搜索的情况下,根据包括在英文输入语音中的字段短语,可以获得不同的节目作为搜索结果。
注意,不仅可以采用表示一个字段的短语作为字段短语,而且也可以采用表示多个字段的短语作为字段短语。
此外,可以采用用来控制图9(图10)中的记录器的命令所属的字段作为字段,在这种情况下,关于输入语音是否为命令,可以通过包括在语音识别结果中的字段短语来进行确定,并且此外,在输入语音为命令的情况下,可以通过由匹配单元56进行的匹配来搜索命令的类型(命令是什么,命令请求哪种类型的处理?)。
[增加匹配速度和降低存储容量]
图44是示出搜索结果的向量和向量替代信息的图。
例如,为了快速输出搜索结果词串,语音识别单元50(图9(和图10))必须高速进行匹配。
另一方面,在对语音识别结果和搜素结果的词串进行匹配时,在求出余弦距离或修正距离作为相似度的情况下,需要表示搜索结果的发音符号串的搜索结果向量和表示识别结果发音符号串的识别结果向量,但是,如果每次获得语音识别结果时,存储在搜索结果存储单元53(图9)中的搜索结果的词串都被转换成搜索结果向量,则进行匹配需要时间,从而阻碍匹配速度的增加。
因此,存在如下增加匹配速度的方法,其中,根据存储在搜索结果存储单元53(图9)中的搜索结果的词串来预先求出计算相似度所需的搜索结果向量,并且将其存储在内置到匹配单元56中的未示出的存储器中,可以满足更高速度的匹配。
然而,如果搜索结果向量存储在内置到匹配单元56中的存储器中,则存储器需要有很大的存储器容量。
也就是说,例如,根据与搜索结果向量的分量对应的音节是否存在于搜索结果的发音符号串中,将搜索结果向量的分量的值设置为1或0,在发音符号的类型的数量为C的情况下,搜索结果向量为C维向量。
例如,在采用表示日文音节的符号作为发音符号的情况下,发音符号类型的数量C大约为100至300。
此外,例如,即使发音符号类型的数量为100,在采用双连字音节作为匹配单位的情况下,搜索结果向量变为10,000(=100×100)维向量。
此外,如果搜索结果向量的维数为D维,并且存储在搜索结果存储单元53(图9)中的搜索结果的词串的数量为Z,则内置到匹配单元56中的存储器需要用于存储D×Z个分量(的搜索结果向量)的存储容量。
现在,搜索结果向量通常为稀疏向量(稀疏向量),即,通常为大多数分量为0的向量。
因此,对于每个搜索结果向量,匹配单元56仅将与搜索结果向量中的不为0的分量对应的音节的发音符号(用于标识的ID(标识符))(在采用双连字音节作为匹配单位的情况下,与不为0的分量对应的双连字音节的发音符号串)存储在内置存储器中。
注意,例如,在采用对应于分量的音节在搜索结果的发音符号串中出现的频率(tf)作为搜索结果向量的分量值的情况下,仅将由对应于搜索结果向量的非0分量的音节(用于标识的ID)和该音节出现的频率(搜索结果向量的分量值)所组成的对存储在内置到匹配单元56中的存储器中。
在仅将与搜索结果向量中的非0分量对应的音节的发音符号存储在内置到匹配单元56中的存储器中的情况下,如果第i个搜索结果词串的搜索结果向量中的非0分量的数量为K(i),则内置到匹配单元56中的存储器足以具有用于存储K(1)+K(2)+…+K(Z)个发音符号的存储容量。
现在,搜索结果向量的分量的值采用0和1两个值,然而如上所述,发音符号采用的值大约为100至300的值,由此搜索结果向量的一个分量可以用1比特来表示,但是为了表示发音符号,需要大约7至9比特。
然而,大多数搜索结果向量的分量为0,由此关于搜索结果向量,不为0的分量的数量K(i)是很小的值,并且与用于存储(搜索结果向量的)D×Z个分量的存储容量相比,用于仅存储K(1)+K(2)+…+K(Z)个发音符号的存储容量变得很小。
因此,对于每个搜索结果向量,匹配单元56通过仅将与搜索结果向量的非0分量对应的音节的发音符号存储在内置存储器中,与存储搜索结果向量本身的情况相比,可以减小存储器所需要的存储容量。
现在,存储在内置到匹配单元56中的存储器中的与搜索结果向量的非0分量对应的音节的发音符号是用于替代搜索结果向量的信息,由此,在下文中根据需要也可以将其称为向量替代信息。
图44示出搜索结果向量和替代搜索结果向量的向量替代信息。
根据搜索结果的发音符号串中是否存在与搜索结果向量的分量对应的音节,搜索结果向量的分量值为1或0。
另一方面,替代搜索结果向量的向量替代信息仅由与搜索结果向量中的非0分量对应的音节的发音符号构成。
现在,关于图44中的向量替代信息,用括号中的数字来区分在搜索结果的词串中多次出现的同一音节的发音符号(搜索结果的发音符号串)。
也就是说,在图44中,例如,在搜索结果的符号串“SEKAI ISAN”中,相同的发音符号“I”出现了两次,但是在向量替代信息中,在出现两次的音节“I”的发音符号中,第一发音符号表示为“I”,而第二发音符号表示为“2(2)”,其中,表示其为第二的带有括号的数字“(2)”附加到第二发音符号“I”,因此分别区分出现两次的音节“I”的发音符号。
注意,关于向量替代信息,也可以在不区分的情况下表示在搜索结果的词串中出现多次的相同音节的发音符号。
也就是说,在图44中,在搜索结果的词串“SEKAI ISAN”中出现两次的音节“I”的相同发音符号可以用如下对(“I,2”)来表示,该对(“I,2”)由音节“I”(用于标识的ID)和音节“I”出现的频率“2”构成。
如上所述,关于内置到匹配单元56中的存储器,在存储向量替代信息而不是搜索结果向量的情况下,关于匹配不需要访问搜索结果向量中的为0的分量(从存储器中读出0分量),这在存储搜索结果向量的情况下是需要的,由此,除了减少存储器的存储容量之外,还可以以更高的速度进行匹配。
图45是描述在将向量替代信息而不是搜索结果向量存储在内建到匹配单元56中的存储器中的情况下计算语音识别结果与搜索结果的词串之间的相似度的图。
注意,在图45中,类似于图44,搜索结果的词串中多次出现的相同音节的发音符号被表示为以向量替代信息来区分。下面的图46和图47也是类似的。
此外,在图45中,类似于用向量替代信息而不是搜索结果向量表示的搜索结果的词串(的搜索结果的发音符号串),也用向量替代信息而不是识别结果向量来表示语音识别结果(的识别结果发音符号串)。下面的图47也是类似的。
在求出余弦距离或修正距离作为语音识别结果与搜索结果的词串之间的相似度的情况下,需要识别结果向量VUTR与搜索结果向量VTITLE(i)的内积VUTR·VTITLE(i)以及识别结果向量VUTR的大小|VUTR|。
此外,在求出余弦距离和修正距离中的第一修正距离的情况下,还需要搜索结果向量VTITLE(i)的大小|VTITLE(i)|。
可以通过计算用作构成语音识别结果的向量替代信息的分量的发音符号的数量之和的平方根来求出识别结果向量VUTR的大小|VUTR|。
类似于识别结果向量VUTR的大小|VUTR|,也可以通过使用搜索结果的词串的向量替代信息来获得搜索结果向量VTITLE(i)的大小|VTITLE(i)|。
此外,如果内积VUTR·VTITLE(i)具有初始值0,并且依次使得构成语音识别结果的向量替代信息的发音符号成为关注符号,并且与关注符号匹配的发音符号存在于搜索结果的词串的向量替代信息中,则可以通过使识别结果向量VUTR与搜索结果向量VTITLE(i)的内积VUTR·VTITLE(i)一次增加1来求出内积VUTR·VTITLE(i)。
因此,可以通过使用搜索结果的词串和语音识别结果的向量替代信息,来求出作为语音识别结果与搜索结果的词串之间的相似度的余弦距离或修正距离。
现在,如上所述,在搜索结果的词串的向量替代信息中存在与构成语音识别结果的向量替代信息的发音符号中的关注符号匹配的发音符号的情况下,关于通过使内积VUTR·VTITLE(i)一次增加1来求出内积VUTR·VTITLE(i)的方法(下文中也被称为第一内积计算方法),需要确认构成存储在内置到匹配单元56中的存储器中的搜索结果的词串的向量替代信息的发音符号中的每个发音符号是否与关注符号匹配。
因此,关于第一内积计算方法,由于必需访问构成搜索结果的词串的向量替代信息的发音符号中的与构成语音识别结果的向量替代信息的发音符号不匹配的发音符号,所以内积VUTR·VTITLE(i)的计算需要时间,因此匹配需要时间。
因此,根据发音符号,匹配单元56可以根据搜索结果的词串的向量替代信息预先创建如下反向查找表,该反向查找表可以搜索发音符号的向量替代信息中的搜索结果的词串,并且可以使用反向查找表索引来计算内积VUTR·VTITLE(i)。
现在,可以将向量替代信息称为如下索引,该索引可以从搜索结果的词串中搜索搜索结果的词串所具有的音节的发音符号,但是根据反向索引、反向搜索、即从发音符号中搜索,可以从搜索结果的词串中搜索向量替代信息所具有的发音符号。
图46是描述根据搜索结果的词串的向量替代信息来创建反向查找索引的方法的图。
匹配单元56通过将发音符号和搜索结果的ID相关联来为要成为向量替代信息的分量的发音符号创建反向查找索引,其中,搜索结果的ID标识将该发音符号作为向量替代信息的分量的搜索结果的词串。
根据图46中的反向查找索引,例如,可以立即检测(搜索)将发音符号“I”作为向量替代信息的分量的搜索结果的词串,以作为搜索结果的ID为3的搜索结果的词串和搜索结果的ID为3的搜索结果的词串。
图47是描述使用反向查找索引计算内积VUTR·VTITLE(i)的方法(也被称为第二内积计算方法)的图。
关于第二内积计算方法,匹配单元56将内积VUTR·VTITLE(i)的初始值设置为0,使得构成语音识别结果的向量替代信息的发音符号依次成为关注符号,并且从反向查找索引中检测将与关注符号匹配的发音符号作为向量替代信息的分量的搜索结果的词串(的搜索结果的ID)。
此外,对于将与关注符号匹配的发音符号作为向量替代信息的分量的搜索结果的词串,匹配单元56使搜索结果的词串的内积VUTR·VTITLE(i)每次增加1。
根据第二内积计算方法,在反向查找索引的发音符号中,不访问与构成语音识别结果的向量替代信息的发音符号不匹配的发音符号,由此与第一内积计算方法相比,可以以更短的时间量来进行内积VUTR·VTITLE(i)的计算,因此可以满足以更高的速度进行的匹配。
注意,此外,在相似度的计算中,预先进行可以在语音识别单元52进行语音识别之前进行的计算部分,并且通过将其存储在内置到匹配单元56中的存储器中,可以满足以更高的速度进行的匹配。
也就是说,例如,如上所述,在采用余弦距离或者第一修正距离作为相似度的情况下,需要内积VUTR·VTITLE(i)、识别向量VUTR的大小|VUTR|和搜索结果向量VTITLE(i)的大小|VTITLE(i)|。
在内积VUTR·VTITLE(i)、识别向量VUTR的大小|VUTR|和搜索结果向量VTITLE(i)的大小|VTITLE(i)|中,可以在进行语音识别之前计算搜索结果向量VTITLE(i)的大小|VTITLE(i)|。
因此,可以预先计算搜索结果向量VTITLE(i)的大小|VTITLE(i)|,并且通过将其存储在内置到匹配单元56中的存储器中,可以满足以更高的速度进行的匹配。
[语音搜索设备50的处理]
图48是描述图9(和图10)中的语音搜索设备50的处理的流程图。
在步骤S11中,语音搜索设备50进行必要的预处理。
也就是说,例如作为预处理,语音搜索设备50执行读取节目标题、艺人姓名、详细信息等的处理,将其提供到搜索结果存储单元53,并且将其存储为搜索结果的词串,其中,节目标题、艺人姓名、详细信息等为构成存储在存储介质63中的EPG的构成元素。
此外,关于语音搜索设备50,作为预处理,语音识别单元51执行处理以使用存储在搜索结果存储单元53中的搜索结果的词串,并且生成语言模型。
注意,例如在每天的预定时间点进行步骤S11中的预处理。可替选地,例如当记录在存储介质63中的记录的节目改变时,或者当存储在存储介质63中的EPG改变(更新)时进行步骤S11中的预处理,等等。
在最近的预处理之后,当用户进行讲话并且将讲话的输入语音提供到语音识别单元51时,语音识别单元51在步骤S12中对该输入语音进行语音识别。
注意,使用由最近的预处理生成的语言模型来进行由语音识别单元51进行的语音识别。
经由发音符号转换单元52,通过语音识别单元51执行输入语音的语音识别而获得的语音识别结果变成识别结果发音符号,并且被提供到匹配单元56。
此外,经由词素分析单元54和发音符号转换单元55,存储在搜索结果存储单元53中的搜索结果的词串变成搜索结果的发音符号串,并且被提供到匹配单元56。
在步骤S13中,对于存储在搜索结果存储单元53中的所有搜索结果的词串中的每个,匹配单元56对经由发音符号转换单元52从语音识别单元51提供的识别结果发音符号串和经由词素分析单元54和发音符号转换单元55从搜索结果存储单元53提供的搜索结果的发音符号串进行匹配,并且将匹配结果提供到输出单元57。
也就是说,例如,对于存储在搜索结果存储单元53中的搜索结果的词串中的每个,匹配单元56计算修正距离等作为与语音识别结果的相似度,并且将作为匹配结果的相似度提供到输出单元57。
注意,在识别结果发音符号串包括标识短语(的发音符号)的情况下,匹配单元56对删除了标识短语的识别结果发音符号串与搜索结果发音符号串进行匹配。
在步骤S14中,输出单元57根据来自匹配单元56的匹配结果,选择并输出如下搜索结果词串(用作搜索结果词串的搜索结果的词串),该搜索结果词串(用作搜索结果词串的搜索结果的词串)是从存储在搜索结果存储单元53中的搜索结果的词串中搜索与输入语音对应的词串的结果。
也就是说,输出单元57从存储在搜索结果存储单元53中的搜索结果的词串中选择并输出如下搜索结果的词串作为搜索结果词串,该搜索结果的词串具有与语音识别结果在前N位内的相似度。
注意,例如在搜索结果的词串是节目标题、艺人姓名或详细信息的情况下,例如当除标题以外的艺人姓名(或详细信息)在具有前N位内的与语音识别结果的相似度的搜索结果的词串中时,连同艺人姓名一起或者替代艺人姓名,可以由输出单元57选择将艺人姓名作为元数据的节目标题作为搜索结果词串。
[应用了本发明的计算机的描述]
接着,可以用硬件或软件进行上述处理系列。在用软件进行上述处理系列的情况下,构成软件的程序安装在通用计算机上等。
因此,图49示出其中安装有进行上述处理系列的程序的计算机的实施例的配置示例。
程序可以预先记录在用作内置到计算机中的记录介质的硬盘105或者ROM 103中。
可替选地,程序可以记录在可移除记录介质111上。可以将这样的可移除记录介质111提供为所谓的封装软件。现在,可移除记录介质111可以是软盘、CD-ROM(紧凑盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、半导体存储器等。
注意,程序可以从上述可移除记录介质111来安装,或者可以通过通信网络或者广播网络下载到计算机上并且安装在内置硬盘105中。也就是说,程序可以经由用于数字卫星广播的卫星从下载站点无线传输到计算机,或者可以经由诸如LAN(局域网)或因特网的网络通过电缆传输到计算机。
计算机具有内置的CPU(中央处理器)102,并且输入/输出接口110经由总线101连接到CPU 102。
当操作输入单元107的用户等经由输入/输出接口110输入命令时,CPU 102相应地执行存储在ROM(只读存储器)103中的程序。可替选地,CPU 102将存储在硬盘105中的程序装载到RAM(随机存取存储器)104中并且执行该程序。
因此,CPU 102执行根据上述流程图的处理、或者由上述框图配置执行的处理。接着,例如,根据需要,CPU 102经由输入/输出接口110从输出单元106输出处理结果,或者从通信单元108进行传输,并且进一步将其存储在硬盘105上,等等。
注意,输入单元107由键盘、鼠标、麦克风等构成。输出单元106由LCD(液晶显示器)或扬声器等构成。
现在,根据本说明书,计算机根据程序执行的处理不是必须按照流程图描述的顺序、以时间序列的方式来执行。也就是说,计算机根据程序执行的处理包括同时执行的处理或独自执行的处理(例如,并行处理或由对象进行的处理。)
此外,程序可以用一个计算机(处理器)来执行,或者可以由多个计算机来分布和处理。此外,可以将程序传输到远程计算机并且执行。
注意,根据本发明的实施例不限于上述实施例,可以在不背离本发明的精神和范围的情况下做出各种修改。
也就是说,例如,输入语音语言不限于日文和英文。
附图标记列表
11语音识别单元
12发音符号转换单元
13搜索结果存储单元
14词素分析单元
15发音符号转换单元
16匹配单元
17输出单元
21发音符号转换单元
31搜索结果存储单元
41语音识别单元
51语音识别单元
52发音符号转换单元
53搜索结果存储单元
54词素分析单元
55发音符号转换单元
56匹配单元
57输出单元
60记录器功能单元
61调谐器
62记录/播放单元
63记录介质
71命令确定单元
72控制单元
73输出I/F
81识别单元
82字典存储单元
83声学模型存储单元
84语言模型存储单元
85语言模型生成单元
91总分计算单元
92节目标题总分计算单元
93艺人姓名总分计算单元
94详细信息总分计算单元
95得分比较排序单元
96相似度比较排序单元
101总线
102CPU
103ROM
104RAM
105硬盘
106输出单元
107输入单元
108通信单元
109驱动器
110输入/输出接口
111可移除记录介质

Claims (8)

1.一种搜索设备,包括:
语音识别单元,用于对输入语音进行语音识别;
匹配单元,用于关于多个搜索结果词串中的每个执行搜索结果发音符号串与识别结果发音符号串的匹配,其中,所述多个搜索结果词串是要成为对应于所述输入语音的词串的搜索结果的词串,所述搜索结果发音符号串是表示所述词串搜索结果的发音的发音符号排列,而所述识别结果发音符号串是表示所述输入语音的语音识别结果的发音的发音符号排列;以及
输出单元,用于基于所述搜索结果发音符号串与所述识别结果发音符号串的匹配结果输出搜索结果词串,其中所述搜索结果词串是从所述多个搜索结果词串中搜索对应于所述输入语音的词串而得到的结果。
2.根据权利要求1所述的搜索设备,其中,
所述发音符号是表示音节或音素的发音的符号;并且
所述匹配单元在所述搜索结果发音符号串与所述识别结果发音符号串的匹配中,对于搜索结果向量和识别结果向量求出已对向量空间法的余弦距离进行了修正的修正距离,以降低所述搜索结果发音符号串与所述识别结果发音符号串之间的长度差的影响,其中,所述搜索结果向量是表示所述搜索结果发音符号串的向量,而所述识别结果向量是表示所述识别结果发音符号串的向量。
3.根据权利要求2所述的搜索设备,还包括:
发音符号转换单元,用于将所述输入语音的语音识别结果转换成所述识别结果发音符号串。
4.根据权利要求3所述的搜索设备,其中,所述发音符号转换单元还将所述搜索结果词串转换成所述搜索结果发音符号串。
5.根据权利要求2所述的搜索设备,其中,在求出所述余弦距离的计算中,所述匹配单元使用所述搜索结果向量的大小与所述识别结果向量的大小的乘积值的平方根代替所述搜索结果向量的大小来求出所述修正距离。
6.根据权利要求2所述的搜索设备,其中,在求出所述余弦距离的计算中,所述匹配单元使用所述识别结果向量的大小代替所述搜索结果向量的大小来求出所述修正距离。
7.一种搜索方法,包括搜索对应于输入语音的词串的搜索设备的步骤:
对所述输入语音进行语音识别;
关于多个搜索结果词串中的每个执行搜索结果发音符号串与识别结果发音符号串的匹配,其中,所述多个搜索结果词串是要成为对应于所述输入语音的词串的搜索结果的词串,所述搜索结果发音符号串是表示所述词串搜索结果的发音的发音符号排列,而所述识别结果发音符号串是表示所述输入语音的语音识别结果的发音的发音符号排列;以及
基于所述搜索结果发音符号串与所述识别结果发音符号串的匹配结果输出搜索结果词串,其中所述搜索结果词串是从所述多个搜索结果词串中搜索对应于所述输入语音的词串而得到的结果。
8.一种程序,其使得计算机用作:
语音识别单元,用于对输入语音进行语音识别;
匹配单元,用于关于多个搜索结果词串中的每个执行搜索结果发音符号串与识别结果发音符号串的匹配,其中,所述多个搜索结果词串是要成为对应于所述输入语音的词串的搜索结果的词串,所述搜索结果发音符号串是表示所述词串搜索结果的发音的发音符号排列,而所述识别结果发音符号串是表示所述输入语音的语音识别结果的发音的发音符号排列;以及
输出单元,用于基于所述搜索结果发音符号串与所述识别结果发音符号串的匹配结果输出搜索结果词串,其中所述搜索结果词串是从所述多个搜索结果词串中搜索对应于所述输入语音的词串而得到的结果。
CN201080053823.0A 2009-12-04 2010-12-02 搜索设备、搜索方法及程序 Expired - Fee Related CN102667773B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009276996 2009-12-04
JP2009-276996 2009-12-04
PCT/JP2010/071605 WO2011068170A1 (ja) 2009-12-04 2010-12-02 検索装置、検索方法、及び、プログラム

Publications (2)

Publication Number Publication Date
CN102667773A true CN102667773A (zh) 2012-09-12
CN102667773B CN102667773B (zh) 2015-02-04

Family

ID=44115016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080053823.0A Expired - Fee Related CN102667773B (zh) 2009-12-04 2010-12-02 搜索设备、搜索方法及程序

Country Status (7)

Country Link
US (1) US9817889B2 (zh)
EP (1) EP2509005A1 (zh)
JP (1) JPWO2011068170A1 (zh)
KR (1) KR20120113717A (zh)
CN (1) CN102667773B (zh)
RU (1) RU2012121711A (zh)
WO (1) WO2011068170A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761840A (zh) * 2014-01-21 2014-04-30 小米科技有限责任公司 遥控器寻找方法、装置、设备及***
CN107369450A (zh) * 2017-08-07 2017-11-21 苏州市广播电视总台 收录方法和收录装置
CN107924679A (zh) * 2015-07-13 2018-04-17 微软技术许可有限责任公司 输入理解处理期间在响应选择中的延迟绑定
CN105590627B (zh) * 2014-11-12 2021-02-12 三星电子株式会社 图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014519071A (ja) * 2011-03-28 2014-08-07 アンビエンツ 音響コンテキストを使用する検索システム及び方法
KR101231438B1 (ko) * 2011-05-25 2013-02-07 엔에이치엔(주) 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법
CN102867005A (zh) * 2011-07-06 2013-01-09 阿尔派株式会社 检索装置、检索方法以及车载导航装置
CN110889265B (zh) * 2012-12-28 2024-01-30 索尼公司 信息处理设备和信息处理方法
CN103065630B (zh) * 2012-12-28 2015-01-07 科大讯飞股份有限公司 用户个性化信息语音识别方法及***
US9305064B1 (en) * 2013-05-24 2016-04-05 Google Inc. Keyword-based conversational searching using voice commands
JP6223744B2 (ja) * 2013-08-19 2017-11-01 株式会社東芝 方法、電子機器およびプログラム
US9889383B2 (en) * 2013-10-03 2018-02-13 Voyetra Turtle Beach, Inc. Configuring headset voice morph based on player assignment
US20150120723A1 (en) * 2013-10-24 2015-04-30 Xerox Corporation Methods and systems for processing speech queries
KR102092164B1 (ko) 2013-12-27 2020-03-23 삼성전자주식회사 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들
JP6188831B2 (ja) * 2014-02-06 2017-08-30 三菱電機株式会社 音声検索装置および音声検索方法
US20150340024A1 (en) * 2014-05-23 2015-11-26 Google Inc. Language Modeling Using Entities
US20170154546A1 (en) * 2014-08-21 2017-06-01 Jobu Productions Lexical dialect analysis system
CN104598527B (zh) * 2014-12-26 2018-09-25 论客科技(广州)有限公司 一种语音搜索方法及装置
US10019514B2 (en) * 2015-03-19 2018-07-10 Nice Ltd. System and method for phonetic search over speech recordings
JP6753401B2 (ja) * 2015-07-24 2020-09-09 富士通株式会社 符号化プログラム、符号化装置、及び符号化方法
CN106024013B (zh) * 2016-04-29 2022-01-14 努比亚技术有限公司 语音数据搜索方法及***
US10990757B2 (en) 2016-05-13 2021-04-27 Microsoft Technology Licensing, Llc Contextual windows for application programs
US10068573B1 (en) * 2016-12-21 2018-09-04 Amazon Technologies, Inc. Approaches for voice-activated audio commands
US10726056B2 (en) * 2017-04-10 2020-07-28 Sap Se Speech-based database access
US11043221B2 (en) * 2017-04-24 2021-06-22 Iheartmedia Management Services, Inc. Transmission schedule analysis and display
US20180329592A1 (en) * 2017-05-12 2018-11-15 Microsoft Technology Licensing, Llc Contextual windows for application programs
CN109104634A (zh) * 2017-06-20 2018-12-28 中兴通讯股份有限公司 一种机顶盒工作方法、机顶盒及计算机可读存储介质
CN107809667A (zh) * 2017-10-26 2018-03-16 深圳创维-Rgb电子有限公司 电视机语音交互方法、语音交互控制装置及存储介质
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
CN107832439B (zh) * 2017-11-16 2019-03-08 百度在线网络技术(北京)有限公司 多轮状态追踪的方法、***及终端设备
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
US10832657B2 (en) * 2018-03-01 2020-11-10 International Business Machines Corporation Use of small unit language model for training large unit language models
KR20200056712A (ko) 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110600016B (zh) * 2019-09-20 2022-02-25 北京市律典通科技有限公司 卷宗推送方法和装置
JP2022074509A (ja) * 2020-11-04 2022-05-18 株式会社東芝 差分抽出装置、方法及びプログラム
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver
CN114969339B (zh) * 2022-05-30 2023-05-12 中电金信软件有限公司 一种文本匹配方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1352450A (zh) * 2000-11-15 2002-06-05 中国科学院自动化研究所 中国人名、地名和单位名的语音识别方法
JP2002252813A (ja) * 2001-02-23 2002-09-06 Fujitsu Ten Ltd 番組検索装置及び番組検索プログラム
US20050102139A1 (en) * 2003-11-11 2005-05-12 Canon Kabushiki Kaisha Information processing method and apparatus
CN101206859A (zh) * 2007-11-30 2008-06-25 清华大学 语音点歌方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4839853A (en) * 1988-09-15 1989-06-13 Bell Communications Research, Inc. Computer information retrieval using latent semantic structure
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP4393648B2 (ja) * 2000-01-11 2010-01-06 富士通株式会社 音声認識装置
JP4465564B2 (ja) 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7043431B2 (en) * 2001-08-31 2006-05-09 Nokia Corporation Multilingual speech recognition system using text derived recognition models
US7353164B1 (en) * 2002-09-13 2008-04-01 Apple Inc. Representation of orthography in a continuous vector space
US7401019B2 (en) * 2004-01-15 2008-07-15 Microsoft Corporation Phonetic fragment search in speech data
US7961851B2 (en) * 2006-07-26 2011-06-14 Cisco Technology, Inc. Method and system to select messages using voice commands and a telephone user interface
US8166029B2 (en) * 2006-09-07 2012-04-24 Yahoo! Inc. System and method for identifying media content items and related media content items
US20080162125A1 (en) * 2006-12-28 2008-07-03 Motorola, Inc. Method and apparatus for language independent voice indexing and searching
US7912724B1 (en) * 2007-01-18 2011-03-22 Adobe Systems Incorporated Audio comparison using phoneme matching
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US8065300B2 (en) * 2008-03-12 2011-11-22 At&T Intellectual Property Ii, L.P. Finding the website of a business using the business name

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1352450A (zh) * 2000-11-15 2002-06-05 中国科学院自动化研究所 中国人名、地名和单位名的语音识别方法
JP2002252813A (ja) * 2001-02-23 2002-09-06 Fujitsu Ten Ltd 番組検索装置及び番組検索プログラム
US20050102139A1 (en) * 2003-11-11 2005-05-12 Canon Kabushiki Kaisha Information processing method and apparatus
CN101206859A (zh) * 2007-11-30 2008-06-25 清华大学 语音点歌方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761840A (zh) * 2014-01-21 2014-04-30 小米科技有限责任公司 遥控器寻找方法、装置、设备及***
CN105590627B (zh) * 2014-11-12 2021-02-12 三星电子株式会社 图像显示装置、用于驱动图像显示装置的方法和计算机可读记录介质
CN107924679A (zh) * 2015-07-13 2018-04-17 微软技术许可有限责任公司 输入理解处理期间在响应选择中的延迟绑定
CN107924679B (zh) * 2015-07-13 2021-11-05 微软技术许可有限责任公司 计算机实施的方法、输入理解***和计算机可读存储设备
CN107369450A (zh) * 2017-08-07 2017-11-21 苏州市广播电视总台 收录方法和收录装置

Also Published As

Publication number Publication date
KR20120113717A (ko) 2012-10-15
US20130006629A1 (en) 2013-01-03
US9817889B2 (en) 2017-11-14
RU2012121711A (ru) 2013-11-27
WO2011068170A1 (ja) 2011-06-09
CN102667773B (zh) 2015-02-04
JPWO2011068170A1 (ja) 2013-04-18
EP2509005A1 (en) 2012-10-10

Similar Documents

Publication Publication Date Title
CN102667773B (zh) 搜索设备、搜索方法及程序
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
CN111710333B (zh) 用于生成语音转录的方法和***
US8200490B2 (en) Method and apparatus for searching multimedia data using speech recognition in mobile device
JP3720068B2 (ja) 質問の転記方法及び装置
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
CN107741928A (zh) 一种基于领域识别的对语音识别后文本纠错的方法
CN102262644A (zh) 搜索装置、搜索方法以及程序
CN111090727B (zh) 语言转换处理方法、装置及方言语音交互***
CN107799116A (zh) 多轮交互并行语义理解方法和装置
JP2008158511A (ja) 音声データ検索用webサイトシステム
CN101309327A (zh) 语音聊天***、信息处理装置、话语识别和关键字检测
WO2003010754A1 (fr) Systeme de recherche a entree vocale
CN101952824A (zh) 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索***
CN1971554A (zh) 使用样例来翻译语音输入的设备和方法
US20120041947A1 (en) Search apparatus, search method, and program
CN101447187A (zh) 语音识别装置及方法
CN104808806A (zh) 根据不确定性信息实现汉字输入的方法和装置
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
CN102970618A (zh) 基于音节识别的视频点播方法
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
US11922944B2 (en) Phrase alternatives representation for automatic speech recognition and methods of use
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
CN101937450B (zh) 在由粒子表示的信息检索数据库中进行条目检索的方法
Fujihara et al. Hyperlinking Lyrics: A Method for Creating Hyperlinks Between Phrases in Song Lyrics.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150204

Termination date: 20151202

EXPY Termination of patent right or utility model