CN102262644A

CN102262644A - 搜索装置、搜索方法以及程序

Info

Publication number: CN102262644A
Application number: CN2011101351232A
Authority: CN
Inventors: 山田敬一; 本田等
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-05-25
Filing date: 2011-05-18
Publication date: 2011-11-30
Also published as: JP5610197B2; US8600752B2; US20110313773A1; JP2011248020A

Abstract

本发明涉及搜索装置、搜索方法以及程序。搜索装置包括：声音识别单元，其识别输入声音；用户信息估计单元，其基于输入声音估计输入声音的说话者的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息；匹配单元，其对于多个搜索结果目标词语串中的每个，在搜索结果目标发音符号串和识别结果发音符号串之间执行匹配；以及生成单元，其基于匹配结果，从多个搜索结果目标词语串中生成搜索结果词语串，作为与输入声音对应的词语串的搜索结果。匹配单元和生成单元中的至少一个根据用户信息来改变处理。

Description

搜索装置、搜索方法以及程序

技术领域

本公开涉及搜索装置、搜索方法以及程序，尤其涉及能够在声音搜索中获得灵活搜索结果的搜索装置、搜索方法以及程序。

背景技术

作为使用由用户输入的声音来搜索与该声音对应的词语串(诸如，一组文本)的声音搜索方法，举例说明仅使用声音识别装置的方法(例如，参见日本未审查专利申请公开No.2001-242884)。

在仅使用声音识别装置的声音搜索中，对输入声音执行声音识别，同时预先登记在字典中的词语(词汇)序列被用作声音识别装置中的声音识别结果的目标，并且声音识别结果被输出作为搜索结果词语串，搜索结果词语串是搜索与输入声音对应的词语串的结果。

从而，由于作为用于与输入声音对应的词语串的搜索结果的目标的词语串(以下还被称为搜索结果目标词语串)限于作为登记在词典中的词语的序列的词语串(在本说明书中包括一个词语)，其在仅使用声音识别装置的声音搜索中是声音识别结果的目标，用户的话语被限于登记在用于声音识别的字典中的词语的序列。

从而，近年来已经提出了被称为语音搜索的声音搜索方法。

根据该语音搜索，语言模型(诸如，N-gram等)被用于执行连续声音识别，并且执行声音识别结果和登记在除用于声音识别(从登记在DB中的多组文本中搜索与声音识别结果对应的多组文本)的字典之外还单独准备的DB(数据库)中的多组文本之间的匹配。

然后，基于匹配结果，与声音识别结果匹配的一个最高排列组的文本或N个最高排列组的文本被输出为搜索结果词语串。

根据语音搜索，由于登记在除用于声音识别的字典之外还单独准备的DB中的多组文本变为搜索结果目标词语串，可以通过将多组文本登记在DB中并且使用多组文本作为搜索结果目标词语串来执行声音搜索。

即，根据语音搜索，可以在登记在DB中的多组文本的范围内执行具有达到某一程度的准确度的声音搜索，作为搜索结果目标词语串，甚至用于包括除登记在用于声音识别的字典中的词语之外的词语的用户的话语。

另外，已经提出了一种方法，其中，对存储声音和图像的多媒体文件执行声音识别，以从多媒体文件中的声音生成用于编索引的多组文本，并且基于说话者指明来搜索多媒体文件中的声音(参见日本未审查专利申请公开No.2000-348064)。

发明内容

根据相关技术中的语音搜索，如果用户说相同的话(如果用户发出相同的输入声音)，则输出相同搜索结果词语串。

即，根据相关技术中的语音搜索，当用户A说特定话U时可以获得的搜索结果词语串也可以在用户B说相同话U时获得。

然而，在一些情况下，用户A和与用户A不同的用户B(即，例如，男性用户A和女性用户B)说相同的话的而希望不同搜索结果词语串。

从而，存在对可以根据用户(说话者)而获得不同和灵活的搜索结果词语串的语音搜索的需求。

考虑以上情况作出本公开，并且希望可以在声音搜索中获得灵活的搜索结果。

根据本公开的实施例的搜索装置或使计算机用作这种搜索装置的程序包括：声音识别单元，其识别输入声音；用户信息估计单元，其基于输入声音来估计输入声音的说话者的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息；匹配单元，其对于多个搜索结果目标词语串中的每个，在搜索结果目标发音符号串和识别结果发音符号串之间执行匹配，其中，搜索结果目标发音符号串是表示搜索结果目标词语串的发音的发音符号的序列，识别结果发音符号串是表示用于输入声音的声音识别结果的发音的发音符号的序列，多个搜索结果目标词语串是作为与输入声音对应的词语串的搜索结果的目标的词语串；以及生成单元，其基于搜索结果目标发音符号串和识别结果发音符号串之间的匹配结果，从多个搜索结果目标词语串中生成搜索结果词语串，作为用于与输入声音对应的词语串的搜索结果，其中，匹配单元和生成单元中的至少一个根据用户信息来改变处理。

根据本公开的实施例的由搜索与输入声音对应的词语串的搜索装置进行的搜索方法包括：识别输入声音；基于输入声音来估计输入声音的说话者的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息；对于多个搜索结果目标词语串中的每个，在搜索结果目标发音符号串和识别结果发音符号串之间执行匹配，其中，搜索结果目标发音符号串是表示搜索结果目标词语串的发音的发音符号的序列，识别结果发音符号串是表示用于输入声音的声音识别结果的发音的发音符号的序列，多个搜索结果目标词语串是作为与输入声音对应的词语串的搜索结果的目标的词语串；以及基于搜索结果目标发音符号串和识别结果发音符号串之间的匹配结果，从多个搜索结果目标词语串中生成搜索结果词语串，作为与输入声音对应的词语串的搜索结果，其中，在执行匹配和生成搜索结果词语串中的至少一个期间，根据用户信息来改变处理。

根据上述本公开的实施例，识别输入声音，基于输入声音来估计输入声音的说话者的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息。对于多个搜索结果目标词语串中的每个，在搜索结果目标发音符号串和识别结果发音符号串之间执行匹配，其中，搜索结果目标发音符号串是表示搜索结果目标词语串的发音的发音符号的序列，识别结果发音符号串是表示用于输入声音的声音识别结果的发音的发音符号的序列，多个搜索结果目标词语串是作为与输入声音对应的词语串的搜索结果的目标的词语串，并且基于搜索结果目标发音符号串和识别结果发音符号串之间的匹配结果，从多个搜索结果目标词语串中生成搜索结果词语串，作为与输入声音对应的词语串的搜索结果。在该情况下，在搜索结果目标发音符号串和识别结果发音符号串之间的匹配和搜索结果词语串的生成中的至少一个中，根据用户信息来改变处理。

搜索装置可以是独立装置或者构成一装置的内部块。

另外，可以通过发射介质发射或记录在记录介质中来提供程序。

根据本公开的实施例，可以在声音搜索中获得灵活搜索结果。

附图说明

图1是示出根据应用本公开的实施例的记录器的配置示例的框图；

图2是示出声音搜索装置的配置示例的框图；

图3是示出在使用记法符号的匹配中关于由不同记法表达的话语而获得用于声音识别结果的不同匹配结果对于声音搜索性能是不利的示意图；

图4是示出当双音节串接(two-syllable concatenation)被用作匹配单位时发音符号转换单元的处理的示意图；

图5是示出当双音节串接被用作匹配单位时发音符号转换单元的处理的示意图；

图6是示出以词语为单位的匹配、以音节为单位的匹配以及以双音节串接为单位的匹配的结果的示意图；

图7是示出当余弦距离、第一校正距离以及第二校正距离被用作声音识别结果和搜索结果目标词语串之间的相似度时匹配仿真结果的示意图；

图8是示出当余弦距离、第一校正距离以及第二校正距离被用作声音识别结果和搜索结果目标词语串之间的相似度时另一匹配仿真结果的示意图；

图9是示出搜索结果目标向量和向量代替信息的示意图；

图10是示出当向量代替信息代替搜索结果目标向量使用时，声音识别结果和搜索结果目标词语串之间的相似度的计算的示意图；

图11是示出声音搜索装置的处理的流程图；

图12是示出由用户信息估计单元进行的用户信息估计处理的示意图；

图13是示出由用户信息估计单元进行的用户信息估计处理的示意图；

图14是示出通过辅助语言信息提取单元估计输入声音的声音区段中的强调区段作为辅助语言信息的方法的示意图；

图15是示出通过辅助语言信息提取单元使用说话速度来估计输入声音的声音区段中的强调区段的方法的示意图；

图16是示出在相关词语使用匹配模式下的匹配处理的流程图；

图17是示出在相关词语使用排序(sort)模式下生成搜索结果词语串的处理的流程图；

图18是示出在相关词语使用排序模式下生成的搜索结果词语串的示意图；

图19是示出分别在正常模式和在相关词语使用排序模式下生成的搜索结果词语串的示意图；

图20是示出在加权匹配模式下的匹配处理的流程图；

图21A和图21B是示出在加权匹配模式下的匹配处理的示意图；

图22是示出分别在正常模式下和在加权匹配模式下获得的搜索结果词语串的示意图；以及

图23是示出根据应用本公开的实施例的计算机的配置示例的框图。

具体实施方式

[应用本公开的记录器的一个实施例]

图1是示出根据应用本公开的搜索装置的实施例的记录器的配置示例的框图。

在图1中，记录器包括声音搜索装置10、记录器功能单元20、操作单元31、控制单元32以及输出I/F(接口)33。

由用户发出的输入声音(的数据)通过在图中未示出的麦克风等提供给声音搜索装置10。

声音搜索装置10使用提供到其的输入声音，以通过例如语音搜索执行声音搜索，并且将被获得作为结果的搜索结果词语串提供给输出I/F33。

记录器功能单元20包括调谐器21、记录和再现单元22以及记录介质23，并且执行电视广播节目的记录(视频记录)和再现。

即，通过例如在图中未示出的天线接收的数字广播将电视广播信号提供给调谐器21。

调谐器21接收提到其的电视广播信号，从电视广播信号中提取预定频道的电视广播信号，对比特流进行解调，并且将解调后的比特流提供给记录和再现单元22。

记录和再现单元22从由调谐器21提供的比特流中提取EPG(电子节目指南)、节目数据等，并且将它们提供给输出I/F 33。

另外，记录和再现单元22将EPG和节目数据(视频记录)记录在记录介质23中。

此外，记录和再现单元22从记录介质23再现节目数据并且将该数据提供给输出I/F 33。

记录介质23是例如HD(硬盘)等，并且EPG和节目数据通过记录和再现单元22被记录在记录介质23中。

操作单元31包括远程指挥者、提供在记录器的盒体上的按钮、在图中未示出的显示器上显示为GUI(图形用户界面)的按钮等。操作单元31由用户操作并且将与该操作对应的操作信号提供给控制单元32。

控制单元32控制构成记录器的框，包括声音搜索装置10、记录器功能单元20等，并且响应于来自操作单元31的操作信号等执行其他处理。

将EPG和节目数据从记录和再现单元22提供给输出I/F 33。另外，将作为关于输入声音的声音搜索的结果的搜索结果词语串从声音搜索装置10提供给输出I/F 33。

另外，输出I/F 33是连接至诸如TV(电视接收器)等的显示装置(其至少可以显示图像)的接口，并且将来自记录和再现单元22的EPG和节目数据以及来自声音搜索装置10的搜索结果词语串提供给例如连接至输出单元I/F 33的在图中未示出的TV。

[声音搜索装置10的配置示例]

根据实施例的声音搜索装置可以包括：声音识别单元，其识别输入声音；用户信息估计单元，其基于输入声音来估计输入声音的说话者的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息；匹配单元，其对于多个搜索结果目标词语串中的每个，在搜索结果目标发音符号串和识别结果发音符号串之间执行匹配，其中，搜索结果目标发音符号串是表示搜索结果目标词语串的发音的发音符号的序列，识别结果发音符号串是表示用于输入声音的声音识别结果的发音的发音符号的序列，多个搜索结果目标词语串是作为与输入声音对应的词语串的搜索结果的目标的词语串；以及生成单元，其基于搜索结果目标发音符号串和识别结果发音符号串之间的匹配结果，从多个搜索结果目标词语串中生成搜索结果词语串，作为用于与输入声音对应的词语串的搜索结果，其中，匹配单元和生成单元中的至少一个根据用户信息来改变处理。

图2是示出图1中的声音搜索装置10的配置示例的框图。

在图2中，声音搜索装置10包括声音识别单元51、发音符号转换单元52、搜索结果目标存储单元53、语素分析单元54、发音符号转换单元55、匹配单元56、生成单元57以及用户信息估计单元58，并且通过语音搜索执行声音搜索。

在此，根据相关技术中的语音搜索，使用作为表示音频识别结果和搜索结果目标词语串的各个记法的符号的记法符号，以词语为单位或者以记法符号为单位，在声音识别结果和作为搜索结果目标词语串的该组文本之间执行匹配。

从而，如果声音识别结果中的记法符号存在错误，则与对应于输入声音的词语串完全不同的搜索结果目标词语串在匹配期间与声音识别结果匹配，并且作为结果，与对应于输入声音的词语串完全不同的这种搜索结果目标词语串被输出为搜索结果词语串。

即，当用户发出例如“TOSHINOSEKAI”作为输入声音，并且声音识别结果的记法符号串是例如“TOSHI NO SEKAI(城市的世界)”时，声音识别结果“TOSHI NO SEKAI”的记法符号串被分成每个词语为“TOSHI/NO/SEKAI/(城市的世界)”(斜线(/)表示分离)，并且以词语为单位执行匹配，同时声音识别结果的记法符号串“TOSHI NOSEKAI(城市的世界)”被划分为每个记法符号为“TO/SHI/NO/SE/KAI(城市的世界)”，并且以记法符号为单位执行匹配。

另一方面，如果用于输入声音“TOSHINOSEKAI”的声音识别结果的记法符号串是“TOSHI NO SE KAI(是年尾？)”，则声音识别结果的记法符号串“TOSHI NO SE KAI(是年尾？)”被划分为每个词语为“/TOSHI/NO/SE/KAI/(是年尾？)”，并且以词语为单位执行匹配，同时声音识别结果的记法符号串“TOSHI NO SE KAI(是年尾？)”被划分为每个记法符号为“TOSHI/NO/SE/KA/I(是年尾？)”，并且以记法符号为单位执行匹配。

从而，与声音识别结果匹配的搜索结果目标词语串在用于输入声音“TOSHINOSEKAI”的声音识别结果的记法符号串是“TOSHI NOSEKAI(城市的世界)”的情况下和在用于输入声音“TOSHINOSEKAI”的声音识别结果的记法符号串是“TOSHI NO SE KAI”(是年尾？)的情况下非常不同，并且作为结果，与对应于输入声音的词语串完全不同的搜索结果目标词语串被输出为搜索结果词语串，同时与输入声音对应的词语串在一些情况下不被输出为搜索结果词语串。

结果，使用记法符号的匹配不一定与声音识别结果具有密切关系，并且与输入声音对应的词语串在一些情况下不被获得作为搜索结果词语串。

为此原因，声音搜索装置10可以通过使用作为表示声音识别结果的各个发音的符号的发音符号和搜索结果目标词语串，以健壮方式(robust manner)执行对与输入声音对应的词语串的搜索，以在声音识别结果和搜索结果目标词语串之间执行匹配，从而防止与输入声音对应的词语串不被输出作为搜索结果词语串。

即，在图2中的声音搜索装置10中，将作为用户话语的输入声音(的数据)从图中未示出的麦克风等提供给声音识别单元51。

声音识别单元51识别提供到其的输入声音并且将声音识别结果(例如，其记法符号)提供给发音符号转换单元52。

发音符号转换单元52将从声音识别单元51提供的用于输入声音的声音识别结果(例如，其记法符号)转换为具有表示声音识别结果的发音的发音符号序列的识别结果发音符号串，并且将转换后的识别结果发音符号串提供给匹配单元56。

对多个搜索结果目标词语串(即，在匹配单元56中)执行与声音识别结果的匹配，并且搜索结果目标存储单元53将可以作为搜索结果词语串的词语串(例如，词语串的作为记法符号的一组文本)存储为用于与输入声音对应的词语串的搜索的结果。

在此，节目的标题、表演者的名称、包括节目的内容的详细信息等(例如作为存储在图1中的记录器的记录介质23中的EPG的组分)被提供给并且存储在搜索结果目标存储单元53中。

另外，节目的标题、表演者的名称、详细信息等(例如，其是在图1中的记录器的记录介质23中被视频记录(记录)的节目(视频记录节目)的元数据)被提供给并且存储在搜索结果目标存储单元53中。

从而，根据本实施例，声音搜索装置10执行声音搜索，同时使用节目的标题、表演者的名称、详细信息等作为搜索结果目标词语串。

语素分析单元54通过对存储在搜索结果目标存储单元53中的搜索结果目标词语串执行语素分析，将搜索结果目标词语串划分为词语(语素)单位，并且将划分单位提供给发音符号转换单元55。

发音符号转换单元55将从语素分析单元54提供的搜索结果目标词语串(例如，其记法符号)转换为搜索结果目标发音符号串，作为表示搜索结果目标词语串的发音的发音符号序列，并且将搜索结果目标发音符号串提供给匹配单元56。

匹配单元56在来自发音符号转换单元52的识别结果发音符号串和来自发音符号转换单元55的搜索结果目标发音符号串之间执行匹配，并且将匹配结果提供给生成单元57。

即，匹配单元56在存储在搜索结果目标存储单元53中的所有搜索结果目标词语串中的每个和用于使用声音识别结果的发音符号及搜索结果目标词语串的发音符号的输入声音的声音识别结果之间执行匹配。

匹配单元56在存储在搜索结果目标存储单元53中的所有搜索结果目标词语串中的每个和用于输入声音的声音识别结果之间执行匹配，并且将匹配结果提供给生成单元57。

另外，在识别结果发音符号串和搜索结果目标发音符号串之间的匹配中，获得表示识别结果发音符号串和搜索结果目标发音符号串相互类似的程度的相似度。

可以使用例如向量空间方法的余弦距离等作为相似度。

生成单元57基于来自匹配单元56的匹配结果，从存储在搜索结果目标存储单元53中的搜索结果目标词语串中生成搜索结果词语串，作为用于与输入声音对应的词语串的搜索结果。

即，生成单元57从存储在搜索结果目标存储单元53中的搜索结果目标词语串中，选择具有排列最高的相似度的搜索结果目标词语串作为匹配结果，并且将所选搜索结果目标词语串作为搜索结果词语串。

将提供给声音识别单元51的相同输入声音提供给用户信息估计单元58。

用户信息估计单元58基于输入声音来估计作为输入声音的说话者的用户的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息。由用户信息估计单元58输出的用户信息被提供给匹配单元56和生成单元57。

在此，用户信息估计单元58包括非言语信息提取单元58A和辅助语言信息提取单元58B。

非言语信息提取单元58A基于提供给用户信息估计单元58的用户的输入声音来提取非言语信息，作为与用户的身体状态相关的信息。

辅助语言信息提取单元58B基于提供给用户信息估计单元58的用户的输入声音提取辅助语言信息，作为与用户的思想方法相关的信息。

然后，用户信息估计单元58将由非言语信息提取单元58A提取的非言语信息和由辅助语言信息提取单元58B提取的辅助语言信息中的一个或两者提供给匹配单元56和生成单元57作为用户信息。

从而，用户信息包括非言语信息和辅助语言信息。

非言语信息提取单元58A基于例如用户输入声音的音调检测、使用输入声音的说话者指明等，从输入声音中提取(估计)与用户的身体状态相关的信息作为非言语信息，与用户的身体状态相关的信息包括发出输入声音的用户(说话者)的性别、发出输入声音的用户的年龄组(例如，关于用户是孩子还是成人的信息)、指明发出输入声音的用户对应于哪个用户的信息(例如，用户的名称、指明用户的ID(标识)等)等。

另外，辅助语言信息提取单元58B基于韵律信息(诸如，例如用户的输入声音的音调(语音的音调)、功率(语音的音量)、说话速度(语音的速度)m等)，从输入声音中提取(估计)与情感行为(诸如，用户的意图、情感等)相关的信息作为辅助语言信息，与情感行为相关的信息包括用户想要强调一部分的信息。

特别地，例如，通过辅助语言信息提取单元58B将用户在输入声音的声音区段中作出强调话语的强调区段估计为辅助语言信息。

用户信息估计单元58将前述非言语信息和辅助语言信息提供给匹配单元56和生成单元57作为用户信息。

另外，匹配单元56和生成单元57中的至少一个根据从用户信息估计单元58提供的用户信息改变处理。

即，在图2中的声音搜索装置10中准备多个操作模式，并且匹配单元56和生成单元57在作为多个操作模式中的一个的正常模式下，在不使用从用户信息估计单元58提供的用户信息的情况下，分别执行匹配处理和生成搜索结果词语串的处理。

另外，除正常模式之外，操作模式还包括随后将描述的相关词语使用匹配模式、相关词语使用排序模式以及加权匹配模式。

当相关词语使用匹配模式或加权匹配模式被设置为操作模式时，匹配单元56使用从用户信息估计单元58提供的用户信息执行匹配处理，随后将描述。

另外，当相关词语使用排序模式被设置为操作模式时，生成单元57使用从用户信息估计单元58提供的用户信息执行生成搜索结果词语串的处理，随后将描述。

例如通过操作单元31的用户操作来设置声音搜索装置10的操作模式。

基于语音搜索的声音搜索处理根据依照上述声音搜索装置10的用户话语执行。

即，当用户说话，并且将作为话语的输入声音提供给声音识别单元51时，声音识别单元51识别输入声音并且将用于输入声音的声音识别结果提供给发音符号转换单元52。

发音符号转换单元52将来自声音识别单元51的用于输入声音的声音识别结果转换为识别结果发音符号串，并且将识别结果发音符号串提供给匹配单元56。

另一方面，语素分析单元54对存储在搜索结果目标存储单元53中的所有搜索结果目标词语串执行语素分析，并且将搜索结果目标词语串提供给发音符号转换单元55。

发音符号转换单元55将来自语素分析单元54的搜索结果目标词语串转换为搜索结果目标发音符号串，并且将搜索结果目标发音符号串提供给匹配单元56。

匹配单元56使用来自发音符号转换单元52的识别结果发音符号串和来自发音符号转换单元55的搜索结果目标发音符号串，在存储在搜索结果目标存储单元53中的所有搜索结果目标词语串中的每个与用于输入声音的声音识别结果之间执行匹配，并且将匹配结果提供给生成单元57。

生成单元57基于来自匹配单元56的匹配结果，从存储在搜索结果目标存储单元53中的搜索结果目标词语串中选择和输出(假设的搜索结果目标词语串)搜索结果词语串，作为用于与输入声音对应的词语串的搜索的结果。

从而，用户可以仅通过说话而从存储在搜索结果目标存储单元53中的搜索结果目标词语串中获得(搜索结果目标词语串作为)与用户话语匹配的搜索结果词语串。

另外，用户发出的输入声音不仅被提供给声音识别单元51，而且还被提供给声音搜索装置10中的用户信息估计单元58。用户信息估计单元58基于提供到其的输入声音来估计用户信息，并且将所估计的用户信息提供给匹配单元56和生成单元57。

匹配单元56和生成单元57根据操作模式，在使用或者不使用来自用户信息估计单元58的信息的情况下分别执行处理。

根据具有上述声音搜索装置10的图1中的记录器，可以从例如被视频记录的节目(视频记录节目)中通过声音搜索来搜索和再现用户希望的节目。

即，例如，如果用户发出输入声音“SEKAI ISAN(世界遗产)”作为用于将被再现的节目的声音搜索的关键字，则声音搜索装置10通过对作为搜索结果目标词语串的存储在搜索结果目标存储单元53中的视频记录器节目的标题等执行声音搜索，来生成与输入声音“SEKAI ISAN(世界遗产)”具有类似发音的预定数量的节目标题作为搜索结果词语串，并且将所生成的搜索结果词语串提供给输出I/F 33。

然后，输出I/F 33使作为搜索结果词语串的节目标题(在连接至记录器的TV(电视接收器)等上)显示为将被再现的候选节目(再现候选节目)。

此后，当用户通过对操作单元31等进行操作而从再现候选节目中选择将被再现的一个节目时，记录器功能单元20再现该节目。

虽然在图2中提供两个发音符号转换单元52和55，但是可以通过一个发音符号转换单元实现这两个发音符号转换单元52和55。

虽然作出了(多组文本作为)搜索结果目标词语串的记法符号被存储在搜索结果目标存储单元53中的图2的描述，但是还可以允许搜索结果目标存储单元53不仅存储搜索结果目标词语串(的记法符号)，而且还存储通过将搜索结果目标词语串转换为发音符号而获得的搜索结果目标发音符号串。

在这种情况下，可以在不提供语素分析单元54和发音符号转换单元55的情况下配置声音搜索装置10。

虽然作出了声音识别单元51执行用于输入声音的声音识别并且输出声音识别结果的记法符号的图2的描述，但是还可以允许声音识别单元51输出声音识别结果的发音符号(识别结果发音符号串)。

在这种情况下，可以在不提供发音符号转换单元52的情况下配置声音搜索装置10。

[匹配单元56进行的匹配]

将参考图3至图10作出由图2中的匹配单元56进行的匹配的描述。

图3是示出声音识别结果和作为搜索结果目标词语串的一组文本之间的匹配的示意图，其中，使用表示声音识别结果和搜索结果目标词语串中的每个的记法符号来执行匹配。

在此，在一些情况下，记法符号与发音不相符。

特别地，虽然平假名“ha”的发音(读音)在一些情况下是“HA”或者在其他情况下是“WA”，但是发音的差异不由记法符号表达。

另外，例如，对于具有多个读音的中文字符，诸如“shi”，读音(发音)是“SHI”还是“ICHI”不由记法符号表达。

另一方面，例如，由记法符号表达的词语串“TOSHI NO SEKAIISAN(城市中的世界遗产)”和“TOSHI NO SE KAISAN(在年尾解散)”具有相同发音，但是除“NO”之外具有不同记法符号。

为此原因，当声音识别结果是“TOSHI NO SEKAI ISAN(城市中的世界遗产)”和当声音识别结果是“TOSHI NO SE KAISAN(在年尾解散)”时，在使用记法符号的匹配中获得不同匹配结果，这不一定对声音搜索性能有益。

即，图3是示出在使用记法符号的匹配中关于用相同发音和不同记法表达的话语获得用于声音识别结果的不同匹配结果对声音搜索性能是不利的示意图。

在图3中，输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”经过声音识别，并且错误地获得声音识别结果“TOSHI NO SEKAISAN(在年尾解散)”(其与输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”具有相同的发音)和不同记法。

在图3中，声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”被划分为记法符号单位为“TOSHI/NO/SE/KAISAN(在年尾解散)”(斜线(/)表示隔离)，并且以记法符号为单位执行匹配。

此外，例如，包括“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”的三个节目标题被准备为将经过图3中的匹配的搜索结果目标词语串。

按照以记法符号为单位，仅在图中画圈的一个记法符号“NO”与声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”和搜索结果目标词语串“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”相符。

另外，按照以记法符号为单位，在图中画圈的两个记法符号“SE”和“NO”与声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”和搜索结果目标词语串“SETO NO HAISHA SAN(Seto中的牙科医生)”相符。

此外，按照以记法符号为单元，图中画圈的四个记法符号“KAI”、“SAN”、“NO”和“TOSHI”与声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”和搜索结果目标词语串“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”相符。

从而，对于声音识别单元和搜索结果目标词语串之间的相似度(其在以记法符号为单位的匹配中获得)，声音识别结果“TOSHI NO SEKAISAN(在年尾解散)”和搜索结果目标词语串“SHUIN KAISAN NOTOSHI(众议院解体发生的一年)”之间的相似度是最高的。

即，例如，采用余弦距离作为在以记法符号为单位的匹配中获得的相似度。

另外，用1表示与词语串中存在的记法符号对应的成分和用0表示与词语串中不存在的记法符号对应的成分的向量被用作表示词语串的向量，并且使用表示两个词语串的向量来获得作为这两个词语串之间的相似度的余弦距离。

在这种情况下，在以记法符号为单位的匹配中，0.15被获得作为声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”和搜索结果目标词语串“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”之间的相似度，0.32被获得作为声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”和搜索结果目标词语串“SETO NO HAISHA SAN(Seto中的牙科医生)”之间的相似度，并且0.73被获得作为声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”和搜索结果目标词语串“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”之间的相似度。

从而，例如，如果被获得作为匹配结果的具有排列最高的相似度的搜索结果目标词语串被假设为搜索结果词语串，并且甚至当用于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的声音识别是错误的，并且获得声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”时，在包括作为搜索结果目标词语串的“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”的三个节目标题中“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”被认为是搜索结果词语串。

关于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”，在包括“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUINKAISAN NO TOSHI(众议院解体发生的一年)”的前述三个节目标题中，第一节目标题“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”被认为是搜索结果词语串是合适的。

然而，如果用于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的声音识别被错误地执行，并且获得具有相同发音(读音)和不同记法的“TOSHI NO SE KAISAN(在年尾解散)”，则关于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”不是合适节目标题“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”而是节目标题“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”(其与“TOSHI NO SEKAI ISAN(城市中的世界遗产)”无关)被获得作为搜索结果词语串。

另外，当具有相同记法的“TOSHI NO SEKAI ISAN(城市中的世界遗产)”被获得作为用于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的声音识别结果时，与适合于输入声音“TOSHI NOSEKAI ISAN(城市中的世界遗产)”的节目标题“SEKAI ISAN TOSHINO ISAN(世界遗产城市中的遗产)”的相似度是排列最高的，并且“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”被获得作为搜索结果词语串。

如上所述，当声音识别结果是“TOSHI NO SEKAI ISAN(城市中的世界遗产)”时并且当声音识别结果是“TOSHI NO SE KAISAN(在年尾解散)”时，在使用记法符号的匹配中获得不同匹配结果(声音识别结果和每个搜索结果目标词语串之间的相似度)，并且结果，在一些情况下，适合于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的节目标题“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”被获得作为搜索结果目标词语串，并且在其他情况下，这种合适标题不被获得作为搜索结果词语串，而与输入声音“TOSHI NOSEKAI ISAN(城市中的世界遗产)”无关的节目标题“SHUIN KAISANNO TOSHI(众议院解体发生的一年)”被获得作为搜索结果词语串。

从而，声音搜索装置10(图2)中的匹配单元56使用发音符号执行匹配，以防止适合于输入声音的节目标题不被输出为搜索结果词语串。

在此，例如，发音符号是表达音节或音素的符号，并且例如对于日语可以采用平假名(其表达读音)。

在使用发音符号的匹配中，可以采用(一个)音节、两个或更多音节串接、(一个)音素、两个或更多语素串接等作为匹配的单位。

另外，匹配结果和这样的声音搜索性能根据在使用发音符号的匹配中采用哪个匹配单位而不同。

图4是示出当两个音节串接(连续的两个音节)被用作匹配单元56(图2)进行匹配的单位时，图2中的发音符号转换单元55的处理的示意图。

用于输入声音的声音识别结果(例如，其记法符号)被从声音识别单元51提供给发音符号转换单元52。

发音符号转换单元52将从声音识别单元51提供的声音识别结果转换为音节序列。

此外，发音符号转换单元55提取双音节串接，双音节串接包括受到关注的音节和紧接在受到关注的音节之后的音节的两个音节，同时从搜索结果目标词语串中的音节序列的顶部朝向音节序列的末端一个接一个地关注音节，并且将双音节串接的序列提供给匹配单元56(图2)作为识别结果发音符号串。

图5是示出当双音节串接被用作用于由匹配单元56(图2)进行匹配的单位时，图2中的发音符号转换单元52的处理的示意图。

作为存储在搜索结果目标存储单元53中的搜索结果目标词语串的节目标题等经过由语素分析单元54的语素分析，然后被提供给发音符号转换单元55。

发音符号转换单元55将从语素分析单元54提供的搜索结果目标词语串转换为音节序列。

此外，发音符号转换单元55提取双音节串接，双音节串接包括受到关注的音节和紧接在受到关注的音节之后的音节的两个音节，同时从声音识别结果中的音节序列的顶部朝向音节序列的末端一个接一个地关注音节，并且将双音节串接的序列提供给匹配单元56(图2)作为搜索结果目标发音符号串。

当以双音节串接为单位，在识别结果发音符号串和搜索结果目标发音符号串之间的匹配中，获得例如作为识别结果发音符号串和搜索结果目标发音符号串之间的相似度的余弦距离时，匹配单元56基于构成识别结果发音符号串的双音节串接获得识别结果向量，其是表达识别结果发音符号串的向量。

即，匹配单元56获得用1表达与识别结果发音符号串中出现的双音节串接对应的成分并且用0表达与识别结果发音符号串中未出现的双音节串接对应的成分的向量，例如作为表达识别结果发音符号串的识别结果向量。

此外，例如，至于存储在搜索结果目标存储单元53中的作为每个搜索结果目标词语串，匹配单元56以与用于节目标题等相同的方式基于构成搜索结果目标词语串的搜索结果目标发音符号串的双音节串接获得作为表达搜索结果目标发音符号串的向量的搜索结果目标向量。

另外，匹配单元56以双音节串接为单位执行匹配，以获得余弦距离，作为声音识别结果和与搜索结果目标向量对应的搜索结果目标词语串之间的相似度，余弦距离是通过将识别结果向量和搜索结果目标向量之间的内积除以识别结果向量的大小和搜索结果目标向量的大小之间的乘积值获得的值。

图6是示出以词语为单位进行匹配、以(一个)音节为单位进行匹配以及以双音节串接为单位进行匹配的结果的示意图。

在图6中，以与图3中相同的方式对于输入声音“TOSHI NO SEKAIISAN(城市中的世界遗产)”错误地获得声音识别结果“TOSHI NO SEKAISAN(在年尾解散)”，并且包括“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”的三个节目标题被准备用作搜索结果目标词语串。

在图6中，执行以使用记法符号的词语为单位的匹配、以使用发音符号的音节为单位的匹配以及以使用发音符号的两个音节串接为单位的匹配。

此外，与声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”中的词语或发音符号(音节)相符的搜索结果目标词语串中的词语或发音符号在图6中画圈。

在以词语为单位的匹配中，0.22、0.25和0.75分别被获得作为声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”与搜索结果目标词语串“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUINKAISAN NO TOSHI(众议院解体发生的一年)”中的每个之间的相似度(余弦距离)。

从而，如果假设被获得作为匹配结果的具有排列最高的相似度的搜索结果目标词语串被输出作为搜索结果词语串，并且甚至当用于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的声音识别被错误地执行，并且声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”被获得时，在以使用记法符号的词语为单位的匹配中，在包括作为搜索结果目标词语串的“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUINKAISAN NO TOSHI(众议院解体发生的一年)”的三个节目标题中，关于声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”，具有排列最高的相似度0.75的搜索结果目标词语串“SHUIN KAISAN NOTOSHI(众议院解体发生的一年)”被获得作为搜索结果词语串。

关于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”，在包括“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUINKAISAN NO TOSHI(众议院解体发生的一年)”的前述三个节目标题中，选择第一节目标题“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”是合适的。

然而，在以使用记法符号的词语为单位的匹配中，如果用于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的声音识别被错误地执行，并且具有相同发音(读音)和不同记法的“TOSHI NO SEKAISAN(在年尾解散)”被获得时，关于输入声音“TOSHI NO SEKAIISAN(城市中的世界遗产)”，不是合适节目标题“SEKAI ISAN TOSHINO ISAN(世界遗产城市中的遗产)，而是与“TOSHI NO SEKAI ISAN(城市中的世界遗产)”无关的节目标题“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”被获得作为搜索结果词语串。

另外，甚至当使用记法符号的匹配不以词语为单位而是以记法符号为单位执行时，如参考图3所描述的，至于关于输入声音“TOSHI NOSEKAI ISAN(城市中的世界遗产)”错误地获得的声音识别结果“TOSHINO SE KAISAN(在年尾解散)”，与输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”无关的节目标题“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”被获得作为搜索结果词语串。

在使用发音符号的音节为单位的匹配中，0.82、1.0和0.75分别被获得作为声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”和包括“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETONO HAISHA SAN(Seto中的牙科医生)”以及“SHUIN KAISAN NOTOSHI(众议院解体发生的一年)”的搜索结果目标词语串中的每个之间的相似度。

从而，例如，在以使用发音符号的音节为单位的匹配中，如果被获得作为匹配结果的具有最高相似度的搜索结果目标词语串被输出作为搜索结果词语串，并且甚至当用于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的声音识别被错误地执行，并且声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”被获得时，在包括作为搜索结果目标词语串的“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUINKAISAN NO TOSHI(众议院解体发生的一年)”的三个节目标题中，关于声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”具有排列最高的相似度1.0的搜索结果目标词语串“SETO NO HAISHA SAN(Seto中的牙科医生)”被获得作为搜索结果词语串。

即，如果用于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的声音识别被错误地执行，并且具有相同发音和不同记法的“TOSHI NO SE KAISAN(在年尾解散)”被获得，则在以使用发音符号的音节为单位的匹配中，不是关于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的合适节目标题“SEKAI ISAN TOSHI NOISAN(世界遗产城市中的遗产)”，而是与“TOSHI NO SEKAI ISAN(城市中的世界遗产)”无关的节目标题“SETO NO HAISHA SAN(Seto中的牙科医生)”被获得作为搜索结果词语串。

在以使用记法符号的词语为单位的匹配中，适合于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的节目标题“SEKAIISAN TOSHI NO ISAN(世界遗产城市中的遗产)”的相似度的值是0.22，其在三个搜索结果目标词语串中是排列第三高的(排列最低)，而在以使用发音符号的音节为单位的匹配中，适合于输入声音“TOSHI NOSEKAI ISAN(城市中的世界遗产)”的节目标题“TOSHI NO SEKAIISAN(世界遗产城市中的遗产)”的相似度的值是0.82，其在三个搜索结果目标词语串中是排列第二高的。

从而，可以认为，以使用发音符号的音节为单位的匹配比以使用记法符号的词语为单位的匹配更有效，这是因为适合于输入声音“TOSHINO SEKAI ISAN(城市中的世界遗产)”的节目标题“SEKAI ISANTOSHI NO ISAN(世界遗产城市中的遗产)”的相似度比在以使用记法符号的词语为单位的匹配的情况下的排列更高。

在以使用发音符号的双音节串接为单位的匹配中，0.68、0.43、和0.48分别被获得作为声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”和包括“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUINKAISAN NO TOSHI(众议院解体发生的一年)”的搜索结果目标词语串中的每个之间的相似度。

从而，在以使用发音符号的双音节串接为单位的匹配中，如果假设被获得作为匹配结果的具有最高相似度的搜索结果目标词语串被输出作为搜索结果词语串，并且甚至当用于输入声音“TOSHI NO SEKAIISAN(城市中的世界遗产)”的声音识别被错误地执行，并且声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”被获得时，则在包括作为搜索结果目标词语串的“SEKAI ISAN TOSHI NO ISAN(世界遗产城市中的遗产)”、“SETO NO HAISHA SAN(Seto中的牙科医生)”以及“SHUIN KAISAN NO TOSHI(众议院解体发生的一年)”的三个节目标题中，关于声音识别结果“TOSHI NO SE KAISAN(在年尾解散)”具有排列最高的相似度0.68的搜索结果目标词语串，即适合于输入声音“TOSHI NO SEKAI ISAN(城市中的世界遗产)”的节目标题“SEKAIISAN TOSHI NO ISAN(世界遗产城市中的遗产)”被获得作为搜索结果词语串。

根据使用发音符号的匹配，与如上所述执行使用记法符号的匹配的情况相比，可以以健壮方式执行对与输入声音对应的词语串的搜索。

即，根据使用发音符号的匹配，甚至当声音识别被错误地执行时，可以防止(减少)与输入声音对应的词语串不被输出作为搜索结果词语串的情况。

顺便提及，当在匹配单元56中(图1)余弦距离被用作声音识别结果(的识别结果发音符号串)和搜索结果目标词语串(的搜索结果目标发音符号串)之间的相似度时，用1表达与在识别结果发音符号串中出现的音节(双音节串接)对应的成分并且用0表达与在识别结果发音符号串中未出现的音节对应的成分的向量被获得例如作为表达上述识别结果发音符号串的识别结果向量。

此外，匹配单元56以相同方式获得表达搜索结果目标词语串的搜索结果目标发音符号串的搜索结果目标向量。

在此，根据与成分对应的音节是否出现在识别结果发音符号串中，识别结果向量的成分值被设置为1或0。然而，可以采用tf(词频)(其是与成分对应的音节出现在识别结果发音符号串中的频率)作为识别结果向量的成分值。

另外，还可以采用idf(逆文档频率)(其关于频繁出现在特定搜索结果目标词语串中的音节变为大值并且关于均匀地出现在多个搜索结果目标词语串中的音节变为小值)以及考虑了tf和idf的TF-IDF例如作为识别结果向量的成分值。

这对于搜索结果目标向量也是正确的。

如果假设V_UTR表示识别结果向量，并且V_TITLE(i)表示存储在搜索结果目标存储单元53(图1)中的第i个搜索结果目标词语串的搜索结果目标向量，则基于等式(1)计算作为声音识别结果和第i个搜索结果目标词语串之间的相似度的余弦距离D。

D＝V_UTR·V_TITLE(i)/(|V_UTR||V_TITLE(i)|)...(1)

在等式(1)中，·表示内积，并且|x|表示向量x的大小(标准)。从而，可以通过将识别结果向量V_UTR和搜索结果目标向量V_TITLE(i)之间的内积V_UTR·V_TITLE(i)除以识别结果向量V_UTR的大小|V_UTR|和搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|之间的乘积值|V_UTR||V_TITLE(i)|获得余弦距离D。

余弦距离D的范围从0.0到1.0。余弦距离值越大，由识别结果向量V_UTR表示的识别结果发音符号串和由搜索结果目标向量V_TITLE(i)表示的搜索结果目标发音符号串之间的相似度变得越高。

由于余弦距离D可以通过将识别结果向量V_UTR和搜索结果目标向量V_TITLE(i)之间的内积V_UTR·V_TITLE(i)除以识别结果向量V_UTR的大小|V_UTR|和搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|之间的乘积值获得，因而声音识别结果和搜索结果目标词语串的长度之间的差值影响余弦距离D。

在此，当声音识别结果和搜索结果目标词语串之间匹配时，即，以使用记法符号的记法符号为单位执行作为相似度的余弦距离D的计算，声音识别结果和搜索结果目标词语串的长度分别意味着声音识别结果中和搜索结果目标词语串中的记法符号的数量。

另外，当以使用记法符号的词语为单位执行相似度的计算时，声音识别结果和搜索结果目标词语串的长度分别意味着声音识别结果中和搜索结果目标词语串中的词语的数量。

此外，当以使用发音符号的音节为单位执行相似度的计算时，声音识别结果和搜索结果目标词语串的长度分别意味着声音识别结果和搜索结果目标词语串中的音节的数量。

此外，当以使用发音符号的双音节串接为单位执行相似度的计算时，声音识别结果和搜索结果目标词语串的长度分别意味着声音识别结果中和搜索结果目标词语串中的双音节串接的数量。

假设以使用记法符号的词语为单位执行作为声音识别结果和搜索结果目标词语串之间的匹配的余弦距离D的计算，以简化解释。由于通过等式(1)计算作为相似度的余弦距离D包括除以搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|，因而当长搜索结果目标词语串和短搜索结果目标词语串相比较时，包括与声音识别结果中相同的词语串的具有较短长度(在此为词语的数量)的搜索结果目标词语串更可能呈现较高相似度(余弦距离D较长)，而包括与声音识别结果中相同的词语串的具有较长长度的搜索结果目标词语串更可能呈现较低相似度(余弦距离D较短)。

从而，由于即使当长搜索结果目标词语串的一部分被获得作为声音识别结果时，声音识别结果和长搜索结果目标词语串之间的相似度仍不变为排列最高并且这样的搜索结果目标词语串不被输出为搜索结果词语串，所以在一些情况下，对与输入声音对应的词语串的搜索的准确度恶化。

即，例如，当长标题的一部分被说出时，长标题的相似度不变为排列最高，并且长标题不被输出作为搜索结果词语串。

为了相同原因，当包括与预定搜索结果目标词语串相同的词语串的长声音识别结果和短声音识别结果相比较时，长声音识别结果和预定搜索结果目标词语串之间的相似度可能较低，而短声音识别结果和预定搜索结果目标词语串之间的相似度可能较高。

从而，由于对于包括与预定搜索结果目标词语串相同的词语串的长声音识别结果，预定搜索结果目标词语串的相似度不变为排列最高，并且预定搜索结果目标词语串不被输出作为搜索结果词语串，所以在一些情况下对与输入声音对应的词语串的搜索的准确度恶化。

即，例如，在包括短标题的长话语的情况下，短标题的相似度不变为排列最高，并且在一些情况下，短标题不被输出作为搜索结果词语串。

从而，可以采用通过校正余弦距离D获得的校正距离作为声音识别结果和搜索结果目标词语串之间的相似度，以减少在匹配单元56(图2)中声音识别结果和搜索结果目标词语串的长度之间的差异的影响。

当校正距离被用作声音识别结果和搜索结果目标词语串之间的相似度时，可以防止声音识别结果和长搜索结果目标词语串之间的前述相似度以及长声音识别结果和搜索结果目标词语串之间的相似度变低，结果以健壮方式执行对与输入声音对应的词语串的搜索，从而防止对与输入声音对应的词语串的搜索的准确度恶化。

校正距离包括第一校正距离和第二校正距离。

在此，在用于获得余弦距离D的等式(1)的计算中，代替搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|使用的值还被称为代替大小S(i)。

基于等式(2)获得第一校正距离D1。

D1＝V_UTR·V_TITLE(i)/(|V_UTR|S(i))

＝V_UTR·V_TITLE(i)/(|V_UTR||V_UTR|×√|V_TITLE(i)|/|V_UTR|))

＝V_UTR·V_TITLE(i)/(|V_UTR|√|V_TITLE(i)||V_UTR|))...(2)

在等式(2)中，当|V_TITLE(i)|小时，即，当搜索结果目标词语串的长度短时，识别结果向量V_UTR的大小|V_UTR|和搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|之间的乘积值的平方根√(|V_TITLE(i)||V_UTR|)大于|V_TITLE(i)|，并且当|V_TITLE(i)|大时，即，当搜索结果目标词语串的长度长时，平方根√(|V_TITLE(i)||V_UTR|)小于|V_TITLE(i)|。

结果，与基于等式(1)获得的余弦距离D相比，基于等式(2)获得的第一校正距离D1是较少受到作为搜索结果目标词语串的长度的搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|相对于声音识别结果的长度的差值影响的值，即，通过减少声音识别结果和搜索结果目标词语串的长度之间的差值的影响获得的值。

在用于获得余弦距离D的等式(1)的计算中，代替与搜索结果目标词语串的长度成比例的搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|，使用识别结果向量V_UTR的大小|V_UTR|作为代替大小S(i)来获得第二校正距离。

从而，基于等式(3)获得第二校正距离D2。

D2＝V_UTR·V_TITLE(i)/(|V_UTR|S(i))

＝V_UTR·V_TITLE(i)/|V_UTR|²...(3)

由于在不使用搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|的情况下获得第二校正距离D2，所以第二校正距离D2是不受作为搜索结果目标词语串的长度的搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|相对于声音识别结果的长度的差值的影响的值，即，通过减少(去除)声音识别结果和搜索结果目标词语串的长度之间的差值的影响获得的值。

图7是示出当余弦距离D、第一校正距离D1以及第二校正距离D2被用作声音识别结果和搜索结果目标词语串之间的相似度时的匹配仿真结果的示意图。

假设在图7中的仿真中，关于短话语“SEKAI ISAN(世界遗产)”获得正确声音识别结果“SEKAI ISAN(世界遗产)”，并且长标题“ZASEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMABENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”和短标题“SEKAI JOSEI(世界事务)”被用作作为搜索结果目标词语串的节目标题。

此外，以使用记法符号的词语为单位执行匹配。

另外，下划线被添加至作为搜索结果目标词语串的节目标题中的词语，其对应于图7中的声音识别结果“SEKAI ISAN(世界遗产)”中的词语“SEKAI/ISAN(世界/遗产)”。

标题“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIAROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”中的包括“SEKAI(世界)”和“ISAN(遗产)”的两个词语与声音识别结果“SEKAI ISAN(世界遗产)”相符。

另一方面，标题“SEKAI JOSEI(世界事务)”中的仅一个词语“SEKAI(世界)”与声音识别结果“SEKAI ISAN(世界遗产)”的一部分相符。

从而，在标题“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARUITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”和标题“SEKAI JOSEI(世界事务)”之间，包括与声音识别结果“SEKAI ISAN(世界遗产)”相符的更多词语的标题“ZA SEKAIISAN TO SHI NO ISAN SUPE SHARU ITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度比标题“SEKAI JOSEI(世界事务)”的相似度排列更高是合适的。

然而，当余弦距离D被用作相似度时，关于与长标题“ZA SEKAIISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的一部分“SEKAIISAN(世界遗产)”相符的声音识别结果“SEKAI ISAN(世界遗产)”，短标题“SEKAI JOSEI(世界事务)”的相似度是0.5，而长标题“ZASEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMABENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度是0.4472，因而短标题“SEKAI JOSEI(世界事务)”的相似度变为比长标题“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARUITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度排列更高。

即，当余弦距离D被用作相似度时，适合于声音识别结果“SEKAIISAN(世界遗产)”的长标题“ZA SEKAI ISANTOSHI NO ISANSUPESHARU ITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”不变为排列更高，这是由于与长标题“ZASEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMABENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的一部分“SEKAI ISAN(世界遗产)”相符的短声音识别结果“SEKAIISAN(世界遗产)”与长标题“ZA SEKAI ISAN TOSHI NO ISANSUPE SHARU ITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的长度之间的差值的影响。

另一方面，当校正距离被用作相似度时，长标题“ZA SEKAI ISANTOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度比短标题“SEKAI JOSEI(世界事务)”的相似度排列更高。

即，当第一校正距离D1被用作相似度时，关于声音识别结果“SEKAI ISAN(世界遗产)”，短标题“SEKAI JOSEI(世界事务)”的相似度为0.5，而长标题“ZA SEKAI ISAN TOSHI NO ISANSUPESHARU ITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度为0.6687，因而长标题“ZASEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIA ROMABENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度比短标题“SEKAI JOSEI(世界事务)”的相似度排列更高。

另外，当第二校正距离D2被用作相似度时，关于声音识别结果“SEKAI ISAN(世界遗产)”，短标题“SEKAI JOSEI(世界事务)”的相似度是0.5，而长标题“ZA SEKAI ISAN TOSHI NO ISANSUPESHARU ITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度是1.0，因而长标题“ZA SEKAIISAN TOSHI NO ISAN SUPESHARU ITARIA ROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度比短标题“SEKAI JOSEI(世界事务)”的相似度排列更高。

当如上所述校正距离被用作相似度时，与长搜索结果目标词语串的一部分相符的声音识别结果和长搜索结果目标词语串的长度之间的差值的影响减小，并且适合于声音识别结果“SEKAI ISAN(世界遗产)”的长标题“ZA SEKAI ISAN TOSHI NO ISAN SUPESHARU ITARIAROMA BENECHIA(世界遗产城市的遗产，特别是意大利的罗马和威尼斯)”的相似度变为排列最高。

图8是示出当余弦距离D、第一校正距离D1以及第二校正距离D2被用作声音识别结果和搜索结果目标词语串之间的相似度时的另一匹配仿真结果的示意图。

在图8中的仿真中，假设关于长话语“SEKAI ISAN TOSHI NOISAN ITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遗产城市中的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”获得正确声音识别结果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMABENECHIA NAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”，并且短标题“SEKAI ISAN(世界遗产)”和长标题“TANKEN ROMAN SEKAI ISAN ITARIAFIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”被用作作为搜索结果目标词语串的节目标题。

此外，以使用记法符号的词语为单位执行匹配。

在图8中，下划线被添加至作为搜索结果目标词语串的节目标题中的词语，该节目标题与声音识别结果“SEKAI ISAN TOSHI NO ISANITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”中的词语“SEKAI/ISAN/TOSHI/NO/ISAN/ITARIA/ROMA/BENECHIA/NAPORI/FIRENTSE(世界/遗产/城市/的/遗产/意大利/罗马/威尼斯/那不勒斯/佛罗伦萨)”相符。

标题“SEKAIISAN(世界遗产)”中包括的两个词语“SEKAI(世界)”和“ISAN(遗产)”与声音识别结果“SEKAI ISAN TOSHI NO ISANITARIA ROMA BENECHIA NAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”的一部分相符。

另一方面，标题“TANKEN ROMAN SEKAI ISAN ITARIAFIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”中包括的四个词语“SEKAI(世界)”、“ISAN(遗产)”、“ITARIA(意大利)”和“FIRENTSE(佛罗伦萨)”与声音识别结果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIANAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”的一部分相符。

从而，在标题“SEKAI ISAN(世界遗产)”和“TANKEN ROMANSEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”之间，包括与声音识别结果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIANAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”的一部分相符的更多词语的标题“TANKEN ROMAN SEKAI ISAN ITARIA FIRENTSE REKISHICHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度比标题“SEKAI ISAN(世界遗产)”的相似度排列更高是合适的。

然而，当余弦距离D被用作相似度时，关于长声音识别结果“SEKAIISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORIFIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”，长标题“TANKEN ROMAN SEKAI ISANITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度是0.4472，而短标题“SEKAIISAN(世界遗产)”的相似度是0.4772，因而长标题“TANKEN ROMANSEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度不比短标题“SEKAI ISAN(世界遗产)”的相似度排列更高。

即，当余弦距离D被用作相似度时，适合于声音识别结果“SEKAIISAN TOSHI NO ISAN ITARIA ROMA BENECHIA NAPORIFIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”的长标题“TANKEN ROMAN SEKAI ISANITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度不变为排列更高，这是因为长声音识别结果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMABENECHIA NAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”和短搜索结果目标词语串“SEKAJ ISAN(世界遗产)”的长度之间的差值的影响。

另一方面，当校正距离被用作相似度时，长标题“TANKEN ROMANSEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度比短标题“SEKAIISAN(世界遗产)”的相似度排列更高。

即，当第一校正距离D1被用作相似度时，关于长声音识别结果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIANAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”，长标题“TANKEN ROMAN SEKAK ISANITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度是0.4229，而短标题“SEKAIISAN(世界遗产)”的相似度是0.2991，因而长标题“TANKEN ROMANSEKAI ISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度比短标题“SEKAIISAN(世界遗产)”的相似度排列更高。

另外，当第二校正距离D2被用作相似度时，关于长声音识别结果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIANAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”，长标题“TANKEN ROMAN SEKAI ISANITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度是0.4，而短标题“SEKAI ISAN(世界遗产)”的相似度是0.2，因而长标题“TANKEN ROMAN SEKAIISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度比短标题“SEKAI ISAN(世界遗产)”的相似度排列更高。

当如上所述校正距离被用作相似度时，长声音识别结果和短搜索结果目标词语串的长度之间的差值的影响减小，并且适合于声音识别结果“SEKAI ISAN TOSHI NO ISAN ITARIA ROMA BENECHIANAPORI FIRENTSE(世界遗产城市的遗产，特别是意大利的罗马、威尼斯、那不勒斯和佛罗伦萨)”的长标题“TANKEN ROMAN SEKAIISAN ITARIA FIRENTSE REKISHI CHIKU(意大利佛罗伦萨的历史区域中的世界遗产的浪漫主义探究)”的相似度变为排列最高。

从而，根据校正距离，可以通过减小声音识别结果和搜索结果目标词语串的长度之间的差值的影响，以健壮方式执行对与输入声音对应的词语串的搜索，从而防止对与输入声音对应的词语串的搜索的准确度恶化。

图9是示出搜索结果目标向量和向量代替信息的示意图。

在此，例如，必须高速执行匹配，以在声音搜索装置10(图2)中快速地输出搜索结果词语串。

另一方面，虽然当在声音识别结果和搜索结果目标词语串之间的匹配中获得作为相似度的余弦距离和校正距离时，必须准备表示搜索结果目标发音符号串的搜索结果目标向量和表示识别结果发音符号串的识别结果向量，但是如果每次在获得声音识别结果时在搜索结果目标存储单元53(图1)中存储的搜索结果目标词语串都被转换为搜索结果目标向量，则需要时间执行匹配，并且妨碍高速匹配。

从而，存在一种方法，通过该方法，通过基于存储在搜索结果目标存储单元53(图1)中的搜索结果目标词语串，预先获得相似度计算所须的搜索结果目标向量并且将所获得的搜索结果目标向量存储在结合于匹配单元56中的存储器(在图中未示出)中来高速执行匹配。

然而，为了使结合在匹配单元56中的存储器存储搜索结果目标向量，存储器必须具有极大容量。

即，如果假设根据与成分对应的音节是否在搜索结果目标发音符号串中而将搜索结果目标向量的成分值设置为1或0，则当发音符号的种类的数量是C时，搜索结果目标向量变为C-维向量。

例如，当表示日文音节的符号被用作发音符号时，发音符号的种类的数量C约为100至300。

此外，即使发音符号的种类的数量C是100，当双音节串接被用作用于匹配的单位时，搜索结果目标向量仍是10000(＝100×100)-维向量。

另外，如果搜索结果目标向量是D-维向量，并且存储在搜索结果目标存储单元53(图1)中的搜索结果目标词语串的数量是Z，则结合在匹配单元56中的存储器必须具有能够存储(搜索结果目标向量的)D×Z个成分的存储容量。

顺便提及，搜索结果目标向量通常是稀疏向量，即，多数成分(component)都是0的向量。

从而，对于每个搜索结果目标向量，匹配单元56仅将与搜索结果目标向量中不是0的成分对应的音节的发音符号(指明发音符号的ID(标识))(当双音节串接被用作用于匹配的单位时，用于与不是0的成分对应的双音节串接的发音符号串)存储在所结合的存储器中。

另外，当采用与成分对应的音节出现在搜索结果目标发音符号串中的频率(tf)时，例如，作为搜索结果目标向量的成分值，仅包括与搜索结果目标向量中不是0的成分对应的音节(指明音节的ID)和音节出现的频率(搜索结果目标向量的成分值)的一对被存储在匹配单元56中所结合的存储器中。

当仅与搜索结果目标向量中不是0的成分对应的音节的发音符号被存储在匹配单元56中所结合的存储器中时，如果假设在第i个搜索结果目标词语串的搜索结果目标向量中不是0的成分的数量是K(i)，则只要匹配单元56中所结合的存储器具有能够存储K(1)+K(2)+...K(Z)发音符号的存储容量，在匹配单元56中所结合的存储器就可用。

在此，虽然搜索结果目标向量的成分值是包括0和1的两个值中的一个，但是如上所述发音符号的值约为100至300个值中的一个。从而，虽然搜索结果目标向量的一个成分可以由1位表示，但是必须准备约7至9位以表达发音符号。

然而，由于搜索结果目标向量的大多数成分是0，所以搜索结果目标向量的不是0的成分的数量K(i)很小。从而，能够存储K(1)+K(2)+...K(Z)个发音符号的存储容量小于能够存储(搜索结果目标向量的)D×Z个成分的存储容量。

从而，与存储搜索结果目标向量本身的情况相比，可以通过为每个搜索结果目标向量，在结合在匹配单元56中的存储器中仅存储与搜索结果目标向量中不是0的成分对应的音节的发音符号，来减少该存储器所必须的存储容量。

以下，由于发音符号是代替搜索结果目标向量的信息，因而存储在结合在匹配单元56中的存储器中的与搜索结果目标向量中的不是0的成分对应的音节的发音符号被任意称为向量代替信息。

图9是示出搜索结果目标向量和代替搜索结果目标向量使用的向量代替信息的示意图。

根据与成分对应的音节是否出现在搜索结果目标发音符号串中，搜索结果目标向量的成分值是1或0。

另一方面，代替搜索结果目标向量的向量代替信息仅包括与搜索结果目标向量中不是0的成分对应的音节的发音符号。

在此，在图9中的向量代替信息中，在搜索结果目标词语串(搜索结果目标发音符号串)中多次出现的相同音节的发音符号通过添加附加说明数字相互区分。

即，例如，在图9中，相同音节的发音符号“I”在搜索结果目标词语串“SEKAI ISAN(世界遗产)”中出现两次。在向量代替信息中，第一发音符号由“I”表示，并且通过在出现两次的音节的发音符号“I”中添加附加说明数字“(2)”，由“I(2)”表示第二发音符号，从而出现两次的发音符号“I”被相互区分。

另外，还可以在向量代替信息中不相互区分的情况下，表达在搜索结果目标词语串中多次出现的相同音节的发音符号。

即，在图9中，例如，在搜索结果目标词语串“SEKAI ISAN(世界遗产)”中出现两次的相同音节的发音符号“I”可以由包括音节“I”(指明音节“I”的ID)和音节“I”出现在向量代替信息中的频率的对(I，2)表达。

由于在匹配中不一定执行对搜索结果目标向量中为0的成分的访问(从存储器中读取为0的成分)(当存储搜索结果目标向量时，不一定执行该访问)，所以当如上所述向量代替信息代替搜索结果目标向量被存储在结合于匹配单元56中的存储器中时，不仅可以减少存储器的存储容量，而且还增加匹配的速度。

图10是示出当向量代替信息代替搜索结果目标向量被存储在结合于匹配单元56中的存储器中时，声音识别结果和搜索结果目标词语串之间的相似度的计算的示意图。

在图10中，在搜索结果目标词语串中多次出现的相同音节的发音符号被表达，而同时以与图9相同的方式在向量代替信息中被相互区分。

在图10中，以与由代替搜索结果目标向量的向量代替信息表达的搜索结果目标词语串(的搜索结果目标发音符号串)相同的方式，声音识别结果(的识别结果发音符号串)也由代替识别结果向量的向量代替信息表达。

当余弦距离和校正距离被获得作为声音识别结果和搜索结果目标词语串之间的相似度时，必须准备识别结果向量V_UTR和搜索结果目标向量V_TITLE(i)之间的内积V_UTR·V_TITLE(i)和识别结果向量V_UTR的大小|V_UTR|。

另外，当余弦距离以及校正距离中的第一校正距离被获得时，必须进一步准备搜索结果目标向量V_TITLE(i)的大小|V_TITLE(i)|。

可以通过计算作为构成声音识别结果的向量代替信息的成分的发音符号的数量的总和的平方根，来获得识别结果向量V_UTR的大小|V_UTR|。

可以以与用于识别结果向量V_UTR的大小|V_UTR|相同的方式，通过使用搜索结果目标词语串的向量代替信息，来获得搜索结果目标向量V_TITIE(i)的大小|V_TITIE(i)|。

另外，，可以通过将内积V_UTR·V_TITLE(i)的初始值设置为0，随后关注构成声音识别结果的向量代替信息的每个发音符号，并且当在搜索结果目标词语串的向量代替信息中存在与受到关注的符号符合的发音符号时使内积V_UTR·V_TITLE(i)加1，来获得识别结果向量V_UTR和搜索结果目标向量V_TITLE(i)之间的内积V_UTR·V_TITLE(i)。

从而，可以使用声音识别结果和搜索结果目标词语串的向量代替信息来获得作为声音识别结果和搜索结果目标词语串之间的相似度的余弦距离和校正距离。

[声音搜索装置10的处理]

根据实施例的由搜索与输入声音对应的词语串的搜索装置进行的搜索方法可以包括：识别输入声音；基于输入声音来估计输入声音的说话者的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息；对于多个搜索结果目标词语串中的每个，在搜索结果目标发音符号串和识别结果发音符号串之间执行匹配，其中，搜索结果目标发音符号串是表示搜索结果目标词语串的发音的发音符号的序列，识别结果发音符号串是表示用于输入声音的声音识别结果的发音的发音符号的序列，多个搜索结果目标词语串是作为与输入声音对应的词语串的搜索结果的目标的词语串；以及基于搜索结果目标发音符号串和识别结果发音符号串之间的匹配结果，从多个搜索结果目标词语串中生成搜索结果词语串，作为用于与输入声音对应的词语串的搜索结果，其中，在执行匹配和生成搜索结果词语串中的至少一个期间，根据用户信息来改变处理。

图11是示出图1中的声音搜索装置10的处理(声音搜索处理)的流程图。

在图S11中，声音搜索装置10执行必要预处理。

即，声音搜索装置10执行可以在输入声音被提供之前执行的处理，诸如，读取作为构成存储在存储介质23中的EPG的要素的节目标题、表演者的名称、详细信息等，并且将所读取的标题、表演者的名称、详细信息等提供给搜索结果目标存储单元53，并且使搜索结果目标存储单元53将它们存储为搜索结果目标词语串。

另外，例如，每天在预定时间执行步骤S11中的预处理。可替换地，当已经被视频记录在存储介质23中的视频记录节目改变时，当存储在存储介质23中的EPG改变(更新)时等，执行步骤S11中的预处理。

当在最后预处理之后用户说话，并且作为话语的输入声音被提供给声音识别单元51和用户信息估计单元58时，在步骤S12中，用户信息估计单元58从提供给其的输入声音估计非言语信息和辅助语言信息中的一个或两者，并且将估计结果(非言语信息、辅助语言信息)作为用户信息提供(输出)至匹配单元56和生成单元57。

然后，在步骤S13中，声音识别单元51识别提供给其的输入声音。

可以通过由声音识别单元51对输入声音执行声音识别而获得的声音识别结果被发音符号转换单元52转换为识别结果发音符号串，并且提供给匹配单元56。

另外，存储在搜索结果目标存储单元53中的搜索结果目标词语串被语素分析单元54和发音符号转换单元55转换为搜索结果目标发音符号串，并且被提供给匹配单元56。

在步骤S14中，对于存储在搜索结果目标存储单元53中的所有搜索结果目标词语串中的每个，匹配单元56在通过发音符号转换单元52从声音识别单元51提供的识别结果发音符号串和通过语素分析单元54和发音符号转换单元55从搜索结果目标存储单元53提供的搜索结果目标发音符号串之间执行匹配，并且将匹配结果提供给生成单元57。

即，匹配单元56计算作为存储在搜索结果目标存储单元53中的每个搜索结果目标词语串和声音识别结果之间的相似度的余弦距离、校正距离等，并且将相似度作为匹配结果提供给生成单元57。

在步骤S15中，生成单元57基于来自匹配单元56的匹配结果生成搜索结果词语串，并且声音搜索装置10完成声音搜索处理。

即，生成单元57从存储在搜索结果目标存储单元53中的搜索结果目标词语串中，选择关于声音识别结果具有排列最高的N个相似度的搜索结果目标词语串，作为搜索结果词语串。

然后，由生成单元57获得的搜索结果词语串被提供给输出I/F 33(图1)。

另外，当搜索结果目标词语串是例如节目标题、表演者名称、或详细信息，而非标题(或详细信息)出现在关于声音识别结果具有排列最高的N个相似度的搜索结果目标词语串中时，生成单元57可以选择包括作为元数据的表演者名称的节目标题连同表演者名称一起或代替表演者名称作为搜索结果目标词语串。

在此，当声音搜索装置10的操作模式被设置为正常模式时，匹配单元56和生成单元57分别执行上述匹配处理(正常模式下的匹配处理)和生成搜索结果词语串的处理(在正常模式下生成搜索结果词语串的处理)，而不使用从用户信息估计单元58提供的用户信息。

另一方面，当操作模式被设置为相关词语使用匹配模式或者加权匹配模式时，匹配单元56使用从用户信息估计单元58提供的用户信息来执行匹配处理。

另外，当操作模式被设置为相关词语使用排序模式时，生成单元57使用从用户信息估计单元58提供的用户信息来执行生成搜索结果词语串的处理，将在随后描述。

随后将描述在相关词语使用匹配模式下的匹配处理、在加权匹配模式下的匹配处理以及在相关词语使用排序模式下生成搜索结果词语串的处理。

对于步骤S12和S13，虽然对图11作出在步骤S12中的处理之后执行步骤S13中的处理的描述，但是在步骤S12中的处理之前可以执行步骤S13中的处理，或者可以同时执行步骤S12和S13中的处理(并行方式)。

[由用户信息估计单元58进行的用户信息估计]

图12是示出由图1中的用户信息估计单元58进行的用户信息估计处理的示意图。

在此，如上所述用户信息包括的非言语信息和辅助语言信息。

在用户信息估计单元58中，非言语信息提取单元58A使用用户输入声音等基于例如用户输入声音的音调检测、说话者指明，来提取(估计)作为与身体特性相关的信息的非言语信息，包括发出输入声音的用户(说话者)的性别、发出输入声音的用户的年龄钮(例如，关于用户是小孩还是成人的信息)、指明发出输入声音的用户对应于哪个用户的信息(例如，用户名称、指明用户的ID等)等。

图12是示出通过非言语信息提取单元58A估计发出输入声音的用户的性别作为非言语信息(以及这样的用户信息)的方法的示意图。

即，图12示出由女性生成的输入声音(女声)“RYORI(烹饪)”和由男性生成的输入声音(男声)“RYORI(烹饪)”的波形、音调和功率。

由于女声的音调(频率)平均高于男声的音调(频率)，所以非言语信息提取单元58A基于例如这种音调来估计发出输入声音的用户的性别。

即，在图12中，女声“RYORI(烹饪)”的音调的最大频率是男声“RYORI(烹饪)”的音调的最大频率的两倍(一个八度音阶)高或更多，并且女声“RYORI(烹饪)”的音调平均高于男声“RYORI(烹饪)”的音调。

从而，非言语信息提取单元58A检测输入声音的音调并且获得作为输入声音(在声音区段中)的音调的平均值的平均音调。另外，非言语信息提取单元58A基于输入声音的平均音调和预先设置用于估计性别的用于性别的阈值之间的幅度关系，估计发出输入声音的用户的性别。

特别地，如果输入声音的平均音调等于或大于(或超过)用于性别的阈值，则非言语信息提取单元58A估计发出输入声音的用户的性别是女性。

另外，如果输入声音的平均音调不等于或不大于用于性别的阈值，则非言语信息提取单元58A估计发出输入声音的用户的性别是男性。

在图12中，160Hz被设置为用于性别的阈值。另外，在图12中，女声“RYORI(烹饪)”的平均音调是229.41Hz，并且男声“RYORI(烹饪)”的平均音调是116.07Hz。

从而，在图12中，女声“RYORI(烹饪)”的用户的性别被估计为女性，并且男声“RYORI(烹饪)”的用户的性别被估计为男性。

另外，例如，非言语信息提取单元58A还可以从输入声音中提取包括音调、功率、记法以及诸如此类信息的韵律信息，并且使用韵律信息来执行说话者指明(用户标识)，用于获得指明发出输入声音的用户对应于哪个用户(例如，用户的名称、用于指明用户的ID等)的信息。

当非言语信息提取单元58A估计发出输入声音的用户并且执行用于获得指明上述用户(以下还称为用户指明信息)的信息的说话者指明时，可以在记录器中预先创建和存储表格(以下还称为用户表格)，其中，包括在说话者指明中估计(获得)的用户指明信息、由用户指明信息指明的用户的偏好或活动历史(例如，用户频繁观看或视频记录的节目的标题或种类、操作单元31(图1)的操作历史等)以及关于用户的性别、年龄等的信息。

在这种情况下，非言语信息提取单元58A可以执行说话者指明，参考用户表格中与被获得作为说话者指明的结果的用户指明信息相关的信息，并且估计发出输入声音的用户的性别。

另外，当非言语信息提取单元58A基于说话者指明估计用户时，可以将作为非言语信息的指明用户的用户指明信息以及因此的用户信息从用户信息估计单元58提供给匹配单元56和生成单元57。

在此，除了发出输入声音的用户的性别和用户指明信息之外，非言语信息提取单元58A还可以基于输入声音的平均音调的语调(tone)，估计用户的年龄组(例如，当输入声音的平均音调高于预定值时，用户被估计为小孩，并且当输入声音的平均音调等于或低于预定值时，用户被估计为成人)，并且将作为非言语信息的用户的年龄组以及因此的用户信息提供给匹配单元56和生成单元57。

图13是示出通过图1中的用户信息估计单元58进行的用户信息估计处理的示意图。

在此，如上所述用户信息包括非言语信息和辅助语言信息。

在用户信息估计单元58中，辅助语言信息提取单元58B基于对包括用户的输入声音的音调(语音的语调)、功率(语音的音量)、说话速度(语音的速度)等的韵律信息的检测，估计输入声音的声音区段中用户强调它们的话语的强调区段，作为辅助语言信息(其是关于用户的思想方法的信息，包括它们的意图、情感等)。

另外，用户信息估计单元58将表示强调区段的用户信息从用户信息估计单元58提供给匹配单元56和生成单元57。

图13是示出通过辅助语言信息提取单元58B估计输入声音的声音区段中的强调区段作为辅助语言信息的方法的示意图。

即，图13示出话语“SEKAI ISAN(世界遗产)”的不具有强调的输入声音(正常声音)和具有部分强调的输入声音(强调声音)中的每个的波形、音调和功率。

在此，在强调声音“SEKAI ISAN(世界遗产)”中强调和发出“SEKAIISAN(世界遗产)”中的“ISAN(遗产)”，即，在音节中标注时的“sekaiisaN”中的“isaN”。

在图13中，在正常声音“SEKAI ISAN(世界遗产)”和强调声音“SEKAI ISAN(世界遗产)”中强调和发出的“ISAN(遗产)”部分(以下还被称为强调区段)(特别是其中的“saN”)的音调和功率方面观测区分差异。

从而，辅助语言信息提取单元58B基于输入声音的音调和功率估计强调区段。

即，辅助语言信息提取单元58B例如检测输入声音的音调，以获得平均音调。此外，辅助语言信息提取单元58B获得通过将平均音调乘以作为用于估计强调区段的用于强调的阈值的预定系数(例如，等于或大于1.0的值1.2等)获得的乘积值，并且基于输入声音的音调和用于强调的阈值之间的幅度关系来估计输入声音(的声音区段中)的强调区段。

特别地，辅助语言信息提取单元58B在输入声音的声音区段中检测其音调等于或大于(或超过)用于强调的阈值的区段，并且估计该候选区段作为强调区段。

关于图13中的正常声音，平均音调是119.59Hz，并且用于强调的阈值(其是通过将平均音调乘以作为预定系数的1.2获得的乘积值)是143.51Hz。

由于在正常声音的声音区段中不存在音调超过作为用于强调的阈值的143.51Hz的区段，所以未检测到候选区段。

另一方面，图13中的强调声音的平均音调是175.58Hz，并且用于强调的阈值(作为将平均音调乘以作为预定系数的1.2获得的乘积值)是210.94Hz。

另外，由于在强调声音的声音区段中存在其音调超过作为用于强调的阈值的143.51的区段，即，由于在“ISAN(遗产)”区段中音调超过用于强调的阈值，所以“ISAN(遗产)”区段被检测作为候选区段并且从而作为强调区段。

另外，所谓的隔离候选区段(在被预先设置为两个相邻强调区段之间的最小时间间隔的第一时间周期T1内在隔离候选区段周围不存在另一候选区段)的宽度比被预先设置为用于一个强调区段的最小时间周期的第二时间周期T更短，可能由于作为强调区段其时间长度过分短而导致候选区段不被估计为强调区段。

另外，当两个相邻候选区段之间的时间间隔比第一时间周期T1短时，这两个候选区段可以被估计为从按照时间在前的候选区段的顶部到按照时间在后的候选区段的末端的一个强调区段。

图14是示出通过辅助语言信息提取单元58B将输入声音中的声音区段中的强调区段估计为辅助语言信息的方法的示意图。

即，图14示出在话语“REONARUDO(Leonardo)”的没有强调的输入声音(正常声音)和具有部分强调的输入声音(强调声音)中的每个的波形、音调和功率。

在此，“REONARUDO(Leonardo)”中的“NA”，即，当在音素中标注时“REONARUDO”中的“NA”，在强调声音“REONARUDO(Leonardo)”中被强调并且被发出。

在图14中，在正常声音“REONARUDO(Leonardo)”和强调声音“REONARUDO(Leonardo)”中的强调部分“NA”(特别是其中的“a”)的音调和功率方面观测区分差异。

即，辅助语言信息提取单元58B以与图13相同的方式检测输入声音的音调并且获得平均音调。此外，辅助语言信息提取单元58B将通过将平均音调乘以例如作为预定系数的1.2获得的乘积值作为用于强调的阈值，基于输入声音的音调和用于强调的阈值之间的幅度关系检测候选区段，并且从而估计输入声音(的声音区段中)的强调区段。

关于图14中的正常声音，平均音调是121.51Hz，并且用于强调的阈值(其是通过将平均音调乘以作为预定系数的1.2获得的乘积值)是145.81Hz。

然后，由于在正常声音的声音区段中未出现音调超过用于强调的阈值145.81Hz的区段，所以未检测到候选区段。

另一方面，关于图14中的强调声音，平均音调是131.63Hz，并且用于强调的阈值(其是通过将平均音调乘以作为预定系数的1.2获得的乘积值)是157.96Hz。

在强调声音的声音区段中，存在音调超过用于强调的阈值157.96Hz的区段，即，在“NA”区段中音调超过用于强调的阈值，“NA”区段被检测作为候选区段，并且从而被估计为强调区段。

另外，由于音调主要受元音影响，所以可以将候选区段扩展到包括出现在其顶部的元音的音节的顶部的位置(例如，元音之前的辅音的顶部)，并且估计扩展之后的候选区段作为强调区段。

虽然作出了辅助语言信息提取单元58B使用音调来估计强调区段的以上描述，但是还可以使用功率或说话速度代替音调来估计强调区段。

即，辅助语言信息提取单元58B可以从声音区段中检测例如功率等于或大于预定阈值(通过将功率的平均值乘以预定系数获得的乘积值)的区段作为候选区段，并且估计该候选区段作为强调区段。

另外，辅助语言信息提取单元58B可以从声音区段中检测例如说话速度等于或小于预定阈值的区段作为候选区段，并且估计该候选区段作为强调区段。

图15是示出通过辅助语言信息提取单元58B使用说话速度来估计输入声音的声音区段中的强调区段的方法的示意图。

即，图15示出具有话语“REONARUDO(Leonardo)”的部分强调的输入声音(强调声音)和具有话语“REONA”的部分强调的输入声音(强调声音)中的每个的波形、音调和功率。

在强调声音“REONARUDO(Leonardo)”中，“REONARUDO”中的“NA”，即当在音素中标注时“reonarduo”中的“NA”，被强调和发出。

在强调声音“REONA”中，“REONA”中的“NA”，即，当在音素中标注时“REONA”中的“NA”，被强调和发出。

在此，在图15中，通过在话语的一部分处延迟说话速度来强调话语的该部分。

当使用说话速度估来计强调区段时，辅助语言信息提取单元58B获得声音区段的每个音素(以下还称为音素区段)的区段(时间周期)的反数作为音素的说话速度。

另外，辅助语言信息提取单元58B基于说话速度和预定阈值之间的幅度关系来估计输入声音(的声音区段中)的强调区段。

特别地，辅助语言信息提取单元58B检测说话速度等于或小于(或低于)预定阈值的区段，即，等于或长于例如作为由预定阈值的反数表示的时间周期的1秒的音素区段，作为强调区段的候选区段，并且估计该候选区段作为强调区段。

在图15中的强调声音“REONARUDO(Leonardo)”中，音素“a”的音素区段的长度是1.06秒，其满足等于或长于1秒的条件，因而该音素区段被检测作为候选区段。

另外，在图15中的强调声音“REONA”中，音素“a”的音素区段的长度是1.33秒，其满足等于或长于1秒的条件，因而该音素区段被检测作为候选区段。

从而，音素“a”的音素区段被估计为用于图15中的强调声音“REONARUDO(Leonardo)”和“REONA”的强调区段。

由于可以具有等于或长于1秒的音素区段的音素主要是元音，所以当元音在候选区段的顶部时，候选区段可以扩展至包括在其顶部处存在的元音的音节的顶部的位置，并且扩展之后的候选区段可以被估计作为强调区段。

虽然作出了辅助语言信息提取单元58B使用音调、功率以及说话速度中的一个来估计强调区段的以上情况的描述，但是也可以使用音调、功率以及说话速度中的多个因素来估计强调区段。

即，辅助语言信息提取单元58B可以将例如使用音调检测的候选区段与使用功率检测的候选区段叠加的区段、或者作为使用音调检测的候选区段和使用功率检测的候选区段中的至少一个的区段估计作为强调区段。

另外，辅助语言信息提取单元58B可以鼓励用户用正常声音和用强调声音顺序地执行相同话语，分别将第一话语的正常声音中的音调、功率和说话速度与第二话语中的强调声音中的音调、功率和说话速度进行比较，并且将在比较中在音调、功率或说话速度中存在显著差异(等于或大于阈值的差异)的区段估计为强调区段。

[相关词语使用匹配模式下的匹配]

图16是示出当图2中的声音搜索装置10的操作模式被设置为相关词语使用匹配模式时，在图11中的步骤S14中由匹配单元56执行的相关词语使用匹配模式下的匹配处理的流程图。

在步骤S21中，匹配单元56获得从用户信息估计单元58提供的关于用户信息的相关词语。

即，当用户信息估计单元58(的非言语信息提取单元58A)估计发出输入声音的用户的性别，以及表示该性别的用户信息(包括非言语信息)作为估计结果被提供给匹配单元56时，在步骤S21中匹配单元56获得与由用户信息表示的用户的性别相关的相关词语。

在此，例如，当由用户信息表示的用户的性别是“女性”时，与“女性”相关的相关词语的示例包括“ONNA(女人)”、“OKASAN(母亲)”、“MAMA(妈妈)”、“SUITSU(糖果)”、“OYATSU(甜点)”、“DAIETTO(节食)”、“OBENTO(盒装午餐)”等。

当由用户信息表示的用户的性别是“男性”时，与“男性”相关的相关词语的示例包括“OTOKO(男人)”、“OTOSAN(父亲)”、“PAPA(爸爸)”、“TSUMAMI(啃)”、“SAKE(酒精)”等。

可以由装置的设计者将关于用户的性别的相关词语预先登记在声音搜索装置10中。

此外，例如，可以从文本数据库(诸如，互联网上的网页、预定文献等)搜索经常与表示性别的词语(诸如，“男性”、“女性”等)一起出现的词语，并且将该词语作为与用户的性别相关的相关词语登记在声音搜索装置10中。

另外，当用户信息估计单元58(的非言语信息提取单元58A)基于说话者指明来估计发出输入声音的用户，并且表示用于指明用户的用户指明信息的用户信息(包括非言语信息)被提供给匹配单元56时，匹配单元56获得与用户信息所表示的用户指明信息所指明的用户相关的相关词语。

在此，假设图1中的记录器预先创建和存储用户表格，其中，用户指明信息与同用户相关的信息相关联，同用户相关的信息包括上述由用户指明信息指明的用户的偏好或活动历史(例如，用户频繁观看或视频记录的节目的标题或种类、操作单元31(图1)的操作历史等)等。

在这种情况下，匹配单元56获得与用户表格中的用户信息所表示的用户指明信息相关联的信息(诸如，用户频繁观看或视频记录的节目的标题或种类(表示标题或种类的词语串的每个词语))作为与用户信息所表示的用户指明信息所指明的用户相关的相关词语。

另外，用户可以对操作单元31(图1)进行操作，以将可以作为与用户相关的相关词语的词语登记在用户表格中。

匹配单元56获得与从用户信息估计单元58提供的用户信息相关的相关词语，并且然后在步骤S22中，将相关词语添加至通过发音符号转换单元52从声音识别单元51提供的识别结果发音符号串。

即，匹配单元56将相关词语的发音符号串添加至识别结果发音符号串的顶部或末端。

然后，在步骤S23中，对于搜索结果目标存储单元53中所存储的所有搜索结果目标词语串中的每个，匹配单元56在已添加了相关词语的识别结果发音符号串和通过语素分析单元54及发音符号转换单元55从搜索结果目标存储单元53提供的搜索结果目标发音符号串之间执行匹配(计算相似度)，并且将匹配结果(相似度)提供给生成单元57，并且处理返回。

从而，在正常模式下匹配单元56在识别结果发音符号串本身和搜索结果目标发音符号串之间执行匹配，而在相关词语使用匹配模式下匹配单元56在已添加了相关词语的识别结果发音符号串和搜索结果目标发音符号串之间执行匹配。

结果，在相关词语使用匹配模式下，可以获得根据作为说话者的用户(其本身或其性别)而不同的灵活搜索结果词语串。

即，当例如已经估计出用户的性别，并且表示性别的用户信息已经从用户信息估计单元58提供给匹配单元56时，如果由用户信息表示的用户的性别是“女性”，则匹配单元56将与“女性”相关的前述相关词语“ONNA(女人)”等添加至识别结果发音符号串，并且对该识别结果发音符号串进行匹配。

从而，与在不将相关词语“ONNA(女人)”等添加到识别结果发音符号串的情况下执行匹配的情况相比较，可以获得适合于说话的女性用户的搜索结果目标词语串被列为最高排列的匹配结果，以及这种搜索结果目标词语串被选择作为搜索结果词语串的搜索结果。

另外，当由用户信息表示的用户的性别是“男性”时，匹配单元56将与“男性”相关的前述相关词语“OTOKO(男人)”等添加至识别结果发音符号串，并且对该识别结果发音符号串进行匹配。

从而，与在不将相关词语“OTOKO(男人)”等添加到识别结果发音符号串的情况下执行匹配的情况相比较，可以获得适合于说话的男性用户的搜索结果目标词语串被列为最高排列的匹配结果，以及这种搜索结果目标词语串被选择作为搜索结果词语串的搜索结果。

当例如估计用户的性别，并且表示指明用户的用户指明信息的用户信息被从用户信息估计单元58提供至匹配单元56时，匹配单元56通过将用户信息所表示的用户指明信息所指明的用户经常观看的节目的标题等作为相关词语添加至识别结果发音符号串来执行匹配。

从而，与在不将用户经常观看的节目的标题等添加到识别结果发音符号串的情况下执行匹配的情况相比较，可以获得根据说话的用户的偏好以排列顺序定位(适合于用户的)搜索结果目标词语串的匹配结果，以及搜索结果目标词语串被获得作为搜索结果词语串的各个用户特有的搜索结果。

另外，当匹配单元56在相关词语使用匹配模式下获得多个相关词语时，例如，每个相关词语都顺序地被选择作为要受到关注的词语，并且要受到关注的词语被添加至识别结果发音符号串，并且然后经过与搜索结果目标发音符号串的匹配。

[相关词语使用排序模式下的匹配]

图17是示出当图2中的声音搜索装置10的操作模式被设置为相关词语使用排序模式时，通过生成单元57在图11中的步骤S15中执行的相关词语使用排序模式下生成搜索结果词语串的处理的流程图。

在步骤S31中，生成单元57获得与从用户信息估计单元58提供的用户信息相关的相关词语。

即，以与匹配单元56在图16的步骤S21中获得相关词语的情况相同的方式，生成单元57获得与来自用户信息估计单元58的用户信息所表示的用户的性别相关的相关词语，以及与用户信息所表示的用户指明信息所指明的用户相关的相关词语。

在步骤S32中，生成单元57获得与从用户信息估计单元58提供的用户信息相关的相关词语，然后基于作为来自匹配单元56的匹配结果的相似度，对存储在搜索结果目标存储单元53中的搜索结果目标词语串进行排序，并且在排序之后生成搜索结果目标词语串的列表(以下还被称为搜索结果候选列表)。

即，生成单元57生成搜索结果候选列表，其中存储在搜索结果目标存储单元53中的搜索结果目标词语串以相似度的升序登记。

然后，在步骤S33中，生成单元57对搜索结果候选列表中的搜索结果目标词语串进行排序，使得在搜索结果候选列表中的搜索结果目标词语串中，包括相关词语的搜索结果目标词语串(以下还被称为具有相关词语的词语串)按照排列顺序定位。

即，生成单元57在搜索结果候选列表中的搜索结果目标词语串中选择具有相关词语的词语串，并且在搜索结果候选列表中将具有相关词语的词语串移动到较高排列顺序，同时在具有相关词语的词语串之间保持顺序关系。

从而，只要搜索结果目标词语串不包括相关词语，按照用于搜索结果目标词语串的搜索结果候选列表的顺序，即使具有高(大)相似度的搜索结果目标词语串也可能被定位成比具有相关词语的词语串更低的排列顺序。

此后，在步骤S34中，生成单元57通过将搜索结果候选列表中的排列最高的N个搜索结果目标词语串选择为搜索结果词语串，生成搜索结果词语串，并且处理返回。

从而，在正常模式下生成单元57从存储在搜索结果目标存储单元53中的搜索结果目标词语串中，将具有排列最高的N个相似度的搜索结果目标词语串选择为搜索结果词语串，而在相关词语使用排序模式下生成单元57从包括相关词语的搜索结果词语串(具有相关词语的词语串)中，将具有排列最高的N个相似度的搜索结果词语串选择作为搜索结果词语串。

结果，在相关词语使用排序模式下可以获得根据用户(说话者)而不同的灵活搜索结果词语串。

即，图18是示出当表示用户的性别的用户信息从用户信息估计单元58提供给生成单元57时，在相关词语使用排序模式下通过生成单元57生成的搜索结果词语串的示意图。

如果假设女性用户和男性用户都发出输入声音“RYORI(烹饪)”则在正常模式下生成单元57选择具有排列最高的N个相似度的搜索结果目标词语串作为用于女性用户和男性用户的搜索结果词语串。从而，在正常模式下，关于用于女性用户和男性用户的相同输入声音“RYORI(烹饪)”可以获得相同搜索结果词语串。

另一方面，当在相关词语使用排序模式下由用户信息表示的用户的性别是“女性”时，生成单元57在包括关于参考图17描述的“女性”的相关词语“ONNA(女人)”、“OKASAN(母亲)”、“MAMA(妈妈)”、“SUITSU(糖果)”、“OYATSU(甜点)”、“DAIETTO(节食)”、“OBENTO(盒装午餐)”等的搜索结果目标词语串中，选择具有排列最高的N个(图18中为5)相似度的搜索结果目标词语串作为用于为用户的性别的“女性”的搜索结果词语串。

另外，当由用户信息表示的用户的性别是“男性”时，生成单元57在包括关于参考图17描述的“男性”的相关词语“OTOKO(男人)”、“OTOSAN(父亲)”、“PAPA(爸爸)”、“TSUMAMI(啃)”、“SAKE(酒精)”等的搜索结果目标词语串中，选择具有排列最高的N个相似度的搜索结果目标词语串作为用于为用户的性别的“男性”的搜索结果词语串。

从而，在相关词语使用排序模式下，可以根据发出输入声音的用户的性别，获得将适合于该性别的用户的搜索结果目标词语串选择为搜索结果词语串的搜索结果。

图19是示出当表示指明用户的用户指明信息的用户信息从用户信息估计单元58提供给生成单元57时，通过生成单元57在正常模式和相关词语使用排序模式下分别生成的搜索结果词语串的示意图。

如果假设用户发出输入声音“RYORI(烹饪)”，则在正常模式下生成单元57选择关于输入声音“RYORI(烹饪)”具有排列最高的N个相似度的搜索结果目标词语串作为用于任何用户的搜索结果词语串。即，在正常模式下，不管哪个用户是说话者，关于相同输入声音“RYORI(烹饪)”都获得相同搜索结果词语串。

另一方面，如果例如假设用户信息所表示的用户指明信息所指明的用户频繁观看标题为“SHOKUSAI ROMAN(浪漫的美丽食物)”的节目，并且标题“SHOKUSAI ROMAN(浪漫的美丽食物)”被获得作为相关词语，则在相关词语使用排序模式下生成单元57从包括相关词语“SHOKUSAI ROMAN(浪漫的美丽食物)”的搜索结果目标词语串中，选择关于输入声音“RYORI(烹饪)”具有排列最高的N个(图18中为5)相似度的搜索结果目标词语串作为发出输入声音“RYORI(烹饪)”的用户特有的搜索结果词语串。

从而，在相关词语使用排序模式下，可以获得根据用户偏好等(诸如，发出输入声音的用户频繁观看的节目)适合于用户的搜索结果目标词语串被选择作为搜索结果词语串的搜索结果。

另外，在相关词语使用排序模式下，当生成单元57获得多个相关词语时，可以将搜索结果候选列表中的搜索结果目标词语串排序，使得只要生成单元57获得包括相关词语的搜索结果目标词语串(具有相关词语的词语串)，具有相关词语的词语串就按照上升顺序排列，而不管包括在具有相关词语的词语串中的相关词语的数量如何，或者根据包括在具有相关词语的词语串中的相关词语的数量，对搜索结果候选列表中的搜索结果目标词语串进行排序。

当生成单元57根据包括在具有相关词语的词语串中的相关词语的数量来对搜索结果候选列表中的搜索结果目标词语串进行排序时，可以对搜索结果候选列表中的搜索结果目标词语串进行排序使得包括更多相关词语的词语串按照更高或更低顺序排列。

在此，甚至在参考图16描述的相关词语使用匹配模式下，也可以获得在图18和图19中所示的相关词语使用排序模式下可以获得的适合于用户的相同搜索结果词语串。

[加权匹配模式下的匹配]

图20是示出当图2中的声音搜索装置10的操作模式被设置为加权匹配模式时，在图11中的步骤S14中由匹配单元56执行的加权匹配模式下的匹配处理的流程图。

在步骤S41中，匹配单元56在通过发音符号转换单元52从声音识别单元51提供的识别结果发音符号串中，检测从用户信息估计单元58提供的用户信息所表示的强调区段的发音符号(串)作为加权目标符号。

此后，在步骤S42中，匹配单元56通过给识别结果发音符号串中的加权目标符号加权，对于存储在搜索结果目标存储单元53中的所有搜索结果目标词语串中的每个，在识别结果发音符号串和通过语素分析单元54及发音符号转换单元55从搜索结果目标存储单元53提供的搜索结果目标发音符号串之间执行匹配(相似度的计算)。

然后，匹配单元56将匹配结果(相似度)提供给生成单元57，并且处理返回。

从而，在正常模式下匹配单元56在不执行任何加权的情况下在识别结果发音符号串和搜索结果目标发音符号串之间执行匹配，而在加权匹配模式下匹配单元56通过给识别结果发音符号串中的作为强调区段中的发音符号的加权目标符号加权来执行匹配。

结果，在加权匹配模式下，可以获得根据在输入声音中用户强调和发出的强调区段而不同的灵活搜索结果词语串。

图21A和图21B是示出在加权匹配模式下的匹配处理的示意图。

即，图21A是示出在加权匹配模式下，由匹配单元56使用向量代替信息代替搜索结果目标向量来执行的在声音识别结果和搜索结果目标词语串之间的相似度的计算(匹配)的示意图。

在图21A中，在搜索结果目标词语串中出现多次的相同音节的发音符号被相互区分，并且以与图9和图10的相同方式在向量代替信息中来表达。

另外，在图21A中，以与图10中在代替搜索结果目标向量的向量代替信息中表达搜索结果目标词语串(的搜索结果目标发音符号串)相同的方式，在代替识别结果向量的向量代替信息中表达声音识别结果(的识别结果发音符号串)。

如在图10中所描述的，当余弦距离或校正距离被获得作为声音识别结果和搜索结果目标词语串之间的相似度时，必须在识别结果向量V_UTR和搜索结果目标向量V_TITLE(i)之间提供内积V_UTR·V_TITLE(i)。

在正常模式下，通过将内积V_UTR·V_TITLE(i)的初始值设置为0，通过顺序地关注构成声音识别结果的向量代替信息的发音符号并且当与受到关注的符号相符的发音符号出现在搜索结果目标词语串的向量代替信息中时使内积V_UTR·V_TITLE(i)加1，可以获得内积V_UTR·V_TITLE(i)。

另一方面，在加权匹配模式下，当受到关注的符号不是加权目标符号时，内积V_UTR·V_TITLE(i)以与正常模式下当与受到关注的符号相符的发音符号出现在搜索结果目标词语串的向量代替信息中时相同的方式增加1。

另外，当受到关注的符号是加权目标符号时，在正常模式的情况下如果与受到关注的符号相符的发音符号出现在搜索结果目标词语串的向量代替信息中，则内积V_UTR·V_TITLE(i)增加一个值，该值的权重(例如，大于1的2等)增加1作为增加量。

结果，加权匹配模式下在搜索结果目标发音符号串中包括与输入声音的声音识别结果的识别结果发音符号串中用户强调和发出的强调部分的发音符号(加权目标符号)相同的发音符号的搜索结果目标词语串的相似度大于正常模式的情况下的相似度，因而这种搜索结果目标词语串可以容易地被获得作为搜索结果词语串。

图21B示出当输入声音“SEKAI ISAN(世界遗产)”中的“ISAN(遗产)”被强调和发出时，在正常模式和加权匹配模式中的每个下获得的作为相似度的余弦距离。

图21B示出在正常模式和加权匹配模式中的每个下获得的三个搜索结果目标词语串“ZA SEKAI ISAN(该世界遗产)”、“SEKAI NO SORA(世界天空)”以及“KENJA NO ISAN(聪明男人的遗产)”中的每个与输入声音“SEKAI ISAN(世界遗产)”(的声音识别结果)之间的相似度。

在正常模式下，分别地，包括输入声音“SEKAI ISAN(世界遗产)”的所有部分的搜索结果目标词语串“ZA SEKAI ISAN(该世界遗产)”的相似度是0.926，包括输入声音的一部分“SEKAI(世界)”的搜索结果目标词语串“SEKAI NO SORA(世界天空)”的相似度是0.500，并且包括输入声音的另一部分“ISAN(遗产)”的搜索结果目标词语串“KENJA NO ISAN(聪明男人的遗产)”的相似度是0.463。

从而，由于当各包括一部分输入声音的搜索结果目标词语串“SEKAI NO SORA(世界天空)”和搜索结果目标词语串“KENJA NOISAN(聪明男人的遗产)”相互比较时，搜索结果目标词语串“SEKAINO SORA(世界天空)”的相似度(0.500)大于搜索结果目标词语串“KENJANO ISAN(聪明男人的遗产)”的相似度(0.463)，与包括输入声音“SEKAI ISAN(世界遗产)”中的强调部分“ISAN(遗产)”的搜索结果目标词语串“KENJA NO ISAN(聪明男人的遗产)”相比，不包括输入声音“SEKAI ISAN(世界遗产)”中的强调部分“ISAN(遗产)”的搜索结果目标词语串“SEKAI NO SORA(世界天空)”更容易被获得作为用于输入声音“SEKAI ISAN(世界遗产)”的搜索结果词语串。

另一方面，在加权匹配模式下，分别地，包括输入声音“SEKAI ISAN(世界遗产)”的所有部分的搜索结果目标词语串“ZA SEKAI ISAN(该世界遗产)”的相似度是0.949，包括输入声音的一部分“SEKAI(世界)”的搜索结果目标词语串“SEKAI NO SORA(世界天空)”的相似度是0.378，并且包括输入声音的另一部分“ISAN(遗产)”的搜索结果目标词语串“KENJA NO ISAN(聪明男人的遗产)”的相似度是0.556。

从而，由于当各包括一部分输入声音的搜索结果目标词语串“SEKAI NO SORA(世界天空)”和搜索结果目标词语串“KENJA NOISAN(聪明男人的遗产)”相互比较时，搜索结果目标词语串“SEKAINO SORA(世界天空)”的相似度(0.378)小于搜索结果目标词语串“KENJA NO ISAN(聪明男人的遗产)”的相似度(0.556)，与不包括输入声音“SEKAI ISAN(世界遗产)”中的强调部分“ISAN(遗产)”的搜索结果目标词语串“SEKAI NO SORA(世界天空)”相比，包括输入声音“SEKAI ISAN(世界遗产)”中的强调部分“ISAN(遗产)”的搜索结果目标词语串“KENJA NO ISAN(聪明男人的遗产)”更容易地被获得作为用于输入声音“SEKAI ISAN(世界遗产)”的搜索结果词语串。

如上所述，在加权匹配模式下包括强调部分的搜索结果目标词语串的相似度大于在正常模式情况下的相似度，并且这种搜索结果目标词语串更容易被获得作为搜索结果词语串。

图22是示出当输入声音“SEKAI ISAN(世界遗产)”中的“ISAN(遗产)”被强调和发出时，在正常模式和在加权匹配模式下分别获得的搜索结果词语串的示意图。

在正常模式下，包括输入声音“SEKAI ISAN(世界遗产)”的所有部分的搜索结果目标词语串被获得作为搜索结果词语串，而基本相同数量的仅包括不作为输入声音“SEKAI ISAN(世界遗产)”中的强调部分的部分“SEKAI(世界)”的搜索结果目标词语串和仅包括作为输入声音“SEKAI ISAN(世界遗产)”中的强调部分“ISAN(遗产)”的搜索结果目标词语串被获得作为搜索结果词语串。

另一方面，在加权匹配模式下，包括输入声音“SEKAI ISAN(世界遗产)”的所有部分的搜索结果目标词语串以与正常模式下相同的方式被获得作为搜索结果词语串，而相比于正常模式下的搜索结果词语串，更多的仅包括输入声音“SEKAI ISAN(世界遗产)”中的强调部分“ISAN(遗产)”的搜索结果目标词语串被获得作为搜索结果词语串。

相反地，在加权匹配模式下，可以抑制作为搜索结果词语串的不包括强调部分“ISAN(遗产)”而包括作为输入声音“SEKAI ISAN(世界遗产)”中的非强调部分的“SEKAI(世界)”部分的搜索结果目标词语串的数量。

[应用本公开的计算机的描述]

接下来，上述系列处理可以通过硬件或软件执行。当该系列处理通过软件执行时，构成软件的程序安装在通用计算机等中。

从而，图23示出根据实施例的计算机的配置示例，在该计算机中安装执行上述系列处理的程序。

程序可以被预先记录在结合在计算机中的作为记录介质的硬盘105或ROM103中。

可替换地，程序可以被存储(记录)在可移动记录介质111中。这种可移动记录介质111可以被提供作为所谓的封装软件。在此，可移动记录介质111的示例包括软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字通用盘)、磁盘、半导体存储器等。

另外，程序可以从上述可移动记录介质111安装在计算机中，或者通过通信网络或广播网络下载到计算机中并且安装在内置硬盘105中。即，程序可以通过用于数字卫星广播的航天卫星以无线方式从下载站点转移到计算机，或者以有线方式通过网络(诸如，LAN(局域网)或互联网)转移到计算机。

计算机设置有内置CPU(中央处理单元)102，并且输入输出接口110通过总线101连接至CPU 102。

当用户经由输入输出接口110通过操作输入单元107等输入指令时，CPU 102基于指令执行存储在ROM(只读存储器)103中的程序。可替换地，CPU 102在RAM(随机存取存储器)104中加载存储在硬盘105中的程序并且执行该程序。

通过这种操作，CPU 102基于通过上述框图中所示的配置执行的上述流程或处理来执行处理。然后，当需要时，CPU 102使输出单元106通过输入输出接口110输出处理结果，使通信单元108发送处理结果，或者使硬盘105记录处理结果。

另外，输入单元107包括键盘、鼠标、麦克风等。输出单元106包括LCD(液晶显示器)、扬声器等。

在此，在本说明书中基于程序的计算机的处理不一定以流程图中描述的顺序的先后方式执行。即，基于程序的计算机的处理包括以并行方式或独立方式执行的处理(例如，并行处理或者针对每个对象的处理)。

可替换地，该程序的处理可以通过一个计算机(处理器)执行或者可以通过多个计算机分别执行。此外，该程序可以被转移到远程计算机并且在远程计算机中执行。

另外，本公开的实施例不限于上述实施例，可以在本公开的范围内作出多种修改。

即，例如，声音搜索装置10的处理中的一部分或全部都可以通过在LAN或网络上将必要数据发送至服务器代替执行。

本公开包括涉及于2010年5月25日提交到日本专利局的日本在先专利申请JP 2010-119767中公开的主题，其全部内容通过引用结合于此。

本领域技术人员应该明白，根据设计要求和其他因素可以出现多种修改、结合、子结合和替换，只要这些修改、结合、子结合和替换处于所附权利要求及其等同物的范围内。

Claims

1.一种搜索装置，包括：

声音识别单元，其识别输入声音；

用户信息估计单元，其基于所述输入声音来估计所述输入声音的说话者的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息；

匹配单元，其对于多个搜索结果目标词语串中的每个，在搜索结果目标发音符号串和识别结果发音符号串之间执行匹配，其中，所述搜索结果目标发音符号串是表示所述搜索结果目标词语串的发音的发音符号的序列，所述识别结果发音符号串是表示用于所述输入声音的声音识别结果的发音的发音符号的序列，所述多个搜索结果目标词语串是作为与所述输入声音对应的所述词语串的搜索结果的目标的词语串；以及

生成单元，其基于所述搜索结果目标发音符号串和所述识别结果发音符号串之间的匹配结果，从所述多个搜索结果目标词语串中生成搜索结果词语串，作为用于与所述输入声音对应的词语串的搜索结果，

其中，所述匹配单元和所述生成单元中的至少一个根据所述用户信息来改变处理。

2.根据权利要求1所述的装置，

其中，所述生成单元根据所述用户信息对所述搜索结果目标词语串进行排序以选择所述搜索结果词语串。

3.根据权利要求2所述的装置，

其中，所述用户信息估计单元估计所述说话者的性别，以及

其中，所述生成单元对所述搜索结果目标词语串进行排序，使得包括与所述用户信息所表示的所述说话者的性别相关的相关词语的所述搜索结果目标词语串按照排列顺序被定位。

4.根据权利要求2所述的装置，

其中，所述用户信息估计单元执行用于所述说话者的说话者指明，以估计所述说话者，以及

其中，所述生成单元对所述搜索结果目标词语串进行排序，使得包括与所述用户信息所表示的所述说话者相关的相关词语的所述搜索结果目标词语串按照排列顺序被定位。

5.根据权利要求1所述的装置，

其中，所述匹配单元在所述搜索结果目标发音符号串和添加了与所述用户信息相关的相关词语的所述识别结果发音符号串之间执行匹配。

6.根据权利要求5所述的装置，

其中，所述用户信息估计单元估计所述说话者的性别，以及

其中，所述匹配单元在所述搜索结果目标发音符号串和添加了与所述用户信息所表示的所述说话者的性别相关的相关词语的所述识别结果发音符号串之间执行匹配。

7.根据权利要求5所述的装置，

其中，所述匹配单元在所述搜索结果目标发音符号串和添加了与所述用户信息所表示的所述说话者相关的相关词语的所述识别结果发音符号串之间执行匹配。

8.根据权利要求1所述的装置，

其中，所述匹配单元通过根据用户信息给所述识别结果发音符号串的一部分加权，在所述搜索结果目标发音符号串和所述识别结果发音符号串之间执行匹配。

9.根据权利要求8所述的装置，

其中，所述用户信息估计单元估计所述输入声音的声音区段中的所述说话者强调和说出的强调区段，以及

其中，所述匹配单元通过给所述用户信息所表示的所述识别结果发音符号串中的所述强调区段中的发音符号加权，在所述搜索结果目标发音符号串和所述识别结果发音符号串之间执行匹配。

10.根据权利要求9所述的装置，

其中，所述用户信息估计单元基于所述输入声音的音调、功率、或说话速度来估计所述强调区段。

11.一种由搜索与输入声音对应的词语串的搜索装置进行的搜索方法，所述方法包括：

识别输入声音；

基于所述输入声音来估计所述输入声音的说话者的身体状态和情感行为中的至少一个，并且输出表示估计结果的用户信息；

对于多个搜索结果目标词语串中的每个，在搜索结果目标发音符号串和识别结果发音符号串之间执行匹配，其中，所述搜索结果目标发音符号串是表示所述搜索结果目标词语串的发音的发音符号的序列，所述识别结果发音符号串是表示用于所述输入声音的声音识别结果的发音的发音符号的序列，所述多个搜索结果目标词语串是作为与所述输入声音对应的所述词语串的搜索结果的目标的词语串；以及

基于所述搜索结果目标发音符号串和所述识别结果发音符号串之间的匹配结果，从所述多个搜索结果目标词语串中生成搜索结果词语串，作为用于与所述输入声音对应的词语串的搜索结果，

其中，在执行匹配和生成所述搜索结果词语串中的至少一个期间，根据所述用户信息来改变处理。

12.一种使计算机执行以下功能的程序：

声音识别单元，其识别输入声音；