CN101770507A - 数据处理设备、数据处理方法和程序 - Google Patents

数据处理设备、数据处理方法和程序 Download PDF

Info

Publication number
CN101770507A
CN101770507A CN200910261124A CN200910261124A CN101770507A CN 101770507 A CN101770507 A CN 101770507A CN 200910261124 A CN200910261124 A CN 200910261124A CN 200910261124 A CN200910261124 A CN 200910261124A CN 101770507 A CN101770507 A CN 101770507A
Authority
CN
China
Prior art keywords
words
content
data
metadata
relevant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910261124A
Other languages
English (en)
Inventor
浅野康治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101770507A publication Critical patent/CN101770507A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/775Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/907Television signal recording using static stores, e.g. storage tubes or semiconductor memories

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了数据处理设备、数据处理方法和程序。该数据处理设备包括:语音识别单元,被配置来对语音数据执行连续语音识别;相关字词获取单元,被配置来获取与通过连续语音识别而获得的至少一个字词相关的字词,作为与对应于包括语音数据的内容数据的内容相关的相关字词;以及语音检索单元,被配置来从语音数据检索相关字词的话语来获取已检索出话语的相关字词作为内容的元数据。

Description

数据处理设备、数据处理方法和程序
技术领域
本发明涉及数据处理设备、数据处理方法和程序。更具体而言,本发明涉及被配置来辅助获取例如语音或图像内容的元数据的数据处理设备、数据处理方法和程序。
背景技术
为了从繁多的电视广播节目的内容中推荐期望内容,例如用户感兴趣的内容,必须检索该期望内容。为了实现内容检索,必须预先向内容指派元数据。
语音识别技术已被考虑来作为向内容指派元数据的方法。
具体而言,在内容包括语音(例如电视广播节目)并且内容的内容数据包括语音数据的情形中,可对语音数据进行语音识别,通过语音识别获得的字词(word)可用作该内容的元数据。
然而,即使在利用能够识别大量字词的大词汇连续语音识别***执行语音识别的情形中,通过语音识别可获得的字词也限于预先登记在该***用于语音识别的字典中的那些。
因此,难以获得尚未被登记在字典中的字词(下文称作“未登记字词”)用作元数据。
未登记字词包括最近变得被频繁使用的新近出现的字词(下文称作“新字词”)和诸如不太出名的地点的名称之类的固有名称(propername)。
为了获得这种新字词和固有名称作为元数据,必须将这些未登记字词作为识别目标字词登记到字典中。
然而,将包括新字词和固有名称的未登记字词登记到字典中来增大识别目标字词的数目的作法也导致了执行语音识别过程必需的时间的延长和语音识别的精度降低。
为了提高短话语(utterance)中的字词的识别率,提出了一种执行连续语音识别的方法,在该方法中从要识别的语集(corpus)生成连续语音识别字典,还在考虑到该连续语音识别字典的情况下生成用于提高对未登记字词的识别的补充识别字典,然后使用该连续语音识别字典和补充识别字典二者来执行连续语音识别(例如参见日本未实审专利申请No.2008-242059)。
发明内容
可以通过使用语音检索技术来获得元数据,在该技术中在语音数据中搜索特定字词的话语,并且检测出该特定字词的话语发生的定时(时间)。
具体而言,在语音检索中,可以在语音数据中搜索作为内容的元数据的字词的话语,并且可以获得其话语被包括在该语音数据中的字词作为该内容的元数据。
然而,存在大量的需要作为内容的元数据而获得的字词。如果要检索这样大量的字词,语音检索将花费可观的时间量,导致难以获取元数据。
考虑到前述问题,期望提供一种能辅助获取元数据的技术。
根据本发明的实施例,提供了一种数据处理设备,该数据处理设备包括:语音识别单元,被配置来对语音数据执行连续语音识别;相关字词获取单元,被配置来获取与通过连续语音识别而获得的至少一个字词相关的字词,作为与对应于包括语音数据的内容数据的内容相关的相关字词;以及语音检索单元,被配置来从语音数据检索相关字词的话语来获取已检索出话语的相关字词作为内容的元数据。根据本发明另一个实施例,提供了一种用于使计算机充当该数据处理设备的程序。
根据本发明又一个实施例,提供了一种数据处理方法,该方法包括以下步骤:对语音数据执行连续语音识别;获取与通过连续语音识别而获得的至少一个字词相关的字词,作为与对应于包括语音数据的内容数据的内容相关的相关字词;以及从语音数据检索相关字词的话语来获取已检索出话语的相关字词作为内容的元数据;所述步骤由数据处理设备执行。
在本发明的上述实施例中,对语音数据执行连续语音识别,并且获取与通过连续语音识别而获得的至少一个字词相关的任意字词,作为与对应于包括该语音数据的内容数据的内容相关的相关字词。然后,在该语音数据中搜索该相关字词的话语,并且获得已检索到其话语的相关字词作为该内容的元数据。
注意,该数据处理设备可以是独立的设备,或者可以是一个设备中包括的内部模块。
此外,程序可以提供为通过发送介质发送的程序或者记录在记录介质上的程序。
根据本发明的上述实施例,可以容易地获取元数据。
附图说明
图1是示出了本发明被应用到的记录器的第一实施例的配置示例的框图;
图2是示出了元数据收集过程的流程图;
图3是示出了再现过程的流程图;
图4是示出了本发明被应用到的记录器的第二实施例的配置示例的框图;
图5示出了利用矢量空间方法的话题估计方法;
图6A和6B示出了“tf”和“idf”;
图7是示出了元数据收集方法的另一个流程图;以及
图8是示出了本发明被应用到的计算机的实施例的配置示例的框图。
具体实施方式
<第一实施例>
[本发明被应用到的记录器的第一实施例的配置示例]
图1是示出了本发明被应用到的记录器的第一实施例的配置示例的框图。
参考图1,该记录器例如是硬盘(HD)记录器,并且包括:内容获取单元11、内容保留单元12、元数据收集单元20、再现单元30和输入/输出单元40。
内容获取单元11获取例如组成电视广播节目的图像和语音内容的内容数据,并将该内容数据提供给内容保留单元12。
在内容数据伴有与该内容数据相对应的内容的元数据的情形中,内容获取单元11还获取该元数据并将其提供给内容保留单元12。
具体而言,内容获取单元11可以是调谐器,该调谐器接收诸如数字电视广播之类的电视广播中的广播数据。内容获取单元11接收从广播电台(未示出)发送(广播)来的广播数据,并将所获取的数据提供给内容保留单元12。
在这里,广播数据包括作为内容或节目的数据的内容数据。广播数据还可适当地包括节目的元数据(即,指派给节目(内容)的元数据),例如电子节目指南(EPG)数据。
尽管作为节目的数据的内容数据可以包括节目的图像数据和与该图像数据相伴的语音数据,但是要由内容获取单元11获取的内容数据仅必须包括至少语音数据,例如音乐数据。
注意,内容获取单元11可包括通信接口(I/F),该通信接口经由诸如局域网(LAN)或因特网之类的网络来执行通信。在该情形中,内容获取单元11接收并获取从网络上的服务器发送来的内容数据和元数据。
内容保留单元12可配置有大容量记录(存储)介质,例如硬盘(HD)。必要的话内容保留单元12记录(或者存储或保留)从内容获取单元11提供来的内容数据。
在诸如EPG数据之类的内容(节目)的元数据被从内容获取单元11提供到内容保留单元12的情形中,内容保留单元12还记录该元数据。
注意,将内容数据记录到内容保留单元12中对应于“记录”(包括编程记录和所谓的“自动记录”)。
元数据收集单元20充当数据处理设备,该数据处理设备收集其内容数据已被记录在内容保留单元12中的内容的元数据。
具体而言,元数据收集单元20由语音数据获取单元21、语音识别单元22、相关字词获取单元23、语音检索单元24、元数据获取单元25和元数据存储单元26构成。
语音数据获取单元21通过从内容保留单元12读取多个内容项(这些内容项的内容数据已被记录在内容保留单元12中)中的正关注的感兴趣的内容的内容数据中所包括的语音数据,来获取该语音数据。语音数据获取单元21将所获取的语音数据提供给语音识别单元22和语音检索单元24。
语音识别单元22可以具有执行可识别大量字词的大词汇连续语音识别的功能。语音识别单元22对从语音数据获取单元21提供来的语音数据执行(连续)语音识别。
此外,语音识别单元22将至少一个所获得的字词(字串)作为语音识别的结果提供给相关字词获取单元23和元数据存储单元26。
在这里,语音识别单元22中结合有字典,并且利用登记在该字典中的字词作为识别目标字词来执行语音识别。因此,语音识别单元22通过语音识别获得的字词是登记在该字典中的字词。
相关字词获取单元23获取与从语音识别单元22提供来的通过语音识别获得的字词相关的任何字词,作为与感兴趣的内容相关的相关字词。相关字词获取单元23将所获取的相关字词提供给语音检索单元24。
例如,相关字词获取单元23可以利用辞典来获取含义与通过语音识别所获得的字词的含义接近的字词作为相关字词。
或者,相关字词获取单元23可以使用关于字词同时出现的概率的数据来获取可能与通过语音识别所获得的字词一起出现的字词,即,与通过语音识别所获得的字词同时出现的概率不低于一预定阈值的字词作为相关字词。
该辞典或同时出现概率数据可以作为静态数据存储在相关字词获取单元23中。
此外,相关字词获取单元23还可从网络上的服务器获取相关字词(或者用于获取相关字词的信息)。
具体而言,相关字词获取单元23可以执行抓取(crawling)来从网络上的服务器收集信息,并且使用所收集的信息来更新该辞典或同时出现概率数据。然后,相关字词获取单元23可以使用更新后的辞典或同时出现概率数据来获取相关字词。
为了更新辞典,可以向辞典添加字词,或者可以更新该辞典中的字词之间的联接(关系)。为了更新同时出现概率数据,可以向同时出现概率数据添加字词,或者可以更新同时出现概率的值。
如上所述,相关字词获取单元23能够从网络上的服务器获取相关字词。这允许获取未被登记在语音识别单元22中结合的字典中的字词(例如最近变得频繁使用的新字词或固有名称)作为相关字词。
语音检索单元24在从语音数据获取单元21提供来的语音数据中搜索从相关字词获取单元23提供来的相关字词的话语。随后语音检索单元24获取已找到其话语的相关字词作为感兴趣内容(即,与包括从语音数据获取单元21提供来的语音数据的内容数据相对应的内容)的元数据。语音检索单元24将所获取的元数据提供给元数据存储单元26。
在感兴趣内容的元数据被记录在内容保留单元12中的情形中,元数据获取单元25通过从内容保留单元12读取感兴趣内容的元数据来获取元数据,并将所获取的元数据提供给元数据存储单元26。
元数据存储单元26存储作为语音识别的结果从语音识别单元22提供来的字词,作为感兴趣内容的元数据。
元数据存储单元26还存储从语音检索单元24和元数据获取单元25提供来的感兴趣内容的元数据。
在这里,在元数据存储单元26存储的元数据中,作为语音识别的结果从语音识别单元22提供来的字词也称作“识别结果元数据”。
此外,在元数据存储单元26存储的元数据中,从语音检索单元24提供来的元数据也称作“检索结果元数据”。
另外,在元数据存储单元26存储的元数据中,从元数据获取单元25提供来的元数据(即,(预先)指派给感兴趣内容的元数据)也称作“预指派元数据”。
注意,在元数据收集单元20中,元数据存储单元26被配置来存储作为语音识别的结果从语音识别单元22提供来的所有字词,作为感兴趣内容的元数据。或者,元数据存储单元26可被配置来仅存储必要的字词作为感兴趣内容的元数据。
具体而言,登记在语音识别单元22中结合的字典中的每个字词可以被施加以一个标志,该标志例如指示是否将该字词存储为元数据。在该情形中,在作为语音识别的结果从语音识别单元22提供来的字词中,元数据存储单元26可以仅将施加有指示该字词应当被存储为元数据的标志的字词存储为感兴趣内容的元数据。
此外,在元数据收集单元20中,相关字词获取单元23可被配置来获取以下字词作为相关字词:与作为语音识别的结果从语音识别单元22提供来的字词相关的字词,以及与作为预指派元数据存储在元数据存储单元26中的字词相关的字词。
具体而言,例如在存储在元数据存储单元26中的预指派元数据包括固有名称的情形中,相关字词获取单元23可获取与该固有名称相关的固有名称等作为相关字词。
更具体而言,例如假设感兴趣内容是TV戏剧节目,并且预指派元数据包括作为感兴趣内容的TV戏剧节目中出现的演员的姓名。在该情形中,可以获取先前曾与该演员一起表演过的演员的姓名和该演员曾在其中扮演过角色的其他TV节目的标题作为相关字词。可以例如从提供TV节目的信息的web服务器获取这些演员的姓名和TV节目的标题作为相关字词。
此外,在元数据收集单元20中,相关字词获取单元23可被配置来从与语音识别单元22通过语音识别获得的字词相关的字词中仅获取除应当在语音识别过程中被识别的字词之外的字词来作为相关字词。
具体而言,在某个字词A是相关字词并且语音检索单元24已从语音数据检索到了该相关字词A的话语的情形中,该相关字词A作为感兴趣内容的元数据被存储到元数据存储单元26中。
同时,如果该字词A是识别目标字词,即,如果字词A已登记在语音识别单元22中结合的字典中,则假如在语音识别单元22中已成功执行了语音识别,那么该字词A可以作为识别结果元数据而被存储到元数据存储单元26中。
因此,在该情形中,语音检索单元24不必从语音数据检索字词A作为相关字词,因为字词A(是识别目标字词)将作为识别结果元数据被存储在元数据存储单元26中。
相关字词获取单元23被配置来仅获取除应当被语音识别单元22识别的字词之外的字词来作为相关字词。即,相关字词获取单元23被配置为不获取语音识别的目标字词作为相关字词。这可以减少成为语音检索单元24执行的语音检索的目标字词的相关字词的数目,从而可以确保语音检索单元24的语音检索的快速处理。
注意,在元数据收集单元20中,元数据存储单元26被配置来与已记录在内容保留单元12中的感兴趣内容的内容数据相关联地存储该感兴趣内容的元数据。例如,元数据存储单元26可以一同存储感兴趣内容的元数据和用于标识该感兴趣内容的标识信息。
此外,当已在感兴趣内容的语音数据中找到了相关字词的话语时,必要的话,元数据存储单元26可以与作为该相关字词的元数据相关联地存储指示该相关字词的话语在语音数据中的定时的定时信息。
即,在该情形中,语音检索单元24获取在语音数据中已找到了话语的相关字词来作为元数据,并且还检测该相关字词的话语在该语音数据中的定时。语音检索单元24随后将作为元数据的该相关字词与指示该相关字词的话语的定时的定时信息一起提供给元数据存储单元26。
作为响应,元数据存储单元26彼此相关联地存储从语音检索单元24提供来的作为元数据的该相关字词及其定时信息。
在这里,对于指示相关字词的话语在语音数据中的定时的定时信息,可以采用相对于语音数据的开头(即,与包括该语音数据的内容数据相对应的内容的开头)的时间(例如时间码)。
再现单元30充当再现内容保留单元12中记录的内容数据的数据处理设备。
具体而言,再现单元30包括元数据检索单元31、内容推荐单元32和再现控制单元33。
在用户操作操作单元41(稍后将描述)来输入用于检索内容的关键字的情形中,元数据检索单元31搜索与该输入关键字匹配或类似的元数据。关键字可以例如是用户感兴趣的演员的姓名。
具体而言,元数据检索单元31从存储在元数据存储单元26中的元数据中检索与已通过操作单元41的用户操作输入的关键字匹配或类似的元数据。
此外,元数据检索单元31还向内容推荐单元32提供标识信息,该标识信息用于标识对应于与下述元数据相关联的内容数据的内容:所述元数据是元数据存储单元26中的与关键字匹配或类似的元数据(下文也称作“匹配元数据”)。
内容推荐单元32将由从元数据检索单元31接收到的标识信息所标识出的内容作为要推荐给观众/听众的推荐内容,并且生成推荐内容的标题的列表。内容推荐单元32随后通过输出控制单元42使该推荐内容的标题的列表显示在显示设备50(例如,电视接收机(TV机))上,以便推荐对推荐内容的观看/收听。
此外,在用户操作操作单元41来从显示在显示设备50上的标题列表中选择要再现的推荐内容的标题时,内容推荐单元32向再现控制单元33发送对作为要再现的内容的该标题的推荐内容的指定。
在接收到来自内容推荐单元32的对要再现的内容的指定后,再现控制单元33从内容保留单元12读取该要再现的内容数据以进行再现。
具体而言,再现控制单元33对要再现的内容的内容数据执行解码和其他必要的处理,并经由输出控制单元42将结果数据提供给显示设备50。
结果,在显示设备50中,与要再现的内容的内容数据中包括的图像数据相对应的图像被显示在显示屏幕上,并且与该内容数据中包括的语音数据相对应的声音被从内建扬声器等输出。
输入/输出单元40充当用于执行该记录器的必要的输入/输出操作的接口。
具体而言,输入/输出单元40由操作单元41和输出控制单元42构成。
操作单元41可以是由用户操作的键盘(具有键和按钮)或遥控器。操作单元41将与用户操作相对应的信号适当地提供(输入)到各个模块。
输出控制单元42控制到诸如显示设备50之类的外部设备的数据输出。具体而言,输出控制单元42可以向显示设备50输出由内容推荐单元32生成的推荐内容的标题的列表和要由再现控制单元33再现的内容的内容数据。
[对元数据收集过程的描述]
图1中示出的记录器执行用于收集内容的元数据的元数据收集过程。
下面将参考图2描述元数据收集过程。
这里假设至少一个内容项的内容数据已被记录在内容保留单元12中。
该元数据收集过程开始于任意时刻。在步骤S11中,元数据收集单元20从内容数据已被记录在内容保留单元12中的内容数据项中选择要收集其元数据的内容(和其元数据还未被收集的内容)作为关注的感兴趣内容。
过程随后从步骤S11前进到步骤S12,在该步骤中元数据获取单元25判断感兴趣内容的元数据是否已被记录在内容保留单元12中。
如果在步骤S12中判断感兴趣内容的元数据被记录在内容保留单元12中,则过程前进到步骤S13,在该步骤中元数据获取单元25从内容保留单元12获取感兴趣内容的元数据。此外,元数据获取单元25将感兴趣内容的元数据作为预指派元数据提供给元数据存储单元26,使元数据存储单元26将该元数据与感兴趣内容的内容数据相关联地存储。过程随后从步骤S13前进到步骤S14。
如果在步骤S12中判断感兴趣内容的元数据未被记录在内容保留单元12中,则过程跳过步骤S13,前进到步骤S14。
在步骤S14中,语音数据获取单元21从内容保留单元12获取感兴趣内容的内容数据中包括的语音数据(语音波形的数据),并将所获取的数据提供给语音识别单元22和语音检索单元24。过程随后前进到步骤S15。
在步骤S15中,语音识别单元22对从语音数据获取单元21接收到的语音数据执行语音识别,并将作为语音识别的结果获得的至少一个字词(字串)提供给相关字词获取单元23和元数据存储单元26。过程随后前进到步骤S16。
在这里,在作为语音识别的结果接收到来自语音识别单元22的字词时,必要的话元数据存储单元26将接收到的字词作为识别结果元数据与感兴趣内容的内容数据相关联地存储。
此外,为了执行语音识别,语音识别单元22使用例如隐式Markov模型(HMM)作为声学模型,并且使用N-gram或其他统计语言模型作为语言模型。
在步骤S16中,相关字词获取单元23获取与作为语音识别的结果从语音识别单元22提供来的字词相关的任何字词作为相关字词。
相关字词不仅可包括与通过语音识别获得的字词相关的字词,还可包括与在步骤S13中存储在元数据存储单元26中的感兴趣内容的预指派元数据中包括的字词相关的字词。
此外,例如在用户简档已被登记在图1中示出的记录器等中的情形中,相关字词获取单元23可以根据该简档来估计用户可能感兴趣的对象,并获取代表该对象或者与该对象相关的字词。在该情形中,相关字词获取单元23可以将与用户感兴趣的对象相关的字词作为相关字词。
一旦获取了相关字词,相关字词获取单元23就可以生成在其中登记了相关字词的字词列表,并将该字词列表提供给语音检索单元24。过程随后从步骤S16前进到步骤S17。
在步骤S17中,语音检索单元24判断从相关字词获取单元23提供来的字词列表中是否登记有任何相关字词。
如果在步骤S17中判断至少一个相关字词被登记在该字词列表中,则过程前进到步骤S18,在该步骤中语音检索单元24选择登记在字词列表中的相关字词之一作为所关注的感兴趣字词。过程随后前进到步骤S19。
在步骤S19中,语音检索单元24执行语音检索来从自语音数据获取单元21提供来的感兴趣内容的语音数据中检索出该感兴趣字词的话语,随后过程前进到步骤S20。
在之类,从语音数据检索感兴趣字词的话语的语音检索可利用所谓的“关键字测定位点”来执行,或者可以下面的方式执行。对于从语音数据获取单元21提供到语音检索单元24的语音数据,可以生成代表音素的指标(index)和音素在语音数据中的位置,并且可从所述指标检索构成该感兴趣字词的音素的序列。
在步骤S20中,语音检索单元24基于步骤S19中执行的语音检索的结果,来判断感兴趣字词的话语(即,感兴趣字词的话语的语音数据)是否被包括在感兴趣内容的语音数据中。
如果在步骤S20中判断感兴趣内容的语音数据包括感兴趣字词的话语,则过程前进到步骤S21。
在步骤S21中,语音检索单元24将感兴趣字词作为检索结果元数据提供给元数据存储单元26,使元数据存储单元26将该元数据与感兴趣内容的内容数据相关联地存储。过程随后前进到步骤S22。
在这里,在语音检索单元24中,在对感兴趣字词的语音检索时可检测出感兴趣字词的话语在语音数据中的定时,并且指示该定时的定时信息可与作为感兴趣字词的检索结果元数据一起被提供给元数据存储单元26。
在该情形中,元数据存储单元26与感兴趣内容的内容数据相关联地存储从语音检索单元24提供来的检索结果元数据和定时信息。
另一方面,如果在步骤S20中判断感兴趣内容的语音数据不包括感兴趣字词的话语,则过程跳过步骤S21前进到步骤S22。
在步骤S22中,语音检索单元24从字词列表中删除该感兴趣字词,并且过程返回到步骤S17来重复类似的过程。
随后,如果在步骤S17中判断没有相关字词被登记在字词列表中,则该元数据收集过程结束。
如上所述,在该元数据收集过程中,在语音识别单元22中对感兴趣内容的语音数据执行语音识别(连续语音识别),并且在相关字词获取单元23中,获取与通过语音识别获得的至少一个字词相关的任意字词作为相关字词。随后,在语音检索单元24中,在感兴趣内容的语音数据中搜索相关字词的话语,并且获取找到了其话语的相关字词作为感兴趣内容的元数据。
因此,在语音检索单元24中,与通过语音识别获得的至少一个字词相关的字词被作为相关字词,并被用作检索(语音检索)的目标字词。由于语音检索的目标字词如上所述被限制到相关字词,因此与对希望获取来作为内容的元数据的所有字词执行语音检索的情形相比,可以在较短的时间段中执行语音检索过程。
结果,可以高效容易地获取内容的元数据。此外,即使不是语音识别的目标字词的字词也可被获取作为元数据。
此外,例如在相关字词获取单元23被配置来从诸如因特网之类的网络上的服务器获取相关字词的情形中,可以从逐日更新所存储的信息的服务器上的web页面获取新出现的字词(新字词)和固有名称来作为相关字词。因此,可以容易地获取这种新字词和固有名称作为元数据。
[对再现过程的描述]
除了元数据收集过程之外,图1中示出的记录器还执行再现过程,在再现过程中,利用在元数据收集过程中收集的元数据对内容进行推荐和再现。
现在将结合图3来描述该再现过程。
在这里假设元数据收集过程已执行完毕,并且元数据存储单元26存储了其内容数据被记录在内容保留单元12中的至少一个内容项的元数据。
在再现过程中,首先在步骤S41中,元数据检索单元31判断是否已输入了关键字。
如果在步骤S41中判断尚未输入关键字,则过程返回到步骤S41。
如果在步骤S41中判断已输入了关键字,即,在用户已通过操作操作单元41输入了关键字时,过程前进到步骤S42。
在该示例中,关键字是通过操作单元41的用户操作输入的。或者,例如在用户简档已被登记在图1中示出的记录器等中的情形中,可以使用该简档来输入关键字。即,可以根据用户简档来估计用户感兴趣的对象,从而可以输入代表该对象的字词等作为关键字。
在步骤S42中,元数据检索单元31在存储在元数据存储单元26中的元数据中搜索与通过操作单元41的用户操作输入的关键字匹配或类似的元数据(匹配元数据)。过程随后前进到步骤S43。
在步骤S43中,元数据检索单元31检测与匹配元数据相关联的内容数据(其中匹配元数据与通过步骤S42中的检索获得的关键字匹配或类似),并将用于标识与检测出的内容数据相对应的内容的标识信息提供给内容推荐单元32。
过程随后从步骤S43前进到步骤S44,在步骤S44中内容推荐单元32将从元数据检索单元31接收到的标识信息所标识出的内容作为推荐内容推荐,然后过程前进到步骤S45。
具体而言,内容推荐单元32生成推荐内容的标题的列表,并将该列表提供给输出控制单元42。
作为响应,输出控制单元42将从内容推荐单元32接收到的标题列表提供给显示设备50进行显示。
在步骤S45中,再现控制单元33判断是否指定了要被再现的内容。
如果在步骤S45中判断已指定了要被再现的内容,即,在用户已操作了操作单元41来从在显示设备50上显示的标题的列表中选择要再现的推荐内容的标题,并且内容推荐单元32已响应于操作单元41的用户操作而指示再现控制单元33再现由用户选择的标题的推荐内容的情形中,过程前进到步骤S46。在步骤S46中,再现控制单元33通过从内容保留单元12读取要再现内容的内容数据来再现该内容。
具体而言,再现控制单元33对要再现的内容的内容数据执行解码和其他必要的处理,并将结果数据提供给输出控制单元42。输出控制单元42从再现控制单元33接收内容数据,并将该数据提供给显示设备50。因此,在显示设备50中,显示与要再现的内容的内容数据中包括的图像数据相对应的图像,并且同时输出与该内容数据中包括的语音数据相对应的声音。
此后,例如在完成了对要再现的内容的所有内容数据的再现时,再现过程结束。
另一方面,如果在步骤S45中判断尚未指定要再现的内容,则过程前进到步骤S47,在该步骤中元数据检索单元31判断操作单元41是否已***作来请求重新输入关键字。
如果在步骤S47中判断操作单元41已***作来请求重新输入关键字,则过程返回到步骤S41,重复类似的过程。
如果在步骤S47中判断没有操作操作单元41来请求重新输入关键字,则过程前进到步骤S48,在该步骤中元数据检索单元31判断操作单元41是否***作来终止再现过程。
如果在步骤S48中判断操作单元41尚未***作来终止再现过程,则过程返回到步骤S45,重复类似的过程。
如果在步骤S48中判断操作单元41已***作来终止再现过程,则终止再现过程。
如上所述,根据元数据收集过程,可以获取诸如新字词和固有名称之类的不是语音识别的目标字词的字词作为元数据。此外,根据利用这种元数据执行的再现过程,可以正确地(精确地)检索、推荐和再现用户感兴趣的内容。
<第二实施例>
[本发明被应用到的记录器的第二实施例的配置示例]
图4是示出了本发明被应用到的记录器的第二实施例的配置示例。
在图4中,与图1中的部分相对应的部分由类似的标号标注,并且适当的话将不重复对它们的描述。
图4中示出的记录器在配置方面与图1中示出的记录器相同,只是向元数据收集单元20添加了话题估计单元61。
话题估计单元61从语音识别单元22接收作为语音识别的结果而获得的至少一个字词。
话题估计单元61基于作为语音识别的结果从语音识别单元22提供来的至少一个字词,来估计与感兴趣内容的语音数据相对应的语音的主旨的话题。话题估计单元61将估计出的话题提供给相关字词获取单元23,作为感兴趣内容的话题。
具体而言,话题估计单元61估计与通过语音识别而获得的至少一个字词(字串)类似的句子(文本)的话题,作为感兴趣内容的话题。
在该情形中,相关字词获取单元23获取与从话题估计单元61提供来的感兴趣内容的话题相关的任意字词作为相关字词。
话题估计单元61不仅可以基于作为语音识别的结果从语音识别单元22提供来的字词,而且可以基于存储在元数据存储单元26中的预指派元数据中包括的字词(其例如包括诸如EPG数据中包括的演员的名称和节目标题之类的固有名称和构成介绍节目大意的文本的字词)来估计感兴趣内容的字词。
此外,在图4中,相关字词获取单元23所获取的相关字词不限于与感兴趣内容的话题相关的字词。如在图1的情形中一样,相关字词获取单元23还可以获取与存储在元数据存储单元26中的预指派元数据中包括的字词相关的字词作为相关字词。
注意,相关字词获取单元23可以预先生成与各种话题相关的字词列表来作为话题相关字词列表。在该情形中,相关字词获取单元23可以获取登记在话题相关字词列表中的与感兴趣内容的话题相对应的字词作为相关字词。
话题相关字词列表可以作为静态数据被存储在相关字词获取单元23中。
此外,相关字词获取单元23还可从网络上的服务器获取相关字词(和用于获得相关字词的信息)。
具体而言,相关字词获取单元23可以执行抓取来从网络上收集诸如构成网页的文本(句子)之类的信息,并且使用该信息来更新话题相关字词列表。随后,相关字词获取单元23可以使用更新后的话题相关字词列表来获得相关字词。
在这里,在更新话题相关字词列表时,登记在该话题相关字词列表中的字词可以被更新(修改)成以下字词:在通过抓取从网络收集的句子中的、与该话题相关字词列表相对应的话题的句子中,出现的次数不小于一预定阈值的字词,或者在出现次数方面排名较高的字词。
如上所述,在相关字词获取单元23中,从网络上的服务器获取相关字词(登记在话题相关字词列表中)。这使得可以获取未登记在语音识别单元22中结合的字典中的字词(包括最近变得频繁使用的新字词和固有名称)作为相关字词。
[对话题估计方法的描述]
下文将描述由图4中示出的话题估计单元61执行的估计感兴趣内容的话题的方法。
可通过利用了所谓的话题模型的方法来估计话题,话题模型例如是概率性潜在语义分析(PLSA)或者潜在狄利克雷(Dirichlet)分配(LDA)。
或者,可通过利用矢量空间方法的方法来估计话题,在矢量空间方法中,基于构成句子的字词来用矢量表达每个句子(字词串),并且使用矢量来获得要估计其话题的句子(“下文称作“输入句子””)和已知其话题的句子(下文也称作“示例句子”)之间的余弦距离。
现在将参考图5来描述利用矢量空间方法的话题估计方法。
根据矢量空间方法,每个句子(字词串)用一个矢量表达,并且获得由句子的矢量形成的夹角(余弦距离)作为句子之间的相似度或者句子之间的距离。
更具体而言,在矢量空间方法中,准备了话题已知的句子(示例句子)的数据库(下文也称作“示例句子数据库”)。
在图5中示例句子数据库存储从#1到#K的K个示例句子,并且在从#1到#K的K个示例句子中出现的字词中,采用被彼此不同表达的M个字词作为矢量的元素。
在该情形中,如图5所示,该示例句子数据库中存储的每个示例句子可由M维矢量表达,这M维矢量具有M个字词#1、#2、...、#M作为其元素。
对于与代表示例句子的矢量中的字词#m(m=1、2、…、M)相对应的元素值,可以例如采用字词#m在该示例句子中出现的次数。
与在示例句子的情形中一样,输入句子也可以用M维矢量表达。
参考图5,当代表某一示例句子#k(k=1、2、…、K)的矢量被表达为xk,代表输入句子的矢量为y,并且矢量xk和y形成的夹角为θk时,可根据下式(1)获得余弦cosθk
cosθk=xk·y/(|xk||y|)...(1)
在式(1)中,“·”表示内积,而“|z|”表示矢量z的模。
当矢量xk和y在同一方向上时cosθk取最大值“1”,而当矢量xk和y在相反方向上时cosθk取最小值“-1”。在这里,输入句子的矢量y和矢量句子#k的矢量xk的元素取值“0”或更大,因此矢量xk和y的cosθk的最小值为“0”。
在矢量空间方法中,针对每个示例句子#k计算cosθk作为分数,并且例如获得具有最大分数的示例句子#k作为与输入句子最相似的示例句子。
话题估计单元61使用在语音识别单元22中通过语音识别获得的至少一个字词串来作为输入句子,并获得与输入句子最相似的示例句子。话题估计单元61随后获得与输入句子最相似的示例句子的话题作为估计感兴趣内容的话题的结果。
在图5中,采用了字词在句子中出现的次数作为代表该输入或示例句子的矢量中的元素的值。字词的这种出现次数称作“词频(term frequency,tf)”。
一半来说,在使用“tf”作为矢量中的元素值时,分数倾向于受出现频率较高的字词的影响。此外,在日语中,助词和助动词倾向于具有较高的出现频率。因此,在使用“tf”作为矢量中的元素的值的情形中,所获得的分数将受到输入或示例句子中包括的助词和助动词的较大影响。
作为减少出现频率较高的字词的影响的方法,可以使用“逆文档频率(idf)”或者作为“tf”和“idf”的组合的“TF-IDF”替换“tf”来作为矢量中的元素的值。
在文本的总数(通过将示例句子和输入句子的数目加总获得的)表示为“N”,并且这N个文本中包括字词ti(矢量中的第i个元素)的文本的数目表示为“dfi”时,则字词ti的“idf”可例如由下式(2)表示。
idf=log2(N/dfi)...(2)
根据式(2),在某一文本中频繁出现的字词(即,被认为代表了该文本的主旨(话题)的字词)具有较大的“idf”值,而在多个文本中均匀出现的字词(一般是助词和助动词)每个都具有较小的“idf”值。
图6A和6B示出了“tf”和“idf”。
注意,图6A和6B示出了来自Jin等的、由Iwanami Shoten出版的“GENGO TO SHINRI NO TOUKEI;KOTOBA TO KOUDOU NOKAKURITSU MODERU NIYORU BUNSEKI”的摘录。
图6A示出了一个文本集合。
在图6A中,为了简化说明,该文本集合包括两个文本:文本#1:″Agrand slam homer smashed in the last inning has reversed the game.″和文本#2:″Power relationship between the ruling and opposition parties has been reversedin the Diet.″。
图6B针对图6A中示出的文本集合示出了字词“love”、“reversed”、“Diet”和“homer”中的每个的“tf”和“idf”。
在图6B中,用逗号隔开了“tf”和“idf”,以示为“tf,idf”的形式。
注意,作为“tf”和“idf”的组合的“TF-IDF”例如由下面的式(3)表达。
Wi,j=tfi,j/maxk{tfk,j}×log2(N/dfi)...(3)
在式(3)中,“Wi,j”表示文本#j中的字词ti的“TF-IDF”,“tfi,j”表示文本#j中字词ti出现的频率,而“maxk{tfk,j}”表示文本#j中出现的字词中具有最大出现频率的字词tk的出现频率。此外,“N”表示文本总数(通过将示例句子和输入句子的数目加总获得的),而“dfi”表示这N个文本中包括第i个字词ti的文本的数目。
[对元数据收集过程的描述]
参考图7,将描述在图4中示出的记录器中执行的元数据收集过程。
图7中示出的元数据收集过程中的步骤S61至S65分别与图2中示出的步骤S11至S15相同。
在作为在步骤S65中语音识别单元22对从语音数据获取单元21提供来的感兴趣内容的语音数据执行的语音识别的结果而获得了至少一个字词(字串)时,该通过语音识别获得的至少一个字词作为识别结果元数据被提供给元数据存储单元26以进行存储,并且还被提供给话题估计单元61。
此后,过程从步骤S65前进到步骤S66,在步骤S66中话题估计单元61估计与作为语音识别的结果从语音识别单元22提供来的至少一个字词类似的句子(示例句子)的话题,作为感兴趣内容的话题。话题估计单元61随后将得到的话题提供给相关字词获取单元23,过程然后前进到步骤S67。
在这里,话题估计单元61可以估计宽泛类别(较宽概念的类别)的话题,例如政治、经济、体育或杂项,或者可以估计更具体类别的话题。
在步骤S67中,相关字词获取单元23获取与从话题估计单元61提供来的感兴趣内容的话题相关的任意字词作为相关字词。
具体而言,相关字词获取单元23如上所述可存储与各种话题相关的字词列表作为话题相关字词列表,并且获取登记在话题相关字词列表中的与从话题估计单元61提供来的感兴趣内容的话题相对应的字词,作为相关字词。
在这里,话题是从作为语音识别的结果而获得的至少一个字词估计出的,因此可以说与该话题相关的字词是与通过语音识别而获得的至少一个字词相关的字词。
注意,相关字词获取单元23还可以获取与存储在元数据存储单元26中的预指派元数据中包括的字词相关的任意字词作为相关字词,这与在图1中示出的记录器的情形中一样。
在相关字词获取单元23获取了相关字词时,其生成相关字词被登记在其中的字词列表,并将该列表提供给语音检索单元24。随后过程从步骤S67前进到步骤S68。此后,执行与图2中的各个步骤S 17至S22相同的步骤S68至S73。
注意,图4中示出的记录器使用图7中示出的元数据收集过程中所收集的元数据来执行推荐和再现内容的再现过程。该再现过程与图3中示出的相同,因此这里将不重复描述该过程。
根据图4中示出的记录器,与图1中示出的记录器的情形中一样,可以高效容易地获得内容的元数据。此外,即使不是语音识别的目标字词的字词(例如新字词和固有名称)也可被获得作为元数据。
[对本发明被应用到的计算机的描述]
上述处理序列可由硬件或软件执行。在要用软件执行这些处理序列的情形中,构成软件的程序被安装到通用计算机等上。
图8示出了用于执行上述过程的程序被安装到的计算机的实施例的配置示例。
程序可预先被记录在硬盘105或只读存储器(ROM)103中,硬盘105和ROM 103是结合在计算机中的存储介质。
或者,程序可临时或永久存储(记录)在可移除记录介质111中,例如柔性盘、致密盘只读存储器(CD-ROM)、磁光(MO)盘、数字通用盘(DVD)、磁盘、半导体存储器等。可移除记录介质111可被提供为所谓的封装介质。
程序可如上所述从可移除记录介质111安装到计算机中,程序也可以经由诸如数字广播卫星之类的人造卫星以无线方式从下载站点传送到计算机,或者经由诸如局域网(LAN)或因特网之类的网络以有线方式传送到计算机。以任意上述方式传送的程序可由计算机中的通信单元108接收到,并被安装到结合在计算机中的硬盘105中。
计算机包括中央处理单元(CPU)102。CPU 102经由总线101连接到输入/输出接口110。当用户操作输入单元107(其包括键盘、鼠标、麦克风等)来经由输入/输出接口110输入指令时,CPU 102根据该指令执行ROM 103中存储的程序。或者,CPU 102可将程序从硬盘105加载到随机存取存储器(RAM)104进行执行,其中程序可以是存储在硬盘105中的程序、从卫星或者网络传送来且由通信单元108接收到并被安装到硬盘105中的程序、或者从安装到驱动器109的可移除记录介质111读取并被安装到硬盘105中的程序。这样,CPU 102执行上述流程图中示出的过程,或者执行由上述框图中的配置执行的过程。CPU 102然后经由输入/输出接口110从输出单元106(其包括液晶显示器(LCD)、扬声器等)输出这些过程的结果,或者从通信单元108发送该结果,或者必要的话将其记录在硬盘105等上。
注意,用于编码程序以使计算机执行各个过程的过程步骤不一定必须按照根据流程图所示顺序的时间序列执行。可以并行(如同在并行处理中)执行这些过程或者独立(逐个对象地)执行这些过程。
此外,程序可由单个计算机处理,或者可由多个计算机以分布式方式处理。此外,可将程序传送到远程计算机执行。
现在将描述特定示例。从美国开始总统选举的2008年起,美国总统候选人的姓名“Barack Obama”和“John McCain”突然变得频繁出现在电视广播节目的内容中。
然而,一般来说,这些姓名不被包括在以前的用于大词汇连续语音识别的字典中,因此必须更新字典来使得能够语音识别这些姓名。
随着字典被重复更新并且字典中所包括的字词的数目增加,发音上彼此类似的字词也增加了,这可能导致语音识别的精度降低。
同时,在图1或4中示出的记录器中,一般的大词汇连续语音识别被执行一次来分析(语音识别)内容的语音数据,从而获取该语音数据中包括的一般字词。
从上述美国总统候选人的姓名出现在其中的内容的语音数据中,期望语音识别将获取诸如“美国”、“总统”和“选举”之类的字词作为一般字词。
在语音识别之后,在图1或4中示出的记录器中,获取与通过语音识别所获得的至少一个字词相关的任意字词作为相关字词。
具体而言,在图1中示出的记录器中,在相关字词获取单元23中,获取可能与作为语音识别的结果而获得的字词一起出现的字词作为相关字词。
可能与作为语音识别的结果而获得的字词一起出现的字词可以通过利用上述字词同时出现概率的数据来获取,或者可以下面的方式获取。可以使用因特网上的搜索引擎来利用通过语音识别而获得的字词作为关键字来执行搜索。然后,在通过搜索获得的web页面中,可以选择出现频率较高的字词作为可能与通过语音识别而获得的字词一起出现的字词。
在图4中示出的记录器的情形中,在话题估计单元61中,从作为语音识别的结果而获得的至少一个字词估计内容的话题,并且在相关字词获取单元23中,获取出现在该话题的句子中的字词作为相关字词。
对于话题估计,可以估计诸如“政治”、“经济”、“体育”等较宽泛的分类的话题,或者可以估计诸如“政治-日本”、“政治-美国”、“政治-中国”等具体分类的话题。
一般来说,在估计更具体分类的话题时,可以改善在话题估计单元61的后续级中执行对在相关字词获取单元23中获取的相关字词的预测。即,由相关字词获取单元23获取的相关字词被包括在语音数据的话语中的概率提高了。然而,这导致了用于创建用来估计话题的模型所预先必需的学习数据的量增大。
在图4中示出的记录器中,作为在相关字词获取单元23中获取与话题相关的字词作为相关字词的方法,可以用利用因特网上的新站点的方法来替换上述利用话题相关字词列表的方法。
具体而言,例如假设如上所述已获取“美国”、“总统”和“选举”作为通过语音识别而获得的至少一个字词,并且从这些字词估计出的内容的话题为“政治-美国”。
在该情形中,相关字词获取单元23访问因特网上的新站点来检查与“政治-美国”的话题相关的文章中出现的字词。然后,相关字词获取单元23将从当天起预定天数内的文章中出现的任何字词作为新字词(或者最近字词),并且获取这些新字词作为相关字词。
例如,预期在美国举行总统选举的2008年,美国总统候选人的姓名“Barack Obama”、“John MaCain”和“Hillary Clinton”被获得作为话题“政治-美国”的新字词。
这确保可以获得诸如“Barack Obama”之类的及时字词作为元数据,而这是仅通过一般的大词汇连续语音识别不容易获取的。
在这种情形中,在再现过程中(如图3中所示),当用户操作操作单元41来输入例如关键字“Barack Obama”时,执行对具有包括“BarackObama”的话语的语音数据的内容的推荐和/或再现。
在这里,作为用于获取新字词作为相关字词的信息源,除了因特网上的服务器(站点)中包括的信息之外,也可以使用经由电视广播发送的EPG数据、经由数据广播发送的数据和针对听力受损的人的说明字幕。
应当注意,图1和4中示出的记录器在以下几点不同于上述日本未实审专利申请No.2008-242059中公开的技术。在图1和4中示出的记录器中,可以从诸如因特网之类的网络上的服务器获取相关字词。相反,在上述现有技术中的技术中,从要被识别的语集生成连续语音识别字典,并且在考虑到连续语音识别字典的情况下还生成用于提高对未登记字词的识别的补充识别字典,并且该连续语音识别字典和补充识别字典二者都用于连续语音识别,因此要识别的语集是必需的。
此外,图1和4中示出的记录器与现有技术中的技术的不同在于:图1和4中示出的记录器通过利用与作为语音识别的结果而获得的字词同时出现的概率、或者通过使用从该字词估计出的话题来获取相关字词,而现有技术的技术在考虑到字词中包括的音节和该字词的语音的该部分的情况下生成补充识别字典。
本申请包含与2008年12月26日提交给日本特许厅的日本在先专利申请JP 2008-332133中公开的主题相关的主题,该申请的所有内容通过引用结合于此。
应当理解,本发明不限于上述实施方式,而是在不脱离本发明的精神的范围内可以作出各种修改。

Claims (13)

1.一种数据处理设备,包括:
语音识别装置,用于对语音数据执行连续语音识别;
相关字词获取装置,用于获取与通过所述连续语音识别而获得的至少一个字词相关的字词,作为与对应于包括所述语音数据的内容数据的内容相关的相关字词;以及
语音检索装置,用于从所述语音数据检索所述相关字词的话语来获取已检索出话语的相关字词作为所述内容的元数据。
2.如权利要求1所述的数据处理设备,还包括话题估计装置,用于基于所述连续语音识别的结果来估计与所述语音数据相对应的语音的主旨的话题,其中
所述相关字词获取装置获取与所述话题相关的字词作为所述相关字词。
3.如权利要求2所述的数据处理设备,其中所述相关字词获取装置从与通过所述连续语音识别而获得的所述至少一个字词相关的字词中获取除所述连续语音识别应识别的字词之外的字词作为所述相关字词。
4.如权利要求2所述的数据处理设备,其中所述相关字词获取装置获取所述话题的句子中出现的新字词作为所述相关字词。
5.如权利要求2所述的数据处理设备,其中
所述内容数据被指派有所述内容的元数据,并且
所述话题估计装置还基于指派给所述内容数据的元数据来估计所述话题。
6.如权利要求5所述的数据处理设备,其中
所述内容数据是电视广播的广播数据中包括的节目的数据,
所述广播数据除所述节目的数据以外还包括作为所述节目的元数据的电子节目指南EPG数据,并且
所述话题估计装置还基于所述广播数据中包括的所述EPG数据来估计所述话题。
7.如权利要求5所述的数据处理设备,其中在指派给所述内容数据的元数据包括固有名称的情形中,所述相关字词获取装置还获取与指派给所述内容数据的元数据中包括的所述固有名称相关的固有名称作为所述相关字词。
8.如权利要求2所述的数据处理设备,其中所述相关字词获取装置从网络上的服务器获取所述相关字词。
9.如权利要求2所述的数据处理设备,还包括:
元数据存储装置,用于与所述内容数据相关联地存储所述内容数据的元数据;
元数据检索装置,用于在输入了关键字时从存储在所述元数据存储装置中的所述元数据中检索与所述关键字匹配或类似的元数据;以及
内容推荐装置,用于推荐对应于与由所述元数据检索装置检索出的所述元数据相关联的内容数据的内容。
10.如权利要求9所述的数据处理设备,还包括再现控制装置,用于在从由所述内容推荐装置推荐的内容中指定了要再现的内容时再现所指定的内容。
11.一种数据处理方法,包括以下步骤:
对语音数据执行连续语音识别;
获取与通过所述连续语音识别而获得的至少一个字词相关的字词,作为与对应于包括所述语音数据的内容数据的内容相关的相关字词;以及
从所述语音数据检索所述相关字词的话语来获取已检索出话语的相关字词作为所述内容的元数据;
所述步骤由数据处理设备执行。
12.一种程序,用于使计算机充当下述装置:
语音识别装置,用于对语音数据执行连续语音识别;
相关字词获取装置,用于获取与通过所述连续语音识别而获得的至少一个字词相关的字词,作为与对应于包括所述语音数据的内容数据的内容相关的相关字词;以及
语音检索装置,用于从所述语音数据检索所述相关字词的话语来获取已检索出话语的相关字词作为所述内容的元数据。
13.一种数据处理设备,包括:
语音识别单元,被配置来对语音数据执行连续语音识别;
相关字词获取单元,被配置来获取与通过所述连续语音识别而获得的至少一个字词相关的字词,作为与对应于包括所述语音数据的内容数据的内容相关的相关字词;以及
语音检索单元,被配置来从所述语音数据检索所述相关字词的话语来获取已检索出话语的相关字词作为所述内容的元数据。
CN200910261124A 2008-12-26 2009-12-28 数据处理设备、数据处理方法和程序 Pending CN101770507A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-332133 2008-12-26
JP2008332133A JP2010154397A (ja) 2008-12-26 2008-12-26 データ処理装置、データ処理方法、及び、プログラム

Publications (1)

Publication Number Publication Date
CN101770507A true CN101770507A (zh) 2010-07-07

Family

ID=42285988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910261124A Pending CN101770507A (zh) 2008-12-26 2009-12-28 数据处理设备、数据处理方法和程序

Country Status (3)

Country Link
US (1) US20100169095A1 (zh)
JP (1) JP2010154397A (zh)
CN (1) CN101770507A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740014A (zh) * 2011-04-07 2012-10-17 青岛海信电器股份有限公司 语音控制电视机、电视***及通过语音控制电视机的方法
CN103594083A (zh) * 2012-08-14 2014-02-19 韩凯 通过电视伴音自动识别电视节目的技术
CN107369450A (zh) * 2017-08-07 2017-11-21 苏州市广播电视总台 收录方法和收录装置
CN113095073A (zh) * 2021-03-12 2021-07-09 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8136034B2 (en) 2007-12-18 2012-03-13 Aaron Stanton System and method for analyzing and categorizing text
US9582503B2 (en) * 2010-09-29 2017-02-28 Microsoft Technology Licensing, Llc Interactive addition of semantic concepts to a document
EP2472418A1 (en) * 2011-01-04 2012-07-04 Axel Springer Digital TV Guide GmbH Apparatus and method for managing a personal channel
JP5670293B2 (ja) * 2011-11-21 2015-02-18 日本電信電話株式会社 単語追加装置、単語追加方法、およびプログラム
US10354677B2 (en) * 2013-02-28 2019-07-16 Nuance Communications, Inc. System and method for identification of intent segment(s) in caller-agent conversations
KR102247533B1 (ko) 2014-07-30 2021-05-03 삼성전자주식회사 음성 인식 장치 및 그 제어 방법
CN106688036B (zh) * 2014-09-16 2017-12-22 三菱电机株式会社 信息提供***
KR102450853B1 (ko) 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
JP2018081390A (ja) * 2016-11-14 2018-05-24 Jcc株式会社 録画装置
US10846477B2 (en) * 2017-05-16 2020-11-24 Samsung Electronics Co., Ltd. Method and apparatus for recommending word
JP6660974B2 (ja) * 2018-03-30 2020-03-11 本田技研工業株式会社 情報提供装置、情報提供方法、およびプログラム
KR20200121603A (ko) * 2019-04-16 2020-10-26 삼성전자주식회사 텍스트를 제공하는 전자 장치 및 그 제어 방법.
JP7096199B2 (ja) * 2019-05-16 2022-07-05 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146503A (en) * 1987-08-28 1992-09-08 British Telecommunications Public Limited Company Speech recognition
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
JP2001075964A (ja) * 1999-08-31 2001-03-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
JP3994368B2 (ja) * 2000-01-25 2007-10-17 ソニー株式会社 情報処理装置および情報処理方法、並びに記録媒体
KR100940630B1 (ko) * 2001-05-02 2010-02-05 소니 주식회사 로봇 장치와, 문자 인식 장치 및 문자 인식 방법과, 제어프로그램 및 기록 매체
US7945600B1 (en) * 2001-05-18 2011-05-17 Stratify, Inc. Techniques for organizing data to support efficient review and analysis
CN1647073B (zh) * 2002-03-29 2010-05-26 索尼株式会社 信息搜索***、信息处理设备和方法、及信息搜索设备和方法
JP4215465B2 (ja) * 2002-05-08 2009-01-28 富士通テン株式会社 番組情報表示装置
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
WO2005122144A1 (ja) * 2004-06-10 2005-12-22 Matsushita Electric Industrial Co., Ltd. 音声認識装置、音声認識方法、及びプログラム
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7801910B2 (en) * 2005-11-09 2010-09-21 Ramp Holdings, Inc. Method and apparatus for timed tagging of media content
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
US8196045B2 (en) * 2006-10-05 2012-06-05 Blinkx Uk Limited Various methods and apparatus for moving thumbnails with metadata
US20080126093A1 (en) * 2006-11-28 2008-05-29 Nokia Corporation Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US20090240499A1 (en) * 2008-03-19 2009-09-24 Zohar Dvir Large vocabulary quick learning speech recognition system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102740014A (zh) * 2011-04-07 2012-10-17 青岛海信电器股份有限公司 语音控制电视机、电视***及通过语音控制电视机的方法
CN103594083A (zh) * 2012-08-14 2014-02-19 韩凯 通过电视伴音自动识别电视节目的技术
CN107369450A (zh) * 2017-08-07 2017-11-21 苏州市广播电视总台 收录方法和收录装置
CN107369450B (zh) * 2017-08-07 2021-03-12 苏州市广播电视总台 收录方法和收录装置
CN113095073A (zh) * 2021-03-12 2021-07-09 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质
CN113095073B (zh) * 2021-03-12 2022-04-19 深圳索信达数据技术有限公司 语料标签生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP2010154397A (ja) 2010-07-08
US20100169095A1 (en) 2010-07-01

Similar Documents

Publication Publication Date Title
CN101770507A (zh) 数据处理设备、数据处理方法和程序
US10911840B2 (en) Methods and systems for generating contextual data elements for effective consumption of multimedia
US20230197069A1 (en) Generating topic-specific language models
KR102018295B1 (ko) 구간 영상 검색 및 제공 장치, 방법 및 컴퓨터-판독가능 매체
CN101778233B (zh) 数据处理装置以及数据处理方法
US7292979B2 (en) Time ordered indexing of audio data
CN101305360B (zh) 索引和搜索带有文本元数据的语音
US8990065B2 (en) Automatic story summarization from clustered messages
WO2020077825A1 (zh) 论坛社区应用管理方法、装置、设备及可读存储介质
Carrive et al. Transdisciplinary analysis of a corpus of French newsreels: The ANTRACT Project
Fersini et al. Semantics and machine learning: A new generation of court management systems
CN101578600A (zh) 用于将一个用户的分类标签与由另一个用户定义的分类标签相关联的***和方法
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
Soares et al. Automatic topic segmentation for video lectures using low and high-level audio features
Schuller et al. New avenues in audio intelligence: Towards holistic real-life audio understanding
Neto et al. A system for selective dissemination of multimedia information resulting from the alert project
Rafferty et al. An approach to provide dynamic, illustrative, video-based guidance within a goal-driven smart home
JP5478146B2 (ja) 番組検索装置および番組検索プログラム
Nouza et al. Large-scale processing, indexing and search system for Czech audio-visual cultural heritage archives
Phang et al. Tools and technologies for enhancing access to audiovisual archives: The Singapore journey
Gravier et al. Exploiting speech for automatic TV delinearization: From streams to cross-media semantic navigation
CN113593543B (zh) 智能音箱语音服务***、方法、装置及设备
KR102648990B1 (ko) 또래 학습 추천 방법 및 장치
Kothawade et al. Retrieving instructional video content from speech and text information
Arazzi et al. Analysis of Video Lessons: a Case for Smart indexing and Topic Extraction.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100707