JP2005227545A - 辞書作成装置、番組案内装置及び辞書作成方法 - Google Patents

辞書作成装置、番組案内装置及び辞書作成方法 Download PDF

Info

Publication number
JP2005227545A
JP2005227545A JP2004036372A JP2004036372A JP2005227545A JP 2005227545 A JP2005227545 A JP 2005227545A JP 2004036372 A JP2004036372 A JP 2004036372A JP 2004036372 A JP2004036372 A JP 2004036372A JP 2005227545 A JP2005227545 A JP 2005227545A
Authority
JP
Japan
Prior art keywords
dictionary
words
readings
reading
epg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004036372A
Other languages
English (en)
Inventor
Takeshi Inoue
剛 井上
Tomohiro Konuma
知浩 小沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004036372A priority Critical patent/JP2005227545A/ja
Publication of JP2005227545A publication Critical patent/JP2005227545A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】最新のEPGデータを利用して辞書を作成する際、EPGに含まれる出演者の人物名やグループ名などは、日々新しいものが出現する上、特殊な読みをするものも多いため、一般の漢和辞典等で正しく読みを振るのは難しく、同じ表記で読みが異なる単語があった場合、一律に同じ読みが付与しかできず、誤った読みが付与されてしまう。しかし、利用者はどのような辞書ができているか知らないため、読みは正しく付与されていると判断し、正しい読みで発声するが、辞書作成時に正しい読みが付与されていないため、利用者の所望な操作が正しく行えない。
【解決手段】EPGに読みが付与されている少数の単語を基に、読み付与用のデータベースである動的辞典104を作成し、動的辞典104とEPGのデータとマッチングを行い、一致した単語についてはその読みを付与して認識辞書109に登録する。
【選択図】図1

Description

本発明は、電子番組ガイド(Electronic Program guide:EPG)を利用した音声認識機能を持つ機器操作装置に関するものであり、特に、番組案内装置に関する。
従来、番組案内装置は、番組の多チャンネル化に伴い、EPGと音声とを用いてTV操作行うものであり、最新のEPGデータを受信し、受信データ用いて本日又は明日以降の番組に対応した音声認識辞書を作成するが、この際、音声認識辞書作成に必要な読み付与は固定の漢和辞典などを用いて行う。
図6に従来の番組案内装置の構成図を示す。EPG受信部501は、テレビ信号からEPGデータを分離するものであり、項目分類部502は、音声認識に必要のない「放送時間」などのデータを分離し、「番組タイトル」、「出演者」などに分類するものであり、読み取得部503は、固定辞書である504の記録された電子化された漢和辞典を参照してEPGから取得された単語について読み付与を行う。辞書更新部505は、EPGデータに含まれる単語を辞書に重複することなく登録するものであり、辞書506は、音声認識に必要な単語を、登録日時と共に、記憶しておくものであり、音声認識部507は、利用者の発話による音声信号から、辞書506を参照し、特定の単語を認識するものである。
また、時計508は、現在の日時を登録語削除部507に出力するものであり、登録語削除部507は、時計506の日時を参照し、辞書506に登録されている単語のうち、例えば、前日までに登録されている単語を削除するものであり、EPG蓄積部510は、EPGデータを蓄積するものであり、制御部512は、音声認識部507が認識した単語をEPG蓄積部に蓄積されているEPGデータから検索し、該当する番組内容を出力するものである(例えば、特許文献1参照)。
特開2001−22374号公報(第7頁、第1図)
従来の番組案内装置は、最新のEPGデータを利用して辞書を作成する際、辞書作成に必要な単語の読みを固定の漢和辞典や形態素解析辞書を用いて行っているが、EPGに含まれる出演者の人物名やグループ名などは、日々新しいものが出現する上、特殊な読みをするものも多いため、一般の漢和辞典等で正しく読みを振るのは難しい。さらに同じ表記で読みが異なる単語があった場合、従来の方法では一律に同じ読みが付与しかできず、誤った読みが付与されてしまう。
しかし、利用者はどのような辞書ができているか知らないため、読みは正しく付与されていると判断し、正しい読みで発声するが、辞書作成時に正しい読みが付与されていないため、利用者の所望な操作が正しく行えない。
従来の課題を解決するため本発明は、EPGに読みが付与されている少数の単語を基に、読み付与用のデータベースである動的辞典を作成し、前記動的辞典とEPGのデータとマッチングを行い、一致した単語についてはその読みを付与して音声認識用辞書に登録する。
本発明による辞書作成方法によれば、EPGデータ内の単語についてより精度の高い読み付与が可能となる。これに伴い、高い音声認識率でのEPG番組検索や案内が可能となり、利用者にとって使い勝手の良い音声インタフェースが実現できる。
本発明の請求項1に記載の発明は、入力データに含まれる読みが付与された単語を随時蓄積する動的辞書と、前記動的辞書を用いて、前記入力データに含まれる単語に読みを付与する読み付与部とを含む辞書作成装置としたものであり、読みが付与されていない単語に、既に、読みが付与された単語を用いて読みを付与することができるという作用を有する。
請求項2に記載の発明は、予め蓄積された固定辞書を更に含み、読み付与部は、動的辞書と前記固定辞書とを用いて入力データに含まれる単語に読みを付与するものである請求項1記載の辞書作成装置としたものであり、一般的な辞書とを併用することで、動的辞書に含まれない単語についても読みを付加することができるという作用を有する。
請求項3に記載の発明は、動的辞書は、読みが付与された単語と読みが付与された単語に関する情報とを関連させて蓄積するものである請求項1又は2記載の認識辞書作成装置としたものであり、漢字表記が同じ単語でも、読みが付与された単語に関する情報を参照することで、正確な読みを付与することができるという作用を有する。
請求項4に記載の発明は、単語の使用頻度を蓄積した履歴蓄積部を更に含み、動的辞書は、読みが付与された単語と前記使用頻度とを関連させて蓄積するものである請求項1記載の辞書作成装置としたものであり、単語の使用頻度を考慮して、単語に読みを付与することができるという作用を有する。
請求項5に記載の発明は、単語の使用頻度を蓄積した履歴蓄積部を更に含み、認識辞書に蓄積された単語を、使用頻度を用いて削除する削除部とを更に含む請求項1記載の辞書作成装置としたものであり、使用頻度の低い単語を認識辞書から削除することができるという作用を有する。
請求項6に記載の発明は、請求項1ないし5のいずれか記載の辞書作成装置により作成された認識辞書と、入力された音声から前記認識辞書に含まれる単語を認識する音声認識部と、前記音声認識部により認識された単語が電子番組表に含まれる場合に、前記電子番組表の番組を出力する制御部とを有する番組案内装置としたものであり、電子番組表に含まれる単語を正しい読みで検索し、番組案内を出力することができる
という作用を有する。
請求項7に記載の発明は、入力データに含まれる読みが付与された単語を随時蓄積する第1のステップと、前記蓄積された単語を用いて、前記入力データに含まれる単語に読みを付与する第2のステップとを含む辞書作成方法としたものであり、読みが付与されていない単語に、既に、読みが付与された単語を用いて読みを付与することができるという作用を有する。
以下に本発明の実施の形態について、図面を用いて説明する。
(実施の形態1)
図1は本発明の第1の実施の形態による番組案内装置の構成を示す図である。
EPG受信部101は、テレビ信号からEPGデータを分離するものであり、項目分類部102は、常に認識対象となる「開始日」、「放送時間」などの項目と、「イベント名」、「テキスト」、「ジャンル」などの項目とに分離し、認識辞書に登録すべき単語を抽出するものである。
読み付与済み単語抽出部103は、分類された項目に含まれる単語に読みが付与されているかを確認し、読み仮名が付与された単語が分類された項目に存在した場合は、この単語の表記と読み仮名の対を動的辞典104に保存する。
読み付与部105は、項目分類部102から出力された、例えば、「番組タイトル」、「出演者」、「ジャンル」などの項目に含まれ、認識辞書に登録すべき単語に、動的辞典104と一般的な辞書である固定辞典106とを用いて、読み仮名の付与を行う。ここで、既に、読みが付与されている単語は、付与済みの読みを優先することで、再度の読みの付与を省略することもできる。
辞書作成部107は、読み付与部105で読み仮名が付与された単語と音声認識に必要な固定語彙蓄積部108に蓄積された固定語彙を用いて音声認識用辞書109を作成ものである。
また、時計110は、現在の日時を制御部113に知らせるものであり、登録語削除積部111は、認識辞書から一定の語彙を削除するものである。制御部113は、音声認識部112が認識した単語をEPG蓄積部114に蓄積されているEPGデータから検索し、該当する番組に関する情報を出力するものである。視聴履歴115はユーザの視聴履歴を保存されている。
ここで、音声認識を用いた番組案内には、辞書を作成するオフライン処理工程と、作成した辞書を用いて入力された音声を認識し、番組を案内するオンライン処理工程から構成される。
まず、オフライン処理工程の動作について、図2を用いて説明する。
まず、S201にて、EPG受信部101が、テレビ信号からEPGデータを取り出し、項目分離部102とEPG蓄積部114に出力する。
次に、S202にて、項目分類部102が、EPGデータを項目別に分類し、音声認識の対象となる単語の抽出を行う。
図4にEPGデータの例を示す。EPGデータには、1つの番組毎に、放送局を識別するための「サービスID」、各番組を識別するための「イベントID」、番組が開始する年月日を示す「放送日」、番組が放送される時間を示す「放送時間」、番組名を示す「タイトル」、番組のジャンルを示す「ジャンル」、主な番組出演者を示す「出演者」番組内容を示す「番組内容」、より詳細な番組情報を示す「詳細情報」、番組の内容を示す「番組内容」などの項目に分類されている。なお、EPGデータには図4の「出演者」のように表記に対する読みが付与されている場合がある。また、例えば図4の「藤原紀江」のように、EPGデータにおいては、全ての「出演者」に読みが付与されているわけではなく、「番組内容」や「詳細情報」にはあるが、「出演者」の項目に分けられていない出演者も多く存在する。
上記EPGデータの分類において、「番組名」、「出演者」、「ジャンル」、「番組内
容」、「詳細情報」に含まれる特定の単語について、音声認識辞書に登録するため、読み付与を行う。なお、「放送局」、「開始日」「放送時間」の項目に関する単語やその他認識対象となる文に必要な語彙などの読みにつていはEPGデータから取得するのではなく、固定語彙蓄積部108に保存されているものを用いる。
次に、S203にて、読み付与済み単語抽出部107が、項目分類部102から入力される分類された項目から読み付与済み単語を抽出する。ここで、動的辞典104に前記抽出した読み付与済み単語がない場合、この単語の表記および読みを動的辞典104に追加する。更に、単語の表記と読みの他に、読み以外の情報として、この単語が出現した最新の日付、この単語が一定期間内に出現した回数、単語の属する項目名、同番組の他の項目に関する情報などを動的辞典104に記憶する。なお、EPGデータから抽出される読み付与済み単語の例としては、図4に示したEPGデータの場合、「今田高志(いまだたかし)」や「中島美香子(なかじまみかこ)」であり、前記読み以外の情報としては、「2003/1/20」、「出演者」、「司会」、「ゲスト」、「バラエティ」などの情報がある。
動的辞典104内の単語および単語に関する情報は、動的辞典104の容量により削除することも可能である。削除する際には、図1には図示していないが、上記単語の読み以外情報である単語の出現日や視聴履歴115を用いることも可能である。
次に、S204にて、読み付与部105は、項目分類部102より入力された読み付与対象である項目内の単語に対して、動的辞典104にある単語とマッチングを行い、一致した単語の読み付与を行う。
なお、このマッチングによる読み付与においては、動的辞典104における読み以外の情報を用いることが可能である。例えば、読み付与において区別できない人物名があった場合、動的辞典104内の読み以外の情報、を用いてどの読みが適切かを判断し、読み付与を行う。
具体的には、図5に示すように、ある番組情報に「井上剛」という単語があり、その単語が動的辞書に2つ存在した場合、その対象番組の大ジャンルが「音楽」であれば「いのうえたけし」という読み付与を行い、対象番組の大ジャンルが「映画」であれば「いのうえつよし」という読みをその単語に対して付ける。
次に動的辞典104を用いた読み付与された以外の単語に対して、固定辞典106を用いて形態素解析を行い、固有名詞等認識対象となる単語について読み付与を行う。
次にS205にて、辞書作成部107が、読み付与部105から入力された単語と固定語彙蓄積部108に蓄積されている固定単語とから認識辞書109の作成を行う。
次にS206にて、登録語彙削除部111が、時間に基づき古いEPGデータに関する語彙を削除する。なお、図1には図示していないが、視聴履歴115の情報を用いて登録語彙を削除することも可能である。
次に、オンライン処理工程について、図3について説明する。
まず、S301にて、音声認識部112が、入力された音声を、認識辞書109を参照して音声認識を行う。
次に、S302にて、制御部113が、認識された単語と、EPG蓄積部114に蓄積
されているEPGデータとを参照し、番組案内を出力する。
なお、番組案内として出力される単語は、動的辞書を参照することで、番組案内を音声合成する場合に、正しい読みを用いて音声出力することが可能となる。
以上の構成により、EPGデータ内の単語についてより精度の高い読み付与が可能となる。これに伴い、高い音声認識率でのEPG番組検索や案内が可能となり、利用者にとって使い勝手の良い音声インタフェースが実現できる。
本発明は日々変化するコンテンツを対象とした音声認識インタフェースを持つシステムにおいて、一部単語の読み付与が行われている全てのコンテンツに対して利用可能であり、その産業上の利用可能性は非常に大きい。
本発明の第1の実施の形態による番組案内装置の構成を示す図 本発明の第1の実施の形態による音声案内装置のフローチャート 本発明の第1の実施の形態による番組案内装置のフローチャート 本発明の第1の実施の形態によるEPGデータを示す図 本発明の第1の実施の形態による動的辞書を示す図 従来の番組案内装置の構成を示す図
符号の説明
101 EPG受信部
102 項目分類部
103 読み付与済み単語抽出部
104 動的辞典
105 読み付与部
106 固定辞典
107 辞書作成部
108 固定語彙蓄積部
109 認識辞書
110 時計
111 登録語彙削除部
112 音声認識部
113 制御部
114 EPG蓄積部
115 視聴履歴

Claims (7)

  1. 入力データに含まれる読みが付与された単語を随時蓄積する動的辞書と、前記動的辞書を用いて、前記入力データに含まれる単語に読みを付与する読み付与部とを含む辞書作成装置。
  2. 予め蓄積された固定辞書を更に含み、読み付与部は、動的辞書と前記固定辞書とを用いて入力データに含まれる単語に読みを付与するものである請求項1記載の辞書作成装置。
  3. 動的辞書は、読みが付与された単語読みが付与された単語に関する情報とを関連させて蓄積するものである請求項1又は2記載の認識辞書作成装置。
  4. 単語の使用頻度を蓄積した履歴蓄積部を更に含み、動的辞書は、読みが付与された単語と前記使用頻度とを関連させて蓄積するものである請求項1記載の辞書作成装置。
  5. 単語の使用頻度を蓄積した履歴蓄積部を更に含み、認識辞書に蓄積された単語を、使用頻度を用いて削除する削除部とを更に含む請求項1記載の辞書作成装置。
  6. 請求項1ないし5のいずれか記載の辞書作成装置により作成された認識辞書と、入力された音声から前記認識辞書に含まれる単語を認識する音声認識部と、前記音声認識部により認識された単語が電子番組表に含まれる場合に、前記電子番組表の番組を出力する制御部とを有する番組案内装置。
  7. 入力データに含まれる読みが付与された単語を随時蓄積する第1のステップと、前記蓄積された単語を用いて、前記入力データに含まれる単語に読みを付与する第2のステップとを含む辞書作成方法。
JP2004036372A 2004-02-13 2004-02-13 辞書作成装置、番組案内装置及び辞書作成方法 Pending JP2005227545A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004036372A JP2005227545A (ja) 2004-02-13 2004-02-13 辞書作成装置、番組案内装置及び辞書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004036372A JP2005227545A (ja) 2004-02-13 2004-02-13 辞書作成装置、番組案内装置及び辞書作成方法

Publications (1)

Publication Number Publication Date
JP2005227545A true JP2005227545A (ja) 2005-08-25

Family

ID=35002300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004036372A Pending JP2005227545A (ja) 2004-02-13 2004-02-13 辞書作成装置、番組案内装置及び辞書作成方法

Country Status (1)

Country Link
JP (1) JP2005227545A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140194A (ja) * 2005-11-18 2007-06-07 Mitsubishi Electric Corp 番組検索装置および形態素辞書管理サーバ
JP2007310137A (ja) * 2006-05-18 2007-11-29 Fujitsu Ltd 音声認識装置および音声認識プログラム
JP2008131491A (ja) * 2006-11-22 2008-06-05 Sanyo Electric Co Ltd 番組検索用のデータベース取得方法及びディジタル放送受信装置における番組検索処理方法
JP2009204872A (ja) * 2008-02-28 2009-09-10 Alpine Electronics Inc 音声認識用辞書生成システム
US8374845B2 (en) 2007-09-25 2013-02-12 Kabushiki Kaisha Toshiba Retrieving apparatus, retrieving method, and computer program product
JP2015060210A (ja) * 2013-09-20 2015-03-30 株式会社東芝 データ収集装置、音声対話装置、方法およびプログラム
WO2016088241A1 (ja) * 2014-12-05 2016-06-09 三菱電機株式会社 音声処理システム及び音声処理方法
CN112243524A (zh) * 2019-03-20 2021-01-19 海信视像科技股份有限公司 节目名检索辅助装置以及节目名检索辅助方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007140194A (ja) * 2005-11-18 2007-06-07 Mitsubishi Electric Corp 番組検索装置および形態素辞書管理サーバ
JP2007310137A (ja) * 2006-05-18 2007-11-29 Fujitsu Ltd 音声認識装置および音声認識プログラム
US8560317B2 (en) 2006-05-18 2013-10-15 Fujitsu Limited Voice recognition apparatus and recording medium storing voice recognition program
JP2008131491A (ja) * 2006-11-22 2008-06-05 Sanyo Electric Co Ltd 番組検索用のデータベース取得方法及びディジタル放送受信装置における番組検索処理方法
US8374845B2 (en) 2007-09-25 2013-02-12 Kabushiki Kaisha Toshiba Retrieving apparatus, retrieving method, and computer program product
JP2009204872A (ja) * 2008-02-28 2009-09-10 Alpine Electronics Inc 音声認識用辞書生成システム
JP2015060210A (ja) * 2013-09-20 2015-03-30 株式会社東芝 データ収集装置、音声対話装置、方法およびプログラム
WO2016088241A1 (ja) * 2014-12-05 2016-06-09 三菱電機株式会社 音声処理システム及び音声処理方法
CN112243524A (zh) * 2019-03-20 2021-01-19 海信视像科技股份有限公司 节目名检索辅助装置以及节目名检索辅助方法
CN112243524B (zh) * 2019-03-20 2023-08-04 海信视像科技股份有限公司 节目名检索辅助装置以及节目名检索辅助方法

Similar Documents

Publication Publication Date Title
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US7437296B2 (en) Speech recognition dictionary creation apparatus and information search apparatus
EP2477186B1 (en) Information retrieving apparatus, information retrieving method and navigation system
JP5178109B2 (ja) 検索装置、方法及びプログラム
JP3577454B2 (ja) 記録されたテレビジョン放送についての情報を記憶するための機構
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
US20080167872A1 (en) Speech Recognition Device, Speech Recognition Method, and Program
WO2006134682A1 (ja) 固有表現抽出装置、方法、及びプログラム
JP2001157137A (ja) 音声認識及び自然言語を用いたテレビジョン内容の自動的なフィルタリング
JP2004516754A (ja) トランスクリプト情報内で観察されたキューを使用する番組分類方法および装置
JP5296598B2 (ja) 音声情報抽出装置
JP7246027B2 (ja) 翻訳装置、翻訳方法、及びプログラム
JP4601306B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JP2005227545A (ja) 辞書作成装置、番組案内装置及び辞書作成方法
JP2004295102A5 (ja)
JP4848397B2 (ja) 関連クエリ導出装置、関連クエリ導出方法及びプログラム
KR20120071194A (ko) 사용자 리뷰를 이용한 컨텐츠 추천 장치 및 그 방법
KR20030014804A (ko) 폐쇄자막 기반의 뉴스 비디오 데이터베이스 생성 장치 및방법과 그에 따른 내용기반 검색/탐색 방법
JP2008022292A (ja) 出演者情報検索システム、出演者情報取得装置、出演者情報検索装置、および、その方法ならびにプログラム
JP2007199315A (ja) コンテンツ提供装置
JP2007257134A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP2007140194A (ja) 番組検索装置および形態素辞書管理サーバ
JP4175141B2 (ja) 音声認識機能を有する番組情報表示装置
JP2010175708A (ja) 音声認識検索システム及び音声認識検索方法
US20120209883A1 (en) Content item search apparatus and method