JP2005128076A - 端末からの音声データを認識する音声認識システム及び方法 - Google Patents

端末からの音声データを認識する音声認識システム及び方法 Download PDF

Info

Publication number
JP2005128076A
JP2005128076A JP2003360732A JP2003360732A JP2005128076A JP 2005128076 A JP2005128076 A JP 2005128076A JP 2003360732 A JP2003360732 A JP 2003360732A JP 2003360732 A JP2003360732 A JP 2003360732A JP 2005128076 A JP2005128076 A JP 2005128076A
Authority
JP
Japan
Prior art keywords
dictionary
speech
speech recognition
terminal
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003360732A
Other languages
English (en)
Inventor
Naonobu Yamashita
直信 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2003360732A priority Critical patent/JP2005128076A/ja
Publication of JP2005128076A publication Critical patent/JP2005128076A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract


【課題】 汎用的ではない語彙、文章を、ユーザが任意で辞書登録できるような共用音声認識システムを提供する。
【解決手段】 ネットワークを経由して受信した端末からの音声データを文字データに変換する音声認識システムであって:音声データを、予め格納してある音声データ群と照合することにより音声認識を実行する音声認識機能部;及び語彙、文章等を記憶した共有辞書;を備え、認識した音声を文字へ変換する際に、先ず共有辞書を参照し、次にユーザの個人辞書を参照する、
ことを特徴とする音声認識システム。
【選択図】 図1

Description

本発明は、端末から受信した音声データを認識する音声認識システム及び方法に関し、特に音声認識効率を高めるために、共有辞書だけでなく、各ユーザ専用の個人辞書を参照するような音声認識システム及び方法に関する。
最近、携帯電話端末を用いて日本語電子メールを送受信することが頻繁に行われてきている。送信すべき電子メールの漢字混じり文章を入力する際には、テンキーを何度も押すことによって先ず平仮名を入力し、次にそれを漢字に変換する煩雑な入力作業を行っている。電子メール文章作成以外にも、携帯端末に対して、コマンド操作、単語入力、文章入力等をする場合にもやはり煩雑な入力作業を行っている。
このような煩雑さを解消するために、携帯端末にもともと備わる音声入力部を利用した音声認識による文章入力方法が考えられているが、音声認識ソフトウエア及び音声・文字変換の処理機能を容量の限られた携帯電話内に組み込むことは困難である。そのため、処理能力の低い携帯電話が直接音声認識するのではなく、ネットワークに接続された大記憶容量且つ高処理能力の音声認識用の共用サーバが、携帯電話から送信された音声データを文字データに変換する方法がある(特許文献1)。
一般に、音声認識処理には、音声認識用エンジンである音声認識ソフトウエアと音声を文字に変換する際の照合用辞書とが用いられる。パーソナルコンピュータなどのようにスタンドアロンで利用する音声認識ソフトの場合には、提供される辞書登録ツールを用いてユーザが独自に辞書をカスタマイズすることができ、音声認識効率を容易に高めることが可能である。
しかしながら、不特定多数のユーザが利用する共用音声認識システムの場合には、全ユーザで共有の辞書を利用することになる。そのため、ユーザ単位に個人的に利用する汎用的ではない語彙、文章は、辞書登録されておらず、認識できないか、誤認識されてしまう。また、語彙、文章の追加登録はシステムの管理者により行われるため、ユーザが勝手に任意の語彙、文章を辞書登録することはできない。仮に任意に登録できたとすると、いたずらに汎用的でない語彙、文章が増加し、却って認識処理の遅延、誤認識の増加という悪い結果となる。
特開平10−190884号公報
そこで、本発明は、以上の点に鑑みてなされたもので、ユーザ単位に当該ユーザしか使用しないような汎用的ではない語彙、文章を、システム管理者を仲介することなく、ユーザが任意で辞書登録できるような共用音声認識システムを提供することを目的とする。
上記の目的を達成するための本発明の一特徴に従った、ネットワークを経由して受信した端末からの音声データを文字データに変換する音声認識システムは、音声データを、予め格納してある音声データ群と照合することにより音声認識を実行する音声認識機能部;及び 語彙、文章等を記憶した共有辞書;を備え、認識した音声を文字へ変換する際に、先ず共有辞書を参照し、次にユーザの個人辞書を参照することを特徴とする。
また、個人辞書を当該音声認識システム内に備えることができる。
あるいは、端末から個人辞書内の情報を受信することもできる。
本発明の他の特徴に従った、ネットワークを経由して受信した端末からの音声データを文字データに変換する音声認識システムにおける音声認識方法は、端末から認識すべき音声データを受信する段階;受信した音声データを、予め格納してある音声データ群と照合することにより音声認識を実行する段階;語彙、文章等を記憶した共有辞書を参照して、認識した音声を文字へ変換する段階;及び共有辞書内に該当データが無い場合に、ユーザ用の個人辞書を参照して、認識した音声を文字へ変換する段階;から構成されることを特徴とする。
また、個人辞書を当該音声認識システム内または前記端末内のいずれかに備えることができる。
本発明の実施例によれば、端末用の音声認識システムにおいて、ユーザ単位にカスタマイズされた辞書を持つことができ、認識率の増加によるユーザビリティの向上をもたらす。
また、任意のユーザが任意の語彙、文章を任意の辞書に登録できることで、ユーザ単位に固有の辞書を持つことができ、音声認識する際に、共有辞書とともに当該ユーザの辞書も併せて照合することにより、共有辞書の登録語彙、文章を増加させることなく、ユーザ特有の汎用的ではない語彙、文章に対する音声認識率を向上させることが可能となる。
以下、図面を参照しながら本発明に従った音声認識システム及び音声認識方法の実施例について説明する。
本発明の実施例に係る音声認識システムは、例えば図1に示すように構成される。図1において、例えば移動端末などの端末100(1)は、内部に個人辞書を有しない端末である。端末100(1)は、ネットワーク200を経由して音声認識システム300に接続することができる。
やはり移動端末などの端末100(2)は、内部に個人辞書110を備えた端末である。端末100(2)も同様にネットワーク200を経由して音声認識システム300に接続することができる。
音声認識システム300は、メモリ311を内蔵した音声認識機能部310、辞書管理機能部320、全ユーザで使用できる共有辞書330、各ユーザ単位で使用する個人辞書群340を有し、ネットワーク200に接続される。
端末100(1)、100(2)は、音声認識を望む音声データをネットワーク200を介して、音声認識システム300に送信することができる。端末からの音声データを受信した音声認識システム300は、その音声データを、予め格納してある音声データ群と照合することにより、音声を認識して文字へと変換することができる。音声データを文字へと変換する際に、使用する辞書のデータ(語彙、文章等)をメモリ311上に展開して、そのデータを参照することができる。
共有辞書330をメモリ311上に展開することができ、また、システムに備えた個人辞書340を展開することもできる。さらに、ネットワーク200を介したデータ送信により、端末100(2)内の個人辞書110を展開することもできる。
以下に、内部に個人辞書を有しない端末100(1)が、音声認識システム300内の個人辞書340へ語彙を登録する手順について、図2に示すシーケンスにより説明する。
図2において、先ず、端末100(1)が辞書管理機能320へ辞書登録要求を送信すると、辞書管理機能320は、辞書登録要求信号に含まれる端末特定番号(例えば電話番号)からユーザを特定し、当該ユーザの個人辞書を特定する(個人辞書がない場合は新規に作成する)。
次に、辞書管理機能320が、端末100(1)に対して語彙入力要求を送信し、端末100(1)はそれを受けて語彙を入力して辞書管理機能320へ送信する。
辞書管理機能320は語彙を受信すると、端末100(1)に対して読み入力要求を送信し、端末100(1)はそれを受けて読みを入力して辞書管理機能320へ返信する。
語彙及び読みを受信した辞書管理機能320は、共通辞書330に対して既に同じ語彙及び読みが登録されているか否かを参照する。登録済みであれば、辞書管理機能320が、端末100(1)へ登録済みであることを通知し、シーケンスは終了する。
既登録がなければ、共通辞書330は辞書管理機能320へ登録が無いことを通知し、その通知を受けて辞書管理機能320は上記処理で特定された個人辞書340に対して、同じ語彙と読みが既に登録されているか否かを参照する。登録済みであれば辞書管理機能320を経由して端末100(1)へ登録済みであることを通知し、シーケンスは終了する。
既登録がなければ、個人辞書340は新規語彙としてその語彙及び読みを辞書へ登録し、登録完了を辞書管理機能320を経由して端末100(1)へ通知する。
以下に、内部に個人辞書を有しない端末が音声データを送信して、音声認識システム300が音声認識する場合の音声認識手順について、図3に示すシーケンスにより説明する。
図3において、端末100(1)は音声認識機能を利用することを音声認識機能部310へ送信すると、音声認識機能部310は受信した信号に含まれる端末特定番号(例えぱ電話番号)を辞書管理機能部320へ送信するとともに、端末100(1)へ音声入力OKを送信する。
端末を特定する番号を受信した辞書管理機能部320はユーザを特定し、特定した個人辞書340へ辞書展開依頼を送信する。辞書展開依頼を受信した個人辞書340は辞書データをメモリ311上へ展開する。
また、辞書管理機能部320は共通辞書330へも辞書展開依頼を送信し、辞書展開依頼を受信した共通辞書330は辞書データをメモリ311上へ展開する。
一方、端末100(1)が音声データを音声認識機能部310へ送信すると、音声認識機能部310はメモリ311上の共通辞書データと受信した音声データを照合する。照合の結果、該当する語彙等がある場合には、テキストデータとして、端末100(1)へ送信する。
該当する語彙等が無い場合には、さらに個人辞書データと照合する。該当する語彙が検出されると、テキストデータとして端末100(1)へ送信する。
以下に、内部に個人辞書を有しない端末100(2)が自端末の辞書へ語彙を登録する手順について、図4に示すシーケンスにより説明する。
図4において、端末100(2)は個人辞書110へ辞書登録要求を送信すると、個人辞書110は、端末100(2)へ語彙入力要求を送信し、端末100(2)はそれを受けて語彙を入力して個人辞書110へ送信する。
個人辞書110は語彙を受信すると、端末100(2)へ読み入力要求を送信し、端末100(2)はそれを受けて読みを入力して個人辞書110へ送信する。
語彙及び読みを受信した個人辞書110は、同じ語彙と読みが既に登録されているか否かを参照する。登録済みであれば端末100(2)へ登録済みであることを通知し、シーケンスは終了する。
既登録がなければ、個人辞書110は新規語彙として語彙及び読みを辞書へ登録し、登録完了を端末100(2)へ通知する。
以下に、内部に個人辞書を有する端末100(2)が音声データを送信して、音声認識システム300が音声認識する場合の音声認識手順について、図5に示すシーケンスにより説明する。
図5において、端末100(2)は音声認識機能を利用することを音声認識機能部310へ送信すると、音声認識機能部310は受信した信号に含まれる端末特定番号(例えば電話番号)を辞書管理機能部320へ送信するとともに、端末100(2)へ音声入力OKを送信する。
端末を特定する番号を受信した辞書管理機能部320はユーザを特定し、特定した個人辞書110へ辞書展開依頼を送信する。辞書展開依頼を受信した個人辞書110はネットワーク200を介して、辞書データをメモリ311上へ展開する。
また、辞書管理機能320は共通辞書330へも辞書展開依頼を送信し、辞書展開依頼を受信した共通辞書330は辞書データをメモリ311上へ展開する。
一方、端末100(2)が音声データを音声認識機能310へ送信すると、音声認識機能部310はメモリ311上の共通辞書データと受信した音声データを照合する。照合の結果、該当する語彙等がある場合には、テキストデータとして、端末100(1)へ送信する。
該当する語彙等が無い場合には、さらに個人辞書データと照合する。該当する語彙が検出されると、テキストデータとして端末100(1)へ送信する。
本発明に従った、音声認識システムは、例えば移動無線システムの携帯端末における音声認識機能向上のために用いることができ、特に、共有辞書の登録語彙、文章を増加させることなく、各ユーザ特有の汎用的ではない語彙、文章に対する音声認識率を向上させるために用いることができる。
本発明の実施例に従った音声認識システムの概略図である。 個人辞書を有しない端末の個人辞書登録シーケンスである。 個人辞書を有しない端末の音声認識シーケンスである。 個人辞書を有する端末の個人辞書登録シーケンスである。 個人辞書を有する端末の音声認識シーケンスである。
符号の説明
100 端末
110 個人辞書
200 ネットワーク
300 音声認識システム
310 音声認識機能部
311 メモリ
320 辞書管理機能部
330 共有辞書
340 個人辞書

Claims (5)

  1. ネットワークを経由して受信した端末からの音声データを文字データに変換する音声認識システムであって:
    前記音声データを、予め格納してある音声データ群と照合することにより音声認識を実行する音声認識機能部;及び
    語彙、文章等を記憶した共有辞書;
    を備え、
    認識した音声を文字へ変換する際に、先ず共有辞書を参照し、次にユーザの個人辞書を参照する、
    ことを特徴とする音声認識システム。
  2. 請求項1に記載された音声認識システムであって:
    前記個人辞書を当該音声認識システム内に備えたことを特徴とする音声認識システム。
  3. 請求項1に記載された音声認識システムであって:
    前記端末から個人辞書内の情報を受信することを特徴とする音声認識システム。
  4. ネットワークを経由して受信した端末からの音声データを文字データに変換する音声認識システムにおける音声認識方法であって:
    端末から認識すべき音声データを受信する段階;
    受信した音声データを、予め格納してある音声データ群と照合することにより音声認識を実行する段階;
    語彙、文章等を記憶した共有辞書を参照して、認識した音声を文字へ変換する段階;及び
    共有辞書内に該当データが無い場合に、ユーザ用の個人辞書を参照して、認識した音声を文字へ変換する段階;
    から構成されることを特徴とする音声認識方法。
  5. 請求項4に記載された音声認識方法であって:
    前記個人辞書が当該音声認識システム内または前記端末内のいずれかに備えられたことを特徴とする音声認識方法。
JP2003360732A 2003-10-21 2003-10-21 端末からの音声データを認識する音声認識システム及び方法 Pending JP2005128076A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003360732A JP2005128076A (ja) 2003-10-21 2003-10-21 端末からの音声データを認識する音声認識システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003360732A JP2005128076A (ja) 2003-10-21 2003-10-21 端末からの音声データを認識する音声認識システム及び方法

Publications (1)

Publication Number Publication Date
JP2005128076A true JP2005128076A (ja) 2005-05-19

Family

ID=34640959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003360732A Pending JP2005128076A (ja) 2003-10-21 2003-10-21 端末からの音声データを認識する音声認識システム及び方法

Country Status (1)

Country Link
JP (1) JP2005128076A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007688A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Terminal téléphonique ayant une fonction de reconnaissance vocale, dispositif de support de mise à jour de dictionnaire de reconnaissance vocale, et procédé de support associé
WO2008114708A1 (ja) * 2007-03-14 2008-09-25 Nec Corporation 音声認識システム、音声認識方法、および音声認識処理プログラム
JP2009047865A (ja) * 2007-08-17 2009-03-05 Mobi Techno:Kk 音声認識を用いた情報提供システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6324297A (ja) * 1986-07-17 1988-02-01 富士通株式会社 特定話者音声認識装置の音声辞書作成方式
JPH07319494A (ja) * 1994-05-23 1995-12-08 Nec Robotics Eng Ltd 大語彙音声認識装置
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002118659A (ja) * 2000-10-04 2002-04-19 Yozan Inc 電話装置及び翻訳電話装置
JP2002162988A (ja) * 2000-11-27 2002-06-07 Canon Inc 音声認識システム及びその制御方法、コンピュータ可読メモリ
JP2003140682A (ja) * 2001-11-05 2003-05-16 Alpine Electronics Inc 音声認識装置及び音声辞書作成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6324297A (ja) * 1986-07-17 1988-02-01 富士通株式会社 特定話者音声認識装置の音声辞書作成方式
JPH07319494A (ja) * 1994-05-23 1995-12-08 Nec Robotics Eng Ltd 大語彙音声認識装置
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
JP2002118659A (ja) * 2000-10-04 2002-04-19 Yozan Inc 電話装置及び翻訳電話装置
JP2002162988A (ja) * 2000-11-27 2002-06-07 Canon Inc 音声認識システム及びその制御方法、コンピュータ可読メモリ
JP2003140682A (ja) * 2001-11-05 2003-05-16 Alpine Electronics Inc 音声認識装置及び音声辞書作成方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008007688A1 (fr) * 2006-07-13 2008-01-17 Nec Corporation Terminal téléphonique ayant une fonction de reconnaissance vocale, dispositif de support de mise à jour de dictionnaire de reconnaissance vocale, et procédé de support associé
WO2008114708A1 (ja) * 2007-03-14 2008-09-25 Nec Corporation 音声認識システム、音声認識方法、および音声認識処理プログラム
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
US8676582B2 (en) 2007-03-14 2014-03-18 Nec Corporation System and method for speech recognition using a reduced user dictionary, and computer readable storage medium therefor
JP2009047865A (ja) * 2007-08-17 2009-03-05 Mobi Techno:Kk 音声認識を用いた情報提供システム

Similar Documents

Publication Publication Date Title
US7277029B2 (en) Using language models to expand wildcards
US7224989B2 (en) Communication terminal having a predictive text editor application
US8374862B2 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP2011504304A (ja) パーソナル通信デバイス用のスピーチ・トゥ・テキスト・トランスクリプション
EP1480421A1 (en) Automatic setting of a keypad input mode in response to an incoming text message
US20050268231A1 (en) Method and device for inputting Chinese phrases
JP2001273283A (ja) 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
CN107885826A (zh) 多媒体文件播放方法、装置、存储介质及电子设备
KR100363656B1 (ko) 음성을 통한 인터넷 서비스 시스템
US7539483B2 (en) System and method for entering alphanumeric characters in a wireless communication device
CN101119545B (zh) 基于编码标签的信息处理***与信息处理方法
CN111627438A (zh) 语音识别方法及装置
JP2005128076A (ja) 端末からの音声データを認識する音声認識システム及び方法
JPH10126852A (ja) 移動端末音声認識/データベース検索通信システム
JP2005227510A (ja) 音声認識装置及び音声認識方法
KR100724848B1 (ko) 휴대 단말에서 입력 문자 실시간 낭독방법
EP1895748A1 (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP2003152829A (ja) 通信機
CN103297579A (zh) 语音辅助键区输入
JP4049456B2 (ja) 音声情報利用システム
JP2006086852A (ja) 情報処理装置及び情報処理方法
JP4125708B2 (ja) 携帯電話端末およびメール送受信方法
KR100642577B1 (ko) 음성 메시지를 문자 메시지로 변환하여 전송하는 방법 및장치
JPH10282990A (ja) テキスト入力方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090622

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100316