JP2001067097A - 文書作成装置および文書作成方法 - Google Patents

文書作成装置および文書作成方法

Info

Publication number
JP2001067097A
JP2001067097A JP24562099A JP24562099A JP2001067097A JP 2001067097 A JP2001067097 A JP 2001067097A JP 24562099 A JP24562099 A JP 24562099A JP 24562099 A JP24562099 A JP 24562099A JP 2001067097 A JP2001067097 A JP 2001067097A
Authority
JP
Japan
Prior art keywords
word
speech recognition
document
speech
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP24562099A
Other languages
English (en)
Inventor
Shoichi Matsunaga
昭一 松永
Yoshiaki Noda
喜昭 野田
Katsutoshi Ofu
克年 大附
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP24562099A priority Critical patent/JP2001067097A/ja
Publication of JP2001067097A publication Critical patent/JP2001067097A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 (修正有) 【課題】収集できるテキストが少ない場合でも音声認識
機能を効率よく用いることができる音声認識機能を用い
た文書作成装置を提供する。 【解決手段】入力された音声を音声音響特徴パラメータ
群に分析し、その特徴パラメータの情報と言語情報に基
づいて認識を行う音声認識装置において、連続して発生
された音声を認識する連続音声認識部と、単語として発
声された音声を認識する単語音声認識部を持ち、使用者
が両認識部をマウスあるいはキーボードによる選択、も
しくは音声によるコマンド等による入力で任意に切り替
えながら文書を作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、異なる性質を持つ
複数の音声認識機能を用いた文書作成装置に関する。
【0002】
【従来の技術】従来、音声認識機能を用いたディクテー
ションによる文書作成においては、連続音声認識機能が
幅広く使われている。この連続音声認識機能は音響モデ
ルと呼ばれる声の質に関する情報と、言葉に関する言語
情報を用いて動作する。音響モデルとしては隠れマルコ
フモデル(HMM)が、言語モデルとしては単語の二つ
組の生起順序に関する統計モデル(bigram)、三つ組の
生起順序に関する統計モデル(trigram)が言語モデルと
して広く用いられている(例えば、中川聖一著、“確率
モデルによる音声認識”電子情報通信学会 昭和63年7
月発行)。
【0003】上記言語モデルを作成するためには、日本
語の場合、所望のテキスト(入力したいテキスト)に類
似したテキストを収集し、単語ごとに分割したのちに、
その単語の連鎖統計を求めることにより言語モデルとし
て使用していた。
【0004】
【発明が解決しようとする課題】従来の上記ディクテー
ションでは、収集できるテキストが少ない場合、テキス
トの単語連鎖では十分に統計情報が得られない、あるい
はその統計情報が有効に機能しない単語(例えば、人名
などの固有名詞)があり、それらの単語に対する認識性
能はまだ十分ではなかった。
【0005】本発明の目的は、音声入力により当該テキ
ストを作成する過程において連続音声認識機能のみを用
いることに起因する上記の問題点を解決し、音声認識機
能を効率よく用いる文書作成装置を提供することにあ
る。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の文書作成装置は、入力された音声を音声音響特徴パ
ラメータ群に分析し、その特徴パラメータの情報と言語
情報に基づいて認識を行う音声認識装置において、連続
して発声された音声を認識する連続音声認識部と、単語
として発声された音声を認識する単語音声認識部を持
ち、使用者が両認識部をマウスあるいはキーボードによ
る選択、もしくは音声によるコマンド等による入力で任
意に切り替えながら文書を作成することを特徴とする。
【0007】また、請求項2記載の文書作成装置は、請
求項1記載の文書作成装置において、上記単語音声認識
において使用者が複数の単語辞書の中から任意に一つの
単語辞書を選択することを特徴とする。また、請求項3
記載の文書作成装置は、請求項2に記載の文書作成装置
において、他の全ての単語辞書の単語項目を登録した全
単語辞書を単語辞書の一つとして登録することを特徴と
する。
【0008】また、請求項4記載の文書作成方法は、請
求項1記載の文書作成装置において、使用者が連続音声
認識部を用いて文書を作成している最中に、音声コマン
ドにより連続音声認識を中断し単語認識部を起動させる
こと、及び単語認識終了後、再び連続音声認識を再開で
きることを特徴とする。
【0009】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図1に本発明の文書作成
装置のブロック図を示す。文書作成装置1は、マイク7-
1、キーボード7-2、マウス7-3等から構成される入力手
段7、音響モデル5と話者適応部6を備えた主エディタ
2、単語n-gram (n個の要素からなる連鎖)辞書3-1を備
えた連続音声認識部3、複数の単語辞書4-1を備えた単
語音声認識部4及び表示装置8等から構成される。
【0010】音声が入力されると、音響モデル5と話者
適応部6を用いて主エディタ2は入力された音声を音声
音響特徴パラメータ群に分析し、連続して発声された音
声は単語n-gram辞書3-1を用いて連続音声認識部3で認
識し、そして、単語として発声された音声は単語辞書3-
1を用いて単語音声認識部4で認識し、その認識結果を
用いて主エディタ2は文書を作成すると共に表示装置8
に表示する。また、主エディタ2は入力手段7の入力に
より連続音声認識部3と単語音声認識部4とを切り替え
る機能と、単語音声認識部4が備える複数の単語辞書4-
1を選択する機能を有する。
【0011】図2は、本発明に関わる文書作成装置のイ
メージ図である。図2は、入力した音声を音声認識機能
により文字系列に変換して所望の文書を作成していく状
況を示している。表示装置8において、上部が文書作成
用コマンドを動作させる操作部、下部は認識結果であ
り、「初期評価実施致しましたので連絡します。」と文
書が作成されている様子を示す。本発明による一つの実
施形態として、S1:連続音声認識開始/終了ボタン
(例えば、キーボード)により連続音声認識開始および
終了を操作し、S2:単語音声認識開始/終了ボタンに
より単語音声認識開始および終了の操作を行う(開始の
際にボタンを押下し、終了時に再度そのボタンを押下す
る。)。即ち、請求項1記載の発明に関して、本発明で
はこの様に連続音声認識と単語音声認識を組み合わせな
がら、文書作成を行っていく。日常、よく使用される言
い回しなどの文書を作成するには連続音声認識を、特殊
な場合のみ使われる固有名詞(例えば、特殊な人名や地
名等)を記述する場合は、単語音声認識を用いて、文書
を作成する。これにより、従来の連続音声認識のみによ
る文書作成に比較してより効率良く、かつ使用者に負担
をかけずに文書作成を行うことができる。
【0012】この実施形態の他の方法として、操作メニ
ューの選択による方法を図3に示す。例えば、「挿入」
のメニューをマウス等により選択することにより、S3
「連続音声認識開始」メニューあるいはS4「単語音声
認識開始」メニューを選択することにより入力操作を行
う。メニュー選択後の連続音声入力中は、「連続音声認
識開始」メニューは「連続音声認識終了」メニューとな
り、「単語音声認識開始」メニューは「単語音声認識終
了」メニューとなる。それらを再び選択することで、音
声入力は終了となる。
【0013】他の実施形態としては、音声による操作、
即ち「連続音声認識開始」あるいは「単語音声認識開
始」と発声すること(音声入力)で、両認識を効率良く
使い分けることが可能である。一方、請求項2の単語音
声認識に関しては、単語認識選択前あるいは後に、認識
しようとする単語辞書を選択することで、認識対象語彙
を絞り認識性能を向上させる。
【0014】図4では、単語辞書の▼のボタンを押下す
ることにより、単語辞書の種類が出現し、そこより一つ
を選択する。図4では、単語辞書Aが人名辞書、単語辞
書Bが地名辞書、単語辞書Cが魚名辞書とする。使用者
が「いとー」と発声した場合には、人名辞書Aを選択し
ていれば「伊藤」もしくは「伊東」が、地名辞書Bを選
択していれば「伊東」が、魚名辞書Cを選択していれば
「伊富」が出力されることになる。図4は表示が反転し
ている単語辞書Aを選択している様子を示す。
【0015】一方、請求項3の全単語辞書に関しては、
請求項2の実施形態において、図5に示すように、単語
辞書A、単語辞書B、単語辞書C、及び全単語辞書の4
つの辞書より使用者が選択することになる。ここで、全
単語辞書には単語辞書A、B、Cの全ての単語が登録さ
れている。これは、使用者が出力させたい単語がどの辞
書項目に含まれるか分からない場合に使用される。認識
精度や処理時間は該当する単語辞書を選ぶ場合よりも劣
化するが、確実に出力することが可能である。例えば、
上記例では、「いとー」と発声した場合に、「伊東」、
「伊藤」、「伊富」の候補が出力され、その中より候補
を使用者が選ぶことになる。
【0016】一方、請求項4の音声認識機能を用いた文
書作成方法に関しては、連続音声認識を用いて文書を作
成している最中に、例えば、「単語認識」などと使用者
が音声コマンドを発声することにより連続音声認識を中
断し単語認識部を起動させ、単語音声認識が終了した時
点で、再び先ほどの連続音声認識を再開することによ
り、文章を効率良く作成する。例えば、「都市の名前:
伊東 静岡県にある都市」という文を作成したいと考え
た場合の手順を図6に示す。
【0017】まず連続音声認識を起動させ、S7:「と
しのなまえころん」と発声する。この時点では、『都市
の名前:』と表示されている。ここで地名単語辞書を選
択した状態で、S9:「単語認識モード」と発声し、S1
0:「いとー」と発声することにより、自動的に単語認
識部が起動され、発声した音声「いとう」が認識され、
S11:『都市の名前:伊東』と出力される。この時点
で、すでに処理は連続音声認識が再開されており、S1
2:「すぺーすしずおかけんにあるとし」と発声するこ
とにより、『都市の名前:伊東 静岡県にある都市』と
表示され、連続音声認識を終了することにより所望の文
を作成できる。このように連続音声認識を行っている最
中に、単語音声認識を呼び出すことにより、文章を効率
よく作成することが可能となる。
【0018】以上説明したように、連続音声認識機能と
単語音声認識機能を保持した文章作成装置を提供するこ
とで、両機能をユーザーが切り替えながら使用すること
により、効率良く文書を作成することができる。
【0019】
【発明の効果】以上、詳述したように、本発明によれ
ば、音声認識機能を用いた文書作成装置(ディクテーシ
ョン装置)において、連続音声認識機能と単語音声認識
機能を効率よく切り替えながら文書を作成することによ
り、従来の連続音声認識機能のみを用いた文書作成装置
により、より優れた使用勝手(利便性)を提供できると
いう利点がある。
【図面の簡単な説明】
【図1】本発明の文書作成装置のブロック図。
【図2】連続音声認識と単語音声認識の両認識部のボタ
ンによる切り換えと文書作成例を示すイメージ図。
【図3】連続音声認識と単語音声認識の両認識部のメニ
ューによる切り換えと文書作成例を示すイメージ図。
【図4】複数の単語辞書の選択メニューを示す図。
【図5】単語音声認識における全単語辞書を含む単語辞
書のメニューを示す図。
【図6】連続音声認識を行いながら部分的に単語音声認
識を行って文書を作成する手順を示す図。
【符号の説明】
1 文書作成装置 2 主エディタ 3 連続音声認識部 3-1 単語n-gram辞書 4 単語音声認識部 4-1 単語辞書 5 音響モデル 6 話者適応部 7 入力手段 8 表示装置
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/10 G10L 3/00 531M 15/00 551B 15/22 571V (72)発明者 大附 克年 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B009 KB01 MB06 ME12 5D015 AA01 BB01 HH06 HH12 KK01 KK03 LL08 LL10

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】入力された音声を音声音響特徴パラメータ
    群に分析する分析部と、その特徴パラメータの情報と言
    語情報に基づいて認識を行う音声認識機能を有する音声
    認識部と、その認識結果を用いて文書を作成する文書作
    成部を備えた文書作成装置において、 上記音声認識部が連続して発声された音声を認識する連
    続音声認識部と、単語として発声された音声を認識する
    単語音声認識部を備え、 上記両認識部を使用者が任意に切り替え可能な入力手段
    を備え、 両認識部を使用者が任意に切り替えながら文書を作成す
    ることを特徴とする文書作成装置。
  2. 【請求項2】上記単語音声認識部が複数の単語辞書を備
    え、上記複数の単語辞書の中から使用者が任意に一つの
    単語辞書を選択できる単語辞書選択手段を備えたことを
    特徴とする請求項1記載の文書作成装置。
  3. 【請求項3】上記複数の単語辞書の一つが他の単語辞書
    全ての単語項目を登録した全単語辞書を備えたことを特
    徴とする請求項2記載の文書作成装置。
  4. 【請求項4】入力された音声を音声音響特徴パラメータ
    群に分析する分析部と、その特徴パラメータの情報と言
    語情報に基づいて認識を行う音声認識機能を有する、連
    続して発声された音声を認識する連続音声認識部と、単
    語として発声された音声を認識する単語音声認識部を備
    え、上記両認識部を使用者が任意に切り替え可能な入力
    手段を備え、両認識部を使用者が任意に切り替え、その
    認識結果を用いて文書を作成する文書作成部を備えた文
    書作成装置において、 上記連続音声認識部を用いて文書を作成する手順1と、 使用者が上記入力手段からの音声コマンドにより上記連
    続音声認識部の連続音声認識を中断し、上記単語音声認
    識部を起動させ単語音声認識を行う手順2と、 単語音声認識終了後、再び連続音声認識を再開する手順
    3を備えたことを特徴とする文書作成方法。
JP24562099A 1999-08-31 1999-08-31 文書作成装置および文書作成方法 Pending JP2001067097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24562099A JP2001067097A (ja) 1999-08-31 1999-08-31 文書作成装置および文書作成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24562099A JP2001067097A (ja) 1999-08-31 1999-08-31 文書作成装置および文書作成方法

Publications (1)

Publication Number Publication Date
JP2001067097A true JP2001067097A (ja) 2001-03-16

Family

ID=17136401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24562099A Pending JP2001067097A (ja) 1999-08-31 1999-08-31 文書作成装置および文書作成方法

Country Status (1)

Country Link
JP (1) JP2001067097A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009529704A (ja) * 2006-03-10 2009-08-20 インフィニティー テレコム カンパニー リミテッド 移動通信端末装置を利用した通訳サービス方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009529704A (ja) * 2006-03-10 2009-08-20 インフィニティー テレコム カンパニー リミテッド 移動通信端末装置を利用した通訳サービス方法

Similar Documents

Publication Publication Date Title
US9786273B2 (en) Multimodal disambiguation of speech recognition
US7881936B2 (en) Multimodal disambiguation of speech recognition
JP4468264B2 (ja) 多言語による名称の音声認識のための方法とシステム
US7260529B1 (en) Command insertion system and method for voice recognition applications
US8571862B2 (en) Multimodal interface for input of text
KR101109265B1 (ko) 텍스트 입력 방법
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US20080133228A1 (en) Multimodal speech recognition system
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
JP2002116793A (ja) データ入力システム及びその方法
US20020069058A1 (en) Multimodal data input device
JP4230142B2 (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
JP2001067097A (ja) 文書作成装置および文書作成方法
JP2011039468A (ja) 電子辞書で音声認識を用いた単語探索装置及びその方法
JPH0968998A (ja) 音声認識方法及び音声認識装置
JP2001188556A (ja) 音声認識方法及び装置
KR100777569B1 (ko) 멀티모달을 이용한 음성 인식 방법 및 그 장치
JP2002073081A (ja) 音声認識方法と電子装置
JP2003216607A (ja) 電子翻訳装置
JPH05197390A (ja) 音声認識装置
JPH10171492A (ja) 電子辞書装置とその操作方法
JPS62180461A (ja) 音声入力かな漢字変換装置