WO2023139770A1

WO2023139770A1 - 文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体

Info

Publication number: WO2023139770A1
Application number: PCT/JP2022/002285
Authority: WO
Inventors: 泰弘芝▲崎▼
Original assignee: ファナック株式会社
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2023-07-27

Abstract

産業用機械を操作する音声コマンドの文法を記憶し、１つ又は複数のプロセッサが実行することにより、文法に基づき、文法の評価用の音声データの音声認識を行い、音声認識の認識結果と、評価用の音声データの正解データとを基に、認識結果の要約と前記文法とを関連付けて提示し、前記文法の加工を受け付ける。

Description

文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体

　本発明は、音声認識の文法作成支援装置、及びコンピュータが読み取り可能な記憶媒体に関する。

　現在、製造業などの産業分野では、ロボット、搬送機、工作機械、機械設備などの様々な機器が作動している。このような機器には、操作部を備えたものも多く、ＰＬＣ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｃｏｎｔｒｏｌｌｅｒ）、ＮＣ（Ｎｕｍｅｒｉｃａｌ　Ｃｏｎｔｒｏｌｌｅｒ）、制御盤など、各機器を制御するための機器自体も操作部を備えるものが多い。

　機器の操作部は、ボタンや操作画面が多いが、操作が複雑で習熟に時間を要することがある。音声入力インターフェースは、音声コマンドを発話するだけで目的の操作が実行できる。そのため、音声入力インターフェースを用いた操作性の向上が試みられている。

　機器の操作に使用する音声コマンドは、音声コマンドを使用する機器の種類、機器を設置する現場、機器の操作内容などにより想定することができる。そのため、想定される音声コマンドを文法（構文及び単語）で作成することができる。例えば、特許文献１参照。

特開平９－３２５７８７号公報

　作成した文法の精度が高いか否かは、評価データを用いて評価する。音声認識システムの作成者は、作成した文法を使用した場合の音声認識の精度を確認し、文法を編集する。音声認識の文法は、テキストで記載されることが多い。

　産業分野では、音声認識の文法作成を支援する技術が望まれている。

　本開示の一態様である文法作成支援装置は、産業用機器を操作する音声コマンドの文法を記憶する文法記憶部と、文法に基づき音声認識を行う音声認識部と、文法の評価用の音声データと評価用の音声データの正解データとを含む、評価用データを記憶する評価用データ記憶部と、音声認識部による、評価用データの認識結果の要約を、作成する認識結果評価部と、認識結果の評価の要約と文法とを関連付けて提示し、文法の加工を受け付ける文法加工部と、を備える。
　本開示の一態様である記憶媒体は、産業用機器を操作する音声コマンドの文法を記憶し、１つ又は複数のプロセッサが実行することにより、文法に基づき、文法の評価用の音声データの音声認識を行い、音声認識の認識結果と、評価用の音声データの正解データとを基に、認識結果の要約を、作成し、認識結果の要約と前記文法とを関連付けて提示し、文法の加工を受け付ける、プロセッサが読み取り可能な命令を記憶する。

　本発明の一態様により、音声認識の文法作成を支援することができる。

文法作成支援装置の構成を示すブロック図である。構文定義、及び単語定義の例を示す図である。評価用データの話者及び収録場所の組み合わせ例を示す図である。評価結果表示画面の例を示す図である。履歴表示画面の例を示す図である。文法の画像表示例を示す図である。文法の加工例を示す図である。文法作成支援装置の処理を説明するフローチャートである。文法作成支援装置のハードウェア構成である。

　以下、文法作成支援装置１００について説明する。
　文法作成支援装置１００は、演算部及び記憶部を備えた情報処理装置に実装される。このような情報処理装置として、例えば、ＰＣ（パーソナルコンピュータ）、携帯端末などがあるが、これに限定しない。

　図１に、文法作成支援装置１００の基本構成を示す。文法作成支援装置１００は、評価データ記憶部１１、目標性能登録部１２、音声認識部１３、文法記憶部１４、認識結果評価部１５、文法加工部１６、評価履歴記憶部１７から構成される。

　音声認識部１３は、音声データを入力し、入力した音声データの認識結果をテキスト形式で出力する。音声認識部１３は、一般的に、音響モデル、言語モデル、デコーダから構成される。音響モデルは、音声データを入力し、音声データの特徴量に基づき、音声データを構成する音素（セノン）を出力する。言語モデルは、単語列の出現確率を出力する。言語モデルは、音素に基づいて仮説の単語列を選択し、言語的にもっともらしい候補を出力する。デコーダは、統計的に作成した音響モデル及び言語モデルの出力に基づき、確率の高い単語列を認識結果として出力する。

　文法記憶部１４は、音声コマンドの文法を記憶する。音声コマンドは、産業分野の機器を操作する音声コマンドである。音声認識部１３は、文法に定義された音声コマンドを選択する。音声コマンドの文法は、構文と単語から構成される。文法記憶部１４は、構文を記憶する構文記憶部１８、単語を記憶する単語記憶部１９を備える。単語は、音声認識で認識させる単語と、単語の音素表現を含む。構文は、音声コマンドを構成する単語、及び単語の順序を定義する。本開示では、最初にベースとなる文法を作成する。ベースとなる文法は、現場での使用が想定されるできるだけ多くの音声コマンドをカバーするよう、網羅的に作成される。文法作成支援装置１００では、評価用データの認識結果を基にベースとなる文法を加工することで適切な文法を作成する支援を行う。ベースとなる文法は、音声コマンドを認識する機器の種類、作業内容などによって決まる。

　図２に、構文定義の例、及び、単語定義の例を示す。構文定義の例では、音声コマンドを構成する単語、及び単語の順序を定義する。図２の構文定義の１行目「Ｓ：ＮＳ＿Ｂ　ＣＯＭＭＡＮＤ　ＮＳ＿Ｅ」において、“Ｓ”は音声コマンドの開始記号、“ＮＳ＿Ｂ”と“ＮＳ＿Ｅ”は文頭及び文末の無音区間である。無音区間の間に構文の要素「ＣＯＭＭＡＮＤ」が存在する。
　２行目及び３行目は、「ＣＯＭＭＡＮＤ」に入る「タグ」を定義している。２行目は構文の要素「ＣＯＭＭＡＮＤ」にタグ「ＲＯＢＯＴ」「ＩＮＴＥＲＦＡＣＥ」が入ることを定義しており、３行目は構文の要素「ＣＯＭＭＡＮＤ」にタグ「ＮＡＩＧＡＩ」「ＩＮＴＥＲＦＡＣＥ」が入ることを定義している。

　単語定義の１、２行目は、タグ「ＲＯＢＯＴ」の日本語表記と、音素表記を定義している。タグ「ＲＯＢＯＴ」の日本語表記は「ロボット」であり、音素表記は「ｒｏｂｏｑｔｏ」である。単語定義の３～５行目は、タグ「ＮＡＩＧＡＩ」に入る日本語の日本語表記と、音素表記を定義している。タグ「ＮＡＩＧＡＩ」には、「外部」と「内部」の２つの日本語が入る。「外部」の音素表記は「ｇａｉｂｕ」であり、「内部」の音素表記は「ｎａｉｂｕ」である。単語定義の６～８行目は、タグ「ＩＮＴＥＲＦＡＣＥ」に入る日本語の日本語表記と、音素表記を定義している。タグ「ＩＮＴＥＲＦＡＣＥ」には、「インターフェース」という１つの日本語が入る。「インターフェース」には２種類の音素表記「ｉＮｔａｆｅ：ｓｕ」と「ｉＮｔａ：ｆｅｉｓｕ」がある。「％ＮＳ＿Ｂ」は文頭の無音区間［ｓ］を定義しており、「％ＮＳ＿Ｅ」は文末の無音区間［／ｓ］を定義している。

　評価データ記憶部１１は、複数の話者が複数の収録場所で録音した音声コマンドを含む音声データと、音声データに対する正解テキストである正解データとを関連付けて記憶する。例えば、複数の話者が複数の収録場所で「外部インターフェース」と発話した音声データと、「外部インターフェース」という正解データ（テキスト）とを関連付けて記憶する。
　評価用データには、属性（性別、年齢）の異なる話者による、異なる収録場所で収録した音声データが含まれる。図３は、評価用データの話者と収録場所の関係を示す表である。図３の評価用データには、話者Ａ（男、６０才）が工場Ａ及び工場Ｂで収録した音声、話者Ｂ（女、３０才）が工場Ｃ、工場Ｄで収録した音声などが含まれる。

　目標性能登録部１２は、音声認識の目標性能の登録を受け付ける。目標性能登録部１２では、音声コマンドの正解率、音声コマンドの種類ごとの正解率、音声認識の処理時間（平均値）などの目標値を受け付ける。目標性能の登録内容は、後述する評価結果表示画面に反映される。

　認識結果評価部１５は、評価データ記憶部に記憶する正解のテキストと、音声データの認識結果と比較し、文法の評価結果の要約を作成し、作成した要約を表示部に表示する。図４は、認識結果表示画面の例である。図４の例では、音声コマンド全体の評価と、音声コマンドの種類ごとの評価とを表示する。音声コマンドの種類には、例えば、承認コマンド、数値コマンド、遷移コマンドなどがある。承認コマンドとは、承認を示すコマンドである。承認コマンドには、「はい」「いいえ」「イエス」「ノー」「実行します」「中止します」などがあるものとする。数値コマンドは、「０．５」「１」「２」「１００」などの数値を指定するコマンドである。「遷移コマンド」は、「ホーム画面」「速度設定画面」などの表示画面を指定するコマンドである。その他、「ワークをセットして」の様に機器の動きを指示する「機械操作コマンド」も考えられる。認識結果表示画面には、音声認識の処理時間を表示してもよい。また、目標性能登録部で登録した目標性能を表示してもよい。

　認識結果評価部１５は、認識結果の履歴を表示するようにしてもよい。図５は履歴表示画面である。履歴表示画面では、過去の音声認識に関するデータが選択できるようになっている。図５の例では、評価結果の識別番号と音声認識を実行した時間が表示されている。時間もしくは識別番号を選択すると、選択された音声認識の評価と、音声認識に使用した文法が表示される。なお、履歴表示画面は、過去の認識結果を比較、選択できる構成であればよく、図５の配置に限定されない。

　文法加工部１６は、文法の加工（編集）を受け付ける。文法の作成者は、音声認識の評価結果と、その評価結果に対応する文法を確認しながら文法を加工（編集）することができる。

　文法は、テキストで表示してもよいし、画像で表示してもよい。文法を画像で表示する場合には、音声コマンドの音響的距離を算出し、単語と単語のパスをリンクで接続する。音響的距離は、評価用データの音声データ又は正解データから算出してもよいし、文法の音素表記から算出してもよい。
　文法の画像表示例を図６に示す。図６は、図２の構文定義及び単語定義の画像表示例である。図２の文法では、文法の要素「ＣＯＭＭＡＮＤ」の中に、「ＲＯＢＯＴ」「ＩＮＴＥＲＦＡＣＥ」と、「ＮＡＩＧＡＩ」「ＩＮＴＥＲＦＡＣＥ」で定義した単語が入る。
　文法加工部１６は、これらの単語の音響的距離を求める。図６の例では、「ｎａｉｂｕ」と「ｇａｉｂｕ」、「ｉＮｔａｆｅ：ｓｕ」と「ｉＮｔａ：ｆｅｉｓｕ」が音響的に近いので近い位置に表示される。「ｒｏｂｏｑｔｏ」は、他のどの単語とも音響的に遠いので遠い位置に表示される。文法加工部１６は、構文に含まれ得る単語を画面に配置し、その単語の間のパスをリンクで接続する。例えば、図６の例では、「ＲＯＢＯＴ」に入る単語と「ＩＮＴＥＲＦＡＣＥ」に入る単語、及び「ＮＡＩＧＡＩ」に入る単語と「ＩＮＴＥＲＦＡＣＥ」に入る単語を、リンクで接続する。

　単語の配置には、公知のネットワークの可視化手法を用いる。ネットワークの可視化手法の１つとしてばねモデルを例示する。本開示のばねモデルでは、単語をノードとしみなし、任意の２ノード間の音響的距離を算出する。２ノード間の音響的距離をばねの長さとみなし、２ノード間を空間に配置する。単語をグラフに配置したのち、構文を用いて、
単語と単語の間をリンクで接続する。

　音声の誤認識が発生しやすい箇所、音素の距離が近い部分、正解データと音声認識結果の適合率、単語の出現率、音素の一致部分などを視覚的に表現してもよい。音素の一致部分としては、「ｎａｉｂｕ」と「ｇａｉｂｕ」に含まれる音素「ａｉｂ」がある。音素の距離が近い部分の例としては、「ｉＮｔａ：ｆｅｉｓｕ」に含まれる音素「ａｆｅ：」と「ｉＮｔａ：ｆｅｉｓｕ」に含まれる音素「：ｆｅｉ」がある。図６の例では、太字を用いて、これらを強調表示している。出現率の高さ、適合率の高さなどは、文字の大きさで表現してもよい。

　図７は、図６の文法の修正例である。図７では、「ｎａｉｂｕ」のリンクを外している。文法の作成者は、例えば、「ｎａｉｂｕ」と「ｇａｉｂｕ」の誤認識が発生しており、仕様上「ｎａｉｂｕ」を使わなくても問題がない場合には、「ｎａｉｂｕ」のリンクを外すことができる。仕様上「ｎａｉｂｕ」という単語が必要であれば、「ｎａｉｂｕ」を手動で残すことができる。
　本開示の文法作成支援装置１００では、仕様から外せない単語及び構文を、作成者の判断で残すことができる。

　文法の加工と、認識結果の評価は繰り返し行う。文法の作成者は、文法の加工に対する認識結果の評価（例えば、正解率）を確認し、仕様に準拠した範囲で文法を加工し、文法をカスタマイズすることができる。

　評価履歴記憶部１７は、認識結果と文法とを関連付けて記憶する。評価履歴記憶部１７が記憶する文法を選択すると、図４に示した評価結果表示画面が表示される。文法の作成者は、音声認識の正解率などの要約情報を参照しながら、文法の加工を行う。要約情報の確認方法の例として、「はい」「いいえ」などの承認コマンドは、最終的な確認に用いられるので、高い正解率が要求される。数値を指定する数値コマンドも高い正解率が要求される。画面遷移を指定する遷移コマンドは、承認コマンドや数値コマンドと比較して、低い正解率でもよい。文法の作成者は、このような性能目標を登録し、現場ごとのニーズを考慮しながら文法を加工することができる。

　図８を参照して、文法作成支援装置１００の処理を説明する。
　文法作成支援装置１００は、準備ステップとして、音声認識の目標性能の登録と（ステップＳ１）、音声認識の評価履歴の保存数の登録を受け付ける（ステップＳ２）。文法作成装置は、文法の評価用データを取得する（ステップＳ３）。

　文法の作成者は、現場の仕様を元にベースとなる文法を作成する。ベースとなる文法は、機器のユーザからの要望に合わせて、できる限り網羅的に作成する。文法作成支援装置１００は、ベースとなる文法を記憶する（ステップＳ４）。

　文法作成支援装置１００は、登録した文法を用いて評価用データの音声認識を行う（ステップＳ５）。文法作成支援装置１００は、ステップＳ５の認識結果を要約して作成者に提示する（ステップＳ６）。作成者は、認識結果を確認し、文法が完成したと判断した場合には（ステップＳ７；ＹＥＳ）、文法の作成を終了する。

　作成者が、認識結果を確認し、文法の修正が必要であると判断した場合には（ステップＳ７；ＮＯ）、先に作成した文法と認識結果の要約を認識結果記憶部に記憶し、文法の加工を受け付ける（ステップＳ８）。文法作成支援装置１００は、ステップＳ８で加工した文法を登録し、ステップＳ５に移行し、登録した文法を用いて音声認識を行う。文法の作成者は、過去に作成した文法と新たに作成した文法を比較する。文法作成支援装置１００は、文法が完成したと作成者が判断するまで、ステップＳ５からステップＳ８までの処理を繰り返す。

　以上説明したように、本開示の文法作成支援装置１００は、音声コマンドの文法作成を支援する装置であって、作成した文法で評価データの音声認識を行い、評価データの認識結果を要約し、要約結果を文法の作成者に提示する。
　評価データの認識結果は、音声コマンド全体、音声コマンドの種類ごとに算出される。目標性能は、音声コマンドの種類ごとに異なる。文法の作成者は、それぞれの音声コマンドの種類ごとに目標性能を達成するように、文法を加工することができる。

　文法は、テキストで表示してもよいし、画像で表示してもよい。画像で表示する場合には、単語の音響的距離を用いて、構文に従い単語（ノード）をリンクで接続する。音響的距離を用いて単語を配置するため、文法の構造を視覚的に判断することができる。

　音響的距離は、評価データの音声データから算出してもよいし、テキストで表現した音素から算出してもよい。音声データからの音響的距離の算出方法には、分布間距離などがある。テキストで表現した音素から音響的距離の算出方法には、コサイン距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離、ハミング距離などがある。音響的距離の算出方法は限定しない。コサイン距離、ユークリッド距離、レーベンシュタイン距離、ジャロ・ウィンクラー距離、ハミング距離は、公知である。

　産業用機器は、工場などの雑音の発生する現場に設置される。雑音は、現場または時間帯ごとに特性がある。本開示では、機器の設置される現場で評価用データを取得し、現場固有の雑音を考慮した評価を行う。

　産業用機器の操作では、現場固有の専門用語が存在し、特定の決まった用語のみを高頻度で使用することもある。網羅的に作成した文法には、実際には使用しない単語や構文が存在するが、実際に現場で使用される用語を予め知ることは困難である。本開示では、網羅的に文法を作成し、現場で使用しない単語や構文を削除して音声認識の正解率を向上する。また、本開示では、使用頻度が低い文法を全て削除するのではなく、正解率を犠牲にしても、仕様上必要な単語や文法を残すことも可能である。なお、必要に応じて、単語や構文を追加してもよい。

［ハードウェア構成］
　図９を参照して、文法作成支援装置１００のハードウェア構成を説明する。文法作成支援装置１００が備えるＣＰＵ１１１は、文法作成支援装置１００を全体的に制御するプロセッサである。ＣＰＵ１１１は、バスを介してＲＯＭ１１２に加工されたシステムプログラムを読み出し、該システムプログラムに従って文法作成支援装置１００の全体を制御する。ＲＡＭ１１３には、一時的な計算データや表示データ、入力部７１を介してユーザが入力した各種データ等が一時的に格納される。

　表示部７０は、文法作成支援装置１００に付属のモニタなどである。表示部７０は、文法作成支援装置１００の操作画面や設定画面などを表示する。

　入力部７１は、表示部７０と一体、又は、表示部７０とは別のキーボード、タッチパネル、操作ボタンなどである。ユーザは入力部７１を操作して、表示部７０に表示された画面への入力などを行う。なお、表示部７０及び入力部７１は、携帯端末でもよい。

　不揮発性メモリ１１４は、例えば、図示しないバッテリでバックアップされるなどして、文法作成支援装置１００の電源がオフされても記憶状態が保持されるメモリである。不揮発性メモリ１１４は、加工プログラム、システムプログラム、使用可能なオプション、課金表などを記憶する。不揮発性メモリ１１４には、図示しないインターフェースを介して外部機器から読み込まれたプログラムや入力部７１を介して入力されたプログラム、文法作成支援装置１００の各部や工作機械等から取得された各種データ（例えば、工作機械から取得した設定パラメータ等）が記憶される。不揮発性メモリ１１４に記憶されたプログラムや各種データは、実行時／利用時にはＲＡＭ１１３に展開されてもよい。また、ＲＯＭ１１２には、各種のシステムプログラムがあらかじめ書き込まれている。

　　１００　文法作成支援装置
　　１１　　評価データ記憶部
　　１２　　目標性能登録部
　　１３　　音声認識部
　　１４　　文法記憶部
　　１５　　認識結果評価部
　　１６　　文法加工部
　　１７　　評価履歴記憶部
　　１８　　構文記憶部
　　１９　　単語記憶部
　　７０　　表示部
　　７１　　入力部
　　１１１　ＣＰＵ
　　１１２　ＲＯＭ
　　１１３　ＲＡＭ
　　１１４　不揮発性メモリ

Claims

　産業用機器を操作する音声コマンドの文法を記憶する文法記憶部と、
　前記文法に基づき音声認識を行う音声認識部と、
　前記文法の評価用の音声データと前記評価用の音声データの正解データとを含む、評価用データを記憶する評価用データ記憶部と、
　前記音声認識部による、前記評価用データの認識結果の要約を、作成する認識結果評価部と、
　前記認識結果の評価の要約と前記文法とを関連付けて提示し、前記文法の加工を受け付ける文法加工部と、
　を備える文法作成支援装置。
　前記認識結果評価部は、音声データの種類ごとに要約を作成する、請求項１記載の文法作成支援装置。
　前記文法加工部は、前記文法を構成する単語の音響的距離を可視化し、単語間をリンクで接続することにより、請求項１記載の文法作成支援装置。
　前記文法加工部は、前記単語、又は、前記単語間のリンクの削除、又は、追加を受け付ける、請求項３記載の文法作成支援装置。
　前記要約は、音声認識の正解率又は音声認識の処理時間の少なくとも１つを含む、請求項１記載の文法作成支援装置。
　前記認識結果、又は、要約の少なくとも１つの履歴を記憶する評価履歴記憶部を備える、請求項１記載の文法作成支援装置。
　前記評価履歴記憶部に記憶した複数の認識結果、又は、要約を比較可能な形式で提示する、請求項６記載の文法作成支援装置。
　産業用機器を操作する音声コマンドの文法を記憶し、
　１つ又は複数のプロセッサが実行することにより、
　前記文法に基づき、前記文法の評価用の音声データの音声認識を行い、
　前記音声認識の認識結果と、前記評価用の音声データの正解データとを基に、認識結果の要約を、作成し、
　前記認識結果の要約と前記文法とを関連付けて提示し、前記文法の加工を受け付ける、
　前記プロセッサが読み取り可能な命令を記憶する記憶媒体。