JP2022503255A

JP2022503255A - 音声情報処理方法、装置、プログラム及び記録媒体

Info

Publication number: JP2022503255A
Application number: JP2019562645A
Authority: JP
Inventors: 毅牛; 宏宇王; 学芳呉
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-09-09
Filing date: 2019-10-15
Publication date: 2022-01-12
Anticipated expiration: 2039-10-15
Also published as: US11270693B2; EP3790001A1; KR20210032875A; EP3790001B1; CN112562675B; WO2021046958A1; CN112562675A; JP7116088B2; KR102334299B1; RU2733816C1; US20210074273A1

Abstract

本開示は、音声情報処理方法、装置、プログラム及び記録媒体に関する。方法は、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含むステップと、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むステップと、対象単語及び対象単語に対応するファジー単語を出力するステップと、を含む。本開示の技術によれば、同音異義語や発音が紛らわしい単語を正確に認識できないという従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。
【選択図】図２

Description

本開示は、情報技術分野に関し、特に、音声情報処理方法、装置及び記録媒体に関する。

情報技術の急速な発展に伴い、音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）技術が急速に発展している。音声認識は、コンピュータにより音声をテキストに自動的に変換する総合的な応用技術であり、信号処理、パターン認識、機械学習、数値解析、自然言語処理、高性能計算などの一連の基礎研究の優れた成果を統合した、複数の分野や学科に跨る応用研究であり、言語学習などの分野に広く利用されている。

関連技術における音声認識技術は、通常、統計的パターン認識アルゴリズムにより収集された音声情報を認識する。しかしながら、言語学習などの分野については、英語などの言語に多数の同音異義語や発音が紛らわしいものがあるため、関連技術における音声認識技術によってこれらの単語を正確に認識することは困難である。

関連技術に存在する問題を解決するために、本開示は、音声情報処理方法、装置及び記録媒体を提供する。

本開示の実施例の第１の態様によれば、音声情報処理方法を提供し、この方法は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定するステップであって、テキスト情報が単語を含むステップと、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップであって、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むステップと、
対象単語及び対象単語に対応するファジー単語を出力するステップと、を含む。

代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するステップを含む。

代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
対象単語に対応する音素シーケンスが第１の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、対象単語に対応するファジー単語として選択するステップを含み、
条件は、
対応する音素シーケンスは、第１の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第１の既定のタイプの音素の位置は、基準シーケンスにおける第１の既定のタイプの音素の位置と同じであり、
この音素シーケンスに含まれる第１の既定のタイプの音素以外の音素からなる第１音素シーケンスは、基準シーケンスにおける第１の既定のタイプの音素以外の音素からなる第２音素シーケンスと同一である。

代替的に、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定するステップは、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第２の既定のタイプの音素である場合、この音素シーケンスに含まれる第２の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するステップを含む。

代替的に、対象単語及び対象単語に対応するファジー単語を出力するステップは、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするステップと、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するステップと、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するステップと、を含む。

本開示の実施例の第２の態様によれば、音声情報処理装置を提供し、装置は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含むように構成される第１決定モジュールと、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むように構成される第２決定モジュールと、
対象単語及び対象単語に対応するファジー単語を出力するように構成される出力モジュールと、を含む。

代替的に、第２決定モジュールは、発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第１選択サブモジュールを含む。

代替的に、第２決定モジュールは、
対象単語に対応する音素シーケンスが第１の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を対象単語に対応するファジー単語として選択するように構成される第２選択サブモジュールを含み、
条件は、
対応する音素シーケンスは、第１の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第１の既定のタイプの音素の位置は、基準シーケンスにおける第１の既定のタイプの音素の位置と同じであり、
この音素シーケンスに含まれる第１の既定のタイプの音素以外の音素からなる第１音素シーケンスは、基準シーケンスにおける第１の既定のタイプの音素以外の音素からなる第２音素シーケンスと同一である。

代替的に、第２決定モジュールは、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第２の既定のタイプの音素である場合、この音素シーケンスに含まれる第２の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択するように構成される第３選択サブモジュールを含む。

代替的に、出力モジュールは、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするように構成される順位付けサブモジュールと、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するように構成される第１出力サブモジュールと、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するように構成される第２出力サブモジュールと、を含む。

本開示の実施例の第３の態様によれば、音声情報処理装置を提供し、音声情報処理装置は、
プロセッサと
プロセッサで実行可能な命令を記憶するためのメモリと、
を備え、
プロセッサは、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含み、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスとを含み、
対象単語及び対象単語に対応するファジー単語を出力するように構成される。

本開示の実施例の第４の態様によれば、コンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記録媒体を提供し、コンピュータプログラム命令がプロセッサにより実行される場合、本開示の第１の態様により提供される音声情報処理方法に含まれるステップが実行される。

本発明が提供する技術によれば、下記のような有益な効果を奏することができる。音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、且つ、ユーザが選択できるように、対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。

なお、一般的な記載及び後述の詳細な記載は、単なる例示的な記載であり、本発明はこれに対し限定されるものではない。

以下の図面は、明細書に組み入れて本明細書の一部分を構成し、本開示に該当する実施例を例示するとともに、明細書とともに本発明の原理を説明する。
例示的な一実施例に係る実施環境の模式図である。例示的な一実施例に係る音声情報処理方法のフローチャートである。例示的な一実施例に係る音声情報処理装置のブロック図である。他の例示的な実施例に係る音声情報処理装置のブロック図である。例示的な一実施例に係る音声情報処理方法を実行する装置のブロック図である。他の例示的な実施例に係る音声情報処理方法を実行する装置のブロック図。

以下、例示的な実施例を詳しく説明し、その例示を図面に示す。図面に関する以下の記載は、特に別の説明がない限り、異なる図面における同一符号は、同じ又は類似する要素を示す。以下の例示的な実施例に記載の実施形態は、本開示と一致する全ての実施形態を代表するものではない。逆に、それらは、添付の特許請求の範囲に記載されているように、本開示の一部の側面に相当する装置及び方法の例に過ぎない。

なお、本開示の明細書、特許請求の範囲及び上記の図面における「第１」や「第２」など用語は、類似する対象を区別するためのものであり、特定の順序又は先後関係を説明するものではない。

本開示の実施形態により提供される音声情報処理方法を説明する前に、まず、本開示の実施形態に係る実装環境について説明する。図１は、本開示の実施例に係る実施環境の模式図である。図１に示すように、本開示の実施例に係る実施環境は、ユーザ端末１０とサーバ２０とを含む。また、ユーザ端末１０は、サーバ２０と通信可能に接続される。ユーザ端末１０は、その内蔵の音声収集装置（例えばマイクロフォン）により、ユーザが入力した音声情報を収集し、収集された音声情報をサーバ２０に送信する。サーバ２０は、収集された音声情報を処理して音声情報に対応するテキスト情報と、テキスト情報に含まれる単語に対応するファジー単語を決定し、その後、テキスト情報に含まれる単語及び当該単語に対応するファジー単語をユーザ端末１０に送信する。ユーザ端末１０は、ユーザが選択できるように、サーバからフィードバックされた単語及びそれに対応するファジー単語を表示することができる。

なお、この実施環境では、様々な有線又は無線技術を用いてユーザ端末１０とサーバ２０との間の通信接続を確立することができる。例えば、接続方式には、ブルートゥース（登録商標）、Ｗｉ－Ｆｉ（登録商標）（Ｗｉｒｅｌｅｓｓ－Ｆｉｄｅｌｉｔｙ、ワイファイ）、２Ｇネットワーク、３Ｇネットワーク、４Ｇネットワークなどが含まれるが、これらに限定されない。ユーザ端末１０は、例えば、スマートフォン、タブレット、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、個人向け携帯型情報端末機器）、スマートウェアラブルデバイスなどであってもよい。サーバ２０は、音声情報処理機能を提供可能な任意のデバイスであってもよい。

なお、本開示の実施例により提供される音声情報処理方法は、ユーザ端末１０のローカルで実行されてもよい。具体的には、ユーザ端末１０は、その内蔵の音声収集装置（例えばマイクロフォン）により音声情報を収集し、収集された音声情報を処理して、音声情報に対応するテキスト情報と、テキスト情報に含まれる単語に対応するファジー単語を決定する。その後、ユーザが選択できるように、その表示装置（例えば表示画面）により、テキスト情報に含まれる単語及び当該単語に対応するファジー単語を出力して表示させることができる。
図１に示す実施環境において、本開示の実施例は、音声情報処理方法を提供する。この方法は、図１に示すユーザ端末１０又はサーバ２０によって実行される。図２を参照すると、図２は、例示的な一実施例に係る音声情報処理方法のフローチャートを示しており、この方法は、以下のステップを含む。

ステップＳ２０１において、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定する。ここで、テキスト情報には、単語が含まれる。

具体的に実施する場合、まず、収集された音声情報に対してノイズ低減、フレーミング処理、プリエンファシス及びウィンドウ処理などの前処理を行う。そして、処理後の音声情報に対して特徴抽出を行い、その後、抽出された特徴を、予め用意した音声認識モデルに入力し、対応するテキスト情報を取得することができる。ここで、この音声認識モデルは、大量の音声情報と。それらに対応するテキストを用いて学習させることで得られる。例示的に、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）やニューラルネットワークモデル（ＮｅｕｒａｌＮｅｔｗｏｒｋ、ＮＮ）であってもよく、本開示の実施例は、これらに限定しない。

なお、収集された音声情報に対して前処理及び特徴抽出を行う具体的な態様は、本技術分野で公知であるため、本開示の実施例において詳細な説明は省略する。

また、本技術分野で公知の他の音声認識技術を用いて収集された音声情報を処理して、音声情報に対応するテキスト情報を決定することもできる。本開示の実施例は、これに限定しない。

ステップＳ２０２において、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定する。ここで、発音辞書には、複数の単語と各単語に対応する音素シーケンスが含まれる。

本開示の実施例において、音素は、音声の最小単位であり、音素シーケンスは、複数の音素を統合した順序付きシーケンスである。発音辞書を検索することにより、対象単語に対応する音素シーケンスを決定することができる。例えば、単語が「ｂａｄ」である場合、対応する音素シーケンスは、／ｂ／、／ａｓｈ（ａとｅの中間音に相当する発音記号）／、／ｄ／の３つの音素を含む。具体的に実施する場合、複数の言語の発音辞書を予め用意し、収集された音声に対応する言語を用いて、その言語に対応する発音辞書を選択することができる。例えば、音声に対応する言語が英語である場合、英語の発音辞書を選択する。

具体的に実施する場合、英語などの言語において、同音異義語の区別が難しい場合、区別しにくい音素（例えば／ａｓｈ（ａとｅの中間音に相当する発音記号）／及び／ｅ／）を含む単語が紛らわしい場合（例えばｂｉｔｅ及びｂｕｙ）、最初又は最後の音素が無声子音である単語が他の単語と紛らわしい場合などを考慮すると、ステップＳ２０１は、以下の３つの代替的な実施形態のうちの少なくとも１つにより実現してもよい。

実施形態１、同音異義語について
同音異義語に対応する音素シーケンスが同一であるため、具体的に実施する場合、発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択する。例えば、対象単語がｔｗｏである場合、その音声記号は／ｔｕ：／であり、対応する音素シーケンスは／ｔ／、／ｕ：／であり、対応する発音辞書から音素シーケンスが同一の単語ｔｏｏを、対象単語ｔｗｏのファジー単語として選択する。同様に、対象単語がｂｅである場合、対応する発音辞書から音素シーケンスが対象単語ｂｅの音素シーケンス（／ｂ／、／ｉ：／）と同一である単語ｂｅｅを、この対象単語ｂｅのファジー単語として選択する。

実施形態２、区別しにくい音素を含む単語について
具体的に、対象単語に対応する音素シーケンスが第１の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、対象単語に対応するファジー単語として選択する。この条件は、（１）対応する音素シーケンスは、第１の既定のタイプの音素を含み、且つ、この音素シーケンスにおける、この第１の既定のタイプの音素の位置は、基準シーケンスにおける第１の既定のタイプの音素の位置と同じであり、（２）この音素シーケンスに含まれる第１の既定のタイプの音素以外の音素からなる第１音素シーケンスは、基準シーケンスにおける第１の既定のタイプの音素以外の音素からなる第２音素シーケンスと同一である。ここで、第１の既定のタイプの音素は、実際の需要に応じてユーザ又はメーカによって設定されてもよい。例えば／ａｓｈ（ａとｅの中間音に相当する発音記号）／、／ｅ／、／ａ：／などの区別しにくい音素を含むことができるが、これらに限定されない。

例えば、対象単語がｂｅｄである場合、それに対応する音声記号は／ｂｅｄ／であり、対応する音素シーケンスは、／ｂ／、／ｅ／、／ｄ／であり、第１の既定のタイプの音素／ｅ／を含む。そのため、発音辞書の単語から単語ｂａｄ（対応する音素シーケンスが／ｂ／、／ａｓｈ（ａとｅの中間音に相当する発音記号）／、／ｄ／である）を、この対象単語ｂｅｄのファジー単語として選択することができる。

実施形態３、対応する最初又は最後の音素が無声子音である単語について
このような場合、音声情報を認識する際に、この単語の無声子音の音素が無視され、認識結果が不正確になるおそれがある。例えば、単語ｂｉｔｅが単語ｂｕｙとして誤って認識され易い。そのため、対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第２の既定のタイプの音素である場合、この音素シーケンスに含まれるこの第２の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスが、この新たな音素シーケンスと同一である単語を、対象単語に対応するファジー単語として選択する。ここで、第２の既定のタイプの音素は、実際の需要に応じてユーザ又はメーカによって設定されてもよく、第２の既定のタイプの音素は、例えば／ｐ／、／ｔ／、／ｋ／、／ｓ／、／ｆ／などの無声子音の音素を含むことができるが、これらに限定されない。

例えば、対象単語がｂｉｔｅである場合、それに対応する音声記号は／ｂａｉｔ／であり、対応する音素シーケンスは／ｂ／、／ａｉ／、／ｔ／であり、その最後の音素は、第２の既定のタイプの音素であり、音素／ｔ／以外の音素を新たな音素シーケンス／ｂ／、／ａｉ／として統合し、発音辞書からこの新たな音素シーケンスと同一の単語ｂｕｙを、対象単語ｂｉｔｅに対応するファジー単語として選択する。

ステップＳ２０３において、対象単語及び対象単語に対応するファジー単語を出力する。

代替的な一実施形態において、対象単語及び対象単語に対応する全てのファジー単語を出力することができる。

他の代替的な実施形態において、対象単語が大量のファジー単語に対応する可能性があることを考慮すると、ユーザが選択できるように全てのファジー単語を出力する場合、ユーザ体験に影響を与える可能性がある。そのため、既定の優先度に応じて対象単語に対応するファジー単語を順位付けすることができる。対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力する。対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて、対象単語及び対象単語に対応する全てのファジー単語を出力する。例えば、既定の優先度が高いものから順に、対象単語に対応する全てのファジー単語を降順で順位付けしてもよい。ファジー単語の数が既定の数Ｎより大きい場合、順位付け結果に応じて、最初からＮ位までのファジー単語を選別して、対象単語及びこのＮ個のファジー単語を出力表示する。代替的に、既定の優先度が低いものから順に、対象単語に対応する全てのファジー単語を昇順で順位付けしてもよい。ファジー単語の数が既定の数Ｎより大きい場合、順位付け結果に応じて、最後からＮ位までのファジー単語を選別して、対象単語及びこのＮ個のファジー単語を出力表示する。

ここで、既定の数と既定の優先度は、実際の需要に応じてユーザ又はメーカによって設定されてもよい。既定の数は、例えば１０～２０の任意の整数であってもよい。既定の優先度は、例えば（１）上記の第１実施形態により決定されたファジー単語（即ち、対象単語の発音と同一のファジー単語）＞他の実施形態により決定されたファジー単語、（２）上記の第２実施形態により決定されたファジー単語に関し、音素／ｅ／を含む対象単語について、音素／ａｓｈ（ａとｅの中間音に相当する発音記号）／を含むファジー単語＞音素／ａ：／を含むファジー単語、（３）日常生活において使用頻度が高いファジー単語＞日常生活において使用頻度が低いファジー単語などとすることができる。

なお、上記の実施例に記載の音声情報処理方法がユーザ端末によって実行される場合、ユーザ端末の処理ユニットは、ユーザがこれらの単語から正しい単語を選択できるように、対象単語及び対象単語に対応するファジー単語を、ユーザ端末の表示装置（例えば表示画面）に出力して表示させることができる。上記の実施例に記載の音声情報処理方法がサーバによって実行される場合、サーバは、対象単語及び対象単語に対応するファジー単語を、サーバと通信可能に接続されたユーザ端末に送信し、ユーザ端末は、ユーザがこれらの単語から正しい単語を選択できるように、対象単語及び当該対象単語に対応するファジー単語を表示する。

上記の音声認識方法によれば、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、ユーザが選択できるように対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという、従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。

本開示の実施例は、図１に示すユーザ端末１０又はサーバ２０に適用可能な情報処理装置をさらに提供する。図３を参照すると、図３は、例示的な一実施例に係る音声情報処理装置のブロック図であり、この装置３００は、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報が単語を含むように構成される第１決定モジュール３０１と、
テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、発音辞書が複数の単語と各単語に対応する音素シーケンスを含むように構成される第２決定モジュール３０２と、
対象単語及び対象単語に対応するファジー単語を出力するように構成される出力モジュール３０３と、を含む。

代替的に、図４に示すように、第２決定モジュール３０２は、
発音辞書の単語から、対応する音素シーケンスが対象単語に対応する音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第１選択サブモジュール３２１を含む。

代替的に、図４に示すように、第２決定モジュール３０２は、
対象単語に対応する音素シーケンスが第１の既定のタイプの音素を含む場合、対象単語に対応する音素シーケンスを基準シーケンスとし、発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を対象単語に対応するファジー単語として選択するように構成される第２選択サブモジュール３２２を含む。

条件は、対応する音素シーケンスは、第１の既定のタイプの音素を含み、且つ、この音素シーケンスにおける第１の既定のタイプの音素の位置は、基準シーケンスにおける第１の既定のタイプの音素の位置と同じであり、この音素シーケンスに含まれる第１の既定のタイプの音素以外の音素からなる第１音素シーケンスは、基準シーケンスにおける第１の既定のタイプの音素以外の音素からなる第２音素シーケンスと同一である。

代替的に、図４に示すように、第２決定モジュール３０２は、
対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第２の既定のタイプの音素である場合、この音素シーケンスに含まれる第２の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を対象単語に対応するファジー単語として選択するように構成される第３選択サブモジュール３２３を含む。

代替的に、図４に示すように、出力モジュール３０３は、
既定の優先度に応じて対象単語に対応するファジー単語を順位付けするように構成される順位付けサブモジュール３３１と、
対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて対象単語に対応する全てのファジー単語から既定の数のファジー単語を選別し、対象単語及び選別されたファジー単語を出力するように構成される第１出力サブモジュール３３２と、
対象単語に対応するファジー単語の数が既定の数以下である場合、順位付け結果に応じて対象単語及び対象単語に対応する全てのファジー単語を出力するように構成される第２出力サブモジュール３３３と、を含む。

上記の実施例における装置に関して、各モジュールが実行する処理の具体的な内容については、当該方法に関する実施例において詳細に説明したため、ここで詳細に説明しない。

また、説明を簡潔にするために、簡単な上記の機能モジュールの構成を例にして説明したが、実際の応用では、上記の機能は、必要に応じて異なる機能モジュールによって実現してもよく、つまり、装置の内部構造を異なる機能モジュールに分割して、上記の機能の全部又は一部を実現可能であることを、当業者であれば明確に知ることができる。

上記の音声認識装置によれば、音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、テキスト情報に含まれる単語を対象単語とし、対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、対象単語に対応するファジー単語を決定し、ユーザが選択できるように対象単語及び対象単語に対応するファジー単語を出力することにより、同音異義語や発音が紛らわしい単語を正確に認識できないという、従来の音声認識技術の問題を解決し、ユーザ体験を向上させることができる。

本開示は、コンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記録媒体をさらに提供し、コンピュータプログラム命令がプロセッサにより実行される場合、本開示により提供される音声情報処理方法に含まれるステップが実行される。

本開示は、音声情報処理装置をさらに提供し、装置は、プロセッサと、プロセッサで実行可能な命令を記憶するためのメモリと、を備える。ここで、プロセッサは、本開示により提供される音声情報処理方法に含まれるステップを実行するように構成される。

図５は、例示的な一実施例に係る音声情報処理方法を実行する装置５００のブロック図である。例えば、装置５００は、携帯電話、コンピュータ、デジタルブロードキャスト端末、メッセージ送受信機器、ゲームコンソール、タブレット端末、医療機器、フィットネス機器、個人向け携帯型情報端末機器（ＰＤＡ）などであってもよい。

図５を参照すると、装置５００は、処理ユニット５０２、メモリ５０４、電源ユニット５０６、マルチメディアユニット５０８、オーディオユニット５１０、入出力（Ｉ／Ｏ）インタフェース５１２、センサーユニット５１４、及び通信ユニット５１６を含む群から選ばれる少なくとも１つを備えてもよい。

処理ユニット５０２は、一般的には、装置５００の全体の処理、例えば、表示、電話呼び出し、データ通信、撮影処理及び記録処理に関連する処理を制御する。処理ユニット５０２は、上述した音声情報処理方法に含まれるステップの一部又は全部を実行できるように、命令を実行する少なくとも１つのプロセッサ５２０を備えてもよい。また、処理ユニット５０２は、他のユニットとのインタラクションを実現するように、少なくとも１つのモジュールを備えてもよい。例えば、処理ユニット５０２は、マルチメディアユニット５０８とのインタラクションを実現するように、マルチメディアモジュールを備えてもよい。

メモリ５０４は、装置５００の処理をサポートするように、各種のデータを記憶するように構成される。これらのデータは、例えば、装置５００において任意のアプリケーション又は方法を実行するための命令、連絡先データ、電話帳データ、メッセージ、画像、ビデオなどを含む。メモリ５０４は、任意の種類の揮発性又は不揮発性メモリ、例えば、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｂｅｒ）、磁気メモリ、フラッシュメモリ、磁気ディスク、若しくは光ディスクにより、又は、これらの組み合わせにより実現することができる。

電源ユニット５０６は、装置５００の各種ユニットに電力を供給するためのものであり、電源管理システム、１以上の電源、及び装置５００のために電力を生成、管理及び分配する他のユニットを備えてもよい。

マルチメディアユニット５０８は、装置５００とユーザとの間に出力インタフェースを提供するスクリーンを備えてもよい。一実施例では、スクリーンは、例えば、液晶ディスプレイ（ＬＣＤ）やタッチパネル（ＴＰ）とすることができる。スクリーンとしてタッチパネルを採用する場合、ユーザからの入力信号を受信するタッチスクリーンとなり得る。また、タッチパネルは、タッチやスライド、タッチパネル上の動作を感知するように、少なくとも１つのタッチセンサーを有する。タッチセンサーは、タッチやスライド動作の境界を検出するだけではなく、タッチやスライド操作と関連する持続時間や圧力も検出できる。一実施例では、マルチメディアユニット５０８は、フロントカメラ及び／又はバックカメラを有してもよい。装置５００が、例えば、撮影モードやビデオモードのような操作モードの場合、フロントカメラ及び／又はバックカメラが、外部からマルチメディアデータを受信できる。フロントカメラ及びバックカメラのそれぞれは、固定の光学レンズ系であってもよく、焦点距離及び光学ズーム機能を有するものであってもよい。

オーディオユニット５１０は、オーディオ信号を出力及び／又は入力するように構成される。例えば、オーディオユニット５１０は、マイクロフォン（ＭＩＣ）を備えてもよい。装置５００が、例えば、呼び出しモード、記録モード、又は音声認識モードのような操作モードの場合、マイクロフォンは、外部からオーディオ信号を受信するように配置される。また、受信したオーディオ信号は、メモリ５０４に記憶してもよく、通信ユニット５１６を介して送信してもよい。一実施例では、オーディオユニット５１０は、オーディオ信号を出力するためのスピーカをさらに備えてもよい。

Ｉ／Ｏインタフェース５１２は、処理ユニット５０２と外部のインタフェースモジュールとの間のインタフェースを提供するためのものである。上記外部のインタフェースモジュールは、キーボードやクリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタンや音量ボタン、スタートボタン、ロックボタンであってもよいが、これらに限らない。

センサーユニット５１４は、装置５００の様々な状態を評価する少なくとも１つのセンサーを備えてもよい。例えば、センサーユニット５１４は、装置５００のオン／オフ状態や、ユニットの相対的な位置を検出することができる。例えば、ユニットは、装置５００のディスプレイ及びキーパッドである。センサーユニット５１４は、装置５００又は装置５００の１つのユニットの位置の変化、ユーザによる装置５００への接触の有無、装置５００の向き又は加減速、装置５００の温度変化などを検出することができる。センサーユニット５１４は、物理的な接触がなくても付近の物体を検出するように構成される近接センサーを有してもよい。センサーユニット５１４は、イメージングアプリケーションに使用される光センサー、例えば、ＣＭＯＳ又はＣＣＤ画像センサーを有してもよい。一実施例では、当該センサーユニット５１４は、加速度センサー、ジャイロスコープセンサー、磁気センサー、圧力センサー又は温度センサーをさらに備えてもよい。

通信ユニット５１６は、装置５００と他の装置の間との無線又は有線通信を実現するように構成される。装置５００は、通信標準に基づく無線ネットワーク、例えば、Ｗｉ－Ｆｉ、２Ｇ、３Ｇ、４Ｇ、５Ｇ、又はこれらの組み合わせを用いてアクセスできる。例示的な一実施例では、通信ユニット５１６は、ブロードキャストチャンネルを介して、外部のブロードキャスト管理システムからブロードキャスト信号又はブロードキャストに関する情報を受信する。例示的な一実施例では、通信ユニット５１６は、近距離通信を実現するために近距離無線通信（ＮＦＣ）モジュールをさらに備えてもよい。例えば、ＮＦＣモジュールは、ＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩＤｅｎｔｉｆｉｃａｔｉｏｎ）技術、ＩｒＤＡ（ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）技術、超広帯域無線（ＵＷＢ：ＵｌｔｒａＷｉｄｅＢａｎｄ）技術、ブルートゥース（登録商標）（ＢＴ：Ｂｌｕｅｔｏｏｔｈ）技術、及び他の技術により実現してもよい。

例示的な実施例では、装置５００は、上述した方法を実行するために、１以上の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、デジタル信号処理デバイス（ＤＳＰＤ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＤｅｖｉｃｅ）、プログラマブルロジックデバイス（ＰＬＤ：ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他の電子機器により実現してもよい。

例示的な実施例では、命令が格納された非一時的コンピュータ読み取り可能な記録媒体、例えば、命令が格納されたメモリ５０４をさらに提供する。この命令は、装置５００のプロセッサ５２０により実行され、上述した声情報処理方法を実現する。例えば、非一時的コンピュータ読み取り可能な記録媒体は、ＲＯＭ、ＲＡＭ、ＣＤ－ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク及び光データメモリなどであってもよい。

図６は、例示的な一実施例に係る音声情報処理方法を実行する装置６００のブロック図である。例えば、装置６００は、サーバとして提供されてもよい。図６を参照すると、装置６００は、１以上のプロセッサがさらに含まれた処理ユニット６２２と、処理ユニット６２２により実行可能な命令、例えばプログラムを記憶するメモリ６３２を代表とするメモリリソースとを含む。メモリ６３２に記憶されたアプリケーションプログラムは、それぞれが一組の命令に対応する１以上のモジュールを含んでもよい。また、上記の音声情報処理方法を実行するために、処理ユニット６２２は命令を実行するように構成される。

装置６００は、装置６００の電源管理を実行するように配置された電源ユニット６２６と、装置６００をインターネットに接続させるように配置された有線又は無線インターネットインタフェース６５０と、入出力（Ｉ／Ｏ）インタフェース６５８とを備えてもよい。装置６００は、メモリ６３２に記憶されたオペレーティングシステム、例えば、ＷｉｎｄｏｗｓＳｅｒｖｅｒ（登録商標）、ＭａｃＯＳＸ（登録商標）、Ｕｎｉｘ（登録商標）、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤ（登録商標）などに基づいて動作することができる。

当業者は、明細書に対する理解、及び明細書に記載された本開示に対する実施に基づいて、本開示の他の実施形態を容易に相当することができる。本願は、本開示に対する様々な変形、用途、又は適応的な変更を含み、このような変形、用途、又は適応的な変更は、本開示の一般的な原理に従い、本開示では開示していない本技術分野の公知の知識、又は通常の技術手段を含む。明細書及び実施例は、単に例示的なものであって、本開示の範囲と主旨は、以下の特許請求の範囲により示される。

本開示は、上述し、図面で図示した特定の構成に限定されず、その範囲を離脱しないよう、様々な修正や変更を加えてもよい。本開示の範囲は、添付される特許請求の範囲のみにより限定される。

本開示は、情報技術分野に関し、特に、音声情報処理方法、装置、プログラム及び記録媒体に関する。

関連技術に存在する問題を解決するために、本開示は、音声情報処理方法、装置、プログラム及び記録媒体を提供する。

本開示の実施例の第４の態様によれば、プロセッサによって実行されることにより、上記方法を実行するためのプログラムが記録された記録媒体が提供される。

本開示の実施例の第５の態様によれば、プロセッサによって実行されることにより、上記方法を実行するプログラムが提供される。

Claims

音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定するステップであって、前記テキスト情報が単語を含む、ステップと、
前記テキスト情報に含まれる単語を対象単語とし、前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定するステップであって、前記発音辞書が複数の単語と各単語に対応する音素シーケンスを含む、ステップと、
前記対象単語及び前記対象単語に対応するファジー単語を出力するステップと、
を含むことを特徴とする音声情報処理方法。
前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定するステップは、
前記発音辞書の単語から、対応する音素シーケンスが前記対象単語に対応する音素シーケンスと同一である単語を、前記対象単語に対応するファジー単語として選択するステップを含む
ことを特徴とする請求項１に記載の音声情報処理方法。
前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定するステップは、
前記対象単語に対応する音素シーケンスが第１の既定のタイプの音素を含む場合、前記対象単語に対応する音素シーケンスを基準シーケンスとし、前記発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、前記対象単語に対応するファジー単語として選択するステップを含み、
前記条件は、
対応する音素シーケンスは、前記第１の既定のタイプの音素を含み、且つ、この音素シーケンスにおける前記第１の既定のタイプの音素の位置は、前記基準シーケンスにおける前記第１の既定のタイプの音素の位置と同じであり、
この音素シーケンスに含まれる前記第１の既定のタイプの音素以外の音素からなる第１音素シーケンスは、前記基準シーケンスにおける前記第１の既定のタイプの音素以外の音素からなる第２音素シーケンスと同一である
ことを特徴とする請求項１に記載の音声情報処理方法。
前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定するステップは、
前記対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第２の既定のタイプの音素である場合、この音素シーケンスに含まれる前記第２の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、前記発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、前記対象単語に対応するファジー単語として選択するステップを含む
ことを特徴とする請求項１に記載の音声情報処理方法。
前記対象単語及び前記対象単語に対応するファジー単語を出力するステップは、
既定の優先度に応じて前記対象単語に対応するファジー単語を順位付けするステップと、
前記対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて前記対象単語に対応する全てのファジー単語から前記既定の数のファジー単語を選別し、前記対象単語及び選別されたファジー単語を出力するステップと、
前記対象単語に対応するファジー単語の数が前記既定の数以下である場合、前記順位付け結果に応じて前記対象単語及び前記対象単語に対応する全てのファジー単語を出力するステップと、
を含むことを特徴とする請求項１から請求項４のいずれか１項に記載の音声情報処理方法。
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、前記テキスト情報が単語を含むように構成される第１決定モジュールと、
前記テキスト情報に含まれる単語を対象単語とし、前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定し、前記発音辞書が複数の単語と各単語に対応する音素シーケンスを含むように構成される第２決定モジュールと、
前記対象単語及び前記対象単語に対応するファジー単語を出力するように構成される出力モジュールと、
を含むことを特徴とする音声情報処理装置。
前記第２決定モジュールは、
前記発音辞書の単語から、対応する音素シーケンスが前記対象単語に対応する音素シーケンスと同一である単語を、前記対象単語に対応するファジー単語として選択するように構成される第１選択サブモジュールを含む
ことを特徴とする請求項６に記載の音声情報処理装置。
前記第２決定モジュールは、
前記対象単語に対応する音素シーケンスが第１の既定のタイプの音素を含む場合、前記対象単語に対応する音素シーケンスを基準シーケンスとし、前記発音辞書の単語から、対応する音素シーケンスが以下の条件を満たす単語を、前記対象単語に対応するファジー単語として選択するように構成される第２選択サブモジュールを含み、
前記条件は、
対応する音素シーケンスは、前記第１の既定のタイプの音素を含み、且つ、この音素シーケンスにおける前記第１の既定のタイプの音素の位置は、前記基準シーケンスにおける前記第１の既定のタイプの音素の位置と同じであり、
この音素シーケンスに含まれる前記第１の既定のタイプの音素以外の音素からなる第１音素シーケンスは、前記基準シーケンスにおける前記第１の既定のタイプの音素以外の音素からなる第２音素シーケンスと同一である
ことを特徴とする請求項６に記載の音声情報処理装置。
前記第２決定モジュールは、
前記対象単語に対応する音素シーケンスの最初及び最後の少なくとも一方の音素が第２の既定のタイプの音素である場合、この音素シーケンスに含まれる前記第２の既定のタイプの音素以外の音素を新たな音素シーケンスとして統合し、前記発音辞書の単語から、対応する音素シーケンスがこの新たな音素シーケンスと同一である単語を、前記対象単語に対応するファジー単語として選択するように構成される第３選択サブモジュールを含む
ことを特徴とする請求項６に記載の音声情報処理装置。
前記出力モジュールは、
既定の優先度に応じて前記対象単語に対応するファジー単語を順位付けするように構成される順位付けサブモジュールと、
前記対象単語に対応するファジー単語の数が既定の数より大きい場合、順位付け結果に応じて前記対象単語に対応する全てのファジー単語から前記既定の数のファジー単語を選別し、前記対象単語及び選別されたファジー単語を出力するように構成される第１出力サブモジュールと、
前記対象単語に対応するファジー単語の数が前記既定の数以下である場合、前記順位付け結果に応じて前記対象単語及び前記対象単語に対応する全てのファジー単語を出力するように構成される第２出力サブモジュールと、
を含むことを特徴とする請求項６から請求項９のいずれか１項に記載の音声情報処理装置。
プロセッサと、
前記プロセッサで実行可能な命令を記憶するためのメモリと、
を備え、
前記プロセッサは、
音声認識技術に基づいて、収集された音声情報に対応するテキスト情報を決定し、前記テキスト情報が単語を含み、
前記テキスト情報に含まれる単語を対象単語とし、前記対象単語に対応する音素シーケンス及び既定の発音辞書を用いて、前記対象単語に対応するファジー単語を決定し、前記発音辞書が複数の単語と各単語に対応する音素シーケンスとを含み、
前記対象単語及び前記対象単語に対応するファジー単語を出力するように構成される
ことを特徴とする音声情報処理装置。
コンピュータプログラム命令が記憶されたコンピュータ読み取り可能な記録媒体であって、前記コンピュータプログラム命令がプロセッサにより実行される場合、請求項１から請求項５のいずれか１項に記載の音声情報処理方法に含まれるステップが実行されることを特徴とするコンピュータ読み取り可能な記録媒体。