JP2015515643A

JP2015515643A - インスタントコミュニケーション音声認識方法および端末

Info

Publication number: JP2015515643A
Application number: JP2014559078A
Authority: JP
Inventors: 路依莎
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-03-02
Filing date: 2013-03-01
Publication date: 2015-05-28
Also published as: CN103295576A; US9263029B2; KR20140136964A; CN110164437A; CN110164437B; US20150039298A1; WO2013127367A1; KR101633208B1

Abstract

本開示は、コミュニケーションの分野に属するスピーチ認識方法および端末を開示する。本方法は：ユーザによって入力されたスピーチ情報を受信する工程と；現在の環境情報を取得し、かつ、スピーチ情報が再生される必要があるか否かを環境情報に応じて判定する工程と；スピーチ情報が再生される必要がないと判定されたとき、スピーチ情報をテキスト情報として認識する工程とを有する。端末は、取得モジュール、判定モジュール、および認識モジュールを備えている。本開示は、インスタントメッセージのスピーチ情報が端末によって受信されるとき、スピーチ送信者によって表現される内容を不便な状況下において正常に取得することを受信者に手助けすることができるスピーチ認識機能を、スピーチ受信者を提供する。

Description

発明の詳細な説明

この出願は、２０１２年３月２日に中国国家知識産権局にファイルされかつ「インスタントメッセージ伝達および端末のためのスピーチ認識方法」と題される中国特許出願第２０１２１００５３６２８９号に対する優先権を主張し、その全体が本開示に参照として組み込まれる。

技術分野
本開示はコミュニケーションの分野に関し、特に、インスタントメッセージ伝達および端末のためのスピーチ認識方法に関する。

背景
ネットワークの発達によって、より多くの人々が、時間つぶし、友人とのチャット、およびエンターテインメントのためにモバイル端末に徐々に依存しており、モバイル端末のユーザのおよそ４分の３が、チャットツールを通じて友人と会話している。現在、スピーチ入力が、主要なチャットツールの中でもますます人気になっている。スピーチ入力では、従来のバーチャルキーボード入力における繰り返しクリック操作が避けられるので、ユーザは互いにより素早くかつよりスムーズに会話できる。

現在、端末の大半のインスタントコミュニケーションツールは、ＰＣにおけるＱＱセットアップ、モバイル端末のＷｅｃｈａｔ、モバイルにおけるＱＱセットアップのスピーチ入力、ＭｉＴａｌｋなどの、スピーチ入力機能を提供する。しかし、多くの場合（たとえば会議室またはノイズ環境、もしくは受信者がイヤホンまたはプレーヤを所持していない、もしくはスピーチ内容が個人的なものであるなど）、スピーチがインスタントコミュニケーションに基づき入力されるとき、スピーチを直接再生することは受信者にとって不都合である。その場合、スピーチ内容を受信者が如何に直接得られるようにするかは、当業者から常に関心を持たれる問題である。

まとめ
インスタントコミュニケーション中にスピーチ内容を受信者が直接得ることを可能にするために、本開示の実施形態は、インスタントメッセージ伝達および端末のためのスピーチ認識方法を提供する。技術的解決策は、以下のように与えられる。

本開示の実施形態は、インスタントメッセージ伝達のためのスピーチ認識方法であって：
ユーザによって入力されたスピーチ情報を受信する工程と；
現在の環境情報を取得し、かつ、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する工程と；
上記スピーチ情報が再生される必要がないと判定されたとき、上記スピーチ情報をテキスト情報として認識する工程とを含むスピーチ認識方法を提供する。

上記スピーチ情報をテキスト情報として認識する上記工程は：
スピーチ認識サーバが上記スピーチ情報をテキスト情報として認識するように、上記スピーチ情報をクラウド上のスピーチ認識サーバに送信する工程と；
上記スピーチ認識サーバによって認識されたテキスト情報を受信する工程とを特に含む。

上記スピーチ情報をテキスト情報として認識する上記工程は：テキスト情報を取得するための端末のビルトインスピーチ認識モジュールを通じて、上記スピーチ情報のスピーチ認識を実行する工程を特に含む。

特に、上記現在の環境情報は、ユーザの操作指示であり、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は：
上記ユーザの操作指示がテキスト情報の取得指示である場合、上記スピーチ情報が再生される必要がないと判定する工程と；
上記ユーザの操作指示がテキスト情報の取得指示でない場合、上記スピーチ情報が再生される必要があると判定する工程とを特に含む。

特に、上記現在の環境情報は、上記端末自体のハードウェア情報を含み、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は：
上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致するとき、上記スピーチ情報が再生される必要があると判定する工程と；
上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致しないとき、上記スピーチ情報が再生される必要がないと判定する工程とを特に含む。

特に、上記現在の環境情報は、現在のノイズ情報を含み、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は：
上記ノイズ情報が、事前設定範囲内にあるか否かを判定する工程と；
上記ノイズ情報が上記事前設定範囲内にあるとき、上記スピーチ情報が再生される必要があると判定する工程と；
上記ノイズ情報が上記事前設定範囲内にないとき、上記スピーチ情報が再生される必要がないと判定する工程とを特に含む。

上記端末は、モバイル端末またはＰＣ端末である。

本開示の実施形態は、端末であって：
ユーザによって入力されたスピーチ情報を受信するように構成される取得モジュールと；
現在の環境情報を取得し、かつ、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定するように構成される判定モジュールと；
上記判定モジュールの判定結果が「いいえ」であるとき、上記スピーチ情報をテキスト情報として認識するように構成される認識モジュールとを含む端末をさらに提供する。

上記取得モジュールは、送信ユニットおよび受信ユニットを特に含み；
上記送信ユニットは、スピーチ認識サーバが上記スピーチ情報をテキスト情報として認識するように、上記スピーチ情報をクラウド上の上記スピーチ認識サーバに送信するように構成され；
上記受信ユニットは、上記スピーチ認識サーバによって認識されたテキスト情報を受信するように構成される。

上記認識モジュールは、上記判定モジュールの判定結果が「いいえ」であるとき、上記端末のビルトインスピーチ認識モジュールを通じて、上記スピーチ情報をテキスト情報として認識するように特に構成される。

上記判定モジュールは、取得ユニットおよび判定ユニットを特に含み、
上記取得ユニットは、ユーザの操作指示を取得するように構成され；
上記判定ユニットは、上記ユーザの操作指示がテキスト情報の取得指示である場合、上記スピーチ情報が再生される必要がないと判定し；上記ユーザの操作指示がテキスト情報の取得指示でない場合、上記スピーチ情報が再生される必要があると判定するように構成される。

上記判定モジュールは、取得ユニットおよび判定ユニットを特に含み；
上記取得ユニットは、上記端末自体のハードウェア情報を取得するように構成され；
上記判定ユニットは、上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致するとき、上記スピーチ情報が再生される必要があると判定し；上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致しないとき、上記スピーチ情報が再生される必要がないと判定するように構成される。

上記判定モジュールは、取得ユニットおよび判定ユニットを特に含み；
上記取得ユニットは、現在のノイズ情報を取得するよう構成され；
上記判定ユニットは、上記ノイズ情報が事前設定範囲内にあるとき、上記スピーチ情報が再生される必要があると判定し；上記ノイズ情報が上記事前設定範囲内にないとき、上記スピーチ情報が再生される必要がないと判定するように構成される。

上記端末は、モバイル端末またはＰＣ端末である。

本開示の実施形態によって提供される技術的解決手段は、以下の有益な効果を達成する：
スピーチ受信者に、インスタントメッセージのスピーチ情報が端末によって受信されるとき、反対側によって表現される内容を不都合な状況下において正常に取得することを受信者に手助けすることができるスピーチ認識機能が提供される。たとえば、公共の場所においてスピーチを再生することが不都合であるかまたは再生機器がないためにスピーチを再生することができないとき、ユーザはスピーチ内容を素早く得ることができる。

図面の簡単な説明
本開示の実施形態の技術的解決策をより明白に記述するために、実施形態の記述時に用いられる図面を、以下のように簡潔に導入する。明らかに、以下の図面は本開示のいくつかの実施形態を図示し、当業者は、他の創造的努力を何ら費やすことなく、これらの図面から他の図面を得ることができる。

図１は、本開示の実施形態１によって提供されるインスタントメッセージ伝達に基づくスピーチ認識方法のフローチャートであり；
図２は、本開示の実施形態２によって提供されるインスタントメッセージ伝達に基づくスピーチ認識方法のフローチャートであり；
図３は、本開示の実施形態２におけるモバイル端末下でのインスタントメッセージ伝達時のスピーチ認識の模式図であり；
図４は、本開示の実施形態２におけるＰＣ下でのインスタントメッセージ伝達時のスピーチ認識の模式図であり；
図５は、本開示の実施形態３によって提供される端末の構造の模式図であり；そして、
図６は、本開示の実施形態３によって提供される端末における判定モジュールの構造の模式図である。

詳細な説明
本開示の目的、技術的解決策、および利点を明白にするために、本開示の実施形態を、図面に関連付けてさらに記述する。

実施形態１
図１を参照して、本開示の実施形態は、
工程１０１：ユーザによって入力されたスピーチ情報を受信する；
工程１０２：現在の環境情報を取得し、かつ、スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定する；および
工程１０３：スピーチ情報が再生される必要がないと判定されたとき、スピーチ情報をテキスト情報として認識する工程を含む、インスタントメッセージ伝達に基づくスピーチ認識方法を提供する。

本開示の実施形態によって提供される方法は、インスタントメッセージ伝達のスピーチ情報が端末によって受信されるとき、反対側によって表現される内容を不都合な状況下おいて正常に取得することを受信者に手助けすることができるスピーチ認識機能を、スピーチ受信者に提供する。たとえば、公共の場所においてスピーチを再生することが不都合であるかまたは再生機器がないためにスピーチを再生することができないとき、ユーザはスピーチ内容を素早く得ることができる。

実施形態２
図２を参照して、本開示の実施形態は、以下の工程を含むスピーチ認識方法を提供する。

工程２０１：ユーザによって入力されるスピーチ情報を受信する。

この工程では、端末は、ユーザによって入力されるスピーチ情報を受信する。特に、本開示の実施形態を適用する態様は、ユーザがインターネットアプリケーションのインスタント方式でスピーチ情報を入力するか、または、チャット方式でスピーチ情報を入力することであり得る。

本開示の実施形態における端末は、モバイル端末またはＰＣ端末である。モバイル端末は、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルインターネットデバイス（ＭＩＤ）などであり得る。

工程２０２：現在の環境情報を取得する。

この工程では、本開示の実施形態における現在の環境情報は、端末自体のハードウェア情報、ユーザの操作指示、または現在のノイズ情報などであり得る。現在の環境情報の具体的な内容は、本開示の実施形態に限定されない。

端末自体のハードウェア情報は、端末に現在インストールされているハードウェア機器（たとえば、インターフェースを通じて接続された音声入力機器または音声出力機器）の情報を含むが、これには限定されない。ハードウェア情報は、音声入力機器または音声出力機器のドライブ情報（たとえば音声コーデック、音声機器ドライバなど）などをさらに含み得る。

ユーザの操作入力は、端末に対して発行された任意の操作入力であり得、また異なる操作入力は、開発時における技術者の設定に応じて異なる機能に対応し得る。たとえば、スピーチ情報に対するクリック操作は、スピーチ情報再生の操作指示であり得、一方、スピーチ情報に対応するテキスト情報を取得するオプションへのクリック操作は、テキスト情報取得の操作指示であり得る。

現在のノイズ情報は、端末が置かれている環境のノイズ情報である。たとえば、端末が会議室に現在置かれているとき、現在のノイズ情報は会議室におけるノイズ情報である。同様に、現在の環境情報を取得することは、現在のノイズ情報を取得することであり、これは端末のマイクロフォンによって行われ得る。その具体的な過程はスピーチ取得に類似し、本開示では省略する。

なお、取得される環境情報の種類は、技術者による初期設定であり得るか、または、使用中のユーザによって調整され得る。異なる種類の環境情報に対しては具体的な判定過程が異なり、詳細は工程２０３を参照してください。

工程２０３：スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定し、「いいえ」であれば工程２０４を実行し、そうでなければ工程２０６を実行する。

スピーチ入力によって、ユーザは、素早くよりスムーズなコミュニケーション過程を確かに得られる。多くの場合（たとえば、会議室またはノイズ環境、もしくは受信者がイヤホンまたは再生機器を有していない、もしくはスピーチ内容が個人的なものであるなど）、受信者がスピーチを聞くのは不都合である。その場合、スピーチ送信者によって表現されるスピーチ内容を受信者が正常に取得できるようにするため、スピーチ情報は、受信者の都合に応じて選択される形でテキスト情報として認識され得る。受信者は、スピーチ情報を再生するか、または、認識されたテキスト情報を視認するかを選択し得る。

この工程では、スピーチ情報が再生される必要があるか否かを判定するモードは現在の環境情報に応じて異なり、本開示の実施形態は以下のモードを提供する。

モード１：現在の環境情報はユーザの操作指示である。

スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定する工程は、操作指示がテキスト情報の取得指示であるか否かを判定する工程と；操作指示がテキスト情報の取得指示である場合、スピーチ情報が再生される必要がないと判定されかつ工程２０４が実行される工程と；操作指示がテキスト情報の取得指示でない場合、スピーチ情報が再生される必要があると判定されかつ工程２０６が実行される工程とを特に含む。

特に、ユーザは、クリック操作またはタッチ操作であり得かつ本開示において限定されない操作指示を行うことによって、端末に受信されたスピーチ情報を読む。端末は、ユーザによって選択された情報取得のためのモードを、ユーザの操作指示に応じて判定する。ユーザの操作指示を受信した後、端末は、スピーチ情報が再生される必要があるか否かを操作指示に応じて判定し；スピーチ情報がユーザに対して再生される必要がない場合、スピーチ情報はテキスト情報として認識され、ユーザに提供され；スピーチ情報がユーザに対して再生される必要がある場合、スピーチ情報は、他の特別な処理操作を何ら要することなくユーザに直接再生される。

たとえば、端末には少なくとも２つのボタンＡおよびＢが備えられ、ボタンＡは「スピーチ」および「ホルン形状」などのキャラクターを表示し、ボタンＢは「テキスト」および「ＡＢＣ」などのキャラクターを表示する。ユーザがボタンＡをクリックまたはタッチすると、スピーチ情報が取得されかつ再生されるべきであることを意味し；ユーザがボタンＢをクリックまたはタッチすると、スピーチ情報が取得されかつ表示されるべきであることを意味する。

モード２：現在の環境情報は、端末自体のハードウェア情報である。

スピーチ情報を再生することができる端末のハードウェア情報は、音声コーデックおよび音声出力機器を少なくとも含む。

スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定する工程は：端末自体のハードウェアが音声コーデックおよび音声出力機器の双方を含むか否かを判定する工程と；端末自体のハードウェア情報が、音声コーデックおよび音声出力機器の双方を含む場合、端末自体のハードウェア情報はスピーチ情報の再生条件に合致し；その場合、スピーチ情報が再生される必要があると判定されかつ工程２０６が実行される工程と；端末自体のハードウェア情報が音声コーデックを含まないか、端末自体のハードウェア情報が音声出力機器を含まないか、音声コーデックおよび音声出力機器がいずれもハードウェアによって含まれない場合、端末自体のハードウェア情報はスピーチ情報の再生条件に合致せず；その場合、スピーチ情報が再生される必要がないと判定されかつ工程２０４が実行される工程とを特に含む。

モード３：現在の環境情報は、現在のノイズ情報である。

３０〜９０ｄＢなどの特定のノイズ範囲が本開示において事前設定される。スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定する工程は：現在のノイズ情報が、事前設定範囲内にあるか否かを判定する工程と、現在のノイズ情報が事前設定範囲内にある場合、スピーチ情報が再生される必要があると判定しかつ工程２０６を実行する工程と；現在のノイズ情報が事前設定範囲内にない場合、現在の環境は静かな環境または非常にうるさい環境であり、そのためスピーチ情報が再生される必要がないと判定しかつ工程２０４を実行する工程とを特に含む。

モード１、モード２、およびモード３の関係は「または」である。特定の用途では、実装はモード１を採用することによって行われ、または実装はモード２を採用することによって行われ、または実装はモード３を採用することによって行われ、または３つのモードの優先度が設定され得、そして実装はそれらの優先度に応じて行われる。モード採用は、技術者の初期設定であり得るか、または使用中にユーザによって調整され得る。

工程２０４：スピーチ情報をテキスト情報として認識する。

特に、本開示の実施形態では、スピーチ情報はクラウドにおいて認識され得るか、または、ビルトイン認識モジュールによってローカルで認識され得、これらに限定されない。

スピーチ情報がクラウドにおいてテキスト情報に認識されるとき、端末は、スピーチ認識を実行するために、クラウドにおけるスピーチ認識サーバにスピーチ情報を送信し、ここでクラウドとはネットワーク上にあることを意味し、そしてクラウドにおけるスピーチ認識サーバとはネットワークにおけるスピーチ認識サーバを意味する。次に、スピーチ認識サーバはスピーチ認識結果を端末に送信し、そして端末はスピーチ認識サーバによって認識されたテキスト情報を受信する。端末は、ネットワークにおける、１つまたはそれ以上の種類のスピーチ情報を認識することができる特定のスピーチ認識サーバに、スピーチ情報を送信する。

ローカルのビルトイン認識モジュールがスピーチ情報をテキスト情報として認識するとき、端末は、テキスト情報を得るために、端末のビルトインスピーチ認識を通じてスピーチ情報のスピーチ認識を実行する。端末は、インスタントメッセージ伝達ツールをインストールするとき、ビルトインスピーチ認識モジュールを有し、そして、端末は、スピーチ情報を認識したいとき、モジュールを用いて、認識されるスピーチ情報のスピーチ認識を直接実行し、認識結果をユーザに直接提供する必要があるのみである。

本開示の実施形態では、スピーチ情報がテキスト情報として認識されることができるのならば、クラウド認識またはローカルのビルトイン認識モジュールは、Ｇｏｏｇｌｅ、Ｂａｉｄｕ、およびｉＦＬＹなどの、本開示の実施形態において限定されないスピーチ認識技術を採用する必要がある。

本開示の解決策は、以下に、２つの場合、すなわち、モバイル端末およびＰＣ端末の場合に記述される。

モバイル端末の場合：図３に示す、モバイル端末のインスタントメッセージ伝達チャットの場合、ファンクションキー「テキスト」が、スピーチ情報の後に付く。ユーザがこのキーをクリックするとき、これはユーザの操作指示がテキスト情報の取得指示であることを意味し、この場合、モバイル端末はスピーチ情報をテキスト情報として認識する。

ＰＣ端末の場合：図４に示す、ＰＣ端末のインスタントメッセージ伝達チャットの場合、ファンクションキー「テキストとして認識」がスピーチ情報の後に付く。ユーザがこのキーをクリックするとき、これはユーザの操作指示がテキスト情報の取得指示であることを意味し、この場合、ＰＣ端末はスピーチ情報をテキスト情報として認識する。

工程２０５：テキスト情報をユーザに表示する。

スピーチ情報がテキスト情報に認識された後、テキスト情報は端末スクリーンに表示される。

なお、テキスト情報は、個別に特定の領域に表示され得るか、または、スピーチ情報の元の表示領域を覆うように表示され得る。そして、現場のディスプレイはより直接的な視覚効果を提供する。

工程２０６：スピーチ情報を再生する。

特に、スピーチ情報が再生される必要があると判定するとき、端末はスピーチ情報を直接再生する。

本開示の実施形態によって提供される方法は、インスタントメッセージ伝達のスピーチ情報が端末を通じて受信されるとき、反対側によって表現される内容を不都合な状況下おいて正常に取得することを受信者に手助けすることができるスピーチ認識機能を、スピーチ受信者に提供する。たとえば、公共の場所においてスピーチを再生することが不都合であるかまたは再生機器がないためにスピーチを再生することができないとき、ユーザはスピーチ内容を素早く取得することができる。

実施形態３
図５を参照して、本開示の実施形態は：
ユーザによって入力されたスピーチ情報を受信するように構成される取得モジュール３０１と；
現在の環境情報を取得し、かつ、スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定するように構成される判定モジュール３０２と；
判定モジュール３０２の判定結果が「いいえ」であるとき、スピーチ情報をテキスト情報として認識するように構成される認識モジュール３０３とを含む端末を提供する。

認識モジュール３０３は、送信ユニットおよび受信ユニットを特に含み；
送信ユニットは、スピーチ認識サーバがスピーチ情報をテキスト情報として認識するように、スピーチ情報をクラウド上のスピーチ認識サーバに送信するように構成され；
受信ユニットは、スピーチ認識サーバによって認識されたテキスト情報を受信するように構成される。

認識モジュール３０３は、判定モジュール３０２の判定結果が「いいえ」であるとき、端末のビルトインスピーチ認識モジュールを通じてスピーチ情報をテキスト情報として認識するように特に構成される。

図６を参照して、判定モジュール３０２は、取得ユニット３０２１および判定ユニット３０２２を特に含み；
取得ユニット３０２１は、ユーザの操作指示を取得するように構成され；
判定ユニット３０２２は、ユーザの操作指示がテキスト情報の取得指示である場合、スピーチ情報が再生される必要がないと判定し；ユーザの操作指示がテキスト情報の取得指示でない場合、スピーチ情報が再生される必要があると判定するように構成される。

判定モジュール３０２は、取得ユニット３０２１および判定ユニット３０２２を特に含み；
取得ユニット３０２１は、端末自体のハードウェア情報を取得するように構成され；
判定ユニット３０２２は、端末自体のハードウェア情報がスピーチ情報の再生条件に合致するとき、スピーチ情報が再生される必要があると判定し；端末自体のハードウェア情報がスピーチ情報の再生条件に合致しないとき、スピーチ情報が再生される必要がないと判定するように構成される。

判定モジュール３０２は、取得ユニット３０２１および判定ユニット３０２２を特に含み；
取得ユニット３０２１は、現在のノイズ情報を取得するよう構成され；
判定ユニット３０２２は、ノイズ情報が事前設定範囲内にあるとき、スピーチ情報が再生される必要があると判定し；ノイズ情報が事前設定範囲内にないとき、スピーチ情報が再生される必要がないと判定するように構成される。

特に、端末はモバイル端末またはＰＣ端末である。モバイル端末は、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルインターネットデバイス（ＭＩＤ）などであり得る。

本開示の実施形態によって提供される端末は、スピーチ認識機能をスピーチ受信者に提供することによって、インスタントメッセージ伝達のスピーチ情報が端末を通じて受信されたとき、反対側によって表現された内容を不便な状況下において受信者が正常に受信することを手助けする。たとえば、公共の場所においてスピーチを再生することが不都合であるかまたは再生機器がないためにスピーチを再生することができないとき、ユーザはスピーチ内容を素早く得ることができる。

実施形態によって提供される端末は、方法に係る実施形態と同様の概念に特に属し得る。詳細な実装過程については方法実施形態を参照してください、本開示では省略する。

当業者は、上述した実施形態の全てまたは一部の工程が、ハードウェアを通じて、または関連するハードウェアをプログラムを通じて指示することによって実行され得、かつ、プログラムがコンピュータ読み取り可能な記録媒体に保存され得ることを正当に評価する。言及した記録媒体は、読み出し専用メモリ（ＲＯＭ）、磁気ディスク、光学ディスクなどであり得る。

上述した説明は、本開示を限定するというよりは、単に本開示の好ましい実施形態に過ぎない。本開示の精神および規範の下においてなされる如何なる補正、等価な置換、改善なども、本開示の保護範囲内に含まれるべきである。

本開示の実施形態１によって提供されるインスタントメッセージ伝達に基づくスピーチ認識方法のフローチャートである。本開示の実施形態２によって提供されるインスタントメッセージ伝達に基づくスピーチ認識方法のフローチャートである。本開示の実施形態２におけるモバイル端末下でのインスタントメッセージ伝達時のスピーチ認識の模式図である。本開示の実施形態２におけるＰＣ下でのインスタントメッセージ伝達時のスピーチ認識の模式図である。本開示の実施形態３によって提供される端末の構造の模式図である。本開示の実施形態３によって提供される端末における判定モジュールの構造の模式図である。

Claims

インスタントメッセージのためのスピーチ認識方法であって、
ユーザによって入力されたスピーチ情報を受信する工程と、
現在の環境情報を取得し、かつ、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する工程と、
上記スピーチ情報が再生される必要がないと判定されたとき、上記スピーチ情報をテキスト情報として認識する工程とを有することを特徴とする方法。
上記スピーチ情報をテキスト情報として認識する上記工程は、
スピーチ認識サーバが上記スピーチ情報をテキスト情報として認識するように、上記スピーチ情報をクラウド上のスピーチ認識サーバに送信する工程と、
上記スピーチ認識サーバによって認識されたテキスト情報を受信する工程とを特に有する請求項１に記載の方法。
上記スピーチ情報をテキスト情報として認識する上記工程は、テキスト情報を取得するための端末のビルトインスピーチ認識モジュールを通じて、上記スピーチ情報のスピーチ認識を実行する工程を特に有する請求項１に記載の方法。
上記現在の環境情報は、特にユーザに操作指示であり、
上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は、
上記ユーザの操作指示がテキスト情報の取得指示である場合、上記スピーチ情報が再生される必要がないと判定する工程と、
上記ユーザの操作指示がテキスト情報の取得指示でない場合、上記スピーチ情報が再生される必要があると判定する工程とを特に有する請求項１〜３のいずれか１項に記載の方法。
上記現在の環境情報は、上記端末自体のハードウェア情報を特に有し、
上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は、
上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致するとき、上記スピーチ情報が再生される必要があると判定する工程と、
上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致しないとき、上記スピーチ情報が再生される必要がないと判定する工程とを特に有する請求項１〜３のいずれか１項に記載の方法。
上記現在の環境情報は、現在のノイズ情報を特に有し、
上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は、
上記ノイズ情報が、事前設定範囲内にあるか否かを判定する工程と、
上記ノイズ情報が上記事前設定範囲内にあるとき、上記スピーチ情報が再生される必要があると判定する工程と、
上記ノイズ情報が上記事前設定範囲内にないとき、上記スピーチ情報が再生される必要がないと判定する工程とを特に有する請求項１〜３のいずれか１項に記載の方法。
上記端末がモバイル端末またはＰＣ端末である請求項１〜３のいずれか１項に記載の方法。
端末であって、
ユーザによって入力されたスピーチ情報を受信するように構成される取得モジュールと、
現在の環境情報を取得し、かつ、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定するように構成される判定モジュールと、
上記判定モジュールの判定結果が「いいえ」であるとき、上記スピーチ情報をテキスト情報として認識するように構成される認識モジュールとを備えていることを特徴とする端末。
上記取得モジュールは、送信ユニットおよび受信ユニットを特に備えており、
上記送信ユニットは、スピーチ認識サーバが上記スピーチ情報をテキスト情報として認識するように、上記スピーチ情報をクラウド上のスピーチ認識サーバに送信するように構成され、
上記受信ユニットは、上記スピーチ認識サーバによって認識されたテキスト情報を受信するように構成される請求項８に記載の端末。
上記認識モジュールは、上記判定モジュールの判定結果が「いいえ」であるとき、上記端末のビルトインスピーチ認識モジュールを通じて上記スピーチ情報をテキスト情報として認識するように特に構成される請求項８に記載の端末。
上記判定モジュールは、取得ユニットおよび判定ユニットを特に備えており、
上記取得ユニットは、ユーザの操作指示を取得するように構成され、
上記判定ユニットは、上記ユーザの操作指示がテキスト情報の取得指示である場合、上記スピーチ情報が再生される必要がないと判定し、上記ユーザの操作指示がテキスト情報の取得指示でない場合、上記スピーチ情報が再生される必要があると判定するように構成される請求項８〜１０のいずれか１項に記載の端末。
上記判定モジュールは、取得ユニットおよび判定ユニットを特に備えており、
上記取得ユニットは、上記端末自体のハードウェア情報を取得するように構成され、
上記判定ユニットは、上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致するとき、上記スピーチ情報が再生される必要があると判定し、上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致しないとき、上記スピーチ情報が再生される必要がないと判定するように構成される請求項８〜１０のいずれか１項に記載の端末。
上記判定モジュールは、取得ユニットおよび判定ユニットを特に備えており、
上記取得ユニットは、現在のノイズ情報を取得するよう構成され、
上記判定ユニットは、上記ノイズ情報が事前設定範囲内にあるとき、上記スピーチ情報が再生される必要があると判定し、上記ノイズ情報が上記事前設定範囲内にないとき、上記スピーチ情報が再生される必要がないと判定するように構成される請求項８〜１０のいずれか１項に記載の端末。
モバイル端末またはＰＣ端末である請求項８〜１０のいずれか１項に記載の端末。