JP2015515643A - インスタントコミュニケーション音声認識方法および端末 - Google Patents

インスタントコミュニケーション音声認識方法および端末 Download PDF

Info

Publication number
JP2015515643A
JP2015515643A JP2014559078A JP2014559078A JP2015515643A JP 2015515643 A JP2015515643 A JP 2015515643A JP 2014559078 A JP2014559078 A JP 2014559078A JP 2014559078 A JP2014559078 A JP 2014559078A JP 2015515643 A JP2015515643 A JP 2015515643A
Authority
JP
Japan
Prior art keywords
information
speech
terminal
reproduced
speech information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014559078A
Other languages
English (en)
Inventor
路依莎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2015515643A publication Critical patent/JP2015515643A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/45Aspects of automatic or semi-automatic exchanges related to voicemail messaging
    • H04M2203/4536Voicemail combined with text-based messaging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本開示は、コミュニケーションの分野に属するスピーチ認識方法および端末を開示する。本方法は:ユーザによって入力されたスピーチ情報を受信する工程と;現在の環境情報を取得し、かつ、スピーチ情報が再生される必要があるか否かを環境情報に応じて判定する工程と;スピーチ情報が再生される必要がないと判定されたとき、スピーチ情報をテキスト情報として認識する工程とを有する。端末は、取得モジュール、判定モジュール、および認識モジュールを備えている。本開示は、インスタントメッセージのスピーチ情報が端末によって受信されるとき、スピーチ送信者によって表現される内容を不便な状況下において正常に取得することを受信者に手助けすることができるスピーチ認識機能を、スピーチ受信者を提供する。

Description

発明の詳細な説明
この出願は、2012年3月2日に中国国家知識産権局にファイルされかつ「インスタントメッセージ伝達および端末のためのスピーチ認識方法」と題される中国特許出願第2012100536289号に対する優先権を主張し、その全体が本開示に参照として組み込まれる。
技術分野
本開示はコミュニケーションの分野に関し、特に、インスタントメッセージ伝達および端末のためのスピーチ認識方法に関する。
背景
ネットワークの発達によって、より多くの人々が、時間つぶし、友人とのチャット、およびエンターテインメントのためにモバイル端末に徐々に依存しており、モバイル端末のユーザのおよそ4分の3が、チャットツールを通じて友人と会話している。現在、スピーチ入力が、主要なチャットツールの中でもますます人気になっている。スピーチ入力では、従来のバーチャルキーボード入力における繰り返しクリック操作が避けられるので、ユーザは互いにより素早くかつよりスムーズに会話できる。
現在、端末の大半のインスタントコミュニケーションツールは、PCにおけるQQセットアップ、モバイル端末のWechat、モバイルにおけるQQセットアップのスピーチ入力、MiTalkなどの、スピーチ入力機能を提供する。しかし、多くの場合(たとえば会議室またはノイズ環境、もしくは受信者がイヤホンまたはプレーヤを所持していない、もしくはスピーチ内容が個人的なものであるなど)、スピーチがインスタントコミュニケーションに基づき入力されるとき、スピーチを直接再生することは受信者にとって不都合である。その場合、スピーチ内容を受信者が如何に直接得られるようにするかは、当業者から常に関心を持たれる問題である。
まとめ
インスタントコミュニケーション中にスピーチ内容を受信者が直接得ることを可能にするために、本開示の実施形態は、インスタントメッセージ伝達および端末のためのスピーチ認識方法を提供する。技術的解決策は、以下のように与えられる。
本開示の実施形態は、インスタントメッセージ伝達のためのスピーチ認識方法であって:
ユーザによって入力されたスピーチ情報を受信する工程と;
現在の環境情報を取得し、かつ、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する工程と;
上記スピーチ情報が再生される必要がないと判定されたとき、上記スピーチ情報をテキスト情報として認識する工程とを含むスピーチ認識方法を提供する。
上記スピーチ情報をテキスト情報として認識する上記工程は:
スピーチ認識サーバが上記スピーチ情報をテキスト情報として認識するように、上記スピーチ情報をクラウド上のスピーチ認識サーバに送信する工程と;
上記スピーチ認識サーバによって認識されたテキスト情報を受信する工程とを特に含む。
上記スピーチ情報をテキスト情報として認識する上記工程は:テキスト情報を取得するための端末のビルトインスピーチ認識モジュールを通じて、上記スピーチ情報のスピーチ認識を実行する工程を特に含む。
特に、上記現在の環境情報は、ユーザの操作指示であり、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は:
上記ユーザの操作指示がテキスト情報の取得指示である場合、上記スピーチ情報が再生される必要がないと判定する工程と;
上記ユーザの操作指示がテキスト情報の取得指示でない場合、上記スピーチ情報が再生される必要があると判定する工程とを特に含む。
特に、上記現在の環境情報は、上記端末自体のハードウェア情報を含み、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は:
上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致するとき、上記スピーチ情報が再生される必要があると判定する工程と;
上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致しないとき、上記スピーチ情報が再生される必要がないと判定する工程とを特に含む。
特に、上記現在の環境情報は、現在のノイズ情報を含み、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は:
上記ノイズ情報が、事前設定範囲内にあるか否かを判定する工程と;
上記ノイズ情報が上記事前設定範囲内にあるとき、上記スピーチ情報が再生される必要があると判定する工程と;
上記ノイズ情報が上記事前設定範囲内にないとき、上記スピーチ情報が再生される必要がないと判定する工程とを特に含む。
上記端末は、モバイル端末またはPC端末である。
本開示の実施形態は、端末であって:
ユーザによって入力されたスピーチ情報を受信するように構成される取得モジュールと;
現在の環境情報を取得し、かつ、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定するように構成される判定モジュールと;
上記判定モジュールの判定結果が「いいえ」であるとき、上記スピーチ情報をテキスト情報として認識するように構成される認識モジュールとを含む端末をさらに提供する。
上記取得モジュールは、送信ユニットおよび受信ユニットを特に含み;
上記送信ユニットは、スピーチ認識サーバが上記スピーチ情報をテキスト情報として認識するように、上記スピーチ情報をクラウド上の上記スピーチ認識サーバに送信するように構成され;
上記受信ユニットは、上記スピーチ認識サーバによって認識されたテキスト情報を受信するように構成される。
上記認識モジュールは、上記判定モジュールの判定結果が「いいえ」であるとき、上記端末のビルトインスピーチ認識モジュールを通じて、上記スピーチ情報をテキスト情報として認識するように特に構成される。
上記判定モジュールは、取得ユニットおよび判定ユニットを特に含み、
上記取得ユニットは、ユーザの操作指示を取得するように構成され;
上記判定ユニットは、上記ユーザの操作指示がテキスト情報の取得指示である場合、上記スピーチ情報が再生される必要がないと判定し;上記ユーザの操作指示がテキスト情報の取得指示でない場合、上記スピーチ情報が再生される必要があると判定するように構成される。
上記判定モジュールは、取得ユニットおよび判定ユニットを特に含み;
上記取得ユニットは、上記端末自体のハードウェア情報を取得するように構成され;
上記判定ユニットは、上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致するとき、上記スピーチ情報が再生される必要があると判定し;上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致しないとき、上記スピーチ情報が再生される必要がないと判定するように構成される。
上記判定モジュールは、取得ユニットおよび判定ユニットを特に含み;
上記取得ユニットは、現在のノイズ情報を取得するよう構成され;
上記判定ユニットは、上記ノイズ情報が事前設定範囲内にあるとき、上記スピーチ情報が再生される必要があると判定し;上記ノイズ情報が上記事前設定範囲内にないとき、上記スピーチ情報が再生される必要がないと判定するように構成される。
上記端末は、モバイル端末またはPC端末である。
本開示の実施形態によって提供される技術的解決手段は、以下の有益な効果を達成する:
スピーチ受信者に、インスタントメッセージのスピーチ情報が端末によって受信されるとき、反対側によって表現される内容を不都合な状況下において正常に取得することを受信者に手助けすることができるスピーチ認識機能が提供される。たとえば、公共の場所においてスピーチを再生することが不都合であるかまたは再生機器がないためにスピーチを再生することができないとき、ユーザはスピーチ内容を素早く得ることができる。
図面の簡単な説明
本開示の実施形態の技術的解決策をより明白に記述するために、実施形態の記述時に用いられる図面を、以下のように簡潔に導入する。明らかに、以下の図面は本開示のいくつかの実施形態を図示し、当業者は、他の創造的努力を何ら費やすことなく、これらの図面から他の図面を得ることができる。
図1は、本開示の実施形態1によって提供されるインスタントメッセージ伝達に基づくスピーチ認識方法のフローチャートであり;
図2は、本開示の実施形態2によって提供されるインスタントメッセージ伝達に基づくスピーチ認識方法のフローチャートであり;
図3は、本開示の実施形態2におけるモバイル端末下でのインスタントメッセージ伝達時のスピーチ認識の模式図であり;
図4は、本開示の実施形態2におけるPC下でのインスタントメッセージ伝達時のスピーチ認識の模式図であり;
図5は、本開示の実施形態3によって提供される端末の構造の模式図であり;そして、
図6は、本開示の実施形態3によって提供される端末における判定モジュールの構造の模式図である。
詳細な説明
本開示の目的、技術的解決策、および利点を明白にするために、本開示の実施形態を、図面に関連付けてさらに記述する。
実施形態1
図1を参照して、本開示の実施形態は、
工程101:ユーザによって入力されたスピーチ情報を受信する;
工程102:現在の環境情報を取得し、かつ、スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定する;および
工程103:スピーチ情報が再生される必要がないと判定されたとき、スピーチ情報をテキスト情報として認識する工程を含む、インスタントメッセージ伝達に基づくスピーチ認識方法を提供する。
本開示の実施形態によって提供される方法は、インスタントメッセージ伝達のスピーチ情報が端末によって受信されるとき、反対側によって表現される内容を不都合な状況下おいて正常に取得することを受信者に手助けすることができるスピーチ認識機能を、スピーチ受信者に提供する。たとえば、公共の場所においてスピーチを再生することが不都合であるかまたは再生機器がないためにスピーチを再生することができないとき、ユーザはスピーチ内容を素早く得ることができる。
実施形態2
図2を参照して、本開示の実施形態は、以下の工程を含むスピーチ認識方法を提供する。
工程201:ユーザによって入力されるスピーチ情報を受信する。
この工程では、端末は、ユーザによって入力されるスピーチ情報を受信する。特に、本開示の実施形態を適用する態様は、ユーザがインターネットアプリケーションのインスタント方式でスピーチ情報を入力するか、または、チャット方式でスピーチ情報を入力することであり得る。
本開示の実施形態における端末は、モバイル端末またはPC端末である。モバイル端末は、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルインターネットデバイス(MID)などであり得る。
工程202:現在の環境情報を取得する。
この工程では、本開示の実施形態における現在の環境情報は、端末自体のハードウェア情報、ユーザの操作指示、または現在のノイズ情報などであり得る。現在の環境情報の具体的な内容は、本開示の実施形態に限定されない。
端末自体のハードウェア情報は、端末に現在インストールされているハードウェア機器(たとえば、インターフェースを通じて接続された音声入力機器または音声出力機器)の情報を含むが、これには限定されない。ハードウェア情報は、音声入力機器または音声出力機器のドライブ情報(たとえば音声コーデック、音声機器ドライバなど)などをさらに含み得る。
ユーザの操作入力は、端末に対して発行された任意の操作入力であり得、また異なる操作入力は、開発時における技術者の設定に応じて異なる機能に対応し得る。たとえば、スピーチ情報に対するクリック操作は、スピーチ情報再生の操作指示であり得、一方、スピーチ情報に対応するテキスト情報を取得するオプションへのクリック操作は、テキスト情報取得の操作指示であり得る。
現在のノイズ情報は、端末が置かれている環境のノイズ情報である。たとえば、端末が会議室に現在置かれているとき、現在のノイズ情報は会議室におけるノイズ情報である。同様に、現在の環境情報を取得することは、現在のノイズ情報を取得することであり、これは端末のマイクロフォンによって行われ得る。その具体的な過程はスピーチ取得に類似し、本開示では省略する。
なお、取得される環境情報の種類は、技術者による初期設定であり得るか、または、使用中のユーザによって調整され得る。異なる種類の環境情報に対しては具体的な判定過程が異なり、詳細は工程203を参照してください。
工程203:スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定し、「いいえ」であれば工程204を実行し、そうでなければ工程206を実行する。
スピーチ入力によって、ユーザは、素早くよりスムーズなコミュニケーション過程を確かに得られる。多くの場合(たとえば、会議室またはノイズ環境、もしくは受信者がイヤホンまたは再生機器を有していない、もしくはスピーチ内容が個人的なものであるなど)、受信者がスピーチを聞くのは不都合である。その場合、スピーチ送信者によって表現されるスピーチ内容を受信者が正常に取得できるようにするため、スピーチ情報は、受信者の都合に応じて選択される形でテキスト情報として認識され得る。受信者は、スピーチ情報を再生するか、または、認識されたテキスト情報を視認するかを選択し得る。
この工程では、スピーチ情報が再生される必要があるか否かを判定するモードは現在の環境情報に応じて異なり、本開示の実施形態は以下のモードを提供する。
モード1:現在の環境情報はユーザの操作指示である。
スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定する工程は、操作指示がテキスト情報の取得指示であるか否かを判定する工程と;操作指示がテキスト情報の取得指示である場合、スピーチ情報が再生される必要がないと判定されかつ工程204が実行される工程と;操作指示がテキスト情報の取得指示でない場合、スピーチ情報が再生される必要があると判定されかつ工程206が実行される工程とを特に含む。
特に、ユーザは、クリック操作またはタッチ操作であり得かつ本開示において限定されない操作指示を行うことによって、端末に受信されたスピーチ情報を読む。端末は、ユーザによって選択された情報取得のためのモードを、ユーザの操作指示に応じて判定する。ユーザの操作指示を受信した後、端末は、スピーチ情報が再生される必要があるか否かを操作指示に応じて判定し;スピーチ情報がユーザに対して再生される必要がない場合、スピーチ情報はテキスト情報として認識され、ユーザに提供され;スピーチ情報がユーザに対して再生される必要がある場合、スピーチ情報は、他の特別な処理操作を何ら要することなくユーザに直接再生される。
たとえば、端末には少なくとも2つのボタンAおよびBが備えられ、ボタンAは「スピーチ」および「ホルン形状」などのキャラクターを表示し、ボタンBは「テキスト」および「ABC」などのキャラクターを表示する。ユーザがボタンAをクリックまたはタッチすると、スピーチ情報が取得されかつ再生されるべきであることを意味し;ユーザがボタンBをクリックまたはタッチすると、スピーチ情報が取得されかつ表示されるべきであることを意味する。
モード2:現在の環境情報は、端末自体のハードウェア情報である。
スピーチ情報を再生することができる端末のハードウェア情報は、音声コーデックおよび音声出力機器を少なくとも含む。
スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定する工程は:端末自体のハードウェアが音声コーデックおよび音声出力機器の双方を含むか否かを判定する工程と;端末自体のハードウェア情報が、音声コーデックおよび音声出力機器の双方を含む場合、端末自体のハードウェア情報はスピーチ情報の再生条件に合致し;その場合、スピーチ情報が再生される必要があると判定されかつ工程206が実行される工程と;端末自体のハードウェア情報が音声コーデックを含まないか、端末自体のハードウェア情報が音声出力機器を含まないか、音声コーデックおよび音声出力機器がいずれもハードウェアによって含まれない場合、端末自体のハードウェア情報はスピーチ情報の再生条件に合致せず;その場合、スピーチ情報が再生される必要がないと判定されかつ工程204が実行される工程とを特に含む。
モード3:現在の環境情報は、現在のノイズ情報である。
30〜90dBなどの特定のノイズ範囲が本開示において事前設定される。スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定する工程は:現在のノイズ情報が、事前設定範囲内にあるか否かを判定する工程と、現在のノイズ情報が事前設定範囲内にある場合、スピーチ情報が再生される必要があると判定しかつ工程206を実行する工程と;現在のノイズ情報が事前設定範囲内にない場合、現在の環境は静かな環境または非常にうるさい環境であり、そのためスピーチ情報が再生される必要がないと判定しかつ工程204を実行する工程とを特に含む。
モード1、モード2、およびモード3の関係は「または」である。特定の用途では、実装はモード1を採用することによって行われ、または実装はモード2を採用することによって行われ、または実装はモード3を採用することによって行われ、または3つのモードの優先度が設定され得、そして実装はそれらの優先度に応じて行われる。モード採用は、技術者の初期設定であり得るか、または使用中にユーザによって調整され得る。
工程204:スピーチ情報をテキスト情報として認識する。
特に、本開示の実施形態では、スピーチ情報はクラウドにおいて認識され得るか、または、ビルトイン認識モジュールによってローカルで認識され得、これらに限定されない。
スピーチ情報がクラウドにおいてテキスト情報に認識されるとき、端末は、スピーチ認識を実行するために、クラウドにおけるスピーチ認識サーバにスピーチ情報を送信し、ここでクラウドとはネットワーク上にあることを意味し、そしてクラウドにおけるスピーチ認識サーバとはネットワークにおけるスピーチ認識サーバを意味する。次に、スピーチ認識サーバはスピーチ認識結果を端末に送信し、そして端末はスピーチ認識サーバによって認識されたテキスト情報を受信する。端末は、ネットワークにおける、1つまたはそれ以上の種類のスピーチ情報を認識することができる特定のスピーチ認識サーバに、スピーチ情報を送信する。
ローカルのビルトイン認識モジュールがスピーチ情報をテキスト情報として認識するとき、端末は、テキスト情報を得るために、端末のビルトインスピーチ認識を通じてスピーチ情報のスピーチ認識を実行する。端末は、インスタントメッセージ伝達ツールをインストールするとき、ビルトインスピーチ認識モジュールを有し、そして、端末は、スピーチ情報を認識したいとき、モジュールを用いて、認識されるスピーチ情報のスピーチ認識を直接実行し、認識結果をユーザに直接提供する必要があるのみである。
本開示の実施形態では、スピーチ情報がテキスト情報として認識されることができるのならば、クラウド認識またはローカルのビルトイン認識モジュールは、Google、Baidu、およびiFLYなどの、本開示の実施形態において限定されないスピーチ認識技術を採用する必要がある。
本開示の解決策は、以下に、2つの場合、すなわち、モバイル端末およびPC端末の場合に記述される。
モバイル端末の場合:図3に示す、モバイル端末のインスタントメッセージ伝達チャットの場合、ファンクションキー「テキスト」が、スピーチ情報の後に付く。ユーザがこのキーをクリックするとき、これはユーザの操作指示がテキスト情報の取得指示であることを意味し、この場合、モバイル端末はスピーチ情報をテキスト情報として認識する。
PC端末の場合:図4に示す、PC端末のインスタントメッセージ伝達チャットの場合、ファンクションキー「テキストとして認識」がスピーチ情報の後に付く。ユーザがこのキーをクリックするとき、これはユーザの操作指示がテキスト情報の取得指示であることを意味し、この場合、PC端末はスピーチ情報をテキスト情報として認識する。
工程205:テキスト情報をユーザに表示する。
スピーチ情報がテキスト情報に認識された後、テキスト情報は端末スクリーンに表示される。
なお、テキスト情報は、個別に特定の領域に表示され得るか、または、スピーチ情報の元の表示領域を覆うように表示され得る。そして、現場のディスプレイはより直接的な視覚効果を提供する。
工程206:スピーチ情報を再生する。
特に、スピーチ情報が再生される必要があると判定するとき、端末はスピーチ情報を直接再生する。
本開示の実施形態によって提供される方法は、インスタントメッセージ伝達のスピーチ情報が端末を通じて受信されるとき、反対側によって表現される内容を不都合な状況下おいて正常に取得することを受信者に手助けすることができるスピーチ認識機能を、スピーチ受信者に提供する。たとえば、公共の場所においてスピーチを再生することが不都合であるかまたは再生機器がないためにスピーチを再生することができないとき、ユーザはスピーチ内容を素早く取得することができる。
実施形態3
図5を参照して、本開示の実施形態は:
ユーザによって入力されたスピーチ情報を受信するように構成される取得モジュール301と;
現在の環境情報を取得し、かつ、スピーチ情報が再生される必要があるか否かを現在の環境情報に応じて判定するように構成される判定モジュール302と;
判定モジュール302の判定結果が「いいえ」であるとき、スピーチ情報をテキスト情報として認識するように構成される認識モジュール303とを含む端末を提供する。
認識モジュール303は、送信ユニットおよび受信ユニットを特に含み;
送信ユニットは、スピーチ認識サーバがスピーチ情報をテキスト情報として認識するように、スピーチ情報をクラウド上のスピーチ認識サーバに送信するように構成され;
受信ユニットは、スピーチ認識サーバによって認識されたテキスト情報を受信するように構成される。
認識モジュール303は、判定モジュール302の判定結果が「いいえ」であるとき、端末のビルトインスピーチ認識モジュールを通じてスピーチ情報をテキスト情報として認識するように特に構成される。
図6を参照して、判定モジュール302は、取得ユニット3021および判定ユニット3022を特に含み;
取得ユニット3021は、ユーザの操作指示を取得するように構成され;
判定ユニット3022は、ユーザの操作指示がテキスト情報の取得指示である場合、スピーチ情報が再生される必要がないと判定し;ユーザの操作指示がテキスト情報の取得指示でない場合、スピーチ情報が再生される必要があると判定するように構成される。
判定モジュール302は、取得ユニット3021および判定ユニット3022を特に含み;
取得ユニット3021は、端末自体のハードウェア情報を取得するように構成され;
判定ユニット3022は、端末自体のハードウェア情報がスピーチ情報の再生条件に合致するとき、スピーチ情報が再生される必要があると判定し;端末自体のハードウェア情報がスピーチ情報の再生条件に合致しないとき、スピーチ情報が再生される必要がないと判定するように構成される。
判定モジュール302は、取得ユニット3021および判定ユニット3022を特に含み;
取得ユニット3021は、現在のノイズ情報を取得するよう構成され;
判定ユニット3022は、ノイズ情報が事前設定範囲内にあるとき、スピーチ情報が再生される必要があると判定し;ノイズ情報が事前設定範囲内にないとき、スピーチ情報が再生される必要がないと判定するように構成される。
特に、端末はモバイル端末またはPC端末である。モバイル端末は、携帯電話、パーソナルデジタルアシスタント(PDA)、モバイルインターネットデバイス(MID)などであり得る。
本開示の実施形態によって提供される端末は、スピーチ認識機能をスピーチ受信者に提供することによって、インスタントメッセージ伝達のスピーチ情報が端末を通じて受信されたとき、反対側によって表現された内容を不便な状況下において受信者が正常に受信することを手助けする。たとえば、公共の場所においてスピーチを再生することが不都合であるかまたは再生機器がないためにスピーチを再生することができないとき、ユーザはスピーチ内容を素早く得ることができる。
実施形態によって提供される端末は、方法に係る実施形態と同様の概念に特に属し得る。詳細な実装過程については方法実施形態を参照してください、本開示では省略する。
当業者は、上述した実施形態の全てまたは一部の工程が、ハードウェアを通じて、または関連するハードウェアをプログラムを通じて指示することによって実行され得、かつ、プログラムがコンピュータ読み取り可能な記録媒体に保存され得ることを正当に評価する。言及した記録媒体は、読み出し専用メモリ(ROM)、磁気ディスク、光学ディスクなどであり得る。
上述した説明は、本開示を限定するというよりは、単に本開示の好ましい実施形態に過ぎない。本開示の精神および規範の下においてなされる如何なる補正、等価な置換、改善なども、本開示の保護範囲内に含まれるべきである。
本開示の実施形態1によって提供されるインスタントメッセージ伝達に基づくスピーチ認識方法のフローチャートである。 本開示の実施形態2によって提供されるインスタントメッセージ伝達に基づくスピーチ認識方法のフローチャートである。 本開示の実施形態2におけるモバイル端末下でのインスタントメッセージ伝達時のスピーチ認識の模式図である。 本開示の実施形態2におけるPC下でのインスタントメッセージ伝達時のスピーチ認識の模式図である。 本開示の実施形態3によって提供される端末の構造の模式図である。 本開示の実施形態3によって提供される端末における判定モジュールの構造の模式図である。

Claims (14)

  1. インスタントメッセージのためのスピーチ認識方法であって、
    ユーザによって入力されたスピーチ情報を受信する工程と、
    現在の環境情報を取得し、かつ、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する工程と、
    上記スピーチ情報が再生される必要がないと判定されたとき、上記スピーチ情報をテキスト情報として認識する工程とを有することを特徴とする方法。
  2. 上記スピーチ情報をテキスト情報として認識する上記工程は、
    スピーチ認識サーバが上記スピーチ情報をテキスト情報として認識するように、上記スピーチ情報をクラウド上のスピーチ認識サーバに送信する工程と、
    上記スピーチ認識サーバによって認識されたテキスト情報を受信する工程とを特に有する請求項1に記載の方法。
  3. 上記スピーチ情報をテキスト情報として認識する上記工程は、テキスト情報を取得するための端末のビルトインスピーチ認識モジュールを通じて、上記スピーチ情報のスピーチ認識を実行する工程を特に有する請求項1に記載の方法。
  4. 上記現在の環境情報は、特にユーザに操作指示であり、
    上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は、
    上記ユーザの操作指示がテキスト情報の取得指示である場合、上記スピーチ情報が再生される必要がないと判定する工程と、
    上記ユーザの操作指示がテキスト情報の取得指示でない場合、上記スピーチ情報が再生される必要があると判定する工程とを特に有する請求項1〜3のいずれか1項に記載の方法。
  5. 上記現在の環境情報は、上記端末自体のハードウェア情報を特に有し、
    上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は、
    上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致するとき、上記スピーチ情報が再生される必要があると判定する工程と、
    上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致しないとき、上記スピーチ情報が再生される必要がないと判定する工程とを特に有する請求項1〜3のいずれか1項に記載の方法。
  6. 上記現在の環境情報は、現在のノイズ情報を特に有し、
    上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定する上記工程は、
    上記ノイズ情報が、事前設定範囲内にあるか否かを判定する工程と、
    上記ノイズ情報が上記事前設定範囲内にあるとき、上記スピーチ情報が再生される必要があると判定する工程と、
    上記ノイズ情報が上記事前設定範囲内にないとき、上記スピーチ情報が再生される必要がないと判定する工程とを特に有する請求項1〜3のいずれか1項に記載の方法。
  7. 上記端末がモバイル端末またはPC端末である請求項1〜3のいずれか1項に記載の方法。
  8. 端末であって、
    ユーザによって入力されたスピーチ情報を受信するように構成される取得モジュールと、
    現在の環境情報を取得し、かつ、上記スピーチ情報が再生される必要があるか否かを上記現在の環境情報に応じて判定するように構成される判定モジュールと、
    上記判定モジュールの判定結果が「いいえ」であるとき、上記スピーチ情報をテキスト情報として認識するように構成される認識モジュールとを備えていることを特徴とする端末。
  9. 上記取得モジュールは、送信ユニットおよび受信ユニットを特に備えており、
    上記送信ユニットは、スピーチ認識サーバが上記スピーチ情報をテキスト情報として認識するように、上記スピーチ情報をクラウド上のスピーチ認識サーバに送信するように構成され、
    上記受信ユニットは、上記スピーチ認識サーバによって認識されたテキスト情報を受信するように構成される請求項8に記載の端末。
  10. 上記認識モジュールは、上記判定モジュールの判定結果が「いいえ」であるとき、上記端末のビルトインスピーチ認識モジュールを通じて上記スピーチ情報をテキスト情報として認識するように特に構成される請求項8に記載の端末。
  11. 上記判定モジュールは、取得ユニットおよび判定ユニットを特に備えており、
    上記取得ユニットは、ユーザの操作指示を取得するように構成され、
    上記判定ユニットは、上記ユーザの操作指示がテキスト情報の取得指示である場合、上記スピーチ情報が再生される必要がないと判定し、上記ユーザの操作指示がテキスト情報の取得指示でない場合、上記スピーチ情報が再生される必要があると判定するように構成される請求項8〜10のいずれか1項に記載の端末。
  12. 上記判定モジュールは、取得ユニットおよび判定ユニットを特に備えており、
    上記取得ユニットは、上記端末自体のハードウェア情報を取得するように構成され、
    上記判定ユニットは、上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致するとき、上記スピーチ情報が再生される必要があると判定し、上記端末自体の上記ハードウェア情報が上記スピーチ情報の再生条件に合致しないとき、上記スピーチ情報が再生される必要がないと判定するように構成される請求項8〜10のいずれか1項に記載の端末。
  13. 上記判定モジュールは、取得ユニットおよび判定ユニットを特に備えており、
    上記取得ユニットは、現在のノイズ情報を取得するよう構成され、
    上記判定ユニットは、上記ノイズ情報が事前設定範囲内にあるとき、上記スピーチ情報が再生される必要があると判定し、上記ノイズ情報が上記事前設定範囲内にないとき、上記スピーチ情報が再生される必要がないと判定するように構成される請求項8〜10のいずれか1項に記載の端末。
  14. モバイル端末またはPC端末である請求項8〜10のいずれか1項に記載の端末。
JP2014559078A 2012-03-02 2013-03-01 インスタントコミュニケーション音声認識方法および端末 Pending JP2015515643A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210053628.9 2012-03-02
CN2012100536289A CN103295576A (zh) 2012-03-02 2012-03-02 一种即时通信的语音识别方法和终端
PCT/CN2013/072086 WO2013127367A1 (zh) 2012-03-02 2013-03-01 一种即时通信的语音识别方法和终端

Publications (1)

Publication Number Publication Date
JP2015515643A true JP2015515643A (ja) 2015-05-28

Family

ID=49081658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014559078A Pending JP2015515643A (ja) 2012-03-02 2013-03-01 インスタントコミュニケーション音声認識方法および端末

Country Status (5)

Country Link
US (1) US9263029B2 (ja)
JP (1) JP2015515643A (ja)
KR (1) KR101633208B1 (ja)
CN (2) CN110164437B (ja)
WO (1) WO2013127367A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103369477B (zh) 2013-07-02 2016-12-07 华为技术有限公司 显示媒体信息方法、装置、客户端,图形控件显示方法和装置
CN103578474B (zh) * 2013-10-25 2017-09-12 小米科技有限责任公司 一种语音控制方法、装置和设备
CN103632670A (zh) * 2013-11-30 2014-03-12 青岛英特沃克网络科技有限公司 语音和文本消息自动转换***及其方法
CN103634321B (zh) * 2013-12-04 2017-01-18 百度在线网络技术(北京)有限公司 语音识别结果的展现方法和装置
CN104700836B (zh) 2013-12-10 2019-01-29 阿里巴巴集团控股有限公司 一种语音识别方法和***
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN103853465A (zh) * 2014-04-01 2014-06-11 湖南科技学院 一种电子教案文字与图片录入方法
CN104184658A (zh) * 2014-09-13 2014-12-03 邹时晨 一种聊天***
CN104734942B (zh) * 2015-03-13 2018-02-02 日立楼宇技术(广州)有限公司 一种会议管理方法、装置及***
US9911410B2 (en) * 2015-08-19 2018-03-06 International Business Machines Corporation Adaptation of speech recognition
WO2017120960A1 (zh) * 2016-01-17 2017-07-20 段春燕 耳机语音识别功能的数据采集方法以及交流耳机
CN107342088B (zh) * 2017-06-19 2021-05-18 联想(北京)有限公司 一种声音信息的转换方法、装置及设备
CN107483736B (zh) * 2017-08-23 2020-05-15 广东小天才科技有限公司 一种即时通信应用程序的消息处理方法及装置
CN107888479A (zh) * 2017-10-31 2018-04-06 深圳云之家网络有限公司 语音通信方法、装置、计算机设备及存储介质
CN108806682B (zh) * 2018-06-12 2020-12-01 奇瑞汽车股份有限公司 获取天气信息的方法和装置
CN110853662B (zh) * 2018-08-02 2022-06-24 深圳市优必选科技有限公司 语音交互方法、装置及机器人
CN109243447A (zh) * 2018-10-12 2019-01-18 西安蜂语信息科技有限公司 语音发送触发方法及装置
CN110443545A (zh) * 2019-07-18 2019-11-12 深圳市喜悦智慧数据有限公司 一种快递收寄件的数据处理装置和方法
CN110428804A (zh) * 2019-09-04 2019-11-08 广东以诺通讯有限公司 一种智能通信方法及***
CN112822331B (zh) * 2019-10-30 2023-06-30 阿尔派株式会社 电子装置以及信息输入控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002185569A (ja) * 2000-12-13 2002-06-28 Hitachi Kokusai Electric Inc 携帯端末
JP2005078427A (ja) * 2003-09-01 2005-03-24 Hitachi Ltd 携帯端末及びコンピュータ・ソフトウエア
JP2007520943A (ja) * 2004-01-20 2007-07-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズの大きい環境における電話機の拡張された使用
JP2011250475A (ja) * 2004-10-20 2011-12-08 Microsoft Corp ユニファイドメッセージングアーキテクチャ

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
US5911129A (en) * 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
JP2004219918A (ja) 2003-01-17 2004-08-05 Canon Inc 音声認識環境判定方法
KR100688178B1 (ko) * 2004-12-31 2007-03-02 엘지전자 주식회사 소음인식 통화방법변경 기능이 구비된 이동통신 단말기 및통화방법 변경방법
CN100583838C (zh) * 2006-06-30 2010-01-20 佛山市顺德区顺达电脑厂有限公司 便携式电子装置与其实时信息服务方法及装置
CN101079836A (zh) * 2006-12-21 2007-11-28 腾讯科技(深圳)有限公司 一种基于非对称媒体的即时通信方法及***
CN101453611A (zh) * 2007-12-07 2009-06-10 希姆通信息技术(上海)有限公司 失聪者与正常人的视频通讯方法
EP2156652B1 (en) * 2008-02-28 2012-04-25 Leeds, Richard Method and system for notification and telecommunications management
US8638908B2 (en) * 2008-02-28 2014-01-28 Computer Products Introductions, Corp Contextual conversation processing in telecommunication applications
KR101829865B1 (ko) * 2008-11-10 2018-02-20 구글 엘엘씨 멀티센서 음성 검출
CN101482976B (zh) * 2009-01-19 2010-10-27 腾讯科技(深圳)有限公司 语音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置
GB2476041B (en) * 2009-12-08 2017-03-01 Skype Encoding and decoding speech signals

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002185569A (ja) * 2000-12-13 2002-06-28 Hitachi Kokusai Electric Inc 携帯端末
JP2005078427A (ja) * 2003-09-01 2005-03-24 Hitachi Ltd 携帯端末及びコンピュータ・ソフトウエア
JP2007520943A (ja) * 2004-01-20 2007-07-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ ノイズの大きい環境における電話機の拡張された使用
JP2011250475A (ja) * 2004-10-20 2011-12-08 Microsoft Corp ユニファイドメッセージングアーキテクチャ

Also Published As

Publication number Publication date
CN103295576A (zh) 2013-09-11
US9263029B2 (en) 2016-02-16
KR20140136964A (ko) 2014-12-01
CN110164437A (zh) 2019-08-23
CN110164437B (zh) 2021-04-16
US20150039298A1 (en) 2015-02-05
WO2013127367A1 (zh) 2013-09-06
KR101633208B1 (ko) 2016-06-23

Similar Documents

Publication Publication Date Title
JP2015515643A (ja) インスタントコミュニケーション音声認識方法および端末
US10602321B2 (en) Audio systems and methods
KR100935963B1 (ko) 프로세서 주변장치인 통신 장치와, 그를 이용하는 시스템 및 방법
CN106921560A (zh) 语音通信方法、装置及***
WO2016184295A1 (zh) 即时通讯方法、用户设备及***
KR102095533B1 (ko) 알림 정보를 선택적으로 제공하기 위한 전자 장치 및 방법
CN108540655A (zh) 一种来电显示处理方法及移动终端
CN111147444B (zh) 一种交互方法及电子设备
WO2021031290A1 (zh) 一种用于耳机对的翻译方法、装置、耳机对及翻译***
WO2019071808A1 (zh) 视频画面显示的方法、装置、***、终端设备及存储介质
TWI384851B (zh) 一種移動通信設備及在其中進行語音通信的方法
WO2022037261A1 (zh) 音频播放、设备管理方法及装置
WO2020063451A1 (zh) 通话留言方法、终端和具有存储功能的装置
US20150052211A1 (en) Message based conversation function execution method and electronic device supporting the same
WO2016157993A1 (ja) 情報処理装置、情報処理方法およびプログラム
WO2020051881A1 (zh) 信息提示方法及相关产品
EP2216975A1 (en) Telecommunication device
WO2018035873A1 (zh) 音频数据处理方法、终端设备和存储介质
CN105306656B (zh) 呼叫留言方法、装置及***
JP7507859B2 (ja) 対話方法及び電子機器
US20240112686A1 (en) Conferencing session quality monitoring
WO2023162119A1 (ja) 情報処理端末、情報処理方法、情報処理プログラム
WO2024072589A1 (en) Conferencing session quality monitoring
CN103873687A (zh) 一种信息处理方法及电子设备
KR101054740B1 (ko) 통화 배경음 저장 및 제공이 가능한 스마트 폰 및 이를 이용한 통화 배경음 제공 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151201

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160517

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20160920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160920