JP6309539B2

JP6309539B2 - 音声入力を実現する方法および装置

Info

Publication number: JP6309539B2
Application number: JP2015549964A
Authority: JP
Inventors: ヤンヤンルウ，; レイジャ，
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2012-12-31
Filing date: 2013-12-17
Publication date: 2018-04-11
Anticipated expiration: 2033-12-17
Also published as: US10199036B2; WO2014101687A1; EP2940551A4; CN103076893B; EP2940551B1; JP2016505893A; EP2940551A1; CN103076893A; US20150302852A1

Description

本発明は、インターネット技術分野に関し、特に音声入力を実現する技術に関する。

音声認識技術の発展に従って、音声入力を応用した分野はますます増加している。

しかしながら多くの場合、音声入力には依然として間違いが多く、例えば同音異義語に対しての認識および確定が不正確である等、音声入力の確度が低く、ユーザエクスペリエンスに影響を及ぼしている。

本発明の目的は、音声入力を実現する方法および装置を提供することである。
本発明の一態様によれば、ネットワーク装置端末において音声入力を実現する方法であって、
音声入力を獲得するステップａと、
音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定するステップｂと、
前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得するステップｃと、
前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信するステップｄとを含む方法を提供する。

本発明の別の様態によれば、ユーザ装置端末において音声入力の実現を補助する方法であって、
ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得するステップＡと、
前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供するステップＢと、
を含む方法をさらに提供する。

本発明のさらに別の様態によれば、音声入力を実現するネットワーク装置であって、
音声入力情報を獲得する入力獲得ユニットと、
音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定する配列確定ユニットと、
前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得する確度確定ユニットと、
前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する送信ユニットと、
を含むネットワーク装置をさらに提供する。

本発明のさらに別の様態によれば、音声入力の実現を補助するユーザ装置であって、
ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得する配列獲得ユニットと、
前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する提供ユニットと、
を含むユーザ装置をさらに提供する。

本発明のさらに別の様態によれば、上述のような前記ネットワーク装置および上述のような前記ユーザ装置を含む音声入力を実現するシステムをさらに提供する。

従来技術に比べ、本発明は、ネットワーク装置端末において、音声認識モデルに基づいて、音声入力情報に対応する入力文字列を確定し、前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、これにより前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信し、ユーザ装置端末は、前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。これにより、入力文字列中の分詞の出現確率情報に基づいて前記分詞の確度情報を獲得することで、音声入力の確度およびフレキシビリティを高め、前記入力見出し語とユーザの入力ニーズをマッチングさせ、入力のフレキシビリティおよびカスタマイズ性を高め、さらに入力法の入力効率を高め、ユーザエクスペリエンスを向上させることが可能となる。

さらに、本発明はネットワーク装置端末において前記ユーザ装置が送信した前記少なくとも１つの分詞に関する選択肢のアクセス要求を獲得し、前記アクセス要求に基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定し、これにより前記１つまたは複数の選択肢を前記ユーザ装置に送信し、ユーザ装置端末において、前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供してもよい。さらには、ネットワーク装置端末において前記少なくとも１つの分詞の文脈情報を結合し、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定してもよい。さらには、ユーザ装置端末において、ユーザの前記１つまたは複数の選択肢のうち少なくとも１つに対する選択操作に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得してもよい。これにより、ユーザに多くの選択肢が提供され、音声入力中の間違いを修正するのに都合がよくなることで、音声入力の確度およびフレキシビリティを高め、前記入力見出し語とユーザの入力ニーズをマッチングさせ、入力のフレキシビリティおよびカスタマイズ性を高め、さらに入力法の入力効率を高め、ユーザエクスペリエンスを向上させることが可能となる。

さらに、本発明はネットワーク装置端末において前記分詞の前記入力文字列における条件付き確率を確定し、前記条件付き確率を前記分詞の出現確率情報とし、前記条件付き確率に基づいて前記分詞の確度情報を確定してもよい。さらには、前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定してもよい。これにより文字列全体を結合することで、音声入力の確度およびフレキシビリティを高め、前記入力見出し語とユーザの入力ニーズをマッチングさせ、入力のフレキシビリティおよびカスタマイズ性を高め、さらに入力法の入力効率を高め、ユーザエクスペリエンスを向上させることが可能となる。

さらに、本発明はネットワーク装置端末において音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報を結合し、前記音声入力情報に対応する入力文字列を確定してもよい。これにより文脈情報を結合することで、音声入力の確度およびフレキシビリティを高め、前記入力見出し語とユーザの入力ニーズをマッチングさせ、入力のフレキシビリティおよびカスタマイズ性を高め、さらに入力法の入力効率を高め、ユーザエクスペリエンスを向上させることが可能となる。

以下の図面による非制限的な実施例を参照して詳細な説明を行うことにより、本発明のその他の特徴、目的および利点はより明らかになる。
図１は、本発明の１つの様態による音声入力を実現するネットワーク装置およびユーザ装置の概略図である。図２は、本発明の１つの好適な実施例による音声入力を実現するネットワーク装置およびユーザ装置の概略図である。図３は、本発明の別の様態によるネットワーク装置およびユーザ装置の連係により音声入力を実現する方法のフローチャートである。図４は、本発明の１つの好適な実施例によるネットワーク装置およびユーザ装置の連係により音声入力を実現する方法のフローチャートである。図面において、同一または類似の図面符号は、同一または類似の部材を示す。

以下、図面と共に本発明をより詳細に説明する。

図１に本発明の１つの様態による音声入力を実現するネットワーク装置およびユーザ装置の概略図を示す。そのうち、ネットワーク装置１は入力獲得ユニット１１、配列確定ユニット１２、確度確定ユニット１３、送信ユニット１４を含み、ユーザ装置２は配列獲得ユニット２１、提供ユニット２２を含んでおり、ネットワーク装置１およびユーザ装置２の各装置間は互いに連係して、音声入力を実現する。

具体的には、ネットワーク装置１の入力獲得ユニット１１が音声入力情報を獲得し、配列確定ユニット１２が音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定し、確度確定ユニット１３が前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、送信ユニット１４が前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。それに対応して、ユーザ装置２の配列獲得ユニット２１が、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得し、提供ユニット２２が前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。

そのうち、前記ネットワーク装置は、コンピュータ、単独のネットワークサーバ、複数のネットワークサーバ、または複数のサーバで構成されたクラウドを含むが、これに限定されるものではない。ここで、クラウドはクラウドコンピューティング（ＣｌｏｕｄＣｏｍｐｕｔｉｎｇ）による多数のコンピュータまたはネットワークサーバで構成され、そのうち、クラウドコンピューティングは分散コンピューティングの一種であり、疎結合のコンピュータ群で形成された仮想スーパーコンピュータである。

前記ユーザ装置は、キーボード、リモコン、タッチパッド、または音声制御装置によって、ユーザとマンマシンインタラクションを行うことが可能である電子機器、例えば、コンピュータ、スマートフォン、ＰＤＡ（携帯情報端末）、ゲーム機、またはＩＰＴＶ（インターネットプロトコルテレビ）等のうちいずれか１つを含むが、これに限定されるものではない。

前記ネットワークは、インターネット、広域ネットワーク、都市規模ネットワーク、ローカルエリアネットワーク、ＶＰＮネットワーク（バーチャルプライベートネットワーク）、無線アドホックネットワーク（ＡｄＨｏｃネットワーク）等を含むが、これに限定されるものではない。
当業者は、その他の音声入力実現可能なネットワーク装置およびユーザ装置を本発明に同様に適用したものも、本発明の保護範囲内に含まれ、引用を以てここに含まれるものとすることを理解されたい。

上述の各ユニット間は継続して作動している。ここで当業者は、「継続して」とは、ネットワーク装置が音声入力情報の獲得を停止するまで、上述の各ユニットがそれぞれリアルタイムにあるいは、設定されたまたはリアルタイムに調整された作動モード要求に従って音声入力情報の獲得、入力文字列の確定、確度情報の獲得、入力文字列および分詞の確度情報の送信および受信、入力文字列の提供等を行うことを意味することを理解されたい。

ネットワーク装置１の入力獲得ユニット１１は音声入力情報を獲得する。具体的には、入力獲得ユニット１１は各種通信プロトコル（ＣｏｍｍｕｎｉｃａｔｉｏｎＰｒｏｔｏｃｏｌ）に基づいて、各種データ伝送インターフェースを介して第三者の音声入力情報データ等とインタラクションを行い、音声入力情報を獲得する。あるいは、前記入力獲得ユニット１１はユーザが入力した音声入力情報をリアルタイムに獲得する、あるいは、前記ユーザ装置とインタラクションを行い、ユーザがリアルタイムに入力した音声入力情報を獲得する等でもよい。そのうち、前記音声入力情報は文字、単語、短文、長文等を含むが、これに限定されるものではない。

配列確定ユニット１２は、音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定する。
具体的には、前記配列確定ユニット１２は、予め設定されたまたは学習にて得られた音声認識モデルに基づいて、例えば音声入力情報に分割を行うことにより、前記音声入力情報に対応する１つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレート等にマッチングさせることにより、前記音節に対応する１つまたは複数の分詞または候補分詞を獲得し、順次前記入力音節にマッチングを行うことにより、前記音声入力情報に対応する入力文字列を確定する。
そのうち、前記入力文字列には前記音声入力情報に対応する複数の分詞または候補分詞を含む。

ここで、前記音声認識モデルは汎用の音声認識モデル、あるいは現在のユーザのみと対応する特定音声認識モデルを含むが、これに限定されるものではなく、前記音声認識モデルは音声認識訓練により得られる。例えば、前記音声入力情報に対応するセンテンス「我▲だい▼（帯）▲にい▼（弥）去▲じん▼（錦）州」であれば、配列確定ユニット１２は前記音声入力情報に対して分割を行うことにより、前記音声入力情報に対応する複数の分詞または候補分詞を獲得する。例えば、我、帯、弥、去、錦州であり、そのうち、「帯」の位置には「代、待、呆（１０％）」、「錦州」の位置には「金州、晋州」等のような他の候補分詞もあり得る。

確度確定ユニット１３は、前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得する。具体的には、前記確度確定ユニット１３は、機械学習によって獲得した、あるいは対応する出現確率情報データベース等に照会することによって獲得した情報に基づいて、前記入力文字列中の分詞が対応する出現確率情報を確定し、前記出現確率情報に基づいて、前記出現確率情報を直接前記分詞の確度情報とする方式により、前記分詞の確度情報を獲得する。あるいは例えば前記分詞の前記入力文字列における文脈情報または前記分詞の品詞情報等に基づいて、前記出現確率情報に対して処理を行って、前記分詞の確度情報を獲得する。

例えば、上記の例では、確度確定ユニット１３は出現確率情報データベースとのインタラクションによって、前記音声入力情報に対応するセンテンス「我帯弥去錦州」中の分詞が対応する出現確率情報（括弧内に示す）、我（９０％）、帯（４０％）、弥（９０％）、去（９８％）、錦州（４０％）を獲得し、そのうち、「帯」の位置には「代（３０％）、待（２０％）、呆（１０％）」、「錦州」の位置には「金州（３０％）、晋州（３０％）」等のような他の候補分詞もあり得る。前記確度確定ユニット１３は、前記出現確率情報を直接対応させて前記分詞の確度情報とする。すなわち、例えば「我」の確度情報は９０％である。

送信ユニット１４は、前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。具体的には、前記送信ユニット１４は、前記確度確定ユニット１３から獲得した１つまたは複数の分詞または候補分詞で形成された入力文字列、および前記分詞の確度情報を、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。

それに対応して、ユーザ装置２の配列獲得ユニット２１は、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得する。具体的には、前記配列獲得ユニット２１は、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記ネットワーク装置から１つまたは複数の分詞または候補分詞で形成された前記音声入力情報に対応する入力文字列、および前記分詞の確度情報を受信する。

提供ユニット２２は、前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。具体的には、前記提供ユニット２２は、前記配列獲得ユニット２１で獲得した入力文字列、および前記入力文字列中の分詞の確度情報に基づいて、同一の入力音節に対応する前記確度情報の最も高い分詞に組み合わせることにより、前記ユーザに提供する入力文字列を生成する。あるいは、同一の入力音節に対応するすべての分詞または候補分詞を確度情報に従って高いものから低いものへとソートを行った後、前記ユーザに供給する入力文字列を生成する。

そのうち、前記入力文字列にはすべてのマッチングする分詞を含む。前記ユーザとインタラクションを行うことによって、各種通信プロトコルに基づいて、ユーザの対応するユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）等の方式を介して、前記入力文字列を前記ユーザに提供する。ここで、前記ユーザは前記音声入力情報の提供に対応するユーザ、あるいは前記音声入力情報を受信する指定されたユーザ等を含むが、これに限定されるものではない。

好ましくは、前記確度確定ユニット１３は、前記分詞の前記入力文字列における条件付き確率を確定して、前記分詞の出現確率情報とし、出現確率閾値に基づいて、前記分詞の出現確率情報によって、前記分詞の確度情報を確定してもよい。具体的には、前記確度確定ユニット１３は、前記分詞の前記入力文字列における条件付き確率を直接獲得してもよい。あるいは、まず前記入力文字列が出現する確率Ｐ（Ｂ）を獲得し、その後前記入力文字列に前記分詞が含まれる確率Ｐ（ＡＢ）を獲得することにより、前記入力文字列に前記分詞が出現する条件付き確率Ｐ（Ａ｜Ｂ）を算出し、前記条件付き確率Ｐ（Ａ｜Ｂ）を前記分詞の出現確率情報としてもよい。

前記確度確定ユニット１３は、予め設定されたまたは機械学習等の方式によって獲得した出現確率閾値に基づいて、例えば前記出現確率情報が前記出現確率閾値より高い１つまたは複数の分詞を正確分詞とし、前記分詞の出現確率情報が前記出現確率閾値より低い場合は不正確分詞とすることにより、前記分詞の確度情報を確定する。

さらに好ましくは、前記ネットワーク装置１は、閾値確定ユニット（図示せず）をさらに含み、そのうち、前記閾値確定ユニットは前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定する。
具体的には、前記閾値確定ユニットは、前記分詞および前記分詞が対応する候補分詞の出現確率情報を獲得してもよく、例えば前記１つまたは複数の分詞および候補分詞の出現確率に対して、平均、加重平均、メジアン等の方式を実行し、前記出現確率閾値を確定する。

例えば、前記分詞および候補分詞の出現確率情報が｛４０％、１０％、１０％、２０％、２０％｝である場合、閾値は３０％−４０％としてもよく、５０％に規定する必要はない。
例えば、前記分詞および候補分詞の出現確率情報が｛５０％、４５％、５％｝である場合、出現確率閾値を５０％としても、不適切である可能性が高い。

好ましくは、前記配列確定ユニット１２は、音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報を結合し、前記音声入力情報に対応する入力文字列を確定してもよい。
具体的には、前記配列確定ユニット１２は、例えば前記音声入力情報が対応する文脈情報を結合し、対応する音声認識モデルを確定する。

例えば、前記文脈情報中のキーワードに基づいて、対応する異なる領域の音声認識モデルを判定した後、前記音声認識モデルに基づいて、前記音声入力情報が対応する入力文字列を確定する。
あるいは、汎用の音声認識モデルを用いて前記入力文字列を確定し、前記文脈情報を結合し、前記入力文字列に対して、例えば文脈マッチングを向上させる文字列の重み付けまたは優先度等の調整を行う。そのうち、前記入力文字列の確定方式と図１における前記配列確定ユニット１２の確定方式は同一または相似していることから、詳述しないが、引用を以てここに含まれるものとする。

図２に本発明の１つの好適な実施例による音声入力を実現するネットワーク装置およびユーザ装置の概略図を示す。そのうち、ネットワーク装置１は入力獲得ユニット１１’、配列確定ユニット１２’、確度確定ユニット１３’、送信ユニット１４’、要求獲得ユニット１５’、選択肢確定ユニット１６’、選択肢送信ユニット１７’を含み、ユーザ装置２は配列獲得ユニット２１’、提供ユニット２２’、選択肢要求獲得ユニット２３’、アクセス要求送信ユニット２４’、選択肢受信ユニット２５’、選択肢提供ユニット２６’を含んでおり、ネットワーク装置１およびユーザ装置２の各装置間は互いに連係して、音声入力を実現する。

具体的には、ネットワーク装置１の入力獲得ユニット１１’が音声入力を獲得し、配列確定ユニット１２’が音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定し、確度確定ユニット１３’が前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、送信ユニット１４’が前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。

それに対応して、ユーザ装置２の配列獲得ユニット２１’が、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得し、提供ユニット２２’が前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供し、選択肢要求獲得ユニット２３’が前記ユーザの前記入力文字列中の少なくとも１つの分詞に対する選択肢の要求操作を獲得し、アクセス要求送信ユニット２４’が前記要求操作に基づいて前記ネットワーク装置に前記少なくとも１つの分詞に関する選択肢のアクセス要求を送信する。

それに対応して、要求獲得ユニット１５’が、前記ユーザ装置が送信した前記少なくとも１つの分詞に関する選択肢のアクセス要求を獲得し、選択肢確定ユニット１６’が前記アクセス要求に基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定し、選択肢送信ユニット１７’が前記１つまたは複数の選択肢を前記ユーザ装置に送信する。

それに対応して、選択肢受信ユニット２５’が、前記ネットワーク装置が前記アクセス要求に基づいて送信した１つまたは複数の選択肢を受信し、選択肢提供ユニット２６’が前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供する。

そのうち、ネットワーク装置１の入力獲得ユニット１１’、配列確定ユニット１２’、確度確定ユニット１３’、送信ユニット１４’およびユーザ装置２の配列獲得ユニット２１’、提供ユニット２２’は、それぞれ図１に示した対応するユニットと同一または基本的に同一であることから、詳述しないが、引用を以てここに含まれるものとする。

上述の各ユニット間は継続して作動している。ここで当業者は、「継続して」とは、ネットワーク装置が音声入力情報の獲得を停止するまで、上述の各ユニットがそれぞれリアルタイムにあるいは、設定されたまたはリアルタイムに調整された作動モード要求に従って音声入力情報の獲得、入力文字列の確定、確度情報の獲得、入力文字列および分詞の確度情報の送信および受信、入力文字列の提供、選択肢要求操作の獲得、選択肢アクセス要求の送信および受信、選択肢の確定、選択肢の送信および受信、選択肢の提供等を行うことを意味することを理解されたい。

選択肢要求獲得ユニット２３’は、前記ユーザの前記入力文字列中の少なくとも１つの分詞に対する選択肢の要求操作を獲得する。具体的には、選択肢要求獲得ユニット２３’は、各種通信プロトコルに基づいて、各種アプリケーションプログラミングインターフェースを介して、第三者装置から前記ユーザの前記入力文字列中の少なくとも１つの分詞に対する選択肢の要求操作を獲得する。あるいは、ユーザと直接インタラクションして獲得した要求操作である。そのうち、前記要求操作はクリック、タッチ等を含むが、これに限定されるものではない。例えば、上記の例では、選択肢要求獲得ユニット２３’は前記ユーザと直接インタラクションし、前記ユーザがクリック等の方法によって入力した「錦州」に対する選択肢の要求を獲得する。

アクセス要求送信ユニット２４’は、前記要求操作に基づいて前記ネットワーク装置に前記少なくとも１つの分詞に関する選択肢のアクセス要求を送信する。具体的には、アクセス要求送信ユニット２４’は、前記要求操作に応じて、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記少なくとも１つの分詞に関する選択肢のアクセス要求を前記ネットワーク装置に送信する。

それに対応して、要求獲得ユニット１５’は、前記ユーザ装置が送信した前記少なくとも１つの分詞に関する選択肢のアクセス要求を獲得する。具体的には、前記要求獲得ユニット１５’は、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記ユーザ装置から前記少なくとも１つの分詞に関する選択肢のアクセス要求を受信する。

選択肢確定ユニット１６’は、前記アクセス要求に基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定する。具体的には、前記選択肢確定ユニット１６’は、前記要求獲得ユニット１５’が獲得したアクセス要求に基づいて、前記アクセス要求における獲得必要な分詞に応じて、配列確定ユニット１２’における前記分詞に対応する候補分詞を直接獲得することによって、前記候補分詞を選択肢とする。あるいは、前記分詞を再処理して、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を獲得する。そのうち、前記処理方法と前記配列確定ユニット１２’の方法は同一または相似していることから、詳述しないが、引用を以てここに含まれるものとする。

選択肢送信ユニット１７’は、前記１つまたは複数の選択肢を前記ユーザ装置に送信する。具体的には、選択肢送信ユニット１７’は、前記選択肢確定ユニット１６’が確定した１つまたは複数の選択肢を獲得し、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記１つまたは複数の選択肢を前記ユーザ装置に送信する。

それに対応して、ユーザ装置の選択肢受信ユニット２５’は、前記前記ネットワーク装置が前記アクセス要求に基づいて送信した１つまたは複数の選択肢を受信する。具体的には、選択肢受信ユニット２５’は、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記ネットワーク装置から前記アクセス要求に基づいて送信された１つまたは複数の選択肢を受信する。

選択肢提供ユニット２６’は、前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供する。
具体的には、選択肢提供ユニット２６’は、前記選択肢受信ユニット２５’で獲得した１つまたは複数の選択肢に基づいて、システムが予め設定した、またはユーザが設定する方式で、前記１つまたは複数の選択肢のうち少なくとも１つを、前記ユーザとインタラクションを行うことによって前記ユーザに提供する。

あるいは、各種通信プロトコルに基づいて、ユーザの対応するユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）等の方式を介して、前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供する。
ここで、前記ユーザは前記音声入力情報の提供に対応するユーザ、あるいは前記音声入力情報を受信する指定されたユーザ等を含むが、これに限定されるものではない。

好ましくは、ネットワーク装置１の選択肢確定ユニット１６’は、前記アクセス要求に基づいて、前記少なくとも１つの分詞の文脈情報を結合し、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定してもよい。

具体的には、前記選択肢確定ユニット１６’は、前記アクセス要求に基づいて、前記アクセス要求における分詞の文脈情報を結合することにより、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢に対して確定を行ってもよい。例えば、文脈情報に基づいて、常用連語または文法等の情報を結合することにより、前記文脈情報とのマッチング度が低い選択肢を除外する。例えば、音声入力「我帯弥去錦州」について、選択肢が必要な分詞が「錦州」であるとすると、「去」という方向詞を考慮して、対応する選択肢はおそらく「金州」、「晋州」であり、「禁咒」を含むことはない。

好ましくは、前記ユーザ装置２は、操作獲得ユニット（図示せず）および置換ユニット（図示せず）をさらに含む。そのうち、操作獲得ユニットはユーザの前記１つまたは複数の選択肢のうち少なくとも１つに対する選択操作を獲得し、置換ユニットは前記選択操作が対応する選択肢に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する。

具体的には、操作獲得ユニットは、ユーザと直接インタラクションする、あるいは前記選択操作を提供することができる第三者が備えるアプリケーションプログラミングインターフェース等を経由して、ユーザの前記１つまたは複数の選択肢のうち少なくとも１つに対する選択操作を獲得する。例えば、ユーザがクリック等の方法によって１つまたは複数の選択肢のうちの１つを選択すると、操作獲得ユニットは前記選択操作および選択した選択肢に対して獲得を行う。置換ユニットは前記操作獲得ユニットが選択した選択肢を獲得し、前記選択肢を用いて前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する。例えば、上記の例では、ユーザが選択肢「金州」を選択することにより、置換ユニットは「金州」を用いて前記「錦州」を置き換え、更新後の入力文字列は「我帯弥去金州」となる。

図３に本発明の別の様態によるネットワーク装置およびユーザ装置の連係により音声入力を実現する方法のフローチャートを示す。
具体的には、ステップｓ１において、ネットワーク装置１が音声入力情報を獲得し、ステップｓ２において、ネットワーク装置１が音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定し、ステップｓ３において、ネットワーク装置１が前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、ステップｓ４において、ネットワーク装置１が前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。それに対応して、ステップｓ４において、ユーザ装置２が、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得し、ステップｓ５において、ユーザ装置２が前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。

ステップｓ１において、ネットワーク装置１は音声入力情報を獲得する。具体的には、ステップｓ１において、ネットワーク装置１は各種通信プロトコル（ＣｏｍｍｕｎｉｃａｔｉｏｎＰｒｏｔｏｃｏｌ）に基づいて、各種データ伝送インターフェースを介して第三者の音声入力情報データ等とインタラクションを行い、音声入力情報を獲得する。あるいは、ステップｓ１において、ネットワーク装置１はユーザが入力した音声入力情報をリアルタイムに獲得する、あるいは、前記ユーザ装置とインタラクションを行い、ユーザがリアルタイムに入力した音声入力情報を獲得する等でもよい。そのうち、前記音声入力情報は文字、単語、短文、長文等を含むが、これに限定されるものではない。

ステップｓ２において、ネットワーク装置１は、音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定する。具体的には、ステップｓ２において、ネットワーク装置１は、予め設定されたまたは学習にて得られた音声認識モデルに基づいて、例えば音声入力情報に分割を行うことにより、前記音声入力情報に対応する１つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレート等にマッチングさせることにより、前記音節に対応する１つまたは複数の分詞または候補分詞を獲得し、順次前記入力音節にマッチングを行うことにより、前記音声入力情報に対応する入力文字列を確定する。そのうち、前記入力文字列には前記音声入力情報に対応する複数の分詞または候補分詞を含む。

ここで、前記音声認識モデルは汎用の音声認識モデル、あるいは現在のユーザのみと対応する特定音声認識モデルを含むが、これに限定されるものではなく、前記音声認識モデルは音声認識訓練により得られる。例えば、前記音声入力情報に対応するセンテンス「我帯弥去錦州」であれば、ステップｓ２において、ネットワーク装置１は前記音声入力情報に対して分割を行うことにより、前記音声入力情報に対応する複数の分詞または候補分詞を獲得する。例えば、我、帯、弥、去、錦州であり、そのうち、「帯」の位置には「代、待、呆（１０％）」、「錦州」の位置には「金州、晋州」等のような他の候補分詞もあり得る。

ステップｓ３において、ネットワーク装置１は、前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得する。具体的には、ステップｓ３において、ネットワーク装置１は、機械学習によって獲得した、あるいは対応する出現確率情報データベース等に照会することによって獲得した情報に基づいて、前記入力文字列中の分詞が対応する出現確率情報を確定し、前記出現確率情報に基づいて、前記出現確率情報を直接前記分詞の確度情報とする方式により、前記分詞の確度情報を獲得する。あるいは例えば前記分詞の前記入力文字列における文脈情報または前記分詞の品詞情報等に基づいて、前記出現確率情報に対して処理を行って、前記分詞の確度情報を獲得する。

例えば、上記の例では、ステップｓ３において、ネットワーク装置１は出現確率情報データベースとのインタラクションによって、前記音声入力情報に対応するセンテンス「我帯弥去錦州」中の分詞が対応する出現確率情報（括弧内に示す）、我（９０％）、帯（４０％）、弥（９０％）、去（９８％）、錦州（４０％）を獲得し、そのうち、「帯」の位置には「代（３０％）、待（２０％）、呆（１０％）」、「錦州」の位置には「金州（３０％）、晋州（３０％）」等のような他の候補分詞もあり得る。ステップｓ３において、ネットワーク装置１は、前記出現確率情報を直接対応させて前記分詞の確度情報とする。すなわち、例えば「我」の確度情報は９０％である。

ステップｓ４において、ネットワーク装置１は、前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。具体的には、ステップｓ４において、ネットワーク装置１は、ステップｓ３から獲得した１つまたは複数の分詞または候補分詞で形成された入力文字列、および前記分詞の確度情報を、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。

それに対応して、ステップｓ４において、ユーザ装置２は、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得する。具体的には、ステップｓ４において、ユーザ装置２は各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記ネットワーク装置から１つまたは複数の分詞または候補分詞で形成された前記音声入力情報に対応する入力文字列、および前記分詞の確度情報を受信する。

ステップｓ５において、ユーザ装置２は、前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する。具体的には、ステップｓ５において、ユーザ装置２は、ステップｓ４で獲得した入力文字列、および前記入力文字列中の分詞の確度情報に基づいて、同一の入力音節に対応する前記確度情報の最も高い分詞に組み合わせることにより、前記ユーザに提供する入力文字列を生成する。あるいは、同一の入力音節に対応するすべての分詞または候補分詞を確度情報に従って高いものから低いものへとソートを行った後、前記ユーザに供給する入力文字列を生成する。そのうち、前記入力文字列にはすべてのマッチングする分詞を含む。

前記ユーザとインタラクションを行うことによって、各種通信プロトコルに基づいて、ユーザの対応するユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）等の方式を介して、前記入力文字列を前記ユーザに提供する。ここで、前記ユーザは前記音声入力情報の提供に対応するユーザ、あるいは前記音声入力情報を受信する指定されたユーザ等を含むが、これに限定されるものではない。

好ましくは、ステップｓ３において、ネットワーク装置１は、前記分詞の前記入力文字列における条件付き確率を確定して、前記分詞の出現確率情報とし、出現確率閾値に基づいて、前記分詞の出現確率情報によって、前記分詞の確度情報を確定してもよい。具体的には、ステップｓ３において、ネットワーク装置１は、前記分詞の前記入力文字列における条件付き確率を直接獲得してもよい。あるいは、まず前記入力文字列が出現する確率Ｐ（Ｂ）を獲得し、その後前記入力文字列に前記分詞が含まれる確率Ｐ（ＡＢ）を獲得することにより、前記入力文字列に前記分詞が出現する条件付き確率Ｐ（Ａ｜Ｂ）を算出し、前記条件付き確率Ｐ（Ａ｜Ｂ）を前記分詞の出現確率情報としてもよい。

ステップｓ３において、ネットワーク装置１は、予め設定されたまたは機械学習等の方式によって獲得した出現確率閾値に基づいて、例えば前記出現確率情報が前記出現確率閾値より高い１つまたは複数の分詞を正確分詞とし、前記分詞の出現確率情報が前記出現確率閾値より低い場合は不正確分詞とすることにより、前記分詞の確度情報を確定する。

さらに好ましくは、当該方法はステップｓ１１（図示せず）をさらに含み、そのうち、ステップｓ１１において、ネットワーク装置１は前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定する。具体的には、ステップｓ１１において、ネットワーク装置１は、前記分詞および前記分詞が対応する候補分詞の出現確率情報を獲得してもよく、例えば前記１つまたは複数の分詞および候補分詞の出現確率に対して、平均、加重平均、メジアン等の方式を実行し、前記出現確率閾値を確定する。例えば、前記分詞および候補分詞の出現確率情報が｛４０％、１０％、１０％、２０％、２０％｝である場合、閾値は３０％−４０％としてもよく、５０％に規定する必要はない。例えば、前記分詞および候補分詞の出現確率情報が｛５０％、４５％、５％｝である場合、出現確率閾値を５０％としても、不適切である可能性が高い。

好ましくは、ステップｓ２において、ネットワーク装置１は、音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報を結合し、前記音声入力情報に対応する入力文字列を確定してもよい。具体的には、ステップｓ２において、ネットワーク装置１は、例えば前記音声入力情報が対応する文脈情報を結合し、対応する音声認識モデルを確定する。例えば、前記文脈情報中のキーワードに基づいて、対応する異なる領域の音声認識モデルを判定した後、前記音声認識モデルに基づいて、前記音声入力情報が対応する入力文字列を確定する。あるいは、汎用の音声認識モデルを用いて前記入力文字列を確定し、前記文脈情報を結合し、前記入力文字列に対して、例えば文脈マッチングを向上させる文字列の重み付けまたは優先度等の調整を行う。そのうち、前記入力文字列の確定方式と図３１におけるステップｓ２の確定方式は同一または相似していることから、詳述しないが、引用を以てここに含まれるものとする。

図４に本発明の１つの好適な実施例によるネットワーク装置およびユーザ装置の連係により音声入力を実現する方法のフローチャートを示す。
具体的には、ステップｓ１’において、ネットワーク装置１が音声入力情報を獲得し、ステップｓ２’において、ネットワーク装置１が音声認識モデルに基づいて、前記音声入力情報に対応する入力文字列を確定し、ステップｓ３’において、ネットワーク装置１が前記入力文字列中の分詞が対応する出現確率情報を確定して、前記分詞の確度情報を獲得し、ステップｓ４’において、ネットワーク装置１が前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する。

それに対応して、ステップｓ４’において、ユーザ装置２が、ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得し、ステップｓ５’において、ユーザ装置２が前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供し、ステップｓ６’において、ユーザ装置２が前記ユーザの前記入力文字列中の少なくとも１つの分詞に対する選択肢の要求操作を獲得し、ステップｓ７’において、ユーザ装置２が前記要求操作に基づいて前記ネットワーク装置に前記少なくとも１つの分詞に関する選択肢のアクセス要求を送信する。

それに対応して、ステップｓ７’において、ネットワーク装置１が、前記ユーザ装置が送信した前記少なくとも１つの分詞に関する選択肢のアクセス要求を獲得し、ステップｓ８’において、ネットワーク装置１が前記アクセス要求に基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定し、ステップｓ９’において、ネットワーク装置１が前記１つまたは複数の選択肢を前記ユーザ装置に送信する。

それに対応して、ステップｓ９’において、ユーザ装置２が、前記ネットワーク装置が前記アクセス要求に基づいて送信した１つまたは複数の選択肢を受信し、ステップｓ１０’において、ユーザ装置２が前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供する。そのうち、ステップｓ１’、ステップｓ２’、ステップｓ３’、ステップｓ４’、ステップｓ５’は、それぞれ図３に示した対応するステップと同一または基本的に同一であることから、詳述しないが、引用を以てここに含まれるものとする。

ステップｓ６’において、ユーザ装置２は、前記ユーザの前記入力文字列中の少なくとも１つの分詞に対する選択肢の要求操作を獲得する。具体的には、ステップｓ６’において、ユーザ装置２は、各種通信プロトコルに基づいて、各種アプリケーションプログラミングインターフェースを介して、第三者装置から前記ユーザの前記入力文字列中の少なくとも１つの分詞に対する選択肢の要求操作を獲得する。あるいは、ユーザと直接インタラクションして獲得した要求操作である。

そのうち、前記要求操作はクリック、タッチ等を含むが、これに限定されるものではない。例えば、上記の例では、ステップｓ６’において、ユーザ装置２は前記ユーザと直接インタラクションし、前記ユーザがクリック等の方法によって入力した「錦州」に対する選択肢の要求を獲得する。

ステップｓ７’において、ユーザ装置２は、前記要求操作に基づいて前記ネットワーク装置に前記少なくとも１つの分詞に関する選択肢のアクセス要求を送信する。具体的には、ステップｓ７’において、ユーザ装置２は、前記要求操作に応じて、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記少なくとも１つの分詞に関する選択肢のアクセス要求を前記ネットワーク装置に送信する。

それに対応して、ステップｓ７’において、ネットワーク装置１は、前記ユーザ装置が送信した前記少なくとも１つの分詞に関する選択肢のアクセス要求を獲得する。具体的には、ステップｓ７’において、ネットワーク装置１は、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記ユーザ装置から前記少なくとも１つの分詞に関する選択肢のアクセス要求を受信する。

ステップｓ８’において、ネットワーク装置１は、前記アクセス要求に基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定する。具体的には、ステップｓ８’において、ネットワーク装置１は、ステップｓ７’が獲得したアクセス要求に基づいて、前記アクセス要求における獲得必要な分詞に応じて、ステップｓ２’における前記分詞に対応する候補分詞を直接獲得することによって、前記候補分詞を選択肢とする。あるいは、前記分詞を再処理して、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を獲得する。そのうち、前記処理方法と前記ステップｓ２’の方法は同一または相似していることから、詳述しないが、引用を以てここに含まれるものとする。

ステップｓ９’において、ネットワーク装置１は、前記１つまたは複数の選択肢を前記ユーザ装置に送信する。具体的には、ステップｓ９’において、ネットワーク装置１は、前記ステップｓ８’が確定した１つまたは複数の選択肢を獲得し、各種通信プロトコルに基づいて、ユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記１つまたは複数の選択肢を前記ユーザ装置に送信する。

それに対応して、ステップｓ９’において、ユーザ装置２は、前記ネットワーク装置が前記アクセス要求に基づいて送信した１つまたは複数の選択肢を受信する。具体的には、ステップｓ９’において、ユーザ装置２は、各種通信プロトコルに基づいて、ネットワーク装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）を介して、あるいはその他の所定の通信方式の形式要求により、前記ネットワーク装置から前記アクセス要求に基づいて送信された１つまたは複数の選択肢を受信する。

ステップｓ１０’において、ユーザ装置２は、前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供する。具体的には、ステップｓ１０’において、ユーザ装置２は、ステップｓ９’で獲得した１つまたは複数の選択肢に基づいて、システムが予め設定した、またはユーザが設定する方式で、前記１つまたは複数の選択肢のうち少なくとも１つを、前記ユーザとインタラクションを行うことによって前記ユーザに提供する。あるいは、各種通信プロトコルに基づいて、ユーザの対応するユーザ装置が提供するアプリケーションプログラミングインターフェース（ＡＰＩ）等の方式を介して、前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供する。ここで、前記ユーザは前記音声入力情報の提供に対応するユーザ、あるいは前記音声入力情報を受信する指定されたユーザ等を含むが、これに限定されるものではない。

好ましくは、ステップｓ８’において、ネットワーク装置１は、前記アクセス要求に基づいて、前記少なくとも１つの分詞の文脈情報を結合し、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定してもよい。具体的には、ステップｓ８’において、ネットワーク装置１は、前記アクセス要求に基づいて、前記アクセス要求における分詞の文脈情報を結合することにより、前記前記少なくとも１つの分詞に対応する１つまたは複数の選択肢に対して確定を行ってもよい。例えば、文脈情報に基づいて、常用連語または文法等の情報を結合することにより、前記文脈情報とのマッチング度が低い選択肢を除外する。例えば、音声入力「我帯弥去錦州」について、選択肢が必要な分詞が「錦州」であるとすると、「去」という方向詞を考慮して、対応する選択肢はおそらく「金州」、「晋州」であり、「禁咒」を含むことはない。

好ましくは、当該方法はステップｓ１２’（図示せず）およびステップｓ１３’（図示せず）をさらに含む。そのうち、ステップｓ１２’において、ユーザ装置２はユーザの前記１つまたは複数の選択肢のうち少なくとも１つに対する選択操作を獲得し、ステップｓ１３’において、ユーザ装置２は前記選択操作が対応する選択肢に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する。

具体的には、ステップｓ１２’において、ユーザ装置２は、ユーザと直接インタラクションする、あるいは前記選択操作を提供することができる第三者が備えるアプリケーションプログラミングインターフェース等を経由して、ユーザの前記１つまたは複数の選択肢のうち少なくとも１つに対する選択操作を獲得する。例えば、ユーザがクリック等の方法によって１つまたは複数の選択肢のうちの１つを選択すると、ステップｓ１２’において、ユーザ装置２は前記選択操作および選択した選択肢に対して獲得を行う。

ステップｓ１３’において、ユーザ装置２は前記ステップｓ１２’が選択した選択肢を獲得し、ステップｓ１３’において、ユーザ装置２を用いて前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する。例えば、上記の例では、ユーザが選択肢「金州」を選択することにより、置換ユニットは「金州」を用いて前記「錦州」を置き換え、更新後の入力文字列は「我帯弥去金州」となる。

当業者にとって、本発明が上述の模範的な実施例の細部に限定されるものではないことは明らかであり、本発明の精神または基本的な特徴から逸脱しない限りにおいて、その他の具体的形式で本発明を実現し得るものである。よって、いずれの点においても、実施例を模範とし、かつ制限されるものでもない。本発明の範囲は添付の特許請求の範囲によるものであり、上述の説明に限定されるものではなく、よって、特許請求の範囲の同等案件の含意および範囲内のすべての変化を本発明に含むことを目的とする。特許請求の範囲におけるいかなる図面標識も特許請求の範囲を制限するとみなすべきではない。この他、「含む」という語は、その他のユニットまたはステップを排除するものではなく、単数は複数を排除するものでもないことは明らかである。装置の特許請求の範囲における複数のユニットまたは装置という記載も、１つのユニットまたは装置でソフトウェアまたはハードウェアによって実現してもよい。第１、第２等の語を用いた名称は、いかなる順序を特定するものでもない。

Claims

ネットワーク装置端末において音声入力を実現する方法であって、
音声入力情報を獲得するステップａと、
予め設定されたまたは学習にて得られた音声認識モデルに基づいて、前記音声入力情報を分割することにより、前記音声入力情報に対応する１つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレートにマッチングさせることにより、当該各音節に対応する１つまたは複数の分詞を獲得し、順次前記入力音節にマッチングを行うことにより前記音声入力情報に対応する入力文字列を確定するステップであって、前記入力文字列は、前記音声入力情報に対応する複数の分詞と、同じ入力音節に対応する同音異義語である少なくとも２つの分詞を含むものであるステップｂと、
前記入力文字列中の分詞の前記入力文字列における条件付き確率を確定して、前記分詞の出現確率情報とし、出現確率閾値及び前記分詞の前記出現確率情報に基づいて前記分詞の確度情報を確定するステップｃと、
前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信するステップｄと、
を含む方法。
前記ユーザ装置が送信した前記入力文字列中の前記少なくとも１つの分詞に関する選択肢のアクセス要求を獲得するステップと、
前記アクセス要求に基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定するステップｘと、
前記１つまたは複数の選択肢を前記ユーザ装置に送信するステップと、
をさらに含む請求項１に記載の方法。
前記ステップｘは、前記アクセス要求に基づいて、前記少なくとも１つの分詞の文脈情報に合わせて基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定するステップを含む請求項２に記載の方法。
前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定するステップをさらに含む請求項１に記載の方法。
前記ステップｂは、音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報に合わせて基づいて、前記音声入力情報に対応する入力文字列を確定するステップを含む請求項１〜４のいずれか１項に記載の方法。
ユーザ装置端末において音声入力の実現を補助する方法であって、
ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得するステップであって、前記入力文字列は、前記音声入力情報に対応する複数の分詞と、同じ入力音節に対応する同音異義語である少なくとも２つの分詞を含むものであり、前記確度情報は前記分詞の前記入力文字列中の条件付き確率により確定されるステップＡと、
前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供するステップＢと、
を含み、
前記入力文字列は、前記ネットワーク装置により、
予め設定されたまたは学習にて得られた音声認識モデルに基づいて、前記音声入力情報を分割することにより、前記音声入力情報に対応する１つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレートにマッチングさせることにより、当該各音節に対応する１つまたは複数の分詞を獲得し、順次前記入力音節にマッチングを行うことにより前記音声入力情報に対応する入力文字列を確定する
ことにより、確定されるものである
方法。
前記ユーザの前記入力文字列中の少なくとも１つの分詞に対する選択肢の要求操作を獲得するステップと、
前記要求操作に基づいて前記ネットワーク装置に前記少なくとも１つの分詞に関する選択肢のアクセス要求を送信するステップと、
前記ネットワーク装置が前記アクセス要求に基づいて送信した１つまたは複数の選択肢を受信するステップと、
前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供するステップと、
をさらに含む請求項６に記載の方法。
ユーザの前記１つまたは複数の選択肢のうち少なくとも１つに対する選択操作を獲得するステップと、
前記選択操作に対応する選択肢に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得するステップと、
をさらに含む請求項７に記載の方法。
音声入力を実現するネットワーク装置であって、
音声入力情報を獲得する入力獲得ユニットと、
予め設定されたまたは学習にて得られた音声認識モデルに基づいて、音声入力情報を分割することにより、前記音声入力情報に対応する１つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレートにマッチングさせることにより、当該各音節に対応する１つまたは複数の分詞を獲得し、順次前記入力音節にマッチングを行うことにより前記音声入力情報に対応する入力文字列を確定するユニットであって、前記入力文字列は、前記音声入力情報に対応する複数の分詞と、同じ入力音節に対応する同音異義語である少なくとも２つの分詞を含むものである配列確定ユニットと、
前記入力文字列中の分詞の前記入力文字列における条件付き確率を確定して、前記分詞の出現確率情報とし、出現確率閾値及び前記分詞の前記出現確率情報に基づいて前記分詞の確度情報を獲得する確度確定ユニットと、
前記入力文字列および前記分詞の確度情報を前記音声入力情報に対応するユーザ装置に送信する送信ユニットと、
を含むネットワーク装置。
前記ユーザ装置が送信した前記入力文字列中の前記少なくとも１つの分詞に関する選択肢のアクセス要求を獲得する要求獲得ユニットと、
前記アクセス要求に基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定する選択肢確定ユニットと、
前記１つまたは複数の選択肢を前記ユーザ装置に送信する選択肢送信ユニットと、
をさらに含む請求項９に記載のネットワーク装置。
前記選択肢確定ユニットは、前記アクセス要求に基づいて、前記少なくとも１つの分詞の文脈情報に合わせて基づいて、前記少なくとも１つの分詞に対応する１つまたは複数の選択肢を確定する請求項１０に記載のネットワーク装置。
前記分詞の出現確率情報、および前記分詞に対応する候補分詞の出現確率情報に基づいて前記出現確率閾値を確定する閾値確定ユニットをさらに含む請求項９に記載のネットワーク装置。
前記配列確定ユニットは、音声認識モデルに基づいて、前記音声入力情報が対応する文脈情報に合わせて基づいて、前記音声入力情報に対応する入力文字列を確定する請求項９〜１２のいずれか１項に記載のネットワーク装置。
音声入力の実現を補助するユーザ装置であって、
ネットワーク装置が送信した音声入力情報が対応する入力文字列、および前記入力文字列中の分詞の確度情報を獲得する配列獲得ユニットであって、前記入力文字列は、前記音声入力情報に対応する複数の分詞と、同じ入力音節に対応する同音異義語である少なくとも２つの分詞を含むものであり、前記確度情報は前記分詞の前記入力文字列中の条件付き確率により確定される配列獲得ユニットと、
前記分詞の確度情報に基づいて、前記入力文字列をユーザに提供する提供ユニットと、
を含み、
前記入力文字列は、前記ネットワーク装置により、
予め設定されたまたは学習にて得られた音声認識モデルに基づいて、前記音声入力情報を分割することにより、前記音声入力情報に対応する１つまたは複数の入力音節を獲得し、前記入力音節の固有ベクトルを順次前記音声認識モデルのテンプレートにマッチングさせることにより、当該各音節に対応する１つまたは複数の分詞を獲得し、順次前記入力音節にマッチングを行うことにより前記音声入力情報に対応する入力文字列を確定する
ことにより、確定されるものである
ユーザ装置。
前記ユーザの前記入力文字列中の少なくとも１つの分詞に対する選択肢の要求操作を獲得する選択肢要求獲得ユニットと、
前記要求操作に基づいて前記ネットワーク装置に前記少なくとも１つの分詞に関する選択肢のアクセス要求を送信するアクセス要求送信ユニットと、
前記ネットワーク装置が前記アクセス要求に基づいて送信した１つまたは複数の選択肢を受信する選択肢受信ユニットと、
前記１つまたは複数の選択肢のうち少なくとも１つを前記ユーザに提供する選択肢提供ユニットと、
をさらに含む請求項１４に記載のユーザ装置。
ユーザの前記１つまたは複数の選択肢のうち少なくとも１つに対する選択操作を獲得する操作獲得ユニットと、
前記選択操作が対応する選択肢に基づいて、前記入力文字列中の対応する分詞を置換して、更新後の前記入力文字列を獲得する置換ユニットと、
をさらに含む請求項１５に記載のユーザ装置。