JP2011522486A

JP2011522486A - 電話での会話をテキストに書き起こすための方法及びシステム

Info

Publication number: JP2011522486A
Application number: JP2011511692A
Authority: JP
Inventors: ロジャース、シーン・スコット
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2008-05-27
Filing date: 2009-05-12
Publication date: 2011-07-28
Also published as: WO2009146249A1; JP2013146085A; KR101213514B1; US20090299743A1; KR20110021963A; JP2015084544A; US8407048B2; EP2294800B1; JP5701916B2; CN102047647A; CN102047647B; EP2294800A1

Abstract

電話での会話の一部をテキストに書き起こすための方法及びシステムは、ユーザが例えばモバイルデバイス上のボタンを押すことによって書き起こしを要求することを可能にし、前記要求は、書き起こしソフトウェアを含むサーバに送信される。前記サーバは、前記電話での会話の一部又は全体をテキストに書き起こし、前記テキストを前記モバイルデバイスに送信する。前記テキストデータは、スキャンして選択された情報を識別することができ、前記選択された情報のみが前記モバイルデバイスに送信される。前記選択された情報は、前記モバイルデバイスのメモリ、例えばアドレス帳、に自動的に格納することができる。

Description

本発明は、一般的には、通信技術に関し、さらに具体的には、電話網において音声データをテキストデータに書き起こすための方法及びシステムに関するものである。

今日の典型的な無線モバイル通信デバイス（例えば携帯電話）のメモリ及び処理容量は、相対的に大量のデータを格納する能力をユーザに提供する。典型的には、モバイルデバイスのメモリ容量は、電話番号、電子メールアドレス及び郵便住所、等の連絡情報の格納に用いられる。典型的なモバイルデバイスユーザは、数十のさらには何百もの格納された電話番号及び住所を有することができる。

連絡情報の入力は、特にその連絡情報が電話での会話中に話された言葉によるユーザ関連情報である状況においては、いらいらさせること及び時間がかかる可能性がある。このようにして受信された情報を入力及び格納することは、最初に何らかの手動の格納方法（例えば、紙に書く）に従ってその情報を書き写し、次に手動でモバイルデバイスに入力しなければならないためユーザにとって問題になる可能性がある。これは、ユーザが車を運転中である場合、又はユーザが利用可能な筆記用具を有さない場合に特に問題になる。

種々の実施形態は、会話の一部を表すテキストデータをユーザのモバイルデバイスに提供するための方法とシステムとを含む。実施形態は、前記テキストデータ内の電話番号及び住所をスキャン及び識別することができ、このため、この情報を前記テキストデータから抽出してモバイルデバイス内、例えば、アドレス帳又はその他のメモリ記憶場所に格納することができる。実施形態は、バッファリングされた会話をテキストデータに書き起こす（ｔｒａｎｓｃｒｉｂｅ）前に会話の一部又は全体をバッファリングすることを可能にする。

種々の実施形態は、モバイルデバイスが、会話をテキストデータに書き起こすようにサーバに要求し、前記サーバが前記書き起こしを行って前記テキストデータを格納のために前記ユーザの電話に送信するように促す。前記サーバは、前記テキストデータ内の電話番号及び住所をスキャン、識別及び抽出すること、及び前記データを前記ユーザのモバイルデバイスに送信することができる。

添付図は、ここに組み入れられて本明細書の一部を成し、本発明の典型的な実施形態を示す。これらの図面は、上記の発明の概要及び下記の発明を実施するための形態とともに、本発明の特徴を説明するのに役立つ。

図１は、声の音声データをテキストデータに書き起こすことが可能な典型的な通信デバイスのコンポーネントブロック図である。図２は、通信デバイス内において声の音声データをテキストデータに書き起こすための実施形態の方法のプロセス流れ図である。図３は、書き起こし要求ボタンの起動に応答して書き起こしプロセスを開始及び終了させるための実施形態の方法のプロセス流れ図である。図４は、書き起こしがサーバによって完遂される実施形態のシステムブロック図である。図５は、実施形態において用いるのに適する典型的なサーバのコンポーネントブロック図である。図６は、サーバにおいて声の音声データをテキストデータに書き起こすための実施形態の方法のプロセス流れ図である。図７は、サーバにおいて声の音声データをテキストデータに書き起こすための実施形態の方法の代替のプロセス流れ図である。図８は、サーバにおいて声の音声データをテキストデータに書き起こすための実施形態の方法の他の代替のプロセス流れ図である。

詳細な説明

種々の実施形態が添付された図面を参照して詳細に説明される。可能な限りにおいて、同じ又は類似の部品を指すために同じ参照数字が図面全体にわたって用いられる。特定の例及び実装への言及は、例示を目的とするものであり、本発明又は請求項の適用範囲を限定することは意図されていない。

用語“電話”は、あらゆる電話方式の通信デバイス又はシステムを含み、有線の固定電話と、無線の携帯電話と、ボイス・オーバー・インターネット・プロトコル（ＶＯＩＰ）フォンと、音声通信能力を有するラップトップコンピュータと、インターネット電話サービスをサポートすることが可能なデバイス（例えば、Ｓｋｙｐｅ）と、を含む。

ここにおいて用いられる用語“モバイルハンドセット”、“ハンドセット”、“モバイルデバイス”及び“ハンドヘルドデバイス”は、携帯電話、携帯情報端末（ＰＤＡ）、パームトップコンピュータ、無線電子メール受信機及び携帯電話受信機（例えば、Ｂｌａｃｋｂｅｒｒｙ（登録商標）デバイス及びＴｒｅｏ（登録商標）デバイス）、マルチメディアインターネット式携帯電話（例えば、ｉＰｈｏｎｅ（登録商標））、及びプログラマブルプロセッサとメモリ及びセルラー又はその他の無線ネットワークへの接続能力を含む同様のパーソナル電子デバイスのうちのいずれか１つ又は全部を意味する。

用語“音声テキスト変換器”（ｖｏｉｃｅｔｏｔｅｘｔｃｏｎｖｅｒｔｅｒ）又は“発話テキスト変換器” （ｓｐｅｅｃｈｔｏｔｅｘｔｃｏｎｖｅｒｔｅｒ）又は“書き起こし器”（ｔｒａｎｓｃｒｉｂｅｒ）又は“音声テキスト書き起こし器” （ｖｏｉｃｅｔｏｔｅｘｔｔｒａｎｓｃｒｉｂｅｒ）又は“書き起こし器”は、人間の声による会話を認識してテキストデータに変換する（すなわち書き起こす）ことができるあらゆるタイプのソフトウェア又はハードウェアシステムを含む。変換器は、単一のテキスト翻訳を提供することができ、又は複数の最も可能性の高いテキスト翻訳を提供することができる。実施形態は、いずれの特定のタイプの音声テキスト変換器にも限定されない。

用語“サーバ”は、ユーザの電話デバイスのための電話接続能力を提供するあらゆるコンピュータ、インターネットサーバ又はセルラー基地局を含む。サーバは、有線接続又は無線接続を介してユーザの電話デバイスに直接又は間接的に接続することができる。

種々の実施形態は、モバイルデバイス又は電話のユーザが会話全体又は一部をモバイルデバイスに格納するために自動的にテキストデータに書き起こすことを可能にするための方法及びシステムを提供する。一実施形態においては、ユーザは、ボタンを押すか又はコマンドを入力することによって、電話での会話のうちのテキストデータに書き起こすべき部分を選択することができる。一実施形態においては、会話の選択された部分は、携帯電話ネットワーク又は正規の電話網に結合されたサーバにおいて書き起こされ、その後にサーバがテキストデータをモバイルデバイスに送信する。代替として、サーバは、モバイルデバイス、セルラーネットワーク又は正規の電話網のうちのいずれかによってインターネットを介してアクセス可能にすることができる。一実施形態においては、テキストは、電話番号及び／又は住所データ（すなわち連絡情報）に関してスキャンすることができる。該スキャンは、（例えばテキストが送信される前に）サーバにおいて又は（例えばテキストが受信された後に）モバイルデバイス内において行うことができる。テキストデータ又は抽出された連絡情報は、テキストメッセージ、例えばショートメッセージサービス（ＳＭＳ）メッセージ、電子メール、等の形態で又はセルラーデータ送信を介してモバイルデバイスに送信することができる。テキストデータは、モバイルデバイスによって自動的に認識されてアドレス帳メモリに格納されるように特別にフォーマット化して送信することができる。

実施形態の方法は、種々のモバイルデバイスのうちのいずれかにおいて及び種々の計算デバイスのうちのいずれかにおいて実装することができ、デスクトップコンピュータ及びラップトップコンピュータを含むがこれらに限定されない。図１は、種々の実施形態をサポートすることが可能なモバイルデバイス２０の種々のコンポーネントを示す。モバイルデバイス２０のコンポーネントが示されるが、種々の実施形態とともに用いるのに適するコンピュータ（ポータブル又はその他）において同じ又は同様のコンポーネントを実装可能であることを当業者は理解するであろう。携帯電話としてのモバイルデバイス２０の例示は、例示することが目的であるにすぎない。さらに、上述される実施形態は、図１に示されるコンポーネントを含む声による会話をサポートすることが可能なあらゆるデバイスにおいて実装することができる。

典型的なモバイルデバイス２０は、内部メモリ２２及びユーザインタフェースディスプレイ２３に結合されたプロセッサ２１を含む。さらに、モバイルデバイス２０は、無線データリンク及び／又はプロセッサ２１に結合された携帯電話トランシーバ２５に接続された、電磁放射線を送信及び受信するためのアンテナ２４を有することができる。幾つかの実装においては、トランシーバ２５、及び携帯電話通信のために用いられるプロセッサ２１及びメモリ２２の部分は、ひとつにまとまって無線データリンクを介してデータインタフェースを提供するためエアインタフェースと呼ばれる。さらに、モバイルデバイス２０は、ユーザへの可聴の音声信号を生成するためのスピーカー２８と、ユーザの音声の発話を受信するためのマイク２９と、を含む。マイク２９及びスピーカー２８の両方とも、ボコーダ３０を介してプロセッサ２１に接続することができ、ボコーダ３０は、電気信号を音波に及びその逆に音波を電気信号に変換する。幾つかの実装においては、ボコーダ３０は、プロセッサ２１の回路及びプログラミングの一部として含めることができる。

プロセッサ２１は、ここにおいて説明される種々の実施形態の機能を含む種々の機能を果たすようにソフトウェア命令（アプリケーション）によって構成することができるプログラマブルなマイクロプロセッサ、マイクロコンピュータ又はマルチプルプロセッサチップ又はチップ（複数）であることができる。幾つかのモバイルデバイスにおいて、マルチプルプロセッサ１９１、例えば、無線通信機能専用の１つのプロセッサ及びその他のアプリケーションを実行することが専用の１つのプロセッサ、を提供することができる。

典型的には、ソフトウェアアプリケーションは、アクセスしてプロセッサ２１内にローディングする前に内部メモリ２２に格納することができる。幾つかのモバイルデバイスにおいては、プロセッサ２１は、アプリケーションソフトウェア命令を格納する上で十分な内部メモリを含むことができる。この説明の目的上、用語メモリは、プロセッサ２１によってアクセス可能な全メモリを意味し、内部メモリ２２とプロセッサ２１自体内のメモリとを含む。メモリ２２は、揮発性又は非揮発性のメモリ、例えばフラッシュメモリ、又は両方の組み合わせ、であることができる。種々の実施形態においては、メモリ２２は、バッファ３９によって構成することができ、音声テキスト変換ソフトウェア４４、連絡情報抽出ソフトウェア４６及び／又はアドレス帳５２を格納しておくことができる。

モバイルデバイス２０は、典型的には、ユーザによる入力を受けるためのキーパッド３６又は小型キーボード及びメニュー選択ボタン又はロッカースイッチ３７を含む。さらに、モバイルデバイス２０は、書き起こし（ｔｒａｎｓｃｒｉｐｔｉｏｎ）要求ボタン３２を含むことができる。一実施形態においては、書き起こし要求ボタン３２の起動は、音声をテキストに書き起こすプロセスを開始させる。ボタン３２は任意選択であり、テキストへの音声の変換の起動は、その他のあらゆる種類のコンピュータインタフェース入力を介して開始させることが可能であることを注記される。音声テキスト変換ソフトウェア４４は、種々のその他の手段によって、例えば、ディスプレイ２３のキーパッド３６に示されるユーザインタフェースメニューを介してメニュー選択ボタン又はロッカースイッチ３７と組み合わせて起動させることができる。その他の例においては、テキストへの音声の変換要求は、キーパッド３６上の一連のキーを押すことによって、声による起動（すなわち、特定の予め記録された単語又は句を言う）ことによって、モバイルデバイス２０上の加速度計センサを起動させる（例えば、モバイルデバイスを特定の方法で位置決めするか又は揺する）ことによって、タッチ画面式ディスプレイに触れることによって、等の方法でモバイルデバイス２０に提供することができる。説明を単純化するために、種々の実施形態は、ここにおいては、ユーザが例えば書き起こし要求ボタン３２を押すことによって起動させることが説明されるが、該説明は、書き起こし要求ボタン３２の使用に制限することは意図されない。

書き起こし要求ボタン３２を含む実施形態においては、書き起こし要求ボタン３２は、モバイルデバイス２０上において、ユーザが電話で会話中にモバイルデバイス２０を見る必要なしに書き起こしプロセスを起動させるのを可能にするような人間工学的に好都合な位置に配置することができる。例えば、書き起こし要求ボタン３２は、モバイルデバイス２０の側面において、モバイルデバイス２０を耳に当てた状態でユーザの指が通常置かれる位置の近くに配置することができる。幾つかのモバイルデバイスは、声によって起動されるダイヤルを開始するために用いられる側面上のボタンを含む。該ボタンは、通常は、同じく書き起こしを起動させる上で人間工学的に適する位置に配置される。書き起こし要求ボタン３２はモバイルデバイス２０上のあらゆる場所に配置することができる一方で、一実施形態においては、書き起こし要求ボタン３２は、図１に示されるようにモバイルデバイス２０の側面に配置される。例えば、書き起こし要求ボタン３２は、図１においては、ユーザが積極的に会話に従事しながらユーザの小指で操作することができるように人間工学的に配置された形が示される。代替実施形態においては、第２の書き起こし要求ボタン（示されていない）をモバイルデバイス２０の他方の側面に配置することができる（すなわち、書き起こし要求ボタン３２は、デバイスの両方の側面に含められる）。２つの別個の書き起こし要求ボタンをモバイルデバイス２０の互いに反対側の側壁に配置することによって、書き起こし要求は、いずれの手の指でも開始させることができ、このためユーザは特定の耳で会話を聴いている必要がない。一実施形態においては、書き起こし要求ボタン３２は、同じ声による呼中に書き起こし要求ボタン３２が再度押されたときに書き起こしプロセスを開始及び終了させる。代替実施形態においては、アクティブな書き起こし要求を終了させるために第２のボタン（示されていない）をモバイルデバイス上に含めることができる。

図２は、ユーザが声による呼の一部又は全体をテキストデータに書き起こすのを可能にするための実施形態の方法例のプロセス流れ図である。ユーザが音声データをテキストデータに書き起こすのを希望するときには、ユーザは、ステップ３０１において、例えば書き起こし要求ボタン３２を押すことによって、メモリ２２に格納された音声テキスト変換ソフトウェア４４を起動させる。典型的には、ユーザは、例えば重要な詳細事項（例えば連絡情報）をキャプチャするために、電話での会話中に書き起こし要求ボタン３２を押す。しかしながら、音声テキスト変換ソフトウェア４４は、ユーザが声による会話を最初から書き起こすことを希望する場合はその会話が始まる前に起動させることも可能である。音声テキスト変換ソフトウェア４４が起動された時点で、ソフトウェアは、ステップ３０８において、会話が行われたときに書き起こしを開始することができる。代替として、音声テキスト変換ソフトウェア４４は、メモリバッファ３９内に格納された会話を書き起こすことができる。電話での会話の希望される部分がテキストに変換された後は、そのテキストは、ステップ３１０において、連絡情報抽出ソフトウェア４６によってスキャンして電話番号、住所、等を識別することができる。抽出された連絡情報は、ステップ３１２において、モバイルデバイス２０のメモリ２２内のアドレス帳５２に格納することができる。連絡情報をアドレス帳５２に格納するステップは、手動で又は自動的に行うことができる。

ユーザが声による呼中に音声データをテキストデータに変換することを希望する実施形態においては、バッファ３９は、電話での会話の一部又は全体を格納して会話の選択された部分をテキストに変換できるようにするために用いることができる。この実施形態を用いることで、ユーザは、音声データが話された後に再キャプチャしてテキストデータに変換することができる。例えば、バッファ３９は、ユーザによって選択可能な継続時間、例えば５秒、１０秒、３０秒、６０秒又は３００秒、の間録音するような大きさ及び設定にすることができる。

書き起こしプロセスが進行中の会話中のみに起動される実施形態においては、書き起こし要求ボタン３２は、モバイルデバイス２０が待機モードにある（すなわち、アクティブな声による会話中でない）ときに異なる機能も有するボタンであることができる。図３は、種々の実施形態とともに用いるのに適する呼の状態に依存して書き起こし要求ボタン３２の機能を制御するための方法例を示すプロセス流れ図である。図３において、書き起こし要求ボタン３２は、他のソフトウェアアプリケーション又はルーチンによって制御される待機機能、例えば声によって起動されるダイヤルの開始、を有する。モバイルデバイス２０に実装された関連づけられた待機ソフトウェアアプリケーション又はルーチンに依存して、ボタン３２は、声による会話中にアクティブでない機能と関連づけることができる。プロセッサ２１は、主ループ２０１から外れて動作し、ステップ２０２において、例えばボタンを押す行為と関連づけられた割り込みフラグを検出することによって、ボタンが押される行為を検出する。それに応答して、プロセッサ２１は、テスト２０３において、フラグをテストして呼がアクティブであるかどうかを決定することができる。呼がアクティブでない（すなわち、テスト２０３＝“いいえ”である）場合は、主ループ２０１に戻る前に、ステップ２０４において、ボタン３２の待機機能を提供するソフトウェアルーチンが起動される。例えば、プロセッサ２１は、声によって起動されるダイアルルーチン又はアプリケーションを開始させることができる。しかしながら、ここにおいて説明される１つ以上の実施形態により、呼がアクティブである（すなわち、テスト２０３＝“はい”である）場合は、プロセッサ２１は、テスト２０５において、書き起こし要求フラグをテストして書き起こし要求メッセージが既に送信されているかどうかを決定することができ、アクティブでない（すなわち、テスト２０５＝“いいえ”である）場合は、ステップ２０６において、音声テキスト変換要求メッセージをサーバ５０に送信することができる。変換要求メッセージを送信した時点で（ステップ２０６）、プロセッサ２１は、ステップ２０７において、書き起こしプロセスが開始されていることを示すための書き起こし要求フラグを設定することも可能である。このフラグを設定することは、ソフトウェアが他のコンピュータ上で実行中であってプロセッサ２１は直接アクセスすることができなくなるため、サーバ５０が書き起こし中であるかどうかをプロセッサ２１が決定するのを可能にする。プロセッサ２１は、変換要求メッセージを送信した時点で（ステップ２０６）、他の書き起こし要求ボタン３２が押されたことによる割り込みが検出されるまで主ループ２０１に戻る。アクティブな呼中に書き起こし要求ボタン３２が再度押されたときには、書き起こし要求フラグをテスト中のプロセッサ２１は、書き起こし要求が既に行われている（すなわち、テスト２０５＝“はい”）であると決定し、このため、プロセッサ２１は、ステップ２０８において、書き起こし要求メッセージをサーバ５０に送信し、ステップ２０９において、主ループ２０１に戻る前に書き起こし要求フラグをクリアする。

代替実施形態においては、音声をテキストデータに変換するプロセスは、電話での会話を有するネットワークに結合されたサーバ５０において行われる。書き起こしプロセスをサーバ５０にオフローディングすることは、モバイルデバイス２０のバッテリ及びプロセッサ電力を節約する。図４は、モバイルデバイス２０において行われている声による会話の一部又は全体をサーバ５０において書き起こすことが可能な実施形態のシステム例を示す。このシステムは、セルラーネットワーク５２に接続されたセルラー基地局アンテナ５１を介して他のモバイルデバイス５５又は電話５７に通信するモバイルデバイス２０を含む。その他のモバイルデバイス５５との通信は、他の基地局５６を介して進行することができ、従来の電話５７との通信は、従来の電話通信網５４を通じて進行することができる。サーバ５０は、セルラー通信ネットワーク５２、従来の電話網５４又は他の通信ネットワーク、例えばインターネット２４、に接続される。種々の実施形態において、サーバ５０は、セルラー基地局５１において、セルラー通信ネットワーク５２の交換局内、従来の電話網５４の交換局内、又は電話での会話の音声データを提供することができるネットワークへのアクセスが可能なその他の所在場所に配置することができる。サーバ５０がインターネットに結合される実装においては、他のインターネットに接続されたサーバ（示されない）を、音声データを書き起こしのためにサーバ５０にルーティングするためにセルラー通信ネットワーク５２又は電話通信網５４内に含めることができる。音声呼が確立された時点で、モバイルデバイス２０（又はそのための５５）のユーザは、何時でも音声テキスト変換プロセスを起動させることができる。起動されたときには、電話での会話からの音声データもサーバ５０に送信され、サーバ５０において、ここにおいて説明されるように格納及び書き起こすことができる。

図５は、図４に示される実施形態のシステムにおいて用いるための例示のサーバ５０のコンポーネントブロック図である。サーバ５０は、サーバ内及びサーバ外においてデータを通信するための入力／出力ポート５２、例えば、ネットワーク（例えば、インターネット５３又は通信ネットワーク５２、５４）に接続するためのモデム又は同様のネットワークインタフェース、を含む。サーバ５０は、入力／出力ポート５２と通信し及びコンピュータによって読み取り可能なメモリ５６と通信するプロセッサ５５（例えば、マイクロプロセッサ）を含む。メモリ５６内には、電話信号復号ソフトウェア４２及び音声テキスト変換ソフトウェア４４を格納することができる。一実施形態においては、メモリ５６は、連絡情報抽出ソフトウェア４６も含むことができる。メモリ５６は、電話での会話の一部又は全体を一時的に格納するように構成されたバッファ４９のセグメント又はパーティションを含むこともできる。電話での会話は、暗号化された又は暗号化されない形でバッファリングすることができる。

復号ソフトウェア４２は、電話データを、音声テキスト変換ソフトウェア４４によって処理可能な音声データの形に変換するために必要になることがある。典型的には、電話信号は、データパケットに編成されたデジタル信号としてセルラーネットワーク５２及び電話網５４を通じて送信される。（プレーン・オーディナリ・テレフォン（ＰＯＴＳ）信号は、アナログ信号として住宅に／から送信される一方で、該信号は、多重化された光ファイバ及び銅製の中継線を介して送信されるデジタルデータに素早く変換される。）デジタルデータは、圧縮して符号分割多元接続（ＣＤＭＡ）データパケットとしてパケット化することができる。該デジタルデータは、多くの音声テキスト変換ソフトウェア４４アプリケーションにとっては読み取りできないことがあり、従って、書き起こしを開始できるようになる前に認識可能な音声データフォーマットに変換しなければならない。

音声テキスト変換ソフトウェア４４は、人間の発話をテキストに変換するためのあらゆる種類の又は銘柄のソフトウェア又はシステムであることができる。多くの異なる種類又は銘柄のそのようなソフトウェアが市販されている。復号ソフトウェア４２及び音声テキスト変換器４４は、結合して単一のソフトウェアパッケージ又はアプリケーションにすることが可能であることが分かる。

データフォーマットを変換することに加えて、サーバ５０は、書き起こしが許可されていることを確認することが必要な場合がある。幾つかの状況及び政治的地域においては、プライバシー保護法が、電話での会話の無許可の復号を防止している。これらの場合においては、音声テキスト変換ソフトウェア４４を特定のユーザのために起動可能になる前に事前の許可をユーザに要求することができる。幾つかの状況においては、ユーザがユーザのモバイルデバイス２０上の変換要求ボタン３９を押すことによってテキスト変換要求を要求することは、そのユーザの電話での会話を復号する特定の許可を与えたと解釈することができる。その他の状況においては、サーバ５０は、（例えば、電話での会話の相手のモバイルデバイス５５上の変換要求ボタン３２を押すことによる）会話の相手からの許可を得ることが必要な場合もある。

一実施形態においては、復号ソフトウェア４２及び／又は音声テキスト変換器４４は、サーバメモリ５６に格納されたソフトウェアの代わりにハードウェア又はハードウェア／ソフトウェアの組み合わせとして実装することができる。復号ソフトウェア４２及び変換器４４のハードウェア実装及びソフトウェア実装の両方とも請求項の適用範囲内である。

連絡情報抽出ソフトウェア４６は、変換されたテキストをスキャンして電話番号、住所、電子メールアドレス、等を得るためにサーバ５０上に実装することができる。例えば、電話番号は、テキストをスキャンして既知の市外局番、すなわち一続きの７桁又は１０桁の数字、を識別することによって認識及び抽出することができる。住所情報は、テキストをスキャンして住所情報と一般的に関連づけられた語句、例えば、“通り”、“街”、“道路”、“私書箱”、既知の都市又は州、等を識別することによって認識することができる。電子メールアドレスは、テキストをスキャンして既知の電子メールサービスプロバイダ（例えば、Ｇｍａｉｌ．ｃｏｍ、ｙａｈｏｏ．ｃｏｍ、ｈｏｔｍａｉｌ．ｃｏｍ）、語句“電子メール”、又は当然のことであるがテキスト内の語句“において”において現れる“＠”語、を確認することによって認識することができる。住所、電子メールアドレス又はその他の連絡情報が認識された時点で、ソフトウェアは、単純な規則を用いて情報を記述し（すなわち、認識されたデータがテキスト内のどの箇所で開始及び終了するかを決定し）、記述された情報をメモリ内にコピーすることができる。連絡情報が成功裏に抽出された場合は、モバイルデバイス２０のユーザに関して識別するか又はモバイルデバイス２０のユーザに送信することができ、さらに任意選択で、ユーザのモバイルデバイス２０のアドレス帳内の正確なフィールドに自動的に入力することができる。該当するメモリフィールドへの抽出されたデータの入力は、モバイルデバイス２０が受信された抽出された連絡データを用いて行うことができる。サーバによってバックアップされたシステムを有する大規模な組織における場合のように、ユーザのアドレス帳がサーバ５０上に維持される実装においては、抽出されたテキストは、サーバ５０上に維持されるアドレス帳の該当フィールドに格納することができる。これで、ユーザのモバイルデバイス２０は、モバイルデバイス２０が次にサーバ５０と“同期化”されたときに抽出連絡情報を含むアドレス帳の最新版によって更新することができる。連絡情報に関連しないテキストデータは廃棄することができる。

一実施形態においては、サーババッファ４９は、電話での会話が終了したときに（又は会話を休止中に）会話を一時的に格納する（すなわち、バッファリングする）ために用いることができる。この実施形態は、ユーザが電話での会話を終了後にテキストに変換するための電話での会話の一部分を選択するのを可能にする。この方法により、実施形態の方法は、ユーザが、音声データが話された後に再キャプチャしてテキストデータに変換するのを可能にする。バッファ継続時間は、ユーザによって又はサーバオペレータによって選択可能であり、任意の長さでありうる。

図６は、サーバ５０において電話での会話の音声データの一部又は全体をテキストに変換するための実施形態の方法を示すプロセス流れ図である。図２を参照して上述されるように、ユーザが音声データをテキストデータに変換するのを希望するときには、ユーザは、ステップ３０１において、書き起こし要求ボタン３２を押す（又は上述される、プロセスを起動させるその他の方法を用いる）ことができる。テキスト変換要求がユーザによって行われた時点で、ステップ３０２において、その要求は、モバイルデバイス２０によってサーバ５０に送信される。テキスト変換要求は、電話での会話中にデータパケットとして送信することができ、又は要求コマンドを構成するとして認識可能な特殊なトーン又は一連のトーンとして送信することができる。サーバ５０は、ステップ３０３において、入力／出力ポート５２を介してモバイルデバイス２０からテキスト変換要求を受信する。幾つかの実施形態においては、テキスト変換要求は、携帯電話通信ネットワーク５２又は従来の電話通信網５４内のプロセッサ又はサーバによって認識し、例えばインターネット５３を介してその要求及び電話での会話データをサーバ５０に転送するようにそのプロセッサ又はサーバに促すことができる。モバイルデバイス２０が無線通信デバイスである例においては、テキスト変換要求の送信は、最初に基地局アンテナ５１によって受信され、サーバ５０に通信される。ステップ３０４において、受信されたテキスト変換要求に応答して、サーバ５０は、復号ソフトウェア４２を起動させ、受信された通信データを、書き起こし可能なデータフォーマットに変換するのを開始することができる。ステップ３０７において、声による会話の一部は、オリジナルであるか又は復号されたデータフォーマットであるかにかかわらず、バッファ４９内に一時的に格納することができる。音声データがいったん復号された時点で、サーバプロセッサ５５は、ステップ３０８において、音声テキスト変換ソフトウェア４４を起動させ、会話の書き起こしを開始することができる。テキストへの音声の変換は、変換要求がサーバにおいて受信された時点で開始することができる。例えばユーザからのコマンドに応答して、会話の全体又は一部がサーババッファ４９において格納される場合は、会話は、例えば開始点を指定するための時間を使用することによって又はユーザが録音された会話を聴いて変換が開始すべき時点を指定することによって、格納された会話におけるあらゆる時点に開始することができる。

一実施形態においては、電話での会話は、ユーザが書き起こしを要求することなしに進行するのに応じてサーババッファ４９に格納し、それにより、ユーザが必要であることを認識したときに書き起こしを開始するのを可能にすることができる。この実施形態においては、サーバ５０は、電話での会話の一部をバッファ４９に格納することができ、このため、ユーザは、発生したばかりの電話での会話の一部においてテキスト変換サービスを開始することができる。例えば、サーバ５０及びバッファ４９は、例えば、３０乃至６０秒の限定された期間にまたがって先入れ先出し（ＦＩＦＯ）バッファ内に音声データを格納するように構成することができる。次に、ユーザが書き起こされることを希望する何かを聞いた場合、例えば、会話の相手が当選した宝くじの番号を読み上げるか又は住所又は電話番号を言う場合は、ユーザは、（例えばモバイルデバイス２０上のボタン３２を押すことによって）バッファ４９に格納された会話データの書き起こしを直ちに要求することができる。この実施形態においては、ユーザは、電話での会話の一部を書き起こすことを事前に決定する必要がなく、及び会話の相手に繰り返すように頼む必要がない。プライバシーを保護するために及び通信法を順守するために、一部が録音されることを会話の両当事者に知らせることが必要になる場合があり、ユーザが書き起こしを要求しない場合はバッファ４９内のデータを直ちに消去することが必要になる場合がある。

音声テキスト変換ソフトウェア４４は、いったん起動された時点で、電話の呼が終了するか又は変換終了信号がサーバ５０によって受信されるまで音声データをテキストデータに変換し続けることができる。ユーザは、種々の理由で声による会話が終了する前に音声をテキストに変換するプロセスを終了させることができる。例えば、ユーザは、会話の延長部分ではなく会話中に話される電話番号又は住所のみを変換することを希望することができる。一実施形態においては、ユーザは、声による会話中にボタン３９を再度押すことによって音声テキスト変換終了信号を送信することができる。代替として、音声テキスト変換ソフトウェア４４は、種々のその他の方法で、例えば、ディスプレイ２３のキーパッド３６上に示されるユーザインタフェースメニューと、メニュー選択ボタン又はロッカースイッチ３７、ボタンを複数回押すこと、音声起動コマンド（例えば、“書き起こし停止”と言う）、等を組み合わせて、終了させることができる。

音声テキスト変換ソフトウェア４４が終了された時点で、ステップ３０９において、新しく変換されたテキストデータは、テキストへの音声の変換を開始したユーザと関連づけられたサーバメモリ５５の記憶場所に格納することができる。変換されたテキストデータは、メモリ５５に格納された時点で、ユーザが、よく知られるデータアクセス技法を用いることで、ネットワーク、例えばインターネット５３、を介して何時でも検索することが可能である。

変換されたテキストは、ステップ３１３において、有線又は無線のデータ通信リンクを介してユーザのモバイルデバイス２０又はその他の通信デバイスに送信することも可能である。テキストデータは、テキストメッセージ（例えば、ＳＭＳ又は電子メールメッセージ）として又はテキストを含むその他のタイプのデータ送信ファイルとして送信することができる。代替として、変換されたテキストデータは、リアルタイムでモバイルデバイス２０に送信して戻すことができ、それにより、サーバ５０においてテキストデータを格納する必要がない（ステップ３０９）。該代替実施形態においては、音声データ変換ソフトウェア４４は、声の音声データがテキストに変換されるのに応じてモバイルデバイス２０に送信して戻すためのデータパケットを生成することができる。

音声テキスト変換方法が終了した時点で、ユーザは、選択された部分、例えば、テキストのうちの連絡情報を含む部分を手動で抽出し、選択された情報をアドレス帳５２に手動で入力すること又はモバイルデバイスのメモリ２２にテキストを格納することができる。例えば、ユーザは、モバイルデバイス２０において提供されたコピー・アンド・ペーストアプリケーションツールを用いて選択された語句又は数字をコピーし、それらをアドレス帳のレコード内の該当するフィールドに貼り付けることができる。ユーザが例えばインターネット５３を介してサーバ５０に格納されたテキストデータにアクセスする実施形態においては、ユーザは、ブラウザツールを用いてテキストの選択された部分をコピーしてモバイルデバイスのメモリ２２内に“貼り付ける”か、又はよく知られたアプリケーションツールを用いて選択された部分をモバイルデバイスのメモリ２２内にローディングすることができる。

代替実施形態においては、サーバ５０は、連絡情報を抽出し及び選択された部分を自動的にユーザのモバイルデバイス２０に通信するためのソフトウェアによって構成することができ、その一例が図７に示される。図７に示される実施形態は、図６を参照して上述されるステップ３０１乃至３０４と、ステップ３０７乃至３０９とを含む。さらに、サーバ５０は、ステップ３１０において、変換されたテキストデータから連絡情報を認識して抽出し、ステップ３１１において、抽出された連絡情報をメモリ２２に格納するためにモバイルデバイス２０に自動的に送信することができる。上述されるように、サーバ５０は、変換されたテキストをスキャンして電話番号、住所、電子メールアドレス、等を得るように設計された連絡情報抽出ソフトウェア４６をメモリ５５に格納しておくことができる。上述されるように、電話番号は、スキャンして既知の市外局番すなわち一続きの７桁又は１０桁の数字、を識別することによって認識することができ、住所情報は、テキストをスキャンして住所情報と関連づけられた語句（例えば、“通り”、“街”、“道路”、“私書箱”、既知の都市又は州、等）を識別することによって認識することができ、電子メールアドレスは、テキストをスキャンして既知の電子メールサービスプロバイダ（例えば、Ｇｍａｉｌ．ｃｏｍ、ｙａｈｏｏ．ｃｏｍ、ｈｏｔｍａｉｌ．ｃｏｍ）、語句“電子メール”、標準的なアドレス拡張子（例えば、“．ｃｏｍ”、“．ｏｒｇ”、“．ｎｅｔ”、“．ｇｏｖ”、“．ｕｋ”、“．ｃａ”、“．ｊｐ”、等）又はピリオド又は“ドット”に先行する“＠”を確認することによって認識することができる。連絡情報に関連しないテキストデータは、ユーザが指定又は選択するのに応じて廃棄するか又はメモリ内に保持することができる。ステップ３０９において変換されたテキストデータがメモリ５６に格納された後は、サーバ５０のプロセッサ５５は、ステップ３１０において、連絡情報抽出ソフトウェア４６を起動させ、変換されたテキストデータからすべての連絡情報を抽出することができる。抽出された連絡情報は、ステップ３１１において、ユーザのモバイルデバイス２０に送信することができる。モバイルデバイス２０は、ステップ３１２において、送信された連絡情報を受信し次にメモリ２２に格納されたアドレス帳内に自動的にその情報を入力するためのアプリケーションソフトウェアによって構成することも可能である。

代替実施形態においては、サーバ５０は、書き起こしサービスを起動させているモバイルデバイス２０のユーザ（すなわち、テキスト変換要求を送信したモバイルデバイス２０）に向けられた音声部分のみをテキストデータに変換する。換言すると、モバイルデバイス２０内に話されてマイク２９によって拾い上げられた声の音声データは、テキストに変換されない。多くの場合において、モバイルデバイス２０のユーザは、そのユーザ自身の語句を書き起こすことを希望する必要がない。この実施形態は、書き起こし処理及びモバイルデバイス２０によって受信されたテキストの量を低減させるために用いることができる。この実施形態は、サーバにルーティングされた各データパケットの一部として発生元デバイスをサーバ５０に知らせることによって完遂させることができる。代替として、例えばセルラー通信ネットワーク５２が相手側（例えば、図４に示されるモバイルデバイス５５又は電話５７）から受信された音声データのみを送信することによって、会話の一方の側のみを書き起こすためにサーバ５０にルーティングすることができる。

図８に示されるさらなる実施形態においては、サーバ５０は、ユーザの声及び発話パターンを認識してそれによって相手側の発話のみを書き起こすためのソフトウェアによって構成することができる。この代替実施形態においては、相手側によって（すなわち、書き起こしを要求したモバイルデバイス２０の所有者によってではない）話された語句のみがテキストに変換される。この実施形態は、図6及び７を参照して上述される方法ステップ３０１乃至３０４を実装することができる。さらに、サーバ５０のプロセッサ５５は、声による会話をモニタリングして声の音声データの発生元を決定するためのソフトウェアによって構成される。サーバ５０は、（例えばデータパケットヘッダ内の発生元アドレスを用いることによって）音声データパケット内の発生元アドレス情報を、変換要求を行ったデバイスのアドレスと比較することによって音声データパケットの発生元を決定することができる（３０１）。代替として、ユーザは、ステップ３０５において、サーバ５０がユーザの声を認識するように訓練し、サーバ５０が会話におけるユーザの声を識別できるようにすることができる。ユーザは、例えばサーバ５０に対して声による呼を行い、テキストの特定の部分をユーザのモバイルデバイス２０内に読み込むことによって、発話をテキストに変換するソフトウェアプログラムを訓練することができる方法と同様の方法でサーバ５０を訓練することができる。そのように訓練されたサーバ５０は、ステップ３０５において、サーバのメモリ２２に格納されたユーザの声のパターンと音声データを比較することによって声による会話中に話された語句をモニタリングすることができる。声の音声データパケットがユーザのモバイルデバイス２０において発生した（すなわち、テスト３０５＝“はい”である）場合は、サーバ５０は、次の声の音声データパケットを待つ。しかしながら、声のデータパケットがユーザのモバイルデバイス２０において発生したものでない（すなわち、テスト３０５＝“いいえ” である）場合は、サーバ５０は、ステップ３０６において、声のデータパケットを復号及び書き起こし、声の音声データを完了させ、図６及び７に参照して上述されるようにステップ３０６乃至３１２を実行する。この方法により、相手側の語句のみが書き起こされてユーザのモバイルデバイス２０に引き渡される。

幾つかの実施形態においては、ユーザが書き起こしプロセスを実行するサーバ５０に自己のモバイルデバイスを登録することが必要になる場合がある。該サーバ５０は、携帯電話キャリア、従来の電話システムのプロバイダ又は独立したサービスプロバイダによって運用及びマーケティングされる書き起こしサービスの一部であることができる。ユーザは、自己のモバイルデバイスをサーバ５０に登録することによって、テキストデータを自己のモバイルデバイスに送信するために用いられるメッセージ送信技術のタイプ及び該メッセージ送信のために用いるアドレスをサーバに知らせることができる。さらに、ユーザは、自己の会話が書き起こされるのを希望することをサーバ５０に確認し、サービスに対する要求事項又は制限事項を指定することができる。例えば、ユーザは、書き起こしサービスを開始するためにユーザが話すか又はパスワードを入力するように要求することができる。書き起こしが開始する前における自己の一意のパスワードの入力を要求することは、ユーザが許可のない書き起こし又は不注意な書き起こしを回避することを可能にする。さらに、ユーザは、上述されるように書き起こしを双方向（両当事者を書き起こす）又は一方向（すなわち、一方の当事者のみを書き起こす）のいずれにすべきかを指定することができる。ユーザは、例えば、自己のモバイルデバイス２０を用いてテキストの一部をサーバ５０に読むことによって、自己の声を登録プロセスの一部として認識するようにサーバ５０を訓練することもできる。ユーザは、サーバ５０がネットワーク、例えばインターネット５３、を介して２つ以上のモバイルデバイスにテキストデータを送信するか又はユーザによってアクセス可能なサーバメモリ内の記憶場所にテキストデータを保存するのを可能にするための情報をサーバ５０に提供することもできる。

幾つかの例においては、ユーザは、２つ以上のモバイルデバイスを所有することができ又はモバイルデバイスを借りること及び自己の電話での会話の一部を書き起こすのを希望することができる。該状況に対処するために、テキストデータへの会話の変換は、１つのモバイルデバイスにおいて開始させ、書き起こされたテキストをメモリ内での格納のために第２のモバイルデバイスに送信することができる。一実施形態においては、書き起こされたテキストは、既知のメッセージ送信アプリケーション、例えばＳＭＳ及び電子メールメッセージ送信、によって１方のモバイルデバイスから他方のモバイルデバイスに送信することができる。他の実施形態においては、サーバ５０は、第２のモバイルデバイスがサーバ５０に登録されている（すなわち、サーバ５０がそのモバイルデバイスのアドレスを知っている）場合は直接そのデバイスにテキストを送信することができる。一実施形態においては、テキストデータは、サーバ５０に登録しているユーザによって所有されるすべてのモバイルデバイスに送信することができる。

例えば、ユーザがモバイルデバイス２０及びユーザの自動車に組み入れられたセル式電話（ｃｅｌｌｕｌａｒｔｅｌｅｐｈｏｎｅ）を所有する場合は、ユーザは、例えば電話での会話の相手の電子メールアドレスを得るために、運転しながら書き起こしプロセスを実装することができる。書き起こしソフトウェアは、車の組み込まれたセル式電話又は他のプロセッサにおいて実行することができ、又はソフトウェアは、上述されるようにサーバ５０において実行することができる。書き起こしソフトウェアがサーバ５０において実行される場合は、サーバ５０は、車の組み込まれたセル式電話に変換されたテキストデータを送信することができ、車の組み込まれたセル式電話のメモリに格納されたユーザのアドレスに加えることができる。代替として又は追加で、サーバ５０は、登録中にサーバ５０に提供されたアドレスを用いてユーザのモバイルデバイス２０にテキストデータを送信することができる。車の組み込まれたセル式電話は、受信されたテキストデータをユーザのモバイルデバイス２０に自動的に転送するように構成することも可能である。

第２の例として、ユーザは、他のユーザのモバイルデバイス５５を借りること及び例えば連絡情報をキャプチャするために会話の一部を書き起こすのを希望することができる。この例においては、サーバ５０は、メッセージ送信技術及び登録中にサーバ５０に提供されたアドレスを用いて、変換されたテキストデータをユーザのモバイルデバイス２０に自動的に送信するように構成することができる。これらの例が示すように、書き起こしソフトウェアをサーバ５０上に配置することは、２つ以上のモバイルデバイス２４を有するか又は異なる電話デバイスから書き起こしサービスを実装する必要があるユーザにとってより高い柔軟性を提供する。

種々の実施形態は、電話での会話から情報をキャプチャする必要があるモバイルデバイスユーザに特に有用である。種々の実施形態は、モバイルデバイスを使用中に電話番号及住所を記録するためのペン及び紙を不要にする。

種々の実施形態は、モバイルデバイス２０に格納されたアドレス帳を言葉でプログラミングするために用いることができる。例えば、ユーザが電話番号又は住所をアドレス帳に格納したい場合は、ユーザは、（テキスト変換器を起動させる）音声テキスト変換要求ボタンを押し、モバイルデバイス内に話すことができる。上述されるように、音声信号がサーバに送信されてテキストデータに変換され、テキストデータはモバイルデバイス２０に送信して戻すことができる。この方法は、ユーザが手動によるテキスト入力なしで電話番号、等を入力したいときに役立つことができる。

上記の実施形態を実装するために用いられるハードウェアは、一組の命令を実行するように構成された処理要素及びメモリ要素であることができ、命令の組は、上記の方法に対応する方法ステップを実行するための命令である。代替として、幾つかのステップ又は方法は、所定の機能専用の回路によって実行することができる。

実施形態と関係させて説明される種々の例示的論理ブロック、モジュール、回路、及びアルゴリズム上のステップは、電子ハードウェア、コンピュータソフトウェア、又は両方の組み合わせとして実装できることを当業者は理解するであろう。ハードウェアとソフトウェアのこの互換性を明確に例示するため、上記においては、種々の例示的コンポーネント、ブロック、モジュール、回路、及びステップが、各々の機能の観点で一般的に説明されている。該機能がハードウェア、ファームウェア、又はソフトウェアとして実装されるかは、全体的システムに対する特定の用途上の及び設計上の制約事項に依存する。当業者は、説明されている機能を各々の特定の用途に合わせて種々の形で実装することができるが、これらの実装決定は、本開示の適用範囲からの逸脱を生じさせるものであるとは解釈すべきではない。

ここにおいて開示される実施形態様と関係させて説明される方法又はアルゴリズムのステップは、ハードウェア内において直接具現化させること、プロセッサによって実行されるソフトウェアモジュール内において具現化させること、又はこれらの２つの組合せにおいて具現化させることができる。ソフトウェアモジュールは、プロセッサによって読み取り可能な記憶媒体及び／又はプロセッサによって読み取り可能なメモリに常駐することができ、これらは両方とも、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、取り外し可能なディスク、ＣＤ−ＲＯＭ、又は当業において既知であるその他のあらゆる有形の記憶媒体であることができる。さらに、プロセッサによって読み取り可能なメモリは、２つ以上のメモリチップと、プロセッサチップ内部のメモリと、別個のメモリチップと、異なるタイプのメモリ、例えばフラッシュメモリ及びＲＡＭメモリ、の組み合わせと、を備えることができる。ここにおけるモバイルデバイスのメモリへの言及は、特定の構成、タイプ、又はパッケージに制限することなしにモバイルデバイス内のいずれか１つの又はすべてのメモリモジュールを包含することが意図される。典型的な記憶媒体は、モバイルデバイス内のプロセッサに結合させ、プロセッサが記憶媒体から情報を読み出すようにすること及び記憶媒体に情報を書き込むようにすることができる。代替においては、記憶媒体は、プロセッサと一体化させることができる。プロセッサ及び記憶媒体は、ＡＳＩＣ内に常駐することができる。

種々の実施形態に関する上記の説明は、当業者が本発明を実施又は使用できるようにすることを目的とするものである。これらの実施形態に対する種々の修正は、当業者にとって容易に明確になるであろう。さらに、ここにおいて定められる一般原理は、本発明の精神及び適用範囲を逸脱することなしにその他の実施形態に対しても適用することができる。以上のように、本発明は、ここにおいて示される実施形態に限定されることが意図されるものではなく、ここにおいて開示される原理及び斬新な特徴に一致する限りにおいて最も広範な適用範囲が認められるべきである。

Claims

電話での会話を書き起こすための方法であって、
モバイルデバイスからの書き起こし要求を前記モバイルデバイスに接続されたサーバにおいて受信することと、
前記電話での会話からの音声データを前記サーバにおいて受信することと、
前記サーバにおいて前記音声データの少なくとも一部を復号することと、
前記サーバにおいて前記復号された音声データをテキストデータに書き起こすことと、
前記テキストデータの少なくとも一部を前記サーバから前記モバイルデバイスに送信すること、とを備える、電話での会話を書き起こすための方法。
前記サーバにおいて前記音声データの一部をバッファリングすることと、
前記サーバにおいて前記バッファリングされた音声データをテキストデータに書き起こすこと、とをさらに備える請求項１に記載の方法。
前記モバイルデバイスにおいて前記テキストデータの前記送信された少なくとも一部を受信することと、
前記受信されたテキストデータを前記モバイルデバイスのメモリに格納すること、とをさらに備える請求項１に記載の方法。
前記テキストデータは、前記モバイルデバイス内のアドレス帳に格納される請求項３に記載の方法。
前記書き起こされたテキストデータから連絡情報を抽出することをさらに備え、前記抽出された連絡情報のみが前記サーバから前記モバイルデバイスに送信される請求項１に記載の方法。
音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
前記音声データの発生元を識別すること、とをさらに備え、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される請求項１に記載の方法。
前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
前記ユーザの声のプロフィールに一致する音声データを識別すること、とをさらに備え、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される請求項１に記載の方法。
モバイルデバイスであって、
プロセッサと、
前記プロセッサに結合されたトランシーバと、
前記プロセッサに結合されたメモリと、を備え、前記プロセッサは、
音声データをテキストデータに書き起こすことを開始する要求をサーバに送信することと、
前記サーバからテキストデータを受信することと、
前記テキストデータを自動的に前記メモリに格納すること、とを備えるステップを実行するためのソフトウェア命令によって構成される、モバイルデバイス。
前記プロセッサは、前記テキストデータを前記メモリに格納されたアドレス帳に自動的に格納するためのソフトウェア命令によって構成される請求項８に記載のモバイルデバイス。
前記プロセッサに結合された書き起こし要求ボタンをさらに備え、前記プロセッサは、前記書き起こし要求ボタンが最初に押されることに応答して書き起こしを開始する前記要求を前記サーバに送信するためのソフトウェア命令によってさらに構成される請求項８に記載のモバイルデバイス。
前記プロセッサは、声による呼がアクティブでないときに前記書き起こし要求ボタンが押されたときに異なる機能を実行するためのソフトウェア命令によってさらに構成される請求項１０に記載のモバイルデバイス。
前記プロセッサは、前記書き起こし要求ボタンが再度押されることに応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信するためのソフトウェア命令によってさらに構成される請求項１０に記載のモバイルデバイス。
モバイルデバイスであって、
音声データをテキストデータに書き起こすことを開始する要求をサーバに送信するための手段と、
前記サーバからテキストデータを受信するための手段と、
前記テキストデータを自動的に前記メモリに格納するための手段と、を備える、モバイルデバイス。
前記テキストデータを自動的に前記メモリに格納するための手段は、前記テキストデータを前記メモリに格納されたアドレス帳に自動的に格納するための手段を備える請求項１３に記載のモバイルデバイス。
音声データをテキストデータに書き起こすことを開始する要求をサーバに送信すべきであることを示すユーザの入力を受信するための手段をさらに備える請求項１３に記載のモバイルデバイス。
ユーザの入力を受信するための前記手段は、声による呼がアクティブでないときに異なる機能が実行されるべきであることを示す請求項１５に記載のモバイルデバイス。
ユーザの入力を受信するための前記手段の再度の起動に応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信するための手段をさらに備える請求項１５に記載のモバイルデバイス。
有形のプロセッサによって読み取り可能なメモリであって、
音声データをテキストデータに書き起こすことを開始する要求をサーバに送信することと、
前記サーバからテキストデータを受信することと、
前記テキストデータを自動的に前記メモリに格納すること、とを備えるステップを実行することをモバイルデバイスプロセッサに行わせるように構成されるプロセッサによって実行可能なソフトウェア命令を格納している、有形のプロセッサによって読み取り可能なメモリ。
前記プロセッサによって実行可能なソフトウェア命令は、前記テキストデータを前記モバイルデバイスのメモリに格納されたアドレス帳に自動的に格納することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される請求項１８に記載の有形のプロセッサによって読み取り可能なメモリ。
前記プロセッサによって実行可能なソフトウェア命令は、前記書き起こし要求ボタンが最初に押されたことに応答して書き起こしを開始する前記要求を前記サーバに送信することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される請求項１８に記載の有形のプロセッサによって読み取り可能なメモリ。
前記プロセッサによって実行可能なソフトウェア命令は、声による呼がアクティブでないときに前記書き起こし要求ボタンが押されたときに異なる機能を実行することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される請求項２０に記載の有形のプロセッサによって読み取り可能なメモリ。
前記プロセッサによって実行可能なソフトウェア命令は、前記書き起こし要求ボタンが再度押されることに応答して音声データをテキストデータに書き起こすことを終了させる要求を前記サーバに送信することを前記モバイルデバイスプロセッサに行わせるようにさらに構成される請求項２０に記載の有形のプロセッサによって読み取り可能なメモリ。
サーバであって、
サーバプロセッサと、
前記プロセッサに結合されたネットワークインタフェースと、
前記プロセッサに結合されたメモリと、を備え、
前記サーバプロセッサは、
ネットワークを介して前記モバイルデバイスに接続されたサーバにおいてモバイルデバイスからの書き起こし要求を前記ネットワークインタフェースを介して受信することと、
前記電話での会話からの音声データを前記ネットワークインタフェースを介して受信することと、
前記音声データの少なくとも一部を復号することと、
前記復号された音声データをテキストデータに書き起こすことと、
前記ネットワークインタフェースを介して前記テキストデータの少なくとも一部を前記モバイルデバイスに送信すること、とを備えるステップを実行するためのソフトウェア命令によって構成される、サーバ。
前記サーバプロセッサは、
前記音声データの一部をバッファリングすることと、
前記バッファリングされた音声データをテキストデータに変換すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成される請求項２３に記載のサーバ。
前記サーバプロセッサは、前記変換されたテキストデータから連絡情報を抽出することを備えるステップを実行するためのソフトウェア命令によってさらに構成され、前記抽出された連絡情報のみが前記モバイルデバイスに送信される請求項２３に記載のサーバ。
前記サーバプロセッサは、
音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
前記音声データの発生元を識別すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成され、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される請求項２３に記載のサーバ。
前記サーバプロセッサは、
前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
前記ユーザの声のプロフィールに一致する音声データを識別すること、とを備えるステップを実行するためのソフトウェア命令によってさらに構成され、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される請求項２３に記載のサーバ。
サーバであって、
モバイルデバイスからの書き起こし要求をネットワークを介して前記モバイルデバイスに接続されたサーバにおいて受信するための手段と、
前記電話での会話からの音声データを前記サーバにおいて受信するための手段と、
前記サーバにおいて前記音声データの少なくとも一部を復号するための手段と、
前記サーバにおいて前記復号された音声データをテキストデータに書き起こすための手段と、
前記テキストデータの少なくとも一部を前記サーバから前記モバイルデバイスに送信するための手段と、を備える、サーバ。
前記音声データの一部を前記サーバにおいてバッファリングするための手段と、
前記サーバにおいて前記バッファリングされた音声データをテキストデータに変換するための手段と、をさらに備える請求項２８に記載のサーバ。
前記書き起こされたテキストデータから連絡情報を抽出するための手段をさらに備え、前記抽出された連絡情報のみが前記サーバから前記モバイルデバイスに送信される請求項２９に記載のサーバ。
音声データの発生元を決定するために前記音声データのパケットをモニタリングするための手段と、
前記音声データの発生元を識別するための手段と、をさらに備え、復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される請求項２８に記載のサーバ。
前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較するための手段と、
前記ユーザの声のプロフィールに一致する音声データを識別するための手段と、をさらに備え、復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される請求項２８に記載のサーバ。
有形の記憶媒体であって、
モバイルデバイスから書き起こし要求を受信することと、
前記電話での会話からの音声データを受信することと、
前記音声データの少なくとも一部を復号することと、
前記復号された音声データをテキストデータに書き起こすことと、
前記テキストデータの少なくとも一部を前記モバイルデバイスに送信すること、とを備えるステップを実行することをサーバプロセッサに行わせるように構成されたサーバによって実行可能なソフトウェア命令を格納している、有形の記憶媒体。
前記格納されたサーバによって実行可能なソフトウェア命令は、
前記音声データの一部をバッファリングすることと、
前記バッファリングされた音声データをテキストデータに変換すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成される請求項３３に記載の有形の記憶媒体。
前記格納されたサーバによって実行可能なソフトウェア命令は、前記変換されたテキストデータから連絡情報を抽出することを備えるさらなるステップを実行することを前記サーバに行わせるように構成され、前記抽出された連絡情報のみが前記モバイルデバイスに送信される請求項３３に記載の有形の記憶媒体。
前記格納されたサーバによって実行可能なソフトウェア命令は、
音声データの発生元を決定するために前記音声データのパケットをモニタリングすることと、
前記音声データの発生元を識別すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成され
復号された前記音声データの前記一部は、前記モバイルデバイス以外の当事者を発生元とする音声データに限定される請求項３３に記載の有形の記憶媒体。
前記格納されたサーバによって実行可能なソフトウェア命令は、
前記サーバのメモリに格納されたユーザの声のプロフィールと音声データを比較することと、
前記ユーザの声のプロフィールに一致する音声データを識別すること、とを備えるさらなるステップを実行することを前記サーバに行わせるように構成され、
復号された前記音声データの前記一部は、前記ユーザの声のプロフィールに一致しない音声データに限定される請求項３３に記載の有形の記憶媒体。