以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。図面の説明において、同一又は同等の要素には同一符号を用い、重複する説明を省略する。
[第1実施形態]
図1は、本発明の第1実施形態に係る通話装置の機能構成を示す図である。通話装置1は、音声通話及びデータ通信が可能な通信端末であり、例えばユーザに所持(携帯)されて用いられるスマートフォン等の携帯電話機である。図1に示されるように、通話装置1は、音声通話部101(通話手段)と、第1指示入力部102と、音声録音部103(録音手段)と、音声保存部104(音声保存手段)と、録音音声送信部105と、テキスト受信部106と、テキスト保存部107(テキスト保存手段)と、通話履歴保存部108(履歴保存手段)と、通話履歴関連付け部109(関連付け手段)と、電話帳保存部110と、電話帳関連付け部111(関連付け手段)と、テキスト表示部112(表示手段)と、音声再生部113(音声再生手段)と、を備えている。
図2は、図1の通話装置1のハードウェア構成を示す図である。通話装置1は、物理的には、図2に示すように、1又は複数のCPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、半導体メモリ等の補助記憶装置17等を含むコンピュータとして構成されている。
通話装置1の各機能は、図2に示すCPU11、RAM12等のハードウェア上に1又は複数の所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
図1に戻り、通話装置1の各機能について説明する。音声通話部101は、音声通話を実行する機能である。音声通話部101は、通話相手の音声データB0を受信することにより通話相手の音声信号V0を取得する。音声通話部101は、取得した音声信号V0を音声録音部103に出力する。また、通話相手の音声信号V0に代えてユーザの音声信号としてもよく、さらには通話相手の音声信号V0とユーザの音声信号としてもよい。この場合は、以降の説明において、通話相手の音声信号V0を、ユーザの音声信号又は通話相手の音声信号V0及びユーザの音声信号と読み替える。
第1指示入力部102は、ユーザから通話相手の音声信号の録音開始又は終了の指示S1を受ける機能である。第1指示入力部102は、例えば、ユーザによって所定のボタンが押された場合に録音開始の指示S1を受けたと判断し、当該ボタンが再度押された場合に録音終了の指示S1を受けたと判断する。或いは、第1指示入力部102は、例えば、ユーザによって所定のボタンが押された場合に録音開始の指示S1を受けたと判断し、当該ボタンが押されている間は録音を行うと判断し、当該ボタンが押されなくなったときに録音終了の指示S1を受けたと判断してもよい。このように、ユーザからの録音開始及び終了の指示がどのように入力されるかは限定されない。第1指示入力部102は、ユーザから録音開始又は終了の指示S1を受けると、音声録音部103に録音開始指示又は録音終了指示を出力する。
音声録音部103は、音声通話部101により実行された音声通話の音声を録音する機能である。音声録音部103は、第1指示入力部102から入力される録音開始指示に従い、音声通話部101から入力される音声信号V0の録音を開始する。また、音声録音部103は、第1指示入力部102から入力される録音終了指示に従い、音声通話部101から入力される音声信号V0の録音を終了する。音声録音部103は、録音信号V1を音声保存部104及び録音音声送信部105に出力する。なお、音声録音部103は、録音した音声に係る録音信号V1の関連データとして、通話相手の電話番号、通話開始時刻、録音時刻、保存音声ファイル名を示す情報を、テキスト保存部107に送信する。
なお、音声録音部103は、必ずしも、第1指示入力部102からの指示に応じて録音を開始又は終了するものでなくてもよい。例えば、音声録音部103は、音声通話部101が音声通話を開始したタイミングで(詳細には、音声通話部101から音声信号V0が入力されたタイミングで)通話相手の音声信号V0の録音を開始してもよい。また、音声録音部103は、音声通話部101が実行する音声通話における音声区間を自動的に録音するものであってもよい。この場合、通話装置1は、音声通話の音声区間を検出する音声区間検出部を含んでいてもよい。また、音声録音部103は、音声の中に特定の単語が出現したことをきっかけに自動的に録音を開始してもよい。これらの場合には、通話装置1は第1指示入力部102を備えていなくてもよい。
音声保存部104は、音声録音部103によって録音された音声である録音信号V1を保存する機能である。音声再生部113は、音声通話部101が得た通話相手の音声信号V0を再生する機能である。
録音音声送信部105は、音声録音部103によって録音された音声である録音信号V1を外部サーバ(不図示)に送信する機能である。外部サーバは、録音信号V1を受信し、音声認識技術により録音信号V1をテキストT1に変換する。
テキスト受信部106は、録音信号V1を音声認識技術により変換して得られるテキストT1を外部サーバから受信する機能である。なお、本実施形態では、録音信号V1からテキストT1への変換を外部サーバで実施することとしているがこれに限定されず、通話装置1が音声認識技術により録音信号V1をテキストT1へ変換する機能を含んでいてもよい。テキスト受信部106は、受信したテキストT1をテキスト保存部107に出力する。
テキスト保存部107は、テキスト受信部106により受信されたテキストT1を保存することにより、音声録音部103により録音された音声(録音信号V1)をテキスト形式に変換したテキストT1(通話テキスト)を保存する機能である。
図4は、テキスト保存部107に保存されたテキストT1の一例を示すテーブル(テキストテーブル300)である。図4に示されるように、テキストテーブル300においては、テキストIDと、テキストT1と、録音信号V1の関連データと、通話履歴IDと、電話帳IDとが関連付けられている。テキストIDは、テキストを一意に特定する識別子である。テキストT1は、録音信号V1から変換されたテキストである。録音信号V1の関連データは、テキストT1に係る録音信号V1に関する情報であり、通話相手の電話番号、通話開始時刻、録音時刻、及び保存音声ファイル名を含む情報である。通話履歴ID及び電話帳IDは、通話履歴関連付け部109及び電話帳関連付け部111により事後的に付与される識別子である(詳細は後述)。さらには、テキストを解析してテキストに含まれる検索キーワードを取得し、当該検索キーワードをテキストに付与してもよい。検索キーワードとしては、例えば、人名、地名、電話番号、メールアドレス、日時/時刻、等でもよい。なお、上記及び以降の説明において各時刻の表記方法は限定されず、年、月、日、時、分、秒を含んでもよく、また所定の時点から経過した時間としてもよい。
通話履歴保存部108は、音声通話部101による音声通話の実行時刻である通話時刻及び通話相手の電話番号を含む通話履歴データを保存する機能である。図5は、通話履歴保存部108に保存された通話履歴データの一例を示すテーブル(通話履歴テーブル301)である。図5に示されるように、通話履歴テーブル301においては、通話履歴データと、保存テキスト有無と、テキストIDとが関連付けられている。通話履歴データは、通話履歴に関する情報であり、通話履歴ID、通話開始時刻(通話時刻)、通話相手の電話番号、及び発着信情報を含む情報である。通話履歴IDは、通話履歴データを一意に特定する識別子である。発着信情報は、発信及び着信のいずれに係る通話履歴データであるかを示す情報である。保存テキスト有無及びテキストIDは、通話履歴関連付け部109により事後的に付与される情報である(詳細は後述)。
通話履歴関連付け部109は、通話履歴保存部108に保存されている通話履歴データの通話開始時刻(通話時刻)と、テキスト保存部107に保存された録音時刻(音声録音部103による録音時刻)とを関連付けることにより、通話履歴データと、該通話履歴データに関連付けられた録音音声に係るテキストT1とを関連付ける機能である。なお、通話履歴データには、通話相手の電話番号が含まれているため、通話履歴関連付け部109は、通話履歴データに含まれている電話番号とテキストT1との関連付けをも行う。
通話履歴関連付け部109は、テキストテーブル300において、各テキストと関連付く通話履歴データの通話履歴IDを付与する(図4参照)。また、通話履歴関連付け部109は、通話履歴テーブル301において、関連付くテキストがある通話履歴データには、保存テキスト「あり」を関連付けると共に、当該テキストのテキストIDを付与する(図5参照)。一方、通話履歴関連付け部109は、関連付くテキストがない通話履歴データには、保存テキスト「なし」を関連付ける(図5参照)。なお、各テキストと通話履歴データの関連付けにおいて、必ずしもテキストID、通話履歴ID、保存テキスト有無を用いなくてもよく、各テキストが通話履歴データのどのデータと関連付けられているかが分かればよい。例えば、通話開始時刻を通話履歴IDの代わりとしてもよい。
図7及び図8を参照して、通話履歴データとテキストとの関連付けについて説明する。図7及び図8は、通話履歴データの関連付けを説明する図である。
図7に示される例では、通話履歴テーブル301に保存されているある通話C1の通話開始時刻がt_C1、通話C1の次に開始された通話C2の通話開始時刻がt_C2である。この場合において、テキストテーブル300において保存されているテキストT1に係る録音時刻であるt_T1、及び、テキストT2に係る録音時刻であるt_T2が、t_C2よりも前、且つ、t_C1よりも後であるとすると、当該テキストT1及びテキストT2は、通話C1と関連付けられる。このように、1回の通話に関して複数回録音が行われて対応するテキストが複数存在する場合においても、通話履歴データとテキストとを適切に関連付けることができる。
図8に示される例では、通話履歴テーブル301に保存されているある通話C1の通話開始時刻がt_C1、通話C1の次に開始された通話C2の通話開始時刻がt_C2である。ここで、通話履歴データとは異なる情報として、通話の発信時刻が記憶されているとする。例えば、通話C1の発信時刻がt_CA1、通話C2の発信時刻がt_CA2とする。なお、t_C1は通話C1が終了するまで通話履歴データに登録されないのに対し、t_CA1は通話C1が開始された時点で記憶される。同様に、t_C2は通話C2が終了するまで通話履歴データに登録されないのに対し、t_CA2は通話C2が開始された時点で記憶される。この例においては、テキストテーブル300には、通話開始時刻の代わりに通話発信時刻の列が設けられるとする。例えば、通話C1の実施中において、テキストテーブル300において保存されているテキストT1に係る録音時刻であるt_T1、及び、テキストT2に係る録音時刻であるt_T2の直近の通話の発信時刻がt_CA1であるとすると、テキストT1及びテキストT2は通話C1の発信時刻であるt_CA1に関連付けられ、テキストテーブル300の通話発信時刻にはt_CA1が記録される。そして、通話C1が完了することにより通話C1の通話開始時刻であるt_C1が判明し、t_CA1に最も近い通話履歴データの通話開始時刻がt_C1であると特定される。この場合、t_CA1から一定時間内の通話開始時刻のうちt_CA1に最も近い通話開始時刻であるt_C1が特定されてもよい。これにより、t_CA1に関連付けられている全てのテキスト(すなわち、テキストT1及びテキストT2)は、t_C1に対応する通話C1において受信したと判別され、テキストT1及びテキストT2と通話C1とが関連付けられ、テキストテーブル300の通話履歴IDには通話C1のIDが記録される。なお、上記のとおり、通話履歴IDに代えて、通話C1の通話開始時刻を記録することで通話C1と関連付けられていることが分かるようにしてもよい。
ここで、例えば、通話C2に関するテキストT3が存在し、テキストT3を通話C2に関連付ける前に通話C2の通話開始時刻t_C2を含む通話履歴データが削除された場合を考える。この場合、図7に示す方法により通話履歴データとテキストとを関連付けると、テキストT3は誤って通話C1に関連付けられてしまう。この点、図8に示す方法であれば、テキストT3はまずt_CA2と関連付けられるため、テキストT3と、t_CA1と関連付けられているテキストT1及びテキストT2とを区別できる。すなわち、図8に示す方法によれば、テキストT3が誤って通話C1と関連付けられることを防止できる。このように、図8に示す方法では、発信時刻とテキストとが関連付けられることにより、通話履歴データに含まれた通話開始時刻とテキストとの関連付けを実施する前に当該通話開始時刻を含む通話履歴データが削除された場合であっても、当該テキストが異なる通話開始時刻に誤って関連付けられることを防止できる。なお、t_CA1及びt_CA2は、それぞれ通話C1及びC2の着信時刻であってもよい。
複数のテキストと通話履歴データとを関連付ける方法を説明したが、同様にして、複数の録音信号と通話履歴データとを関連付けてもよい。
図1に戻り、電話帳保存部110は、通話相手の情報を示す電話帳データを保存する機能である。図6は、電話帳保存部110に保存された電話帳データの一例を示すテーブル(電話帳テーブル302)である。図6に示されるように、電話帳テーブル302においては、電話帳データと、保存テキスト有無と、テキストIDとが関連付けられている。電話帳データは、通話相手となり得るユーザの情報を示す情報であり、電話帳ID、氏名、及び電話番号を含む情報である。電話帳IDは、電話帳データを一意に特定する識別子である。保存テキスト有無及びテキストIDは、初期状態においては電話帳テーブル302に含まれておらず、電話帳関連付け部111により事後的に付与される情報である(詳細は後述)。なお、電話帳保存部110は、通話装置1の外部、例えばネットワーク上のサーバやクラウドに保持されていてもよい。
電話帳関連付け部111は、通話履歴データに関連付けられたテキストT1に対して、通話相手の情報を示す電話帳データを更に関連付ける機能である。電話帳関連付け部111は、例えばテキストテーブル300(図4)を参照してテキストT1に関連付けられた通話履歴IDを取得し、通話履歴テーブル301(図5)を参照して、取得した通話履歴IDに係る電話番号を取得し、電話帳テーブル302を参照して、取得した電話番号に係る電話帳IDを取得する。そして、電話帳関連付け部111は、テキストテーブル300において、テキストT1に係る通話履歴データに、取得した電話帳IDを付与する(図4参照)。また、電話帳関連付け部111は、電話帳テーブル302において、関連付くテキストがある電話帳データには、保存テキスト「あり」を関連付けると共に、当該テキストのテキストIDを付与する(図6参照)。一方、電話帳関連付け部111は、関連付くテキストがない電話帳データには、保存テキスト「なし」を関連付ける(図6参照)。なお、各テキストと電話帳データの関連付けにおいて、必ずしもテキストID、電話帳ID、保存テキスト有無を用いなくてもよく、各テキストが電話帳データのどのデータと関連付けられているかが分かればよい。例えば、電話番号を電話帳IDの代わりとしてもよい。
なお、テキストと電話帳データとは必ずしも関連付けられていなくてもよい。すなわち、テキストは、通話履歴データのみの関連付けられるものであってもよい。また、テキストは、通話履歴データ及び電話帳データ以外の通話関連のデータとも関連付けられるものであってもよい。例えば、テキスト保存部107は、通話相手を識別する情報や、通話時刻又は録音時刻を識別する情報を、テキストT1と関連付けて保存するものであってもよい。通話相手を識別する情報とは、例えば、IPアドレス、登録されたユーザ名、アカウント名等である。また、図4、図5、図6においては、テキストテーブル300、通話履歴テーブル301、及び電話帳テーブル302の全てにおいてテキストと通話履歴データ又は電話帳データとの関連付けを記録しているが必ずしもすべてのテーブルに記録する必要はなく、例えばテキストテーブル300のみに記録してもよい。
テキスト表示部112は、テキスト受信部106が外部サーバから受信したテキストT1を表示する機能である。テキスト表示部112は、例えば、通話装置1に具備されたディスプレイにテキストT1を表示する。
次に、図3を参照して通話装置1において実行される処理について説明する。図3は、通話装置1において実行される処理の一例を示すフローチャートである。
図3に示されるように、まず、通話装置1において音声通話が開始される(ステップS101)。具体的には、音声通話部101は、音声通話を開始して通話相手の音声信号V0を得る。当該音声信号V0は、音声再生部113により再生される。
つづいて、通話装置1において通話相手の音声信号V0の録音を開始するか否かが判断される(ステップS102)。具体的には、第1指示入力部102は、ユーザより通話相手の音声信号V0の録音を開始する指示が入力されているか否かを判断する。S102において録音開始の指示が入力されていない場合には、後述するS111が実行される。
一方で、S102において録音開始の指示が入力されている場合には、通話装置1において音声信号V0が録音される(ステップS103)。具体的には、音声録音部103は通話相手の音声信号V0を録音する。なお、ユーザからの録音開始の指示に基づいて録音を開始する代わりに音声通話を開始した時点で通話相手の音声信号V0の録音を開始するとしてもよい。また、通話音声の音声区間が始まったことをきっかけに録音を開始するとしてもよい。また、通話音声の中に特定の単語が出現したことをきっかけに録音を開始するとしてもよい。
つづいて、通話装置1において通話相手の音声信号V0の録音を終了するか否かが判断される(ステップS104)。具体的には、第1指示入力部102は、ユーザより通話相手の音声信号V0の録音を終了する指示が入力されているか否かを判断する。S104において録音終了の指示が入力されていない場合には、所定時間後に再度S104の判断が行われる。
一方で、S104において録音終了の指示が入力されている場合には、通話装置1において音声信号V0の録音が終了され、録音信号V1が保存される(ステップS105)。具体的には、音声保存部104は、音声録音部103において録音された録音信号V1を保存する。なお、ユーザからの録音終了の指示に基づいて録音を終了する代わりに音声通話を終了した時点で通話相手の音声信号V0の録音を終了するとしてもよい。また、通話音声の音声区間が終了したことをきっかけに録音を終了するとしてもよい。また、通話音声の中に特定の単語が出現したことをきっかけに録音を終了するとしてもよい。また、録音開始から一定時間が経過した時点で録音を終了するとしてもよい。なお、録音信号V1は必ずしも保存されなくてもよい。
つづいて、通話装置1において、録音信号V1が外部サーバに送信される(ステップS106)。具体的には、録音音声送信部105は録音信号V1を外部サーバに送信する。さらに、通話装置1において、送信した録音信号V1が音声認識で変換されたテキストが受信される(ステップS107)。具体的には、テキスト受信部106は、外部サーバにて録音信号V1が音声認識により変換されて得られたテキストT1を、外部サーバより受信する。なお、S104において音声信号の録音が終了する前に、録音信号V1が外部サーバに送信され、変換されたテキストが受信されてもよい。これにより、録音を継続しながら、順次テキストを表示することが可能になる。
つづいて、通話装置1において受信したテキストが表示される(ステップS108)。具体的には、テキスト表示部112は、テキスト受信部106で受信されたテキストT1を表示する。例えば、通話装置1に具備されたディスプレイにテキストT1が表示される。
なお、テキストは編集可能な形態で表示されてもよい。この場合、ユーザは表示されたテキストを編集することができる。例えば、ディスプレイにおけるテキストが表示された部分を長押しすることで編集可能としてもよく、これにより通話中に少ない操作でテキストの編集が可能になる。さらに、編集したテキストをテキスト保存部107に保存してもよい。また、テキストを編集する際に、上記音声認識の結果より編集する候補をユーザに提示してもよい。例えば、上記外部サーバより音声認識の結果としてテキストT1に加えて別のテキストT1’を受信した際には、当該T1’をテキスト編集の候補として提示してもよい。例えば、音声認識により最も尤もらしいテキストがT1であり,次に尤もらしいテキストがT1’であってもよい。上記T1とは別のテキストは複数であってもよい。これにより、例えば、音声認識により誤って変換されたテキストを修正する際に、修正候補として尤もらしいテキストに容易に修正することが可能となる。
なお、テキストは削除可能な形態で表示されてもよい。例えば、テキストT1を表示すると共にテキストT1を削除するボタンを表示してもよい。さらには、S105にて保存したテキストT1に対応する音声信号もあわせて削除してもよい。この場合、下記S109及びS110は省略できる。これにより、例えば、音声認識により誤って変換されたテキストを削除することで無駄なテキスト及び対応する音声信号が保存されず、記憶したテキストをより検索しやすくなる。
また、表示されたテキストT1が音声認識により誤って変換されていた場合には、ユーザが通話相手に言い直しを依頼し、通話相手が言い直した音声に対してS102からS107を実施して言い直した音声に対応するテキストT1rを受信し、テキストT1とテキストT1rを比較してテキストT1の修正候補をユーザに提示してもよい。
例えば、テキストT1には数字が含まれており、テキストT1rにはテキストT1に含まれているものとは異なる数字が含まれていた場合に、テキストT1rに含まれていた数字をテキストT1に含まれていた数字の修正候補として提示してもよい。なお、上記のとおりS102により言い直しの音声の録音を開始する際には、他の場合の音声信号の録音開始とは異なる形態でユーザから指示が入力されてもよい。これにより、テキストT1が誤っていた場合にユーザは少ない操作で修正することが可能になる。
さらに、通話装置1において、受信したテキストT1が保存される(ステップS109)。具体的には、テキスト保存部107は、テキスト受信部106で受信されたテキストT1を保存する。
なお、図4に示されるテキストテーブル300においては、通話相手の電話番号の代わりに、通話相手を識別可能な任意の情報、例えば、電話帳保存部110に保存されている電話帳データより当該電話番号に登録された名前がテキストT1に関連付けられていてもよい。また、録音信号V1が録音された通話の開始時刻の代わりに、当該通話の終了時刻がテキストT1に関連付けられていてもよい。また、保存音声ファイル名の代わりに、録音音声が保存された場所を含む当該ファイルへのパスや、当該ファイルを特定できる情報がテキストT1に関連付けられていてもよい。なお、テキストT1に付加される録音信号V1の関連データは上記に限定されない。また、テキストT1にはテキストIDが付加されていなくてもよく、録音信号V1の関連データが付加されていなくてもよい。
つづいて、通話装置1において、保存したテキストT1が通話履歴データと関連付けられる(ステップS110)。具体的には、通話履歴関連付け部109は、通話履歴保存部108に保存されている通話履歴データの通話開始時刻と、テキスト保存部107に保存された録音時刻とを関連付けることにより、通話履歴データと、該通話履歴データに関連付けられた録音音声に係るテキストT1とを関連付ける。また、電話帳関連付け部111は、通話履歴データに関連付けられたテキストT1に対して、通話相手の情報を示す電話帳データを更に関連付ける。
つづいて、通話装置1において音声通話を終了するか否かが判断される(ステップS111)。具体的には、音声通話部101は、ユーザより音声通話を終了する指示が入力されているか否かを判断する。当該指示が入力されている場合には動作を終了し、入力されていない場合にはS102を実行する。これにより、本実施形態の通話装置1は、通話内容をテキストとして記録でき、通話履歴データや電話帳データなどの通話関連のデータから記録したテキストを効率よく検索可能となる。
次に、第1実施形態の通話装置1の作用効果について説明する。
上述した通話装置1では、通話中に録音された音声がテキストに変換されて保存される。そして、通話履歴データの通話時刻と録音時刻とが関連付けられることにより、通話履歴データと、該通話履歴データに関連付けられた録音音声に係るテキストとが関連付けられる。このように、通話履歴データと該通話履歴データに係るテキストが関連付けられることにより、通話履歴データに基づくテキストの検索が可能となる。これにより、通話内容に関するテキストを、通話履歴に基づき効率よく検索することができる。
電話帳関連付け部111は、通話履歴データに関連付けられたテキストに対して、通話相手の情報を示す電話帳データを更に関連付ける。これにより、通話履歴データに加えて電話帳データからもテキストを検索することが可能となり、通話内容に関するテキストをより効率よく検索することができる。
通話履歴保存部108は、通話相手の電話番号を含む通話履歴データを保存しており、通話履歴関連付け部109は、通話履歴保存部108に保存されている通話履歴データに含まれている電話番号を、テキストに更に関連付ける。これにより、音声通話の内容を保存したテキストが、どの電話番号との通話中に保存されたものかを特定することが可能となる。
(第1実施形態の変形例)
以上、第1実施形態について説明したが、第1実施形態は上記内容に限定されるものではない。
例えば、通話装置1は、スマートフォン等の携帯電話機であるとして説明したが、スマートフォン等の携帯電話機と、携帯電話機以外の外部の構成(以下、外部構成と記載)とを含んで構成されるものであってもよい。外部構成は、例えば、ネットワーク上のサーバ又はクラウド等により提供されるものであってもよい。
例えば、通話装置1における音声録音部103及び録音音声送信部105が、上述した外部構成に含まれていてもよい。
この場合、音声録音部103は、第1指示入力部102から録音開始又は録音終了指示を受信して、録音を開始又は終了する。このとき録音する音声は、音声通話部101から出力される通話相手の音声信号V0であってもよいし、音声録音部103が通話相手の音声データB0を受信して取得した通話相手の音声信号V0であってもよい。
音声録音部103は、通話相手の音声データB0に代えてユーザの音声データを受信してユーザの音声信号を取得してもよい。さらに、音声録音部103は、通話相手の音声データB0及びユーザの音声データを受信して、通話相手の音声信号V0及びユーザの音声信号を取得してもよい。
通話相手又は/及びユーザの音声データを受信して音声信号を取得する機能は、音声録音部103の外部に含まれていてもよい。その場合、音声録音部103は通話相手の音声信号V0又は/及びユーザの音声信号を受信して録音する。音声録音部103によって録音された録音信号V1は、通話装置1の携帯電話機に送信されて該携帯電話機に含まれる音声保存部104に保存されてもよい。
音声録音部103は、外部構成に含まれる場合においても、必ずしも、第1指示入力部102からの指示に応じて録音を開始又は終了しなくてもよく、音声録音部103が携帯電話機に含まれる場合と同様に録音を開始又は終了してよい。
上述した外部構成に含まれる録音音声送信部105は、音声録音部103によって録音された録音信号V1を、録音信号V1を受信してテキストT1に変換する外部サーバに送信してもよい。テキストT1への変換は音声録音部103が含まれるサーバ等において実施されてもよい。テキストT1への変換は通話装置1の携帯電話機において実施されてもよい。
例えば、通話装置1における音声保存部104が、上述した外部構成に含まれていてもよい。
この場合、音声保存部104は、音声録音部103から、音声録音部103によって録音された録音信号V1を受信し、該録音信号V1を保存する。音声保存部104は、録音信号V1をテキストT1に変換する外部サーバに含まれていてもよい。この場合、音声録音部103から音声保存部104への録音信号V1の送信は不要となり、音声保存部104は、録音音声送信部105がテキストT1への変更のために外部サーバに送信する録音信号V1を保存すればよい。
例えば、通話装置におけるテキスト受信部106及びテキスト保存部107が、上述した外部構成に含まれていてもよい。
この場合、テキスト受信部106は、録音信号V1を変換して得られるテキストT1を受信し、テキスト保存部107へ送信する。テキストT1への変換は、テキスト受信部106が含まれるサーバ、又は、通話装置1の携帯電話機等において実施されてもよい。
上述した外部構成に含まれるテキスト保存部107は、テキスト受信部106よりテキストT1を受信し、保存する。
例えば、通話装置1における通話履歴保存部108及び通話履歴関連付け部109が、上述した外部構成に含まれていてもよい。
この場合、通話履歴保存部108は、通話装置1の携帯電話機から、音声通話部101による音声通話の実行時刻である通話時刻及び通話相手の電話番号等を含む通話履歴データを受信して保存する。通話履歴保存部108は、通話装置1の携帯電話機の外部、例えばネットワーク上のサーバ又は音声交換装置等において取得された、通話時刻及び通話相手の電話番号等を含む通話履歴データを、該携帯電話機の外部から受信し、保存してもよい。
上述した外部構成に含まれる通話履歴関連付け部109は、通話履歴保存部108に保存されている通話履歴データの通話開始時刻と、テキスト保存部107に保存された録音時刻とを関連付けることにより、通話履歴データと、該通話履歴データに関連付けられた録音音声に係るテキストT1とを関連付ける。
例えば、通話装置1における電話帳関連付け部111が、上述した外部構成に含まれていてもよい。
この場合、電話帳関連付け部111は、通話履歴データに関連付けられたテキストT1に対して、通話相手の情報を示す電話帳データを更に関連付ける。
次に、音声録音部103、音声保存部104、及び録音音声送信部105が、上述した外部構成に含まれる場合について、各構成の機能をより詳細に説明する。以下では、音声録音部103、音声保存部104、及び録音音声送信部105が通話装置1の携帯電話機に含まれる場合と異なる点を主に説明する。
音声通話部101は、通話相手の音声データB0を受信することにより通話相手の音声信号V0を取得する。
第1指示入力部102は、ユーザから通話相手の音声信号の録音開始又は終了の指示S1を受け、指示S1を通話装置1の携帯電話機の外部に含まれる音声録音部103に通知する。第1指示入力部102は、ユーザから録音開始又は終了の指示S1を受けると、通話装置1の携帯電話機の外部に含まれる音声録音部103に録音開始指示又は録音終了指示を通知する。
音声録音部103は、音声通話部101により実行された音声通話の音声を録音する機能である。音声録音部103は、第1指示入力部102から通知される録音開始指示に従い、通話相手の音声信号V0の録音を開始する。上述したように、通話相手の音声信号V0に代えてユーザの音声信号でもよく、通話相手の音声信号V0とユーザの音声信号であってもよい。さらには、上述したように、通話相手の音声信号V0又は/及びユーザの音声信号の取得方法は問わない。また、音声録音部103は、第1指示入力部102から通知される録音終了指示に従い、音声信号V0の録音を終了する。音声録音部103は、録音信号V1を音声保存部104及び録音音声送信部105に送信する。なお、音声録音部103は、録音した音声に係る録音信号V1の関連データとして、通話相手の電話番号、通話開始時刻、録音時刻、保存音声ファイル名を示す情報を、通話装置1の携帯電話機に含まれるテキスト保存部107に送信する。
音声録音部103は、必ずしも、第1指示入力部102からの指示に応じて録音を開始又は終了するものでなくてもよい。例えば、音声録音部103は、ユーザと通話相手との音声通話を開始したタイミングで通話相手の音声信号V0の録音を開始してもよく、音声録音部103がユーザと通話相手との音声通話の開始を判断してもよく、ユーザと通話相手との音声通話の開始を通知されてもよい。
音声録音部103は、ユーザと通話相手との音声通話における音声区間を自動的に録音するものであってもよい。この場合、音声録音部103は、音声通話の音声区間を検出する音声区間検出部を含んでいてもよい。また、音声録音部103は、音声の中に特定の単語が出現したことをきっかけに自動的に録音を開始してもよい。これらの場合には、通話装置1は第1指示入力部102を備えていなくてもよい。
音声保存部104は、音声録音部103によって録音された音声である録音信号V1を保存する機能である。
録音音声送信部105は、音声録音部103によって録音された音声である録音信号V1を外部サーバに送信する機能である。外部サーバは、録音信号V1を受信し、音声認識技術により録音信号V1をテキストT1に変換する。なお、通話装置1が録音信号V1をテキストT1に変換する機能を含んでいる場合は、録音音声送信部105は録音信号V1を通話装置1の携帯電話機に送信し、通話装置1の携帯電話機において録音信号V1はテキストT1に変換される。
テキスト受信部106は、録音信号V1を音声認識技術により変換して得られるテキストT1を外部サーバから受信する機能である。なお、本実施形態では、録音信号V1からテキストT1への変換を外部サーバで実施することとしているがこれに限定されず、通話装置1が音声認識技術により録音信号V1をテキストT1へ変換する機能を含んでいてもよい。テキスト受信部106は、受信したテキストT1をテキスト保存部107に出力する。テキスト保存部107に保存されるテキストテーブル300における録音信号V1の関連データは、通話装置1の外部に含まれる音声録音部103から送信されるものである。
次に、音声録音部103、音声保存部104、及び録音音声送信部105が、上述した外部構成に含まれる場合について、図3を参照して、通話装置1において実行される処理を説明する。以下では、音声録音部103、音声保存部104、及び録音音声送信部105が通話装置1の携帯電話機に含まれる場合と異なる点を主に説明する。
S102において録音開始の指示が入力されている場合には、音声録音部103を含む通話装置1の外部のネットワーク上のサーバやクラウド等において音声信号V0が録音される(ステップS103)。具体的には、音声録音部103は通話相手の音声信号V0を録音する。なお、ユーザからの録音開始の指示に基づいて録音を開始する代わりに音声通話を開始した時点で通話相手の音声信号V0の録音を開始するとしてもよい。また、通話音声の音声区間が始まったことをきっかけに録音を開始するとしてもよい。また、通話音声の中に特定の単語が出現したことをきっかけに録音を開始するとしてもよい。
S104において録音終了の指示が入力されている場合には、音声録音部103を含む外部構成において音声信号V0の録音が終了され、録音信号V1が保存される(ステップS105)。具体的には、音声保存部104は、音声録音部103において録音された録音信号V1を保存する。なお、ユーザからの録音終了の指示に基づいて録音を終了する代わりに音声通話を終了した時点で通話相手の音声信号V0の録音を終了するとしてもよい。また、通話音声の音声区間が終了したことをきっかけに録音を終了するとしてもよい。また、通話音声の中に特定の単語が出現したことをきっかけに録音を終了するとしてもよい。また、録音開始から一定時間が経過した時点で録音を終了するとしてもよい。なお、録音信号V1は必ずしも保存されなくてもよい。
つづいて、録音音声送信部105を含む外部構成において、録音信号V1が外部サーバに送信される(ステップS106)。具体的には、録音音声送信部105は録音信号V1を外部サーバに送信する。
ここでは、音声録音部103、音声保存部104、および録音音声送信部105が外部構成に含まれ、他の要素は通話装置1の携帯電話機に含まれるとして説明したが、テキスト受信部106、テキスト保存部107、通話履歴保存部108、通話履歴関連付け部109、電話帳保存部110、電話帳関連付け部111のそれぞれが上述した外部構成に含まれてもよいことは上述したとおりである。
[第2実施形態]
次に、本発明の第2実施形態に係る通話装置2について説明する。第2実施形態では、第1実施形態と異なる点を主に説明する。
図9は、本発明の第2実施形態に係る通話装置2の機能構成を示す図である。図9に示されるように、通話装置2は、第1実施形態の通話装置1と比較して、第2指示入力部201を備え、読み出し部202を備え、さらにテキスト表示部112に代えてテキスト表示部203を含み、音声再生部113に代えて音声再生部204を含む点において相違する。
第2指示入力部201は、ユーザからテキストの表示及び/又は音声信号の再生の指示S2を受ける機能である。ここでのテキストとは、テキスト保存部107に保存されているテキストである。また、音声信号とは、音声保存部104に保存されている音声信号(録音信号)である。
読み出し部202は、第2指示入力部201が受けるユーザからのテキスト表示の指示及び/又は音声再生の指示に従って、表示を指示されたテキストT2及び/又は再生を指示された音声信号V2を、テキスト保存部107及び/又は音声保存部104より読み出す部分である。なお、当該音声信号V2は、音声録音部103によって録音された信号であり、第1実施形態において録音信号として説明していたものである。
なお、本実施形態では、ユーザより表示を指示されたテキストの読み出しとユーザより再生を指示された音声の読み出しを読み出し部202で行っているが、テキストの読み出しと音声の読み出しとを別々の機能により行ってもよい。
テキスト表示部203は、テキスト受信部106が受信したテキストT1を表示する機能であり、さらには、第2指示入力部201が受けるユーザからの指示に従って読み出し部202が読み出したテキストT2を表示する機能である。テキスト表示部203は、ユーザからの、通話履歴データを示す情報を含んだ表示指示に基づき、該表示指示に含まれた通話履歴データに関連付けられた通話テキストを表示する(詳細は後述)。
音声再生部204は、音声通話部101が得た通話相手の音声信号V0を再生する機能であり、さらには、第2指示入力部201が受けるユーザからの指示に従って読み出し部202が読み出した音声信号V2を再生する機能である。
次に、図10を参照して通話装置2において実行される処理について説明する。図10は、通話装置2において実行される処理の一例を示すフローチャートである。
はじめに、先に図3を参照して説明したS101〜S110と同様の処理が実行される。
つづいて、通話装置2において音声通話を終了するか否かが判断される(ステップS201)。具体的には、音声通話部101は、ユーザより音声通話を終了する指示が入力されているか否かを判断する。当該指示が入力されている場合にはステップS202が実行され、入力されていない場合にはステップS102が実行される。
つづいて、通話装置2において保存したテキストを表示するか否かが判断される(ステップS202)。具体的には、第2指示入力部201は、ユーザより、保存されたテキストを表示する指示が入力されているか否かを判断する。テキスト表示の指示が入力されている場合にはステップS203を、入力されていない場合にはステップS205を実行する。
つづいて、通話装置2において保存したテキストが読み出される(ステップS203)。具体的には、読み出し部202は、ユーザより表示するように指示されたテキストをテキスト保存部107より読み出す。
つづいて、通話装置2において読み出したテキストが表示される(ステップS204)。具体的には、テキスト表示部203は読み出し部202で読み出されたテキストを表示する。なお、テキストは編集可能な形態で表示されてもよい。この場合、ユーザは表示されたテキストを編集することができる。さらに、編集したテキストをテキスト保存部107に保存してもよい。
ユーザからのテキストの表示の指示は通話履歴データに基づき行われてもよい。図11(a)に示されるように、ユーザからのテキスト表示の指示は通話履歴データを示す画面(通話履歴画面)から行われてもよい。ここでは、通話履歴画面に表示された各通話履歴データに対して、当該通話履歴データに対応する通話中に保存されたテキストの有無が表示されている。また、当該通話履歴データに対応する通話中に保存されたテキストの数を表示してもよく、テキストの有無とテキストの数の両方を表示してもよい。ユーザが表示したい通話履歴データを選択すると、図11(b)に示されるように当該通話中に保存されたテキストがテキスト保存部107より読み出されてテキスト表示部203にて表示される。これは、テキストと通話履歴データとが関連付けられており、通話履歴データの通話における保存テキストの有無と当該テキストのテキストIDとが特定できることにより実現される。
また、保存テキストの有無のみを関連付けていた場合は、通話履歴データの通話開始時刻と電話番号を用いて、テキスト保存部107に保存されたテキストを検索すれば、当該通話履歴データの通話中に保存されたテキストが特定できる。また、テキストに通話履歴IDが付加されて保存されているので、当該通話履歴データの通話中に保存されたテキストの有無及びテキストの特定ができ、読み出し可能となる。
ユーザからのテキストの表示の指示は電話帳データに基づき行われてもよい。図12(a)に示されるように、ユーザからのテキスト表示の指示は電話帳データを示す画面(電話帳画面)より行われてもよい。ここでは、電話帳画面に表示された電話帳データ対して、当該電話帳データの電話番号との通話中に保存されたテキストの一覧が、当該テキストに対応する録音信号の録音時刻で表示されている。ユーザが表示したいテキストに対応する録音信号の録音時刻を選択すると、図12(b)に示されるように当該テキストがテキスト保存部107より読み出されてテキスト表示部203にて表示される。
これは、テキストと電話帳データとが関連付けられており、電話帳データの電話番号との通話中における保存テキストの有無と当該テキストのテキストIDとが特定できることにより実現される。
また、当該電話帳データの電話番号を用いて、テキスト保存部107に保存されたテキストを検索すれば、当該電話番号との通話中に保存されたテキストが特定でき読み出し可能となる。また、テキストに電話帳IDが付加されて保存されているので、当該電話帳データの電話番号との通話中に保存されたテキストの有無及びテキストの特定が可能となる。
なお、通話履歴データをもとにしたユーザからのテキスト表示の指示は上記に限定されず、上記電話帳データをもとにしたユーザからのテキストの表示の指示と同様に、通話履歴画面に当該通話履歴データの通話中に保存されたテキストの一覧を表示してテキストを選択する形態でもよい。
また、電話帳データをもとにしたユーザからのテキストの表示の指示は上記に限定されず、上記通話履歴データをもとにしたユーザからのテキストの表示の指示と同様に、電話帳画面に当該電話帳データの電話番号との通話中に保存されたテキストの有無を表示してテキストを選択する形態でもよい。また、当該電話帳データに対応する通話中に保存されたテキストの数を表示してもよく、テキストの有無とテキストの数の両方を表示してもよい。
また、通話履歴データや電話帳データをもとにした表示に限定されず、テキスト保存部107に保存されたテキストの一覧を表示し、必要に応じて、各テキストに関連付けられた通話相手を識別する情報や通話時刻、録音時刻に基づいて、抽出や並び替えを行い、所望のテキストを選択する形態でもよい。さらには、テキストの一覧を表示する際に、各テキストに関連付けられた通話相手を識別する情報や通話時刻、録音時刻を表示してもよい。また、テキストと通話履歴データや電話帳データの関連付けは、ユーザからのテキストの表示の指示を受けてから実施してもよい。さらには、ユーザからのテキストの表示の指示に基づいて、テキストと通話履歴データや電話帳データの関連付けを行ってもよい。例えば、ユーザがテキストの表示を指示した通話履歴データの通話において録音された音声のテキストを関連付け、当該テキストを表示してもよい。
つづいて、通話装置2において保存した録音信号を再生するか否かが判断される(ステップS205)。具体的には、第2指示入力部201は、ユーザより保存された録音信号を再生する指示が入力されているか否かを判断する。音声再生の指示が入力されている場合にはステップS206を、入力されていない場合には動作を終了する。
つづいて、通話装置2において保存された録音信号が読み出される(ステップS206)。具体的には、読み出し部202は、ユーザより再生するように指示された音声信号V2を音声保存部104より読み出す。
つづいて、通話装置2において読み出した音声信号V2が再生される(ステップS207)。具体的には、音声再生部204は、読み出し部202で読み出された音声信号V2を再生する。
ユーザから音声信号V2の再生の指示は通話履歴データに基づき行われてもよい。図11(b)に示されるように、ユーザからの音声再生の指示は通話履歴画面を通じて行われてもよい。ここでは、通話履歴画面より選択されたテキストに対応する音声信号(保存音声ファイル)の再生ボタンが表示されている。
ユーザが再生したい音声信号の再生ボタンを押すと、当該音声信号が音声保存部104より読み出されて、音声再生部204にて再生される。これは、例えば、テキストに音声信号のファイル名を付加して保存していれば、当該テキストに対応する音声信号(保存音声ファイル)の特定ができ読み出し可能となる。
ユーザからの音声信号V2の再生の指示は電話帳データに基づき行われてもよい。図12(b)に示されるように、ユーザからの音声再生の指示は電話帳画面を通じて行われてもよい。ここでは、電話帳画面より選択されたテキストに対応する音声信号(保存音声ファイル)の再生ボタンが表示されている。
ユーザが保存音声ファイルの再生ボタンを押すと、音声信号が音声保存部104より読み出されて、音声再生部204にて再生される。これは、例えば、テキストに音声信号のファイル名を付加して保存していれば、当該テキストに対応する音声信号のファイル(保存音声ファイル)の特定ができ読み出し可能となる。
また、通話履歴画面や電話帳画面を通じた再生の指示に限定されず、テキスト保存部107に保存されたテキストの一覧を画面表示し、必要に応じて、各テキストに関連付けられた通話相手を識別する情報や通話時刻、録音時刻に基づいて、抽出や並び替えを行い、画面上で所望のテキストを選択する形態でもよい。
なお、音声信号の再生の指示は上記に限定されず、ユーザからの音声信号の再生指示は当該音声信号に対応するテキストが表示されている状態で受けるものでなくてもよい。
さらには、S202〜S204の処理の前にS205〜S207の処理を実行してもよく、その際にはS205で音声再生指示が入力されていない場合にはS202を実行し、S202でテキスト表示指示が入力されていない場合には動作を終了してもよい。さらには、S202〜S204の処理とS205〜S207の処理を並行して実行してもよい。
このような通話装置2では、通話内容をテキストとして記録でき、記録されたテキストを通話履歴データや電話帳データなどの通話関連のデータをもとに効率よく検索し表示可能となる。また、通話装置2は、記録されたテキストに対応する音声信号を再生することで、音声を聞き直して記録されたテキストが正しいか否かを確認することが可能となる。さらにテキストを編集可能な形態で表示することで、記録されたテキストに誤りがある場合には誤りを修正でき、さらに修正したテキストを保存できる。
次に、第2実施形態の通話装置2の作用効果について説明する。
通話装置2は、ユーザからの、通話履歴データを示す情報を含んだ表示指示に基づき、該表示指示に含まれた通話履歴データに関連付けられたテキストを表示するテキスト表示部203を備えている。これにより、ユーザから指定された通話履歴に関連付けられたテキストを効率よく検索して表示することができる。
通話装置2は、音声録音部103によって録音された音声を保存する音声保存部104と、ユーザからの再生指示に基づき、音声保存部104に保存された音声を再生する音声再生部204と、を備える。これにより、録音音声を再生して、該録音音声に関連付けられたテキストが正確なものであるか否かを確認することが可能になる。
(第2実施形態の変形例)
以上、第2実施形態について説明したが、第2実施形態は上記内容に限定されるものではない。
例えば、通話装置2は、スマートフォン等の携帯電話機と、携帯電話機以外の外部の構成(以下、外部構成と記載)とを含んで構成されるものであってもよい。外部構成は、例えば、ネットワーク上のサーバ又はクラウド等により提供されるものであってもよい。
例えば、通話装置2における音声保存部104が、上述した外部構成に含まれていてもよい。この場合、読み出し部202は、ユーザからの指示に従って音声信号を再生する際に、音声保存部104より再生を指示された音声信号を受信してもよく、当該音声信号が音声再生部204において再生される。
例えば、通話装置2におけるテキスト保存部107が、上述した外部構成に含まれていてもよい。この場合、読み出し部202はユーザからの指示に従ってテキストを表示する際に、上記通話装置2の外部のテキスト保存部107より表示を指示されたテキストを受信してもよく、当該テキストがテキスト表示部203において表示される。
次に、音声録音部103、音声保存部104、及び録音音声送信部105が、上述した外部構成に含まれる場合について、各構成の機能をより詳細に説明する。以下では、音声録音部103、音声保存部104、及び録音音声送信部105が通話装置2の携帯電話機に含まれる場合と異なる点を主に説明する。なお、通話装置1と同一の符号を用いている要素については、音声録音部103、音声保存部104、および録音音声送信部105が通話装置1の外部構成に含まれる場合と同様である。
読み出し部202は、第2指示入力部201が受けるユーザからのテキスト表示の指示及び/又は音声再生の指示に従って、表示を指示されたテキストT2及び/又は再生を指示された音声信号V2を、テキスト保存部107及び/又は音声保存部104より読み出す部分である。なお、音声信号V2の再生を指示された場合は、通話装置2の外部に含まれる音声保存部104に当該音声信号V2の送信を指示し、音声保存部104より音声信号V2を受信して音声再生部204に出力する。
次に、音声録音部103、音声保存部104、及び録音音声送信部105が、上述した外部構成に含まれる場合について、図10を参照して、通話装置2において実行される処理を説明する。以下では、音声録音部103、音声保存部104、及び録音音声送信部105が通話装置2の携帯電話機に含まれる場合と異なる点を主に説明する。
第2指示入力部201によって、ユーザより保存された録音信号を再生する指示が入力されていると判断される場合には、読み出し部202は、ユーザより再生するように指示された音声信号V2を通話装置2の外部に含まれる音声保存部104に送信するように指示し、音声保存部104より音声信号V2を受信することにより、音声信号V2を読み出す(ステップS206)。
ここでは、音声録音部103、音声保存部104、および録音音声送信部105が外部構成に含まれ、他の要素は通話装置2に含まれるとして説明したが、テキスト受信部106、テキスト保存部107、通話履歴保存部108、通話履歴関連付け部109、電話帳保存部110、電話帳関連付け部111のそれぞれが上述した外部構成に含まれてもよいことは上述したとおりである。