JP6591217B2

JP6591217B2 - 音声認識テキスト化システムの制御方法

Info

Publication number: JP6591217B2
Application number: JP2015135529A
Authority: JP
Inventors: 和記船瀬; 敦坂口
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2014-07-16
Filing date: 2015-07-06
Publication date: 2019-10-16
Anticipated expiration: 2035-07-06
Also published as: US20160019893A1; US10504517B2; JP2016029466A; JP2019169175A; US10515633B2; US9824688B2; US20180040320A1; JP6884813B2; US20190027144A1

Description

本開示は、音声情報を取得し、取得した前記音声情報を音声認識することでテキスト化し、表示端末によってユーザに提示する音声認識テキスト化システムの制御方法および、当該システムに用いる携帯端末の制御方法に関する。

会議などの音声を取得して、取得した音声をテキスト化し、議事録として記録をすることのできる議事録システムの検討がされている。また、特許文献１に記載のように、会議中の不必要な発話を記録せずに議事録を作成するシステムも検討されている。

特開２００４−１７７７７７号公報特開２００６−２３８２７５号公報

ただし従来の議事録システムでは、会議中の発話において最適な箇所のみを記録するので、会議中に不要と判断された発話は記録されないので、後に確認することが出来なかった。また記録した発話に対して容易に編集する方法について検討が不十分である。

本開示の音声認識テキスト化システムの制御方法は、音声情報を取得し、取得した前記音声情報を音声認識することでテキスト化する音声認識テキスト化システムの制御方法であって、
前記テキスト化した文字列に、予め設定された所定の単語が含まれるか否かを判断し、
前記所定の単語が含まれると判断された場合には、前記テキスト化した文字列のうち、前記所定の単語と関連付けられた文字列を、消去候補となる第１の文字列として特定し、
前記第１の文字列を第１の表示形態で、前記第１の文字列以外の文字列である第２の文字列を第２の表示形態で、それぞれ表示端末に表示する制御を行う。

本開示の音声認識テキスト化システムの制御方法は、一度会議中に不要と判断された発話であっても、後に確認し、議事録を容易に編集することが出来る。

図１Ａは、実施の形態１における本システムの構成の一例を示す図である。図１Ｂは、実施の形態１における本システムの構成の一例を示す図である。図１Ｃは、実施の形態１における本システムの構成の一例を示す図である。図１Ｄは、実施の形態１における本システムの構成の一例を示す図である。図２Ａは、図１Ａに示す各機器の構成の一例を示す図である。図２Ｂは、図１Ｄに示す機器の構成の一例を示す図である。図３は、本システムの制御・処理部の機能構成の一例を示す図である。図４Ａは、実施の形態１における本システムの処理の一例を示すフローチャートである。図４Ｂは、図４Ａに示す表示コマンドの作成の処理の一例を示すフローチャートである。図５は、実施の形態１における本システムが取得した音声情報の一例を示す図である。図６は、実施の形態１における本システムが取得した音声情報および音声認識の結果の一例を示す図である。図７Ａは、実施の形態１における本システムが音声情報をテキスト化した結果の一例を示す図である。図７Ｂは、実施の形態１における本システムが音声情報をテキスト化した結果の一例を示す図である。図７Ｃは、実施の形態１における本システムが音声情報をテキスト化した結果の一例を示す図である。図８は、実施の形態１における本システムが保持している、特定単語と、消去候補の文章位置に関する情報を関連付けて管理しているテーブルの一例を示す図である。図９Ａは、実施の形態１における携帯端末に表示される表示内容の一例を示す図である。図９Ｂは、実施の形態１における携帯端末に表示される表示内容の一例を示す図である。図９Ｃは、実施の形態１における携帯端末に表示される表示内容の一例を示す図である。図１０は、実施の形態２における本システムの各機器の構成の一例を示す図である。図１１は、実施の形態２における本システムの端末装置の一例を示す図である。図１２は、実施の形態２における本システムの端末装置の制御・処理部の構成の一例を示す図である。図１３は、実施の形態２における本システムの処理の一例を示すシーケンス図である。図１４は、実施の形態２における本システムの処理の一例を示すシーケンス図である。図１５は、実施の形態２における本システムの各機器の構成の一例を示す図である。図１６は、実施の形態２における本システムの処理の一例を示すシーケンス図である。図１７は、実施の形態２における携帯端末の制御・処理部の処理の一例を示すフローチャートである。図１８は、実施の形態２の第１の変形例における携帯端末の制御・処理部の処理の一例を示すにおける本システムのフローチャートである。図１９は、実施の形態２の第２の変形例におけるサーバ装置の制御・処理部の処理の一例を示すフローチャートである。図２０は、実施の形態２の第３の変形例における携帯端末の制御・処理部の処理の一例を示すフローチャートである。図２１Ａは、実施の形態２における本システムの携帯端末における第２の背景表示の一例を示す図である。図２１Ｂは、実施の形態２における本システムの携帯端末における第１の背景表示の一例を示す図である。図２２は、実施の形態２の第４の変形例における携帯端末の制御・処理部の処理の一例を示すフローチャートである。図２３は、実施の形態２の第５の変形例における携帯端末の制御・処理部の処理の一例を示すフローチャートである。図２４Ａは、実施の形態２における本システムの携帯端末に表示される表示内容の一例を示す図である。図２４Ｂは、実施の形態２における本システムの携帯端末に表示される表示内容の一例を示す図である。

（発明の基礎となった知見）
通常、会議の議事録は議事録を作成する者が会議中に会議参加者の発話をノートやＰＣ（パーソナルコンピュータ）に記録した後、その会議の要点や結論が明確となるように編集し記録をする。すなわち議事録とは、会議中のすべての発話を記録するだけのものではなく、編集して要点を整理した状態で記録することに本来の意義がある。

従来の議事録システムでは、会議中の発話において最適な箇所のみを記録するので、会議中に不要と判断された発話は記録されないので、後に確認することが出来なかった。また記録した発話に対して容易に編集する方法について検討が不十分である。

特許文献１には、「オフレコ」といった特定の単語を検出しその単語の後の発話を記録せず議事録を作成する方法が記載されている。ただしこの方法では、発話中の不必要な箇所を議事録としての記録から除外することはできても、会議の結論や要点が整理された議事録を記録することはできない。

さらに特許文献１には、テキスト化をした後に編集する作業を容易にする方法についてはなんら開示されていない。よって、特許文献１に記載の方法を用いても結局議事録の編集をする者が記録されたテキストを再度見直して、不必要または必要な箇所の特定をする作業を行い編集する必要がある。

さらに特許文献１に記載のシステムのように、特定のワードを検出する方法では、会議中必要なときにその特定ワードを毎回発話しなくてはならない。これは会議の進行の妨げにも繋がりかねない。

特許文献１に記載の特定のワードを検出する方法以外の方法としては、特許文献２に議事録システムに付随した専用のスイッチを押している間に取得した音声は記録しないなどの方法が記載されている。

しかし特許文献２に記載の技術ではそれ専用の特別な装置が必要となる。近年、特別な装置を用いるのではなく、各自が持ち寄った端末（スマートフォンなど）を用いて、各々の端末にて音声を取得し、どの場所でも気軽に議事録を生成するシステムが検討されている。このようなシステムにおいては、特許文献２のような特別な装置を使用することは本来の目的である「どの場所でも気軽に」議事を残せるという目的に相反することになる。

本開示の音声認識テキスト化システムの制御方法は、音声情報を取得し、取得した前記音声情報を音声認識することでテキスト化する音声認識テキスト化システムの制御方法であって、前記テキスト化した文字列に、予め設定された所定の単語が含まれるか否かを判断し、前記所定の単語が含まれると判断された場合には、前記テキスト化した文字列のうち、前記所定の単語と関連付けられた文字列を、消去候補となる第１の文字列として特定し、前記第１の文字列を第１の表示形態で、前記第１の文字列以外の文字列である第２の文字列を第２の表示形態で、それぞれ表示端末に表示する制御を行う。

また、前記第１の文字列は、前記テキスト化した文字列のうち、前記所定の単語の前もしくは後ろに位置する文字列であってもよい。

また、前記所定の単語には、当該所定の単語の前の文字列を消去候補として特定する第１の単語と、当該所定の単語の後の文字列を消去候補として特定する第２の単語と、が含まれ、前記第１の文字列は、前記所定の単語が第１の単語である場合、前記所定の単語の前に位置する文字列であり、前記所定の単語が第２の単語である場合、前記所定の単語の後に位置する文字列であってもよい。

また、前記第１の表示形態は、前記第２の表示形態で表示される第２の文字列の輝度値よりも低い輝度値で前記第１の文字列を表示する表示形態であってもよい。

また、前記第１の表示形態は、前記第２の表示形態で表示される第２の文字列とは異なる色で前記第１の文字列を表示する表示形態であってもよい。

また、前記表示端末における前記第１の文字列の表示領域を、選択することで前記第１の文字列の表示を削除してもよい。

本開示の携帯端末の制御方法は、携帯端末によって音声情報を取得し、取得した前記音声情報を当該携帯端末にて音声認識、もしくは外部装置に送信して当該外部装置にて音声認識することで、テキスト化した文字列を前記携帯端末またはその他の表示装置に表示させる音声認識システムに用いる携帯端末の制御方法であって、前記携帯端末に近接する物体の有無を判断し、前記判断に応じて、前記表示装置への表示をするための処理を行うか否かを切り替えてもよい。

また、前記物体が有ると判断されている間は、前記携帯端末の音声取得を停止させることで、前記表示をするための処理を行わず、前記物体が無いと判断されている間は、前記携帯端末の音声取得を開始させることで、前記表示をするための処理を行ってもよい。

また、前記物体が無いと判断されている間は、前記携帯端末の音声取得を停止させることで、前記表示をするための処理を行わず、前記物体が有ると判断されている間は、前記携帯端末の音声取得を開始させることで、前記表示をするための処理を行ってもよい。

また、前記物体が有ると判断されている間は、前記携帯端末にて取得した音声情報を前記外部装置に送信しないことで、前記表示をするための処理を行わず、前記物体が無いと判断されている間は、前記携帯端末にて取得した音声情報を前記外部装置に送信することで、前記表示をするための処理を行ってもよい。

また、前記物体が有ると判断されている間は、前記携帯端末にて取得した音声情報に対して音声認識を行わないことで、前記表示をするための処理を行わず、前記物体が無いと判断されている間は、前記携帯端末にて取得した音声情報に対して音声認識行うことで、前記表示をするための処理を行ってもよい。

本開示の携帯端末の制御方法は、携帯端末によって音声情報を取得し、取得した前記音声情報を当該携帯端末にて音声認識、もしくは外部装置に送信して当該外部装置にて音声認識することで、テキスト化した文字列を前記携帯端末またはその他の表示装置に表示させる音声認識システムに用いる携帯端末の制御方法であって、水平面に対する前記携帯端末の角度を検知し、前記検知した前記携帯端末の角度に応じて、前記表示装置への表示をするための処理を行うか否かを切り替えてもよい。

また、前記携帯端末の角度が略水平ではないと検知されている間は、前記携帯端末の音声取得を停止させることで、前記表示をするための処理を行わず、前記携帯端末の角度が略水平と検知されている間は、前記携帯端末の音声取得を開始させることで、前記表示をするための処理を行ってもよい。

また、前記携帯端末の角度が略水平と判断されている間は、（ｉ）前記携帯端末のタッチパネル操作を無効とし、（ｉｉ）物体の前記携帯端末に近接する物体の有無を判断し、（ｉｉｉ）前記判断に応じて、前記表示装置への表示をするための処理を行うか否かを切り替える、ように制御してもよい。

また、前記携帯端末の角度が略水平ではないと判断されている間は、（ｉ）前記携帯端末のタッチパネル操作を有効とし、（ｉｉ）前記表示をするための処理を行わない、ように制御してもよい。

（実施の形態１）
［システムの全体像］
図１Ａ〜図１Ｄには、本実施の形態における議事録作成システム（または、音声認識テキスト化システムを用いた議事録作成システム）の全体像を示す。本議事録作成システムを採用し得る全体像の例として、図１Ａ〜図１Ｄまでの４つの例を示しているが、これに限られるものではない。以下、各システムについて説明する。

図１Ａの例では、会議の参加者Ａ〜Ｄの全員がそれぞれ携帯端末２１００を保有している。会議の参加者Ａ〜Ｄの各々の携帯端末２１００はインターネットを介して室外に配置されたサーバ装置２２００と情報を送受信する。図１Ａに示す議事録システムが議事録を作成する方法について、以下に説明する。

まず、会議の参加者Ａ〜Ｄのそれぞれが保有する携帯端末２１００にて会議の参加者の音声を取得する。そして、会議の参加者Ａ〜Ｄのそれぞれが保有する携帯端末２１００は取得した音声情報をリアルタイムでサーバ装置２２００に送信する。サーバ装置２２００は、会議の参加者Ａ〜Ｄのそれぞれが保有する携帯端末２１００から受信した音声情報をテキスト化する。またサーバ装置２２００はテキスト化した各々の情報を、受信日時を基に統合し、議事録として作成する。ここで、議事録の作成方法の詳細については後述する。そしてサーバ装置２２００は作成した議事録を各々の携帯端末２１００に送信する。なお、携帯端末２１００と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。例えば、人体装着型の端末（ウェアラブル端末）でもよい。人体装着型の端末としては、腕時計型端末（スマートウォッチ）、眼鏡型端末（スマートグラス）または、クリップで衣服に装着したりストラップで首にかけるペンダント型端末などが考えられる。

図１Ｂの例では、会議の参加者Ａ〜Ｄの全員がそれぞれ携帯端末２１００を保有している。会議の参加者Ａ〜Ｄの各々の携帯端末２１００は有線通信または無線通信によって、室内に配置されたサーバ装置２２００と情報を送受信する。図１Ａと比較して、サーバ装置２２００が室内に配置されている点が異なるが、それ以外は同様であるので説明を省略する。図１Ｂの例で無線通信によってサーバ装置２２００と情報を送受信する方法については、ＷｉｆｉやＢｌｕｅｔｏｏｔｈ（登録商標）などの無線規格を用いればよい。なお、携帯端末２１００と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。例えば、人体装着型の端末（ウェアラブル端末）でもよい。人体装着型の端末としては、腕時計型端末（スマートウォッチ）、眼鏡型端末（スマートグラス）または、クリップで衣服に装着したりストラップで首にかけるペンダント型端末などが考えられる。

図１Ｃの例では、会議の参加者Ａ〜Ｄ全員がそれぞれ携帯端末２１００を保有している。また、会議の参加者Ａ〜Ｄの各々の携帯端末２１００は、それぞれインターネットを介して情報を送受信し合う。図１Ｃに示す議事録システムが議事録を作成する方法について、以下に説明する。

まず参加者Ａ〜Ｄの各携帯端末２１００にて会議参加者の音声を取得する。そして各携帯端末２１００は取得した音声情報をリアルタイムで各携帯端末２１００のうち一の携帯端末（以下ホスト端末と記載）に送信する。ホスト端末は各携帯端末２１００から受信した音声情報をテキスト化する。またホスト端末はテキスト化した各々の情報を、受信日時を基に統合し、議事録として作成する。ここで、議事録の作成方法の詳細については後述する。そしてホスト端末は作成した議事録を各々の携帯端末２１００に送信する。なお、携帯端末２１００と記載したが、音声を取得しうる装置であればいかなる装置を採用してもかまわない。例えば、人体装着型の端末（ウェアラブル端末）でもよい。人体装着型の端末としては、腕時計型端末（スマートウォッチ）、眼鏡型端末（スマートグラス）または、クリップで衣服に装着したりストラップで首にかけるペンダント型端末などが考えられる。

図１Ｄの例では、サーバ装置２２００が音声取得から議事録作成のあらゆる手段を備えている。議事録を作成する方法については上で説明した例と同様なので説明を省略する。

以下、各装置の構成や、議事録作成のための処理フローを説明するが、基本的には図１Ａのシステムを用いた場合の例を説明する。

［各装置の構成］
図２Ａを用いて、実施の形態１における議事録作成システムにおける各構成を説明する。ここでは、図１Ａにて説明したシステムにおける各装置の構成について説明するが、これに限られるものではなく、携帯端末２１００が備える各構成・手段の一部または全部をサーバ装置２２００が備えていてもよいし、サーバ装置２２００が備える各構成・手段の一部または全部を携帯端末２１００が備えていてもよい。

携帯端末２１００は、通信部２１０１、制御・処理部２１０２、記録部２１０３、音声取得部２１０４、表示部２１０５、操作部２１０６、音声再生部２１０７を備える。

通信部２１０１は、例えば通信を行う処理回路（通信回路）を含んでもよい。通信部２１０１は、インターネットを介してサーバ装置２２００や他の装置と情報を送受信する。ここで、インターネットを介してと記載したが、物理的に有線を接続することでサーバ装置２２００と情報を送受信してもよい。

制御・処理部２１０２は、取得したあらゆる情報を処理し、あらゆる構成を制御する。例えば後述する音声取得部２１０４が取得した音声情報を処理する。制御・処理部２１０２はいわゆるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはマイコン（マイクロプロセッサともいう）と呼ばれる情報処理機能を有する処理回路を含む電子部品である。

制御・処理部２１０２は、例えば図示しないメモリ、または記録部２１０３にプログラムを記録しており、ＣＰＵがプログラムを実行することにより機能するように構成している。

または、上述のプログラムを実行することにより、実現される制御・処理部２１０２の機能をマイコンに組み込んで制御・処理部２１０２を構成してもよい。

制御・処理部２１０２の具体的な機能構成については図３を用いて後述する。

記録部２１０３は、あらゆる情報を記録する。例えば音声取得部２１０４が取得した音声情報を記録部２１０３にて一時的または所定の期間記録しておく。記録部２１０３は、いわゆるメモリ、またはハードディスクなどの書き込み可能な記録媒体である。

音声取得部２１０４は、音声情報を取得する。音声取得部２１０４は、例えば、取得した音声を処理する処理回路を含んでもよい。取得した音声情報は例えばＡＤ変換処理が施され、記録部２１０３に記録され、または制御・処理部２１０２によって処理され、または通信部２１０１によってサーバ装置２２００に送信される。音声取得部２１０４は、いわゆるマイクなどである。

表示部２１０５は、あらゆる情報を表示する。表示部２１０５は、いわゆるディスプレイである。

操作部２１０６は、使用者からの操作・入力を受け付けるインターフェースである。入力の方法は特に限定しない。タッチパネル式の入力方式であってもよいし、ボタン入力であってもよい。

音声再生部２１０７は、音声を再生する。音声再生部２１０７は、いわゆるスピーカである。音声再生部２１０７は必須の構成ではない。

サーバ装置２２００は、通信部２２０１、制御・処理部２２０２、記録部２２０３を備える。

通信部２２０１は、例えば通信を行う処理回路（通信回路）を含んでもよい。通信部２２０１は、各携帯端末２１００が取得した音声情報を受信し、後述する制御・処理部２２０２が処理した情報を携帯端末２１００に送信する。

制御・処理部２２０２は取得した音声情報を処理する。

制御・処理部２２０２はいわゆるＣＰＵまたはマイコン等の情報処理機能を有する処理回路を含む電子部品である。制御・処理部２２０２は、例えば図示しないメモリ、または記録部２２０３にプログラムを記録しており、ＣＰＵがプログラムを実行することにより機能する。

または、上述のプログラムを実行することにより、実現される制御・処理部２２０２の機能をマイコンに組み込んで制御・処理部２２０２を構成してもよい。

制御・処理部２２０２が行う処理等については後述する。

記録部２２０３は、あらゆる携帯端末から取得した情報（音声情報など）を記録する。記録部２２０３は、いわゆるメモリ、ハードディスクなどの書き込み可能な記録媒体である。

以上が各装置の構成の説明となるが、上記した携帯端末２１００およびサーバ装置２２００は必ずしも図２Ａに記載するすべての構成を備えている必要はない。その一部の構成が欠けていてもよい。

また図２Ｂは、図１Ｄに示すシステムにおけるサーバ装置２２００の構成の一例を示す図である。図１Ｄに示すようにこの場合、サーバ装置２２００が議事録システム専用の装置となり、サーバ装置２２００内にすべての構成が集約される。各構成は図２Ａと同様なので、同一の名称または符号を用いてその説明を省略する。

［制御・処理部の機能構成］
図３は、制御・処理部２１０２または、制御・処理部２２０２の機能構成の一例を示す図である。以下図３を用いて各構成について説明する。なお、制御・処理部２１０２が図３の機能構成の一部を備えている場合には、制御・処理部２２０２が、図３のうち制御・処理部２１０２が備えていない機能構成を備えていればよい。また、制御・処理部２２０２が図３の全ての機能構成を備えている場合には、制御・処理部２１０２が図３に記載する機能構成をひとつも備えていないことも考えられる。この場合は、携帯端末２１００の音声取得部２１０４が取得した音声情報を、通信部２１０１がそのままサーバ装置２２００に送信する。以下では、制御・処理部２２０２が図３の全ての機能構成を備えている場合について説明するがこれに限られるわけではない。

制御・処理部２２０２は、音声情報取得手段３００１と、音声認識・テキスト統合手段３００２と、特定語検出手段３００３と、消去文章特定手段３００４と、を備える。以下、各機能構成の動作および処理の流れを、図４Ａ及び図４Ｂのフローチャートを用いて説明する。

まずステップＳ４００１にて、音声情報取得手段３００１は、各携帯端末２１００の音声取得部２１０４が取得した音声情報を、通信部２１０１および通信部２２０１を介して取得する。この際、記録部２１０３または記録部２２０３が記録している音声情報を取得してもよい。図５には、取得する音声情報のイメージを示す。図において、会議の参加者Ａ〜Ｄの各携帯端末２１００において、取得する音声情報と時間との関係を示している。

図５に示すように、会議の参加者Ａ〜Ｄの各携帯端末２１００からの音声情報は、時系列にサーバ装置２２００に送信され、音声情報取得手段３００１によって取得・保持される。ここでは、図１Ａに示す例において４人の会議の参加者Ａ〜Ｄが保有するそれぞれの端末から音声情報を取得していることを示している。

次にステップＳ４００２にて、音声認識・テキスト統合手段３００２は、音声情報取得手段３００１が取得した各音声情報に対してそれぞれ音声認識を行い、テキスト化を行う。そして音声認識・テキスト統合手段３００２は、各々のテキストを統合し、記録部２２０３に保持する。なお図１Ｄで示すような、各携帯端末では音声の取得を行わず（携帯端末を用いない）、ひとつの装置のみで全ての処理を行うシステムの場合では、テキストの統合処理が不要となる。

図６には、図５で取得した各音声情報に対して音声認識した結果を表示している。また、図７Ａ〜図７Ｃには、各々のテキストを統合し、記録部２２０３に記録した一例を示す。図７Ａに示すように、音声認識した文字列を時系列ごとにそのまま並べて統合した状態で保持してもよい。また、図７Ｂに示すように、音声認識・テキスト統合手段３００２は、テキスト化した情報を漢字変換する手段を備えており、各文章に対して漢字変換処理を施してから時系列ごとに記録部２２０３に保持してもよい。

また、図７Ｃに示すように、音声認識・テキスト統合手段３００２は、どの携帯端末２１００からどの音声情報が取得されたかということを識別することが出来るので、それぞれを区別した状態でテキスト化し、時系列ごとに記録部に保持していてもよい。このように各人の保有する携帯端末２１００に関連付けて取得した音声情報をテキスト化しておくことで、後に議事録として管理しやすい。

さらにここでは、図１Ａに示すように、各人が保有する携帯端末２１００を各人の近くに置くことを想定しているので、ある携帯端末２１００が取得する音声情報のうち、保有者の発話音声が最も高い音圧レベルを示すことが想定できる。よって音声認識・テキスト統合手段３００２は、取得する音声情報のうち一定の音圧レベルに達している音声情報のみに対してテキスト化を行ってもよい。これによれば、音声認識・テキスト統合手段３００２は、参加者Ａが保有する携帯端末２１００が取得した音声情報は、参加者Ａの発話であると推定することとなる。

また、各携帯端末２１００の制御・処理部２１０２が、図示しない話者識別手段を備えていてもよい。話者識別手段は、各携帯端末２１００にて取得した音声情報に対して話者識別を行い、当該携帯端末２１００の保有者の発話音声を特定する。そして話者識別手段は特定した保有者の発話音声のみを通信部２１０１を介してサーバ装置２２００の通信部２２０１に送信する。ここで各人の保有する携帯端末２１００は、例えばスマートフォンなどの端末であるため、通話などによって各人の音声を事前に取得していることが多いので、持ち主の音声情報を保持しておくことは容易である。よって例えば参加者Ａの携帯端末２１００は事前に参加者Ａの音声情報を保持しており、取得した音声情報と保持していた音声情報を照合することで、参加者Ａの音声情報のみを特定してから、サーバ装置２２００に送信する。これにより、例えばＡの保有する携帯端末２１００がＢの発話音声を収音した場合であっても、Ａの音声情報のみをサーバ装置２２００に送信できる。すなわち、たとえＡの保有する携帯端末２１００およびＢの保有する携帯端末２１００両方に、Ｂの発話音声が入った場合でも、Ａの携帯端末２１００からはＢの発話音声が送信されない。よってサーバ装置２２００で音声情報をテキスト化した後に統合した際でも、同様のテキストが重複して文章化されるなどの不具合が生じない。

次に、図４Ａに戻りステップＳ４００３にて、特定語検出手段３００３は、テキスト化した文章内の特定単語を検出する。図８は、記録部２２０３が保持している特定単語と、消去候補の文章位置に関する情報を関連付けて管理しているテーブルである。当該テーブルは、サーバ装置２２００が予め保持しているものであってもよいし、本議事録システムを利用するユーザが特定単語および消去候補文章位置情報を登録することで構築されたテーブルであってもよい。

特定語検出手段３００３が、テキスト化した文章の中に図８のテーブルにおける特定単語を検出した際に、当該特定単語の位置と消去候補文章位置情報とを消去文章特定手段３００４に出力する。図７Ａ〜図７Ｃの例では、特定語検出手段３００３は音声情報の中から「サッキノオフレコ」という文章を検出し、図８のテーブルを参照し「サッキノオフレコ」という単語に関連付けられた消去候補文章位置情報である“ｂ”を特定する。そして特定語検出手段３００３は、「サッキノオフレコ」という特定単語の位置と、“ｂ”という消去候補文章位置情報とを消去文章特定手段３００４に出力する。

消去文章特定手段３００４は、特定単語の位置と消去候補文章位置情報とが特定語検出手段３００３から出力された際に、ステップＳ４００４にてそれらの情報に基づいて消去候補となる文字列を特定する。ここで消去文章特定手段３００４は、特定語検出手段３００３によって出力された特定単語に対する消去候補文章位置情報が“ａ”の場合は、当該特定単語の後に続く文章を消去文章として特定する。一方で、消去文章特定手段３００４は、特定語検出手段３００３によって出力された特定単語に対する消去候補文章位置情報が“ｂ”の場合は、当該特定単語の前の文章を消去文章として特定する。

図７Ａ〜図７Ｃの例においては、特定語検出手段３００３より「サッキノオフレコ」という特定単語の位置と、“ｂ”という消去候補文章位置情報と取得しているので、消去文章特定手段３００４は消去文章として「パナソニックトノオンセイニンシキシステムキョウドウカイハツノケンデス」という文章を特定する。なお、消去文章特定手段３００４が特定する消去文章としては上記した例のように直前（または直後）の文章のみを消去文章としてもよいし、これに限られない。ユーザが特定単語の前後どの程度の文章を消去対象とするか事前に設定することができてもよい。

なお、ステップＳ４００４では、特定した消去候補となる文章（文字列）に対してタグ情報を付加して管理してもよい。

ステップＳ４００４にて消去候補となる文字列を特定した後、ステップＳ４００５の処理に進む。またステップＳ４００３にて特定単語が検出されなかった場合は、ステップＳ４００４の処理をせずにステップＳ４００５の処理に進む。

ステップＳ４００５では、表示制御手段３００５が表示コマンドを作成する。作成された表示コマンドは通信部２２０１および通信部２１０１を介して表示部２１０５にて表示される。図９Ａ〜図９Ｃには、携帯端末２１００の表示部２１０５にて表示される表示内容の一例を示す。

例えば、ステップＳ４００５では図９Ｂに示すような表示をする旨の表示コマンドを作成する。以下に図９Ａ〜図９Ｃに示す表示例について説明する。

まずユーザが議事録システムの終了を指示した後、図９Ａのような確認画面を表示する。なお、議事録システムの終了の指示方法に関しては特に限定しない。ここでユーザが携帯端末２１００の操作部２１０６を介して、議事録作成の終了を示すボタン表示９０１を選択した場合、システムは音声の取得を終了し、携帯端末２１００が通信部２１０１を介して取得していた表示コマンドに従い図９Ｂのように記録していた議事録本文の表示を行う。すなわち携帯端末２１００の操作部２１０６はユーザによるボタン表示９０１の選択を受け付け、制御・処理部２１０２は表示部２１０５に議事録本文を表示する制御を行う。

図９Ｂでは、記録していた議事録本文が、発話者に関する情報とともに表示されている。なお議事録本文の表示に関してはこれに限られない。また図９Ｂではボタン表示９０２が表示されている。

また、図９ＢではステップＳ４００４にて消去候補として特定されていた文章が、他の文章と異なる表示形式で表示されている。ここでは例えば、「パナソニックとの音声認識システム共同開発の件です」という文章が他の文章よりも薄く表示されている。消去候補として特定されていた文章の表示形式としてはこれに限られない。例えば消去候補として特定された文章を他の文章と異なる色で表示してもよい。また消去候補として特定された文章に関して他の文章より低い輝度値にて表示してもよい。

そしてユーザは携帯端末２１００の操作部２１０６を介して、作成した議事録のうち消去候補として特定していた箇所を消去することが出来る。ここでは図９Ｂに示すように「全ての消去候補箇所を消す」というボタン表示９０２をユーザがタッチすることで、当該指示を受け付ける。すなわち携帯端末２１００の操作部２１０６はユーザによるボタン表示９０２の選択を受け付け、制御・処理部２１０２は表示部２１０５に消去候補として特定していた文章の表示を消去する制御を行う。これにより、図９Ｃのように消去する指示をした文章が消去された状態の表示画面が表示される。なお、ユーザは携帯端末２１００の操作部２１０６を介して、消去候補として特定されている表示領域９０３をタッチすることで、当該タッチした箇所のみの表示を消去することができてもよい。

図９Ｃでは、特定された文章の表示が消去された議事録本文および、ボタン表示９０４が表示される。なお、図９Ｃには特定された文章の表示が消去され、代わりに消去されたことを示す表示（図中“−”）をしているが、これに限られない。すなわち特定された領域に関しては何も表示しなくてもよい。また、図９Ｃの例では発話者を表示しているが、発話者の表示も同様に消去してもよい。

ここでユーザはボタン表示９０４をタッチすることによって、表示消去した文章を再度表示させることも出来る。すなわち携帯端末２１００の操作部２１０６はユーザによるボタン表示９０４の選択を受け付け、制御・処理部２１０２は表示部２１０５に消去候補として特定していた文章を再表示する制御を行う。

なお、図９Ｂでは、消去候補として特定された文章の表示形式を変えて表示する例を示したが、これに限られない。予め消去候補として特定された文章を表示せず、その他の文章のみを表示してもよい。この場合、ユーザが特定のボタン表示領域をタッチすることで、消去候補として特定されていた文章を表示することが出来るようにしてもよい。

このように、ステップＳ４００５では、サーバ装置２２００の制御・処理部２２０２は、携帯端末２１００が図９Ｂのような表示をするための表示コマンドを作成する。図４ＢはステップＳ４００５の処理（表示コマンドの作成）の一例を示したフローチャートである。

ステップＳ４０１０にて表示制御手段３００５は、表示コマンド作成の対象となる文章（文字列）について、消去候補となる文章か否かを判断する。ここで、Ｓ４００４において、特定した消去候補となる文章（文字列）に対してタグ情報が付加されていれば、タグ情報の有無を判断して消去候補となる文章か否かを判断すればよい。

そしてステップＳ４０１０にて、消去候補となる文章であることが判断された場合、ステップＳ４０１１に進み、当該文章に対して、第１の表示形態にて表示する旨のコマンドを作成する。

またステップＳ４０１０にて、消去候補となる文章ではないことが判断された場合、ステップＳ４０１２に進み、第１の表示形態とは異なる表示形態である第２の表示形態にて表示する旨のコマンドを作成する。

以上、本実施の形態における議事録作成システムによれば、取得した音声を一度テキスト化した後、テキスト化された文章内の特定単語を検出することで、消去候補となる文章（文字列）を特定する。これにより、一度発話した後でも、過去の発話に遡って消去対象の文字を特定することが出来る。また、取得した音声を一度テキスト化しているので、たとえユーザが特定した消去候補の文章領域と、システムの認識した消去候補の文章領域が異なっていたとしても、後に再表示させることが出来るなど編集が容易である（図９Ｃ）。

従来の議事録システムでは特定の発話を検出した場合に音声の取得、もしくは音声認識、テキスト化を停止している。

よって、本願のように一度発話してしまった後には消去候補とすることが出来ない。また本実施の形態では、消去候補となる文字列と、そうでない文字列に関して、それぞれ異なる表示形態にて表示している。従来技術では消去候補とした文章自体を確認すること、および一度消去候補と特定した後に再度表示させることは出来ない。

なお、ステップＳ４００４における消去候補となる文字列の特定だが、特定単語の直前や直後とは限らない。特定の単語を複数合わせて発話することで、消去候補の文字列を特定してもよい。例えば、「パナソニックを消して」という音声を特定語検出手段３００３が検出した場合に、消去文章特定手段３００４は、すでにテキスト化した文章（および／または以降にテキスト化した文章）のうち、「パナソニック」という単語全てまたは当該単語が含まれる文章全てを、消去対象の文章として特定してもよい。この場合、特定語検出手段３００３は「消して」という単語を消去指示を示す第１特定単語として検出し、当該第１特定単語の直前にある「を」という単語を消去対象を指定するための第２特定単語として検出し、さらに当該第２特定単語の直前にある「パナソニック」という単語を第３特定単語として検出する。これによって、図８に示した「今の消して」という特定単語を検出したときと、「パナソニックを消して」という特定単語を検出したときの処理を分けることができる。

（実施の形態２）
［システムの全体像］
本実施の形態における議事録作成システムでも、図１Ａ〜図１Ｄと同様のシステム構成を採用することができる。よってシステムの全体像については詳細な説明を省略する。ただし、以下の説明は図１Ａのシステムを採用した場合を主に説明していく。

［各装置の構成］
図１０を用いて、実施の形態２における議事録作成システムにおける各構成を説明する。本実施の形態における議事録作成システムは、携帯端末１０１０およびサーバ装置２２００を含む。ここで、サーバ装置２２００に関しては実施の形態１と同様の構成であるので、同様の符号を用いて詳細な説明を省略する。携帯端末１０１０に関しては実施の形態１にて説明した携帯端末２１００と異なる構成を中心に説明する。また、図１０に示す携帯端末１０１０が備える各構成・手段の一部または全部をサーバ装置２２００が備えていてもよいし、サーバ装置２２００が備える各構成・手段の一部または全部を携帯端末１０１０が備えていてもよい。

携帯端末１０１０は、通信部２１０１、制御・処理部２１０２、記録部２１０３、音声取得部２１０４、表示部２１０５、操作部２１０６、音声再生部２１０７、近接検知部２１０８、傾き検知部２１０９、を備える。ここで音声再生部２１０７、傾き検知部２１０９に関しては必須の構成ではない。携帯端末１０１０が、実施の形態１にて説明した携帯端末２１００と異なる点は、近接検知部２１０８、傾き検知部２１０９を備える点である。以下に近接検知部２１０８、傾き検知部２１０９に関して説明する。また、携帯端末１０１０に関しても、これらの構成を備えるものであれば図１１に示すような、表示端末（スマートフォンなど）に限定するものではない。例えば、人体装着型の端末（ウェアラブル端末）でもよい。人体装着型の端末としては、腕時計型端末（スマートウォッチ）、眼鏡型端末（スマートグラス）または、クリップで衣服に装着したりストラップで首にかけるペンダント型端末などが考えられる。

近接検知部２１０８は、携帯端末１０１０に近接する物体の有無を検知する。近接検知部２１０８は、いわゆる近接センサであり、非接触で検出対象が一定以上近づいたか否かを検知する。近接センサには磁界や電磁波、光、音波、などのエネルギー変化を検出するもの（誘導型、静電容量型、超音波型、電磁波型、赤外線型など）があるが、近接検知部２１０８にはそのいずれを採用してもよい。近接検知部２１０８が物体の有無を検知する所定の距離については特に限定しない。本実施の形態においては、例えば近接検知部２１０８から０ｃｍ（センチメートル）〜２ｃｍ等の、比較的近い距離内における物体の有無を検知することを想定している。

図１１には、近接検知部２１０８を備えた携帯端末１０１０の概観を示す。図１１に示すように、携帯端末１０１０は、操作部２１０６ａと操作部２１０６ｂと近接検知部２１０８とを備えている。ここで操作部２１０６ａはいわゆるタッチパネルであり、ユーザからのタッチ操作を受け付けることが出来る。また操作部２１０６ｂはボタンであり主に携帯端末１０１０において起動中のアプリケーションを終了させることに使用したり、もしくは起動中のアプリケーションを起動させたまま、待ち受け画面を表示させることに使用する。ここで待ち受け画面とは、携帯端末１０１０の電源を入れた後に表示されるトップ画面であり、あらゆるアプリケーションの起動を受け付ける状態の画面である。例えば、トップ画面には、単色（例えば、青色、黒色）の背景画像を含む画面が表示されている。

トップ画面に含まれる背景画像は、単色の背景画像に限定されるものではない。背景画像は、例えば写真画像（図示せず）、グラフィックス画像（図示せず）を含んでもよい。また、トップ画面は、アイコン画像（図示せず）を含んでもよい。

図１１に示すように近接検知部２１０８は、操作部２１０６ａを中心に操作部２１０６ｂと対向する位置に配置される。なお近接検知部２１０８は、図１１に示す位置以外に配置されていてもよい。例えば操作部２１０６ｂの付近に配置されていてもよい。

傾き検知部２１０９は、携帯端末１０１０の傾き（角度）を検知する。傾き検知部２１０９は携帯端末１０１０自体の傾きを検知できるものなら何でもよく、慣性センサ（角速度センサ）などを採用することが出来る。

以上が実施の形態１と異なる各構成の説明となるが、上記した携帯端末２１００およびサーバ装置２２００は必ずしも図１０に記載するすべての構成を備えている必要はない。その一部の構成が欠けていてもよい。

［制御・処理部の機能構成］
図１２には本実施の形態における、携帯端末１０１０の制御・処理部２１０２の構成を示す。

携帯端末１０１０の制御・処理部２１０２は、物体有無取得手段１２０１と、音声取得制御手段１２０２と、送信情報制御手段１２０３と、表示制御手段１２０４と、端末角度取得手段１２０５を備える。

サーバ装置２２００の制御・処理部２２０２は、音声情報取得手段３００１と、音声認識・テキスト統合手段３００２と、表示制御手段３００５とを備える。なお、制御・処理部２２０２が備える各機能構成は、実施の形態１にて図３を用いて説明した各々の構成と同様の機能を有する。

以下図１３のシーケンス図を用いて各機能構成を説明する。なお、以下各構成の処理ステップＳ１３０１からステップＳ１３１７まで説明するが、各ステップは一部順序が前後してもよいものとする。

まず、ステップＳ１３０１にて携帯端末１０１０の音声取得部２１０４は、会議音声を取得する。なお、図示していないがステップＳ１３０１の前の段階にて既に、制御・処理部２１０２の音声取得制御手段１２０２が、音声取得部２１０４に対して音声取得を行う旨の指示をしているものとする。

そしてステップＳ１３０２にて音声取得部２１０４は取得した音声情報を通信部２１０１に出力する。ここでステップＳ１３０２にて音声取得部２１０４は取得した音声情報をそのまま通信部２１０１に出力しているが、一時的なメモリ（図示せず）に保存してから通信部２１０１に出力することも考えられる。

ステップＳ１３０３では、通信部２１０１がインターネットを介して通信部２２０１に音声情報を送信する。ここでは図示しないが、通信部２１０１は音声情報を送信するために情報を変換・圧縮していてもよい。また通信部２１０１が音声情報を通信部２２０１に送信するタイミングは特に限定しない。所定時間経過ごとに送信してもよいし、所定の情報量が蓄積されるごとに送信してもよい。

そしてステップＳ１３０４にて通信部２２０１は、取得した音声情報を制御・処理部２２０２に出力する。ここで制御・処理部２２０２は音声情報取得手段３００１にて音声情報を取得する。

ステップＳ１３０５にて制御・処理部２２０２の音声認識・テキスト統合手段３００２は、取得した音声情報に対してそれぞれ音声認識を行い、テキスト化を行う。また、各音声認識したテキストを統合する。そしてステップＳ１３０６にて制御・処理部２２０２の表示制御手段３００５は表示コマンドを生成する。

次にステップＳ１３０７以降にて、携帯端末１０１０の近接検知部２１０８が物体の近接を検知した際の処理について説明する。なおステップＳ１３０７以降の処理は、必ずしもステップＳ１３０１からＳ１３０６の処理の後の処理であるとは限らない。

携帯端末１０１０の近接検知部２１０８にて物体の近接が検知されると、ステップＳ１３０７にて、制御・処理部２１０２の物体有無取得手段１２０１は物体の存在に関して“有”である旨の情報を取得（検出）する。ここでは例えば、会議中などに議事録として記録したくない内容を発する発話者が、意図的に近接検知部２１０８を手で覆うなどの動作をしたことで、近接検知部２１０８が物体の近接を検知した状況が考えられる。

そしてステップＳ１３０８にて音声取得制御手段１２０２は、音声取得部２１０４に対して音声情報の取得を停止する旨の制御信号を出力する。

そしてステップＳ１３０９にて、音声情報の取得を停止する旨の制御信号を受けた音声取得部２１０４は、音声の取得を停止する。音声情報を停止している間は通信部２１０１に音声情報は出力されない（出力する音声情報が無いので）ので、サーバ装置２２００に音声情報が送信されることはない。

そして、携帯端末１０１０の近接検知部２１０８にて物体の近接が検知されなくなった際に、ステップＳ１３１０にて制御・処理部２１０２の物体有無取得手段１２０１は、物体の存在に関して“無”である旨の情報を取得（検出）する。そしてステップＳ１３１１にて音声取得制御手段１２０２は、音声取得部２１０４に対して音声情報の取得を開始（再開）する旨の制御信号を出力する。

そしてステップＳ１３１２にて、音声情報の取得を開始（再開）する旨の制御信号を受けた音声取得部２１０４は、音声の取得を開始（再開）する。さらに音声取得部２１０４はステップＳ１３１３にて取得した音声情報を通信部２１０１に出力する。

以降ステップＳ１３１４〜Ｓ１３１７までの処理はステップＳ１３０４〜ステップＳ１３０６の処理と同様であるので、説明を省略する。

以上のように、携帯端末１０１０の近接検知部２１０８が物体の近接を検知している間には、音声取得部２１０４は音声情報の取得を停止している。よって、会議参加者が議事録に残したくない内容の発話を、記録しない旨の操作を容易に行える。各自が端末（例えばスマートフォン）を持ち寄って各自の発話を取得するシステムにおいて、本実施の形態の方法を用いれば、容易に不必要な箇所を排除した（もしくは必要な箇所のみ記録した）議事録の作成ができる。

特許文献２に記載の方法は専用のスイッチを押す方法であるので、それ専用の装置を用意する必要があった。また本実施の形態のように、各自が端末（スマートフォン）を持ち寄って音声を取得し議事録を作成するシステムの場合においては特許文献２の方法を採用することはできない。その理由を以下に記載する。

スマートフォンのようにタッチパネル入力式の端末は、物理的なボタン（スイッチ）が少ない。また、このスマートフォンにおける数少ない専用の物理ボタンを押した際には、ホーム画面（待ち受け画面）に戻る仕様になっていることが多い。よって、専用のアプリを起動させた状態でこのボタンを、音声記録オフのスイッチに採用することは考え難い。そこでタッチパネル上の一部の表示領域に仮想的に音声記録オフの機能を有するスイッチを配置することも考えられるが、会議中、特に発話中にスマートフォンのような小さい画面の中の小さいボタン領域をタッチさせることは、会議の妨げに繋がりかねない。タッチパネルでは正しい位置を押したか否かの触感がないので、ユーザは画面を見て正しい位置をタッチすることになる。よってユーザの視界を奪い、会議・発話への集中力を損ねることになり、尚更スムーズな会議の進行を妨げる。

この点、本実施の形態の方法では、近接センサ（近接検知部２１０８）を用いており、端末にユーザが手をかざすだけで、音声記録オフの切り替えができるので、ユーザの発話や会議の進行を妨げることなく必要な箇所のみ議事録として記録することができる。

また、携帯端末１０１０に手をかざすという動作で音声取得部２１０４の音声取得を停止できるので、ユーザにとっても音声取得を停止するための操作が直感的に分かりやすい。よって操作性のよいユーザインターフェースを提供できる。なお、携帯端末１０１０が上で説明した人体装着型の端末の際も同様である。特に腕時計型端末（スマートウォッチ）の場合は、端末が小型になり手で覆いやすいため、より操作性のよいユーザインターフェースを提供できる。

なお、本実施の形態では近接検知部２１０８が物体の近接を検知した際に音声の取得を停止し、近接検知部２１０８が物体の近接を検知していない際に音声の取得を行うように制御しているが、その逆の処理を行ってもよい。すなわち、近接検知部２１０８が物体の近接を検知した際に音声の取得を行い、近接検知部２１０８が物体の近接を検知していない際に音声の取得を停止するように制御する。これによれば、より議事録として残す文章を制約することができ、会議において重要な発話のみを議事録として残すことが容易となる。また、物体の近接を検知した際に音声の取得を停止するか否かに関して、ユーザが事前に選択（設定）出来るようにしてもよい。これにより、会議ごとに合った方法で議事録を作成できる。

また、物体の近接の判断に際して、近接検知部２１０８を用いたが、操作部２１０６ａの接触領域を検知することで同様の判断を行ってもよい。すなわち表示部である操作部２１０６ａの面積のうち所定の割合以上の面積に対して接触を検知している場合に、物体が近接していると判断する。これによれば近接検知部２１０８を設けなくても同様の処理を行うことができる。特に人体装着型の端末である腕時計型端末（スマートウォッチ）などの場合は、装置が小型であるがゆえに多くのセンサを採用することが困難なため、当該手段で判断することが有効となる。

次に本実施の形態の第１の変形例について図１４のシーケンス図を用いて説明する。

ステップＳ１３０１からＳ１３０６までは図１３で説明した処理と同様であるので説明を省略する。

携帯端末１０１０の近接検知部２１０８にて物体の近接が検知されると、ステップＳ１４０７にて、制御・処理部２１０２の物体有無取得手段１２０１は物体の存在に関して“有”である旨の情報を取得（検出）する。ここでは例えば、会議中などに議事録として記録したくない内容を発する発話者が、意図的に近接検知部２１０８を手で覆うなどの動作をしたことで、近接検知部２１０８が物体の近接を検知した状況が考えられる。

そしてステップＳ１４０８にて、送信情報制御手段１２０３が、通信部２１０１に対し音声情報の（サーバ装置２２００への）送信を停止する旨の制御信号を出力する。よって、当該制御信号が送信された際には通信部２１０１は音声取得部２１０４からの音声出力は継続している状態だが、当間に取得した音声情報は通信部２１０１にて送信されない状態が続く。

そして携帯端末１０１０の近接検知部２１０８にて物体の近接が検知されなくなった際に、ステップＳ１４０９にて制御・処理部２１０２の物体有無取得手段１２０１は、物体の存在に関して“無”である旨の情報を取得（検出）する。そしてステップＳ１４１０にて音声取得制御手段１２０２は、通信部２１０１に対して音声情報の（サーバ装置２２００への）送信を開始（再開）する旨の制御信号を出力する。

以降のステップＳ１４１１〜Ｓ１４１４は、ステップＳ１３０３〜Ｓ１３０６の処理と同様であるのでその説明を省略する。

以上図１４に示した本実施の形態の第１の変形例によれば、近接検知部２１０８によって物体の近接を検知している間には通信部２１０１が音声情報をサーバ装置２２００に送信しない。よって、会議参加者が議事録に残したくない内容の発話を、記録しない旨の操作を容易に行える。

また、本変形例によれば、近接検知部２１０８によって物体の近接を検知している際にも音声取得部２１０４は音声の取得を継続している。取得した音声に関しては携帯端末１０１０の記録部２１０３等に記録しておくようにしてもよい。これにより、近接検知部２１０８によって物体の近接を検知している間の発話は議事録としては残らないが、当該携帯端末１０１０には音声情報として残ることになる。よって当該携帯端末１０１０の保持者は会議後に議事録として残されていない発話を確認することができる。また、携帯端末１０１０に記録されているが議事録としては記録されていない発話を、再度サーバ装置２２００に送信して、議事録を再度生成させるように指示をすることができてもよい。

次に本実施の形態の第２の変形例について図１５・図１６を用いて説明する。

図１５は第２の変形例における携帯端末１０１０の制御・処理部２１０２、サーバ装置２２００の制御・処理部２２０２の機能構成の一例を示す図である。

携帯端末１０１０の制御・処理部２１０２は、物体有無取得手段１４０１と、送信情報制御手段１４０３と、表示制御手段１４０４とを備える。

サーバ装置２２００の制御・処理部２２０２は、音声情報取得手段３００１と、音声認識・テキスト統合手段３００２と、消去文章特定手段３００４と、表示制御手段３００５とを備える。なお、制御・処理部２２０２が備える各機能構成は、実施の形態１にて図３を用いて説明した各々の構成と同様の機能を有する。

以下図１６のシーケンス図を用いて各機能構成を説明する。

ステップＳ１３０１からステップＳ１３０６までの処理は図１３に示した処理と同様であるのでその説明を省略する。

携帯端末１０１０の近接検知部２１０８にて物体の近接が検知されると、ステップＳ１６０７にて、制御・処理部２１０２の物体有無取得手段１４０１は物体の存在に関して“有”である旨の情報を取得（検出）する。ここでは例えば、会議中などに議事録として記録したくない内容を発する発話者が、意図的に近接検知部２１０８を手で覆うなどの動作をしたことで、近接検知部２１０８が物体の近接を検知した状況が考えられる。そしてステップＳ１６０８にて、物体の存在に関して“有”である旨の情報が制御・処理部２１０２から通信部２１０１に出力される。

そしてステップＳ１６０９にて送信情報制御手段１４０３は、音声取得部２１０４から取得した音声情報と、物体の存在に関して“有”である旨の情報とを、サーバ装置２２００の通信部２２０１に送信する。

サーバ装置２２００の通信部２２０１は、音声情報と、物体の存在に関して“有”である旨の情報とを受信したら、ステップＳ１６１０にて制御・処理部２２０２に出力する。

制御・処理部２２０２は音声情報取得手段３００１にて通信部２２０１から音声情報と物体の存在に関して“有”である旨の情報とを取得し、ステップＳ１６１１にて音声認識・テキスト統合手段３００２にて取得した音声に対して音声認識・テキスト化を行う。

そしてステップＳ１６１２にて消去文章特定手段３００４は、ステップＳ１６１１にてテキスト化した文章に対して消去候補の文章である旨のタグ情報を付加しておく。ここで、消去文章特定手段３００４は、時刻に関する情報を用いて、テキスト化した文章のうち物体の存在“有”と検出されている時間に該当するテキストを特定する処理を行ってもよい。

そしてステップＳ１６１３にて制御・処理部２２０２の表示制御手段３００５は表示コマンドを生成する。ここで、表示制御手段３００５は、ステップＳ１６１２にて消去文章特定手段３００４によって、消去候補の文章である旨のタグ情報が付加された文章と、消去候補の文章である旨のタグ情報が付加されていない文章と、をそれぞれ異なる表示形態によって表示する旨の表示コマンドを作成する。

ここでステップＳ１６０９にて、音声情報と、物体の存在に関して“有”である旨の情報とを受信した場合には、制御・処理部２２０２にて、音声認識・テキスト統合処理（Ｓ１６１１）、消去文章の特定処理（Ｓ１６１２）、表示コマンド作成処理（Ｓ１６１３）のいずれかもしくは全部の処理を行わない制御をしてもよい。この場合は、ステップＳ１６０７にて物体“有”を検出している間に取得した音声情報に関しては、表示コマンドが作成されないことになる。

次に携帯端末１０１０の近接検知部２１０８にて物体の近接が検知されなくなった際に、ステップ１６１４にて制御・処理部２１０２の物体有無取得手段１２０１は、物体の存在に関して“無”である旨の情報を取得（検出）する。そしてステップＳ１６１５にて物体の存在に関して“無”である旨の情報が制御・処理部２１０２から通信部２１０１に出力される。

そしてステップＳ１６１５にて制御・処理部２１０２の送信情報制御手段１４０３は、音声取得部２１０４から取得した音声情報と、物体の存在に関して“無”である旨の情報とを、サーバ装置２２００の通信部２２０１に送信する。

サーバ装置２２００の通信部２２０１は、音声情報と、物体の存在に関して“無”である旨の情報とを受信したら、ステップＳ１６１７にて制御・処理部２２０２に出力する。

制御・処理部２２０２は音声情報取得手段３００１にて通信部２２０１から音声情報と物体の存在に関して“無”である旨の情報とを取得し、ステップＳ１６１８にて音声認識・テキスト統合手段３００２にて取得した音声に対して音声認識・テキスト化を行う。

そしてここでは制御・処理部２２０２は物体の存在に関して“無”である旨の情報を取得しているので、制御・処理部２２０２の消去文章特定手段３００４が消去候補の文章である旨のタグ情報を付加する処理を行わずステップＳ１６１９に進む。ステップＳ１６１９にて制御・処理部２２０２の表示制御手段３００５は表示コマンドを生成する。

以上、第２の変形例にて作成された表示コマンドによれば、実施の形態１にて図９Ａ〜図９Ｃを用いて説明した表示画面を生成することができる。すなわちサーバ装置２２００は消去候補の文章を保持しているので、消去候補の文章に関してその他の文章と異なる表示形態にて表示することが可能である。すなわち本変形例においては、実施の形態２にて説明した効果に加えて、実施の形態１に記載した効果と同様の効果が得られる。

以下に実施の形態２における携帯端末１０１０の制御・処理部２１０２の処理を示すフローチャートを図１７にて説明する。また実施の形態２の第１の変形例における携帯端末１０１０の制御・処理部２１０２の処理を示すフローチャートを図１８にて説明する。また実施の形態２の第２の変形例におけるサーバ装置２２００の制御・処理部２２０２の処理を示すフローチャートを図１９にて説明する。また、上記の図１３・図１４・図１６では説明していないが、実施の形態２における第３の変形例および第４の変形例に関する携帯端末１０１０の制御・処理部２１０２の処理を示すフローチャートを図２０・図２２にて説明する。

［実施の形態２の制御・処理部２１０２における処理］
図１７を用いて以下に説明する。

ステップＳ１７０１にて、物体有無取得手段１２０１は、物体の有無を検知する。

ステップＳ１７０２にて、音声取得制御手段１２０２は、ステップＳ１７０１にて取得した物体検出有無が“有”か否かを判断し、物体有無“有”の場合は、ステップＳ１７０３にて音声取得制御手段１２０２は、音声取得停止信号を音声取得部２１０４に出力する。

一方ステップＳ１７０２にて、物体有無が“無”の場合は、ステップＳ１７０４にて、音声取得制御手段１２０２は、音声取得開始信号を音声取得部２１０４に出力する。

ここで、音声取得開始信号および停止信号を出力するタイミングに関しては、物体検出有無に関して変化があった時のみに出力するようにしてもよい。また制御・処理部２１０２における本処理に関して、制御・処理部２２０２が行ってもよい。すなわち物体有無の検出から音声取得を停止するか否かの信号をサーバ装置２２００が携帯端末１０１０に送信するようにしてもよい。

［実施の形態２の第１の変形例における制御・処理部２１０２の処理］
図１８を用いて以下に説明する。

ステップＳ１７０１からステップＳ１７０２の処理に関しては図１７にて説明した処理と同様なので、説明を省略する。

ステップＳ１７０２にて、音声取得制御手段１２０２は、ステップＳ１７０１にて取得した物体検出有無が“有”か否かを判断し、物体有無“有”の場合はステップＳ１８０３にて、音声取得制御手段１２０２は、音声情報送信停止信号を通信部２１０１に出力する。

一方ステップＳ１７０２にて、物体有無“無”の場合は、ステップＳ１８０４にて、音声取得制御手段１２０２は、音声情報送信開始信号を通信部２１０１に出力する。

ここで、音声情報送信開始信号および停止信号を出力するタイミングに関しては、物体検出有無に関して変化があった時のみに出力するようにしてもよい。また制御・処理部２１０２における本処理に関して、制御・処理部２２０２が行ってもよい。すなわち物体有無の検出から音声信号を送信するか否かの信号をサーバ装置２２００が携帯端末１０１０に送信するようにしてもよい。

［実施の形態２の第２の変形例における制御・処理部２２０２の処理］
図１９を用いて以下に説明する。

ステップＳ１９０１にて、音声情報取得手段３００１は音声情報および物体有無に関する情報を取得する。

ステップＳ１９０２にて、音声認識・テキスト統合手段３００２は音声認識およびテキスト統合の処理を行う。本処理は図４Ａに示すステップＳ４００３にて説明したとおりである。

ステップＳ１９０３にて、消去文章特定手段３００４は物体存在有無情報が“有”か否かを判断し、“有”の場合はステップＳ１９０４に進み、消去候補となる文章（文字列）を特定する。消去候補文章を特定した後にステップＳ１９０５に進む。

一方ステップＳ１９０３にて、消去文章特定手段３００４は物体存在有無情報が“有”か否かを判断し、“無”の場合はステップＳ１９０５に進む。

ステップＳ１９０５にて、表示制御手段３００５は表示コマンドを作成する。消去候補と特定された文章（文字列）とそうでない文章に関して、異なる表示形態にて表示する旨の表示コマンドを作成する。ステップＳ１９０５の処理は図４Ｂにて説明したステップＳ４００５の処理と同様である。

また制御・処理部２２０２における本処理に関して、制御・処理部２１０２が行ってもよい。

［実施の形態２の第３の変形例における制御・処理部２１０２の処理］
図２０を用いて以下説明する。なお本変形例では制御・処理部２１０２は表示制御手段１２０４を備えている。

ステップＳ１７０１からステップＳ１７０４の処理は図１７にて説明した処理と同様であるので説明を省略する。

ステップＳ１７０３にて音声取得停止信号を出力した後、ステップＳ２００５にて、表示制御手段１２０４は、携帯端末１０１０の背景表示を第１の背景表示にて表示するように制御する。

一方ステップＳ１７０４にて音声取得開始信号を出力した後には、Ｓ２００６にて表示制御手段１２０４は、携帯端末１０１０の背景表示を第２の背景表示にて表示するように制御する。

ここでステップＳ２００５とＳ２００６にて説明した第１の背景表示と第２の背景表示について図２１Ａ、図２１Ｂを用いて説明する。

図２１Ａは、携帯端末１０１０における第２の背景表示の一例を示している。第２の背景表示の状態では、物体有無の検出は“無”と検出されている。すなわち音声情報を取得している状態、つまり通常とおりアプリケーションが動作している状態となるので、表示画面も通常とおりの画面が表示されている。通常とおりの画面には、例えば、単色の背景画像が含まれる。

そして図２１Ｂは、携帯端末１０１０における第１の背景表示の一例を示している。第１の背景表示の状態では、物体有無の検出は“有”と検出されている。すなわち音声情報の取得を停止している状態、つまりユーザが意図的に携帯端末１０１０の近接検知部２１０８を覆うなどの動作をしている状態である。第１の背景表示の状態では、第２の背景表示の状態で表示される背景画像とは異なる背景画像が表示される。

また、第１の背景表示の状態で表示される背景画像は、第２の背景表示の状態で表示される背景画像と異なる画像であれば、どのようなものであってもよい。

本変形例によれば、ユーザが近接検知部２１０８を手で覆うなどの動作を行った後に、携帯端末１０１０の背景の表示が変わるので、ユーザは現在音声認識を停止している状態であることを容易に把握することが出来る。特に当該状態では、ユーザは近接検知部２１０８を覆うつもりで携帯端末１０１０に手をかざすが、必然的に表示部２１０５の表示領域のうち多くの領域が手などで覆われている状態となる。よって画面の中央など一部に「現在音声取得を停止中である」などの文字メッセージを表示してもユーザは当該文字メッセージを把握できない。よって、本変形例のように画面全体の背景表示を変化させることで、画面の手で覆われていない一部の領域も表示が変化するので、ユーザが状態を視認することが可能である。

なお、ステップＳ２００６の状態では画面がユーザの手で覆われている可能性があるので、第２の背景表示は第１の背景表示よりもユーザの注意を引く表示であることが望ましい。ここで注意を引く表示とは、よりユーザの注意を引く色（赤や黄）であることや、図のようにテクスチャ画像やライン画像などを表示してもよい。また、第２の背景表示に関して第１の背景表示よりも輝度を上げるように表示制御をしてもよい。また第１の背景表示を「何も表示しない」という制御にしてもよい。これによって、より第２の背景表示に変わったときの変化が大きく、ユーザは音声取得の状態変化を把握しやすい。

また上述で説明したこととは逆に、第２の背景表示を第１の背景表示よりも目立たない表示や、輝度の低い表示にしてもよい。これによれば、例えば画面を手で覆った際に表示が暗くなるので、システムが運転していない（音声取得を停止している）ことをユーザに連想させることになる。よってよりユーザの感覚により近いユーザーインタフェースを提供できる。

なお、本変形例において、ステップＳ１７０３やステップＳ１７０４を、図１８のステップＳ１８０３や、ステップＳ１８０４に置き換えてもよい。またステップＳ１８０３にて音声情報送信停止信号を出力した場合でも、記録部２１０３などに取得した音声を記録しておいて、実施の形態１の図９Ａ〜図９Ｃのような表示をしてもよい。

［実施の形態２の第４の変形例における制御・処理部２１０２の処理］
図２２を用いて以下に説明する。なお本変形例では、携帯端末１０１０は傾き検知部２１０９を備えている。また制御・処理部２１０２は端末角度取得手段１２０５を備えている。

ステップＳ２２０１にて、携帯端末１０１０の傾き検知部２１０９は携帯端末の角度を検知する。ここで携帯端末の角度とは、携帯端末１０１０の表示画面を含む面の水平面に対する角度である。水平面とは、例えば床または地面と平行な面である。例えば表示部２１０５の表示画面を含む面が水平面と平行である状態では検知される角度は、０度となる。

ステップＳ２２０２にて、制御・処理部２１０２の端末角度取得手段１２０５はステップＳ１２０４にて取得した携帯端末１０１０の角度が略水平であるか否かを検知する。ここで略水平とは、例えば−１０度〜＋１０度の範囲に携帯端末１０１０の角度が納まっている状態などである。すなわち机の上などに端末が置かれている状態は、水平状態となる。

ステップＳ２２０２にて、携帯端末１０１０の角度が略水平であると検知された場合は、ステップＳ１７０４に進み、音声取得開始信号が出力される。このステップＳ１７０４の処理は上記で説明した処理と同様なので説明を省略する。

ステップＳ２２０２にて、携帯端末１０１０の角度が略水平でないと検知された場合は、ステップＳ１７０３に進み、音声取得停止信号が出力される。このステップＳ１７０３の処理は上記で説明した処理と同様なので説明を省略する。

本変形例では、会議などで携帯端末１０１０を机の上に置いている状態では、略水平と検知されるので、音声取得が行われる。

一方、ユーザが携帯端末１０１０を持ち上げるなどして携帯端末１０１０の角度が略水平と検知されなくなった際には音声取得が停止される。これによって、ユーザは簡単に音声認識の取得の停止を指示することができ、またその他上記本実施の形態で説明した効果と同様の効果が得られる。

なお本実施の形態において、ステップＳ２２０２にて携帯端末１０１０の角度が略水平と検知されたときにステップＳ１７０３に進み音声取得停止信号を出力するように制御し、端末角度が略水平でないと検知されたときにステップＳ１７０４に進み音声取得開始信号を出力するように制御してもよい。これにより、より必要な発話に絞って議事録を残すことができる。

［実施の形態２の第５の変形例における制御・処理部２１０２の処理］
図２３を用いて以下に説明する。なお本変形例では、携帯端末１０１０は傾き検知部２１０９を備えている。また制御・処理部２１０２は端末角度取得手段１２０５を備えている。

ステップＳ２２０１およびステップＳ２２０２の処理は図２２にて説明した処理と同様であるので説明を省略する。

ステップＳ２２０２にて端末角度が略水平と判断された場合、ステップＳ２２０３にて操作部２１０６ａにて操作受け付けを停止する。たとえば操作部２１０６ａはタッチパネル式の操作部であり、ここではユーザからのタッチ操作があっても動作しないように制御する。

ステップＳ２２０２にて端末角度が略水平でないと判断された場合、操作部２１０６ａによる操作受け付けを再開する。すなわちユーザからのタッチ操作を検知して動作する状態になる。なお、ステップＳ２２０２にて音声取得を開始してもよい。

ステップＳ２３０３のあとに、ステップＳ１７０１からステップＳ１７０４に進むが、当該処理は図１７にて説明した処理と同様であるので説明を省略する。

以上本変形例では、携帯端末１０１０が水平状態である場合に操作部２１０６ａ（タッチパネル）からの操作を受け付けないような制御を行う。これによりユーザがステップＳ１７０１にて携帯端末１０１０を手で覆うような動作をした際にタッチパネルに触れてしまった場合でもユーザの意図しない誤入力が行われることがない。また、タッチパネル操作を再開したい場合にはユーザが携帯端末１０１０を持ち上げ端末角度を変えることで再度タッチ操作を行うことができる。

以上本実施の形態および、本実施の形態の変形例では、議事録として残したい発話とそうでない発話に関する指示を、ユーザが簡易に行うことが出来るユーザインターフェースを説明した。そのトリガ（入力）として、携帯端末１０１０が物体の近接を検知したことや、携帯端末１０１０の角度の変化を用いる例をあげた。またそのトリガによる出力として、音声取得を停止することや、取得した音声のサーバ装置２２００への送信を停止することや、サーバ装置２２００にて消去文章の特定を行うこと、などの例を説明した。しかし、これらの例に限られるものではない。例えばトリガの別の例としては、表示部２１０５をタッチすること（操作部２１０６ａが接触を検知していること）などが考えられる。また、出力の例としては、音声認識を停止（開始）することや、音声だけでなく画像（動画）の取得を開始する、などが考えられる。

なお、実施の形態１の図９Ａ〜図９Ｃにて、作成した議事録の表示例を説明したが、これに限られない。例えば図２４Ａ、図２４Ｂのように表示してもよい。図２４Ａ、図２４Ｂは、携帯端末に表示される表示内容の一例を示す図である。

図２４Ａ、図２４Ｂに示す表示例では各会議参加者の発話が時間順に重なって表示されている。ここでは各参加者の会議における位置関係と表示位置が同期している。各参加者の位置関係に関してはユーザが予め入力しておく。または各参加者の携帯端末１０１０が取得した音声情報を基に、各参加者の位置関係を推定し、位置関係を表示位置に反映させてもよい。

また図２４Ａ、図２４Ｂのように各発話が重なって表示されなくてもよいが、各発話の時間関係が分かるように表示されていることが望ましい。例えば、時間的に後の発話をより明るく表示して、時間的に前の発話を暗く表示するなどの表示方法でもよい。また議事録を閲覧する際に、操作部２１０６ａ上のタッチパネルにてピンチアウトやピンチインの操作をすることで、表示したい時刻を変更できてもよい。ピンチインとはタッチパネル上の２点をタッチした状態から、当該２点の距離を縮める操作をすることに該当する。ピンチインの操作をした際には、時間的により後の発話が順次表示されていくことが望ましい。すなわち図２４Ａから図２４Ｂの状態に推移させるためにはピンチインを行えばよい。ピンチアウトとはタッチパネル上の２点をタッチした状態から、当該２点の距離を広げる操作をすることに該当する。ピンチアウトの操作をした際には、時間的により前の発話が順次表示されていくことが望ましい。すなわち図２４Ｂから図２４Ａの状態に推移させるためにはピンチアウトを行えばよい。また同様の動作を上下もしくは左右のフリックを行うことで操作可能であってもよい。フリックとは１点をタッチした状態から異なる位置までタッチしている位置をずらす操作のことである。

なお、制御・処理部２１０２（制御・処理部２２０２）にて取得した音声の大きさ（音圧レベルの大きさ）を検出して、検出した大きさに基づいて表示する文字の大きさを変更して表示するようにしてもよい。これにより、大きく発話した文章はより大きく表示されるので、後に議事録を見返す際に会議においてより重要な発話を感覚的に特定しやすい。

また、取得した音声の大きさ（音圧レベルの大きさ）を検出して、検出した大きさに基づいて表示する色を変化させてもよい。例えば閾値以上大きなレベルを検出した発話に対しては、赤色で表示するなどである。これによってもより重要な発話を特定しやすい。また閾値以下の発話を青色で表示するなどの例も考えられる。このように色わけをして表示することで、発話者の感情を議事録に投影することが出来る。

（その他の変形例）
（１）
本開示の表示方法は、取得した音声情報をテキスト化するシステムにおいて、当該テキスト化した文章を表示装置に表示する方法であって、
前記テキスト化した文章内の特定単語を抽出し、
抽出した前記特定単語に基づいて、前記テキスト化した文章のうち表示消去する文字列の候補となる表示消去候補文字列を特定し、
前記テキスト化した文章のうち、前記表示消去候補文字列と、それ以外の文字列とを異なる表示形態で表示する。

（２）
また、表示方法において、前記表示消去候補文字列の特定は、
前記システムが保持する前記特定単語と表示消去する文字列との前後関係を管理するテーブルを参照することで、抽出した前記特定単語に応じて前記特定単語の直前の文字列もしくは直後の文字列を、前記表示消去候補文字列として特定してもよい。

（３）
また、表示方法において、前記表示消去候補文字列が表示されている際には、前記表示装置を前記表示消去候補文字列の表示を消去するコマンドを受け付ける表示状態に制御するのでもよい。

（４）
また、表示方法において、前記表示を消去するコマンドを受け付ける表示状態とは、前記表示装置のうち前記テキスト化された文章が表示されている領域以外の領域に前記表示消去候補文字列を表示消去するためのボタンを表示している状態であってもよい。

（５）
また、表示方法において、前記表示を消去するコマンドを受け付ける表示状態とは、前記表示装置のうち前記表示消去候補文字列の周辺表示領域をユーザが指定することで前記表示消去候補文字列を消去可能な状態であってもよい。

（６）
また、表示方法において、前記前記表示消去候補文字列の表示における輝度値は、それ以外の文字列の表示よりも輝度値が低いとしてもよい。

（７）
本開示の端末装置は、物体の近接を検知する近接検知部と、
音声情報を取得する音声取得部と、
少なくとも前記音声取得部とを制御する制御・処理部と、
を備え、
前記制御部は、所定のシステムを起動させている際には、前記近接検知部が物体の近接を検知している間のみ音声の取得をしないように前記音声取得部を制御する。

（８）
また、前記所定のシステムとは、前記音声情報をテキスト化するシステムであってもよい。

（９）
本開示の端末装置は、
物体の近接を検知する近接検知部と、
音声情報を取得する音声取得部と、
前記音声取得部が取得した音声情報を外部の装置に送信する通信部と、
少なくとも前記通信部を制御する制御・処理部と、
を備え、
前記制御部は、所定のシステムを起動させている際には、前記近接検知部が物体の近接を検知している間のみ前記通信部が、外部の装置に取得した音声を送らないように制御する。

（１０）
また、前記所定のシステムとは、前記音声情報をテキスト化するシステムであってもよい。

（１１）
本開示の端末装置は、
物体の近接を検知する近接検知部と、
音声情報を取得する音声取得部と、
音声情報をテキスト化する外部の装置に前記音声取得部が取得した音声情報を送信する通信部と、
少なくとも前記通信部を制御する制御・処理部と、
を備え、
前記制御部は、所定のシステムを起動させている際には、
前記近接検知部が物体の近接を検知している間は前記音声情報と前記近接検知部が近接を検知している旨の情報とを、
前記近接検知部が物体の近接を検知していない間は、前記音声情報のみを、
前記外部の装置に送信するように前記通信部を制御する。

（１２）
また、前記所定のシステムとは、前記音声情報をテキスト化するシステムであってもよい。

本開示は、音声認識テキスト化システムの制御方法、携帯端末の制御方法に利用可能である。

また、本開示の音声認識テキスト化システムの制御方法、携帯端末の制御方法は、遠隔会議システム、遠隔会議装置、議事録作成システム、議事録作成装置、および携帯端末（スマートフォン・タブレット）向けの音声認識アプリケーション、などの産業上の利用可能性がある。

１０１０携帯端末
１２０１物体有無取得手段
１２０２音声取得制御手段
１２０３送信情報制御手段
１２０４表示制御手段
１２０５端末角度取得手段
１４０１物体有無取得手段
１４０３送信情報制御手段
２１００携帯端末
２１０１通信部
２１０２制御・処理部
２１０３記録部
２１０４音声取得部
２１０５表示部
２１０６操作部
２１０６ａ操作部
２１０６ｂ操作部
２１０７音声再生部
２１０８近接検知部
２１０９検知部
２２００サーバ装置
２２０１通信部
２２０２制御・処理部
２２０３記録部
３００１音声情報取得手段
３００２音声認識・テキスト統合手段
３００３特定語検出手段
３００４消去文章特定手段
３００５表示制御手段

Claims

音声情報を取得し、取得した前記音声情報を音声認識することでテキスト化する音声認識テキスト化システムの制御方法であって、
前記テキスト化した文字列に、予め設定された所定の単語が含まれるか否かを判断し、
前記所定の単語が含まれると判断された場合には、前記テキスト化した文字列のうち、前記所定の単語と関連付けられた文字列を、消去候補となる第１の文字列として特定し、
前記第１の文字列を第１の表示形態で、前記第１の文字列以外の文字列である第２の文字列を第２の表示形態で、それぞれ表示端末に表示する制御をし、
前記第１の文字列は、前記テキスト化した文字列のうち、前記所定の単語の前もしくは後ろに位置する文字列であり、
前記所定の単語には、当該所定の単語の前の文字列を消去候補として特定する第１の単語と、当該所定の単語の後の文字列を消去候補として特定する第２の単語と、が含まれ、
前記第１の文字列は、
前記所定の単語が第１の単語である場合、前記所定の単語の前に位置する文字列であり、
前記所定の単語が第２の単語である場合、前記所定の単語の後に位置する文字列である、
音声認識テキスト化システムの制御方法。
前記第１の表示形態は、前記第２の表示形態で表示される第２の文字列の輝度値よりも低い輝度値で前記第１の文字列を表示する表示形態である、
請求項１に記載の音声認識テキスト化システムの制御方法。
前記第１の表示形態は、前記第２の表示形態で表示される第２の文字列の色とは異なる色で前記第１の文字列を表示する表示形態である、
請求項１に記載の音声認識テキスト化システムの制御方法。
前記表示端末における前記第１の文字列の表示領域を、選択することで前記第１の文字列の表示を削除する、
請求項１に記載の音声認識テキスト化システムの制御方法。