JP2014176033A

JP2014176033A - 通信システム、通信方法およびプログラム

Info

Publication number: JP2014176033A
Application number: JP2013049679A
Authority: JP
Inventors: Yohei Tsuzuki; 洋平都筑
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2013-03-12
Filing date: 2013-03-12
Publication date: 2014-09-22

Abstract

【課題】議事録をより正確に自動生成することを目的とする。
【解決手段】ネットワークを介して接続された複数の情報処理装置を有する通信システムであって、前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第１の音声変換手段と、前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第２の音声変換手段と、前記第１及び第２の音声変換手段により変換された２つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、を有することを特徴とする通信システムが提供される。
【選択図】図４

Description

本発明は、通信システム、通信方法およびプログラムに関する。

ネットワークに接続された複数拠点間の情報処理装置を用いた遠隔会議が知られている。このような通信会議システムにおいては、自動音声認識により会議の発話内容を自動でテキスト化し記録する発明が提案されている。また、特許文献１には、自動で生成されたテキスト情報を用いて簡単に議事録を作成する発明が提案されている。すなわち、特許文献1には、会議の議事録を簡易に作成する目的で、重要発言など議事録に掲載される発言をインデックス情報として検出し、それを会議進行と同時に議事録ファイルに挿入することにより簡易な議事録を自動的に作成できるテレビ会議システムの構成が開示されている。

自動音声認識は、技術的に１００％正確に音声認識することは困難であり、特別なノイズのない状況で一般的に、テキスト化した情報全体の６０〜９０％程度を正しく認識できる。そのためテキスト化した情報には多くの誤りが含まれる。

そこで、正確な議事録を作成するためにはこのテキストを修正する必要があるが、もともとの誤り率が高いため、テキスト情報を修正する過程で修正ミスが発生し、実際の内容と異なる情報が議事録に記載されてしまう可能性がある。

そこで、特許文献２には、音声認識の確実性を上げるためにユーザ辞書を登録し、よく使う言葉は検出しやすくする発明なども提案されている。

しかしながら、特許文献１、２では、自動音声認識の精度向上、議事録作成の効率化がなされているものの、未だ誤り率が高く、正確に議事録を自動生成するためには更に技術を向上させる必要があった。

上記課題に鑑み、本発明の目的とするところは、議事録をより正確に自動生成することが可能な通信システム、通信方法およびプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、
ネットワークを介して接続された複数の情報処理装置を有する通信システムであって、
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第１の音声変換手段と、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第２の音声変換手段と、
前記第１及び第２の音声変換手段により変換された２つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
を有することを特徴とする通信システムが提供される。

本発明によれば、議事録をより正確に自動生成することができる。

一実施形態に係る通信会議システムの全体構成図。一実施形態に係る情報処理装置の機能構成図。一実施形態に係る音声情報及びテキストデータ例。一実施形態に係る発言記録生成処理を示したフローチャート。一実施形態に係る比較対象に選定された各拠点の発言内容例。一実施形態に係る出力処理例。一実施形態に係る出力処理例。一実施形態の変形例１に係る発言記録生成処理を示したフローチャート。一実施形態の変形例１に係る出力処理例。一実施形態の変形例２に係る発言記録生成処理を示したフローチャート。一実施形態の変形例２に係る出力処理例。一実施形態の変形例３に係る発言記録生成処理を示したフローチャート。一実施形態の変形例４に係る発言記録生成処理を示したフローチャート。一実施形態に係る通信会議サーバの機能構成図。一実施形態に係る情報処理装置のハードウェア構成図。

以下、本発明の好適な実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の構成については、同一の符号を付することにより重複した説明を省く。

＜はじめに＞
ネットワークに接続された複数拠点間の情報処理装置を用いた遠隔会議が知られている。このような通信会議システムでは、以前より、自動音声認識により会議の発話内容を自動でテキスト化し議事録として記録することが行われている。しかし、自動音声認識は、技術的に１００％正確に音声認識することは困難であり、テキスト化した情報に多くの誤りが含まれる。

特に、情報処理装置が配置された拠点によって次のように通信環境が異なる。例えば、
（１）マイクなどの品種・性能・配置などにより音質が変わる。
（２）自拠点の音声は直接マイクから入力されるが、他拠点の音声はサーバ経由でデジタル化されたデータで入力される。そして多くの場合、そのデータは符号化されている。

このような環境の相違により、各拠点の情報処理装置によって音声情報をテキスト化した結果が異なる場合がある。

そこで、以下に説明する本実施形態の通信システムでは、２つ以上の拠点の情報処理装置で音声情報を音声認識によってテキスト情報に変換し、各拠点の情報処理装置で作ったテキストデータ（以下、文字データともいう。）を、発言毎に対応させて、同一発言かどうかを識別する技術を備える。これにより、音声情報をテキストデータに変換する際の変換ミスの箇所を減らすことができる。この結果、精度の高い議事録を作成することができる。

また、議事録を作成する際に、各拠点の情報処理装置で作成した複数のテキストデータを人がマージするのは非常に労力がかかる。そこで、本実施形態のシステムでは、複数のテキストデータを比較して同一発言かどうかを識別し、識別結果に基づき自動で複数のテキストデータを適切にマージできる。このようにして同一発言かどうかを自動で判断することで、より少ない労力で議事録を作成することができる。

さらに、２つ以上の拠点の情報処理装置で音声認識によって音声情報がテキスト情報に変換される。このため、ネットワークの状況によっては、ある拠点間の通信性能が悪化し音声が途切れた場合でも、２つ以上の拠点のいずれかの拠点の情報処理装置で音声認識された音声情報から確実にテキストデータを得ることができる。

以上の機能及び効果を奏する本実施形態の通信システムについて以下に説明する。なお、本実施形態では、通信会議システムを例に挙げて説明するが、本実施形態に係る通信システムは、通信会議システムに限られない。例えば、本実施形態に係る通信システムは、対話型の情報提供システムや対話型の窓口システム等において、２以上の情報処理装置を用いて送信又は受信された音声情報のやり取りをテキストデータとして記録する通信システムとして用いることができる。

［システムの全体構成］
まず、本発明の一実施形態に係る通信会議システムについて、図１を参照しながら説明する。図１は、一実施形態に係る通信会議システムの全体構成図である。本実施形態に係る通信会議システム１は、ＩＰネットワーク網１１０を介して複数の情報処理装置１０ａ、１０ｂ、１０ｃ（以下、総称して情報処理装置１０とも称呼する。）と通信会議サーバ５０とが接続され、音声情報等を送信又は受信するようになっている。本実施形態に係る通信会議システム１は、音声情報のみならず、画像・映像情報にも対応でき、テレビ会議システムとして機能し得る。

情報処理装置１０ａ、１０ｂ、１０ｃは、通信会議用の端末の一例であり、ＰＣ端末、タブレット型端末であってもよい。各拠点に置かれ、ＩＰネットワーク網１１０に接続する機能を備える。図１では、情報処理装置１０ａは拠点Ａに置かれ、情報処理装置１０ｂは拠点Ｂに置かれ、情報処理装置１０ｃは拠点Ｃに置かれている。情報処理装置１０ａ、１０ｂ、１０ｃは、ＩＰネットワーク網１１０を経由して音声のやり取りを行い、遠隔地点同士の通信による会議を成立させる。

情報処理装置１０は、音声変換手段を備えている。通信会議システム１のどこか1箇所にのみ音声変換手段１９があるのではなく、通信会議システム１中に複数の音声変換手段１９がある。つまり、各情報処理装置１０が必ず音声変換手段１９を有している必要はない。通信会議システム１中に複数の音声変換手段１９があればよい。例えば、図１では、情報処理装置１０ａ、１０ｂ、１０ｃがそれぞれ音声変換手段１９を有しているが、これに限らず、例えば、情報処理装置１０ａ、１０ｂがそれぞれ音声変換手段１９を有し、情報処理装置１０ｃは音声変換手段１９を有しない場合も有り得る。ただし、通信会議システム１中に複数の音声変換手段１９が必要なため、例えば、情報処理装置１０ａが音声変換手段１９を有し、情報処理装置１０ｂ、１０ｃは音声変換手段１９を有しない場合は有り得ない。

通信会議サーバ５０は、各拠点に配置された情報処理装置１０ａ、１０ｂ、１０ｃの音声情報を中継する装置である。ビデオ会議システムにおいては、一般に「多地点接続装置」（Multipoint Control Unit、MCU）と呼称される。通信会議サーバ５０は、ソフトウェアで構成されてもハードウェアで構成されてもよい。

なお、本実施形態に係る通信会議システム１では、通信会議サーバ５０を介して各拠点に配置された情報処理装置１０間の通信が行われる。しかし、本実施形態に係る通信会議システム１は、これに限らず、通信会議サーバ５０を介さずに、各拠点の情報処理装置１０同士が直接ＩＰネットワーク網１１０を介して通信してもよい。また、本実施形態では、各種装置はＩＰネットワーク網１１０により接続されているが、その他の手段で接続されてもよい。

［情報処理装置の機能構成］
次に、本実施形態に係る情報処理装置の機能構成について、図２を参照しながら説明する。図２は、本実施形態に係る情報処理装置の機能構成を示した図である。情報処理装置１０は、通信手段１１、データ処理手段１２、音声入力手段１３、入力音声処理手段１４、音声記憶手段１５、出力音声処理手段１６、計時手段１７、音声出力手段１８、音声変換手段１９、音声認識結果記憶手段２０、発言記録生成手段２１、発言記録出力手段２２、判定手段２３及び話者特定手段２４を有する。

通信手段１１は、ＩＰネットワーク網１１０に接続され、他の情報処理装置１０や通信会議サーバ５０と通信する手段である。通信手段１１は、音声情報を含む各種デジタルデータの送受信を行う。具体的には、送受信する情報には、ＩＰネットワーク網１１０に接続するために必要な情報のほかに、以下の情報が送受信される。
・音声情報
・発言記録情報
・時間情報
・装置の設定情報
基本的に自装置から送信される情報は、自拠点の情報処理装置１０で生成された情報であり、送信される情報は、他拠点の情報処理装置１０で生成された情報である場合が多い。また、本実施形態に係る通信会議システム１において、音声情報に対応したテキストデータは会議終了後に１箇所に集める必要があるが、その場合にもこの通信手段１１を使って最終テキストデータが送受信される。

データ処理手段１２は、受け取った情報を処理する手段、または送信する情報を処理する手段である。受信した情報及び送信する情報は取得した情報としてデータ処理手段１２に送信される。一般に音声情報は符号化して送受信することが考えられる。その場合、このデータ処理手段１２で送信情報の符号化（Encode)、受信情報の復号化（Decode)を行う。

音声入力手段１３は、音声を入力する手段である。音声入力手段１３の一例としては、通信会議システム１ではマイクが一般的である。また、音声入力手段１３は、レコーダー等のデータを入力できる端子を備えていてもよい。

入力音声処理手段１４は、音声入力手段１３より入力された音声を処理する手段である。入力音声処理手段１４は、マイクから入力された音声のアナログデータをデジタルデータに変換するＡ／Ｄ（アナログ／デジタル）変換手段、音声の周波数特性を変更・調整するイコライザ、音声の入力データのノイズを除去するノイズ除去手段などから構成される。

音声記憶手段１５は、音声情報を記憶する手段である。ＲＡＭのような揮発性メモリや、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、各種ＦＬＡＳＨメモリ等の不揮発性メモリなどが考えられる。これらは１つでも複数備えてもよい。音声記憶手段１５に記憶される音声情報としては、以下のデータが挙げられる。
・入力音声処理手段１４により処理された入力音声デジタルデータおよびそれを符号化したデータ。
・受信した音声デジタルデータおよびそれを復号化したデータ。

出力音声処理手段１６は、音声のデジタルデータをアナログデータに変換するＤ／Ａ（デジタル／アナログ）変換手段、音声の周波数特性を変更・調整するイコライザ、音声を増幅するアンプなどから構成される。

計時手段１７は、時間を測定する手段であり、例えば、時計、タイマから構成されてもよい。計時手段１７は、他拠点の情報処理装置１０に内蔵された時計と同期させる機能があると望ましい。計時手段１７は、音声情報の送信時刻、音声情報の受信時刻、音声情報の生成時刻を音声情報の発言時刻とみなして計時する。

音声出力手段１８は、音声を出力する手段であり、例えば、各種スピーカやイヤホンから構成されてもよい。

音声変換手段１９は、音声認識技術（人が話す音声をコンピュータで解析しテキストデータ（文字データ）に変換する技術）により、発言内容をテキストデータに変換する手段である。音声変換手段１９により用いられる音声認識技術としては各種方法が知られている。自動音声認識は、技術的に１００％正確に音声認識することは困難であり、特別なノイズのない状況で一般的に、テキスト化した情報全体の６０〜９０％程度を正しく認識できる。そのためテキスト化した情報に多くの誤りが含まれる。そのため文字データ化した情報には多くの誤りが含まれる。ちなみに、同音異義語の多い日本語は音声認識成功率が低いことが知られている。

本実施形態に係る通信会議システム１には、２以上の音声変換手段１９が必要である。例えば、複数の情報処理装置１０のうち一の情報処理装置にて取得した音声情報を文字データに変換する音声変換手段１９を第１の音声変換手段とする。また、複数の情報処理装置１０のうち他の情報処理装置にて取得した音声情報を文字データに変換する音声変換手段１９を第２の音声変換手段とする。その場合、本実施形態に係る通信会議システム１には、少なくとも第１及び第２の音声変換手段の２以上の音声変換手段１９が必要となる。例えば、図１の拠点Ａの情報処理装置１０ａが有する音声変換手段を第１の音声変換手段とし、図１の拠点Ｂの情報処理装置１０ｂが有する音声変換手段を第２の音声変換手段としてもよい。拠点Ｂの情報処理装置１０ｂが有する音声変換手段を第１の音声変換手段とし、拠点Ｃの情報処理装置１０ｃが有する音声変換手段を第２の音声変換手段としてもよい。ただし、本実施形態のシステム構成は一例であり、２以上の音声変換手段を有していればこれに限られないことは言うまでもない。

音声認識結果記憶手段２０は、音声変換手段１９にて音声認識技術を用いて音声情報を文字データ化した情報を記憶する手段である。音声認識結果記憶手段２０は、他拠点の情報処理装置において音声情報を文字データ化した情報も受信して記憶する。なお、音声認識結果記憶手段２０は、音声記憶手段１５と共通でもよい。

発言記録生成手段２１は、例えば次に挙げる情報を利用して発言記録を作成する手段である。
・音声認識結果記憶手段２０に記憶された自拠点の情報処理装置１０のテキストデータ。
・音声認識結果記憶手段２０に記憶された他拠点の情報処理装置１０のテキストデータ。
・計時手段１７により計時された時間情報。
・話者特定手段２４により特定された話者（発言者）情報、発言と発言者を関連付けた情報。

発言記録生成手段２１は、後述する判定手段２３による判定に基づき、情報処理装置１０ａ、１０ｂ、１０ｃのうちの一の情報処理装置及び他の情報処理装置間の通信で行われた発言記録を生成する。

音声認識結果記憶手段２０は、音声データと時間を結びつける手段を備え、自拠点と他拠点の情報処理装置の音声情報を文字化したデータを、時間情報を用いて簡易な発言記録を作成する。音声認識結果記憶手段２０は、自拠点の情報処理装置の音声情報を文字化したデータのみを使用して発言記録を作成してもよい。ここで作成した発言記録データは、発言記録出力手段２２に記録されるか、または通信手段１１より外部装置へ伝送または出力される。

発言記録出力手段２２は、発言記録生成手段２１により作成した発言記録データを出力する手段である。発言記録出力手段２２による出力方法としては様々な方法が考えられる。発言記録出力手段２２は、下記に示す出力方法を少なくとも１つ備えている。
・画像データとして出力（アナログＲＧＢコンポーネント信号等）する。

この場合、発言記録出力手段２２は、プロジェクター、モニタ等に情報を出力する。リアルタイムで発言記録を更新し表示するようにすると、発言記録を確認しながら会議を進行することができる。この場合、発言記録出力手段２２には、発言記録データを画像データに変換する手段が必要である。
・発言記録データをデジタルデータとして出力する。

この場合、具体的には、発言記録出力手段２２は、上記機能を備えた、ＵＳＢ−ＨｏｓｔＩＦ、ＳＤＣａｒｄＩＦ等の各種メモリＩＦ、ＲＳ−２３２ＣＩＦなどの各種ＩＦを備える。

判定手段２３は、２以上の音声変換手段１９（第１及び第２の音声変換手段）により変換された２以上の文字データを比較し、音声情報が同一発言か否かを判定する。

話者特定手段２４は、声紋認証により各音声情報の話者を特定する。

［発言記録生成処理］
次に、本実施形態に係る発言記録生成処理について、図４を参照しながら説明する。図４は、本実施形態に係る発言記録生成処理を示したフローチャートである。図４のフローチャートの説明に、２拠点の情報処理装置間での通信会議で、各拠点の情報処理装置でそれぞれ音声情報をテキストデータに変換した場合の実際のテキストデータの処理例（図３）を用いる。

図３（ａ）は、通信会議で実際に行われた音声情報のやり取りを示している。拠点Ａに佐藤さん、拠点Ｂに鈴木さんと田中さんがいて、計３名で２拠点の情報処理装置１０ａ、１０ｂを用いて通信会議を行った場合を想定している。ここに示したような会話がされた場合について以下で考える。図３（ａ）は、音声が発せられ順に、拠点３０、発言者３２、発言内容３４の情報が示されている。

図３（ｂ）は拠点Ａの情報処理装置１０ａにてテキスト化したデータの一例を示している。図３（ｂ）の拠点Ａのテキストデータには、発言時刻３６、拠点３０、発言者３２、発言内容３４が含まれている。図３（ａ）のＮｏ．２の田中さんの発言「はい」が拠点Ａの情報処理装置１０ａにおいてテキストデータ化できず、記録されていない。なお、発言時刻は各拠点の情報処理装置１０にて認識した時刻である。

図３（ｃ）は拠点Ｂの情報処理装置１０ｂにてテキスト化したデータの一例を示している。図３（ｃ）の拠点Ａのテキストデータには、発言時刻３６、拠点３０、発言者３２、発言内容３４が含まれている。図３（ａ）のＮｏ．５の佐藤さん発言の「仕様」という言葉を「使用」という言葉に誤認識しているものとする。

以上の前提において、図４のフローチャートと、図５及び図６のテキストデータの状態とを参照しながら本実施形態の発言記録生成処理を説明する。

Ｓ１０１：議事録作成命令が情報処理装置１０に通知される。会議終了時などが適切と考えられるが、タイミングは任意である。また命令の通知方法もどのような方法でもよい。例えば、情報処理装置１０に議事録作成ボタンを備え、そのボタンを押すことで議事録作成命令を情報処理装置１０に通知するような方法が考えられる。

Ｓ１０２：議事録を作成する情報処理装置１０に作成したテキストデータを送信する。議事録作成は、各情報処理装置１０がそれぞれ行ってもよいし、１つまたは複数のあらかじめ定めた情報処理装置１０のみで実施してもよい。議事録作成命令を受けると、情報処理装置１０は、音声情報から生成したテキストデータを議事録作成を行う情報処理装置１０に送信する。議事録作成を行う情報処理装置１０は、各装置から送信されるテキストデータを受信する。なお、議事録作成を行う装置を、情報処理装置１０に替えて通信会議サーバとしてもよい。

Ｓ１０３：各拠点のテキストデータを時系列に並べる（図５参照）。ここでは拠点Ａ及び拠点Ｂ間の通信に４秒かかるものと仮定して考えている。そのためα１１の発言を拠点Ｂで４秒後に認識するため、α１１とβ１２の発言時刻３６が４秒ずれている。つまり、一の情報処理装置１０がα１１の発言を取得するタイミングと、他の情報処理装置１０がβ１２の発言を取得するタイミングとは、同時又は数秒程度離れた近時の時間内であり、２つの発言の取得タイミングは類似（対応）する。この図５のように発言時刻３６の順に各拠点のテキストデータを並べるものとする。

Ｓ１０４：判定手段２３は、比較処理を行う各拠点の発言を選定する。ここではまず図５のα１１とβ１２を比べるものとする。

Ｓ１０５：判定手段２３は、各発言を単語レベルに分解する処理を行う。一例として、α１１とβ１２は次のように分解される。「こちら／拠点／Ａの／佐藤／です。／聞こえますか？」
Ｓ１０６：判定手段２３は、各発言の単語を比較し、一致する単語とその出現順序を記録する。α１１とβ１２の場合はまったく同一となる。

Ｓ１０７：判定手段２３は、一致する単語数が指定した割合以上か判定する。一致する単語数が指定した割合以上の場合には、Ｓ１０８へ進む。一致する単語数が指定した割合より少ない場合には、Ｓ１１１へ進む。なお、ここでいう「指定した割合」は任意に決めてよい。パラメータとして設定できるようにすると、一致と判断するレベルを調整することができる。例えば、全単語数の何割以上が一致、などと設定できる。

Ｓ１０８：判定手段２３は、一致した単語の出現順序が一致するかを判定する。一致する場合には、Ｓ１０９へ進む。一致しない場合には、Ｓ１１１へ進む。

同じ発言であれば出現順序は一致するはずである。逆に出現順序が一致しなければ、一致する単語数が多いとしても同一発言ではないはずである。よって、
Ｓ１０９：一致した単語の出現順序が一致する場合、判定手段２３は、比較対象は「同一発言である」と判定する。

Ｓ１１０：この場合、発言記録生成手段２１は、同一発言として処理を行う。具体的には、図５の例では、α１１とβ１２は同一の発言と判断し、発言記録生成手段２１は、図６のα２１とβ２１のように、拠点Ａのテキストデータ及び拠点Ｂのテキストデータの同一行に記載する処理を行う。

Ｓ１１１：一致した単語の出現順序が一致しない場合、判定手段２３は、比較対象は「同一発言ではない」と判定する。

Ｓ１１２：この場合、同一発言ではないので、発言記録生成手段２１は、図６の例では異なる行に記載する処理を行う。よって、拠点Ｂのβ２２のテキストデータに対応する拠点Ａのテキストデータは存在しない。

Ｓ１１３：判定手段２３は、全ての発言の比較が完了したかを判定する。完了したと判定した場合、Ｓ１１４に進む。完了していないと判定した場合、Ｓ１０４の処理へ戻る。

Ｓ１１４：発言記録出力手段２２は、出力処理を実施し、本処理を終了する。不要な場合は何も実施せず、終了しても構わない。

発言記録出力手段２２による出力処理の例としては、拠点情報が重要な場合には、図６のように各拠点のテキストデータを並べて出力することが挙げられる。または、拠点情報が不要な場合には、図７のように同一発言のテキストデータを重複せずに一つ出力してもよい。

以上のフローにより、テキストデータを正確にかつわかりやすく記録することができる。１００％完全な発言記録の議事録が保証されるわけではないが、生成された発言記録を参照して人為的に議事録を作成する場合に非常に分かりやすくなり、短期間で簡単に正確な議事録を作成することができる。

以上に説明したように、本実施形態に係る通信会議システム１によれば、少なくとも２つ以上の拠点の情報処理装置１０にて音声情報を音声認識によってテキスト情報に変換する。よって、各情報処理装置１０において互いの変換ミスの箇所を補うことができ、より修正ミスが減り、効率よく発言記録を議事録にして作成できる。さらに、同じ発言かどうかを識別する技術を備えることで複数のテキストデータを適切にマージできる。これにより、議事録作成時間を削減することができる。

以下、本実施形態に係る発言記録生成処理の変形例１〜変形例４について、図８〜図１３を参照しながら説明する。
（変形例１）
図８は、本実施形態の変形例１に係る発言記録生成処理を示したフローチャートであり、図９は、本実施形態の変形例１に係る出力処理例である。

変形例１では、上記実施形態の図４のＳ１１０を図８のＳ１１５に変更している点のみ異なる。具体的には、上記実施形態では、判定手段２３により同一発言と判定された場合、一の情報処理装置１０ａ及び他の情報処理装置１０ｂの各拠点Ａ、Ｂの発言記録に同一発言を含ませる（図６）。これに対して、変形例１では、判定手段２３により同一発言と判定された場合、一の情報処理装置１０ａ及び他の情報処理装置１０ｂのいずれか一方の拠点側の発言記録に同一発言を含ませ、いずれか他方の拠点側の発言記録には同一発言を含ませない（図９）。

以上のように、変形例１では、同一と判断された発言があり、拠点間の情報処理装置１０にて識別されたテキストデータの差異がない場合、一つの拠点側のテキストデータを残し、他の拠点側のテキストデータを削除する処理が実行される。これによれば、発言が記録された議事録中の重複テキストデータが削除されるので、発言内容が見やすくなるという効果がある。なお、図９では、拠点Ａ側のテキストデータを残し、拠点Ｂ側のテキストデータを削除したが、これに限らず、拠点Ｂ側のテキストデータを残し、拠点Ａ側のテキストデータを削除してもよい。
（変形例２）
図１０は、本実施形態の変形例２に係る発言記録生成処理を示したフローチャートであり、図１１は、本実施形態の変形例２に係る出力処理例である。

変形例２では、上記変形例１の図８のＳ１１５を図１０のＳ１１６に変更している点のみ異なる。具体的には、変形例１では、判定手段２３により同一発言と判定された場合、一の情報処理装置１０ａ及び他の情報処理装置１０ｂのいずれか一方の拠点の発言記録に同一発言を含ませ、いずれか他方の拠点の発言記録には同一発言を含ませない（図９）。変形例２では、これに加えて、判定手段２３により同一発言と判定された場合であって同一発言中に差異がある場合、同一発言中の差異部分が認識可能なように発言記録を生成する。例えば、図１１では、同一と判断された発言であってテキストデータに一部差異がある場合、その差異部分をマーキングして示している。このようにして、変形例２によれば、拠点間の同一と判断された発言に含まれる差異を見やすくする効果がある。

なお、同一発言中の差異部分を認識可能に表示するためには、差異部分をマーキングする他、差異部分を太字にする、差異部分の色を変える、差異部分をカッコで括る、差異部分を下線で示す等様々な方法を用いることができる。
（変形例３）
図１２は、本実施形態の変形例３に係る発言記録生成処理を示したフローチャートである。変形例３では、変形例２の図１０の全ての処理を含み、更に図１２のＳ１１７のステップが加えられている。具体的には、変形例３では、Ｓ１０４の後ステップのＳ１１７にて、判定手段２３は、選定された各拠点の発言時刻の差分が予め定められた所定時間以上であるかを判定する。各拠点の発言時刻の差分が予め定められた所定時間未満であると判定された場合には、Ｓ１０５以降の処理を実行する。一方、選定された各拠点の発言時刻の差分が予め定められた所定時間以上であると判定された場合には、選定された発言の比較処理を行わずに、Ｓ１０４に戻り、次に比較処理を行う発言を選定する。

以上のように、変形例３では、判定手段２３は、比較対象である各拠点の２以上の文字データの変換前の音声情報の発言時刻の差分が予め定められた閾値（所定時間）を上回る場合、前記２以上の文字データについて音声情報が同一発言か否かの判定を止める。このように比較対象が同じであっても、「発言時刻が大きく異なる場合は比較対象としない」という制御を行う。これにより、全体の処理を減らし、処理時間の短縮を図ることができる。
（変形例４）
図１３は、本実施形態の変形例４に係る発言記録生成処理を示したフローチャートである。変形例４では、変形例２の図１０の全ての処理を含み、更に図１３のＳ１１８のステップが加えられている。具体的には、変形例４では、Ｓ１０４の後ステップのＳ１１８にて、判定手段２３は、選定された各発言の発言者が異なるかを判定する。各拠点の発言者が同一人であると判定された場合には、Ｓ１０５以降の処理を実行する。一方、各拠点の発言者が異なると判定された場合には、選定された発言の比較処理を行わずに、Ｓ１０４に戻り、次に比較処理を行う発言を選定する。

声紋認証の機能を有する情報処理装置１０においては、発言と発言者を関連付けた情報を取得することができる。その場合、判定手段２３は、Ｓ１１８に示したように、まず発言者３２を比較してもよい。例えば、図５のα１１とβ１２はともに発言者がＡ１なので、比較対象とするが、もしこれらの発言者が異なった場合は比較対象とはしない。このように比較対象が同じであっても、比較対象である発言内容の話者が異なる場合、音声情報が同一発言か否かの判定を止める、という制御を行う。これにより、全体の処理を減らし、処理時間の短縮を図ることができる。

以上、上記実施形態及び変形例１〜変形例４によれば、音声認識によって作成したテキストデータに基づきに発言記録（議事録）を作成する際、２以上の情報処理装置にてそれぞれ取得した音声情報から変換された２以上の文字データを比較する。これにより、音声情報の発言を正確に判定することができる。この結果、議事録の自動作成の精度を高め、修正ミスを減らし、効率よく発言の議事録を作成することができ、議事録作成の時間の削減することができる。

なお、上記形態は本発明の範囲を限定するものではなく、通信会議サーバが情報処理装置の判定機能、発言記録生成機能の一部又は全部を備えても良い。また、システムを構成する通信会議サーバや情報処理装置は複数台でも良く、通信会議サーバや情報処理装置のいずれに上記機能を備えさせても良い。なお、この実施形態で説明する情報処理装置と通信会議サーバとが接続されたシステム構成は一例であり、用途や目的に応じて様々なシステム構成例があることは言うまでもない。

システム構成の他の例としては、図２に示した情報処理装置１０の機能構成のうち、音声変換手段１９、音声認識結果記憶手段２０、発言記録生成手段２１、発言記録出力手段２２、判定手段２３及び話者特定手段２４の機能を、情報処理装置１０の替わりにサーバ５０が有するシステム構成でもよい。その場合、図１４に示したように、通信会議サーバ５０は、通信手段５７、データ処理手段５８、計時手段５９の他、音声変換手段５１、音声認識結果記憶手段５２、発言記録生成手段５３、発言記録出力手段５４、判定手段５５及び話者特定手段５６の機能を有する。

音声変換手段５１、音声認識結果記憶手段５２、発言記録生成手段５３、発言記録出力手段５４、判定手段５５及び話者特定手段５６の各機能は、情報処理装置１０の各機能と同様である。例えば、音声変換手段５１は、複数の情報処理装置１０のうち一の情報処理装置にて取得した音声情報を一の文字データに変換する。また、音声変換手段５１は、他の情報処理装置にて取得した音声情報であって、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を他の文字データに変換する。

また、判定手段２３は、音声変換手段１９により変換された前記一の文字データと他の文字データとを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する。

本システム構成例では、通信会議サーバ５０が、上記実施形態及び各変形例の発言記録生成処理を実行する。この場合、図４、図８、図１０、図１２、図１３に示した発言記録生成処理は、通信会議サーバ５０側で実行される。その際、通信会議サーバ５０の音声変換手段５１は、少なくとも２つの拠点の情報処理装置１０にて取得した音声情報を音声認識技術を用いてテキスト情報に変換する。よって、本システム構成例においても、各情報処理装置１０にて取得した音声情報の変換ミスの箇所を補うことができ、これにより、より正確な議事録を作成することができる。なお、通信会議サーバ５０は、複数の情報処理装置１０とネットワークを介して接続されたサーバ機器に相当する。

以上、添付図面を参照しながら本発明の通信システム及び通信方法の好適な実施形態について詳細に説明したが、本発明の通信システム及び通信方法の技術的範囲はかかる例に限定されない。本発明の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の通信システム及び通信方法の技術的範囲に属する。また、上記実施形態及び変形例が複数存在する場合、矛盾しない範囲で組み合わせることができる。

なお、本発明に係る情報処理装置及び通信会議サーバのハードウェア構成例を、図１５を参照しながら簡単に説明する。発明に係る情報処理装置及び通信会議サーバには、ＣＰＵ１０６が内蔵されている。ＣＰＵ１０６により実行される各機能を実現するためのプログラムは、ＲＯＭ１０４、ＲＡＭ１０５、あるいはＨＤＤ１０８等の記憶手段に予め格納されてもよい。前記プログラムは、記録媒体であるＣＤ−ＲＯＭあるいはフレキシブルディスク，ＳＲＡＭ，ＥＥＰＲＯＭ，メモリカード等の不揮発性記録媒体（メモリ）に記録されてもよい。本発明に係る情報処理装置及び通信会議サーバの機能は、これらのメモリに記録されたプログラムをＣＰＵ１０６に実行させることにより実現され得る。さらに、前記プログラムは、通信回路１０３の機能を用いてＩＰネットワーク網１１０に接続され、プログラムを記録した記録媒体を備える外部機器あるいはプログラムを記憶手段に記憶した外部機器からダウンロードすることもできる。キーボード１０１は、入力装置の一例であり、各装置に各操作信号を入力するのに用いられる。キーボード１０１の替わりにマウスやタッチパネルを用いることもできる。ディスプレイ１０２は、表示装置の一例であり、各装置による処理結果を表示する。

以上のように、本実施形態に係る情報処理装置及び通信会議サーバは、上記ハードウェア構成により、上述した各種機能を実現することができる。

１：通信会議システム、１０ａ，１０ｂ，１０ｃ、１０：情報処理装置、１１：通信手段、１２：データ処理手段、１３：音声入力手段、１４：入力音声処理手段、１５：音声記憶手段、１６：出力音声処理手段、１７：計時手段、１８：音声出力手段、１９：音声変換手段、２０：音声認識結果記憶手段、２１：発言記録生成手段、２２：発言記録出力手段、２３：判定手段、２４：話者特定手段、５０：通信会議サーバ、１１０：ＩＰネットワーク網

特開２００５−３４１０１５号公報特開２０１１−０６５３２２号公報

Claims

ネットワークを介して接続された複数の情報処理装置を有する通信システムであって、
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第１の音声変換手段と、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第２の音声変換手段と、
前記第１及び第２の音声変換手段により変換された２つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
を有することを特徴とする通信システム。
前記判定手段による判定に基づき、前記一の情報処理装置及び前記他の情報処理装置間の通信で行われた発言記録を生成する発言記録生成手段を更に有することを特徴とする請求項１に記載の通信システム。
前記発言記録生成手段は、前記判定手段により同一発言と判定された場合、前記一の情報処理装置及び前記他の情報処理装置の各拠点の前記発言記録に該同一発言を含ませることを特徴とする請求項２に記載の通信システム。
前記発言記録生成手段は、前記判定手段により同一発言と判定された場合、前記一の情報処理装置及び前記他の情報処理装置のいずれか一方の拠点の前記発言記録に該同一発言を含ませ、いずれか他方の拠点の前記発言記録には該同一発言を含ませないことを特徴とする請求項２に記載の通信システム。
前記発言記録生成手段は、前記判定手段により同一発言と判定された場合であって該同一発言中に差異がある場合、該同一発言中の差異部分が認識可能なように前記発言記録を生成することを特徴とする請求項３又は４に記載の通信システム。
前記音声情報の発言時刻を計時する計時手段を更に有し、
前記判定手段は、比較対象である前記２以上の文字データの変換前の前記音声情報の発言時刻の差分が予め定められた閾値を上回る場合、前記２以上の文字データについて前記音声情報が同一発言か否かの判定を止めることを特徴とする請求項１〜５のいずれか一項に記載の通信システム。
前記音声情報の話者を特定する話者特定手段を更に有し、
前記判定手段は、比較対象である前記２以上の文字データの変換前の前記音声情報の話者が異なる場合、前記２以上の文字データについて前記音声情報が同一発言か否かの判定を止めることを特徴とする請求項１〜６のいずれか一項に記載の通信システム。
ネットワークを介して接続された複数の情報処理装置とサーバ機器とを有する通信システムであって、
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を一の文字データに変換し、該複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を他の文字データに変換する音声変換手段と、
前記音声変換手段により変換された一の文字データと他の文字データとを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
を有することを特徴とする通信システム。
前記判定手段は、
前記一の情報処理装置及び前記他の情報処理装置にて取得した音声情報のそれぞれを１又は複数の単語に分解し、単語毎に比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定することを特徴とする請求項１〜８のいずれか一項に記載の通信システム。
ネットワークを介して接続された複数の情報処理装置同士によって行われる通信方法であって、
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第１の音声変換ステップと、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第２の音声変換ステップと、
前記第１及び第２の音声変換ステップにて変換された２つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定ステップと、
を有することを特徴とする通信方法。
ネットワークを介して接続された複数の情報処理装置を有する通信システムの機能を実行するためのプログラムであって、
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第１の音声変換処理と、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第２の音声変換処理と、
前記第１及び第２の音声変換処理にて変換された２つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定処理と、
をコンピュータにより実行するためのプログラム。