JP2014176033A - 通信システム、通信方法およびプログラム - Google Patents

通信システム、通信方法およびプログラム Download PDF

Info

Publication number
JP2014176033A
JP2014176033A JP2013049679A JP2013049679A JP2014176033A JP 2014176033 A JP2014176033 A JP 2014176033A JP 2013049679 A JP2013049679 A JP 2013049679A JP 2013049679 A JP2013049679 A JP 2013049679A JP 2014176033 A JP2014176033 A JP 2014176033A
Authority
JP
Japan
Prior art keywords
information processing
voice
processing apparatus
information
character data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013049679A
Other languages
English (en)
Inventor
Yohei Tsuzuki
洋平 都筑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2013049679A priority Critical patent/JP2014176033A/ja
Publication of JP2014176033A publication Critical patent/JP2014176033A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】議事録をより正確に自動生成することを目的とする。
【解決手段】ネットワークを介して接続された複数の情報処理装置を有する通信システムであって、前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換手段と、前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換手段と、前記第1及び第2の音声変換手段により変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、を有することを特徴とする通信システムが提供される。
【選択図】図4

Description

本発明は、通信システム、通信方法およびプログラムに関する。
ネットワークに接続された複数拠点間の情報処理装置を用いた遠隔会議が知られている。このような通信会議システムにおいては、自動音声認識により会議の発話内容を自動でテキスト化し記録する発明が提案されている。また、特許文献1には、自動で生成されたテキスト情報を用いて簡単に議事録を作成する発明が提案されている。すなわち、特許文献1には、会議の議事録を簡易に作成する目的で、重要発言など議事録に掲載される発言をインデックス情報として検出し、それを会議進行と同時に議事録ファイルに挿入することにより簡易な議事録を自動的に作成できるテレビ会議システムの構成が開示されている。
自動音声認識は、技術的に100%正確に音声認識することは困難であり、特別なノイズのない状況で一般的に、テキスト化した情報全体の60〜90%程度を正しく認識できる。そのためテキスト化した情報には多くの誤りが含まれる。
そこで、正確な議事録を作成するためにはこのテキストを修正する必要があるが、もともとの誤り率が高いため、テキスト情報を修正する過程で修正ミスが発生し、実際の内容と異なる情報が議事録に記載されてしまう可能性がある。
そこで、特許文献2には、音声認識の確実性を上げるためにユーザ辞書を登録し、よく使う言葉は検出しやすくする発明なども提案されている。
しかしながら、特許文献1、2では、自動音声認識の精度向上、議事録作成の効率化がなされているものの、未だ誤り率が高く、正確に議事録を自動生成するためには更に技術を向上させる必要があった。
上記課題に鑑み、本発明の目的とするところは、議事録をより正確に自動生成することが可能な通信システム、通信方法およびプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、
ネットワークを介して接続された複数の情報処理装置を有する通信システムであって、
前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換手段と、
前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換手段と、
前記第1及び第2の音声変換手段により変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
を有することを特徴とする通信システムが提供される。
本発明によれば、議事録をより正確に自動生成することができる。
一実施形態に係る通信会議システムの全体構成図。 一実施形態に係る情報処理装置の機能構成図。 一実施形態に係る音声情報及びテキストデータ例。 一実施形態に係る発言記録生成処理を示したフローチャート。 一実施形態に係る比較対象に選定された各拠点の発言内容例。 一実施形態に係る出力処理例。 一実施形態に係る出力処理例。 一実施形態の変形例1に係る発言記録生成処理を示したフローチャート。 一実施形態の変形例1に係る出力処理例。 一実施形態の変形例2に係る発言記録生成処理を示したフローチャート。 一実施形態の変形例2に係る出力処理例。 一実施形態の変形例3に係る発言記録生成処理を示したフローチャート。 一実施形態の変形例4に係る発言記録生成処理を示したフローチャート。 一実施形態に係る通信会議サーバの機能構成図。 一実施形態に係る情報処理装置のハードウェア構成図。
以下、本発明の好適な実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の構成については、同一の符号を付することにより重複した説明を省く。
<はじめに>
ネットワークに接続された複数拠点間の情報処理装置を用いた遠隔会議が知られている。このような通信会議システムでは、以前より、自動音声認識により会議の発話内容を自動でテキスト化し議事録として記録することが行われている。しかし、自動音声認識は、技術的に100%正確に音声認識することは困難であり、テキスト化した情報に多くの誤りが含まれる。
特に、情報処理装置が配置された拠点によって次のように通信環境が異なる。例えば、
(1)マイクなどの品種・性能・配置などにより音質が変わる。
(2)自拠点の音声は直接マイクから入力されるが、他拠点の音声はサーバ経由でデジタル化されたデータで入力される。そして多くの場合、そのデータは符号化されている。
このような環境の相違により、各拠点の情報処理装置によって音声情報をテキスト化した結果が異なる場合がある。
そこで、以下に説明する本実施形態の通信システムでは、2つ以上の拠点の情報処理装置で音声情報を音声認識によってテキスト情報に変換し、各拠点の情報処理装置で作ったテキストデータ(以下、文字データともいう。)を、発言毎に対応させて、同一発言かどうかを識別する技術を備える。これにより、音声情報をテキストデータに変換する際の変換ミスの箇所を減らすことができる。この結果、精度の高い議事録を作成することができる。
また、議事録を作成する際に、各拠点の情報処理装置で作成した複数のテキストデータを人がマージするのは非常に労力がかかる。そこで、本実施形態のシステムでは、複数のテキストデータを比較して同一発言かどうかを識別し、識別結果に基づき自動で複数のテキストデータを適切にマージできる。このようにして同一発言かどうかを自動で判断することで、より少ない労力で議事録を作成することができる。
さらに、2つ以上の拠点の情報処理装置で音声認識によって音声情報がテキスト情報に変換される。このため、ネットワークの状況によっては、ある拠点間の通信性能が悪化し音声が途切れた場合でも、2つ以上の拠点のいずれかの拠点の情報処理装置で音声認識された音声情報から確実にテキストデータを得ることができる。
以上の機能及び効果を奏する本実施形態の通信システムについて以下に説明する。なお、本実施形態では、通信会議システムを例に挙げて説明するが、本実施形態に係る通信システムは、通信会議システムに限られない。例えば、本実施形態に係る通信システムは、対話型の情報提供システムや対話型の窓口システム等において、2以上の情報処理装置を用いて送信又は受信された音声情報のやり取りをテキストデータとして記録する通信システムとして用いることができる。
[システムの全体構成]
まず、本発明の一実施形態に係る通信会議システムについて、図1を参照しながら説明する。図1は、一実施形態に係る通信会議システムの全体構成図である。本実施形態に係る通信会議システム1は、IPネットワーク網110を介して複数の情報処理装置10a、10b、10c(以下、総称して情報処理装置10とも称呼する。)と通信会議サーバ50とが接続され、音声情報等を送信又は受信するようになっている。本実施形態に係る通信会議システム1は、音声情報のみならず、画像・映像情報にも対応でき、テレビ会議システムとして機能し得る。
情報処理装置10a、10b、10cは、通信会議用の端末の一例であり、PC端末、タブレット型端末であってもよい。各拠点に置かれ、IPネットワーク網110に接続する機能を備える。図1では、情報処理装置10aは拠点Aに置かれ、情報処理装置10bは拠点Bに置かれ、情報処理装置10cは拠点Cに置かれている。情報処理装置10a、10b、10cは、IPネットワーク網110を経由して音声のやり取りを行い、遠隔地点同士の通信による会議を成立させる。
情報処理装置10は、音声変換手段を備えている。通信会議システム1のどこか1箇所にのみ音声変換手段19があるのではなく、通信会議システム1中に複数の音声変換手段19がある。つまり、各情報処理装置10が必ず音声変換手段19を有している必要はない。通信会議システム1中に複数の音声変換手段19があればよい。例えば、図1では、情報処理装置10a、10b、10cがそれぞれ音声変換手段19を有しているが、これに限らず、例えば、情報処理装置10a、10bがそれぞれ音声変換手段19を有し、情報処理装置10cは音声変換手段19を有しない場合も有り得る。ただし、通信会議システム1中に複数の音声変換手段19が必要なため、例えば、情報処理装置10aが音声変換手段19を有し、情報処理装置10b、10cは音声変換手段19を有しない場合は有り得ない。
通信会議サーバ50は、各拠点に配置された情報処理装置10a、10b、10cの音声情報を中継する装置である。ビデオ会議システムにおいては、一般に「多地点接続装置」(Multipoint Control Unit、MCU)と呼称される。通信会議サーバ50は、ソフトウェアで構成されてもハードウェアで構成されてもよい。
なお、本実施形態に係る通信会議システム1では、通信会議サーバ50を介して各拠点に配置された情報処理装置10間の通信が行われる。しかし、本実施形態に係る通信会議システム1は、これに限らず、通信会議サーバ50を介さずに、各拠点の情報処理装置10同士が直接IPネットワーク網110を介して通信してもよい。また、本実施形態では、各種装置はIPネットワーク網110により接続されているが、その他の手段で接続されてもよい。
[情報処理装置の機能構成]
次に、本実施形態に係る情報処理装置の機能構成について、図2を参照しながら説明する。図2は、本実施形態に係る情報処理装置の機能構成を示した図である。情報処理装置10は、通信手段11、データ処理手段12、音声入力手段13、入力音声処理手段14、音声記憶手段15、出力音声処理手段16、計時手段17、音声出力手段18、音声変換手段19、音声認識結果記憶手段20、発言記録生成手段21、発言記録出力手段22、判定手段23及び話者特定手段24を有する。
通信手段11は、IPネットワーク網110に接続され、他の情報処理装置10や通信会議サーバ50と通信する手段である。通信手段11は、音声情報を含む各種デジタルデータの送受信を行う。具体的には、送受信する情報には、IPネットワーク網110に接続するために必要な情報のほかに、以下の情報が送受信される。
・音声情報
・発言記録情報
・時間情報
・装置の設定情報
基本的に自装置から送信される情報は、自拠点の情報処理装置10で生成された情報であり、送信される情報は、他拠点の情報処理装置10で生成された情報である場合が多い。また、本実施形態に係る通信会議システム1において、音声情報に対応したテキストデータは会議終了後に1箇所に集める必要があるが、その場合にもこの通信手段11を使って最終テキストデータが送受信される。
データ処理手段12は、受け取った情報を処理する手段、または送信する情報を処理する手段である。受信した情報及び送信する情報は取得した情報としてデータ処理手段12に送信される。一般に音声情報は符号化して送受信することが考えられる。その場合、このデータ処理手段12で送信情報の符号化(Encode)、受信情報の復号化(Decode)を行う。
音声入力手段13は、音声を入力する手段である。音声入力手段13の一例としては、通信会議システム1ではマイクが一般的である。また、音声入力手段13は、レコーダー等のデータを入力できる端子を備えていてもよい。
入力音声処理手段14は、音声入力手段13より入力された音声を処理する手段である。入力音声処理手段14は、マイクから入力された音声のアナログデータをデジタルデータに変換するA/D(アナログ/デジタル)変換手段、音声の周波数特性を変更・調整するイコライザ、音声の入力データのノイズを除去するノイズ除去手段などから構成される。
音声記憶手段15は、音声情報を記憶する手段である。RAMのような揮発性メモリや、HDD(Hard Disk Drive)、各種FLASHメモリ等の不揮発性メモリなどが考えられる。これらは1つでも複数備えてもよい。音声記憶手段15に記憶される音声情報としては、以下のデータが挙げられる。
・入力音声処理手段14により処理された入力音声デジタルデータおよびそれを符号化したデータ。
・受信した音声デジタルデータおよびそれを復号化したデータ。
出力音声処理手段16は、音声のデジタルデータをアナログデータに変換するD/A(デジタル/アナログ)変換手段、音声の周波数特性を変更・調整するイコライザ、音声を増幅するアンプなどから構成される。
計時手段17は、時間を測定する手段であり、例えば、時計、タイマから構成されてもよい。計時手段17は、他拠点の情報処理装置10に内蔵された時計と同期させる機能があると望ましい。計時手段17は、音声情報の送信時刻、音声情報の受信時刻、音声情報の生成時刻を音声情報の発言時刻とみなして計時する。
音声出力手段18は、音声を出力する手段であり、例えば、各種スピーカやイヤホンから構成されてもよい。
音声変換手段19は、音声認識技術(人が話す音声をコンピュータで解析しテキストデータ(文字データ)に変換する技術)により、発言内容をテキストデータに変換する手段である。音声変換手段19により用いられる音声認識技術としては各種方法が知られている。自動音声認識は、技術的に100%正確に音声認識することは困難であり、特別なノイズのない状況で一般的に、テキスト化した情報全体の60〜90%程度を正しく認識できる。そのためテキスト化した情報に多くの誤りが含まれる。そのため文字データ化した情報には多くの誤りが含まれる。ちなみに、同音異義語の多い日本語は音声認識成功率が低いことが知られている。
本実施形態に係る通信会議システム1には、2以上の音声変換手段19が必要である。例えば、複数の情報処理装置10のうち一の情報処理装置にて取得した音声情報を文字データに変換する音声変換手段19を第1の音声変換手段とする。また、複数の情報処理装置10のうち他の情報処理装置にて取得した音声情報を文字データに変換する音声変換手段19を第2の音声変換手段とする。その場合、本実施形態に係る通信会議システム1には、少なくとも第1及び第2の音声変換手段の2以上の音声変換手段19が必要となる。例えば、図1の拠点Aの情報処理装置10aが有する音声変換手段を第1の音声変換手段とし、図1の拠点Bの情報処理装置10bが有する音声変換手段を第2の音声変換手段としてもよい。拠点Bの情報処理装置10bが有する音声変換手段を第1の音声変換手段とし、拠点Cの情報処理装置10cが有する音声変換手段を第2の音声変換手段としてもよい。ただし、本実施形態のシステム構成は一例であり、2以上の音声変換手段を有していればこれに限られないことは言うまでもない。
音声認識結果記憶手段20は、音声変換手段19にて音声認識技術を用いて音声情報を文字データ化した情報を記憶する手段である。音声認識結果記憶手段20は、他拠点の情報処理装置において音声情報を文字データ化した情報も受信して記憶する。なお、音声認識結果記憶手段20は、音声記憶手段15と共通でもよい。
発言記録生成手段21は、例えば次に挙げる情報を利用して発言記録を作成する手段である。
・音声認識結果記憶手段20に記憶された自拠点の情報処理装置10のテキストデータ。
・音声認識結果記憶手段20に記憶された他拠点の情報処理装置10のテキストデータ。
・計時手段17により計時された時間情報。
・話者特定手段24により特定された話者(発言者)情報、発言と発言者を関連付けた情報。
発言記録生成手段21は、後述する判定手段23による判定に基づき、情報処理装置10a、10b、10cのうちの一の情報処理装置及び他の情報処理装置間の通信で行われた発言記録を生成する。
音声認識結果記憶手段20は、音声データと時間を結びつける手段を備え、自拠点と他拠点の情報処理装置の音声情報を文字化したデータを、時間情報を用いて簡易な発言記録を作成する。音声認識結果記憶手段20は、自拠点の情報処理装置の音声情報を文字化したデータのみを使用して発言記録を作成してもよい。ここで作成した発言記録データは、発言記録出力手段22に記録されるか、または通信手段11より外部装置へ伝送または出力される。
発言記録出力手段22は、発言記録生成手段21により作成した発言記録データを出力する手段である。発言記録出力手段22による出力方法としては様々な方法が考えられる。発言記録出力手段22は、下記に示す出力方法を少なくとも1つ備えている。
・画像データとして出力(アナログRGBコンポーネント信号等)する。
この場合、発言記録出力手段22は、プロジェクター、モニタ等に情報を出力する。リアルタイムで発言記録を更新し表示するようにすると、発言記録を確認しながら会議を進行することができる。この場合、発言記録出力手段22には、発言記録データを画像データに変換する手段が必要である。
・発言記録データをデジタルデータとして出力する。
この場合、具体的には、発言記録出力手段22は、上記機能を備えた、USB−Host IF、SD Card IF等の各種メモリIF、RS−232C IFなどの各種IFを備える。
判定手段23は、2以上の音声変換手段19(第1及び第2の音声変換手段)により変換された2以上の文字データを比較し、音声情報が同一発言か否かを判定する。
話者特定手段24は、声紋認証により各音声情報の話者を特定する。
[発言記録生成処理]
次に、本実施形態に係る発言記録生成処理について、図4を参照しながら説明する。図4は、本実施形態に係る発言記録生成処理を示したフローチャートである。図4のフローチャートの説明に、2拠点の情報処理装置間での通信会議で、各拠点の情報処理装置でそれぞれ音声情報をテキストデータに変換した場合の実際のテキストデータの処理例(図3)を用いる。
図3(a)は、通信会議で実際に行われた音声情報のやり取りを示している。拠点Aに佐藤さん、拠点Bに鈴木さんと田中さんがいて、計3名で2拠点の情報処理装置10a、10bを用いて通信会議を行った場合を想定している。ここに示したような会話がされた場合について以下で考える。図3(a)は、音声が発せられ順に、拠点30、発言者32、発言内容34の情報が示されている。
図3(b)は拠点Aの情報処理装置10aにてテキスト化したデータの一例を示している。図3(b)の拠点Aのテキストデータには、発言時刻36、拠点30、発言者32、発言内容34が含まれている。図3(a)のNo.2の田中さんの発言「はい」が拠点Aの情報処理装置10aにおいてテキストデータ化できず、記録されていない。なお、発言時刻は各拠点の情報処理装置10にて認識した時刻である。
図3(c)は拠点Bの情報処理装置10bにてテキスト化したデータの一例を示している。図3(c)の拠点Aのテキストデータには、発言時刻36、拠点30、発言者32、発言内容34が含まれている。図3(a)のNo.5の佐藤さん発言の「仕様」という言葉を「使用」という言葉に誤認識しているものとする。
以上の前提において、図4のフローチャートと、図5及び図6のテキストデータの状態とを参照しながら本実施形態の発言記録生成処理を説明する。
S101:議事録作成命令が情報処理装置10に通知される。会議終了時などが適切と考えられるが、タイミングは任意である。また命令の通知方法もどのような方法でもよい。例えば、情報処理装置10に議事録作成ボタンを備え、そのボタンを押すことで議事録作成命令を情報処理装置10に通知するような方法が考えられる。
S102:議事録を作成する情報処理装置10に作成したテキストデータを送信する。議事録作成は、各情報処理装置10がそれぞれ行ってもよいし、1つまたは複数のあらかじめ定めた情報処理装置10のみで実施してもよい。議事録作成命令を受けると、情報処理装置10は、音声情報から生成したテキストデータを議事録作成を行う情報処理装置10に送信する。議事録作成を行う情報処理装置10は、各装置から送信されるテキストデータを受信する。なお、議事録作成を行う装置を、情報処理装置10に替えて通信会議サーバとしてもよい。
S103:各拠点のテキストデータを時系列に並べる(図5参照)。ここでは拠点A及び拠点B間の通信に4秒かかるものと仮定して考えている。そのためα11の発言を拠点Bで4秒後に認識するため、α11とβ12の発言時刻36が4秒ずれている。つまり、一の情報処理装置10がα11の発言を取得するタイミングと、他の情報処理装置10がβ12の発言を取得するタイミングとは、同時又は数秒程度離れた近時の時間内であり、2つの発言の取得タイミングは類似(対応)する。この図5のように発言時刻36の順に各拠点のテキストデータを並べるものとする。
S104:判定手段23は、比較処理を行う各拠点の発言を選定する。ここではまず図5のα11とβ12を比べるものとする。
S105:判定手段23は、各発言を単語レベルに分解する処理を行う。一例として、α11とβ12は次のように分解される。「こちら/拠点/Aの/佐藤/です。/聞こえますか?」
S106:判定手段23は、各発言の単語を比較し、一致する単語とその出現順序を記録する。α11とβ12の場合はまったく同一となる。
S107:判定手段23は、一致する単語数が指定した割合以上か判定する。一致する単語数が指定した割合以上の場合には、S108へ進む。一致する単語数が指定した割合より少ない場合には、S111へ進む。なお、ここでいう「指定した割合」は任意に決めてよい。パラメータとして設定できるようにすると、一致と判断するレベルを調整することができる。例えば、全単語数の何割以上が一致、などと設定できる。
S108:判定手段23は、一致した単語の出現順序が一致するかを判定する。一致する場合には、S109へ進む。一致しない場合には、S111へ進む。
同じ発言であれば出現順序は一致するはずである。逆に出現順序が一致しなければ、一致する単語数が多いとしても同一発言ではないはずである。よって、
S109:一致した単語の出現順序が一致する場合、判定手段23は、比較対象は「同一発言である」と判定する。
S110:この場合、発言記録生成手段21は、同一発言として処理を行う。具体的には、図5の例では、α11とβ12は同一の発言と判断し、発言記録生成手段21は、図6のα21とβ21のように、拠点Aのテキストデータ及び拠点Bのテキストデータの同一行に記載する処理を行う。
S111:一致した単語の出現順序が一致しない場合、判定手段23は、比較対象は「同一発言ではない」と判定する。
S112:この場合、同一発言ではないので、発言記録生成手段21は、図6の例では異なる行に記載する処理を行う。よって、拠点Bのβ22のテキストデータに対応する拠点Aのテキストデータは存在しない。
S113:判定手段23は、全ての発言の比較が完了したかを判定する。完了したと判定した場合、S114に進む。完了していないと判定した場合、S104の処理へ戻る。
S114:発言記録出力手段22は、出力処理を実施し、本処理を終了する。不要な場合は何も実施せず、終了しても構わない。
発言記録出力手段22による出力処理の例としては、拠点情報が重要な場合には、図6のように各拠点のテキストデータを並べて出力することが挙げられる。または、拠点情報が不要な場合には、図7のように同一発言のテキストデータを重複せずに一つ出力してもよい。
以上のフローにより、テキストデータを正確にかつわかりやすく記録することができる。100%完全な発言記録の議事録が保証されるわけではないが、生成された発言記録を参照して人為的に議事録を作成する場合に非常に分かりやすくなり、短期間で簡単に正確な議事録を作成することができる。
以上に説明したように、本実施形態に係る通信会議システム1によれば、少なくとも2つ以上の拠点の情報処理装置10にて音声情報を音声認識によってテキスト情報に変換する。よって、各情報処理装置10において互いの変換ミスの箇所を補うことができ、より修正ミスが減り、効率よく発言記録を議事録にして作成できる。さらに、同じ発言かどうかを識別する技術を備えることで複数のテキストデータを適切にマージできる。これにより、議事録作成時間を削減することができる。
以下、本実施形態に係る発言記録生成処理の変形例1〜変形例4について、図8〜図13を参照しながら説明する。
(変形例1)
図8は、本実施形態の変形例1に係る発言記録生成処理を示したフローチャートであり、図9は、本実施形態の変形例1に係る出力処理例である。
変形例1では、上記実施形態の図4のS110を図8のS115に変更している点のみ異なる。具体的には、上記実施形態では、判定手段23により同一発言と判定された場合、一の情報処理装置10a及び他の情報処理装置10bの各拠点A、Bの発言記録に同一発言を含ませる(図6)。これに対して、変形例1では、判定手段23により同一発言と判定された場合、一の情報処理装置10a及び他の情報処理装置10bのいずれか一方の拠点側の発言記録に同一発言を含ませ、いずれか他方の拠点側の発言記録には同一発言を含ませない(図9)。
以上のように、変形例1では、同一と判断された発言があり、拠点間の情報処理装置10にて識別されたテキストデータの差異がない場合、一つの拠点側のテキストデータを残し、他の拠点側のテキストデータを削除する処理が実行される。これによれば、発言が記録された議事録中の重複テキストデータが削除されるので、発言内容が見やすくなるという効果がある。なお、図9では、拠点A側のテキストデータを残し、拠点B側のテキストデータを削除したが、これに限らず、拠点B側のテキストデータを残し、拠点A側のテキストデータを削除してもよい。
(変形例2)
図10は、本実施形態の変形例2に係る発言記録生成処理を示したフローチャートであり、図11は、本実施形態の変形例2に係る出力処理例である。
変形例2では、上記変形例1の図8のS115を図10のS116に変更している点のみ異なる。具体的には、変形例1では、判定手段23により同一発言と判定された場合、一の情報処理装置10a及び他の情報処理装置10bのいずれか一方の拠点の発言記録に同一発言を含ませ、いずれか他方の拠点の発言記録には同一発言を含ませない(図9)。変形例2では、これに加えて、判定手段23により同一発言と判定された場合であって同一発言中に差異がある場合、同一発言中の差異部分が認識可能なように発言記録を生成する。例えば、図11では、同一と判断された発言であってテキストデータに一部差異がある場合、その差異部分をマーキングして示している。このようにして、変形例2によれば、拠点間の同一と判断された発言に含まれる差異を見やすくする効果がある。
なお、同一発言中の差異部分を認識可能に表示するためには、差異部分をマーキングする他、差異部分を太字にする、差異部分の色を変える、差異部分をカッコで括る、差異部分を下線で示す等様々な方法を用いることができる。
(変形例3)
図12は、本実施形態の変形例3に係る発言記録生成処理を示したフローチャートである。変形例3では、変形例2の図10の全ての処理を含み、更に図12のS117のステップが加えられている。具体的には、変形例3では、S104の後ステップのS117にて、判定手段23は、選定された各拠点の発言時刻の差分が予め定められた所定時間以上であるかを判定する。各拠点の発言時刻の差分が予め定められた所定時間未満であると判定された場合には、S105以降の処理を実行する。一方、選定された各拠点の発言時刻の差分が予め定められた所定時間以上であると判定された場合には、選定された発言の比較処理を行わずに、S104に戻り、次に比較処理を行う発言を選定する。
以上のように、変形例3では、判定手段23は、比較対象である各拠点の2以上の文字データの変換前の音声情報の発言時刻の差分が予め定められた閾値(所定時間)を上回る場合、前記2以上の文字データについて音声情報が同一発言か否かの判定を止める。このように比較対象が同じであっても、「発言時刻が大きく異なる場合は比較対象としない」という制御を行う。これにより、全体の処理を減らし、処理時間の短縮を図ることができる。
(変形例4)
図13は、本実施形態の変形例4に係る発言記録生成処理を示したフローチャートである。変形例4では、変形例2の図10の全ての処理を含み、更に図13のS118のステップが加えられている。具体的には、変形例4では、S104の後ステップのS118にて、判定手段23は、選定された各発言の発言者が異なるかを判定する。各拠点の発言者が同一人であると判定された場合には、S105以降の処理を実行する。一方、各拠点の発言者が異なると判定された場合には、選定された発言の比較処理を行わずに、S104に戻り、次に比較処理を行う発言を選定する。
声紋認証の機能を有する情報処理装置10においては、発言と発言者を関連付けた情報を取得することができる。その場合、判定手段23は、S118に示したように、まず発言者32を比較してもよい。例えば、図5のα11とβ12はともに発言者がA1なので、比較対象とするが、もしこれらの発言者が異なった場合は比較対象とはしない。このように比較対象が同じであっても、比較対象である発言内容の話者が異なる場合、音声情報が同一発言か否かの判定を止める、という制御を行う。これにより、全体の処理を減らし、処理時間の短縮を図ることができる。
以上、上記実施形態及び変形例1〜変形例4によれば、音声認識によって作成したテキストデータに基づきに発言記録(議事録)を作成する際、2以上の情報処理装置にてそれぞれ取得した音声情報から変換された2以上の文字データを比較する。これにより、音声情報の発言を正確に判定することができる。この結果、議事録の自動作成の精度を高め、修正ミスを減らし、効率よく発言の議事録を作成することができ、議事録作成の時間の削減することができる。
なお、上記形態は本発明の範囲を限定するものではなく、通信会議サーバが情報処理装置の判定機能、発言記録生成機能の一部又は全部を備えても良い。また、システムを構成する通信会議サーバや情報処理装置は複数台でも良く、通信会議サーバや情報処理装置のいずれに上記機能を備えさせても良い。なお、この実施形態で説明する情報処理装置と通信会議サーバとが接続されたシステム構成は一例であり、用途や目的に応じて様々なシステム構成例があることは言うまでもない。
システム構成の他の例としては、図2に示した情報処理装置10の機能構成のうち、音声変換手段19、音声認識結果記憶手段20、発言記録生成手段21、発言記録出力手段22、判定手段23及び話者特定手段24の機能を、情報処理装置10の替わりにサーバ50が有するシステム構成でもよい。その場合、図14に示したように、通信会議サーバ50は、通信手段57、データ処理手段58、計時手段59の他、音声変換手段51、音声認識結果記憶手段52、発言記録生成手段53、発言記録出力手段54、判定手段55及び話者特定手段56の機能を有する。
音声変換手段51、音声認識結果記憶手段52、発言記録生成手段53、発言記録出力手段54、判定手段55及び話者特定手段56の各機能は、情報処理装置10の各機能と同様である。例えば、音声変換手段51は、複数の情報処理装置10のうち一の情報処理装置にて取得した音声情報を一の文字データに変換する。また、音声変換手段51は、他の情報処理装置にて取得した音声情報であって、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を他の文字データに変換する。
また、判定手段23は、音声変換手段19により変換された前記一の文字データと他の文字データとを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する。
本システム構成例では、通信会議サーバ50が、上記実施形態及び各変形例の発言記録生成処理を実行する。この場合、図4、図8、図10、図12、図13に示した発言記録生成処理は、通信会議サーバ50側で実行される。その際、通信会議サーバ50の音声変換手段51は、少なくとも2つの拠点の情報処理装置10にて取得した音声情報を音声認識技術を用いてテキスト情報に変換する。よって、本システム構成例においても、各情報処理装置10にて取得した音声情報の変換ミスの箇所を補うことができ、これにより、より正確な議事録を作成することができる。なお、通信会議サーバ50は、複数の情報処理装置10とネットワークを介して接続されたサーバ機器に相当する。
以上、添付図面を参照しながら本発明の通信システム及び通信方法の好適な実施形態について詳細に説明したが、本発明の通信システム及び通信方法の技術的範囲はかかる例に限定されない。本発明の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の通信システム及び通信方法の技術的範囲に属する。また、上記実施形態及び変形例が複数存在する場合、矛盾しない範囲で組み合わせることができる。
なお、本発明に係る情報処理装置及び通信会議サーバのハードウェア構成例を、図15を参照しながら簡単に説明する。発明に係る情報処理装置及び通信会議サーバには、CPU106が内蔵されている。CPU106により実行される各機能を実現するためのプログラムは、ROM104、RAM105、あるいはHDD108等の記憶手段に予め格納されてもよい。前記プログラムは、記録媒体であるCD−ROMあるいはフレキシブルディスク,SRAM,EEPROM,メモリカード等の不揮発性記録媒体(メモリ)に記録されてもよい。本発明に係る情報処理装置及び通信会議サーバの機能は、これらのメモリに記録されたプログラムをCPU106に実行させることにより実現され得る。さらに、前記プログラムは、通信回路103の機能を用いてIPネットワーク網110に接続され、プログラムを記録した記録媒体を備える外部機器あるいはプログラムを記憶手段に記憶した外部機器からダウンロードすることもできる。キーボード101は、入力装置の一例であり、各装置に各操作信号を入力するのに用いられる。キーボード101の替わりにマウスやタッチパネルを用いることもできる。ディスプレイ102は、表示装置の一例であり、各装置による処理結果を表示する。
以上のように、本実施形態に係る情報処理装置及び通信会議サーバは、上記ハードウェア構成により、上述した各種機能を実現することができる。
1:通信会議システム、10a,10b,10c、10:情報処理装置、11:通信手段、12:データ処理手段、13:音声入力手段、14:入力音声処理手段、15:音声記憶手段、16:出力音声処理手段、17:計時手段、18:音声出力手段、19:音声変換手段、20:音声認識結果記憶手段、21:発言記録生成手段、22:発言記録出力手段、23:判定手段、24:話者特定手段、50:通信会議サーバ、110:IPネットワーク網
特開2005−341015号公報 特開2011−065322号公報

Claims (11)

  1. ネットワークを介して接続された複数の情報処理装置を有する通信システムであって、
    前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換手段と、
    前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換手段と、
    前記第1及び第2の音声変換手段により変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
    を有することを特徴とする通信システム。
  2. 前記判定手段による判定に基づき、前記一の情報処理装置及び前記他の情報処理装置間の通信で行われた発言記録を生成する発言記録生成手段を更に有することを特徴とする請求項1に記載の通信システム。
  3. 前記発言記録生成手段は、前記判定手段により同一発言と判定された場合、前記一の情報処理装置及び前記他の情報処理装置の各拠点の前記発言記録に該同一発言を含ませることを特徴とする請求項2に記載の通信システム。
  4. 前記発言記録生成手段は、前記判定手段により同一発言と判定された場合、前記一の情報処理装置及び前記他の情報処理装置のいずれか一方の拠点の前記発言記録に該同一発言を含ませ、いずれか他方の拠点の前記発言記録には該同一発言を含ませないことを特徴とする請求項2に記載の通信システム。
  5. 前記発言記録生成手段は、前記判定手段により同一発言と判定された場合であって該同一発言中に差異がある場合、該同一発言中の差異部分が認識可能なように前記発言記録を生成することを特徴とする請求項3又は4に記載の通信システム。
  6. 前記音声情報の発言時刻を計時する計時手段を更に有し、
    前記判定手段は、比較対象である前記2以上の文字データの変換前の前記音声情報の発言時刻の差分が予め定められた閾値を上回る場合、前記2以上の文字データについて前記音声情報が同一発言か否かの判定を止めることを特徴とする請求項1〜5のいずれか一項に記載の通信システム。
  7. 前記音声情報の話者を特定する話者特定手段を更に有し、
    前記判定手段は、比較対象である前記2以上の文字データの変換前の前記音声情報の話者が異なる場合、前記2以上の文字データについて前記音声情報が同一発言か否かの判定を止めることを特徴とする請求項1〜6のいずれか一項に記載の通信システム。
  8. ネットワークを介して接続された複数の情報処理装置とサーバ機器とを有する通信システムであって、
    前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を一の文字データに変換し、該複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を他の文字データに変換する音声変換手段と、
    前記音声変換手段により変換された一の文字データと他の文字データとを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定手段と、
    を有することを特徴とする通信システム。
  9. 前記判定手段は、
    前記一の情報処理装置及び前記他の情報処理装置にて取得した音声情報のそれぞれを1又は複数の単語に分解し、単語毎に比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定することを特徴とする請求項1〜8のいずれか一項に記載の通信システム。
  10. ネットワークを介して接続された複数の情報処理装置同士によって行われる通信方法であって、
    前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換ステップと、
    前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換ステップと、
    前記第1及び第2の音声変換ステップにて変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定ステップと、
    を有することを特徴とする通信方法。
  11. ネットワークを介して接続された複数の情報処理装置を有する通信システムの機能を実行するためのプログラムであって、
    前記複数の情報処理装置のうちの一の情報処理装置にて取得した音声情報を文字データに変換する第1の音声変換処理と、
    前記複数の情報処理装置のうちの他の情報処理装置にて、前記一の情報処理装置にて音声情報を取得したタイミングに応じて取得した音声情報を文字データに変換する第2の音声変換処理と、
    前記第1及び第2の音声変換処理にて変換された2つの文字データを比較し、前記一の情報処理装置及び前記他の情報処理装置にて取得された音声情報が同一発言か否かを判定する判定処理と、
    をコンピュータにより実行するためのプログラム。
JP2013049679A 2013-03-12 2013-03-12 通信システム、通信方法およびプログラム Pending JP2014176033A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013049679A JP2014176033A (ja) 2013-03-12 2013-03-12 通信システム、通信方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013049679A JP2014176033A (ja) 2013-03-12 2013-03-12 通信システム、通信方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2014176033A true JP2014176033A (ja) 2014-09-22

Family

ID=51696837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013049679A Pending JP2014176033A (ja) 2013-03-12 2013-03-12 通信システム、通信方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2014176033A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016082355A (ja) * 2014-10-15 2016-05-16 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
JP2017182822A (ja) * 2017-05-08 2017-10-05 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
WO2018070493A1 (en) * 2016-10-14 2018-04-19 Ricoh Company, Ltd. Information processing system, information processing apparatus, and screen-sharing terminal controlling method
JP2018110423A (ja) * 2018-02-09 2018-07-12 株式会社Msd 情報共有システムおよびプログラム
JP2019040573A (ja) * 2016-10-14 2019-03-14 株式会社リコー 情報処理システム、情報処理装置、プログラム及び画面共有端末制御方法
JP2019110450A (ja) * 2017-12-19 2019-07-04 日本電気株式会社 通話端末、話者識別サーバ、通話システム、通話端末の処理方法、話者識別サーバの処理方法及びプログラム
JP2019164327A (ja) * 2018-03-19 2019-09-26 株式会社リコー 情報処理装置、情報処理システム及び情報処理方法
US11132166B2 (en) 2016-10-14 2021-09-28 Ricoh Company, Ltd. Information processing system, information processing apparatus, and screen-sharing terminal controlling method

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016082355A (ja) * 2014-10-15 2016-05-16 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
WO2018070493A1 (en) * 2016-10-14 2018-04-19 Ricoh Company, Ltd. Information processing system, information processing apparatus, and screen-sharing terminal controlling method
JP2019040573A (ja) * 2016-10-14 2019-03-14 株式会社リコー 情報処理システム、情報処理装置、プログラム及び画面共有端末制御方法
US11132166B2 (en) 2016-10-14 2021-09-28 Ricoh Company, Ltd. Information processing system, information processing apparatus, and screen-sharing terminal controlling method
JP7039903B2 (ja) 2016-10-14 2022-03-23 株式会社リコー 情報処理システム、情報処理装置、プログラム及び画面共有端末制御方法
JP2017182822A (ja) * 2017-05-08 2017-10-05 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
JP2019110450A (ja) * 2017-12-19 2019-07-04 日本電気株式会社 通話端末、話者識別サーバ、通話システム、通話端末の処理方法、話者識別サーバの処理方法及びプログラム
JP7073705B2 (ja) 2017-12-19 2022-05-24 日本電気株式会社 通話端末、話者識別サーバ、通話システム、通話端末の処理方法、話者識別サーバの処理方法及びプログラム
JP2018110423A (ja) * 2018-02-09 2018-07-12 株式会社Msd 情報共有システムおよびプログラム
JP2019164327A (ja) * 2018-03-19 2019-09-26 株式会社リコー 情報処理装置、情報処理システム及び情報処理方法
JP7243145B2 (ja) 2018-03-19 2023-03-22 株式会社リコー 情報処理装置、情報処理システム及び情報処理方法

Similar Documents

Publication Publication Date Title
JP2014176033A (ja) 通信システム、通信方法およびプログラム
US20220005492A1 (en) Automated transcript generation from multi-channel audio
US9407869B2 (en) Systems and methods for initiating conferences using external devices
KR20200100677A (ko) 분류기 모델과 컨텍스트 파라미터를 사용한 원격 미디어 분류 쿼리에 대한 응답
US9923535B2 (en) Noise control method and device
US20150310863A1 (en) Method and apparatus for speaker diarization
US20200118569A1 (en) Conference sound box and conference recording method, apparatus, system and computer storage medium
US20100305945A1 (en) Representing group interactions
TWI619115B (zh) 會議記錄裝置及其自動生成會議記錄的方法
US11727940B2 (en) Autocorrection of pronunciations of keywords in audio/videoconferences
TW201624470A (zh) 會議記錄裝置及其自動生成會議記錄的方法
CN114514577A (zh) 生成和传输口头通信的文字记录的方法和***
CN110933485A (zh) 一种视频字幕生成方法、***、装置和存储介质
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20240187271A1 (en) Systems and methods for associating context to subtitles during live events
US10789954B2 (en) Transcription presentation
CN114694678A (zh) 音质检测模型训练方法、音质检测方法、电子设备及介质
US10504519B1 (en) Transcription of communications
US20170148469A1 (en) Terminal device and communication method for communication of speech signals
US11783837B2 (en) Transcription generation technique selection
US11551707B2 (en) Speech processing method, information device, and computer program product
US9628603B2 (en) Voice mail transcription
JP2009053342A (ja) 議事録作成装置
US20200184973A1 (en) Transcription of communications
JP2009086207A (ja) 議事録情報生成システム、議事録情報生成方法、及び議事録情報生成プログラム