JP6689421B1

JP6689421B1 - 音声解析システム

Info

Publication number: JP6689421B1
Application number: JP2019011603A
Authority: JP
Inventors: 潔関根
Original assignee: Interactive Solutions Inc
Current assignee: Interactive Solutions Inc
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2020-04-28
Anticipated expiration: 2039-01-25
Also published as: CN111919251B; US11929061B2; US20210020164A1; SG11202009311RA; CA3097683C; JP2020118907A; CA3131060A1; CA3097683A1; CN111919251A; WO2020153110A1; CA3131060C

Abstract

【課題】音声認識をより精度高く行うことができる音声解析システムを提供する。【解決手段】第１の音声解析端末３と、第２の音声解析端末５と、解析部１１と、を含む音声解析システム１であって、第１の音声解析端末が第１の会話情報を得て、第２の音声解析端末が第２の会話情報を得る。解析部は、各会話区分における第１の会話情報に含まれる関連語の数と、第２の会話情報に含まれる関連語の数とを比較し、関連語の数が多い方の会話区分を正しい会話区分として採用する会話区分選択部３７を含む。【選択図】図１

Description

この発明は，音声解析システムに関する。より詳しく説明すると，音声を収録できる複数の端末を効果的に利用し精度を高めた音声解析システムに関する。

特開２００２−２５９６３５号公報には，議論参加者が議論する過程でなされた発言の中からキーワードを図形オブジェクトとテキストとの組み合わせにより表示するシステムが記載されている。

特開２０１７−２２４０５２号公報には，音声解析端末を用いたプレゼンテーション評価装置が記載されている。

しかし，１台の音声解析端末を用いて，会話を音声認識すると，音声解析端末に近いユーザの会話を比較的正確に音声解析できるものの,音声解析端末から遠いユーザの会話を正確に音声解析できないという問題がある。

特開２００２−２５９６３５号公報特開２０１７−２２４０５２号公報

この明細書に記載されるある態様の発明は，音声認識をより精度高く行うことができる音声解析システムを提供することを目的とする。

ある態様の発明は，基本的には，複数台の音声解析装置で解析した会話情報を相互に利用しあって，音声認識を行うことで，より精度高く音声認識を行うことができるという知見に基づく。

この明細書に記載されるある態様の発明は，音声解析システム１に関する。
この音声解析システム１は，第１の音声解析端末３と，第２の音声解析端末５とを含むシステムである。この端末は，コンピュータを含んでおり，以下説明する各要素はコンピュータにより実装される要素である。
第１の音声解析端末３は，第１の用語解析部７と，第１の会話記憶部９と，解析部１１と，プレゼンテーション記憶部１３と，関連語記憶部１５と，表示部１７と，を含む端末である。
第１の用語解析部７は，会話に含まれる単語を解析し，第１の会話情報を得るための要素である。
第１の会話記憶部９は，第１の用語解析部７が解析した第１の会話情報を記憶するための要素である。
解析部１１は，第１の会話記憶部９が記憶した第１の会話情報を解析するための要素である。
プレゼンテーション記憶部１３は，複数のプレゼンテーション資料を記憶するための要素である。
関連語記憶部１５は，プレゼンテーション記憶部１３に記憶されたそれぞれのプレゼンテーション資料に関連した関連語を記憶するための要素である。
表示部１７は，プレゼンテーション記憶部１３が記憶したいずれかのプレゼンテーション資料を表示することができる要素である。

第２の音声解析端末５は，第２の用語解析部２１と，第２の会話記憶部２３と，を含む端末である。
第２の用語解析部２１は，会話に含まれる単語を解析し，第２の会話情報を得るための要素である。第２の会話記憶部２３は，第２の用語解析部２１が解析した第２の会話情報を記憶するための要素である。

第１の音声解析端末３は，会話情報受信部２５をさらに有する。
そして，会話情報受信部２５は，第２の音声解析端末５から第２の会話情報を受信するための要素である。そして，第１の会話記憶部は、会話情報受信部２５が受信した第２の会話情報も記憶する。

解析部１１は，特定プレゼンテーション情報取得部３１と，会話区分取得部３３と，関連語抽出部３５と，会話区分選択部３７と，を含む。
特定プレゼンテーション情報取得部３１は，複数のプレゼンテーション資料のうちのあるプレゼンテーション資料である特定プレゼンテーション資料が選択されたことに関する情報を受け取るための要素である。
会話区分取得部３３は，第１の会話情報における会話区分を分析し，１又は複数の会話区分を得るための要素である。
関連語抽出部３５は，第１の会話情報及び第２の会話情報に含まれる特定プレゼンテーション資料に関する関連語を抽出するための要素である。
会話区分選択部３７は，会話区分取得部３３が得た各会話区分における第１の会話情報に含まれる関連語の数と，第２の会話情報に含まれる関連語の数とを比較し，関連語の数が多い方の会話区分を正しい会話区分として採用するための要素である。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，時刻時間を記憶するための時刻記憶部４１をさらに有するものである。
このシステムは，第１の会話情報は，会話に含まれる単語とともに，各単語と関連した時刻を含む。会話区分取得部３３は，各単語の時刻情報を用いて，会話区分を分析する。
会話が途切れると，話者が変わったことが分かるので，単語間の時間が空けば会話区分が変わったことが分かる。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，会話に含まれる音声の周波数を解析する周波数解析部４３をさらに有するものである。
このシステムは，第１の会話情報が，会話に含まれる単語とともに，各単語と関連した音声の周波数を含む。
会話区分取得部３３は，各単語の周波数を用いて，会話区分を分析する。
声の高さが変われば，話者が変わったことが分かるので，各単語の音の周波数を分析すれば会話区分が変わったことが分かる。

音声解析システム１の好ましい態様は，関連語記憶部１５が記憶する関連語は，プレゼンター用関連語と，リスナー用関連語とを含む。会話区分取得部３３は，会話情報に含まれるプレゼンター用関連語と，リスナー用関連語とを用いて，会話区分を分析する。
プレゼンテーションする方が用いるプレゼン関連用語と，リスナーの方が発言する用語とは異なりますので，それぞれの用語を解析して，会話区分を分けることができる。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，複数のプレゼンテーション資料のそれぞれに関連した誤変換用語を記憶した誤変換用語記憶部４５をさらに有するものである。
そして，解析部１１は，特定プレゼンテーション資料に関する誤変換用語が含まれる場合，各会話区分のうち正しい会話区分として採用されなかった会話区分に含まれる用語のうち，正しい会話区分に含まれる誤変換用語に対応する用語を用いて，正しい会話区分に含まれる用語を修正する。第１の音声解析端末３及び第２の音声解析端末５は、互いに情報を照らし合わせることで、高精度の解析結果を得ることができる。

音声解析システム１の好ましい態様は，第２の音声解析端末５が，第２の解析部５１と，第２のプレゼンテーション記憶部５３と，第２の関連語記憶部５５と，第２の表示部５７と，第２の会話情報受信部５９をさらに有するものである。第２の会話記憶部２３は，第２の会話情報受信部５９が受信した第１の会話情報も記憶する。そして，第２の解析部５１は，第２の特定プレゼンテーション情報取得部６１と，第２の会話区分取得部６３と，第２の関連語抽出部６５と，第２の会話区分選択部６７とを含む。

第２の解析部５１は，第２の会話記憶部２３が記憶した第２の会話情報を解析するための要素である。
第２のプレゼンテーション記憶部５３は，第２の音声解析端末５に記憶される複数のプレゼンテーション資料である第２のプレゼンテーションを記憶するための要素である。
第２の関連語記憶部５５は，第２のプレゼンテーション資料のそれぞれに関連した関連語を記憶するための要素である。
第２の表示部５７は，第2のプレゼンテーション記憶部１３が記憶したいずれかのプレゼンテーション資料を表示するための要素である。
第２の会話情報受信部５９は，第１の音声解析端末３から第１の会話情報を受信するための要素である。
そして，第２の会話記憶部２３は，第２の会話情報受信部５９が受信した第１の会話情報も記憶する。
第２の解析部５１は，第２の特定プレゼンテーション情報取得部６１と，第２の会話区分取得部６３と，第２の関連語抽出部６５と，第２の会話区分選択部６７とを有する。
第２の特定プレゼンテーション情報取得部６１は，第２のプレゼンテーションのうちのあるプレゼンテーション資料である第２の特定プレゼンテーション資料が選択されたことに関する情報を受け取るための要素である。
第２の会話区分取得部６３は，第２の会話情報における会話区分を分析し，１又は複数の会話区分を得るための要素である。
第２の関連語抽出部６５は，第１の会話情報及び第２の会話情報に含まれる第2の特定プレゼンテーション資料に関する関連語を抽出するための要素である。
第２の会話区分選択部６７は，第２の会話区分取得部６３が得た各会話区分における第１の会話情報に含まれる関連語の数と，第２の会話情報に含まれる関連語の数とを比較し，関連語の数が多い方の会話区分を正しい会話区分として採用するための要素である。

この明細書は，音声認識をより精度高く行うことができる音声解析システムを提供できる。

図１は，音声解析システムの構成例を示すブロック図である。図２は，音声解析システムの処理例を示すフローチャートである。図３は，音声解析システムの処理例を示す概念図である。図４は，音声解析システムの第２の処理例を示す概念図である。図５は，音声解析システムの第３の処理例を示す概念図である。

以下，図面を用いて本発明を実施するための形態について説明する。本発明は，以下に説明する形態に限定されるものではなく，以下の形態から当業者が自明な範囲で適宜修正したものも含む。

この明細書に記載されるある態様の発明は，音声解析システム１に関する。音声解析システムは，会話などの音声情報を入力情報として受け取り，受け取った音声情報を解析して，会話文を得るためのシステムである。音声解析システムは，コンピュータにより実装される。なお，音声情報を文字情報に置換するシステムは公知であり，本発明はそのような公知のシステムの構成を適宜利用することができる。このシステムは，携帯端末（携帯電話などのコンピュータ端末）により実装されてもよいし，コンピュータやサーバにより実装されてもよい。

図１は，音声解析システムの構成例を示すブロック図である。この音声解析システム１は，第１の音声解析端末３と，第２の音声解析端末５とを含むシステムである。この端末は，コンピュータを含んでおり，以下説明する各要素はコンピュータにより実装される要素である。

コンピュータは，入出力部，制御部，演算部及び記憶部を有し，各要素がバスなどにより情報の授受を行うことができるように接続されている。そして，例えば，制御部は，記憶部に記憶された制御プログラムを読み出して，記憶部に記憶された情報や入出力部から入力された情報を用いて，演算部に各種演算を行わせる。演算部が演算して求めた情報は，記憶部に記憶される他，入出力部から出力される。このようにして，各種演算処理がなされる。以下説明する各要素は，コンピュータのいずれかの要素に対応していてもよい。

第１の音声解析端末３は，第１の用語解析部７と，第１の会話記憶部９と，解析部１１と，プレゼンテーション記憶部１３と，関連語記憶部１５と，表示部１７と，会話情報受信部２５を含む端末である。

第１の用語解析部７は，会話に含まれる単語を解析し，第１の会話情報を得るための要素である。例えば，マイクを介して，第１の音声解析端末３に音声が入力される。すると，第１の音声解析端末３は，会話（音声）を記憶部に記憶する。第１の用語解析部７は，会話に含まれる単語を解析し，第１の会話情報を得る。第１の会話情報は，音声を音情報に直したものである。音情報の例は「これからとうにょうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」といったものである。

第１の会話記憶部９は，第１の用語解析部７が解析した第１の会話情報を記憶するための要素である。例えば，コンピュータの記憶部が第１の会話記憶部９として機能する。第１の会話記憶部９は，上記の音情報を，記憶部に記憶する。

解析部１１は，第１の会話記憶部９が記憶した第１の会話情報を解析するための要素である。解析部１１は，記憶部に記憶される音情報を読み出し，記憶部に記憶されている用語を検索して，適切な用語に変換する。この際に，変換可能用語（同音異義語）がある場合は，他の用語とともに用いられる頻度の高い用語を選択するようにして，変換効率を上げてもよい。たとえば「とうにょうびょう」は，「糖尿病」に変換される。そして，「しんやく」の変換候補は，「新薬」や「新約」，「新訳」，「新役」がある。そのうち，「糖尿病」とともに出現する頻度の高い「新薬」が，会話情報に含まれる用語として選択される。すると，記憶部に記憶された音情報は，「これから糖尿病に関する新薬であるＸＹＺについて説明しますそれは決闘血を下げますか」といった会話文に解析される。そして，解析された会話文は，記憶部に記憶される。

解析部１１は，プレゼンテーション資料と関連して読み出した関連語を用いて，会話情報の解析精度を上げてもよい。例えば，「しんやく」という会話情報の部分がある場合であって，関連語に「新薬」がある場合は，この「しんやく」を解析して，「新薬」を選択するようにすればよい。このようにすれば，解析精度を高めることができる。また，関連語に関して複数の読みを割り振っておき，会話情報にそれらが含まれる場合は，対応する関連語を選択するようにしてもよい。例えば，関連語「ＸＹＺ」に対して，読みの候補が「えっくすわいじー」「えっくすわいぜっと」「えくすわいじー」及び「えくすわいぜっと」である。

プレゼンテーション記憶部１３は，複数のプレゼンテーション資料を記憶するための要素である。例えば，コンピュータの記憶部が，プレゼンテーション記憶部として機能する。プレゼンテーション資料の例は，パワーポイント（登録商標）の各頁である。プレゼンテーション資料は，コンピュータに格納され，表示部に表示されて会話相手や聴衆にプレゼンテーションを行うことができるようにされる資料である。

関連語記憶部１５は，プレゼンテーション記憶部１３に記憶されたそれぞれのプレゼンテーション資料に関連した関連語を記憶するための要素である。例えば，コンピュータの記憶部が，関連語記憶手段として機能する。プレゼンテーション資料に関連した複数の関連語の例は，パワーポイントの各頁に基づいて説明を行う際に，用いることがありうる用語である。記憶部は，パワーポイントなどのプレゼンテーション資料の各頁と関連して，複数の関連語を格納する。記憶部は，プレゼンテーション資料の情報（例えば，ファイルＩＤやページ番号）と関連して，そのプレゼンテーション資料に関連した複数の関連語を記憶する。関連語の例は，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，「添付文書」である。この関連語は，特に同音異義語を挙げておくことが好ましい。上記の例では，「新薬」のほか「血糖」（他に，「結党」，「血統」，「決闘」,「穴藤」,「結東」,「決斗」がある）を関連語として挙げておくことが好ましい。同音異義語を関連語として挙げておくことで，解析精度を向上させることができる。

表示部１７は，プレゼンテーション記憶部１３が記憶したいずれかのプレゼンテーション資料を表示することができる要素である。表示部１７の例は，モニタやディスプレイである。コンピュータは，記憶部に記憶したプレゼンテーション資料に関する情報を読み出して，モニタやスクリーンにプレゼンテーション資料を表示する。そのようにして，会話相手や聴衆にプレゼンテーション資料を表示できる。

第２の音声解析端末５は，第２の用語解析部２１と，第２の会話記憶部２３と，を含む端末である。例えば，第１の音声解析端末３は，ＭＲといった説明者が所持したノート型パソコンであるなど，説明を行う者の付近に存在し，説明者の音声を的確に収録するためのものである。一方，第２の音声解析端末５は，例えば，ＭＲよりも医師に近い場所といったように，説明者よりは聴衆近くに設置され，説明を聞く方の者の音声をより的確に収録するためのものである。第２の音声解析端末５の例は，マイクや，携帯端末（携帯電話やスマートフォンといった）である。第２の音声解析端末５は，第１の音声解析端末３と情報の授受を行うことができるようにされている。情報の授受は，例えば，第１の音声解析端末３と第２の音声解析端末５とが直接行えるようにしてもよいし，サーバを介して情報の授受を行うことができるようにしてもよい。

第２の用語解析部２１は，会話に含まれる単語を解析し，第２の会話情報を得るための要素である。第２の会話情報の例は，「これからとうにゅうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」といったものである。第２の音声解析端末５は，マイクなどから入力された会話を記憶部に記憶する。そして，第２の用語解析部２１は，記憶部から会話を読み出して，記憶部に格納された用語を参照して，会話情報を得る。第２の会話情報の例は,「これから豆乳秒二巻する新約であるＸＹＺについて説明しますそれは血糖値を下げますか？」といったものである。

第２の会話記憶部２３は，第２の用語解析部２１が解析した第２の会話情報を記憶するための要素である。記憶部が，第２の会話記憶部２３として機能する。つまり，第２の会話情報は，第２の音声解析端末５の記憶部に記憶される。第２の音声解析端末５の記憶部に記憶された第２の会話情報は，例えば，第２の音声解析端末５のアンテナといった出力部を介して，第１の音声解析端末３へ送信される。

すると，第１の音声解析端末３は，第２の音声解析端末５から送信された第２の会話情報を受け取る。第１の音声解析端末３の会話情報受信部２５は，第２の音声解析端末５から第２の会話情報を受信するための要素である。例えば，第１の音声解析端末３のアンテナが会話情報受信部２５として機能する。第２の音会話情報は，会話情報受信部２５を介して，第１の音声解析端末３に入力され，記憶部に記憶される。その際，例えば，第１の会話記憶部は、会話情報受信部２５が受信した第２の会話情報も記憶すればよい。

解析部１１は，特定プレゼンテーション情報取得部３１と，会話区分取得部３３と，関連語抽出部３５と，会話区分選択部３７と，を含む。

特定プレゼンテーション情報取得部３１は，複数のプレゼンテーション資料のうちのあるプレゼンテーション資料である特定プレゼンテーション資料が選択されたことに関する情報を受け取るための要素である。例えば，ＭＲがある糖尿病の新薬であるＸＹＺに関するパワーポイント（登録商標）資料を選択する。すると，そのページが選択された情報は，コンピュータの入力装置を介して，コンピュータ内に入力される。その入力された情報を特定プレゼンテーション資料が選択されたことに関する情報とすればよい。

会話区分取得部３３は，第１の会話情報における会話区分を分析し，１又は複数の会話区分を得るための要素である。会話区分取得部３３は，第２の会話情報における会話区分をも分析し，１又は複数の会話区分を得てもよい。会話区分は，通常，読点（。）で区切れる会話部分である。会話区分は，一文であってもよい。もっとも，会話によっては，必ずしも書き言葉と同じにならないことがある。
例えば，「これからとうにょうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」を「これからとうにょうびょうにかんするしんやくであるえっくぅわいじーについてせつめいします」と「それはけっとうちをさげますか」といった２つの会話区分を得る。又は，「これから糖尿病に関する新薬であるＸＹＺについて説明しますそれは決闘血を下げますか。」を「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは決闘血を下げますか。」といった２つの会話区分を得る。このような会話区分の取得方法は，公知である。以下，会話区分の取得方法の例（実施態様）を説明する。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，時刻や時間を記憶するための時刻記憶部４１をさらに有するものである。このシステムは，第１の会話情報は，会話に含まれる単語とともに，各単語と関連した時刻を含む。会話区分取得部３３は，各単語の時刻情報を用いて，会話区分を分析する。例えば，音声が一定時間連続した後に，一定時間以上無音状態が続くと，会話区分が変わったといえる。単語間の時間が空けば会話区分が変わったことが分かる。この場合，例えば，コンピュータの記憶部は，第１の会話記憶部に第1の会話情報を記憶させ，時刻記憶部４１に第１の会話情報の各情報についての時刻を対応付けて記憶させる。すると，例えば，解析部１１が第１の会話情報を解析する際に，各会話情報の時刻を読み出して，その時間間隔を求めることができる。そして，記憶部に記憶した閾値を読み出し，読み出した閾値と，求めた時間間隔とを比較して，時間間隔が閾値より大きい場合は，会話区分であると判断してもよい。また，第２の音声解析端末５も，時刻や時間を記憶するための第２時刻記憶部を有することが好ましい。すると，会話の時間を照合することで，第１の会話情報の各区分と，第２の会話情報の各区分の対応関係を把握することができることとなる。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，会話に含まれる音声の周波数を解析する周波数解析部４３をさらに有するものである。このシステムは，第１の会話情報が，会話に含まれる単語とともに，各単語と関連した音声の周波数を含む。会話区分取得部３３は，各単語の周波数を用いて，会話区分を分析する。声の高さが変われば，話者が変わったことが分かるので，各単語の音の周波数を分析すれば会話区分が変わったことが分かる。この場合も，会話情報に含まれる各情報と関連させて，音声の周波数情報を記憶部に記憶させ，解析部１１が記憶部に記憶された周波数情報を読み出して，周波数の変化を求め，これにより会話区分を求めればよい。また，会話区分となる用語を記憶部が記憶して起き，会話情報にその会話区分となる用語が含まれる場合に，会話区分であると判断してもよい。そのような会話区分となる用語の例は，「です。」「ではないでしょうか。」「ですか。」「なるのです。」「でしょうか。」「ございます。」「いただきます。」「なります。」「え〜」である。

音声解析システム１の好ましい態様は，関連語記憶部１５が記憶する関連語は，プレゼンター用関連語と，リスナー用関連語とを含む。会話区分取得部３３は，会話情報に含まれるプレゼンター用関連語と，リスナー用関連語とを用いて，会話区分を分析する。
プレゼンテーションする方が用いるプレゼン関連用語と，リスナーの方が発言する用語とは異なるので，それぞれの用語を解析して，会話区分を分けることができる。

関連語抽出部３５は，第１の会話情報及び第２の会話情報に含まれる特定プレゼンテーション資料に関する関連語を抽出するための要素である。
例えば，あるプレゼンターション資料の資料名（存在位置）とそのページ数に関連して，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，「添付文書」が記憶部に記憶されているので，関連語抽出部３５は，記憶部からこれらの特定プレゼンテーション資料に関する関連語を読み出す。そして，第１の会話情報に含まれる用語と，関連語とが一致するか演算処理を行う。そして，一致した関連語を，会話情報及び区分番号とともに記憶部に記憶する。

例えば，第１の会話情報は，２つの会話区分からなり，最初の会話区分である「これから糖尿病に関する新薬であるＸＹＺについて説明します。」には，「糖尿病」「新薬」及び「ＸＹＺ」という３つの関連語が存在する。一方，第１の会話情報の２つめの会話区分には，関連語が存在しない。第１の音声解析端末３は，例えば，第１の会話情報の１番目の会話区分に関して，「糖尿病」「新薬」及び「ＸＹＺ」という関連語，及び３という数値を記憶する。なお，この会話区分に関して３という数値のみを記憶してもよいし，関連語のみを記憶してもよい。２つめの会話区分や次の第２の会話情報についても同様である。
第２の会話情報の最初の会話区分である「これから豆乳秒二巻する新約であるＸＹＺについて説明します。」には，「ＸＹＺ」という一つの関連語が含まれている。一方，第２の会話情報の２つめの会話区分である「それは血糖値を下げますか？」には，「血糖値」という関連語が１つ含まれている。

会話区分選択部３７は，会話区分取得部３３が得た各会話区分における第１の会話情報に含まれる関連語の数と，第２の会話情報に含まれる関連語の数とを比較し，関連語の数が多い方の会話区分を正しい会話区分として採用するための要素である。
例えば，会話区分選択部３７は，第１の会話情報の１番目の会話区分に関して，記憶部から３という数値を読み出し，第２の会話情報の１番目の会話区分に関して１という数値を読み出す。そして，読み出した数値を比較する演算を行う。その結果，第１の会話情報の方が第２の会話情報よりも１番目の会話区分に含まれる関連語の数が多いことが分かる。すると，会話区分選択部３７は，第１の会話情報の１番目の会話区分（例えば「これから糖尿病に関する新薬であるＸＹＺについて説明します。」）を正しい会話区分として採用する。
同様にして，会話区分選択部３７は，第２の会話情報の２番目の会話区分（「それは血糖値を下げますか？」）を正しい会話区分として採用する。

音声解析システム１の好ましい態様は，第１の音声解析端末３が，複数のプレゼンテーション資料のそれぞれに関連した誤変換用語を記憶した誤変換用語記憶部４５をさらに有するものである。
そして，解析部１１は，正しい会話区分として採用された会話情報の各会話区分に特定プレゼンテーション資料に関する誤変換用語が含まれる場合，各会話区分のうち正しい会話区分として採用されなかった会話区分に含まれる用語のうち，正しい会話区分に含まれる誤変換用語に対応する用語を用いて，正しい会話区分に含まれる用語を修正する。第１の音声解析端末３及び第２の音声解析端末５は、互いに情報を照らし合わせることで、高精度の解析結果を得ることができる。

例えば，特定プレゼンテーション資料に関する関連語として「ＸＹＺ」がある場合，誤変換用語として，「ＸＹＧ」がある。第１の会話情報の１番目の会話区分が「これから糖尿病に関する新薬であるＸＹＧについて説明します。」である場合，「ＸＹＧ」は，正しくは，「ＸＹＺ」である可能性が高い。一方，第２の会話情報の１番目の会話区分には，「ＸＹＺ」が含まれている。このため，解析部は，第１の会話情報の１番目の会話区分の誤変換用語である「ＸＹＧ」を，第２の会話区分に含まれる「ＸＹＺ」を用いて修正する。このようにして，「これから糖尿病に関する新薬であるＸＹＧについて説明します。」を「これから糖尿病に関する新薬であるＸＹＺについて説明します。」といった正しい会話情報に修正することができる。この作業は，解析部１１が，誤変換用語を記憶部から読み出すとともに，正しいと判断された会話区分に含まれる用語と誤変換用語とが一致するか否か演算処理を行う。そして，会話区分に含まれる用語と，誤変換用語とが一致する場合は，各会話区分のうち正しい会話区分として採用されなかった会話区分に含まれる誤変換用語に対応する用語を読み出す。そして，特に，読み出した対応する用語が，関連語である場合や，誤変換用語に関して記憶された正しい用語である場合は，それらの用語に置き換える処理を行い，誤変換用語を置き換えた会話区分を記憶部に記憶し，正しい会話区分を更新すればよい。

音声解析システム１の好ましい態様は，第２の音声解析端末５が，第２の解析部５１と，第２のプレゼンテーション記憶部５３と，第２の関連語記憶部５５と，第２の表示部５７と，第２の会話情報受信部５９をさらに有するものである。第２の会話記憶部２３は，第２の会話情報受信部５９が受信した第１の会話情報も記憶する。そして，第２の解析部５１は，第２の特定プレゼンテーション情報取得部６１と，第２の会話区分取得部６３と，第２の関連語抽出部６５と，会話区分選択部６７とを含む。これらの各要素は，基本的には，第１の音声解析端末３の対応する要素と同様である。

第２の解析部５１は，第２の会話記憶部２３が記憶した第２の会話情報を解析するための要素である。
第２のプレゼンテーション記憶部５３は，第２の音声解析端末５に記憶される複数のプレゼンテーション資料である第２のプレゼンテーションを記憶するための要素である。
第２の関連語記憶部５５は，第２のプレゼンテーション資料のそれぞれに関連した関連語を記憶するための要素である。
第２の表示部５７は，第2のプレゼンテーション記憶部１３が記憶したいずれかのプレゼンテーション資料を表示するための要素である。
第２の会話情報受信部５９は，第１の音声解析端末３から第１の会話情報を受信するための要素である。
そして，第２の会話記憶部２３は，第２の会話情報受信部５９が受信した第１の会話情報も記憶する。
第２の解析部５１は，第２の特定プレゼンテーション情報取得部６１と，第２の会話区分取得部６３と，第２の関連語抽出部６５と，会話区分選択部６７とを有する。
第２の特定プレゼンテーション情報取得部６１は，第２のプレゼンテーションのうちのあるプレゼンテーション資料である第２の特定プレゼンテーション資料が選択されたことに関する情報を受け取るための要素である。
第２の会話区分取得部６３は，第２の会話情報における会話区分を分析し，１又は複数の会話区分を得るための要素である。
第２の関連語抽出部６５は，第１の会話情報及び第２の会話情報に含まれる第2の特定プレゼンテーション資料に関する関連語を抽出するための要素である。
会話区分選択部６７は，第２の会話区分取得部６３が得た各会話区分における第１の会話情報に含まれる関連語の数と，第２の会話情報に含まれる関連語の数とを比較し，関連語の数が多い方の会話区分を正しい会話区分として採用するための要素である。

この態様のシステムは，第２の音声解析端末も，第１の音声解析端末と同様に正しい会話区分を得ることができるものである。したがって，各要素の処理は，上記した態様と同様である。

この明細書に記載されるある態様は，プログラムに関する。このプログラムは，コンピュータを，第１の用語解析部７と，第１の会話記憶部９と，解析部１１と，プレゼンテーション記憶部１３と，関連語記憶部１５と，表示部１７と，会話情報受信部２５として機能させるためのプログラムである。このプログラムは，上記した各態様のシステムを実装するためのプログラムとなりうる。このプログラムは，携帯端末にインストールされるアプリケーションの態様を採っていてもよい。

この明細書に記載されるある態様は，上記したプログラムを格納したコンピュータ読み取り可能な情報記録媒体に関する。情報記録媒体の例は，ＣＤ−ＲＯＭ，ＤＶＤ，フロッピーディスク，メモリーカード及びメモリースティックである。

図２は，音声解析システムの処理例を示すフローチャートである。図３は，音声解析システムの処理例を示す概念図である。２つの携帯端末には，上記したプログラムがインストールされている。一方の端末は，例えば，ＭＲのノート型パソコンであり，残りの携帯端末はスマートフォンであり，相手方の音声を拾いやすいように相手方である医師の付近に置かれている。上記したプログラムを実装するアプリケーションが，ノート型パソコンやスマートフォンにインストールされている。

プレゼンテーション資料の選択工程（Ｓ１０１）
ＭＲが，ノート型パソコンに格納されているか，又はサーバから読み出したあるパワーポイント（登録商標）を開く。すると，パソコンに，そのパワーポイント（登録商標）が選択されたことに関する情報が入力される。

プレゼンテーション資料の表示工程（Ｓ１０２）
ノートパソコンの表示部には，そのパワーポイント（登録商標）のページが表示される。一方，スマートフォンの表示部にもパワーポイント（登録商標）のページが表示される。

プレゼンテーション資料の関連語読み出し工程（Ｓ１０３）
一方，パワーポイント（登録商標）のページと関連して，そのページであるプレゼンテーション資料に関連した関連語が記憶部から読み出される。読み出された関連語の例は，「糖尿病」，「新薬」，「ＸＹＺ」，「ＡＢＣ」（他の治療剤の名称），「血糖値」，「副作用」,「血糖」，「緑内障」，「網膜症」，「インスリン」，「ＤＣ製薬」，「添付文書」である。

プレゼンテーション資料に基づく会話（Ｓ１０４）
表示された資料に関連してＭＲと医師との間で会話がなされる。会話は，プレゼンテーションであってもよいし，説明であってもよい。会話の例は，「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは血糖値を下ますか？」である（図３）。

第１の会話情報取得工程（Ｓ１０５）
ノート型パソコンは，会話を収録し，コンピュータ内に入力する。そして，会話に含まれる単語を解析し，第１の会話情報を得る。解析前の第１の会話情報の例は，「これからとうにょうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」といったものである。ノート型パソコンはＭＲ側に設置されており，ＭＲの音声をよく拾う。会話情報は，記憶部に記憶される。

第１の会話解析工程（Ｓ１０６）
例えば解析後の第１の会話情報は，「これから糖尿病に関する新薬であるＸＹＺについて説明しますそれは決闘血を下げますか」といった会話文である。そして，解析された会話文は，記憶部に記憶される。なお，この第１の会話情報は，会話区分が分析されてもよい。その場合，会話区分の例は, 「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは決闘血を下げますか。」といったものである。会話区分は，のちの工程で分析されてもよい。

第２の会話情報取得工程（Ｓ１０７）
スマートフォンにも会話が入力され，記憶される。そして，スマートフォンも起動したアプリケーションにより，会話が解析される。第２の会話情報の例は「これからとうにゅうびょうにかんするしんやくであるえっくぅわいじーについてせつめいしますそれはけっとうちをさげますか」である。ノート型パソコンと，スマートフォンでは，設置された位置や収音の方向などに相違がある。このため，同じ会話を解析しても，ノート型パソコン(第１の音声解析端末)とスマートフォン（第２の音声解析端末）とでは，解析される会話に相違がみられる。この工程は，通常，第１の会話情報取得工程（Ｓ１０５）と同時に行われる。

第２の会話解析工程（Ｓ１０８）
スマートフォン側でも，第２の会話情報が解析される。第２の会話情報の例は,「これから豆乳秒二巻する新約であるＸＹＺについて説明しますそれは血糖値を下げますか？」といったものである。この際に，会話区分が解析されてもよい。会話区分が解析された第２の会話は，「これから豆乳秒二巻する新約であるＸＹＺについて説明します。「それは血糖値を下げますか？」のようになる。第２の会話情報も適宜記憶部に記憶される。

第２の会話情報送信工程（Ｓ１０９）
第２の会話情報は，例えば，スマートフォンからノート型パソコンへ送信される。すると，ノート型パソコン（第１の音声解析端末３）は，スマートフォン（第２の音声解析端末５）から送信された第２の会話情報を受け取る。

会話区分取得工程（Ｓ１１０）
第１の会話情報及び第２の会話情報における会話区分を分析し，１又は複数の会話区分を得てもよい。各端末において会話区分が解析されていてもよい。一方，ノート型パソコン（第１の音声解析端末）で，２つの端末が収録した会話情報について，まとめて会話区分を分析した方が，第１の会話情報と第２の会話情報とで，対応した会話区分を得ることができるので，好ましい。この場合，第１の会話情報の各会話区分と，第２の会話情報の各会話区分とは，会話時間がほぼ同じであるはずである。そのため，計時手段を用いて，各区分を合わせることが好ましい。このようにして，第１の会話情報を区分分けするとともに，対応する第２の会話区分の各会話区分も得ることができる。
会話区分取得部３３は，第２の会話情報における会話区分をも分析し，１又は複数の会話区分を得てもよい。

第１の会話情報は，
「これから糖尿病に関する新薬であるＸＹＺについて説明します。」
「それは決闘血を下げますか。」
という会話文に解析される。
第２の会話情報は，
「これから豆乳秒二巻する新約であるＸＹＺについて説明します。
「それは血糖値を下げますか？」という会話文に解析される。

会話区分選択工程（Ｓ１１０）
各会話区分における第１の会話情報に含まれる関連語の数と，第２の会話情報に含まれる関連語の数とを比較し，関連語の数が多い方の会話区分を正しい会話区分として採用する。
上記の例では，第１の会話情報の１番目の会話区分（例えば「これから糖尿病に関する新薬であるＸＹＺについて説明します。」）を正しい会話区分として採用する。
同様にして，第２の会話情報の２番目の会話区分（「それは血糖値を下げますか？」）を正しい会話区分として採用する。
このようにして採用された会話区分の連続を記憶部に記憶する。
会話区分の連続は，「これから糖尿病に関する新薬であるＸＹＺについて説明します。」「それは血糖値を下げますか？」である。

図４は，音声解析システムの第２の処理例を示す概念図である。この例では，第２の音声解析端末において，会話区分が分析され，会話区分が分析された第２の会話情報が，第１の音声解析端末に送られるものである。この例においても，会話区分の齟齬を避けるため，各会話区分について時刻情報が関連して記憶され，第２の音声解析端末から第１の音声解析端末へ，時刻情報と合わせて送信させることが好ましい。すると，第１の音声解析端末においては，第１の会話情報に含まれる会話区分と第２の会話情報に含まれる会話区分とを一致させることができる。

図５は，音声解析システムの第３の処理例を示す概念図である。この例では，第２の音声解析端末が収音し，デジタル化された会話情報が，第1の音声解析端末へ送信され，第１の音声解析端末が各種解析を行う。なお，特に図示しないが，第１の音声解析端末のみならず，第２の音声解析端末においても，正しい会話区分を解析するようにしてもよい。

このシステムは，音声解析装置として利用されうる。特に，グーグルスピーカー（登録商標）など，音声解析装置は，今後より普及することが考えられる。また，スマートフォンや携帯端末といったユーザに身近な端末にも音声解析装置が実装されることが想定される。例えば，音声解析装置にユーザの声とは別のノイズが収録され，ユーザの声を収録しにくい場合も想定される。一方，そのような場合であっても，ユーザの身近に存在する端末は，ユーザの声を適切に収録できている可能性がある。すると，ユーザに身近な端末が音声情報を収録し，音声解析装置と音声情報を共有することで，より精度高く音声を解析できることとなる。

１音声解析システム
３第１の音声解析端末
５第２の音声解析端末
７第１の用語解析部
９第１の会話記憶部
１１解析部
１３プレゼンテーション記憶部
１５関連語記憶部
１７表示部

２１第２の用語解析部
２３第２の会話記憶部
２５会話情報受信部

３１特定プレゼンテーション情報取得部
３３会話区分取得部
３５関連語抽出部
３７会話区分選択部

４１時刻記憶部
４３周波数解析部
４５誤変換用語記憶部

５１第２の解析部
５３第２のプレゼンテーション記憶部
５５第２の関連語記憶部
５７第２の表示部
５９第２の会話情報受信部
６１第２の特定プレゼンテーション情報取得部
６３第２の会話区分取得部
６５第２の関連語抽出部
６７第２の会話区分選択部

Claims

第１の音声解析端末と，第２の音声解析端末とを含む音声解析システムであって，
第１の音声解析端末は，
会話に含まれる単語を解析し，第１の会話情報を得る第１の用語解析部と，
第１の用語解析部が解析した第１の会話情報を記憶する第１の会話記憶部と，
第１の会話記憶部が記憶した第１の会話情報を解析する解析部と，
複数のプレゼンテーション資料を記憶するプレゼンテーション記憶部と，
前記プレゼンテーション記憶部に記憶されたそれぞれのプレゼンテーション資料に関連した関連語を記憶する関連語記憶部と，
前記プレゼンテーション記憶部が記憶したいずれかのプレゼンテーション資料を表示する表示部と，を含む端末であり，
第２の音声解析端末は，
前記会話に含まれる単語を解析し，第２の会話情報を得る第２の用語解析部と，
第２の用語解析部が解析した第２の会話情報を記憶する第２の会話記憶部と，
を含む端末であり，
第１の音声解析端末は，
第２の音声解析端末から第２の会話情報を受信する会話情報受信部をさらに有し，
第１の会話記録部は、前記会話情報受信部が受信した第２の会話情報も記憶し，
前記解析部は，
前記複数のプレゼンテーション資料のうちのあるプレゼンテーション資料である特定プレゼンテーション資料が選択されたことに関する情報を受け取る特定プレゼンテーション情報取得部と，
第１の会話情報における会話区分を分析し，１又は複数の会話区分を得る会話区分取得部と，
第１の会話情報及び第２の会話情報に含まれる前記特定プレゼンテーション資料に関する前記関連語を抽出する関連語抽出部と，
前記会話区分取得部が得た各会話区分における第１の会話情報に含まれる関連語の数と，第２の会話情報に含まれる関連語の数とを比較し，関連語の数が多い方の会話区分を正しい会話区分として採用する会話区分選択部と，
を含む，音声解析システム。
請求項１に記載の音声解析システムであって，
第１の音声解析端末は，時刻時間を記憶するための時刻記憶部をさらに有し，
第１の会話情報は，前記会話に含まれる単語とともに，各単語と関連した時刻を含み，
前記会話区分取得部は，各単語の時刻情報を用いて，会話区分を分析するシステム。
請求項１に記載の音声解析システムであって，
第１の音声解析端末は，会話に含まれる音声の周波数を解析する周波数解析部をさらに有し，
第１の会話情報は，前記会話に含まれる単語とともに，各単語と関連した音声の周波数を含み，
前記会話区分取得部は，各単語の周波数を用いて，会話区分を分析するシステム。
請求項１に記載の音声解析システムであって，
前記関連語記憶部が記憶する関連語は，プレゼンター用関連語と，リスナー用関連語とを含み，
前記会話区分取得部は，前記会話情報に含まれる前記プレゼンター用関連語と，前記リスナー用関連語とを用いて，前記会話区分を分析する，
システム。
請求項１に記載の音声解析システムであって，
第１の音声解析端末は，
前記複数のプレゼンテーション資料のそれぞれに関連した誤変換用語を記憶した誤変換用語記憶部をさらに有し，
前記解析部は，特定プレゼンテーション資料に関する誤変換用語が含まれる場合，
前記各会話区分のうち前記正しい会話区分として採用されなかった会話区分に含まれる用語のうち，前記正しい会話区分に含まれる前記誤変換用語に対応する用語を用いて，前記正しい会話区分に含まれる用語を修正する，システム。
請求項１に記載の音声解析システムであって，
第２の音声解析端末は，
第２の会話記憶部が記憶した第２の会話情報を解析する第２の解析部と，
第２の音声解析端末に記憶される複数のプレゼンテーション資料である第２のプレゼンテーションを記憶する第２のプレゼンテーション記憶部と，
第２のプレゼンテーション資料のそれぞれに関連した関連語を記憶する第２の関連語記憶部と，
第2のプレゼンテーション記憶部が記憶したいずれかのプレゼンテーション資料を表示する第２の表示部と，
第１の音声解析端末から第１の会話情報を受信する第２の会話情報受信部をさらに有し，
第２の会話記録部は，第２の会話情報受信部が受信した第１の会話情報も記憶し，
第２の解析部は，
第２のプレゼンテーションのうちのあるプレゼンテーション資料である第２の特定プレゼンテーション資料が選択されたことに関する情報を受け取る第２の特定プレゼンテーション情報取得部と，
第２の会話情報における会話区分を分析し，１又は複数の会話区分を得る第２の会話区分取得部と，
第１の会話情報及び第２の会話情報に含まれる第2の特定プレゼンテーション資料に関する関連語を抽出する第２の関連語抽出部と，
第２の会話区分取得部が得た各会話区分における第１の会話情報に含まれる関連語の数と，第２の会話情報に含まれる関連語の数とを比較し，関連語の数が多い方の会話区分を正しい会話区分として採用する第２の会話区分選択部と，
を含む，音声解析システム。