JP7180747B2

JP7180747B2 - 編集支援プログラム、編集支援方法、及び編集支援装置

Info

Publication number: JP7180747B2
Application number: JP2021506790A
Authority: JP
Inventors: 聡三小田; 祐介 ▲濱▼田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2022-11-30
Anticipated expiration: 2039-03-15
Also published as: US20210383813A1; JPWO2020188622A1; EP3940695A1; CN113544772A; WO2020188622A1; KR20210132115A; EP3940695A4

Description

本件は、編集支援プログラム、編集支援方法、及び編集支援装置に関する。

複数の話者の発言データを含む音声データを再生し、ユーザが、各話者の発言データをテキストに書き起こし、各発言データに発言者を示す話者名称を設定することが知られている。また、音声データを音声特徴に基づいて分類し、分類した音声データ毎に任意の話者識別情報を求めることも知られている（以上、例えば特許文献１参照）。

特開２０１４－３８１３２号公報

しかしながら、音声特徴から求めた話者識別情報は、話者の体調等によって変化する場合がある。この結果、その話者識別情報が誤った話者を表すおそれがある。この場合、ユーザは話者識別情報の編集処理に手間がかかるという問題がある。

そこで、１つの側面では、話者の識別結果に対する編集処理の利便性を向上することを目的とする。

１つの実施態様では、編集支援プログラムは、音声認識に基づいて生成された文章について識別された話者を示す情報と、前記文章中の、識別された前記話者に対応する区間とを関連付けて表示部に表示し、前記文章中の第１の箇所を編集処理の始点として指定する、話者の識別結果を編集する第１の編集処理によって、前記第１の箇所を含む区間のうち前記第１の箇所の後の残部の区間についての話者が変更され、変更によって、隣接する話者が共通しない２以上の区間の話者が共通する状態に変更された場合には、隣接する前記２以上の区間を結合した状態で前記表示部に表示し、結合した前記２以上の区間内の第２の箇所を編集処理の始点として指定する、話者の識別結果を編集する第２の編集処理が行われる場合、前記第２の箇所から結合した前記２以上の区間の終点までの間に結合前の前記２以上の区間のいずれかの始点に対応する箇所が存在する場合、前記第２の箇所から前記２以上の区間のいずれかの始点に対応する箇所までの区間に前記第２の編集処理を適用する、処理をコンピュータに実行させる。

話者の識別結果に対する編集処理の利便性を向上することができる。

図１は端末装置の一例である。図２は端末装置のハードウェア構成の一例である。図３は端末装置のブロック図の一例である。図４は端末装置の動作の一例を示すフローチャート（その１）である。図５は端末装置の動作の一例を示すフローチャート（その２）である。図６はポータル画面の一例である。図７は話者データの一例である。図８は第１実施形態に係る更新前の文章データの一例である。図９は編集支援画面の一例である。図１０（ａ）から図１０（ｃ）は実施例に係る編集作業の一例を説明するための図（その１）である。図１１は文章データの更新例を説明するための図である。図１２（ａ）から図１２（ｃ）は実施例に係る編集作業の一例を説明するための図（その２）である。図１３は区切り始点箇所データの一例である。図１４（ａ）及び図１４（ｂ）は実施例に係る編集作業の一例を説明するための図（その３）である。図１５は文章データの他の更新例を説明するための図である。図１６（ａ）及び図１６（ｂ）は比較例に係る編集作業の一例を説明するための図である。図１７（ａ）は第２実施形態に係る更新前の文章データの一例である。図１７（ｂ）は第２実施形態に係る更新後の文章データの一例である。図１８は編集支援システムの一例である。

以下、本件を実施するための形態について図面を参照して説明する。

（第１実施形態）
図１は端末装置１００の一例である。端末装置１００は編集支援装置の一例である。図１では、端末装置１００の一例としてPersonal Computer（ＰＣ）が示されているが、タブレット端末といったスマートデバイスであってもよい。端末装置１００はキーボード及びポインティングデバイス（以下、単にキーボードという）１００Ｆを備えている。端末装置１００はディスプレイ１００Ｇを備えている。ディスプレイ１００Ｇは液晶ディスプレイであってもよいし、有機electro-luminescence（ＥＬ）ディスプレイであってもよい。

ディスプレイ１００Ｇは種々の画面を表示する。詳細は後述するが、例えばディスプレイ１００Ｇは編集支援画面１０を表示する。編集支援画面１０は音声認識に基づいて生成された文章について識別された話者の編集を支援する画面である。話者の識別はArtificial Intelligence（ＡＩ：人工知能）を利用したものであってもよいし、ＡＩを利用せずに事前に定義した所定の音声モデルを利用したものであってもよい。

端末装置１００を利用するユーザは編集支援画面１０上に表示された話者の候補を確認し、キーボード１００Ｆを操作して話者の候補の中からいずれか１つの候補を選択する。これにより、端末装置１００はＡＩ等に基づいて識別された編集前の話者を選択された候補の話者に編集する。このように、ユーザは編集支援画面１０を利用することによって話者を簡便に編集することができる。尚、本実施形態では、ユーザの一例として会議の議事録の作成者について説明するが、ユーザはこのような作成者に特に限定されない。例えば、ユーザは放送字幕の制作者やコールセンターの音声記録担当者などであってもよい。

次に、図２を参照して、端末装置１００のハードウェア構成について説明する。

図２は端末装置１００のハードウェア構成の一例である。図２に示すように、端末装置１００は、少なくともハードウェアプロセッサとしてのCentral Processing Unit（ＣＰＵ）１００Ａ、Random Access Memory（ＲＡＭ）１００Ｂ、Read Only Memory（ＲＯＭ）１００Ｃ、及びネットワークＩ／Ｆ（インタフェース）１００Ｄを含んでいる。また、上述したように、端末装置１００は、キーボード１００Ｆ及びディスプレイ１００Ｇも含んでいる。

さらに、端末装置１００は、必要に応じて、Hard Disk Drive（ＨＤＤ）１００Ｅ、入出力Ｉ／Ｆ１００Ｈ、ドライブ装置１００Ｉ、及び近距離無線通信回路１００Ｊの少なくとも１つを含んでいてもよい。ＣＰＵ１００Ａから近距離無線通信回路１００Ｊは、内部バス１００Ｋによって互いに接続されている。すなわち、端末装置１００はコンピュータによって実現することができる。尚、ＣＰＵ１００Ａに代えてMicro Processing Unit（ＭＰＵ）をハードウェアプロセッサとして利用してもよい。

入出力Ｉ／Ｆ１００Ｈには、半導体メモリ７３０が接続される。半導体メモリ７３０としては、例えばUniversal Serial Bus（ＵＳＢ）メモリやフラッシュメモリなどがある。入出力Ｉ／Ｆ１００Ｈは、半導体メモリ７３０に記憶されたプログラムやデータを読み取る。入出力Ｉ／Ｆ１００Ｈは、例えばＵＳＢポートを備えている。ドライブ装置１００Ｉには、可搬型記録媒体７４０が挿入される。可搬型記録媒体７４０としては、例えばCompact Disc（ＣＤ）－ＲＯＭ、Digital Versatile Disc（ＤＶＤ）といったリムーバブルディスクがある。ドライブ装置１００Ｉは、可搬型記録媒体７４０に記録されたプログラムやデータを読み込む。近距離無線通信回路１００ＪはWi-Fi（登録商標）やBluetooth（登録商標）といった近距離無線通信を実現する電気回路又は電子回路である。近距離無線通信回路１００Ｊにはアンテナ１００Ｊ´が接続されている。近距離無線通信回路１００Ｊに代えて通信機能を実現するＣＰＵが利用されてもよい。ネットワークＩ／Ｆ１００Ｄは、例えばLocal Area Network（ＬＡＮ）ポートを備えている。

上述したＲＡＭ１００Ｂには、ＲＯＭ１００ＣやＨＤＤ１００Ｅに記憶されたプログラムがＣＰＵ１００Ａによって一時的に格納される。ＲＡＭ１００Ｂには、可搬型記録媒体７４０に記録されたプログラムがＣＰＵ１００Ａによって一時的に格納される。格納されたプログラムをＣＰＵ１００Ａが実行することにより、ＣＰＵ１００Ａは後述する各種の機能を実現し、また、後述する各種の処理を実行する。尚、プログラムは後述するフローチャートに応じたものとすればよい。

次に、図３を参照して、端末装置１００の機能構成について説明する。

図３は端末装置１００のブロック図の一例である。図３では端末装置１００の機能の要部が示されている。図３に示すように、端末装置１００は記憶部１１０、処理部１２０、入力部１３０、及び表示部１４０を備えている。記憶部１１０は上述したＲＡＭ１００ＢやＨＤＤ１００Ｅによって実現することができる。処理部１２０は上述したＣＰＵ１００Ａによって実現することができる。入力部１３０は上述したキーボード１００Ｆによって実現することができる。表示部１４０は上述したディスプレイ１００Ｇによって実現することができる。したがって、記憶部１１０、処理部１２０、入力部１３０、及び表示部１４０は互いに接続されている。

ここで、記憶部１１０は音声記憶部１１１、辞書記憶部１１２、文章記憶部１１３、モデル記憶部１１４、及びポイント記憶部１１５を構成要素として含んでいる。処理部１２０は第１表示制御部１２１、音声認識部１２２、文章生成部１２３、及び話者識別部１２４を構成要素として含んでいる。また、処理部１２０は音声再生部１２５、話者編集部１２６、ポイント管理部１２７、及び第２表示制御部１２８を構成要素として含んでいる。

処理部１２０の各構成要素は記憶部１１０の各構成要素の少なくとも１つにアクセスして、各種の処理を実行する。例えば、音声再生部１２５は音声データの再生指示を検出すると、音声記憶部１１１にアクセスして、音声記憶部１１１が記憶する音声データを取得する。音声再生部１２５は音声データを取得すると、音声データを再生する。尚、その他の構成要素については、端末装置１００の動作を説明する際に詳しく記載する。

次に、図４から図１５を参照して、端末装置１００の動作について説明する。

まず、図４に示すように、第１表示制御部１２１はポータル画面を表示する（ステップＳ１０１）。より詳しくは、第１表示制御部１２１は、入力部１３０から出力されたポータル画面の起動指示を検出すると、ポータル画面を表示部１４０に表示する。これにより、図６に示すように、表示部１４０はポータル画面２０を表示する。ポータル画面２０は、第１登録ボタン２１、第２登録ボタン２２、第３登録ボタン２３、及び複数の第４登録ボタン２４を含んでいる。

第１登録ボタン２１は会議の音声データを登録するボタンである。会議の音声データを登録する場合、ユーザは事前に録音された会議の音声データを端末装置１００内に用意する。ユーザが第１登録ボタン２１をポインタＰｔにより押下する操作を行うと、第１表示制御部１２１は第１登録ボタン２１の押下を検出する。第１表示制御部１２１は第１登録ボタン２１の押下を検出すると、端末装置１００内に用意された会議の音声データを音声記憶部１１１に保存する。

第２登録ボタン２２は会議の資料に関する資料データを登録するボタンである。資料データを登録する場合、ユーザは事前に会議の資料データを端末装置１００内に用意する。ユーザが第２登録ボタン２２をポインタＰｔにより押下する操作を行うと、第１表示制御部１２１は第２登録ボタン２２の押下を検出する。第１表示制御部１２１は第２登録ボタン２２の押下を検出すると、端末装置１００内に用意された資料データをポータル画面２０内の第１表示領域２０Ａに表示する。

第３登録ボタン２３は会議の参加者を登録するボタンである。会議の参加者を登録する場合、ユーザは第３登録ボタン２３をポインタＰｔにより押下する操作を行う。ユーザが第３登録ボタン２３を押下する操作を行うと、第１表示制御部１２１は第３登録ボタン２３の押下を検出する。第１表示制御部１２１は第３登録ボタン２３の押下を検出すると、会議の参加者を話者として登録するための登録画面（不図示）を表示部１４０に表示する。ユーザが登録画面に会議における話者（具体的には話者名を示す情報）を入力すると、第１表示制御部１２１は、入力された話者を含む参加者データをポータル画面２０内の第２表示領域２０Ｂに表示する。併せて、第１表示制御部１２１は話者ＩＤを生成し、入力された話者と関連付けてモデル記憶部１１４に保存する。話者ＩＤは話者を識別する情報である。これにより、モデル記憶部１１４は話者ＩＤ及び話者を関連付けて記憶する。

第４登録ボタン２４はいずれも話者の音声データを登録するボタンである。話者の音声データを登録する場合、ユーザは事前に録音された話者の様々な音声データを端末装置１００内に用意する。端末装置１００にマイクを接続し、マイクから取得した音声データを利用してもよい。ユーザが登録対象の話者に関する第４登録ボタン２４をポインタＰｔにより押下する操作を行うと、第１表示制御部１２１は第４登録ボタン２４の押下を検出する。第１表示制御部１２１は第４登録ボタン２４の押下を検出すると、端末装置１００内に用意された音声データを話者識別部１２４に出力する。

話者識別部１２４は第１表示制御部１２１から出力された話者の音声データに基づいて話者の音声の特徴を機械学習した学習済モデルを生成する。話者識別部１２４は生成した学習済モデルを学習対象の音声データに対応する話者の話者ＩＤと関連付けてモデル記憶部１１４に保存する。これにより、図７に示すように、モデル記憶部１１４は話者ＩＤと話者と学習済モデルとを関連付けた話者データを記憶する。モデル記憶部１１４が話者データを記憶すると、第１表示制御部１２１は登録対象の話者に関する参加者データ内に登録マークＲＭを表示する。登録マークＲＭは、モデル記憶部１１４が学習済モデルを記憶したことにより、話者の音声データが登録されたことを表すマークである。

図４に戻り、ステップＳ１０１の処理が完了すると、次いで、音声認識部１２２は音声認識を実行する（ステップＳ１０２）。例えば、音声認識部１２２は音声記憶部１１１を参照し、音声記憶部１１１が会議の音声データを記憶しているか否かを判断する。音声認識部１２２は音声記憶部１１１が会議の音声データを記憶していると判断すると、音声記憶部１１１が記憶している会議の音声データに対して音声認識を実行し、文字列データを生成する。より詳しくは、音声認識部１２２は会議の音声データに含まれる話者の音声に基づいて複数の文字を特定し、特定した文字を時系列に並べて文字毎に文字ＩＤとタイムコードを付与して文字列データを生成する。音声認識部１２２は文字列データを生成すると、生成した文字列データを文章生成部１２３に出力する。尚、音声認識部１２２は複数の音声認識エンジンを備え、それぞれ対応する文字列データを生成する。音声認識エンジンとしては、例えばAmiVoice（登録商標）などがある。

ステップＳ１０２の処理が完了すると、次いで、文章生成部１２３は文章データを生成する（ステップＳ１０３）。より詳しくは、文章生成部１２３は音声認識部１２２が出力した文字列データを受け付けると、辞書記憶部１１２を参照し、文字列データに対して形態素解析を実行する。辞書記憶部１１２は形態素辞書を記憶する。形態素辞書には様々な語句が格納されている。例えば、形態素辞書には「はい」、「確かに」、「資料」、「質問」などの語句が格納されている。したがって、文章生成部１２３は、辞書記憶部１１２を参照して文字列データに対して形態素解析を実行すると、文字列データを複数の単語ブロックに分割した文章データを生成する。文章生成部１２３は文章データを生成すると、生成した文章データを、単語ブロック単位の識別子と関連付けて文章記憶部１１３に保存する。これにより、文章記憶部１１３は文章データを記憶する。

ステップＳ１０３の処理が完了すると、次いで、話者識別部１２４は話者を識別する（ステップＳ１０４）。より詳しくは、話者識別部１２４は、モデル記憶部１１４を参照し、モデル記憶部１１４が記憶する学習済モデルと音声記憶部１１１が記憶する会議の音声データとを比較する。話者識別部１２４は学習済モデルと会議の音声データとを比較し、会議の音声データに学習済モデルと対応（例えば共通又は類似など）する音声部分を検出した場合、その学習済モデルと関連付けられた話者ＩＤとタイムコードを特定する。このように、話者識別部１２４は会議の音声データに含まれる様々な音声部分の各話者を識別する。話者識別部１２４は話者ＩＤとタイムコードを特定すると、タイムコードに基づいて、文章記憶部１１３が記憶する文章データに、特定した話者ＩＤを関連付ける。これにより、図８に示すように、文章記憶部１１３は話者ＩＤと関連付けられた文章データを記憶する。

文章データは、図８に示すように、文字ＩＤ、文字、単語ブロック、タイムコード、話者ＩＤ（初期）、及び話者ＩＤ（現在）を構成要素として含んでいる。特に、単語ブロックには単語ブロックの識別子が登録される。話者ＩＤ（初期）には話者識別部１２４が最初に識別した話者の話者ＩＤが登録される。話者ＩＤ（現在）には話者を編集した後の話者ＩＤが登録される。話者識別部１２４が話者を識別した直後には、話者ＩＤ（初期）と話者ＩＤ（現在）には同じ話者ＩＤが登録される。文章記憶部１１３はこのような文章データを記憶する。尚、文字毎に付与されたタイムコードが直前のタイムコードと共通する場合、直前のタイムコード以後のタイムコードについては省略してもよい。

ステップＳ１０４の処理が完了すると、次いで、第１表示制御部１２１は話者と発話区間を表示する（ステップＳ１０５）。より詳しくは、ステップＳ１０４の処理が完了すると、第１表示制御部１２１はポータル画面２０の表示部１４０への表示を中止し、編集支援画面１０を表示部１４０に表示する。そして、第１表示制御部１２１は編集支援画面１０内で話者とその話者に対応する発話区間を関連付けて表示する。

したがって、図９に示すように、表示部１４０は編集支援画面１０を表示する。編集支援画面１０はスクリプト領域１１、設定領域１２、編集領域１３、再生ボタン１４などを含んでいる。第１表示制御部１２１は、文章データと話者データとに基づいて、編集支援画面１０の編集領域１３内で各話者と文章中の各話者に対応する発話区間を関連付けて表示する。

スクリプト領域１１には文章記憶部１１３が記憶する文章データのタイムコードと文字が互いに関連付いた状態で表示される。特に、スクリプト領域１１におけるスクリプトの欄には話者ＩＤが切り替わった最初のタイムコードからその話者ＩＤの連続が途絶える最後のタイムコードまでの文字が結合された状態で時系列に表示される。設定領域１２には音声データの再生形式に関する設定項目や話者を編集した後の文章データの出力形式に関する設定項目などが表示される。

編集領域１３には、上述したように、話者と発話区間が関連付けられて表示される。例えば、編集領域１３内において話者「小田」と発話区間「…ですよね」が関連付けられて表示されている。同様に、話者「木村」と発話区間「確かにはいその資料について質問が」が関連付けられて表示されている。話者「山田」と発話区間「質問お願いします」が関連付けられて表示されている。

また、編集領域１３には、話者と発話区間のほか、進行マーク１６及び切り替わりポイント１７が表示される。進行マーク１６は音声データの現在の再生位置を示すマークである。切り替わりポイント１７は単語ブロック（図８参照）の切り替わりを示すポイントである。すなわち、単語ブロックが別の単語ブロックに切り替わる２つの単語ブロックの間の位置に切り替わりポイント１７が表示される。本実施形態では、１つの切り替わりポイント１７を表示しているが、例えば複数の切り替わりポイントを表示し、複数の切り替わりポイントの１つを現在の切り替わりポイント１７とし、残りの切り替わりポイントと異なる色を付してもよい。これにより、ユーザはどの位置で単語ブロックが切り替わるのかを確認することができる。

切り替わりポイント１７は入力部１３０に対する操作に応じて左右に移動させることができる。例えば、ユーザが右矢印を示すカーソルキーを押下する操作を行うと、第１表示制御部１２１は切り替わりポイント１７を右に移動させる。ユーザが左矢印を示すカーソルキーを押下する操作を行うと、第１表示制御部１２１は切り替わりポイント１７を左に移動させる。尚、切り替わりポイント１７を右側一方向に移動させる場合には、切り替わりポイント１７を移動させるキーをスペースキーとしてもよい。切り替わりポイント１７を移動させるキーは設計や実験などに応じて適宜決定すればよい。

ステップＳ１０５の処理が完了すると、次いで、音声再生部１２５は再生指示を検出するまで待機する（ステップＳ１０６：ＮＯ）。音声再生部１２５は再生指示を検出すると（ステップＳ１０６：ＹＥＳ）、音声データを再生する（ステップＳ１０７）。より詳しくは、再生ボタン１４（図９参照）がポインタＰｔにより押下されると、音声再生部１２５は音声データの再生指示を検出し、音声データを再生し始める。音声データの再生が開始すると、音声データの再生スピードに応じて進行マーク１６（図９参照）が右方向に移動する。ユーザは会議の音声データを再生してその音声を聴きながら、切り替わりポイント１７を移動させて、話者を編集する位置を特定する操作を行う。

ステップＳ１０７の処理が完了すると、第１表示制御部１２１は始点が指定されるまで待機する（ステップＳ１０８：ＮＯ）。第１表示制御部１２１は始点が指定されると（ステップＳ１０８：ＹＥＳ）、第１編集画面を表示する（ステップＳ１０９）。より詳しくは、図１０（ａ）に示すように、ユーザは、まず、切り替わりポイント１７を移動させて話者の編集を希望する所定の位置で停止させる。ユーザがその所定の位置で例えばエンター（Enter）キーを押下する操作を行うと、第１表示制御部１２１はその所定の位置が始点として指定されたと判断する。第１表示制御部１２１は始点が指定されると、図１０（ｂ）に示すように、第１編集画面３０を編集領域１３に重畳して表示する。第１編集画面３０は編集処理をユーザに要求する画面である。また、第１表示制御部１２１は、第１編集画面３０の表示と併せて、その始点に対応する発話区間において、その始点より前に位置する一又は複数の単語ブロックに相当する一部の発話区間を特定する。本実施形態では、第１表示制御部１２１は一つの単語ブロック「確かに」に相当する一部の発話区間を特定する。尚、第１編集画面３０の表示と一部の発話区間の特定の順序は逆であってもよい。

ステップＳ１０９の処理が完了すると、話者編集部１２６は選択指示を検出するまで待機する（ステップＳ１１０：ＮＯ）。話者編集部１２６は選択指示を検出すると（ステップＳ１１０：ＹＥＳ）、図５に示すように、話者を編集する（ステップＳ１１１）。より詳しくは、図１０（ｂ）に示すように、ユーザが入力部１３０を操作して第１編集画面３０に含まれる複数の話者のいずれかをポインタＰｔにより選択する操作を行うと、話者編集部１２６は選択指示を検出する。ユーザは第１編集画面３０に含まれる複数の数値のいずれかをテンキーにより選択する操作を行ってもよい。

ここで、第１編集画面３０に含まれる話者は発声順序と発声量の少なくとも一方に応じた優先順位に従って並んで配置されている。例えば、会議における司会進行役の話者は他の話者より発声順序が先であることが多く、また、発声量も多いと想定される。このため、第１編集画面３０では編集の可能性が高い話者から順に並んで配置される。これにより、話者の編集処理の手間を抑えることができる。

話者編集部１２６は選択指示を検出すると、編集処理が発生したと判断し、第１表示制御部１２１により特定された一部の発話区間に編集処理を適用し、その一部の発話区間の話者を、選択された話者に編集して表示する。本実施形態では、話者編集部１２６は単語ブロック「確かに」に相当する一部の発話区間に編集処理を適用し、その一部の発話区間の話者「木村」を、選択された話者「木村」に編集して表示する。尚、この例では実質的な変更がないため、詳細な説明は後述する。

ステップＳ１１１の処理が完了すると、話者編集部１２６は話者が共通するか否かを判断する（ステップＳ１１２）。より詳しくは、話者編集部１２６は編集後の話者と編集後の話者の単語ブロックに相当する一部の発話区間の直前に位置する前の発話区間の話者が共通するか否かを判断する。本実施形態では、話者編集部１２６は編集後の話者「木村」と編集後の話者「木村」の単語ブロック「確かに」に相当する一部の発話区間の直前に位置する前の発話区間「…ですよね」の話者「小田」が共通するか否かを判断する。ここでは、話者「木村」と話者「小田」が共通しないため、話者編集部１２６は話者が共通しないと判断する（ステップＳ１１２：ＮＯ）。

話者が共通しない場合、話者編集部１２６は、ステップＳ１１３及びＳ１１４の処理をスキップして、始点後が処理済であるか否かを判断する（ステップＳ１１５）。話者編集部１２６は始点後が処理済でないと判断した場合（ステップＳ１１５：ＮＯ）、第１表示制御部１２１は、図４に示すように、再び、ステップＳ１０９の処理を実行する。すなわち、初めのステップＳ１０９の処理では、図１０（ｂ）に示すように、切り替わりポイント１７により特定された始点に対応する発話区間において、その始点より前に位置する一つの単語ブロック「確かに」に相当する一部の発話区間が話者の編集処理の対象とされた。しかしながら、切り替わりポイント１７により特定された始点に対応する発話区間において、その始点より後に位置する複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間が話者の編集処理の対象とされていない。このため、話者編集部１２６は始点後が処理済でないと判断し、第１表示制御部１２１は、図１０（ｃ）に示すように、再び、第１編集画面３０を編集領域１３に重畳して表示する。また、第１表示制御部１２１は、第１編集画面３０の表示と併せて、その始点に対応する発話区間において、その始点より後に位置する一又は複数の単語ブロックに相当する残部の発話区間を特定する。本実施形態では、第１表示制御部１２１は複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間を特定する。

２度目のステップＳ１０９の処理が完了し、ステップＳ１１０の処理において、話者編集部１２６が選択指示を検出すると、ステップＳ１１１（図５参照）の処理において、話者編集部１２６は話者を編集する。より詳しくは、図１０（ｃ）に示すように、ユーザが再び入力部１３０を操作して第１編集画面３０に含まれる複数の話者のいずれかをポインタＰｔにより選択する操作を行うと、話者編集部１２６は選択指示を検出する。話者編集部１２６は選択指示を検出すると、文章記憶部１１３にアクセスし、図１１に示すように、特定された単語ブロックに対応する話者の話者ＩＤ（現在）を編集後の話者の話者ＩＤに更新する。また、話者編集部１２６は選択指示を検出すると、編集処理が発生したと判断して、特定された残部の発話区間に編集処理を適用し、その残部の発話区間の話者を、選択された話者に編集して表示する。本実施形態では、話者編集部１２６は複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間に編集処理を適用し、その残部の発話区間の話者「木村」を、選択された話者「山田」に編集して表示する。

ステップＳ１１１の処理が完了すると、ステップＳ１１２の処理において、話者編集部１２６は再び話者が共通するか否かを判断する。本実施形態では、話者編集部１２６は編集後の話者「山田」と編集後の話者「山田」の複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間の直後に位置する後の発話区間「質問お願いします」の話者「山田」が共通するか否かを判断する。ここでは、２つの話者「山田」が共通するため、話者編集部１２６は話者が共通すると判断する（ステップＳ１１２：ＹＥＳ）。

話者が共通する場合、話者編集部１２６は発話区間を結合状態で表示する（ステップＳ１１３）。より詳しくは、話者編集部１２６は編集後に共通する２つの話者の発話区間を結合した状態で表示する。併せて、話者編集部１２６は結合前の２つの発話区間のそれぞれに対応付いた２つの話者いずれか一方を結合後の発話区間と対応付けて表示する。これにより、話者編集部１２６は複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間と後の発話区間「質問お願いします」を結合し、図１２（ａ）に示すように、新たな発話区間「はいその資料について質問が質問お願いします」と２つの発話区間を結合した状態で表示する。また、結合した発話区間に対し１人の話者を対応付けて表示する。このように、話者が編集され、発話区間が結合される。特に、切り替わりポイント１７により特定される始点より前に対する処理が完了した後に動的にその始点より後に対する処理が要求されるため、時系列に沿った編集作業となり、編集作業の手間が抑制される。

ステップＳ１１３の処理が完了すると、次いで、ポイント管理部１２７は区切り始点箇所を保存する（ステップＳ１１４）。より詳しくは、ポイント管理部１２７は発話区間を結合する前の２つの発話区間の区切りを特定する始点の箇所を区切り始点箇所データとしてその箇所に対応する始点及び結合した発話区間の終点と併せてポイント記憶部１１５に保存する。これにより、ポイント記憶部１１５は区切り始点箇所データを記憶する。

本実施形態では、図１０（ｃ）に示すように、発話区間を結合する前の２つの発話区間の区切り始点箇所は、発話区間「確かにはいその資料について質問が」と発話区間「質問お願いします」の間の始点Ｐ１に相当する。このため、図１３に示すように、ポイント記憶部１１５は発話区間の末尾の単語ブロック「質問が」の識別子「０８」と発話区間の先頭の単語ブロック「質問」の識別子「０９」を関連付けて、区切り始点箇所データとして記憶する。また、ポイント記憶部１１５は区切り始点箇所データの記憶と併せて、区切り始点箇所に対応する始点及び結合した発話区間の終点を特定できる単語ブロックの識別子を記憶する。例えば、ポイント記憶部１１５は単語ブロック「確かに」の識別子「０３」及び単語ブロック「はい」の識別子「０４」を、始点を特定できる単語ブロックとして記憶する。また、ポイント記憶部１１５は単語ブロック「します」の識別子「１１」と所定の識別子「－」を、終点を特定できる単語ブロックの識別子として記憶する。尚、単語ブロックの識別子に代えて、文字ＩＤを単語ブロックの識別子と同様に利用してもよい。

ステップＳ１１４の処理が完了すると、再び、ステップＳ１１５の処理において、話者編集部１２６は始点後が処理済であるか否かを判断する。話者編集部１２６は始点後が処理済であると判断した場合（ステップＳ１１５：ＹＥＳ）、次いで、第２表示制御部１２８は別の始点が指定されるまで待機する（ステップＳ１１６：ＮＯ）。第２表示制御部１２８は別の始点が指定されると（ステップＳ１１６：ＹＥＳ）、第２編集画面を表示する（ステップＳ１１７）。より詳しくは、図１２（ｂ）に示すように、ユーザが切り替わりポイント１７を移動させて上述した所定の位置と異なる別の位置で停止させ、エンターキーを押下する操作を行うと、第２表示制御部１２８はその別の位置が始点として指定されたと判断する。第２表示制御部１２８は別の始点が指定されると、図１２（ｃ）に示すように、第２編集画面４０を編集領域１３に重畳して表示する。第２編集画面４０は編集処理をユーザに要求する画面である。第２編集画面４０に含まれる話者は第１編集画面３０と同様に並んでいる。また、第２表示制御部１２８は、第２編集画面４０の表示と併せて、その始点に対応する発話区間において、その始点より前に位置する一又は複数の単語ブロックに相当する一部の発話区間を特定する。本実施形態では、第２表示制御部１２８は一つの単語ブロック「はい」に相当する一部の発話区間を特定する。尚、第２編集画面４０の表示と一部の発話区間の特定の順序は逆であってもよい。

ステップＳ１１７の処理が完了すると、話者編集部１２６は選択指示を検出するまで待機する（ステップＳ１１８：ＮＯ）。話者編集部１２６は選択指示を検出すると（ステップＳ１１８：ＹＥＳ）、話者を編集する（ステップＳ１１９）。より詳しくは、図１２（ｃ）に示すように、ユーザが入力部１３０を操作して第２編集画面４０に含まれる複数の話者のいずれかをポインタＰｔにより選択する操作を行うと、話者編集部１２６は選択指示を検出する。ユーザは第２編集画面４０に含まれる複数の数値のいずれかをテンキーにより選択する操作を行ってもよい。話者編集部１２６は選択指示を検出すると、編集処理が発生したと判断して、特定された一部の発話区間に編集処理を適用し、その一部の発話区間の話者を、選択された話者に編集して表示する。本実施形態では、話者編集部１２６は単語ブロック「はい」に相当する一部の発話区間に編集処理を適用し、その一部の発話区間の話者「山田」を、選択された話者「山田」に編集して表示する。尚、この例では実質的な変更がないため、詳細な説明は後述する。

ステップＳ１１９の処理が完了すると、第２表示制御部１２８は第２編集画面を再表示する（ステップＳ１２０）。より詳しくは、第２表示制御部１２８は、図１４（ａ）に示すように、第２編集画面４０を編集領域１３に重畳して再表示する。また、第２表示制御部１２８は、第２編集画面４０の再表示と併せて、その別の始点に対応する発話区間において、その別の始点より後に位置する一又は複数の単語ブロックに相当する残部の発話区間を特定の発話区間として特定する。本実施形態では、第２表示制御部１２８は複数の単語ブロック「その資料について質問が質問お願いします」に相当する残部の発話区間を特定の発話区間として特定する。尚、第２編集画面４０の再表示と残部の発話区間の特定の順序は逆であってもよい。

ステップＳ１２０の処理が完了すると、話者編集部１２６は選択指示を検出するまで待機する（ステップＳ１２１：ＮＯ）。話者編集部１２６は選択指示を検出すると（ステップＳ１２１：ＹＥＳ）、ポイント管理部１２７は区切り始点箇所があるか否かを判断する（ステップＳ１２２）。より詳しくは、ポイント管理部１２７は、ポイント記憶部１１５を参照し、区切り始点箇所データがポイント記憶部１１５に記憶されているか否かを判断する。

ポイント管理部１２７は区切り始点箇所があると判断した場合（ステップＳ１２２：ＹＥＳ）、話者編集部１２６は区切り始点箇所まで話者を編集して（ステップＳ１２３）、処理を終了する。より詳しくは、図１４（ａ）に示すように、ユーザが入力部１３０を操作して第２編集画面４０に含まれる複数の話者のいずれかをポインタＰｔにより選択する操作を行うと、話者編集部１２６は選択指示を検出する。話者編集部１２６は選択指示を検出すると、文章記憶部１１３にアクセスする。そして、話者編集部１２６は、図１５に示すように、特定された単語ブロックの中から、別の始点直後の単語ブロックから区切り始点箇所直前までの単語ブロックに対応する話者の話者ＩＤ（現在）に編集処理を適用しその話者ＩＤを、編集後の話者の話者ＩＤに更新する。

また、話者編集部１２６は選択指示を検出すると、編集処理が発生したと判断して、特定の発話区間に編集処理を適用し、その特定の発話区間の話者を、選択された話者に編集して表示する。本実施形態では、話者編集部１２６は、図１４（ｂ）に示すように、複数の単語ブロック「その資料について質問が」に相当する特定の発話区間に編集処理を適用し、その特定の発話区間の話者「山田」を、選択された話者「木村」に編集して表示する。

一方、ポイント管理部１２７は区切り始点箇所がないと判断した場合（ステップＳ１２２：ＮＯ）、話者編集部１２６はステップＳ１２３の処理をスキップして処理を終了する。尚、区切り始点箇所がない場合、話者編集部１２６はエラー処理を実行してから処理を終了してもよい。

図１６（ａ）及び図１６（ｂ）は比較例を説明するための図である。特に、図１６（ａ）及び図１６（ｂ）は上述した図１４（ａ）及び図１４（ｂ）に対応する図である。上述したように、第１実施形態では、ポイント管理部１２７が区切り始点箇所データをポイント記憶部１１５に保存して管理することを説明した。例えば、区切り始点箇所データが管理されていない場合、図１６（ａ）に示すように、ユーザが入力部１３０を操作して第２編集画面４０に含まれる複数の話者のいずれかをポインタＰｔにより選択する操作を行うと、話者編集部１２６は選択指示を検出する。話者編集部１２６は選択指示を検出すると、第２表示制御部１２８により特定された複数の単語ブロック全てに相当する残部の発話区間の話者を、選択された話者に編集して表示する。比較例では、話者編集部１２６は、図１６（ｂ）に示すように、複数の単語ブロック「その資料について質問が質問お願いします」の全てに相当する残部の発話区間の話者「山田」を、選択された話者「木村」に編集して表示する。このため、話者に誤りがない複数の単語ブロック「質問お願いします」まで編集されてしまい、この部分について改めてユーザには編集作業が発生する。しかしながら、第１実施形態によれば、このような無駄な編集作業が発生しない。すなわち、第１実施形態によれば、比較例と対比して、話者の識別結果に対する編集処理の利便性が向上する。

以上、第１実施形態によれば、端末装置１００は処理部１２０を含み、処理部１２０は第１表示制御部１２１、話者編集部１２６、及び第２表示制御部１２８を含んでいる。第１表示制御部１２１は音声認識に基づいて生成された文章データについて識別された話者を示す情報と、文章データ中の、識別された話者に対応する発話区間とを関連付けて表示部１４０に表示する。話者編集部１２６は話者の識別結果を編集する編集処理が発生し、その編集処理によって、隣接する２以上の発話区間の各話者が共通する場合には、隣接する２以上の発話区間を結合した状態で表示部１４０に表示する。第２表示制御部１２８は結合した２以上の発話区間内の特定の発話区間について、話者の識別結果を編集する編集処理を行う発話区間の始点が指定され、かつ、指定された始点から、結合した２以上の発話区間の終点までの間に結合前の２以上の区間のいずれかの始点に対応する箇所が存在する場合、指定された始点からその箇所までの発話区間に編集処理を適用する。これにより、話者の識別結果に対する編集処理の利便性を向上することができる。

特に、話者の識別に学習済モデルや所定の音声モデルを利用し、話者が短い単語ブロックを発話した場合、話者の音声の特徴を十分に判別することができず、精度良く話者を識別できない可能性がある。短い単語ブロックとしては、例えば「はい」など、数文字程度の単語ブロックが該当する。精度良く話者を識別できない場合、端末装置１００は誤った識別結果を表示するおそれがある。このような場合であっても、本実施形態によれば、話者の識別結果に対する編集処理の利便性を向上することができる。

（第２実施形態）
続いて、図１７を参照して、本件の第２実施形態について説明する。図１７（ａ）は第２実施形態に係る更新前の文章データの一例である。図１７（ｂ）は第２実施形態に係る更新後の文章データの一例である。第１実施形態では、話者編集部１２６は話者を一又は複数の単語ブロック単位で編集したが、単語ブロックに含まれる文字の単位で話者を編集してもよい。この場合、上述した切り替わりポイント１７を文字単位で移動させればよい。

例えば、図１７（ａ）に示すように、単語ブロックの識別子「０９」が共通する文字「質」及び文字「問」に関し、図１７（ｂ）に示すように、話者編集部１２６が文字「質」の話者ＩＤ（現在）を話者ＩＤ「０３」から不図示の話者「香川」を識別する話者ＩＤ「０４」に更新する。この場合、話者編集部１２６は単語ブロックの識別子を分割し、単語ブロックの以後の識別子を付与し直す。具体的には、図１７（ｂ）に示すように、話者編集部１２６は文字「問」の単語ブロックの識別子「０９」を識別子「１０」に付与し直す。以後の識別子についても同様である。また、話者編集部１２６は元の単語ブロックの発話時間に基づいて新たな単語ブロックの発話時間を推定することができる。例えば、話者編集部１２６は元の単語ブロックの発話時間＋文字数×数ミリ秒を新たな単語ブロックの発話時間として推定することができる。

このように、第２実施形態によれば、文字単位に話者を編集する場合であっても、話者の識別結果に対する編集処理の利便性を向上することができる。

（第３実施形態）
続いて、図１８を参照して、本件の第３実施形態について説明する。図１８は編集支援システムＳＴの一例である。尚、図３に示す端末装置１００の各部と同様の構成には同一符号を付し、その説明を省略する。

編集支援システムＳＴは端末装置１００とサーバ装置２００を含んでいる。端末装置１００とサーバ装置２００は通信ネットワークＮＷを介して接続されている。通信ネットワークＮＷとしては、例えばLocal Area Network（ＬＡＮ）やインターネットなどがある。

図１８に示すように、端末装置１００は入力部１３０、表示部１４０、及び通信部１５０を備えている。一方、サーバ装置２００は記憶部１１０、処理部１２０、及び通信部１６０を備えている。２つの通信部１５０，１６０はいずれもネットワークＩ／Ｆ１００Ｄ又は近距離無線通信回路１００Ｊによって実現することができる。このように、第１実施形態で説明した記憶部１１０及び処理部１２０を、端末装置１００に代えて、サーバ装置２００が備えていてもよい。すなわち、サーバ装置２００を編集支援装置としてもよい。

この場合、端末装置１００の入力部１３０が操作されて、上述した会議の音声データが２つの通信部１５０，１６０を介して記憶部１１０（より詳しくは音声記憶部１１１）に格納される。また、入力部１３０が操作されて、上述した話者の音声データが２つの通信部１５０，１６０を介して処理部１２０（より詳しくは話者識別部１２４）に入力される。

処理部１２０は記憶部１１０にアクセスして、会議の音声データを取得し、会議の音声データに対し、第１実施形態で説明した各種の処理を実行して文章データを生成する。また、処理部１２０は、入力された話者の音声データに基づいて、話者の音声の特徴を機械学習した学習済モデルを生成する。そして、処理部１２０は会議の音声データと学習済モデルとに基づいて話者を識別する。処理部１２０は識別した話者とその話者に対応する発話区間を関連付けて表示する編集支援画面１０の画面情報を処理結果として通信部１６０に出力する。通信部１６０は処理結果を通信部１５０に送信し、通信部１５０は処理結果を受信すると、画面情報を表示部１４０に出力する。これにより、表示部１４０は編集支援画面１０を表示する。

このように、端末装置１００が記憶部１１０と処理部１２０を備えずに、サーバ装置２００が記憶部１１０と処理部１２０を備えていてもよい。また、サーバ装置２００が記憶部１１０を備え、通信ネットワークＮＷに接続された別のサーバ装置（不図示）が処理部１２０を備えていてもよい。このような構成を編集支援システムとしてもよい。このような実施形態であっても、話者の識別結果に対する編集処理の利便性を向上することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。例えば、上述した実施形態では、第１編集画面３０を連続して動的に表示することを説明した。一方で、カーソルキーで切り替わりポイント１７を移動させ、エンターキーを押下することによってその都度毎に第１編集画面３０を表示させるようにしてもよい。このような制御を第２編集画面４０に適用してもよい。また、参加者データが登録されていない場合には、話者に代えて、識別文字や識別記号を識別結果として採用してもよい。

１００端末装置
１１０記憶部
１１５ポイント記憶部
１２０処理部
１２１第１表示制御部
１２２音声認識部
１２３文章生成部
１２４話者識別部
１２５音声再生部
１２６話者編集部
１２７ポイント管理部
１２８第２表示制御部
１３０入力部
１４０表示部

Claims

音声認識に基づいて生成された文章について識別された話者を示す情報と、前記文章中の、識別された前記話者に対応する区間とを関連付けて表示部に表示し、
前記文章中の第１の箇所を編集処理の始点として指定する、話者の識別結果を編集する第１の編集処理によって、前記第１の箇所を含む区間のうち前記第１の箇所の後の残部の区間についての話者が変更され、変更によって、隣接する話者が共通しない２以上の区間の話者が共通する状態に変更された場合には、隣接する前記２以上の区間を結合した状態で前記表示部に表示し、
結合した前記２以上の区間内の第２の箇所を編集処理の始点として指定する、話者の識別結果を編集する第２の編集処理が行われ、前記第２の箇所から結合した前記２以上の区間の終点までの間に結合前の前記２以上の区間のいずれかの始点に対応する箇所が存在する場合、前記第２の箇所から前記２以上の区間のいずれかの始点に対応する箇所までの区間に前記第２の編集処理を適用する、
処理をコンピュータに実行させるための編集支援プログラム。
前記第１の箇所が編集処理の始点として指定されたことに応じて、前記第１の編集処理を要求する第１の編集画面を前記表示部に表示し、
前記第１の編集画面に対する指示に基づいて、前記第１の箇所を含む区間のうち前記第１の箇所の後の残部の区間に前記第１の編集処理を適用し、
前記第２の箇所が編集処理の始点として指定されたことに応じて、前記第２の編集処理を要求する第２の編集画面を前記表示部に表示し、
前記第２の編集画面に対する指示に基づいて、指定された前記第２の箇所から前記２以上の区間のいずれかの始点に対応する箇所までの区間に前記第２の編集処理を適用する、
ことを特徴とする請求項１に記載の編集支援プログラム。
前記第１の編集画面及び前記第２の編集画面は、いずれも、編集対象として前記話者を示す情報を含み、前記話者を示す情報は前記話者の発声順序と発声量の少なくとも一方に応じた優先順位に従って並んでいる、
ことを特徴とする請求項２に記載の編集支援プログラム。
前記話者の音声と前記音声認識とに基づいて、前記文章を生成し、
前記話者の音声と前記話者の音声の特徴を学習した学習済モデルとに基づいて、生成した前記文章について前記話者を識別する、
処理を含むことを特徴とする請求項１から３のいずれか１項に記載の編集支援プログラム。
前記第１の箇所、前記第２の箇所、及び前記２以上の区間のいずれかの始点に対応する箇所を記憶部に保存する処理を含み、
前記記憶部を参照して、前記第２の箇所から前記２以上の区間のいずれかの始点に対応する箇所までの区間に前記第２の編集処理を適用する、
ことを特徴とする請求項１から４のいずれか１項に記載の編集支援プログラム。
音声認識に基づいて生成された文章について識別された話者を示す情報と、前記文章中の、識別された前記話者に対応する区間とを関連付けて表示部に表示し、
前記文章中の第１の箇所を編集処理の始点として指定する、話者の識別結果を編集する第１の編集処理によって、前記第１の箇所を含む区間のうち前記第１の箇所の後の残部の区間についての話者が変更され、変更によって、隣接する話者が共通しない２以上の区間の話者が共通する状態に変更された場合には、隣接する前記２以上の区間を結合した状態で前記表示部に表示し、
結合した前記２以上の区間内の第２の箇所を編集処理の始点として指定する、話者の識別結果を編集する第２の編集処理が行われ、前記第２の箇所から結合した前記２以上の区間の終点までの間に結合前の前記２以上の区間のいずれかの始点に対応する箇所が存在する場合、前記第２の箇所から前記２以上の区間のいずれかの始点に対応する箇所までの区間に前記第２の編集処理を適用する、
処理をコンピュータが実行する編集支援方法。
音声認識に基づいて生成された文章について識別された話者を示す情報と、前記文章中の、識別された前記話者に対応する区間とを関連付けて表示部に表示し、
前記文章中の第１の箇所を編集処理の始点として指定する、話者の識別結果を編集する第１の編集処理によって、前記第１の箇所を含む区間のうち前記第１の箇所の後の残部の区間についての話者が変更され、変更によって、隣接する話者が共通しない２以上の区間の話者が共通する状態に変更された場合には、隣接する前記２以上の区間を結合した状態で前記表示部に表示し、
結合した前記２以上の区間内の第２の箇所を編集処理の始点として指定する、話者の識別結果を編集する第２の編集処理が行われ、前記第２の箇所から結合した前記２以上の区間の終点までの間に結合前の前記２以上の区間のいずれかの始点に対応する箇所が存在する場合、前記第２の箇所から前記２以上の区間のいずれかの始点に対応する箇所までの区間に前記第２の編集処理を適用する、
処理を実行する処理部を備える編集支援装置。