JP7180747B2 - 編集支援プログラム、編集支援方法、及び編集支援装置 - Google Patents

編集支援プログラム、編集支援方法、及び編集支援装置 Download PDF

Info

Publication number
JP7180747B2
JP7180747B2 JP2021506790A JP2021506790A JP7180747B2 JP 7180747 B2 JP7180747 B2 JP 7180747B2 JP 2021506790 A JP2021506790 A JP 2021506790A JP 2021506790 A JP2021506790 A JP 2021506790A JP 7180747 B2 JP7180747 B2 JP 7180747B2
Authority
JP
Japan
Prior art keywords
speaker
editing
editing process
point
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021506790A
Other languages
English (en)
Other versions
JPWO2020188622A1 (ja
Inventor
聡 三小田
祐介 ▲濱▼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2020188622A1 publication Critical patent/JPWO2020188622A1/ja
Application granted granted Critical
Publication of JP7180747B2 publication Critical patent/JP7180747B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本件は、編集支援プログラム、編集支援方法、及び編集支援装置に関する。
複数の話者の発言データを含む音声データを再生し、ユーザが、各話者の発言データをテキストに書き起こし、各発言データに発言者を示す話者名称を設定することが知られている。また、音声データを音声特徴に基づいて分類し、分類した音声データ毎に任意の話者識別情報を求めることも知られている(以上、例えば特許文献1参照)。
特開2014-38132号公報
しかしながら、音声特徴から求めた話者識別情報は、話者の体調等によって変化する場合がある。この結果、その話者識別情報が誤った話者を表すおそれがある。この場合、ユーザは話者識別情報の編集処理に手間がかかるという問題がある。
そこで、1つの側面では、話者の識別結果に対する編集処理の利便性を向上することを目的とする。
1つの実施態様では、編集支援プログラムは、音声認識に基づいて生成された文章について識別された話者を示す情報と、前記文章中の、識別された前記話者に対応する区間とを関連付けて表示部に表示し、前記文章中の第1の箇所を編集処理の始点として指定する、話者の識別結果を編集する第1の編集処理によって、前記第1の箇所を含む区間のうち前記第1の箇所の後の残部の区間についての話者が変更され変更によって、隣接する話者が共通しない2以上の区間の話者が共通する状態に変更された場合には、隣接する前記2以上の区間を結合した状態で前記表示部に表示し、結合した前記2以上の区間内の第2の箇所を編集処理の始点として指定する、話者の識別結果を編集する第2の編集処理が行われる場合、前第2の箇所ら結合した前記2以上の区間の終点までの間に結合前の前記2以上の区間のいずれかの始点に対応する箇所が存在する場合、前第2の箇所から前記2以上の区間のいずれかの始点に対応する箇所までの区間に前記第2の編集処理を適用する、処理をコンピュータに実行させる。
話者の識別結果に対する編集処理の利便性を向上することができる。
図1は端末装置の一例である。 図2は端末装置のハードウェア構成の一例である。 図3は端末装置のブロック図の一例である。 図4は端末装置の動作の一例を示すフローチャート(その1)である。 図5は端末装置の動作の一例を示すフローチャート(その2)である。 図6はポータル画面の一例である。 図7は話者データの一例である。 図8は第1実施形態に係る更新前の文章データの一例である。 図9は編集支援画面の一例である。 図10(a)から図10(c)は実施例に係る編集作業の一例を説明するための図(その1)である。 図11は文章データの更新例を説明するための図である。 図12(a)から図12(c)は実施例に係る編集作業の一例を説明するための図(その2)である。 図13は区切り始点箇所データの一例である。 図14(a)及び図14(b)は実施例に係る編集作業の一例を説明するための図(その3)である。 図15は文章データの他の更新例を説明するための図である。 図16(a)及び図16(b)は比較例に係る編集作業の一例を説明するための図である。 図17(a)は第2実施形態に係る更新前の文章データの一例である。図17(b)は第2実施形態に係る更新後の文章データの一例である。 図18は編集支援システムの一例である。
以下、本件を実施するための形態について図面を参照して説明する。
(第1実施形態)
図1は端末装置100の一例である。端末装置100は編集支援装置の一例である。図1では、端末装置100の一例としてPersonal Computer(PC)が示されているが、タブレット端末といったスマートデバイスであってもよい。端末装置100はキーボード及びポインティングデバイス(以下、単にキーボードという)100Fを備えている。端末装置100はディスプレイ100Gを備えている。ディスプレイ100Gは液晶ディスプレイであってもよいし、有機electro-luminescence(EL)ディスプレイであってもよい。
ディスプレイ100Gは種々の画面を表示する。詳細は後述するが、例えばディスプレイ100Gは編集支援画面10を表示する。編集支援画面10は音声認識に基づいて生成された文章について識別された話者の編集を支援する画面である。話者の識別はArtificial Intelligence(AI:人工知能)を利用したものであってもよいし、AIを利用せずに事前に定義した所定の音声モデルを利用したものであってもよい。
端末装置100を利用するユーザは編集支援画面10上に表示された話者の候補を確認し、キーボード100Fを操作して話者の候補の中からいずれか1つの候補を選択する。これにより、端末装置100はAI等に基づいて識別された編集前の話者を選択された候補の話者に編集する。このように、ユーザは編集支援画面10を利用することによって話者を簡便に編集することができる。尚、本実施形態では、ユーザの一例として会議の議事録の作成者について説明するが、ユーザはこのような作成者に特に限定されない。例えば、ユーザは放送字幕の制作者やコールセンターの音声記録担当者などであってもよい。
次に、図2を参照して、端末装置100のハードウェア構成について説明する。
図2は端末装置100のハードウェア構成の一例である。図2に示すように、端末装置100は、少なくともハードウェアプロセッサとしてのCentral Processing Unit(CPU)100A、Random Access Memory(RAM)100B、Read Only Memory(ROM)100C、及びネットワークI/F(インタフェース)100Dを含んでいる。また、上述したように、端末装置100は、キーボード100F及びディスプレイ100Gも含んでいる。
さらに、端末装置100は、必要に応じて、Hard Disk Drive(HDD)100E、入出力I/F100H、ドライブ装置100I、及び近距離無線通信回路100Jの少なくとも1つを含んでいてもよい。CPU100Aから近距離無線通信回路100Jは、内部バス100Kによって互いに接続されている。すなわち、端末装置100はコンピュータによって実現することができる。尚、CPU100Aに代えてMicro Processing Unit(MPU)をハードウェアプロセッサとして利用してもよい。
入出力I/F100Hには、半導体メモリ730が接続される。半導体メモリ730としては、例えばUniversal Serial Bus(USB)メモリやフラッシュメモリなどがある。入出力I/F100Hは、半導体メモリ730に記憶されたプログラムやデータを読み取る。入出力I/F100Hは、例えばUSBポートを備えている。ドライブ装置100Iには、可搬型記録媒体740が挿入される。可搬型記録媒体740としては、例えばCompact Disc(CD)-ROM、Digital Versatile Disc(DVD)といったリムーバブルディスクがある。ドライブ装置100Iは、可搬型記録媒体740に記録されたプログラムやデータを読み込む。近距離無線通信回路100JはWi-Fi(登録商標)やBluetooth(登録商標)といった近距離無線通信を実現する電気回路又は電子回路である。近距離無線通信回路100Jにはアンテナ100J´が接続されている。近距離無線通信回路100Jに代えて通信機能を実現するCPUが利用されてもよい。ネットワークI/F100Dは、例えばLocal Area Network(LAN)ポートを備えている。
上述したRAM100Bには、ROM100CやHDD100Eに記憶されたプログラムがCPU100Aによって一時的に格納される。RAM100Bには、可搬型記録媒体740に記録されたプログラムがCPU100Aによって一時的に格納される。格納されたプログラムをCPU100Aが実行することにより、CPU100Aは後述する各種の機能を実現し、また、後述する各種の処理を実行する。尚、プログラムは後述するフローチャートに応じたものとすればよい。
次に、図3を参照して、端末装置100の機能構成について説明する。
図3は端末装置100のブロック図の一例である。図3では端末装置100の機能の要部が示されている。図3に示すように、端末装置100は記憶部110、処理部120、入力部130、及び表示部140を備えている。記憶部110は上述したRAM100BやHDD100Eによって実現することができる。処理部120は上述したCPU100Aによって実現することができる。入力部130は上述したキーボード100Fによって実現することができる。表示部140は上述したディスプレイ100Gによって実現することができる。したがって、記憶部110、処理部120、入力部130、及び表示部140は互いに接続されている。
ここで、記憶部110は音声記憶部111、辞書記憶部112、文章記憶部113、モデル記憶部114、及びポイント記憶部115を構成要素として含んでいる。処理部120は第1表示制御部121、音声認識部122、文章生成部123、及び話者識別部124を構成要素として含んでいる。また、処理部120は音声再生部125、話者編集部126、ポイント管理部127、及び第2表示制御部128を構成要素として含んでいる。
処理部120の各構成要素は記憶部110の各構成要素の少なくとも1つにアクセスして、各種の処理を実行する。例えば、音声再生部125は音声データの再生指示を検出すると、音声記憶部111にアクセスして、音声記憶部111が記憶する音声データを取得する。音声再生部125は音声データを取得すると、音声データを再生する。尚、その他の構成要素については、端末装置100の動作を説明する際に詳しく記載する。
次に、図4から図15を参照して、端末装置100の動作について説明する。
まず、図4に示すように、第1表示制御部121はポータル画面を表示する(ステップS101)。より詳しくは、第1表示制御部121は、入力部130から出力されたポータル画面の起動指示を検出すると、ポータル画面を表示部140に表示する。これにより、図6に示すように、表示部140はポータル画面20を表示する。ポータル画面20は、第1登録ボタン21、第2登録ボタン22、第3登録ボタン23、及び複数の第4登録ボタン24を含んでいる。
第1登録ボタン21は会議の音声データを登録するボタンである。会議の音声データを登録する場合、ユーザは事前に録音された会議の音声データを端末装置100内に用意する。ユーザが第1登録ボタン21をポインタPtにより押下する操作を行うと、第1表示制御部121は第1登録ボタン21の押下を検出する。第1表示制御部121は第1登録ボタン21の押下を検出すると、端末装置100内に用意された会議の音声データを音声記憶部111に保存する。
第2登録ボタン22は会議の資料に関する資料データを登録するボタンである。資料データを登録する場合、ユーザは事前に会議の資料データを端末装置100内に用意する。ユーザが第2登録ボタン22をポインタPtにより押下する操作を行うと、第1表示制御部121は第2登録ボタン22の押下を検出する。第1表示制御部121は第2登録ボタン22の押下を検出すると、端末装置100内に用意された資料データをポータル画面20内の第1表示領域20Aに表示する。
第3登録ボタン23は会議の参加者を登録するボタンである。会議の参加者を登録する場合、ユーザは第3登録ボタン23をポインタPtにより押下する操作を行う。ユーザが第3登録ボタン23を押下する操作を行うと、第1表示制御部121は第3登録ボタン23の押下を検出する。第1表示制御部121は第3登録ボタン23の押下を検出すると、会議の参加者を話者として登録するための登録画面(不図示)を表示部140に表示する。ユーザが登録画面に会議における話者(具体的には話者名を示す情報)を入力すると、第1表示制御部121は、入力された話者を含む参加者データをポータル画面20内の第2表示領域20Bに表示する。併せて、第1表示制御部121は話者IDを生成し、入力された話者と関連付けてモデル記憶部114に保存する。話者IDは話者を識別する情報である。これにより、モデル記憶部114は話者ID及び話者を関連付けて記憶する。
第4登録ボタン24はいずれも話者の音声データを登録するボタンである。話者の音声データを登録する場合、ユーザは事前に録音された話者の様々な音声データを端末装置100内に用意する。端末装置100にマイクを接続し、マイクから取得した音声データを利用してもよい。ユーザが登録対象の話者に関する第4登録ボタン24をポインタPtにより押下する操作を行うと、第1表示制御部121は第4登録ボタン24の押下を検出する。第1表示制御部121は第4登録ボタン24の押下を検出すると、端末装置100内に用意された音声データを話者識別部124に出力する。
話者識別部124は第1表示制御部121から出力された話者の音声データに基づいて話者の音声の特徴を機械学習した学習済モデルを生成する。話者識別部124は生成した学習済モデルを学習対象の音声データに対応する話者の話者IDと関連付けてモデル記憶部114に保存する。これにより、図7に示すように、モデル記憶部114は話者IDと話者と学習済モデルとを関連付けた話者データを記憶する。モデル記憶部114が話者データを記憶すると、第1表示制御部121は登録対象の話者に関する参加者データ内に登録マークRMを表示する。登録マークRMは、モデル記憶部114が学習済モデルを記憶したことにより、話者の音声データが登録されたことを表すマークである。
図4に戻り、ステップS101の処理が完了すると、次いで、音声認識部122は音声認識を実行する(ステップS102)。例えば、音声認識部122は音声記憶部111を参照し、音声記憶部111が会議の音声データを記憶しているか否かを判断する。音声認識部122は音声記憶部111が会議の音声データを記憶していると判断すると、音声記憶部111が記憶している会議の音声データに対して音声認識を実行し、文字列データを生成する。より詳しくは、音声認識部122は会議の音声データに含まれる話者の音声に基づいて複数の文字を特定し、特定した文字を時系列に並べて文字毎に文字IDとタイムコードを付与して文字列データを生成する。音声認識部122は文字列データを生成すると、生成した文字列データを文章生成部123に出力する。尚、音声認識部122は複数の音声認識エンジンを備え、それぞれ対応する文字列データを生成する。音声認識エンジンとしては、例えばAmiVoice(登録商標)などがある。
ステップS102の処理が完了すると、次いで、文章生成部123は文章データを生成する(ステップS103)。より詳しくは、文章生成部123は音声認識部122が出力した文字列データを受け付けると、辞書記憶部112を参照し、文字列データに対して形態素解析を実行する。辞書記憶部112は形態素辞書を記憶する。形態素辞書には様々な語句が格納されている。例えば、形態素辞書には「はい」、「確かに」、「資料」、「質問」などの語句が格納されている。したがって、文章生成部123は、辞書記憶部112を参照して文字列データに対して形態素解析を実行すると、文字列データを複数の単語ブロックに分割した文章データを生成する。文章生成部123は文章データを生成すると、生成した文章データを、単語ブロック単位の識別子と関連付けて文章記憶部113に保存する。これにより、文章記憶部113は文章データを記憶する。
ステップS103の処理が完了すると、次いで、話者識別部124は話者を識別する(ステップS104)。より詳しくは、話者識別部124は、モデル記憶部114を参照し、モデル記憶部114が記憶する学習済モデルと音声記憶部111が記憶する会議の音声データとを比較する。話者識別部124は学習済モデルと会議の音声データとを比較し、会議の音声データに学習済モデルと対応(例えば共通又は類似など)する音声部分を検出した場合、その学習済モデルと関連付けられた話者IDとタイムコードを特定する。このように、話者識別部124は会議の音声データに含まれる様々な音声部分の各話者を識別する。話者識別部124は話者IDとタイムコードを特定すると、タイムコードに基づいて、文章記憶部113が記憶する文章データに、特定した話者IDを関連付ける。これにより、図8に示すように、文章記憶部113は話者IDと関連付けられた文章データを記憶する。
文章データは、図8に示すように、文字ID、文字、単語ブロック、タイムコード、話者ID(初期)、及び話者ID(現在)を構成要素として含んでいる。特に、単語ブロックには単語ブロックの識別子が登録される。話者ID(初期)には話者識別部124が最初に識別した話者の話者IDが登録される。話者ID(現在)には話者を編集した後の話者IDが登録される。話者識別部124が話者を識別した直後には、話者ID(初期)と話者ID(現在)には同じ話者IDが登録される。文章記憶部113はこのような文章データを記憶する。尚、文字毎に付与されたタイムコードが直前のタイムコードと共通する場合、直前のタイムコード以後のタイムコードについては省略してもよい。
ステップS104の処理が完了すると、次いで、第1表示制御部121は話者と発話区間を表示する(ステップS105)。より詳しくは、ステップS104の処理が完了すると、第1表示制御部121はポータル画面20の表示部140への表示を中止し、編集支援画面10を表示部140に表示する。そして、第1表示制御部121は編集支援画面10内で話者とその話者に対応する発話区間を関連付けて表示する。
したがって、図9に示すように、表示部140は編集支援画面10を表示する。編集支援画面10はスクリプト領域11、設定領域12、編集領域13、再生ボタン14などを含んでいる。第1表示制御部121は、文章データと話者データとに基づいて、編集支援画面10の編集領域13内で各話者と文章中の各話者に対応する発話区間を関連付けて表示する。
スクリプト領域11には文章記憶部113が記憶する文章データのタイムコードと文字が互いに関連付いた状態で表示される。特に、スクリプト領域11におけるスクリプトの欄には話者IDが切り替わった最初のタイムコードからその話者IDの連続が途絶える最後のタイムコードまでの文字が結合された状態で時系列に表示される。設定領域12には音声データの再生形式に関する設定項目や話者を編集した後の文章データの出力形式に関する設定項目などが表示される。
編集領域13には、上述したように、話者と発話区間が関連付けられて表示される。例えば、編集領域13内において話者「小田」と発話区間「…ですよね」が関連付けられて表示されている。同様に、話者「木村」と発話区間「確かにはいその資料について質問が」が関連付けられて表示されている。話者「山田」と発話区間「質問お願いします」が関連付けられて表示されている。
また、編集領域13には、話者と発話区間のほか、進行マーク16及び切り替わりポイント17が表示される。進行マーク16は音声データの現在の再生位置を示すマークである。切り替わりポイント17は単語ブロック(図8参照)の切り替わりを示すポイントである。すなわち、単語ブロックが別の単語ブロックに切り替わる2つの単語ブロックの間の位置に切り替わりポイント17が表示される。本実施形態では、1つの切り替わりポイント17を表示しているが、例えば複数の切り替わりポイントを表示し、複数の切り替わりポイントの1つを現在の切り替わりポイント17とし、残りの切り替わりポイントと異なる色を付してもよい。これにより、ユーザはどの位置で単語ブロックが切り替わるのかを確認することができる。
切り替わりポイント17は入力部130に対する操作に応じて左右に移動させることができる。例えば、ユーザが右矢印を示すカーソルキーを押下する操作を行うと、第1表示制御部121は切り替わりポイント17を右に移動させる。ユーザが左矢印を示すカーソルキーを押下する操作を行うと、第1表示制御部121は切り替わりポイント17を左に移動させる。尚、切り替わりポイント17を右側一方向に移動させる場合には、切り替わりポイント17を移動させるキーをスペースキーとしてもよい。切り替わりポイント17を移動させるキーは設計や実験などに応じて適宜決定すればよい。
ステップS105の処理が完了すると、次いで、音声再生部125は再生指示を検出するまで待機する(ステップS106:NO)。音声再生部125は再生指示を検出すると(ステップS106:YES)、音声データを再生する(ステップS107)。より詳しくは、再生ボタン14(図9参照)がポインタPtにより押下されると、音声再生部125は音声データの再生指示を検出し、音声データを再生し始める。音声データの再生が開始すると、音声データの再生スピードに応じて進行マーク16(図9参照)が右方向に移動する。ユーザは会議の音声データを再生してその音声を聴きながら、切り替わりポイント17を移動させて、話者を編集する位置を特定する操作を行う。
ステップS107の処理が完了すると、第1表示制御部121は始点が指定されるまで待機する(ステップS108:NO)。第1表示制御部121は始点が指定されると(ステップS108:YES)、第1編集画面を表示する(ステップS109)。より詳しくは、図10(a)に示すように、ユーザは、まず、切り替わりポイント17を移動させて話者の編集を希望する所定の位置で停止させる。ユーザがその所定の位置で例えばエンター(Enter)キーを押下する操作を行うと、第1表示制御部121はその所定の位置が始点として指定されたと判断する。第1表示制御部121は始点が指定されると、図10(b)に示すように、第1編集画面30を編集領域13に重畳して表示する。第1編集画面30は編集処理をユーザに要求する画面である。また、第1表示制御部121は、第1編集画面30の表示と併せて、その始点に対応する発話区間において、その始点より前に位置する一又は複数の単語ブロックに相当する一部の発話区間を特定する。本実施形態では、第1表示制御部121は一つの単語ブロック「確かに」に相当する一部の発話区間を特定する。尚、第1編集画面30の表示と一部の発話区間の特定の順序は逆であってもよい。
ステップS109の処理が完了すると、話者編集部126は選択指示を検出するまで待機する(ステップS110:NO)。話者編集部126は選択指示を検出すると(ステップS110:YES)、図5に示すように、話者を編集する(ステップS111)。より詳しくは、図10(b)に示すように、ユーザが入力部130を操作して第1編集画面30に含まれる複数の話者のいずれかをポインタPtにより選択する操作を行うと、話者編集部126は選択指示を検出する。ユーザは第1編集画面30に含まれる複数の数値のいずれかをテンキーにより選択する操作を行ってもよい。
ここで、第1編集画面30に含まれる話者は発声順序と発声量の少なくとも一方に応じた優先順位に従って並んで配置されている。例えば、会議における司会進行役の話者は他の話者より発声順序が先であることが多く、また、発声量も多いと想定される。このため、第1編集画面30では編集の可能性が高い話者から順に並んで配置される。これにより、話者の編集処理の手間を抑えることができる。
話者編集部126は選択指示を検出すると、編集処理が発生したと判断し、第1表示制御部121により特定された一部の発話区間に編集処理を適用し、その一部の発話区間の話者を、選択された話者に編集して表示する。本実施形態では、話者編集部126は単語ブロック「確かに」に相当する一部の発話区間に編集処理を適用し、その一部の発話区間の話者「木村」を、選択された話者「木村」に編集して表示する。尚、この例では実質的な変更がないため、詳細な説明は後述する。
ステップS111の処理が完了すると、話者編集部126は話者が共通するか否かを判断する(ステップS112)。より詳しくは、話者編集部126は編集後の話者と編集後の話者の単語ブロックに相当する一部の発話区間の直前に位置する前の発話区間の話者が共通するか否かを判断する。本実施形態では、話者編集部126は編集後の話者「木村」と編集後の話者「木村」の単語ブロック「確かに」に相当する一部の発話区間の直前に位置する前の発話区間「…ですよね」の話者「小田」が共通するか否かを判断する。ここでは、話者「木村」と話者「小田」が共通しないため、話者編集部126は話者が共通しないと判断する(ステップS112:NO)。
話者が共通しない場合、話者編集部126は、ステップS113及びS114の処理をスキップして、始点後が処理済であるか否かを判断する(ステップS115)。話者編集部126は始点後が処理済でないと判断した場合(ステップS115:NO)、第1表示制御部121は、図4に示すように、再び、ステップS109の処理を実行する。すなわち、初めのステップS109の処理では、図10(b)に示すように、切り替わりポイント17により特定された始点に対応する発話区間において、その始点より前に位置する一つの単語ブロック「確かに」に相当する一部の発話区間が話者の編集処理の対象とされた。しかしながら、切り替わりポイント17により特定された始点に対応する発話区間において、その始点より後に位置する複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間が話者の編集処理の対象とされていない。このため、話者編集部126は始点後が処理済でないと判断し、第1表示制御部121は、図10(c)に示すように、再び、第1編集画面30を編集領域13に重畳して表示する。また、第1表示制御部121は、第1編集画面30の表示と併せて、その始点に対応する発話区間において、その始点より後に位置する一又は複数の単語ブロックに相当する残部の発話区間を特定する。本実施形態では、第1表示制御部121は複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間を特定する。
2度目のステップS109の処理が完了し、ステップS110の処理において、話者編集部126が選択指示を検出すると、ステップS111(図5参照)の処理において、話者編集部126は話者を編集する。より詳しくは、図10(c)に示すように、ユーザが再び入力部130を操作して第1編集画面30に含まれる複数の話者のいずれかをポインタPtにより選択する操作を行うと、話者編集部126は選択指示を検出する。話者編集部126は選択指示を検出すると、文章記憶部113にアクセスし、図11に示すように、特定された単語ブロックに対応する話者の話者ID(現在)を編集後の話者の話者IDに更新する。また、話者編集部126は選択指示を検出すると、編集処理が発生したと判断して、特定された残部の発話区間に編集処理を適用し、その残部の発話区間の話者を、選択された話者に編集して表示する。本実施形態では、話者編集部126は複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間に編集処理を適用し、その残部の発話区間の話者「木村」を、選択された話者「山田」に編集して表示する。
ステップS111の処理が完了すると、ステップS112の処理において、話者編集部126は再び話者が共通するか否かを判断する。本実施形態では、話者編集部126は編集後の話者「山田」と編集後の話者「山田」の複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間の直後に位置する後の発話区間「質問お願いします」の話者「山田」が共通するか否かを判断する。ここでは、2つの話者「山田」が共通するため、話者編集部126は話者が共通すると判断する(ステップS112:YES)。
話者が共通する場合、話者編集部126は発話区間を結合状態で表示する(ステップS113)。より詳しくは、話者編集部126は編集後に共通する2つの話者の発話区間を結合した状態で表示する。併せて、話者編集部126は結合前の2つの発話区間のそれぞれに対応付いた2つの話者いずれか一方を結合後の発話区間と対応付けて表示する。これにより、話者編集部126は複数の単語ブロック「はいその資料について質問が」に相当する残部の発話区間と後の発話区間「質問お願いします」を結合し、図12(a)に示すように、新たな発話区間「はいその資料について質問が質問お願いします」と2つの発話区間を結合した状態で表示する。また、結合した発話区間に対し1人の話者を対応付けて表示する。このように、話者が編集され、発話区間が結合される。特に、切り替わりポイント17により特定される始点より前に対する処理が完了した後に動的にその始点より後に対する処理が要求されるため、時系列に沿った編集作業となり、編集作業の手間が抑制される。
ステップS113の処理が完了すると、次いで、ポイント管理部127は区切り始点箇所を保存する(ステップS114)。より詳しくは、ポイント管理部127は発話区間を結合する前の2つの発話区間の区切りを特定する始点の箇所を区切り始点箇所データとしてその箇所に対応する始点及び結合した発話区間の終点と併せてポイント記憶部115に保存する。これにより、ポイント記憶部115は区切り始点箇所データを記憶する。
本実施形態では、図10(c)に示すように、発話区間を結合する前の2つの発話区間の区切り始点箇所は、発話区間「確かにはいその資料について質問が」と発話区間「質問お願いします」の間の始点P1に相当する。このため、図13に示すように、ポイント記憶部115は発話区間の末尾の単語ブロック「質問が」の識別子「08」と発話区間の先頭の単語ブロック「質問」の識別子「09」を関連付けて、区切り始点箇所データとして記憶する。また、ポイント記憶部115は区切り始点箇所データの記憶と併せて、区切り始点箇所に対応する始点及び結合した発話区間の終点を特定できる単語ブロックの識別子を記憶する。例えば、ポイント記憶部115は単語ブロック「確かに」の識別子「03」及び単語ブロック「はい」の識別子「04」を、始点を特定できる単語ブロックとして記憶する。また、ポイント記憶部115は単語ブロック「します」の識別子「11」と所定の識別子「-」を、終点を特定できる単語ブロックの識別子として記憶する。尚、単語ブロックの識別子に代えて、文字IDを単語ブロックの識別子と同様に利用してもよい。
ステップS114の処理が完了すると、再び、ステップS115の処理において、話者編集部126は始点後が処理済であるか否かを判断する。話者編集部126は始点後が処理済であると判断した場合(ステップS115:YES)、次いで、第2表示制御部128は別の始点が指定されるまで待機する(ステップS116:NO)。第2表示制御部128は別の始点が指定されると(ステップS116:YES)、第2編集画面を表示する(ステップS117)。より詳しくは、図12(b)に示すように、ユーザが切り替わりポイント17を移動させて上述した所定の位置と異なる別の位置で停止させ、エンターキーを押下する操作を行うと、第2表示制御部128はその別の位置が始点として指定されたと判断する。第2表示制御部128は別の始点が指定されると、図12(c)に示すように、第2編集画面40を編集領域13に重畳して表示する。第2編集画面40は編集処理をユーザに要求する画面である。第2編集画面40に含まれる話者は第1編集画面30と同様に並んでいる。また、第2表示制御部128は、第2編集画面40の表示と併せて、その始点に対応する発話区間において、その始点より前に位置する一又は複数の単語ブロックに相当する一部の発話区間を特定する。本実施形態では、第2表示制御部128は一つの単語ブロック「はい」に相当する一部の発話区間を特定する。尚、第2編集画面40の表示と一部の発話区間の特定の順序は逆であってもよい。
ステップS117の処理が完了すると、話者編集部126は選択指示を検出するまで待機する(ステップS118:NO)。話者編集部126は選択指示を検出すると(ステップS118:YES)、話者を編集する(ステップS119)。より詳しくは、図12(c)に示すように、ユーザが入力部130を操作して第2編集画面40に含まれる複数の話者のいずれかをポインタPtにより選択する操作を行うと、話者編集部126は選択指示を検出する。ユーザは第2編集画面40に含まれる複数の数値のいずれかをテンキーにより選択する操作を行ってもよい。話者編集部126は選択指示を検出すると、編集処理が発生したと判断して、特定された一部の発話区間に編集処理を適用し、その一部の発話区間の話者を、選択された話者に編集して表示する。本実施形態では、話者編集部126は単語ブロック「はい」に相当する一部の発話区間に編集処理を適用し、その一部の発話区間の話者「山田」を、選択された話者「山田」に編集して表示する。尚、この例では実質的な変更がないため、詳細な説明は後述する。
ステップS119の処理が完了すると、第2表示制御部128は第2編集画面を再表示する(ステップS120)。より詳しくは、第2表示制御部128は、図14(a)に示すように、第2編集画面40を編集領域13に重畳して再表示する。また、第2表示制御部128は、第2編集画面40の再表示と併せて、その別の始点に対応する発話区間において、その別の始点より後に位置する一又は複数の単語ブロックに相当する残部の発話区間を特定の発話区間として特定する。本実施形態では、第2表示制御部128は複数の単語ブロック「その資料について質問が質問お願いします」に相当する残部の発話区間を特定の発話区間として特定する。尚、第2編集画面40の再表示と残部の発話区間の特定の順序は逆であってもよい。
ステップS120の処理が完了すると、話者編集部126は選択指示を検出するまで待機する(ステップS121:NO)。話者編集部126は選択指示を検出すると(ステップS121:YES)、ポイント管理部127は区切り始点箇所があるか否かを判断する(ステップS122)。より詳しくは、ポイント管理部127は、ポイント記憶部115を参照し、区切り始点箇所データがポイント記憶部115に記憶されているか否かを判断する。
ポイント管理部127は区切り始点箇所があると判断した場合(ステップS122:YES)、話者編集部126は区切り始点箇所まで話者を編集して(ステップS123)、処理を終了する。より詳しくは、図14(a)に示すように、ユーザが入力部130を操作して第2編集画面40に含まれる複数の話者のいずれかをポインタPtにより選択する操作を行うと、話者編集部126は選択指示を検出する。話者編集部126は選択指示を検出すると、文章記憶部113にアクセスする。そして、話者編集部126は、図15に示すように、特定された単語ブロックの中から、別の始点直後の単語ブロックから区切り始点箇所直前までの単語ブロックに対応する話者の話者ID(現在)に編集処理を適用しその話者IDを、編集後の話者の話者IDに更新する。
また、話者編集部126は選択指示を検出すると、編集処理が発生したと判断して、特定の発話区間に編集処理を適用し、その特定の発話区間の話者を、選択された話者に編集して表示する。本実施形態では、話者編集部126は、図14(b)に示すように、複数の単語ブロック「その資料について質問が」に相当する特定の発話区間に編集処理を適用し、その特定の発話区間の話者「山田」を、選択された話者「木村」に編集して表示する。
一方、ポイント管理部127は区切り始点箇所がないと判断した場合(ステップS122:NO)、話者編集部126はステップS123の処理をスキップして処理を終了する。尚、区切り始点箇所がない場合、話者編集部126はエラー処理を実行してから処理を終了してもよい。
図16(a)及び図16(b)は比較例を説明するための図である。特に、図16(a)及び図16(b)は上述した図14(a)及び図14(b)に対応する図である。上述したように、第1実施形態では、ポイント管理部127が区切り始点箇所データをポイント記憶部115に保存して管理することを説明した。例えば、区切り始点箇所データが管理されていない場合、図16(a)に示すように、ユーザが入力部130を操作して第2編集画面40に含まれる複数の話者のいずれかをポインタPtにより選択する操作を行うと、話者編集部126は選択指示を検出する。話者編集部126は選択指示を検出すると、第2表示制御部128により特定された複数の単語ブロック全てに相当する残部の発話区間の話者を、選択された話者に編集して表示する。比較例では、話者編集部126は、図16(b)に示すように、複数の単語ブロック「その資料について質問が質問お願いします」の全てに相当する残部の発話区間の話者「山田」を、選択された話者「木村」に編集して表示する。このため、話者に誤りがない複数の単語ブロック「質問お願いします」まで編集されてしまい、この部分について改めてユーザには編集作業が発生する。しかしながら、第1実施形態によれば、このような無駄な編集作業が発生しない。すなわち、第1実施形態によれば、比較例と対比して、話者の識別結果に対する編集処理の利便性が向上する。
以上、第1実施形態によれば、端末装置100は処理部120を含み、処理部120は第1表示制御部121、話者編集部126、及び第2表示制御部128を含んでいる。第1表示制御部121は音声認識に基づいて生成された文章データについて識別された話者を示す情報と、文章データ中の、識別された話者に対応する発話区間とを関連付けて表示部140に表示する。話者編集部126は話者の識別結果を編集する編集処理が発生し、その編集処理によって、隣接する2以上の発話区間の各話者が共通する場合には、隣接する2以上の発話区間を結合した状態で表示部140に表示する。第2表示制御部128は結合した2以上の発話区間内の特定の発話区間について、話者の識別結果を編集する編集処理を行う発話区間の始点が指定され、かつ、指定された始点から、結合した2以上の発話区間の終点までの間に結合前の2以上の区間のいずれかの始点に対応する箇所が存在する場合、指定された始点からその箇所までの発話区間に編集処理を適用する。これにより、話者の識別結果に対する編集処理の利便性を向上することができる。
特に、話者の識別に学習済モデルや所定の音声モデルを利用し、話者が短い単語ブロックを発話した場合、話者の音声の特徴を十分に判別することができず、精度良く話者を識別できない可能性がある。短い単語ブロックとしては、例えば「はい」など、数文字程度の単語ブロックが該当する。精度良く話者を識別できない場合、端末装置100は誤った識別結果を表示するおそれがある。このような場合であっても、本実施形態によれば、話者の識別結果に対する編集処理の利便性を向上することができる。
(第2実施形態)
続いて、図17を参照して、本件の第2実施形態について説明する。図17(a)は第2実施形態に係る更新前の文章データの一例である。図17(b)は第2実施形態に係る更新後の文章データの一例である。第1実施形態では、話者編集部126は話者を一又は複数の単語ブロック単位で編集したが、単語ブロックに含まれる文字の単位で話者を編集してもよい。この場合、上述した切り替わりポイント17を文字単位で移動させればよい。
例えば、図17(a)に示すように、単語ブロックの識別子「09」が共通する文字「質」及び文字「問」に関し、図17(b)に示すように、話者編集部126が文字「質」の話者ID(現在)を話者ID「03」から不図示の話者「香川」を識別する話者ID「04」に更新する。この場合、話者編集部126は単語ブロックの識別子を分割し、単語ブロックの以後の識別子を付与し直す。具体的には、図17(b)に示すように、話者編集部126は文字「問」の単語ブロックの識別子「09」を識別子「10」に付与し直す。以後の識別子についても同様である。また、話者編集部126は元の単語ブロックの発話時間に基づいて新たな単語ブロックの発話時間を推定することができる。例えば、話者編集部126は元の単語ブロックの発話時間+文字数×数ミリ秒を新たな単語ブロックの発話時間として推定することができる。
このように、第2実施形態によれば、文字単位に話者を編集する場合であっても、話者の識別結果に対する編集処理の利便性を向上することができる。
(第3実施形態)
続いて、図18を参照して、本件の第3実施形態について説明する。図18は編集支援システムSTの一例である。尚、図3に示す端末装置100の各部と同様の構成には同一符号を付し、その説明を省略する。
編集支援システムSTは端末装置100とサーバ装置200を含んでいる。端末装置100とサーバ装置200は通信ネットワークNWを介して接続されている。通信ネットワークNWとしては、例えばLocal Area Network(LAN)やインターネットなどがある。
図18に示すように、端末装置100は入力部130、表示部140、及び通信部150を備えている。一方、サーバ装置200は記憶部110、処理部120、及び通信部160を備えている。2つの通信部150,160はいずれもネットワークI/F100D又は近距離無線通信回路100Jによって実現することができる。このように、第1実施形態で説明した記憶部110及び処理部120を、端末装置100に代えて、サーバ装置200が備えていてもよい。すなわち、サーバ装置200を編集支援装置としてもよい。
この場合、端末装置100の入力部130が操作されて、上述した会議の音声データが2つの通信部150,160を介して記憶部110(より詳しくは音声記憶部111)に格納される。また、入力部130が操作されて、上述した話者の音声データが2つの通信部150,160を介して処理部120(より詳しくは話者識別部124)に入力される。
処理部120は記憶部110にアクセスして、会議の音声データを取得し、会議の音声データに対し、第1実施形態で説明した各種の処理を実行して文章データを生成する。また、処理部120は、入力された話者の音声データに基づいて、話者の音声の特徴を機械学習した学習済モデルを生成する。そして、処理部120は会議の音声データと学習済モデルとに基づいて話者を識別する。処理部120は識別した話者とその話者に対応する発話区間を関連付けて表示する編集支援画面10の画面情報を処理結果として通信部160に出力する。通信部160は処理結果を通信部150に送信し、通信部150は処理結果を受信すると、画面情報を表示部140に出力する。これにより、表示部140は編集支援画面10を表示する。
このように、端末装置100が記憶部110と処理部120を備えずに、サーバ装置200が記憶部110と処理部120を備えていてもよい。また、サーバ装置200が記憶部110を備え、通信ネットワークNWに接続された別のサーバ装置(不図示)が処理部120を備えていてもよい。このような構成を編集支援システムとしてもよい。このような実施形態であっても、話者の識別結果に対する編集処理の利便性を向上することができる。
以上、本発明の好ましい実施形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。例えば、上述した実施形態では、第1編集画面30を連続して動的に表示することを説明した。一方で、カーソルキーで切り替わりポイント17を移動させ、エンターキーを押下することによってその都度毎に第1編集画面30を表示させるようにしてもよい。このような制御を第2編集画面40に適用してもよい。また、参加者データが登録されていない場合には、話者に代えて、識別文字や識別記号を識別結果として採用してもよい。
100 端末装置
110 記憶部
115 ポイント記憶部
120 処理部
121 第1表示制御部
122 音声認識部
123 文章生成部
124 話者識別部
125 音声再生部
126 話者編集部
127 ポイント管理部
128 第2表示制御部
130 入力部
140 表示部

Claims (7)

  1. 音声認識に基づいて生成された文章について識別された話者を示す情報と、前記文章中の、識別された前記話者に対応する区間とを関連付けて表示部に表示し、
    前記文章中の第1の箇所を編集処理の始点として指定する、話者の識別結果を編集する第1の編集処理によって、前記第1の箇所を含む区間のうち前記第1の箇所の後の残部の区間についての話者が変更され変更によって、隣接する話者が共通しない2以上の区間の話者が共通する状態に変更された場合には、隣接する前記2以上の区間を結合した状態で前記表示部に表示し、
    結合した前記2以上の区間内の第2の箇所を編集処理の始点として指定する、話者の識別結果を編集する第2の編集処理が行われ、前第2の箇所ら結合した前記2以上の区間の終点までの間に結合前の前記2以上の区間のいずれかの始点に対応する箇所が存在する場合、前第2の箇所から前記2以上の区間のいずれかの始点に対応する箇所までの区間に前記第2の編集処理を適用する、
    処理をコンピュータに実行させるための編集支援プログラム。
  2. 前記第1の箇所が編集処理の始点として指定されたことに応じて、前記第1の編集処理を要求する第1の編集画面を前記表示部に表示し、
    前記第1の編集画面に対する指示に基づいて、前記第1の箇所を含む区間のうち前記第1の箇所の後の残部の区間に前記第1の編集処理を適用し、
    前記第2の箇所が編集処理の始点として指定されたことに応じて、前記第2の編集処理を要求する第2の編集画面を前記表示部に表示し、
    前記第2の編集画面に対する指示に基づいて、指定された前記第2の箇所から前記2以上の区間のいずれかの始点に対応する箇所までの区間に前記第2の編集処理を適用する、
    ことを特徴とする請求項1に記載の編集支援プログラム。
  3. 前記第1の編集画面及び前記第2の編集画面は、いずれも、編集対象として前記話者を示す情報を含み、前記話者を示す情報は前記話者の発声順序と発声量の少なくとも一方に応じた優先順位に従って並んでいる、
    ことを特徴とする請求項に記載の編集支援プログラム。
  4. 前記話者の音声と前記音声認識とに基づいて、前記文章を生成し、
    前記話者の音声と前記話者の音声の特徴を学習した学習済モデルとに基づいて、生成した前記文章について前記話者を識別する、
    処理を含むことを特徴とする請求項1からのいずれか1項に記載の編集支援プログラム。
  5. 第1の箇所前記第2の箇所、及び前記2以上の区間のいずれかの始点に対応する箇所を記憶部に保存する処理を含み、
    前記記憶部を参照して、前第2の箇所から前記2以上の区間のいずれかの始点に対応する箇所までの区間に前記第2の編集処理を適用する、
    ことを特徴とする請求項1からのいずれか1項に記載の編集支援プログラム。
  6. 音声認識に基づいて生成された文章について識別された話者を示す情報と、前記文章中の、識別された前記話者に対応する区間とを関連付けて表示部に表示し、
    前記文章中の第1の箇所を編集処理の始点として指定する、話者の識別結果を編集する第1の編集処理によって、前記第1の箇所を含む区間のうち前記第1の箇所の後の残部の区間についての話者が変更され変更によって、隣接する話者が共通しない2以上の区間の話者が共通する状態に変更された場合には、隣接する前記2以上の区間を結合した状態で前記表示部に表示し、
    結合した前記2以上の区間内の第2の箇所を編集処理の始点として指定する、話者の識別結果を編集する第2の編集処理が行われ、前第2の箇所ら結合した前記2以上の区間の終点までの間に結合前の前記2以上の区間のいずれかの始点に対応する箇所が存在する場合、前第2の箇所から前記2以上の区間のいずれかの始点に対応する箇所までの区間に前記第2の編集処理を適用する、
    処理をコンピュータが実行する編集支援方法。
  7. 音声認識に基づいて生成された文章について識別された話者を示す情報と、前記文章中の、識別された前記話者に対応する区間とを関連付けて表示部に表示し、
    前記文章中の第1の箇所を編集処理の始点として指定する、話者の識別結果を編集する第1の編集処理によって、前記第1の箇所を含む区間のうち前記第1の箇所の後の残部の区間についての話者が変更され変更によって、隣接する話者が共通しない2以上の区間の話者が共通する状態に変更された場合には、隣接する前記2以上の区間を結合した状態で前記表示部に表示し、
    結合した前記2以上の区間内の第2の箇所を編集処理の始点として指定する、話者の識別結果を編集する第2の編集処理が行われ、前第2の箇所ら結合した前記2以上の区間の終点までの間に結合前の前記2以上の区間のいずれかの始点に対応する箇所が存在する場合、前第2の箇所から前記2以上の区間のいずれかの始点に対応する箇所までの区間に前記第2の編集処理を適用する、
    処理を実行する処理部を備える編集支援装置。
JP2021506790A 2019-03-15 2019-03-15 編集支援プログラム、編集支援方法、及び編集支援装置 Active JP7180747B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/010793 WO2020188622A1 (ja) 2019-03-15 2019-03-15 編集支援プログラム、編集支援方法、及び編集支援装置

Publications (2)

Publication Number Publication Date
JPWO2020188622A1 JPWO2020188622A1 (ja) 2021-10-14
JP7180747B2 true JP7180747B2 (ja) 2022-11-30

Family

ID=72520594

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021506790A Active JP7180747B2 (ja) 2019-03-15 2019-03-15 編集支援プログラム、編集支援方法、及び編集支援装置

Country Status (6)

Country Link
US (1) US20210383813A1 (ja)
EP (1) EP3940695A4 (ja)
JP (1) JP7180747B2 (ja)
KR (1) KR20210132115A (ja)
CN (1) CN113544772A (ja)
WO (1) WO2020188622A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022126454A (ja) * 2021-02-18 2022-08-30 富士通株式会社 表示制御プログラム、表示制御装置および表示制御方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013029690A (ja) 2011-07-28 2013-02-07 Toshiba Corp 話者分類装置、話者分類方法および話者分類プログラム
JP2014038132A (ja) 2012-08-10 2014-02-27 Toshiba Corp 情報処理装置、プログラム、及び情報処理方法
JP2016062071A (ja) 2014-09-22 2016-04-25 株式会社東芝 電子機器、方法およびプログラム
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
JP2017167318A (ja) 2016-03-16 2017-09-21 株式会社アドバンスト・メディア 議事録生成装置、及び議事録生成プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5173854A (en) * 1984-06-11 1992-12-22 Tandem Computers Incorporated Distributed text editing system with remote terminal transmits successive audit messages each identifying individual editing operation
US5347295A (en) * 1990-10-31 1994-09-13 Go Corporation Control of a computer through a position-sensed stylus
JP3039204B2 (ja) * 1993-06-02 2000-05-08 キヤノン株式会社 文書処理方法及び装置
US6535848B1 (en) * 1999-06-08 2003-03-18 International Business Machines Corporation Method and apparatus for transcribing multiple files into a single document
JP5353835B2 (ja) * 2010-06-28 2013-11-27 ブラザー工業株式会社 情報処理プログラムおよび情報処理装置
WO2012127592A1 (ja) * 2011-03-18 2012-09-27 富士通株式会社 通話評価装置、通話評価方法
CN102915728B (zh) * 2011-08-01 2014-08-27 佳能株式会社 声音分段设备和方法以及说话者识别***
US9460722B2 (en) * 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
KR101818980B1 (ko) * 2016-12-12 2018-01-16 주식회사 소리자바 다중 화자 음성 인식 수정 시스템
JP6548045B2 (ja) * 2017-03-31 2019-07-24 本田技研工業株式会社 会議システム、会議システム制御方法、およびプログラム
US10468031B2 (en) * 2017-11-21 2019-11-05 International Business Machines Corporation Diarization driven by meta-information identified in discussion content

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013029690A (ja) 2011-07-28 2013-02-07 Toshiba Corp 話者分類装置、話者分類方法および話者分類プログラム
JP2014038132A (ja) 2012-08-10 2014-02-27 Toshiba Corp 情報処理装置、プログラム、及び情報処理方法
JP2016062071A (ja) 2014-09-22 2016-04-25 株式会社東芝 電子機器、方法およびプログラム
US20170075652A1 (en) 2015-09-14 2017-03-16 Kabushiki Kaisha Toshiba Electronic device and method
JP2017167318A (ja) 2016-03-16 2017-09-21 株式会社アドバンスト・メディア 議事録生成装置、及び議事録生成プログラム

Also Published As

Publication number Publication date
US20210383813A1 (en) 2021-12-09
JPWO2020188622A1 (ja) 2021-10-14
EP3940695A1 (en) 2022-01-19
CN113544772A (zh) 2021-10-22
WO2020188622A1 (ja) 2020-09-24
KR20210132115A (ko) 2021-11-03
EP3940695A4 (en) 2022-03-30

Similar Documents

Publication Publication Date Title
JP6242773B2 (ja) 会議情報蓄積装置、方法およびプログラム
US20220374192A1 (en) Platform for producing and delivering media content
JP6074050B2 (ja) 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体
JP5685702B2 (ja) 音声認識結果管理装置および音声認識結果表示方法
CN106155470B (zh) 一种音频文件生成方法及装置
JPWO2016143131A1 (ja) 対話支援装置、方法およびプログラム、および端末
JP2018032330A (ja) 情報処理システム、情報処理装置、サーバ、情報処理方法及びプログラム
US20210193148A1 (en) Transcript correction through programmatic comparison of independently generated transcripts
JP7180747B2 (ja) 編集支援プログラム、編集支援方法、及び編集支援装置
JP2005202035A (ja) 対話情報分析装置
WO2010146869A1 (ja) 編集支援システム、編集支援方法および編集支援プログラム
JP2018097239A (ja) 音声再生装置及びプログラム
WO2020121616A1 (ja) 処理システム、処理方法及びプログラム
KR102377038B1 (ko) 화자가 표지된 텍스트 생성 방법
JP7156748B1 (ja) 情報処理システム及び情報処理方法
US12013893B2 (en) Information processing apparatus information processing method to search a music piece for reproduction
JP6650636B1 (ja) 翻訳装置、その制御方法およびプログラム
JP7103681B2 (ja) 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム
JP6628157B2 (ja) 翻訳装置、その制御方法およびプログラム
JP6269771B1 (ja) 翻訳装置、拡声装置、およびその制御方法
CN111128136A (zh) 一种自定义语音控制方法、计算机设备及可读存储介质
JP2017135592A (ja) 映像データ編集装置、映像データ編集方法及びコンピュータプログラム
JP2020052264A (ja) 音声再生区間の制御方法、音声再生区間の制御プログラムおよび情報処理装置
JP2022100504A (ja) 情報処理装置、制御方法、プログラム
JP2001282291A (ja) 音声データ処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210513

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221031

R150 Certificate of patent or registration of utility model

Ref document number: 7180747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150