JP2023047178A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2023047178A
JP2023047178A JP2021156130A JP2021156130A JP2023047178A JP 2023047178 A JP2023047178 A JP 2023047178A JP 2021156130 A JP2021156130 A JP 2021156130A JP 2021156130 A JP2021156130 A JP 2021156130A JP 2023047178 A JP2023047178 A JP 2023047178A
Authority
JP
Japan
Prior art keywords
quality
information processing
speaker
information
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021156130A
Other languages
English (en)
Inventor
佑樹 清水
Yuki Shimizu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Priority to JP2021156130A priority Critical patent/JP2023047178A/ja
Priority to US17/705,371 priority patent/US20230098333A1/en
Publication of JP2023047178A publication Critical patent/JP2023047178A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • H04L65/4038Arrangements for multi-party communication, e.g. for conferences with floor control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】受話者側における発話者による音声の品質を考慮しない場合に比較して、より的確に発話者による音声を改善させることができる情報処理装置及び情報処理プログラムを得る。【解決手段】情報処理装置10は、受話者側における発話者による音声の品質を示す品質情報を即時的に取得する取得部11Aと、取得した品質情報が示す品質が予め定められた条件を満足しない場合、当該品質を改善するための改善情報を当該発話者に即時的に提示する提示部11Bと、を備える。【選択図】図2

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、実際の会議にはない音声会議ならではの会議を行ない得ることを目的とした音声受信装置が開示されている。
この音声受信装置は、受信音声信号から得られる音質、音響、音質と音響との両方、のいずれかを音声会議の参加者別に制御するための制御信号として生成する制御手段を備えている。また、この音声受信装置は、上記制御信号に基づき参加者別に受信音声信号から得られる音質、音響、音質と音響との両方、のいずれかを変える変換手段を備えている。
また、特許文献2には、聞き手の受聴環境において自身の音声がどのように届いているかを、伝送遅延を引き起こさずに、聴覚的に理解することができるようにすることを目的とした音声通信装置が開示されている。
この音声通信装置は、音声信号が入力される音声信号入力部と、音声信号を出力する音声信号出力部と、他の音声通信装置から前記音声出力部に出力する音声信号を受信する音声信号受信部と、を備えている。また、この音声通信装置は、所定の空間における環境音響特性を測定する測定部と、前記測定部により測定された前記環境音響特性に関する情報を前記他の音声通信装置に送信する特性情報送信部と、を備えている。
特開平08-125761号公報 特開2012-094945号公報
本発明は、受話者側における発話者による音声の品質を考慮しない場合に比較して、より的確に発話者による音声を改善させることができる情報処理装置及び情報処理プログラムを提供することを目的とする。
上記目的を達成するために、第1態様に係る情報処理装置は、プロセッサを備え、前記プロセッサは、受話者側における発話者による音声の品質を示す品質情報を即時的に取得し、取得した品質情報が示す品質が予め定められた条件を満足しない場合、当該品質を改善するための改善情報を当該発話者に即時的に提示する。
また、第2態様に係る情報処理装置は、第1態様に係る情報処理装置において、前記プロセッサが、前記品質情報を、前記受話者による評価結果から取得するものである。
また、第3態様に係る情報処理装置は、第2態様に係る情報処理装置において、前記プロセッサが、前記品質情報を、複数の前記受話者による評価結果から取得するものである。
また、第4態様に係る情報処理装置は、第3態様に係る情報処理装置において、前記プロセッサが、複数の前記評価結果に応じて、前記改善情報の提示内容を決定するものである。
また、第5態様に係る情報処理装置は、第2態様~第4態様の何れか1態様に係る情報処理装置において、前記評価が、前記発話者による発話中における表示画面を用いて行われるものである。
また、第6態様に係る情報処理装置は、第1態様~第5態様の何れか1態様に係る情報処理装置において、前記プロセッサが、前記品質が前記予め定められた条件を満足しない場合、当該品質を改善するための制御を更に行うものである。
また、第7態様に係る情報処理装置は、第6態様に係る情報処理装置において、前記プロセッサが、前記品質を改善するための制御を、発話者が用いる端末装置と、受話者が用いる端末装置と、の少なくとも一方に対して行うものである。
また、第8態様に係る情報処理装置は、第7態様に係る情報処理装置において、前記プロセッサが、前記受話者が複数存在する場合で、かつ、当該複数の受話者における、予め定められた数以上の受話者について、前記品質が前記条件を満足しない場合、前記発話者が用いる端末装置に対して前記制御を行うものである。
また、第9態様に係る情報処理装置は、第7態様に係る情報処理装置において、前記プロセッサが、前記受話者が複数存在する場合で、かつ、当該複数の受話者における、予め定められた数未満の受話者について、前記品質が前記条件を満足しない場合、前記受話者が用いる端末装置に対して前記制御を行うものである。
また、第10態様に係る情報処理装置は、第1態様~第9態様の何れか1態様に係る情報処理装置において、前記音声の品質が、前記音声の大きさ及び前記音声の明瞭度の少なくとも一方の品質であるものである。
更に、上記目的を達成するために、第11態様に係る情報処理プログラムは、受話者側における発話者による音声の品質を示す品質情報を即時的に取得し、取得した品質情報が示す品質が予め定められた条件を満足しない場合、当該品質を改善するための改善情報を当該発話者に即時的に提示する、処理をコンピュータに実行させる。
第1態様及び第11態様によれば、受話者側における発話者による音声の品質を考慮しない場合に比較して、より的確に発話者による音声を改善させることができる。
第2態様によれば、受話者による感じ方を含めた品質とすることができる結果、受話者による評価結果を考慮しない場合に比較して、より的確に発話者による音声を改善させることができる。
第3態様によれば、単一の受話者による評価結果のみを用いる場合に比較して、より的確に発話者による音声を改善させることができる。
第4態様によれば、改善情報の提示内容を画一的なものとする場合に比較して、より効果的に発話者による音声を改善させることができる。
第5態様によれば、評価を音声により行う場合に比較して、他の受話者に対する評価結果の漏洩を防止することができる。
第6態様によれば、上記制御を行わない場合に比較して、より簡易に発話者による音声の品質を向上させることができる。
第7態様によれば、制御を発話者が用いる端末装置に対して行う場合は、一括して音声の品質の改善を行うことができ、制御を受話者が用いる端末装置に対して行う場合は、受話者別に音声の品質を改善することができる。
第8態様によれば、一括して音声の品質の改善を行うことができる。
第9態様によれば、受話者別に音声の品質を改善することができる。
第10態様によれば、音声の大きさ及び明瞭度の少なくとも一方の品質に関して、発話者による音声を改善させることができる。
実施形態に係る情報処理システムのハードウェア構成の一例を示すブロック図である。 実施形態に係る情報処理システムの機能的な構成の一例を示すブロック図である。 実施形態に係る組み合わせ通知情報データベースの構成の一例を示す模式図である。 実施形態に係るネット会合表示画面の一例を示す正面図である。 実施形態に係るネット会合表示画面の他の一例を示す正面図である。 実施形態に係る情報処理の一例を示すフローチャートである。 実施形態に係る音量調整処理の一例を示すフローチャートである。 実施形態に係る組み合わせ評価処理の一例を示すフローチャートである。
以下、図面を参照して、本発明を実施するための形態例を詳細に説明する。なお、本実施形態では、本発明を、ネットワークを介して行われる会合(以下、「ネット会合」という。)の参加者が各々個別に利用する複数の端末装置と、当該ネット会合を統括的に管理する情報処理装置と、を含む情報処理システムに適用した場合について説明する。また、ここでいう「会合」とは、企業内や企業間等で行われる会議のみならず、研修会、講演会、飲酒を伴わない懇親会、飲酒を伴う懇親会(所謂飲み会)等の複数人で行う、あらゆる会話を伴う会を意味する。
まず、図1及び図2を参照して、本実施形態に係る情報処理システム90の構成を説明する。図1は、本実施形態に係る情報処理システム90のハードウェア構成の一例を示すブロック図である。また、図2は、本実施形態に係る情報処理システム90の機能的な構成の一例を示すブロック図である。
図1に示すように、本実施形態に係る情報処理システム90は、ネットワーク80に各々アクセス可能とされた、情報処理装置10と、複数の端末装置30と、を含む。なお、情報処理装置10の例としては、パーソナルコンピュータ及びサーバコンピュータ等の各種コンピュータが挙げられる。また、端末装置30の例としても、当該各種コンピュータの他、スマートフォン、タブレット端末、PDA(Personal Digital Assistant、携帯情報端末)等の携帯型の装置が挙げられる。本実施形態では、端末装置30として、携帯型の装置を適用する場合について説明する。
本実施形態に係る端末装置30は、情報処理システム90が管理するネット会合の参加者(以下、単に「参加者」という。)が各々所有する端末である。端末装置30は、CPU(Central Processing Unit)31、一時記憶領域としてのメモリ32、不揮発性の記憶部33、タッチパネル等の入力部34、液晶ディスプレイ等の表示部35、及び媒体読み書き装置(R/W)36を備えている。また、端末装置30は、撮影部38、マイクロフォン(以下、「マイク」という。)39、スピーカ40、ノイズフィルタ41、及び無線通信部42を備えている。CPU31、メモリ32、記憶部33、入力部34、表示部35、媒体読み書き装置36、撮影部38、マイク39、スピーカ40、ノイズフィルタ41、及び無線通信部42はバスB1を介して互いに接続されている。媒体読み書き装置36は、記録媒体37に書き込まれている情報の読み出し及び記録媒体37への情報の書き込みを行う。
記憶部33は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現される。記憶媒体としての記憶部33には、ネット会合参加プログラム33Aが記憶されている。ネット会合参加プログラム33Aは、当該プログラム33Aが書き込まれた記録媒体37が媒体読み書き装置36にセットされ、媒体読み書き装置36が記録媒体37からの当該プログラム33Aの読み出しを行うことで、記憶部33へ記憶(インストール)される。CPU31は、ネット会合参加プログラム33Aを記憶部33から読み出してメモリ32に展開し、ネット会合参加プログラム33Aが有するプロセスを順次実行する。
また、本実施形態に係る撮影部38は、参加者に対する動画像を撮影するものであり、当該撮影によって得られた画像情報を出力する。また、本実施形態に係るマイク39は、参加者が発した音声を収集し、音声情報を出力する。また、本実施形態に係るスピーカ40は、音声情報により示される音声を再生するものである。
更に、本実施形態に係るノイズフィルタ41は、マイク39によって収集された音声におけるノイズを除去する機能、及びスピーカ40により再生される音声におけるノイズを除去する機能を有する。
なお、本実施形態では、ノイズフィルタ41として、人の音声の周波数帯域の信号のみを通過させるバンドパスフィルタを用いているが、これに限るものではない。例えば、人の音声の周波数帯域を含む信号を通過させるローパスフィルタや、ハイパスフィルタをノイズフィルタ41として適用する形態としてもよいし、特定のノイズ成分のみを除去するノイズ除去フィルタをノイズフィルタ41として適用する形態としてもよい。また、本実施形態では、音声におけるノイズを除去するために、ハードウェアとして構成されたノイズフィルタ41を適用しているが、この形態に限るものではない。例えば、ソフトウェアにより構成されたノイズフィルタを適用する形態としてもよいし、ソフトウェアとハードウェアとの組み合わせにより構成されたノイズフィルタを適用する形態としてもよい。
一方、情報処理装置10は、情報処理システム90において中心的な役割を有する装置であり、情報処理システム90が管理するネット会合(以下、単に「ネット会合」という。)を統括的に管理する装置であることは前述した通りである。情報処理装置10は、CPU11、一時記憶領域としてのメモリ12、不揮発性の記憶部13、キーボードとマウス等の入力部14、液晶ディスプレイ等の表示部15、媒体読み書き装置16、及び通信インタフェース(I/F)部18を備えている。CPU11、メモリ12、記憶部13、入力部14、表示部15、媒体読み書き装置16、及び通信I/F部18はバスB2を介して互いに接続されている。媒体読み書き装置16は、記録媒体17に書き込まれている情報の読み出し及び記録媒体17への情報の書き込みを行う。
記憶部13はHDD、SSD、フラッシュメモリ等によって実現される。記憶媒体としての記憶部13には、情報処理プログラム13A等の各種プログラムが記憶されている。
情報処理プログラム13A等の各種プログラムは、当該各種プログラムが書き込まれた記録媒体17が媒体読み書き装置16にセットされ、媒体読み書き装置16が記録媒体17からの当該各種プログラムの読み出しを行うことで、記憶部13へ記憶(インストール)される。CPU11は、上記各種プログラムを記憶部13から読み出してメモリ12に展開し、当該各種プログラムが有するプロセスを順次実行する。
また、記憶部13には、組み合わせ通知情報データベース13Bが記憶される。組み合わせ通知情報データベース13Bについては、詳細を後述する。
なお、本実施形態では、ネットワーク80として、インターネット、電話回線網等の公共の通信回線を適用しているが、この形態に限定されるものではない。例えば、ネットワーク80として、LAN(Local Area Network)、WAN(Wide Area Network)等の企業内の通信回線を適用してもよく、これらの企業内の通信回線及び公共の通信回線を組み合わせて適用してもよい。
次に、図2を参照して、本実施形態に係る情報処理装置10及び端末装置30の機能的な構成について説明する。
図2に示すように、本実施形態に係る端末装置30は、制御部31Aを含む。端末装置30のCPU31がネット会合参加プログラム33Aを実行することで、制御部31Aとして機能する。
本実施形態に係る制御部31Aは、撮影部38による参加者の撮影の制御、及びマイク39による参加者が発した音声の集音の制御を行う。また、本実施形態に係る制御部31Aは、スピーカ40による音声の再生の制御、表示部35による各種情報の表示の制御、及び無線通信部42による情報処理装置10との通信の制御を行う。また、本実施形態に係る制御部31Aは、ノイズフィルタ41による音声におけるノイズの除去の制御を行う。その他、本実施形態に係る制御部31Aは、ネット会合を行うための各種制御を行う。
一方、図2に示すように、本実施形態に係る情報処理装置10は、取得部11A、提示部11B、及び制御部11Cを含む。情報処理装置10のCPU11が情報処理プログラム13Aを実行することで、取得部11A、提示部11B、及び制御部11Cとして機能する。
本実施形態に係る取得部11Aは、ネット会合を実施している際の受話者側における発話者による音声の品質を示す品質情報(以下、単に「品質情報」という。)を即時的に取得する。
ここで、本実施形態に係る取得部11Aは、品質情報を、受話者による評価結果から取得する。特に、本実施形態に係る取得部11Aは、品質情報を、複数の受話者による評価結果から取得する。
このように、本実施形態では、取得部11Aが、受話者による評価結果から品質情報を取得しているが、この形態に限るものではない。例えば、発話者が用いる端末装置30のマイク39によって得られた音声情報から、当該音声情報が示す音声の品質を判定することで、品質情報を自動的に取得する形態としてもよい。また、受話者が用いる端末装置30のスピーカ40によって再生される、発話者が発した音声を示す音声情報から、当該音声情報が示す音声の品質を判定することで、品質情報を自動的に取得する形態としてもよい。
また、本実施形態に係る提示部11Bは、取得部11Aによって取得された品質情報が示す品質が予め定められた条件を満足しない場合、当該品質を改善するための改善情報を当該発話者に即時的に提示する。なお、本実施形態では、当該改善情報の提示を、表示画面を用いた表示により行っているが、この形態に限るものではない。例えば、スピーカ40を用いた音声により、改善情報の提示を行う形態としてもよい。
ここで、本実施形態に係る提示部11Bは、複数の評価結果に応じて、改善情報の提示内容を決定する。なお、本実施形態では、上記評価を、発話者による発話中における表示画面を用いて行っているが、この形態に限るものではない。例えば、上記評価を、マイク39を用いた音声の入力により行う形態としてもよい。
一方、本実施形態に係る制御部11Cは、上記品質が上記予め定められた条件を満足しない場合、当該品質を改善するための制御を行う。
ここで、本実施形態に係る制御部11Cは、上記品質を改善するための制御を、発話者が用いる端末装置30と、受話者が用いる端末装置30と、の双方に対して行うが、この形態に限るものではない。例えば、上記品質を改善するための制御を、発話者が用いる端末装置30と、受話者が用いる端末装置30と、の何れか一方のみに行う形態としてもよい。
また、本実施形態に係る制御部11Cは、受話者が複数存在する場合で、かつ、当該複数の受話者における、予め定められた数以上の受話者について、上記品質が上記条件を満足しない場合、発話者が用いる端末装置30に対して上記制御を行う。
これに対し、本実施形態に係る制御部11Cは、受話者が複数存在する場合で、かつ、当該複数の受話者における、予め定められた数未満の受話者について、上記品質が上記条件を満足しない場合、受話者が用いる端末装置30に対して上記制御を行う。
更に、本実施形態では、上記音声の品質が、音声の大きさ及び音声の明瞭度の双方の品質とされているが、この形態に限るものではない。例えば、音声の大きさ及び音声の明瞭度の何れか一方の品質を上記音声の品質として適用する形態としてもよい。また、本実施形態では、当該音声の明瞭度の対象として、ノイズの有無、音声の途切れの有無、及び音声のこもりの有無を適用しているが、この形態に限るものではない。例えば、ノイズの量、音声の途切れの頻度、及び音声のこもりの度合いを、上記音声の明瞭度の対象として適用する形態としてもよい。また、何れの形態についても、ノイズ、音声の途切れ、及び音声のこもりの3種類が必須とは限らず、これらの3種類のうちの何れか1種類、又は2種類の組み合わせを適用する形態としてもよい。
次に、図3を参照して、本実施形態に係る組み合わせ通知情報データベース13Bについて説明する。図3は、本実施形態に係る組み合わせ通知情報データベース13Bの構成の一例を示す模式図である。
本実施形態に係る組み合わせ通知情報データベース13Bは、上述した音声の大きさの評価結果と、音声の明瞭度の評価結果と、の組み合わせに応じて発話者に提示する情報が登録されたデータベースである。図3に示すように、本実施形態に係る組み合わせ通知情報データベース13Bは、第1評価結果、第2評価結果、及び通知内容の各情報が関連付けられて記憶されている。
上記第1評価結果は、上述した音声の大きさに関する評価結果を示す情報であり、上記第2評価結果は、上述した音声の明瞭度に関する評価結果を示す情報である。そして、上記通知情報は、対応する第1評価結果と第2評価結果との組み合わせに対応して発話者に提示する内容を示す情報である。
図3に示す例では、例えば、音声の大きさに関する評価結果が「音声が小さい」であり、かつ、音声の明瞭度に関する評価結果が「ノイズあり」である場合に提示する内容が、「周辺が騒がしい可能性があります。場所を移動することをお勧めします。」であることが登録されている。
次に、図4及び図5を参照して、本実施形態に係る情報処理システム90における、ネット会合に参加している最中に発話者に対して音声に関する評価を行う場合の評価方法について説明する。図4は、本実施形態に係るネット会合表示画面の一例を示す正面図である。また、図5は、本実施形態に係るネット会合表示画面の他の一例を示す正面図である。
本実施形態に係る情報処理システム90では、ネット会合を実施する場合に、当該ネット会合の参加者が所有する端末装置30において、CPU31によりネット会合参加プログラム33Aを実行する。このネット会合参加プログラム33Aの実行により、各参加者が所有する端末装置30の表示部35には、一例として図4に示すネット会合表示画面が表示される。
図4に示すように、本実施形態に係るネット会合表示画面では、端末装置30の撮影部38によって撮影されている各参加者の撮影画像50A~50Hがリアルタイムで表示される。また、このネット会合表示画面では、各撮影画像の表示領域内に、当該表示領域に表示されている参加者に対して、音声に関する評価を行う場合に指定される評価ボタン52A~52Hが表示される。
そこで、ネット会合の参加者(受話者)は、他の参加者(発話者)が発している音声の品質に関して評価を行う場合は、当該発話者が表示されている領域の評価ボタンを、入力部34を介して指定する。
この指定に応じて、ネット会合表示画面では、一例として図5に示すように、「音声の大きさ」、「ノイズ」、「音声の途切れ」、及び「音声のこもり」の4種類の項目が、評価結果の選択肢も含めた選択画面54として、指定した評価ボタンに対して表示される。例えば、「音声の大きさ」に関する評価結果の選択肢としては、「問題なし」、「全く聞こえない」、「小さい」、及び「大きい」の4種類が表示される。また、例えば、「ノイズ」に関する評価結果の選択肢としては、「なし」及び「あり」の2種類が表示される。但し、この形態に限るものではなく、例えば、図5における「問題なし」及び「なし」を除くことで、問題がある場合のみの評価結果を指定させる形態としてもよい。
そこで、受話者は、表示された各項目から、自身が感じた評価結果に対応する選択肢を、入力部34を介して指定する。この選択肢の指定に応じて、受話者が使用している端末装置30から情報処理装置10へ、指定された選択肢を示す情報が、無線通信部42を介して送信される。
次に、図6~図8を参照して、本実施形態に係る情報処理システム90の作用として、情報処理装置10の作用を説明する。図6は、本実施形態に係る情報処理の一例を示すフローチャートである。また、図7は、本実施形態に係る音量調整処理の一例を示すフローチャートである。更に、図8は、本実施形態に係る組み合わせ評価処理の一例を示すフローチャートである。なお、錯綜を回避するために、ここでは、ネット会合の実施中における音声の評価に関する処理のみについて説明し、ネット会合そのものに関する処理についての説明は省略する。また、錯綜を回避するために、ここでは、音声の明瞭度に関する評価項目として「ノイズ」及び「音声のこもり」の2種類を適用する場合について説明する。更に、錯綜を回避するために、ここでは、組み合わせ通知情報データベース13Bが構築済みである場合について説明する。
本実施形態に係る情報処理装置10は、情報処理システム90が管理しているネット会合のうちの何れかのネット会合(以下、「対象会合」という。)が開始されるタイミングでCPU11が情報処理プログラム13Aを実行することで、図6に示す情報処理が実行される。
図6のステップ100で、CPU11は、対象会合に参加している何れかの参加者からネット会合表示画面における何れかの評価ボタン52が指定され、当該指定に応じて表示された選択画面54において何れかの評価結果が指定されるまで待機する。
ステップ102で、CPU11は、指定された評価結果を示す情報(以下、「評価結果情報」という。)を記憶部13に記憶する。ステップ104で、CPU11は、対象会合において評価結果情報が複数回得られたか否かを判定し、否定判定となった場合はステップ128に移行する一方、肯定判定となった場合はステップ106に移行する。
ステップ106で、CPU11は、それまでに記憶部13に記憶した評価結果情報を読み出し、当該評価結果情報を用いて、この時点から遡って予め定められた期間(本実施形態では、30秒間)の評価結果(以下、「対象評価結果」という。)に問題があるか否かを判定する。そして、この判定の結果、否定判定となった場合はステップ128に移行する一方、肯定判定となった場合はステップ108に移行する。
なお、本実施形態に係る情報処理では、対象評価結果に問題があるか否かの判定を、対象評価結果に含まれる評価結果に1以上の否定的な評価結果が含まれるか否かを判定することにより行っている。ここで否定的な評価結果とは、音声の大きさについては、「問題なし」以外の評価結果であり、音声の明瞭度については、「あり」の評価結果である。
このように、本実施形態では、対象評価結果に問題があるか否かの判定を、対象評価結果に含まれる評価結果に1以上の否定的な評価結果が含まれるか否かを判定することで行う形態としているが、これに限るものではない。例えば、対象評価結果に含まれる評価結果に複数の否定的な評価結果が含まれるか否かを判定することにより、対象評価結果に問題があるか否かの判定を行う形態としてもよい。
ステップ108で、CPU11は、対象評価結果における否定的な評価結果の評価対象が、音声の大きさ及び音声の明瞭度の何れか一方のみであるか否かを判定し、肯定判定となった場合はステップ110に移行する。
ステップ110で、CPU11は、対象評価結果における否定的な評価結果の評価対象に音声の大きさが含まれるか否かを判定し、否定判定となった場合はステップ114に移行する一方、肯定判定となった場合はステップ112に移行する。
ステップ112で、CPU11は、一例として図7に示す音量調整処理を実行する。
音量調整処理のステップ150で、CPU11は、対象評価結果における、音声の大きさに関する否定的な評価結果が、共通の発話者に対する、予め定められた人数以上の受話者の同一の評価結果であるか否かを判定し、肯定判定となった場合はステップ152に移行する。以下では、この処理において肯定判定の対象となった発話者を「音量調整対象発話者」という。なお、本実施形態では、上記予め定められた人数として、対象会合の参加者の人数に対する予め定められた割合(本実施形態では、2分の1)の人数を適用しているが、これに限るものではない。例えば、対象会合の参加者の人数から発話者を除く人数、即ち、発話者を除いた全ての参加者の人数を上記予め定められた人数として適用する形態としてもよい。
ステップ152で、CPU11は、音量調整対象発話者が用いている端末装置30のマイク39(以下、「対象マイク」という。)の感度が調整可能か否かを判定し、肯定判定となった場合はステップ154に移行する。本実施形態では、否定的な評価結果が、音声が「全く聞こえない」、又は「小さい」との評価結果だった場合は、対象マイクの感度が調整可能レンジの最大値となっている場合に調整ができないと判定する。また、本実施形態では、否定的な評価結果が、音声が「大きい」との評価結果だった場合は、対象マイクの感度が調整可能レンジの最小値となっている場合に調整ができないと判定する。
ステップ154で、CPU11は、対象マイクの感度を調整し、その後に本音量調整処理を終了する。本実施形態では、否定的な評価結果が、音声が「全く聞こえない」、又は「小さい」との評価結果だった場合は、対象マイクの感度を、上記最大値を上限として、予め定められた度合だけ増加させる。また、本実施形態では、否定的な評価結果が、音声が「大きい」との評価結果だった場合は、対象マイクの感度を、上記最小値を下限として、予め定められた度合だけ低下させる。なお、本実施形態では、上記予め定められた度合として、上記調整可能レンジの10分の1の度合を適用しているが、この形態に限るものでないことは言うまでもない。
一方、ステップ152において否定判定となった場合はステップ156に移行し、CPU11は、音量調整対象発話者が用いている端末装置30に対して、予め定められた通知情報を送信し、その後に本音量調整処理を終了する。この通知情報の送信により、音量調整対象発話者の端末装置30の表示部35には、当該通知情報の内容が表示される。なお、本実施形態では、上記通知情報として、音声が大きいとの評価結果である場合は、発声の音量を小さくする旨を指示する情報を適用し、音声が小さいか、又は音声が全く聞こえないとの評価結果である場合は、発声の音量を大きくする旨を指示する情報を適用する。
一方、ステップ150において否定判定となった場合は、対象評価結果における、否定的な評価結果が、共通の発話者に対する、上記予め定められた人数未満の受話者(以下、「音量調整対象受話者」という。)の同一の評価結果であったと見なしてステップ158に移行する。
ステップ158で、CPU11は、音量調整対象受話者が用いている端末装置30のスピーカ40(以下、「対象スピーカ」という。)による再生音量を調整し、その後に本音量調整処理を終了する。本実施形態では、否定的な評価結果が、音声が「全く聞こえない」、又は「小さい」との評価結果だった場合は、対象スピーカの再生音量を、最大音量を上限として、予め定められた量だけ増加させる。また、本実施形態では、否定的な評価結果が、音声が「大きい」との評価結果だった場合は、対象スピーカの再生音量を、最低音量を下限として、予め定められた量だけ低下させる。なお、本実施形態では、上記予め定められた量として、対象スピーカの調整可能レンジの10分の1の量を適用しているが、この形態に限るものでないことは言うまでもない。
また、本実施形態における再生音量の調整は、音量調整対象受話者の対象スピーカから出力される全ての音に対して適用されるものとしているが、これに限るものではない。音量調整対象受話者が否定的な評価を行った発話者から発せられる音声を音量調整対象受話者が用いる端末装置30が特定し、否定的な評価を行った発話者から発せられる音声の再生音量のみを調整する形態としてもよい。
音量調整処理が終了すると、図6に示す情報処理のステップ114に移行する。
ステップ114で、CPU11は、対象評価結果における否定的な評価結果の評価対象に音声のこもりが含まれるか否かを判定する。この判定において否定判定となった場合はステップ118に移行する一方、肯定判定となった場合はステップ116に移行する。以下では、この処理において否定的な評価結果の対象となった発話者を「音声こもり調整対象発話者」という。
ステップ116で、CPU11は、音声こもり調整対象発話者が用いている端末装置30に対して、予め定められた通知情報を送信し、その後にステップ118に移行する。この通知情報の送信により、音声こもり調整対象発話者の端末装置30の表示部35には、当該通知情報の内容が表示される。なお、本実施形態では、上記通知情報として、受話者側では音声がこもって聞こえているため、より明瞭に話すことを指示する旨を示す情報を適用している。
ステップ118で、CPU11は、対象評価結果における否定的な評価結果の評価対象にノイズが含まれるか否かを判定する。この判定において否定判定となった場合はステップ128に移行する一方、肯定判定となった場合はステップ120に移行する。
ステップ120で、CPU11は、対象評価結果における、ノイズに関する否定的な評価結果が、共通の発話者に対する、上述した予め定められた人数以上の受話者の同一の評価結果であるか否かを判定し、肯定判定となった場合はステップ122に移行する。以下では、この処理において否定的な評価結果の対象となった発話者を「ノイズ調整対象発話者」という。
ステップ122で、CPU11は、ノイズ調整対象発話者が用いている端末装置30に対して、予め定められた通知情報を送信し、その後にステップ128に移行する。この通知情報の送信により、ノイズ調整対象発話者の端末装置30の表示部35には、当該通知情報の内容が表示される。なお、本実施形態では、上記通知情報として、受話者側では音声にノイズが含まれているため、ノイズの原因を解消するか、又は、より大きな声で話すことを指示する旨を示す情報を適用している。
一方、ステップ120において否定判定となった場合は、対象評価結果における、ノイズに関する否定的な評価結果が、共通の発話者に対する、上述した予め定められた人数未満の受話者(以下、「ノイズ調整対象受話者」という。)の同一の評価結果であったと見なしてステップ124に移行する。
ステップ124で、CPU11は、ノイズ調整対象受話者が用いている端末装置30に対し、ノイズフィルタ41によりスピーカ40から再生される音声におけるノイズをカットするように制御し、その後にステップ128に移行する。
一方、ステップ108において否定判定となった場合、対象評価結果における否定的な評価結果の評価対象が音声の大きさ及び音声の明瞭度の双方であったと見なしてステップ126に移行し、CPU11は、一例として図8に示す組み合わせ評価処理を実行する。
組み合わせ評価処理のステップ180で、CPU11は、音声の大きさ及び音声の明瞭度の双方の否定的な評価結果の組み合わせの対象となる発話者(以下、「組み合わせ対応発話者」という。)が存在するか否かを判定する。そして、この判定において、否定判定となった場合は本組み合わせ評価処理を終了する一方、肯定判定となった場合はステップ182に移行する。
ステップ182で、CPU11は、対象評価結果における、音声の大きさ及び音声の明瞭度の双方の否定的な評価結果の組み合わせに対応する通知内容を組み合わせ通知情報データベース13Bから読み出す。ステップ184で、CPU11は、読み出した通知内容を示す情報を、組み合わせ対応発話者が用いる端末装置30に送信し、その後に本組み合わせ評価処理を終了する。この通知内容を示す情報の送信により、組み合わせ対応発話者が用いる端末装置30には、当該通知内容が表示される。例えば、組み合わせ通知情報データベース13Bが図3に示すもので、音声の大きさに関する評価結果が「音声が小さい」で、かつ、音声の明瞭度に関する評価結果が「ノイズあり」である場合、組み合わせ対応発話者が用いる端末装置30の表示部35には、「周辺が騒がしい可能性があります。場所を移動することをお勧めします。」との表示が行われる。
組み合わせ評価処理が終了すると、図6に示す情報処理のステップ128に移行する。
ステップ128で、CPU11は、対象会合が終了したか否かを判定し、否定判定となった場合はステップ100に戻る一方、肯定判定となった場合は本情報処理を終了する。なお、本実施形態では、対象会合が終了したか否かの判定を、この時点が、対象会合に対応する終了日時を示す時刻となったか否かを判定することにより行っているが、この形態に限るものではない。例えば、対象会合の参加者の各々の端末装置30において実行されているネット会合参加プログラム33Aが全て終了されたか否かを判定することにより、対象会合が終了したか否かを判定する形態としてもよい。
なお、上記実施形態では、情報処理において対象とした音声の明瞭度に関する項目が「ノイズ」及び「音声のこもり」である場合について説明したが、これに限るものではない。例えば、情報処理が対象とする音声の明瞭度の項目として、「音声の途切れ」を含める形態としてもよい。更に、これらの「ノイズ」、「音声のこもり」、及び「音声の途切れ」の何れか1つ、及び2つの組み合わせを、情報処理が対象とする音声の明瞭度の項目として適用する形態としてもよい。
また、上記実施形態で適用した組み合わせ通知情報データベース13Bは図3に示したものに限るものではなく、発生している音声の品質上の問題を解決するために適用することのできる内容であれば、他の通知内容としてもよいことは言うまでもない。
また、上記実施形態では言及しなかったが、音声の品質上の問題を解決するために、マイク39等に対する調整や、ノイズフィルタ41によるノイズの除去を行った後にも評価が変わらない場合には、発話者に対して実施形態と同様の通知を行うようにしてもよい。この場合、例えば、ノイズに関する評価が変わらない場合は、ノイズの種類を特定し、特定したノイズの種類に応じた原因(周辺の機器による騒音、周囲の人の発声等)を列挙して発話者に通知する形態としてもよい。
以上、実施形態を説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。発明の要旨を逸脱しない範囲で上記実施形態に多様な変更又は改良を加えることができ、該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。
また、上記実施形態は、クレーム(請求項)にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。前述した実施形態には種々の段階の発明が含まれており、開示される複数の構成要件の組み合わせにより種々の発明が抽出される。実施の形態に示される全構成要件から幾つかの構成要件が削除されても、効果が得られる限りにおいて、この幾つかの構成要件が削除された構成が発明として抽出され得る。
また、上記実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えば、CPU等)や、専用のプロセッサ(例えば、GPU: Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA: Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
更に、上記実施形態では、情報処理を、プログラムを実行することにより、コンピュータを利用してソフトウェア構成により実現する場合について説明したが、本発明はこれに限定されるものではない。例えば、情報処理を、ハードウェア構成や、ハードウェア構成とソフトウェア構成の組み合わせによって実現する形態としてもよい。
その他、上記実施形態で説明した情報処理装置10の構成は一例であり、本発明の主旨を逸脱しない範囲内において不要な部分を削除したり、新たな部分を追加したりしてもよいことは言うまでもない。
また、上記実施形態で説明した情報処理の流れも一例であり、本発明の主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。
10 情報処理装置
11 CPU
11A 取得部
11B 提示部
11C 制御部
12 メモリ
13 記憶部
13A 情報処理プログラム
13B 組み合わせ通知情報データベース
14 入力部
15 表示部
16 媒体読み書き装置
17 記録媒体
18 通信I/F部
30 端末装置
31 CPU
31A 制御部
32 メモリ
33 記憶部
33A ネット会合参加プログラム
34 入力部
35 表示部
36 媒体読み書き装置
37 記録媒体
38 撮影部
39 マイク
40 スピーカ
41 ノイズフィルタ
42 無線通信部
80 ネットワーク
90 情報処理システム

Claims (11)

  1. プロセッサを備え、
    前記プロセッサは、
    受話者側における発話者による音声の品質を示す品質情報を即時的に取得し、
    取得した品質情報が示す品質が予め定められた条件を満足しない場合、当該品質を改善するための改善情報を当該発話者に即時的に提示する、
    情報処理装置。
  2. 前記プロセッサは、
    前記品質情報を、前記受話者による評価結果から取得する、
    請求項1に記載の情報処理装置。
  3. 前記プロセッサは、
    前記品質情報を、複数の前記受話者による評価結果から取得する、
    請求項2に記載の情報処理装置。
  4. 前記プロセッサは、
    複数の前記評価結果に応じて、前記改善情報の提示内容を決定する、
    請求項3に記載の情報処理装置。
  5. 前記評価は、前記発話者による発話中における表示画面を用いて行われる、
    請求項2~請求項4の何れか1項に記載の情報処理装置。
  6. 前記プロセッサは、
    前記品質が前記予め定められた条件を満足しない場合、当該品質を改善するための制御を更に行う、
    請求項1~請求項5の何れか1項に記載の情報処理装置。
  7. 前記プロセッサは、
    前記品質を改善するための制御を、発話者が用いる端末装置と、受話者が用いる端末装置と、の少なくとも一方に対して行う、
    請求項6に記載の情報処理装置。
  8. 前記プロセッサは、
    前記受話者が複数存在する場合で、かつ、当該複数の受話者における、予め定められた数以上の受話者について、前記品質が前記条件を満足しない場合、前記発話者が用いる端末装置に対して前記制御を行う、
    請求項7に記載の情報処理装置。
  9. 前記プロセッサは、
    前記受話者が複数存在する場合で、かつ、当該複数の受話者における、予め定められた数未満の受話者について、前記品質が前記条件を満足しない場合、前記受話者が用いる端末装置に対して前記制御を行う、
    請求項7に記載の情報処理装置。
  10. 前記音声の品質は、前記音声の大きさ及び前記音声の明瞭度の少なくとも一方の品質である、
    請求項1~請求項9の何れか1項に記載の情報処理装置。
  11. 受話者側における発話者による音声の品質を示す品質情報を即時的に取得し、
    取得した品質情報が示す品質が予め定められた条件を満足しない場合、当該品質を改善するための改善情報を当該発話者に即時的に提示する、
    処理をコンピュータに実行させるための情報処理プログラム。
JP2021156130A 2021-09-24 2021-09-24 情報処理装置及び情報処理プログラム Pending JP2023047178A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2021156130A JP2023047178A (ja) 2021-09-24 2021-09-24 情報処理装置及び情報処理プログラム
US17/705,371 US20230098333A1 (en) 2021-09-24 2022-03-27 Information processing apparatus, non-transitory computer readable medium, and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021156130A JP2023047178A (ja) 2021-09-24 2021-09-24 情報処理装置及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2023047178A true JP2023047178A (ja) 2023-04-05

Family

ID=85718479

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021156130A Pending JP2023047178A (ja) 2021-09-24 2021-09-24 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US20230098333A1 (ja)
JP (1) JP2023047178A (ja)

Also Published As

Publication number Publication date
US20230098333A1 (en) 2023-03-30

Similar Documents

Publication Publication Date Title
US11527243B1 (en) Signal processing based on audio context
TWI527024B (zh) 傳送語音數據之方法及非暫態電腦可讀取媒體
WO2015090163A1 (zh) 一种在播放设备中控制音频的输出音量的方法和装置
JP6163468B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
US9560316B1 (en) Indicating sound quality during a conference
US11782674B2 (en) Centrally controlling communication at a venue
JP2011512694A (ja) 通信システムの少なくとも2人のユーザ間の通信を制御する方法
US9959881B2 (en) Voice processing device, audio and video output apparatus, communication system, and sound processing method
US10540983B2 (en) Detecting and reducing feedback
CN105976829A (zh) 声音处理装置、声音处理方法
US8259954B2 (en) Enhancing comprehension of phone conversation while in a noisy environment
US20190221226A1 (en) Electronic apparatus and echo cancellation method applied to electronic apparatus
JP2024507916A (ja) オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム
US20240177726A1 (en) Speech enhancement
TWI578755B (zh) 遠端多方會議音量調整系統及方法
TWI512539B (zh) 模式管理系統及其管理方法
JP2023047178A (ja) 情報処理装置及び情報処理プログラム
JP6363429B2 (ja) データ構造、データ生成装置、データ生成方法、およびプログラム
JP4453614B2 (ja) 語学学習システム
JP2007158526A (ja) 発話抑制装置、発話抑制方法および発話抑制装置のプログラム
WO2022181013A1 (ja) 会議システム
WO2023287782A1 (en) Data augmentation for speech enhancement
JP6126053B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
JP2023047132A (ja) 情報処理装置及び情報処理プログラム
TW202113810A (zh) 除噪能力評估系統及方法