JP6532666B2 - 方法、電子機器、およびプログラム - Google Patents

方法、電子機器、およびプログラム Download PDF

Info

Publication number
JP6532666B2
JP6532666B2 JP2014227270A JP2014227270A JP6532666B2 JP 6532666 B2 JP6532666 B2 JP 6532666B2 JP 2014227270 A JP2014227270 A JP 2014227270A JP 2014227270 A JP2014227270 A JP 2014227270A JP 6532666 B2 JP6532666 B2 JP 6532666B2
Authority
JP
Japan
Prior art keywords
speakers
voice
speaker
electronic device
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014227270A
Other languages
English (en)
Other versions
JP2016092683A5 (ja
JP2016092683A (ja
Inventor
隆一 山口
隆一 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dynabook Inc
Original Assignee
Dynabook Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dynabook Inc filed Critical Dynabook Inc
Priority to JP2014227270A priority Critical patent/JP6532666B2/ja
Priority to US14/681,995 priority patent/US20160133268A1/en
Publication of JP2016092683A publication Critical patent/JP2016092683A/ja
Publication of JP2016092683A5 publication Critical patent/JP2016092683A5/ja
Application granted granted Critical
Publication of JP6532666B2 publication Critical patent/JP6532666B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Telephone Function (AREA)

Description

本発明の実施形態は、方法、電子機器、およびプログラムに関する。
従来、複数の話者の複数の発話区間を含む音声を記録し、記録した音声を再生する技術が知られている。
特開2003−006208号公報
上記のような技術では、ユーザが指定した区間の音声と他の音声とを聴覚的に識別することができれば便利である。
実施形態による方法は、複数の話者毎の複数の発話区間を含む音声信号を電子機器の複数のスピーカから再生出力するための方法である。この方法は、前記複数の話者毎の前記複数の発話区間を含む前記音声信号を前記電子機器のメモリに記録し、前記メモリから前記音声信号を再生する際に、前記複数の話者毎に発話区間を識別可能なように前記電子機器のディスプレイ画面に表示し、前記ディスプレイ画面に表示された前記複数の話者毎の前記複数の発話区間のうち、第1話者による第1発話区間の第1音声をタグ指定するための画面操作を受け取り、前記複数のスピーカを用いて、前記タグ指定された前記第1発話区間の前記第1音声を前記電子機器の第1方向から聞こえるように再生し、前記複数のスピーカを用いて、前記タグ指定がない第2話者による前記第1発話区間以外の第2発話区間の第2音声を前記電子機器の前記第1方向とは異なる第2方向から聞こえるように再生する。
図1は、実施形態による携帯端末の外観構成を示した例示図である。 図2は、実施形態による携帯端末の内部構成を示した例示ブロック図である。 図3は、実施形態による携帯端末が実行する録音/再生プログラムの機能的構成を示した例示ブロック図である。 図4は、実施形態による携帯端末が記録音声を再生する際にディスプレイに表示される画像を示した例示図である。 図5は、実施形態による携帯端末によって用いられる立体音響技術の概略を説明するための例示図である。 図6は、実施形態による携帯端末を用いてユーザが話者毎の音声の到来方向を設定するための画像の一例を示した例示図である。 図7は、実施形態による携帯端末を用いてユーザが話者毎の音声の到来方向を設定するための画像の他の一例を示した例示図である。 図8は、実施形態による携帯端末が記録音声を再生する際に実行する処理を示した例示フローチャートである。 図9は、実施形態において話者毎の音声の到来方向が設定される場合に携帯端末が実行する処理を示した例示フローチャートである。
以下、実施形態を図面に基づいて説明する。
まず、図1を参照して、実施形態による携帯端末100の外観構成について説明する。携帯端末100は、「電子機器」の一例である。図1は、タブレット型コンピュータとして実現された携帯端末100の外観を示している。なお、実施形態の技術は、スピーカを備えた電子機器であれば、スマートフォンなどの、タブレット型コンピュータ以外の携帯端末にも適用可能であるし、携帯型ではない一般的な情報処理装置にも適用可能である。
図1に示すように、携帯端末100は、表示モジュール101と、カメラ102と、マイク103Aおよび103Bと、スピーカ104Aおよび104Bとを備える。
表示モジュール101は、静止画や動画などの映像を表示(出力)する出力デバイスとしての機能と、ユーザの操作(タッチ操作)を受け付ける入力デバイスとしての機能とを有する。より具体的には、後述の図2に示すように、表示モジュール101は、静止画や動画などの映像を表示するためのディスプレイ101Aと、携帯端末100に対する各種操作(タッチ操作)を行うための操作部として機能するタッチパネル101Bとを備える。
カメラ102は、カメラ102の正面側(Z方向側)に位置する領域の画像を取得するための撮像デバイスである。マイク103Aおよび103Bは、表示モジュール101の周囲に居るユーザの音声を取得するための集音デバイスである。スピーカ104Aおよび104Bは、音声を出力するための出力デバイスである。なお、図1は、スピーカ104Aおよび104Bが2つ設けられた例を示しているが、実施形態では、スピーカ104Aおよび104Bの個数が1つであってもよいし、3つ以上であってもよい。同様に、実施形態では、マイク103Aおよび103Bの個数が1つであってもよいし、3つ以上であってもよい。
次に、図2を参照して、携帯端末100の内部構成について説明する。
図2に示すように、携帯端末100は、上記の表示モジュール101、カメラ102、マイク103A、103B、スピーカ104Aおよび104Bに加えて、CPU105と、不揮発性メモリ106と、主メモリ107と、BIOS−ROM108と、システムコントローラ109と、グラフィクスコントローラ110と、サウンドコントローラ111と、通信コントローラ112と、オーディオキャプチャ113と、センサ群114とを備える。
CPU105は、通常のコンピュータで用いられるプロセッサと同様のプロセッサであり、携帯端末100内の各種モジュールの動作を制御するように構成されている。このCPU105は、ストレージデバイスである不揮発性メモリ106から主メモリ107にロードされる各種ソフトウェアを実行するように構成されている。図2には、主メモリ107にロードされるソフトウェアの例として、OS(オペレーティングシステム)201と、録音/再生プログラム202とが示されている。なお、録音/再生プログラム202の詳細については、後述する。
また、CPU105は、BIOS−ROM108に格納された基本入出力システムプログラム(BIOSプログラム)も実行するように構成されている。なお、BIOSプログラムとは、ハードウェアの制御を行うためのプログラムである。
システムコントローラ109は、CPU105のローカルバスと、携帯端末100に備えられた各種コンポーネントとの間を接続するためのデバイスである。
グラフィクスコントローラ110は、ディスプレイ101Aを制御するデバイスである。ディスプレイ101Aは、グラフィクスコントローラ110から入力される表示信号に基づいて画面イメージ(静止画や動画などの映像)を表示するように構成されている。
サウンドコントローラ111は、スピーカ104Aおよび104Bを制御するデバイスである。スピーカ104Aおよび104Bは、サウンドコントローラ111から入力される音声信号に基づいて音声を出力するように構成されている。
通信コントローラ112は、LANなどを介した無線または有線の通信を実行するための通信デバイスである。オーディオキャプチャ113は、マイク103Aおよび103Bにより取得された音声に対して各種信号処理を施す信号処理デバイスである。
センサ群114は、加速度センサや、方位センサや、ジャイロセンサなどを含む。加速度センサとは、携帯端末100が移動する際における携帯端末100の加速度の向きおよび大きさを検出する検出デバイスである。方位センサは、携帯端末100の方位を検出する検出デバイスである。ジャイロセンサは、携帯端末100が回転する際における携帯端末100の角速度(回転角度)を検出する検出デバイスである。
次に、図3を参照して、CPU105により実行される録音/再生プログラム202の機能的構成について説明する。この録音/再生プログラム202は、以下で説明するようなモジュール構成となっている。
図3に示すように、録音/再生プログラム202は、録音処理部203と、再生処理部204と、入力受付部205と、表示処理部206と、フィルタ係数算出部207と、到来方向設定部208とを備える。これらの各モジュールは、携帯端末100のCPU105が不揮発性メモリ106から録音/再生プログラム202を読み出して実行した結果として主メモリ107上に生成される。
録音処理部203は、マイク103Aおよび103Bを介して取得された音声信号を記録(録音)する処理を行うように構成されている。実施形態による録音処理部203は、複数の話者による複数の発話区間を含む音声を記録する際に、音声と同時に、各話者間の位置関係、すなわち各話者がどの方向からマイクに音声を入力したかを示す情報も記録することが可能なように構成されている。
再生処理部204は、録音処理部203により記録された音声(以下、記録音声という)を再生(出力)する処理を行うように構成されている。入力受付部205は、タッチパネル101Bなどを介したユーザの入力操作を受け付ける処理を行うように構成されている。表示処理部206は、ディスプレイ101Aに出力する表示データを制御する処理を行うように構成されている。
フィルタ係数算出部207は、後述するフィルタ111Bおよび111C(図5参照)に設定するフィルタ係数を算出する処理を行うように構成されている。到来方向設定部208は、後述する到来方向を設定・変更する処理を行うように構成されている。
ここで、実施形態による表示処理部206は、再生処理部204が記録音声を再生する処理を行う際に、図4に示すような画像IM1をディスプレイ101Aに出力するように構成されている。この画像IM1は、記録音声に含まれる複数の話者の複数の発話区間を識別可能に表示するものである。
画像IM1は、記録音声の大まかなステータスを表示する領域R1と、記録音声の詳細なステータスを表示する領域R2と、記録音声の再生の開始や停止などを行うための各種操作ボタンを表示する領域R3とを含む。
領域R1には、記録音声の全体を示すバーB1と、現在の再生位置を示すマークM1とが表示されている。また、領域R1には、記録音声の時間長(「03:00:00」という表示参照)も表示されている。
領域R2には、現在の再生位置の前後の所定期間内における記録音声の詳細が表示されている。図4の例では、領域R2は、現在の再生位置の前後の所定期間内に、話者[B]の発話区間I1と、話者[A]の発話区間I2と、話者[D]の発話区間I3と、話者[B]の発話区間I4と、話者[A]の発話区間I5とが含まれていることを示している。これらの発話区間I1〜I5は、話者毎に色分けされた状態で表示されていてもよい。
領域R2の中央に表示されるバーB2は、現在の再生位置を示している。図4の例では、バーB2が話者[D]の発話区間I3に重なるように表示されているため、現在再生されている音声の話者が[D]であることが分かる。なお、画像IM1は、記録音声に含まれる各発話区間の各話者を表示するための領域R4が含まれている。図4の例では、領域R4内の[D]という表示の近くに、現在再生されている音声の話者を示すマークM2が表示されているため、これによっても、現在再生されている音声の話者が[D]であることが分かる。
また、領域R2には、発話区間I1〜I5に対応するように設けられる複数の星形のマークM3が表示されている。これらのマークM3は、たとえば、対応する発話区間のみを後で抽出して再生することを可能にするためのマーキング(いわゆるタグ付け)を行うためのものである。図4の例では、発話区間I2に対応するマークM3の周囲に細長い部分P1が表示されている。これにより、図4の例では、ユーザが発話区間I2に対応するマークM3をタッチすることによって発話区間I2に対してタグ付けを行ったことが分かる。
なお、領域R3には、記録音声の再生の開始や停止などを行うための各種操作ボタンの他に、記録音声全体の中での現在の再生位置を示す時間(「00:49:59」という表示参照)が表示されている。
ここで、実施形態による再生処理部204は、記録音声を再生する場合に、その記録音声に含まれる複数の発話区間のうちユーザが指定した第1発話区間の第1音声の出力形態を、第1発話区間以外の第2発話区間の第2音声と異ならせることが可能なように構成されている。
たとえば、実施形態による再生処理部204は、ユーザが図4の画像IM1上でタグ付けを行った発話区間の音声が後ろ側から聴こえるとユーザに感じさせ、ユーザがタグ付けを行っていない発話区間の音声が正面側から聴こえるとユーザに感じさせるように、いわゆる立体音響技術を用いて記録音声を再生するように構成されている。
ここで、図5を参照して、立体音響技術の概略について簡単に説明する。
図5に示すように、実施形態によるサウンドコントローラ111(図2参照)は、音声信号出力部111Aと、2つのフィルタ111Bおよび111Cと、信号増幅部111Dとを備える。立体音響技術では、2つのフィルタ111Bおよび111Cに設定するフィルタ係数を変更することにより、ユーザに感じさせる音声の到来方向を制御することができる。
フィルタ係数算出部207は、フィルタ係数を、スピーカ104Aおよび104Bとユーザとの位置関係に応じた頭部伝達関数と、設定したい到来方向に対応する仮想音源Vとユーザとの位置関係に応じた頭部伝達関数とに基づいて算出する。
たとえば、2つのスピーカ104Aおよび104Bから出力される音声が後ろ側から聴こえるとユーザに感じさせたい場合、フィルタ係数算出部207は、図5に示す位置に仮想音源Vを設定し、一方のスピーカ104Aの位置からユーザの両耳の位置までの2つの頭部伝達関数と、他方のスピーカ104Bの位置からユーザの両耳の位置までの2つの頭部伝達関数と、仮想音源Vの位置からユーザの両耳の位置までの2つの頭部伝達関数とを用いて、2つのフィルタ111Bおよび111Cの各々に設定するフィルタ係数を算出する。そして、再生処理部204は、算出されたフィルタ係数をフィルタ111Bおよび111Cに設定することにより、2つのスピーカ104Aおよび104Bから出力される音声が仮想音源Vから聴こえるとユーザに感じさせるように、2つのスピーカ104Aおよび104Bから出力される2つの音声間に位相差や音量差などを設ける。なお、実施形態では、状況に応じた複数の頭部伝達関数が携帯端末100に予め記憶されているものとする。
このように、実施形態による再生処理部204は、ユーザが指定した第1発話区間の第1音声に基づいて2つのスピーカ104Aおよび104Bからそれぞれ出力される2つの音声が、携帯端末100に対向する第1方向(図5では方向D1)以外の第2方向(図5では方向D2)で強め合うように、2つの音声間に少なくとも位相差を設けることが可能なように構成されている。
また、実施形態による再生処理部204は、上記の立体音響技術を用いて、発話区間の音声が話者毎に異なる到来方向から聴こえてくるとユーザに感じさせるように記録音声を再生することが可能なように構成されている。ここで、話者毎の音声の到来方向は、デフォルトでは、記録音声の記録時に録音処理部203により取得される各話者間の位置関係に基づいて設定される。また、デフォルトで設定された話者毎の音声の到来方向は、ユーザの操作によって変更することが可能である。このように到来方向を設定・変更する処理は、到来方向設定部208によって行われる。
たとえば、実施形態による表示処理部206は、話者毎の音声の到来方向をユーザに設定させるために、図6に示す画像IM2や、図7に示す画像IM3などをディスプレイ101Aに表示することが可能なように構成されている。
図6の画像IM2には、ユーザの位置を示すマークM10と、マークM10を囲む環状の点線L1とが表示されている。そして、点線L1上には、ユーザに対する話者[A]〜[D]の位置をそれぞれ示すマークM11〜M14が表示されている。ユーザは、各マークM11〜M14を点線L1に沿って移動させるドラッグ操作を行うことにより、各話者[A]〜[D]の音声の到来方向を変更することができる。なお、図6の例では、話者[A]の音声がユーザの正面側から聴こえ、話者[B]の音声がユーザの左側から聴こえ、話者[C]の音声がユーザの後ろ側から聴こえ、話者[D]の音声がユーザの右側から聴こえるように、話者毎の音声の到来方向が設定されている。
同様に、図7の画像IM3には、ユーザの位置を示すマークM20と、ユーザに対するテーブルTを隔てた話者[A]〜[D]の位置をそれぞれ示すマークM21〜M24とが表示されている。ユーザは、各マークM21〜M24を移動させるドラッグ操作を行うことにより、各話者[A]〜[D]の音声の到来方向を変更することができる。なお、図7の例では、話者[A]の音声がテーブルTを隔てて右側から聴こえ、話者[B]の音声がテーブルTを隔てて正面側かつやや左寄りの位置から聴こえ、話者[C]の音声がテーブルTを隔てて正面側かつやや右寄りの位置から聴こえ、話者[D]の音声がテーブルTを隔てて右側から聴こえるように、話者毎の音声の到来方向が設定されている。
実施形態によるフィルタ係数算出部207は、話者毎に異なる到来方向から音声が聴こえるとユーザに感じさせるために、記録音声の記録時に取得された各話者の位置関係に応じた到来方向や、図6の画像IM2または図7の画像IM3を介して設定された到来方向などに基づいて、話者毎に異なるフィルタ係数を算出するように構成されている。そして、再生処理部204は、再生する音声の話者が切り替わる毎に、フィルタ111Bおよび111Cに設定するフィルタ係数を切り替えることにより、2つのスピーカ104Aおよび104Bから出力される音声が話者毎に異なる到来方向から聴こえてくるとユーザに感じさせるように、2つのスピーカ104Aおよび104Bから出力される2つの音声間に設ける位相差や音量差などを変化させる。
このように、実施形態による再生処理部204は、複数の話者のうち第1話者の発話区間に基づいて2つのスピーカ104Aおよび104Bから出力される2つの音声が強め合う方向と、第1話者とは異なる第2話者の発話区間に基づいて2つのスピーカ104Aおよび104Bから出力される2つの音声が強め合う方向とを異ならせるように、出力音声間に少なくとも位相差を設けることが可能なように構成されている。また、実施形態による到来方向設定部208は、これらの出力方向を、記録音声の記録時に取得される第1話者と第2話者との位置関係、またはユーザの操作に基づいて設定することが可能なように構成されている。
なお、上記では、ユーザが指定した第1発話区間の第1音声と、第1音声以外の第2音声とをユーザに聴覚的に識別させるために、立体音響技術を用いる例について説明した。しかしながら、実施形態では、第1音声と第2音声とで音量を異ならせることにより、立体音響技術を用いずに、第1音声と第2音声とをユーザに聴覚的に識別させてもよい。もちろん、第1音声と第2音声とで音量を異ならせることと、立体音響技術とを併用することにより、第1音声と第2音声とをユーザに聴覚的に識別させてもよい。
また、上記では、第1音声が後ろ側から聴こえ、第2音声が正面側から聴こえるとユーザに感じさせるように到来方向を設定することにより、第1音声と第2音声とをユーザに聴覚的に識別させる例について説明した。しかしながら、実施形態では、ユーザが第1音声と第2音声とを聴覚的に識別することが可能であれば、つまり第1音声と第2音声とで異なる到来方向から聴こえるとユーザに感じさせることが可能であれば、到来方向をどのように設定してもよい。なお、ユーザと携帯端末100とが互いに対向している場合、携帯端末100からの音声が正面側から聴こえるのが通常である。したがって、第1音声が後ろ側から聴こえるとユーザに感じさせるように到来方向を設定すれば、第1音声の再生時にユーザの注意を惹きやすい。
次に、図8を参照して、実施形態による携帯端末100のCPU105が記録音声を再生する際に実行する処理フローについて説明する。
この処理フローでは、図8に示すように、再生処理部204は、まず、ステップS1において、次に再生する区間がユーザによりタグ付けされた区間であるか否かを判断する。
ステップS1において、次に再生する区間がユーザによりタグ付けされた区間であると判断された場合には、ステップS2に処理が進む。そして、ステップS2において、フィルタ係数算出部207は、後ろ側から音声が聴こえるとユーザに感じさせるためのフィルタ係数を算出する。
一方、ステップS1において、次に再生する区間がユーザによりタグ付けされた区間でないと判断された場合には、ステップS3に処理が進む。そして、ステップS3において、再生処理部204は、次に再生する区間の話者を特定する。そして、ステップS4に処理が進む。
ステップS4において、再生処理部204は、ステップS3において特定された話者に応じた到来方向を特定する。より具体的には、再生処理部204は、記録音声の記録時に取得された各話者の位置関係や、図6の画像IM2または図7の画像IM3上でのユーザの操作などに基づいて到来方向設定部208により設定された話者毎の音声の到来方向から、ステップS3において特定された話者に応じた到来方向を特定する。そして、ステップS5に処理が進む。
ステップS5において、フィルタ係数算出部207は、ステップS4において特定された到来方向から音声が聴こえるとユーザに感じさせるためのフィルタ係数を算出する。
ステップS2またはS5においてフィルタ係数が算出された場合、ステップS6に処理が進む。そして、ステップS6において、算出されたフィルタ係数をフィルタ111Bおよび111Cに設定する。そして、処理が戻る。
次に、図9を参照して、実施形態において話者毎の音声の到来方向が設定される場合に携帯端末100のCPU105が実行する処理フローについて説明する。
この処理フローでは、図9に示すように、到来方向設定部208は、まず、ステップS11において、デフォルトの設定として、記録音声の記録時に録音処理部203により取得された各話者間の位置関係に基づく到来方向を設定する。そして、ステップS12に処理が進む。
ステップS12において、到来方向設定部208は、図6の画像IM2または図7の画像IM3上でのユーザの操作による到来方向の設定の変更が行われたか否かを判断する。このステップS12の処理は、ユーザの操作による設定の変更が行われたと判断されるまで繰り返される。ステップS12において、ユーザの操作による設定の変更が行われたと判断された場合、ステップS13に処理が進む。
ステップS13において、到来方向設定部208は、ステップS12のユーザの操作に応じて、到来方向の設定を更新する。そして、ステップS12に処理が戻る。
以上説明したように、実施形態によるCPU105は、録音/再生プログラム202を実行することにより、複数の話者の複数の発話区間を含む音声の信号を記録し、複数の話者の複数の発話区間を識別可能に表示し、複数の話者の複数の発話区間のうち第1話者の第1発話区間の第1音声を指定するための操作を受け取り、第1発話区間の第1音声を2つのスピーカ104Aおよび104Bを用いて第1出力形態により出力し、第1発話区間以外の第2発話区間の第2音声を2つのスピーカ104Aおよび104Bを用いて第2出力形態により出力する。ここで、第1音声の第1出力形態と、第2音声の第2出力形態とは異なる。これにより、ユーザが指定した区間の音声と他の音声とを聴覚的に識別することができる。
また、実施形態では、上記第1音声の第1出力形態は、第1音声に基づいて2つのスピーカ104Aおよび104Bからそれぞれ出力される2つの音声が、携帯端末100に対向する第1方向以外の第2方向で強め合うように出力するものである。これにより、ユーザが指定した区間の音声の再生時にユーザの注意を惹きやすくすることができる。
また、実施形態では、複数の話者のうち第1話者の発話区間に基づいて2つのスピーカ104Aおよび104Bからそれぞれ出力される2つの音声が強め合う方向と、第1話者とは異なる第2話者の発話区間に基づいて2つのスピーカ104Aおよび104Bからそれぞれ出力される2つの音声が強め合う方向とが異なる。これにより、現在再生されている音声の話者を聴覚的に識別することができる。
また、実施形態によるCPU105は、録音/再生プログラム202を実行することにより、第1話者の発話区間に基づいて2つのスピーカ104Aおよび104Bからそれぞれ出力される2つの音声が強め合う方向と、第2話者の発話区間に基づいて2つのスピーカ104Aおよび104Bからそれぞれ出力される2つの音声が強め合う方向とを、音声の信号の記録時における第1話者と第2話者との位置関係、またはユーザの操作に基づいて設定するように構成されている。これにより、話者毎の音声の到来方向を容易に設定・変更することができる。
なお、実施形態による録音/再生プログラム202は、インストール可能な形式または実行可能な形式のコンピュータプログラムプロダクトとして提供される。すなわち、録音/再生プログラム202は、CD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)などの、非一時的で、コンピュータで読み取り可能な記録媒体を有するコンピュータプログラムプロダクトに含まれた状態で提供される。
録音/再生プログラム202は、インターネットなどのネットワークに接続されたコンピュータに格納された状態で、ネットワーク経由で提供または配布されてもよい。また、録音/再生プログラム202は、ROMなどに予め組み込まれた状態で提供されてもよい。
以上、本発明の実施形態を説明したが、上記実施形態はあくまで一例であって、発明の範囲を限定することは意図していない。上記実施形態は、様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 携帯端末(電子機器)
104A、104B スピーカ
105 CPU(処理手段)
202 録音/再生プログラム

Claims (7)

  1. 複数の話者毎の複数の発話区間を含む音声信号を電子機器の複数のスピーカから再生出力するための方法であって、
    前記複数の話者毎の前記複数の発話区間を含む前記音声信号を前記電子機器のメモリに記録し、
    前記メモリから前記音声信号を再生する際に、前記複数の話者毎に発話区間を識別可能なように前記電子機器のディスプレイ画面に表示し、
    前記ディスプレイ画面に表示された前記複数の話者毎の前記複数の発話区間のうち、第1話者による第1発話区間の第1音声をタグ指定するための画面操作を受け取り、
    前記複数のスピーカを用いて、前記タグ指定された前記第1発話区間の前記第1音声を前記電子機器の第1方向から聞こえるように再生し、
    前記複数のスピーカを用いて、前記タグ指定がない第2話者による前記第1発話区間以外の第2発話区間の第2音声を前記電子機器の前記第1方向とは異なる第2方向から聞こえるように再生する、方法。
  2. 複数の話者毎の複数の発話区間を含む音声信号を再生出力する複数のスピーカと、
    前記複数の話者毎の複数の発話区間を含む前記音声信号を記録するメモリと、
    前記音声信号を再生操作するための画像が表示されるディスプレイと、
    前記音声信号の録音/再生プログラムを実行する処理手段と、
    を具備する電子機器であって、
    前記処理手段は、
    前記メモリから前記音声信号を再生する際に、前記複数の話者毎に複数の発話区間を識別可能なように前記ディスプレイの画面に表示し、
    前記ディスプレイの画面に表示された前記複数の話者毎の前記複数の発話区間のうち、第1話者による第1発話区間の第1音声をタグ指定するための画面操作を受け取り、
    前記複数のスピーカを用いて、前記タグ指定された前記第1発話区間の前記第1音声を前記電子機器の第1方向から聞こえるように再生し、
    前記複数のスピーカを用いて、前記タグ指定がない第2話者による前記第1発話区間以外の第2発話区間の第2音声を前記電子機器の前記第1方向とは異なる第2方向から聞こえるように再生する
    電子機器。
  3. 前記処理手段は、
    前記第1話者による前記第1発話区間の前記第1音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が強め合う方向と、前記第2話者による前記第2発話区間の前記第2音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が強め合う方向とを、前記第1音声および前記第2音声に対応した前記音声信号の記録時における前記第1話者と前記第2話者との位置関係、またはユーザの前記画面操作に基づいて設定し、
    前記第1発話区間の前記第1音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が、前記電子機器に対向する前記第1方向以外の前記第2方向で強め合うように、前記複数の音声間に位相差を設ける、請求項2に記載の電子機器。
  4. 前記処理手段は、前記第2話者による前記第2発話区間の前記第2音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が、前記第1音声異なる方向に強め合うように、前記複数の音声間に位相差を設ける、請求項に記載の電子機器。
  5. 複数の話者毎の複数の発話区間を含む音声信号を電子機器の複数のスピーカから再生出力することをコンピュータに実行させるためのプログラムであって、
    前記複数の話者毎の前記複数の発話区間を含む前記音声信号を前記電子機器のメモリに記録し、
    前記メモリから前記音声信号を再生する際に、前記複数の話者毎に発話区間を識別可能なように前記電子機器のディスプレイ画面に表示し、
    前記ディスプレイ画面に表示された前記複数の話者毎の前記複数の発話区間のうち、第1話者による第1発話区間の第1音声をタグ指定するための画面操作を受け取り、
    前記複数のスピーカを用いて、前記タグ指定された前記第1発話区間の前記第1音声を前記電子機器の第1方向から聞こえるように再生し、
    前記複数のスピーカを用いて、前記タグ指定がない第2話者による前記第1発話区間以外の第2発話区間の第2音声を前記電子機器の前記第1方向とは異なる第2方向から聞こえるように再生することを前記コンピュータに実行させる、プログラム。
  6. 前記第1話者による前記第1発話区間の前記第1音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が強め合う方向と、前記第2話者による前記第2発話区間の前記第2音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が強め合う方向とを、前記第1音声および前記第2音声に対応した前記音声信号の記録時における前記第1話者と前記第2話者との位置関係、またはユーザの前記画面操作に基づいて設定し、
    前記第1発話区間の前記第1音声に基づいて前記複数のスピーカからそれぞれ出力される複数の音声が、前記電子機器に対向する前記第1方向以外の前記第2方向で強め合うように、前記複数の音声間に位相差が設けられ、請求項に記載のプログラム。
  7. 前記第2話者による前記第2発話区間の前記第2音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が、前記第1音声異なる方向に強め合うように、前記複数の音声間に位相差が設けられ、請求項に記載のプログラム。
JP2014227270A 2014-11-07 2014-11-07 方法、電子機器、およびプログラム Active JP6532666B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014227270A JP6532666B2 (ja) 2014-11-07 2014-11-07 方法、電子機器、およびプログラム
US14/681,995 US20160133268A1 (en) 2014-11-07 2015-04-08 Method, electronic device, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014227270A JP6532666B2 (ja) 2014-11-07 2014-11-07 方法、電子機器、およびプログラム

Publications (3)

Publication Number Publication Date
JP2016092683A JP2016092683A (ja) 2016-05-23
JP2016092683A5 JP2016092683A5 (ja) 2017-12-07
JP6532666B2 true JP6532666B2 (ja) 2019-06-19

Family

ID=55912719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014227270A Active JP6532666B2 (ja) 2014-11-07 2014-11-07 方法、電子機器、およびプログラム

Country Status (2)

Country Link
US (1) US20160133268A1 (ja)
JP (1) JP6532666B2 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03252258A (ja) * 1990-03-01 1991-11-11 Toshiba Corp 指向性再生装置
JPH0974446A (ja) * 1995-03-01 1997-03-18 Nippon Telegr & Teleph Corp <Ntt> 音声通信制御装置
JPH0983655A (ja) * 1995-09-14 1997-03-28 Fujitsu Ltd 音声対話システム
JP3594068B2 (ja) * 1998-03-09 2004-11-24 富士ゼロックス株式会社 記録再生装置および記録再生方法
JP2001275197A (ja) * 2000-03-23 2001-10-05 Seiko Epson Corp 音源選択方法および音源選択装置並びに音源選択制御プログラムを記録した記録媒体
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
WO2012091185A1 (en) * 2010-12-27 2012-07-05 Lg Electronics Inc. Display device and method of providing feedback for gestures thereof
WO2012169679A1 (ko) * 2011-06-10 2012-12-13 엘지전자 주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 디스플레이 장치의 음성인식 시스템
US9619980B2 (en) * 2013-09-06 2017-04-11 Immersion Corporation Systems and methods for generating haptic effects associated with audio signals

Also Published As

Publication number Publication date
US20160133268A1 (en) 2016-05-12
JP2016092683A (ja) 2016-05-23

Similar Documents

Publication Publication Date Title
US11847376B2 (en) Orientation based microphone selection apparatus
JP3521900B2 (ja) バーチャルスピーカアンプ
JP5919201B2 (ja) 音声を定位知覚する技術
CN108141696A (zh) 用于空间音频调节的***和方法
JP6016322B2 (ja) 情報処理装置、情報処理方法、およびプログラム
EP3364638B1 (en) Recording method, recording playing method and apparatus, and terminal
US9462406B2 (en) Method and apparatus for facilitating spatial audio capture with multiple devices
JPWO2005091679A1 (ja) 音声出力装置、音声信号出力調整方法、及び音声信号出力調整処理プログラム等
JP2020520576A (ja) 空間オーディオの提示のための装置および関連する方法
JP2003032776A (ja) 再生システム
JP6646116B2 (ja) 映像音声処理プログラム及びゲーム装置
JP6532666B2 (ja) 方法、電子機器、およびプログラム
JP2013236354A (ja) 音響システムおよびスピーカ装置
JP2019113636A (ja) 音声認識システム
JP6443205B2 (ja) コンテンツ再生システム、コンテンツ再生装置、コンテンツ関連情報配信装置、コンテンツ再生方法、及びコンテンツ再生プログラム
JP2015109612A5 (ja)
JP4382045B2 (ja) データ出力装置、データ出力方法、データ出力プログラム、および記録媒体
JP2005176138A (ja) 音声記録再生装置及び音声記録再生方法
US20160227320A1 (en) Multi-channel microphone mapping
JP6217696B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2009025714A (ja) 車載装置および音声認識方法
KR101391942B1 (ko) 오디오 스티어링 동영상 시스템 및 그 제공방법
JP6186627B2 (ja) マルチメディア装置およびプログラム
JP2009159073A (ja) 音響再生装置および音響再生方法
JP4327179B2 (ja) 音声出力装置、音声出力装置の制御方法及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181119

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20181212

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20181213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190522

R150 Certificate of patent or registration of utility model

Ref document number: 6532666

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250