JP7321736B2 - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
JP7321736B2
JP7321736B2 JP2019064366A JP2019064366A JP7321736B2 JP 7321736 B2 JP7321736 B2 JP 7321736B2 JP 2019064366 A JP2019064366 A JP 2019064366A JP 2019064366 A JP2019064366 A JP 2019064366A JP 7321736 B2 JP7321736 B2 JP 7321736B2
Authority
JP
Japan
Prior art keywords
sound
acoustic data
sound source
data
setting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019064366A
Other languages
Japanese (ja)
Other versions
JP2020167471A5 (en
JP2020167471A (en
Inventor
典朗 多和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019064366A priority Critical patent/JP7321736B2/en
Priority to US16/821,419 priority patent/US10939224B2/en
Publication of JP2020167471A publication Critical patent/JP2020167471A/en
Publication of JP2020167471A5 publication Critical patent/JP2020167471A5/ja
Application granted granted Critical
Publication of JP7321736B2 publication Critical patent/JP7321736B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、収音により得られる音響データを処理する技術に関する。 The present invention relates to technology for processing acoustic data obtained by picking up sounds.

収音対象となる空間の各所にマイクを配置して収音を行い、各マイクにより得られた音響データをマイクの収音位置に応じて合成することで、収音対象空間の音を再現する音響再生用データを生成できる。例えば、スタジアムに配置された複数のマイクにより得られた複数の音響データを、それぞれのマイクの収音位置に位置する音源の音のデータとして取得し、また、スタジアムの中心を仮想的な聴取位置として設定する。そして、音源の位置と聴取位置との位置関係に基づいて、サラウンドパンニング技術などを用いて各音響データを処理することで、サラウンド再生用の音響信号を生成できる。この音響信号をサラウンド再生システムで再生すれば、再生された音を聴くユーザはあたかも自分がスタジアムの中心にいるかのような音像を知覚することができる。 Microphones are placed at various locations in the target space to collect sound, and the acoustic data obtained from each microphone is synthesized according to the sound pickup position of the microphone, thereby reproducing the sound in the target space. Can generate data for sound reproduction. For example, multiple acoustic data obtained by multiple microphones placed in a stadium are acquired as sound data of the sound source located at the sound pickup position of each microphone, and the center of the stadium is a virtual listening position. set as Then, based on the positional relationship between the position of the sound source and the listening position, an acoustic signal for surround reproduction can be generated by processing each acoustic data using a surround panning technique or the like. If this acoustic signal is reproduced by a surround reproduction system, the user listening to the reproduced sound can perceive a sound image as if he were in the center of the stadium.

特許文献1には、異なる位置に設置された複数のマイクにより収音された音声に、マイクの設置位置と入力された聴取位置とに応じたミキシング処理を施すことで、聴取者に対してサラウンド音声を提供することが開示されている。 Japanese Patent Laid-Open No. 2002-200000 describes a method in which sounds collected by a plurality of microphones installed at different positions are mixed according to the installation positions of the microphones and the input listening position, thereby providing surround sound to the listener. It is disclosed to provide audio.

特開2005-223771号公報JP-A-2005-223771

複数の位置で収音された音響データに基づいて従来の方法で音響再生用データを生成する場合、収音位置の配置によっては、音響再生用データに基づいて再生される音がユーザに与える臨場感が低くなることが考えられる。例えば、収音対象のスタジアムの制約によって、設置されるマイクの配置に偏りが生じる場合がある。そのような場合に、収音された音響データをマイクの配置に合わせて合成することで生成されたデータを再生すると、聴取位置から見てマイクが存在しない方向からの音が聞こえづらくなり、スタジアムを包み込むような歓声が十分に再現できない虞がある。また、各方向から音が均等に聞こえるように、収音された音響データをマイクの配置に依らずに合成することで生成されたデータを再生すると、局所的な応援の音などが実際とは異なる方向から聞こえることにより違和感が生じる虞がある。 When sound reproduction data is generated by a conventional method based on sound data collected at a plurality of positions, depending on the arrangement of the sound collection positions, the sound reproduced based on the sound reproduction data gives the user a sense of realism. You may feel less. For example, the placement of microphones may be biased due to limitations of the stadium where the sound is to be collected. In such a case, if the data generated by synthesizing the collected sound data according to the arrangement of the microphones is reproduced, it becomes difficult to hear the sound from the direction where the microphones do not exist when viewed from the listening position. There is a risk that the cheers that envelop the audience may not be reproduced sufficiently. In addition, when playing back the data generated by synthesizing the collected sound data regardless of the placement of the microphones so that the sound can be heard evenly from all directions, the local cheering sound will be different from the actual sound. There is a possibility that a sense of incompatibility may be caused by hearing from different directions.

本発明は上記課題に鑑み、複数の位置で収音された音響データから生成される音響再生用データに基づいて再生される音がユーザに与える臨場感を向上させることを目的とする。 SUMMARY OF THE INVENTION In view of the above problems, an object of the present invention is to improve the sense of realism given to the user by sounds reproduced based on sound reproduction data generated from sound data collected at a plurality of positions.

上記の課題を解決するため、本発明に係る情報処理装置は、それぞれ異なる位置で収音する複数の収音部で生成された収音信号に基づく複数の音響データを取得する取得手段と、前記取得手段により取得される音響データに対応する仮想的な音源位置を、前記音響データと他の音響データとの相関に関する相関情報と、前記音響データに関連付けられる音源の基準位置とに基づいて設定する設定手段と、前記取得手段により取得された前記複数の音響データのうち1以上の音響データを、仮想的な聴取位置と前記設定手段により前記1以上の音響データそれぞれについて設定された仮想的な音源位置とに基づいて、前記聴取位置に応じた音を再生するための前記音響再生用データを生成する生成手段とを有する。 In order to solve the above problems, an information processing apparatus according to the present invention includes acquisition means for acquiring a plurality of sound data based on sound signals generated by a plurality of sound pickup units that pick up sounds at different positions; A virtual sound source position corresponding to the acoustic data acquired by the acquisition means is set based on correlation information relating to the correlation between the acoustic data and other acoustic data and a reference position of the sound source associated with the acoustic data. setting means for setting one or more acoustic data out of the plurality of acoustic data acquired by the acquisition means to a virtual listening position and a virtual sound source set for each of the one or more acoustic data by the setting means; and generating means for generating the sound reproduction data for reproducing sound according to the listening position, based on the position.

本発明によれば、複数の位置で収音された音響データから生成される音響再生用データに基づいて再生される音がユーザに与える臨場感を向上させることができる。 According to the present invention, it is possible to improve the sense of reality given to the user by sounds reproduced based on sound reproduction data generated from sound data collected at a plurality of positions.

情報処理システム10の構成例を示す図である。1 is a diagram showing a configuration example of an information processing system 10; FIG. 情報処理装置100の動作の例を示すフローチャートである。4 is a flow chart showing an example of the operation of the information processing apparatus 100; 音源の位置及び半径の設定について説明するための図である。FIG. 4 is a diagram for explaining the setting of the position and radius of a sound source; 音源の位置及び半径の最適化について説明するための図である。FIG. 4 is a diagram for explaining optimization of the position and radius of a sound source; 情報処理装置100のハードウェア構成例を示す図である。2 is a diagram illustrating a hardware configuration example of the information processing apparatus 100; FIG.

以下、本発明の実施形態について、図面を参照して説明する。なお、以下の実施形態は本発明を限定するものではなく、また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成については、同じ符号を付して説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings. It should be noted that the following embodiments do not limit the present invention, and not all combinations of features described in the embodiments are essential for the solution of the present invention. In addition, the same configuration will be described by attaching the same reference numerals.

[システム構成]
図1は、本実施形態に係る情報処理システム10の構成例を示すブロック図である。情報処理システム10は、情報処理装置100と、収音部110-1から収音部110-MまでのM個の収音部と、再生部120とを有する。以降では、各収音部を特に区別しない場合には単に収音部110と表記する。なお、情報処理システム10は複数の収音部110を有していればよく、収音部110の数は限定されない。また、複数の収音部110の構成は同一であってもよいし、構成が異なる収音部110が存在してもよい。
[System configuration]
FIG. 1 is a block diagram showing a configuration example of an information processing system 10 according to this embodiment. The information processing system 10 includes an information processing device 100 , M sound pickup units from sound pickup units 110 - 1 to 110 -M, and a playback unit 120 . In the following description, each sound pickup unit is simply referred to as the sound pickup unit 110 unless otherwise distinguished. Note that the information processing system 10 only needs to have a plurality of sound pickup units 110, and the number of sound pickup units 110 is not limited. Moreover, the configuration of the plurality of sound pickup units 110 may be the same, or there may be sound pickup units 110 having different configurations.

収音部110は、単一のマイク素子を有するマイクロホン又は複数のマイク素子を有するマイクアレイであり、複数の収音部110がそれぞれ異なる位置に配置される。本実施形態では、複数の収音部110がスポーツ競技を行うスタジアムに配置され、スタジアムの客席の音を収音する例を中心に説明する。ただし、収音部110による収音対象の音は客席の音に限らず、競技のフィールドで選手等が発する音であってもよい。また、収音部110の設置場所はスタジアムに限定されず、例えばコンサートホールや舞台などであってもよい。収音部110による収音で得られた収音信号は、情報処理装置100へ出力される。 The sound pickup unit 110 is a microphone having a single microphone element or a microphone array having a plurality of microphone elements, and the plurality of sound pickup units 110 are arranged at different positions. In the present embodiment, an example in which a plurality of sound pickup units 110 are arranged in a stadium where a sporting event is held and the sound of audience seats in the stadium is picked up will be mainly described. However, the sound to be collected by the sound pickup unit 110 is not limited to the sound of the audience seats, and may be the sound emitted by the athletes on the field of the game. Also, the installation location of the sound pickup unit 110 is not limited to the stadium, and may be, for example, a concert hall or a stage. A sound signal obtained by sound pickup by the sound pickup unit 110 is output to the information processing device 100 .

情報処理装置100は、収音部110から入力された収音信号に応じた音響データを後述する音源の情報に基づいて処理することで音響再生用データを生成し、生成されたデータに応じた再生用の信号を再生部120へ出力する。情報処理装置100のハードウェア構成例について、図5を用いて説明する。情報処理装置100は、CPU501、ROM502、RAM503、補助記憶装置504、表示部505、操作部506、通信I/F507、及びバス508を有する。 The information processing apparatus 100 generates sound reproduction data by processing sound data corresponding to a sound signal input from the sound collecting unit 110 based on sound source information described later, and generates sound reproduction data according to the generated data. A signal for reproduction is output to the reproduction unit 120 . A hardware configuration example of the information processing apparatus 100 will be described with reference to FIG. The information processing apparatus 100 has a CPU 501 , a ROM 502 , a RAM 503 , an auxiliary storage device 504 , a display section 505 , an operation section 506 , a communication I/F 507 and a bus 508 .

CPU501は、ROM502やRAM503に格納されているコンピュータプログラムやデータを用いて情報処理装置100の全体を制御する。なお、情報処理装置100がCPU501とは異なる1又は複数の専用のハードウェアを有し、CPU501による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。ROM502は、変更を必要としないプログラムやパラメータを格納する。RAM503は、補助記憶装置504から供給されるプログラムやデータ、及び通信I/F507を介して外部から供給されるデータなどを一時記憶する。補助記憶装置504は、例えばハードディスクドライブ等で構成され、音響信号などの種々のコンテンツデータを記憶する。 The CPU 501 controls the entire information processing apparatus 100 using computer programs and data stored in the ROM 502 and RAM 503 . Note that the information processing apparatus 100 may have one or a plurality of pieces of dedicated hardware different from the CPU 501, and at least part of the processing by the CPU 501 may be executed by the dedicated hardware. Examples of dedicated hardware include ASICs (Application Specific Integrated Circuits), FPGAs (Field Programmable Gate Arrays), and DSPs (Digital Signal Processors). ROM 502 stores programs and parameters that do not require modification. The RAM 503 temporarily stores programs and data supplied from the auxiliary storage device 504 and data externally supplied via the communication I/F 507 . The auxiliary storage device 504 is composed of, for example, a hard disk drive, etc., and stores various content data such as audio signals.

表示部505は、例えば液晶ディスプレイやLED等で構成され、ユーザが情報処理装置100を操作するためのGUI(Graphical User Interface)などを表示する。操作部506は、例えばキーボードやマウス、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をCPU501に入力する。通信I/F507は、収音部110や再生部120などの外部の装置との通信に用いられる。例えば、情報処理装置100が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F507に接続される。なお、情報処理装置100が外部の装置と無線通信する機能を有する場合、通信I/F507はアンテナを備える。バス508は、情報処理装置100の各部をつないで情報を伝達する。 The display unit 505 is configured by, for example, a liquid crystal display or an LED, and displays a GUI (Graphical User Interface) or the like for the user to operate the information processing apparatus 100 . An operation unit 506 is composed of, for example, a keyboard, a mouse, a touch panel, and the like, and inputs various instructions to the CPU 501 in response to user's operations. Communication I/F 507 is used for communication with external devices such as sound pickup unit 110 and playback unit 120 . For example, when the information processing apparatus 100 is connected to an external apparatus by wire, a communication cable is connected to the communication I/F 507 . In addition, when the information processing apparatus 100 has a function of wirelessly communicating with an external apparatus, the communication I/F 507 is provided with an antenna. A bus 508 connects each unit of the information processing apparatus 100 and transmits information.

情報処理装置100は、図1に示すように、その機能的な構成要素として記憶部101、信号処理部102、入力部103、表示制御部104、出力部106、及び操作検出部105を有する。これらの各機能部は、図5に示したハードウェア構成要素により実現される。入力部103は、収音部110からの入力を受け付け、収音に基づく音響データを記憶部101に記憶する。記憶部101に記憶される音響データは、収音部110から入力された収音信号のデータであってもよいし、収音信号に対してノイズ除去等の処理を行うことで得られるデータであってもよい。また記憶部101は、複数の収音部110の位置や種別等、収音に関する各種の情報も記憶する。 As shown in FIG. 1, the information processing apparatus 100 has a storage unit 101, a signal processing unit 102, an input unit 103, a display control unit 104, an output unit 106, and an operation detection unit 105 as its functional components. Each of these functional units is implemented by the hardware components shown in FIG. The input unit 103 receives an input from the sound pickup unit 110 and stores acoustic data based on the picked sound in the storage unit 101 . The acoustic data stored in the storage unit 101 may be data of the picked-up sound signal input from the sound pickup unit 110, or data obtained by performing processing such as noise removal on the picked-up sound signal. There may be. The storage unit 101 also stores various information related to sound pickup, such as the positions and types of the plurality of sound pickup units 110 .

信号処理部102は、記憶部101に記憶された音響データに対して後述する各種の処理を行い、再生部120により音を再生するための音響再生用データを生成する。表示制御部104は、表示部505に各種の情報を表示させる。操作検出部105は、操作部506を介して入力されたユーザ操作を検出する。出力部106は、再生用の音響信号を再生部120へ出力する。出力部が出力する音響信号は、信号処理部102により生成された音響再生用データの信号であってもよいし、音響再生用データに対してフォーマット変換などの処理を行うことで得られる信号であってもよい。 The signal processing unit 102 performs various types of processing, which will be described later, on the acoustic data stored in the storage unit 101 , and generates sound reproduction data for reproducing sound by the reproduction unit 120 . The display control unit 104 causes the display unit 505 to display various information. The operation detection unit 105 detects user operations input via the operation unit 506 . The output unit 106 outputs the acoustic signal for reproduction to the reproduction unit 120 . The audio signal output by the output unit may be a signal of the audio reproduction data generated by the signal processing unit 102, or may be a signal obtained by performing processing such as format conversion on the audio reproduction data. There may be.

再生部120は、複数のスピーカを有するサラウンドスピーカシステムやヘッドホンで構成され、情報処理装置100から入力された音響信号に基づいて音を再生する。特に本実施形態における再生部120は、ユーザに対して複数の方向から音を聴かせることで立体音響を実現する。また、再生部120は、情報処理装置100から入力された音響信号に対してDA変換や増幅処理を行う機能を有していてもよい。 The reproduction unit 120 includes a surround speaker system having a plurality of speakers or headphones, and reproduces sounds based on acoustic signals input from the information processing apparatus 100 . In particular, the playback unit 120 in this embodiment realizes stereophonic sound by making the user listen to sounds from a plurality of directions. Further, the reproducing unit 120 may have a function of performing DA conversion and amplification processing on the acoustic signal input from the information processing device 100 .

なお、図1では収音部110と情報処理装置100が直接接続されており、情報処理装置100と再生部120とが直接接続されている例を示すが、情報処理システム10の構成はこれに限定されない。例えば、収音部110による収音に基づく音響データが情報処理装置100と接続可能な記憶装置(不図示)に記憶され、情報処理装置100はその記憶装置から音響データを取得してもよい。また例えば、情報処理装置100は音響再生用データを情報処理装置100と接続可能な音響機器(不図示)に出力し、その音響機器が音響再生用データに基づく音響信号を再生部120へ出力してもよい。また、情報処理装置100が再生部120を有していてもよい。 FIG. 1 shows an example in which the sound pickup unit 110 and the information processing device 100 are directly connected, and the information processing device 100 and the reproduction unit 120 are directly connected. Not limited. For example, acoustic data based on sound collected by the sound pickup unit 110 may be stored in a storage device (not shown) connectable to the information processing device 100, and the information processing device 100 may acquire the acoustic data from the storage device. Further, for example, the information processing device 100 outputs sound reproduction data to an audio device (not shown) connectable to the information processing device 100, and the audio device outputs an audio signal based on the sound reproduction data to the reproduction unit 120. may Further, the information processing device 100 may have the reproducing unit 120 .

[情報処理装置の動作]
以下では、本実施形態に係る情報処理装置100の動作について、図2のフローチャートを用いて説明する。図2に示す処理は、情報処理装置100に収音信号が入力され、音響再生用データの生成に係る処理を開始するための指示を情報処理装置100が受け付けたタイミングで開始される。処理を開始するための指示は、情報処理装置100の操作部506を介したユーザ操作により行われてもよいし、他の装置から指示が入力されてもよい。ただし図2に示す処理の実行タイミングは上記タイミングに限定されない。
[Operation of information processing device]
The operation of the information processing apparatus 100 according to this embodiment will be described below using the flowchart of FIG. The process shown in FIG. 2 is started at the timing when the information processing apparatus 100 receives an instruction to start processing related to generation of data for sound reproduction when a sound pickup signal is input to the information processing apparatus 100 . The instruction to start processing may be given by a user operation via the operation unit 506 of the information processing apparatus 100, or may be input from another apparatus. However, the execution timing of the processing shown in FIG. 2 is not limited to the above timing.

図2に示す処理は収音部110による収音と並行して実行されてもよいし、収音部110による収音が終了した後に実行されてもよい。図2に示す処理は、CPU501がROM502に格納されたプログラムをRAM503に展開して実行することで実現される。なお、図2に示す処理の少なくとも一部を、CPU501とは異なる1又は複数の専用のハードウェアにより実現してもよい。 The processing shown in FIG. 2 may be executed in parallel with sound collection by the sound collection unit 110, or may be executed after the sound collection by the sound collection unit 110 is completed. The processing shown in FIG. 2 is implemented by the CPU 501 developing a program stored in the ROM 502 in the RAM 503 and executing the program. Note that at least part of the processing shown in FIG. 2 may be implemented by one or more dedicated hardware different from the CPU 501 .

S200では、入力部103が、複数の収音部110からの入力を受け付けて、それぞれ異なる位置で収音する複数の収音部110による収音に基づく複数の音響データを取得する。S201では、信号処理部102が、複数の収音部110による収音対象となる収音エリアの情報を取得する。本実施形態では、収音部110による収音対象がスタジアムの観客席の音であるものとし、収音エリアの情報として図3(a)に示すスタジアム300の観客席エリア302の位置や形状等の幾何情報が取得されるものとする。また、収音エリアの情報には、観客席エリア302を構成する、ホーム側エリア303およびアウェイ側エリア304の幾何情報が含まれていてもよい。 In S200, the input unit 103 receives inputs from the plurality of sound pickup units 110 and acquires a plurality of acoustic data based on sounds picked up by the plurality of sound pickup units 110 picking up sounds at different positions. In S<b>201 , the signal processing unit 102 acquires information about a sound pickup area targeted for sound pickup by the plurality of sound pickup units 110 . In this embodiment, it is assumed that the sound pickup target by the sound pickup unit 110 is the sound of the spectator seats in the stadium, and the position and shape of the spectator seat area 302 of the stadium 300 shown in FIG. shall be acquired. Further, the information on the sound collecting area may include geometric information on the home side area 303 and the away side area 304 that constitute the spectator seat area 302 .

収音エリアの情報は、記憶部101にあらかじめ記憶されているものとする。ただし、操作部506を介したユーザ操作により、情報処理装置100に収音エリアの情報が入力されてもよい。また、情報処理装置100は、スタジアム全体を撮影する不図示の撮影部(カメラ)から取得した映像信号を解析することで、収音エリアの情報を取得してもよい。このとき、観客のユニフォームの色などから、ホーム側エリア303およびアウェイ側エリア304を識別するようにしてもよい。 It is assumed that information on the sound pickup area is stored in advance in the storage unit 101 . However, information on the sound pickup area may be input to the information processing apparatus 100 by a user operation via the operation unit 506 . Further, the information processing apparatus 100 may acquire information about the sound pickup area by analyzing a video signal acquired from a camera (not shown) that captures an image of the entire stadium. At this time, the home side area 303 and the away side area 304 may be identified from the color of the uniform of the spectators.

S202では、信号処理部102が、複数の収音部110の情報を取得する。収音部110の情報には、少なくとも各収音部110の位置を示す情報が含まれる。さらに、収音部110の情報には、各収音部110が指向性を有するか否かの種別、指向性を有する場合の指向方向、及び指向性の鋭さに関する情報が含まれていてもよい。 In S<b>202 , the signal processing unit 102 acquires information on the multiple sound pickup units 110 . The information on the sound pickup units 110 includes at least information indicating the position of each sound pickup unit 110 . Further, the information of the sound pickup unit 110 may include information on the type of whether or not each sound pickup unit 110 has directivity, the directivity direction when it has directivity, and the sharpness of the directivity. .

ここで、収音部110の位置や指向方向は、S201で取得される収音エリアの情報に対応する座標系で記述するものとする。例えば、複数の収音部110が位置する空間であるスタジアムの中心301にグローバル座標系の原点を取り、観客席エリア302の直線部と平行および垂直となるようにx軸およびy軸を取って、それらの軸と垂直な鉛直上方向にz軸を取る。このように定義された座標系における座標値で、各収音部110の位置や指向方向が表される。ただし、収音エリアの情報及び収音部110の情報の形式はこれに限定されない。 Here, the position and pointing direction of the sound pickup unit 110 are described in a coordinate system corresponding to the sound pickup area information acquired in S201. For example, the origin of the global coordinate system is taken at the center 301 of the stadium, which is the space where the multiple sound pickup units 110 are located, and the x-axis and y-axis are taken so as to be parallel and perpendicular to the straight part of the audience seating area 302. , taking the z-axis in the vertical upward direction perpendicular to those axes. Coordinate values in the coordinate system defined in this way represent the position and directivity direction of each sound pickup unit 110 . However, the format of the information on the sound pickup area and the information on the sound pickup unit 110 is not limited to this.

収音部110の情報は、記憶部101に予め記憶されているものとする。ただし、操作部506を介したユーザ操作により信号処理部102に収音部110の情報が入力されてもよい。また、信号処理部102は、不図示の撮影部から取得した映像信号を解析することで、収音部110を検出し、収音部110の情報を取得してもよい。このとき、あらかじめ種々の収音部110の映像を用いて行った学習の結果に基づいて映像解析を行ってもよい。また、信号処理部102は、収音部110の情報をその収音部110から直接取得してもよい。このとき、各収音部110が、GPSや姿勢センサを用いて取得した位置や方向の情報を出力してもよい。 It is assumed that information on the sound pickup unit 110 is stored in advance in the storage unit 101 . However, the information of the sound pickup unit 110 may be input to the signal processing unit 102 by user operation via the operation unit 506 . Further, the signal processing unit 102 may detect the sound pickup unit 110 and acquire information of the sound pickup unit 110 by analyzing a video signal acquired from an imaging unit (not shown). At this time, video analysis may be performed based on the results of learning performed in advance using videos of various sound pickup units 110 . Further, the signal processing unit 102 may directly acquire the information of the sound pickup unit 110 from the sound pickup unit 110 . At this time, each sound pickup unit 110 may output position and direction information acquired using a GPS or a posture sensor.

S203からS205の処理は、S200で取得された、複数の収音部110に対応する複数の音響データそれぞれに対して行われる。ここでは処理対象とする音響データを変更しながら繰り返し処理が行われるものとするが、複数の音響データに対する処理が並行して行われてもよい。 The processing from S203 to S205 is performed for each of the plurality of acoustic data corresponding to the plurality of sound pickup units 110 acquired in S200. Here, it is assumed that the processing is repeatedly performed while changing the acoustic data to be processed, but the processing for a plurality of acoustic data may be performed in parallel.

以降では、各音響データに対応する仮想的な音源を設定して処理が行われる。すなわち、1つの収音部110により収音された音が、収音エリア内の1つの音源から発される音として処理される。例えば、図3(a)における無指向性のマイク110-1は、その周囲で発されてマイクに届いた音を収音するが、情報処理装置100は、そのマイクで収音された音を、位置321に存在する仮想的な音源から発された音として処理する。音源の位置は、立体音響を実現するための音響再生用データを生成するために用いられる。すなわち情報処理装置100は、後述の処理において、収音部110による収音に基づく音響データを、その音響データに対応する音源の位置と仮想的な聴取位置とに基づいて処理することで、聴取位置に応じた音を再生するための音響再生用データを生成する。仮想的な聴取位置は例えばスタジアムの中央などに設定することができ、また、聴取位置を変更することも可能である。 After that, processing is performed by setting a virtual sound source corresponding to each sound data. That is, the sound picked up by one sound pickup unit 110 is processed as the sound emitted from one sound source within the sound pickup area. For example, the omnidirectional microphone 110-1 in FIG. 3(a) picks up sounds emitted in its surroundings and reaching the microphone. , is processed as a sound emitted from a virtual sound source existing at position 321 . The position of the sound source is used to generate sound reproduction data for realizing stereophonic sound. In other words, the information processing apparatus 100 processes sound data based on sound collected by the sound collecting unit 110 based on the position of the sound source corresponding to the sound data and the virtual listening position in the processing described later, so that the sound can be heard. Sound reproduction data for reproducing sound according to position is generated. A virtual listening position can be set, for example, in the center of a stadium, and it is also possible to change the listening position.

S203では、信号処理部102が、対象の音響データのデータ取得に用いられた収音部110の位置に基づいて、その音響データに関連付けられる音源の基準位置を決定する。例えば、対象の音響データが無指向性のマイク110-1により取得された場合、その音響データに関連づけられる基準位置は、マイク110-1の位置と一致する位置321となる。一方、対象の音響データがマイクアレイ110-2により取得された場合、その音響データに関連付けられる基準位置は、マイクアレイ110-2の位置からその指向方向に離れた位置であって観客席エリア302内である位置322となる。マイクアレイ110-2は、信号処理により指向性を形成することができ、収音した音から信号処理により特定の指向方向の音を抽出可能なマイクである。 In S203, the signal processing unit 102 determines the reference position of the sound source associated with the acoustic data based on the position of the sound pickup unit 110 used to acquire the target acoustic data. For example, if the acoustic data of interest was captured by omnidirectional microphone 110-1, the reference position associated with that acoustic data would be position 321, which coincides with the position of microphone 110-1. On the other hand, when the acoustic data of interest is acquired by microphone array 110-2, the reference position associated with the acoustic data is a position away from the position of microphone array 110-2 in the direction of directivity and is located in spectator seating area 302. position 322 which is within. The microphone array 110-2 is a microphone capable of forming directivity by signal processing and extracting sound in a specific directivity direction from the collected sound by signal processing.

また、対象の音響データが指向性マイク110-3により取得された場合、その音響データに関連づけられる基準位置は、マイク110-3の位置からその指向方向に離れた位置であって観客席エリア302内である位置323となる。また、対象の音響データが観客席エリア302の外に位置する無指向性のマイク110-4により取得された場合、無指向性のマイク110-4の位置は所定の収音対象エリアである観客席エリア302の外となる。そこで、そのような音響データに関連づけられる基準位置は、マイク110-4の位置と観客席エリア302のエリア内でマイク110-4に最も近い位置を結ぶ線上の位置であって観客席エリア302内である位置323とする。なお、上記の基準位置の決め方は一例であり、これに限定されない。 Further, when the acoustic data of interest is acquired by the directional microphone 110-3, the reference position associated with the acoustic data is a position away from the position of the microphone 110-3 in the direction of its directivity and is located in the auditorium area 302. position 323 which is within. In addition, when the target acoustic data is acquired by the omnidirectional microphone 110-4 positioned outside the spectator seat area 302, the position of the omnidirectional microphone 110-4 is the position of the spectator in the predetermined sound pickup target area. Outside the seat area 302 . Therefore, the reference position associated with such acoustic data is the position on the line that connects the position of microphone 110-4 and the position in spectator seating area 302 that is closest to microphone 110-4. Let position 323 be . It should be noted that the method of determining the reference position described above is merely an example, and the present invention is not limited to this.

S204では、信号処理部102が、S203で決定した音源の基準位置に基づいて、音源の位置を基準位置から変更可能な範囲(音源の位置を設定可能な範囲)を表す設定範囲を決定する。設定範囲には基準位置が含まれ、例えば基準位置が設定範囲の中心となる。本実施形態において設定範囲は例えば以下のような目的で設定される。情報処理装置100は、音源の位置を基準位置から変更することを可能とする。これにより、音源の位置に従って後述の処理により生成される音響再生用データにおいて、収音位置の偏りに起因する歓声音等の偏りを低減することができる。しかしながら、全周の音のバランスを改善するために音源を基準位置から全く自由に動かせるようにしてしまうと、実際に音が発された位置と設定された音源位置との差が大きくなることで、再生される音に違和感が生じる可能性がある。 In S204, based on the reference position of the sound source determined in S203, the signal processing unit 102 determines a setting range representing a range in which the position of the sound source can be changed from the reference position (a range in which the position of the sound source can be set). The setting range includes a reference position, and for example, the reference position is the center of the setting range. In this embodiment, the setting range is set for the following purposes, for example. The information processing device 100 enables the position of the sound source to be changed from the reference position. As a result, in the sound reproduction data generated by the processing described below according to the position of the sound source, it is possible to reduce the deviation of cheering sounds and the like caused by the deviation of the sound pickup position. However, if the sound source can be moved freely from the reference position in order to improve the balance of the sound around the circumference, the difference between the position where the sound is actually emitted and the set sound source position will increase. , there is a possibility that a sense of incongruity may occur in the reproduced sound.

特に、スタジアムの観客席エリアの音を収音する例においては、楽器の演奏を含む応援の音などの局所的な(本実施形態では局所性が高いと表現する)音も収音され、このような音が聞こえる位置が大きく変更されると違和感が生じやすい。なお、このような局所性の高い音に対応する音源の位置変更による音場の空間再現性への影響は、ある視点位置から見た映像の再生と共に、その視点位置を仮想的な聴取位置とする音が再生される場合に、視聴者により知覚されやすくなる。このような再生される音の臨場感の低下を抑制することを目的として、設定範囲が設定される。 In particular, in the example of collecting the sound of the spectator area of a stadium, local sounds such as cheering sounds including the performance of musical instruments (expressed as highly localized in this embodiment) are also collected. If the position from which such sounds are heard is greatly changed, a sense of incongruity is likely to occur. It should be noted that the effect on the spatial reproducibility of the sound field due to the positional change of the sound source corresponding to such highly localized sound can be seen not only in the reproduction of images viewed from a certain viewpoint position, but also in the virtual listening position. is more likely to be perceived by the viewer when a sound is played. A setting range is set for the purpose of suppressing such reduction in the presence of the reproduced sound.

音の偏りを低減しつつ音源の位置変更による違和感を抑制するために、信号処理部102は、局所性が高い音に対応する音源ほど基準位置からの移動可能量が小さくなるように、設定範囲を決定する。局所性の判定基準としては、例えば収音部110の特徴である指向性の鋭さを用いることができる。すなわち、信号処理部102は、対象の音響データの取得に用いられた収音部110の指向性が鋭いほど、その音響データに対応する音源の設定範囲を小さくする。このようにする理由は、局所性の高い音の収音には指向性の鋭い収音部110が用いられることが多いためである。また、指向性の鋭い収音部110で収音した音には、指向方向以外の方向からの音の混入が少ないため、他の収音部110で収音される音とは異なる特徴的な音が収音されることが多いためである。 In order to reduce the bias of the sound and suppress the sense of incongruity due to the position change of the sound source, the signal processing unit 102 sets the setting range so that the amount of possible movement from the reference position becomes smaller for the sound source corresponding to the sound with higher locality. to decide. For example, the sharpness of directivity, which is a feature of the sound pickup unit 110, can be used as a locality criterion. That is, the signal processing unit 102 reduces the setting range of the sound source corresponding to the acoustic data as the directivity of the sound pickup unit 110 used to acquire the target acoustic data is sharper. The reason for doing so is that the sound pickup unit 110 with sharp directivity is often used to pick up sound with high locality. In addition, since the sound picked up by the sound pickup unit 110 with sharp directivity is less mixed with sounds from directions other than the direction of directivity, the sound picked up by the other sound pickup units 110 is different from the sound picked up by the other sound pickup units 110. This is because the sound is often collected.

図3(a)に示す例において、無指向性のマイク110-1により取得される音響データに対応する音源の設定範囲としては、基準位置321から音源位置を大きく変更可能な広い設定範囲331が設定される。無指向性のマイク110-4により取得される音響データに対応する音源の設定範囲としては、同様に、広い設定範囲334が設定される。一方、比較的緩い指向性を有する指向性マイク110-3により取得される音響データに対応する音源の設定範囲として、設定範囲331及び設定範囲334よりは小さい設定範囲333が設定される。また、鋭い指向性を有するマイクアレイ110-2により取得される音響データに対応する音源の設定範囲としては、設定範囲333よりさらに小さい設定範囲332が設定される。 In the example shown in FIG. 3(a), a wide setting range 331 in which the sound source position can be greatly changed from the reference position 321 is used as the setting range of the sound source corresponding to the acoustic data acquired by the omnidirectional microphone 110-1. set. Similarly, a wide setting range 334 is set as the setting range of the sound source corresponding to the acoustic data acquired by the omnidirectional microphone 110-4. On the other hand, a setting range 333 smaller than the setting ranges 331 and 334 is set as the setting range of the sound source corresponding to the acoustic data acquired by the directional microphone 110-3 having relatively loose directivity. A setting range 332 smaller than the setting range 333 is set as the setting range of the sound source corresponding to the acoustic data acquired by the microphone array 110-2 having sharp directivity.

なお、上記では収音部110の特徴として指向性を用いるものとしたが、これに限らず、収音部110による収音可能範囲の広さなどの特徴を用いてもよい。また、設定範囲を決定するための局所性の判定基準は上記の例に限定されず、音響データを解析することで得られる特徴量を判定基準として用いてもよい。音響データの特徴量は、例えば、対象の音響データと別の収音部110により取得された別の音響データとの間の相関係数やコサイン類似度などを示す相関情報である。相関係数を用いる場合、各音響データに表れる音の伝搬遅延の影響を補正するため、相互相関関数が最大となる遅延補正量のもとで、相関係数を算出するのが好適である。そして、他の音響データとの相関係数の平均値が小さい、すなわち他の音源との相関が低いほど、その音響データに対応する音源の設定範囲を小さくしてもよい。 In the above description, directivity is used as a feature of the sound pickup unit 110, but the present invention is not limited to this, and a feature such as the width of the sound pickup range of the sound pickup unit 110 may be used. Further, the locality criterion for determining the setting range is not limited to the above example, and a feature amount obtained by analyzing acoustic data may be used as the criterion. The feature amount of acoustic data is, for example, correlation information indicating a correlation coefficient, cosine similarity, or the like between target acoustic data and another acoustic data acquired by another sound pickup unit 110 . When the correlation coefficient is used, it is preferable to calculate the correlation coefficient based on the amount of delay correction that maximizes the cross-correlation function in order to correct the influence of the sound propagation delay appearing in each acoustic data. Then, the smaller the average value of the correlation coefficients with other acoustic data, that is, the lower the correlation with other sound sources, the smaller the setting range of the sound source corresponding to that acoustic data.

また、相関情報として、各音響データからメル周波数ケプストラム係数(MFCC)といった特徴量を算出し、公知のクラスタリング技術を用いて、複数の音響データを複数のグループ(特徴量クラスタ)に分類してもよい。そして信号処理部102は、各グループに対応する位置範囲を決定し、各音響データに対応する音源の設定範囲を、その音響データが属するグループ(音源が属するクラスタ)に対応する範囲に決定してもよい。図4(a)は、8つの音源が4つのクラスタにクラスタリングされた場合の例を示す。図4(a)において、同一クラスタに属する音源の基準位置は、同じ図形で表されている。すなわち、黒丸で表される基準位置411~413の音源は第1クラスタに属し、黒星で表される基準位置414の音源は第2クラスタに属する。黒三角で表される基準位置415~416の音源は第3クラスタに属し、黒ひし形で表される基準位置417~418の音源は第4クラスタに属する。 Further, as correlation information, a feature amount such as a Mel frequency cepstrum coefficient (MFCC) is calculated from each acoustic data, and a plurality of acoustic data may be classified into a plurality of groups (feature clusters) using a known clustering technique. good. Then, the signal processing unit 102 determines the position range corresponding to each group, and determines the setting range of the sound source corresponding to each sound data to be the range corresponding to the group to which the sound data belongs (the cluster to which the sound source belongs). good too. FIG. 4(a) shows an example in which eight sound sources are clustered into four clusters. In FIG. 4A, the reference positions of sound sources belonging to the same cluster are represented by the same graphic. That is, the sound sources at the reference positions 411 to 413 represented by black circles belong to the first cluster, and the sound source at the reference position 414 represented by the black star belongs to the second cluster. The sound sources at reference positions 415-416 represented by black triangles belong to the third cluster, and the sound sources at reference positions 417-418 represented by black diamonds belong to the fourth cluster.

例えば、第1クラスタに属する音源の設定範囲と、第2クラスタに属する音源の設定範囲との境界は、隣接するクラスタに属する基準位置413と基準位置414の音源の間にスタジアムの中心301から引いた境界421のように定められる。このとき、音源の数が少ないクラスタに属する音源ほど局所性が高いものとして、そのクラスタの設定範囲が小さくなるよう、双方向矢印422で模式的に表されるように、境界421をより局所性が高い音源の基準位置414の方に寄せてもよい。また、基準位置411~413は、観客席エリア302の中のホーム側エリア303内であるため、第1クラスタに属する音源の設定範囲をホーム側エリア303内に限定してもよい。これらの条件により、第1クラスタに属する音源の設定範囲が、基準位置411~413を含む灰色で塗られた設定範囲423に決定される。 For example, the boundary between the setting range of the sound source belonging to the first cluster and the setting range of the sound source belonging to the second cluster is drawn from the center 301 of the stadium between the sound sources of the reference positions 413 and 414 belonging to the adjacent clusters. is defined as a boundary 421. At this time, it is assumed that a sound source belonging to a cluster with a smaller number of sound sources has a higher locality, and the boundary 421 is made to have a higher locality as schematically represented by a double-headed arrow 422 so that the setting range of that cluster becomes smaller. may be shifted toward the reference position 414 of the sound source with the higher . Further, since the reference positions 411 to 413 are within the home side area 303 in the spectator seat area 302 , the setting range of the sound sources belonging to the first cluster may be limited to within the home side area 303 . Based on these conditions, the setting range of the sound sources belonging to the first cluster is determined to be the gray setting range 423 including the reference positions 411-413.

同様に、境界424およびホーム側エリア303に応じて、第3クラスタに属する音源の設定範囲が、基準位置415~416を含む灰色で塗られた設定範囲426に決定される。また、ホーム側エリア303内で設定範囲423と設定範囲426の間の領域である設定範囲427が、第2クラスタに属する音源の設定範囲として決定される。また、第4クラスタに属する音源の設定範囲428は、基準位置417~418を含むアウェイ側エリア304と一致する。 Similarly, according to the boundary 424 and the home-side area 303, the setting range of the sound sources belonging to the third cluster is determined to be a gray setting range 426 including the reference positions 415-416. A setting range 427, which is an area between the setting range 423 and the setting range 426 in the home side area 303, is determined as the setting range of the sound source belonging to the second cluster. Also, the setting range 428 of the sound source belonging to the fourth cluster matches the away side area 304 including the reference positions 417-418.

上記のホーム側エリア303やアウェイ側エリア304の例のように、収音対象の空間を予め分割した分割エリアの情報に基づいて音源の設定範囲を限定することができる。これにより、音響再生用データに基づいて音を再生した場合に例えばホーム側の応援歌がアウェイ側から聞こえてくるといった違和感を抑制できる。同様の限定は、収音部110の指向性に基づいて音源の設定範囲を決定する場合にも適用できる。図3(a)の例において、基準位置321の音源の設定範囲331は、ホーム側エリア303内に限定されることで、灰色で示す設定範囲341となる。同様に、基準位置324の音源の設定範囲334は、アウェイ側エリア304内に限定されることで、灰色で示す設定範囲344となる。 As in the example of the home side area 303 and the away side area 304 described above, it is possible to limit the setting range of the sound source based on the information of the divided areas obtained by dividing the sound pickup target space in advance. As a result, when the sound is reproduced based on the sound reproduction data, it is possible to suppress the sense of incongruity that, for example, the cheering song of the home side is heard from the away side. A similar limitation can also be applied to the case where the setting range of the sound source is determined based on the directivity of the sound pickup unit 110 . In the example of FIG. 3A, the setting range 331 of the sound source at the reference position 321 is limited to the home side area 303, resulting in a setting range 341 shown in gray. Similarly, the setting range 334 of the sound source at the reference position 324 is limited to the away area 304, resulting in a setting range 344 shown in gray.

なお、上記の例では、対象の音響データに対応する音源の設定範囲が、その音響データの特徴及びその音響データの取得に係る収音部110の特徴の何れかに基づいて決定されるものとした。ただしこれに限らず、音響データの特徴と収音部110の特徴との両方に基づいて設定範囲が決定されてもよい。 In the above example, the setting range of the sound source corresponding to the target acoustic data is determined based on either the characteristics of the acoustic data or the characteristics of the sound pickup unit 110 related to acquisition of the acoustic data. bottom. However, without being limited to this, the setting range may be determined based on both the characteristics of the acoustic data and the characteristics of the sound pickup unit 110 .

図2のS205では、信号処理部102が、対象の音響データに対応する音の広がりを制御するための、音源半径の制御範囲を、音響データの特徴及び収音部110の特徴の少なくとも何れかに基づいて決定する。音の広がりを制御するとは、サラウンド再生用の信号の生成において、MDAP(Multiple-Direction Amplitude Panning)などの公知のパンニング技術を用いて、広い角度範囲のスピーカに音源信号を配分することである。MDAPを用いる場合、VBAP(Vector Base Amplitude Panning)を用いる場合よりも、再生された音を聴くユーザに単一の音源の音の広がりを感じさせることができる。そのため、特にスタジアムの歓声音のように、実際には複数の位置の観客から発される音(非点音源の音)を単一の音源として扱う場合には、音の広がりを大きくすることで再生音の違和感を低減できる。 In S205 of FIG. 2, the signal processing unit 102 sets the control range of the sound source radius for controlling the spread of sound corresponding to the target acoustic data to at least one of the characteristics of the acoustic data and the characteristics of the sound collecting unit 110. to decide based on Controlling the spread of sound means distributing sound source signals to speakers over a wide angular range using a known panning technique such as MDAP (Multiple-Direction Amplitude Panning) in the generation of signals for surround reproduction. When MDAP is used, the user who listens to the reproduced sound can feel the spread of the sound of a single sound source more than when using VBAP (Vector Base Amplitude Panning). For this reason, especially when dealing with sounds (astigmatic sound sources) emitted by spectators at multiple positions as a single sound source, such as the cheering sound of a stadium, it is necessary to increase the spread of the sound. It is possible to reduce discomfort in reproduced sound.

本実施形態において、再生音を聞くユーザが知覚する音の広がりは、信号処理部102により設定される音源半径に応じて変化する。例えば、スタジアムの中心301を仮想的な聴取位置として音響再生用データを生成する場合、対象の音響データに対応する音源半径に応じた大きさの音源を中心301から見た場合の見込み角を算出する。そして、その見込み角に応じた角度範囲のスピーカに対象の音響データに応じた音源信号を配分することで、音の広がりを制御できる。 In this embodiment, the spread of sound perceived by the user listening to the reproduced sound changes according to the sound source radius set by the signal processing unit 102 . For example, when generating sound reproduction data with the center 301 of a stadium as a virtual listening position, the angle of view when a sound source having a size corresponding to the sound source radius corresponding to the target sound data is viewed from the center 301 is calculated. do. By distributing the sound source signal corresponding to the target acoustic data to the speakers in the angle range corresponding to the angle of view, the spread of the sound can be controlled.

このように、音源位置の制御に加えて音源半径の制御をすることで、仮想的な聴取位置から見て音源が存在しない方向の範囲を狭めることができ、全周の音のバランスをより改善できる。ただし、音源位置の制御の場合と同じく、収音対象の空間において実際に音が発される位置の範囲と設定された音源半径との差が大きくなると、再生される音に違和感が生じる虞がある。このような違和感の発生を抑制するために、信号処理部102は、音源半径を変更可能な制御範囲を決定する。 In this way, by controlling the radius of the sound source in addition to controlling the position of the sound source, it is possible to narrow the range of directions in which the sound source does not exist when viewed from the virtual listening position, further improving the sound balance around the circumference. can. However, as in the case of controlling the sound source position, if the difference between the range of the position where the sound is actually emitted in the sound pickup target space and the set sound source radius becomes large, there is a risk that the reproduced sound will sound strange. be. In order to suppress the occurrence of such discomfort, the signal processing unit 102 determines a control range in which the sound source radius can be changed.

制御範囲の決定方法の一例として、信号処理部102は、局所性が高い音に対応する音源ほど音源半径が小さくなるように制御範囲を決定する。例えば、音響データの取得に用いられる収音部110の指向性が鋭いほど、その音響データに対応する音源半径が小さくなるように制御範囲を決定する。これは、鋭い指向性で収音した音は、狭い範囲内の位置から発された音である可能性が高いためである。逆に、緩い指向性で収音した音は、広い範囲内の位置から発された音である可能性が高い。そのため、音響データの取得に用いられる収音部110の指向性が緩い場合、もしくは収音部110が無指向性である場合、音の広がりを表現できるよう、その音響データに対応する音源半径が大きくなるように制御範囲が設定される。 As an example of a method of determining the control range, the signal processing unit 102 determines the control range such that the sound source corresponding to the sound with higher locality has a smaller sound source radius. For example, the control range is determined such that the sharper the directivity of the sound pickup unit 110 used to acquire the acoustic data, the smaller the sound source radius corresponding to the acoustic data. This is because there is a high possibility that sounds picked up with sharp directivity are sounds emitted from positions within a narrow range. Conversely, sounds picked up with loose directivity are likely to be sounds emitted from positions within a wide range. Therefore, when the directivity of the sound pickup unit 110 used to acquire the acoustic data is loose, or when the sound pickup unit 110 is omnidirectional, the sound source radius corresponding to the acoustic data is set so that the spread of sound can be expressed. The control range is set to be large.

図3(b)は、音源半径の制御の例を示す。無指向性のマイク110-1により取得される音響データに対応する音源には、音源の位置321を中心として、音源半径が大きくなるような灰色の制御範囲351が設定される。そして、制御範囲351の中間となる音源半径が、基準半径361として設定される。基準半径361は音源半径の初期値であり、音源半径は制御範囲351内で基準半径361から変更可能である。なお、S204の説明において、音源位置の設定範囲をホーム側エリア303内やアウェイ側エリア304内に限定する例を示したが、音源半径の制御範囲についても同様の限定を課してもよい。例えば、制御範囲351に含まれる最大の音源半径371の円のうち、ホーム側エリア303外となる部分の割合が所定値(例えば20%)以下となるように、制御範囲351が限定されてもよい。 FIG. 3(b) shows an example of control of the sound source radius. A gray control range 351 is set for the sound source corresponding to the acoustic data acquired by the omnidirectional microphone 110-1, with the sound source position 321 as the center and the sound source radius increasing. A sound source radius in the middle of the control range 351 is set as a reference radius 361 . The reference radius 361 is the initial value of the sound source radius, and the sound source radius can be changed from the reference radius 361 within the control range 351 . In the description of S204, an example was given in which the setting range of the sound source position was limited to within the home side area 303 and the away side area 304, but the same limitation may be imposed on the control range of the sound source radius. For example, even if the control range 351 is limited so that the percentage of the portion outside the home side area 303 in the circle with the maximum sound source radius 371 included in the control range 351 is a predetermined value (eg, 20%) or less. good.

また、無指向性のマイク110-4により取得される音響データに対応する音源には、音源の位置324を中心として灰色の制御範囲354が設定され、制御範囲354の中間となる音源半径が基準半径364として設定される。図3(b)の例では、制御範囲354に含まれる最大の音源半径374の円の全体がアウェイ側エリア304内となるような限定を課している。このように制御範囲354を決定することで、音響再生用データに基づいて音を再生した場合に例えばアウェイ側の応援歌がホーム側エリアまで広がって聞こえるといった違和感を抑制できる。 A gray control range 354 is set around the sound source position 324 for the sound source corresponding to the acoustic data acquired by the omnidirectional microphone 110-4. Set as radius 364 . In the example of FIG. 3B, a limitation is imposed such that the entire circle with the maximum sound source radius 374 included in the control range 354 is within the away area 304 . By determining the control range 354 in this way, it is possible to suppress the sense of incongruity that, for example, the cheering song on the away side may be heard spread to the home side area when the sound is reproduced based on the sound reproduction data.

また、緩い指向性を有する指向性マイク110-3により取得される音響データに対応する音源には、音源の位置323を中心として、音源半径が中程度の大きさになるような灰色の制御範囲353が設定される。そして、制御範囲353の中間となる音源半径が、基準半径363として設定される。一方、鋭い指向性を有するマイクアレイ110-2により取得される音響データに対応する音源には、音源の位置322を中心として、音源半径が小さくなるような灰色の制御範囲352が設定される。そして、制御範囲352の中間となる音源半径が、基準半径362として設定される。制御範囲352に内で設定される音源半径は、半径の大きさが0であってもよい。なお、音源半径の制御範囲は音源位置を中心として設定されるため、音源の位置が基準位置から変更された場合は、変更された音源位置を中心として音源半径の制御範囲が設定される。 Also, the sound source corresponding to the acoustic data acquired by the directional microphone 110-3 having loose directivity has a gray control range centered on the sound source position 323 such that the sound source radius is medium. 353 is set. A sound source radius in the middle of the control range 353 is set as the reference radius 363 . On the other hand, for the sound source corresponding to the acoustic data acquired by the microphone array 110-2 having sharp directivity, a gray control range 352 is set around the sound source position 322 so that the sound source radius becomes small. A sound source radius in the middle of the control range 352 is set as the reference radius 362 . The sound source radius set within the control range 352 may have a radius magnitude of zero. Since the control range of the sound source radius is set around the sound source position, when the position of the sound source is changed from the reference position, the control range of the sound source radius is set around the changed sound source position.

なお、音源位置の設定範囲を決定する場合と同様に、音源半径の制御範囲を決定する場合においても、音響データの局所性が用いられてもよい。例えば、対象となる音響データと他の音響データとの相関度合に応じた局所性が高いほど、その音響データに対応する音源半径が小さくなるように、制御範囲が決定されてもよい。 Note that the locality of acoustic data may be used to determine the control range of the sound source radius, as in the case of determining the setting range of the sound source position. For example, the control range may be determined such that the higher the locality according to the degree of correlation between target acoustic data and other acoustic data, the smaller the sound source radius corresponding to that acoustic data.

S206では、表示制御部104が、音源の基準位置及び設定範囲を示す図3(a)や図4(a)のような画像、又は、音源の基準半径及び制御範囲を示す図3(b)のような画像など、音源の情報に応じた画像を生成して、表示部505に表示させる。なお、図4(a)に示すような表示において、音源の位置や設定範囲が、音源が属するクラスタごとに色分けして表示されてもよい。また、ホーム側エリア303とアウェイ側エリア304で色分けした表示がされてもよい。表示制御部104による表示の内容は、図3や図4の例に限定されず、音源の設定範囲及び制御範囲の少なくとも何れかを識別可能にする情報が表示されればよい。 In S206, the display control unit 104 displays images such as those shown in FIGS. 3A and 4A showing the reference position and setting range of the sound source, or FIG. 3B showing the reference radius and control range of the sound source. An image corresponding to the information of the sound source, such as an image such as , is generated and displayed on the display unit 505 . In addition, in the display as shown in FIG. 4A, the positions and setting ranges of the sound sources may be displayed in different colors for each cluster to which the sound sources belong. Also, the home side area 303 and the away side area 304 may be displayed in different colors. The contents of the display by the display control unit 104 are not limited to the examples of FIGS. 3 and 4, and it is sufficient that information that enables identification of at least one of the setting range and the control range of the sound source is displayed.

S207では、音源位置及び音源半径の調整に係る調整モードの設定を判定し、調整モードが手動モードであればS208へ、調整モードが自動モードであればS211へ進む。調整モードの設定は、情報処理装置100に対するユーザ操作に基づいて行われる。ただし、情報処理装置100が収音部110の数や種別などの情報に応じて調整モードを設定してもよい。 In S207, the setting of the adjustment mode for adjustment of the sound source position and the sound source radius is determined, and if the adjustment mode is the manual mode, the process proceeds to S208, and if the adjustment mode is the automatic mode, the process proceeds to S211. Setting of the adjustment mode is performed based on a user operation on the information processing apparatus 100 . However, the information processing apparatus 100 may set the adjustment mode according to information such as the number and type of the sound pickup units 110 .

S208からS210の処理は、操作検出部105が検出したユーザ操作に応じた入力それぞれに対して行われる。すなわち、ユーザにより複数の操作が行われた場合、操作の数に応じてS208からS210の処理が繰り返される。S208では、操作検出部105が、ユーザ操作により指定された音源と、その音源についての変更指示の内容を判断する。音源についての変更指示の内容とは、音源位置の変更や音源半径の変更である。そして、信号処理部102が、ユーザ操作に応じた音源位置又は音源半径の変更指示が、S204で設定された設定範囲及びS205で設定された制御範囲の条件を満たすかを判定する。信号処理部102は、設定範囲内の位置を新たな音源位置として指定するユーザ操作に応じた入力を受け付けた場合など、条件を満たす場合には、その入力に応じて音源の位置又は半径を設定し、S210へ進む。一方、条件を満たさない場合はS209へ進む。 The processing from S208 to S210 is performed for each input corresponding to the user operation detected by the operation detection unit 105. FIG. That is, when the user performs a plurality of operations, the processing from S208 to S210 is repeated according to the number of operations. In S208, the operation detection unit 105 determines the sound source specified by the user's operation and the content of the instruction to change the sound source. The content of the instruction to change the sound source is to change the position of the sound source and change the radius of the sound source. Then, the signal processing unit 102 determines whether the instruction to change the sound source position or the sound source radius according to the user's operation satisfies the conditions of the setting range set in S204 and the control range set in S205. The signal processing unit 102 sets the position or radius of the sound source according to the input when a condition is satisfied, such as when an input corresponding to a user operation specifying a position within the setting range as a new sound source position is received. and proceed to S210. On the other hand, if the condition is not satisfied, the process proceeds to S209.

S209では、信号処理部102が、上記の条件を満たすように音源の位置または半径を制御する。例えば、ユーザ操作に応じた変更指示が、音源の位置を設定範囲外に移動させるようなものであった場合、信号処理部102は音源位置を設定範囲の境界に移動させる。同様に、ユーザ操作に応じた変更指示が、音源の半径を制御範囲外の大きさに変更させるようなものであった場合、信号処理部102は音源半径を制御範囲の境界(最大半径または最小半径)に変更する。ただしこれに限らず、ユーザ操作に応じた変更指示が設定範囲や制御範囲の条件を満たさない場合に、信号処理部102は、その変更指示を受付は行わず、音源の位置及び半径を変更しなくてもよい。S208及びS209処理の結果、対象の音響データに対応する音源位置が、S204で決定された設定範囲内で設定される。また、対象の音響データに対応する音源半径が、S205で決定された制御範囲内で設定される。 In S209, the signal processing unit 102 controls the position or radius of the sound source so as to satisfy the above conditions. For example, if the change instruction according to the user operation is to move the position of the sound source outside the set range, the signal processing unit 102 moves the sound source position to the boundary of the set range. Similarly, if the change instruction according to the user operation is to change the radius of the sound source to a size outside the control range, the signal processing unit 102 changes the radius of the sound source to the boundary of the control range (maximum radius or minimum radius). radius). However, not limited to this, if a change instruction according to a user operation does not satisfy the conditions of the setting range and the control range, the signal processing unit 102 does not accept the change instruction and changes the position and radius of the sound source. It doesn't have to be. As a result of the processing of S208 and S209, the sound source position corresponding to the target acoustic data is set within the setting range determined in S204. Also, the sound source radius corresponding to the target acoustic data is set within the control range determined in S205.

S210では、表示制御部104が、音源の位置や半径に係る表示を更新する。例えば図3(a)に示すように、音源の位置が基準位置323から位置383に変更された場合、変更後の音源位置383および十字矢印393による移動可能方向が表示される。ここで、変更後の音源位置383が設定範囲333の境界に近い場合は、音源位置383、設定範囲333、及び十字矢印393の少なくとも何れかの表示色や線幅を変えたり、表示を点滅させたりして目立たせるようにしてもよい。また、十字矢印393について、設定範囲333の境界から離れる方向の矢印のみ表示したり、その方向の矢印を相対的に大きく表示したりしてもよい。 In S210, the display control unit 104 updates the display regarding the position and radius of the sound source. For example, as shown in FIG. 3A, when the position of the sound source is changed from the reference position 323 to the position 383, the changed sound source position 383 and the possible directions of movement by the cross arrow 393 are displayed. Here, when the sound source position 383 after change is close to the boundary of the setting range 333, the display color or line width of at least one of the sound source position 383, the setting range 333, and the cross arrow 393 is changed, or the display is blinked. You may make it stand out by doing it. Also, for the cross-shaped arrow 393, only the arrow in the direction away from the boundary of the setting range 333 may be displayed, or the arrow in that direction may be displayed relatively large.

また、例えば図3(b)に示すように、音源の半径が基準半径361から変更される場合、双方向矢印391により調整可能方向が表示される。ここで、変更後の音源半径が制御範囲351の境界に近い場合は、音源半径、制御範囲351、及び双方向矢印391の少なくとも何れかの表示色や線幅を変えたり、表示を点滅させたりして目立たせるようにしてもよい。また、双方向矢印391について、制御範囲351の境界から離れる方向の矢印のみ表示したり、その方向の矢印を相対的に大きく表示したりしてもよい。なお、ユーザ操作に応じた入力が設定範囲又は制御範囲の条件を満たさない場合に、表示制御部104は、その旨を示す表示やエラー表示を行ってもよい。 Also, for example, as shown in FIG. 3B, when the radius of the sound source is changed from the reference radius 361, the adjustable direction is indicated by a double-headed arrow 391. FIG. Here, if the changed sound source radius is close to the boundary of the control range 351, at least one of the sound source radius, the control range 351, and the two-way arrow 391 may be changed in display color or line width, or the display may be blinked. You may make it stand out by Also, for the two-way arrow 391, only the arrow in the direction away from the boundary of the control range 351 may be displayed, or the arrow in that direction may be displayed relatively large. It should be noted that when the input corresponding to the user operation does not satisfy the conditions of the set range or the control range, the display control unit 104 may display a message to that effect or display an error.

以上のように手動モードで調整を行うことで、設定範囲及び制御範囲の条件のもと、ユーザ操作に応じて音源の位置や半径を変更することで、再生音が違和感を生じさせることを抑制しつつユーザの意図に応じた音の調整を実現できる。一方、以下で説明する自動モードによる調整によれば、全周の音のバランスについて定量化を行い、制約条件および評価関数を定めることで、ユーザ操作の手間を削減しつつ音源の位置及び半径を最適化することができる。 By adjusting in manual mode as described above, by changing the position and radius of the sound source according to the user's operation under the conditions of the setting range and control range, it is possible to suppress the unnaturalness of the reproduced sound. It is possible to adjust the sound according to the user's intention while maintaining the sound. On the other hand, according to the adjustment by the automatic mode described below, the position and radius of the sound source can be adjusted while reducing the trouble of user operation by quantifying the sound balance of the entire circumference and defining the constraint conditions and the evaluation function. can be optimized.

S211では、信号処理部102が、全周の音のバランスを表す指標として、複数の音響データに対応する各音源の間隔を特定する。具体的には、図4(b)に示すように、音源半径431~438を有する位置411~418の音源に対し、仮想的な聴取位置(図4(b)の例ではスタジアムの中心301)から接線を引いて、隣接する接線の成す角を音源間隔θとする。例えば、音源半径431を有する位置411の音源と、音源半径432を有する基準位置412の音源との音源間隔はθ12である。なお、音源半径432を有する基準位置412の音源と、音源半径433を有する基準位置413の音源のように、各音源半径に応じた円に重複がある場合は、音源間隔θ23を負の値で表すものとする。 In S211, the signal processing unit 102 identifies intervals between sound sources corresponding to a plurality of pieces of acoustic data as an index representing the sound balance of the entire circumference. Specifically, as shown in FIG. 4B, for sound sources at positions 411 to 418 having sound source radii 431 to 438, a virtual listening position (in the example of FIG. A tangent line is drawn from , and the angle formed by the adjacent tangent lines is defined as the sound source interval θ. For example, the sound source interval between the sound source at position 411 having sound source radius 431 and the sound source at reference position 412 having sound source radius 432 is θ12. If the circles corresponding to the sound source radii overlap, such as the sound source at the reference position 412 having the sound source radius 432 and the sound source at the reference position 413 having the sound source radius 433, the sound source interval θ23 is set to a negative value. shall be represented.

ここで、θ12やθ56のように音源間隔が大きいと、その方向の音が再生されなくなるため、全周の音のバランスが偏り、音場における包まれ感が十分再現できない。また、音源間隔が絶対値が大きい負の値を取ると、複数の異なる音源の音が略同じ方向から再生されることになるため、この場合も全周の音のバランスが偏り、音場の方向感が十分再現できない。そこで、信号処理部102は、複数の音響データに対応する複数の音源の間隔が所定範囲内となるように、音源位置及び音源半径を設定する。具体的には、全周の音のバランスを表す指標として音源間隔θを用い、音源間隔θの好適な範囲をθL≦θ≦θHのように定める。これにより、θ<θLの場合に音場の方向感が十分でなく、θ<θHの場合に音場における包まれ感が十分でないなどと判定できる。なお、各音源の音源半径に応じた円について多少の重複を許し、θLを負の値としてもよい。 Here, when the sound source interval is large like θ12 and θ56, the sound in that direction is not reproduced, so the balance of the sound around the circumference is biased, and the enveloping feeling in the sound field cannot be sufficiently reproduced. In addition, when the sound source interval takes a negative value with a large absolute value, the sounds of multiple different sound sources are reproduced from approximately the same direction. The sense of direction cannot be sufficiently reproduced. Therefore, the signal processing unit 102 sets the sound source positions and the sound source radii so that the intervals between the multiple sound sources corresponding to the multiple acoustic data are within a predetermined range. Specifically, the sound source spacing θ is used as an index representing the sound balance of the entire circumference, and a suitable range of the sound source spacing θ is defined as θL≦θ≦θH. As a result, it can be determined that the directional sense of the sound field is not sufficient when θ<θL, and that the sense of envelopment in the sound field is not sufficient when θ<θH. Note that θL may be set to a negative value by allowing some overlap between the circles corresponding to the sound source radius of each sound source.

S212では、信号処理部102が、音源位置および音源半径を最適化変数とする最適化問題を定式化して解くことで、音源位置・半径の最適化を行う。まず、音源の位置及び半径に係る制約条件として、S204及びS205で設定された設定範囲の条件(1)と制御範囲の条件(2)に加えて、全周の音のバランスを改善するための制約条件(3)「θL≦θi≦θH(i=1~N)」を課す。ここで、θiは隣接する音源の音源間隔であり、音源位置および音源半径の関数で表される。また、Nは音源の数である。 In S212, the signal processing unit 102 optimizes the sound source position/radius by formulating and solving an optimization problem using the sound source position and the sound source radius as optimization variables. First, as constraints on the position and radius of the sound source, in addition to the setting range condition (1) and the control range condition (2) set in S204 and S205, Constraint condition (3) “θL≦θi≦θH (i=1 to N)” is imposed. Here, θi is the sound source interval between adjacent sound sources and is expressed as a function of sound source position and sound source radius. Also, N is the number of sound sources.

次に、最小化する評価関数については、各音源の基準位置からの移動量の和とする。これは、制約条件を満たしていれば、音源の基準位置からの移動量は少ない方が違和感を生じにくいためである。このとき、局所性が高い音源ほど基準位置からの移動量を小さくするために、局所性が高い音源ほど大きい値となるような重み係数を移動量に対して設定し、重み付き移動量の和を用いるのが好適である。同様の目的で、移動量を設定範囲の大きさなどで正規化した、正規化移動量の和を用いるようにしてもよい。 Next, the evaluation function to be minimized is the sum of the amount of movement of each sound source from the reference position. This is because, as long as the constraint conditions are satisfied, the less the amount of movement of the sound source from the reference position, the less likely the user will feel discomfort. At this time, in order to make the amount of movement from the reference position smaller for sound sources with higher locality, a weighting factor is set for the amount of movement such that the sound source with higher locality has a larger value, and the sum of the weighted amounts of movement is is preferably used. For the same purpose, the sum of normalized movement amounts obtained by normalizing the movement amounts by the size of the set range or the like may be used.

なお、信号処理部102は、操作検出部105により検出したユーザ操作に応じた入力に基づいて、制約条件(3)におけるθL、θHを調整してもよい。これにより例えば、ユーザがθHをθLに近付けることで音場の方向感を重視したり、θLをθHに近付けることで音場における包まれ感を重視したりすることができる。 Note that the signal processing unit 102 may adjust θL and θH in the constraint (3) based on the input according to the user's operation detected by the operation detection unit 105 . As a result, for example, the user can place importance on the sense of direction in the sound field by bringing θH closer to θL, or place importance on the feeling of being surrounded by the sound field by bringing θL closer to θH.

信号処理部102は、上記のような最適化問題を解くことで、全音源の位置及び半径の最適化を行う。なお、上記の最適化処理は一例であり、信号処理部102はその他の方法により自動で音源の位置及び半径を制御してもよい。また、信号処理部102はすべての音源に対して制御を行わなくてもよく、複数の音源の中から選択された音源について位置や半径の制御を行ってもよい。S211及びS212処理の結果、対象の音響データに対応する音源位置が、S204で決定された設定範囲内で設定される。また、対象の音響データに対応する音源半径が、S205で決定された制御範囲内で設定される。 The signal processing unit 102 optimizes the positions and radii of all sound sources by solving the above optimization problem. Note that the above optimization processing is an example, and the signal processing unit 102 may automatically control the position and radius of the sound source by other methods. Further, the signal processing unit 102 does not have to control all sound sources, and may control the position and radius of a sound source selected from a plurality of sound sources. As a result of the processing of S211 and S212, the sound source position corresponding to the target acoustic data is set within the setting range determined in S204. Also, the sound source radius corresponding to the target acoustic data is set within the control range determined in S205.

S213では、表示制御部104が、音源の位置や半径に係る表示を更新する。例えば、最適化前は図4(b)に示すように音源半径431~438を有する基準位置411~418にあった音源が、最適化後は図4(c)に示すように音源半径451~458を有する音源位置441~448の音源となる。図4(b)に示す最適化前の音源の設定では、音源間隔θ12、θ56、及びθ78がθHより大きく、また音源間隔θ23(<0)がθLより小さかったため、S212で説明した制約条件(3)を満たしていない。一方、図4(c)に示す最適化後の音源の設定では、以下のように音源の位置及び半径の制御を行ったことにより、音源間隔θ´12、θ´23、θ´56、及びθ´78を含め、全ての音源間隔がθL~θHの範囲に収まっている。 In S213, the display control unit 104 updates the display regarding the position and radius of the sound source. For example, as shown in FIG. 4(b), sound sources located at reference positions 411 to 418 having sound source radii 431 to 438 as shown in FIG. 458, resulting in sound sources at sound source positions 441-448. In the sound source settings before optimization shown in FIG. 3) is not satisfied. On the other hand, in setting the sound sources after optimization shown in FIG. All sound source intervals, including θ′78, are within the range of θL to θH.

まず、図4(b)において基準半径431~433を有する基準位置411~413にあった音源は、図4(c)において音源位置441~443に移動して音源半径451~453を有する音源となっている。これらの音源は局所性が低い音に対応し、基準半径431~433が大きい。そのため、基準半径に応じた円とホーム側エリア303の境界との間は狭く、音源半径を大きくすることで音源間隔θ12を埋めることは難しい。そこで、これらの音源の位置を変更することで、音源間隔θ´12、θ´23が制約条件を満たすようにしている。 First, sound sources at reference positions 411 to 413 having reference radii 431 to 433 in FIG. 4(b) move to sound source positions 441 to 443 in FIG. It's becoming These sound sources correspond to sounds with low locality and have large reference radii 431-433. Therefore, the space between the circle corresponding to the reference radius and the boundary of the home side area 303 is narrow, and it is difficult to fill the sound source interval θ12 by increasing the sound source radius. Therefore, by changing the positions of these sound sources, the sound source intervals θ'12 and θ'23 satisfy the constraint conditions.

また、図4(b)において基準半径434を有する基準位置414にあった音源は、局所性が高い音に対応し、音源半径や音源位置の大きな変更に適さない。そのため、図4(c)において音源の位置及び半径ともに図4(b)の状態を維持している。すなわち、図4(c)の音源位置444および音源半径454は、図4(b)の基準位置414および基準半径434とそれぞれ同じである。 Also, the sound source located at the reference position 414 having the reference radius 434 in FIG. 4B corresponds to sound with high locality, and is not suitable for large changes in the sound source radius and sound source position. Therefore, both the position and radius of the sound source in FIG. 4(c) maintain the state of FIG. 4(b). That is, sound source position 444 and sound source radius 454 in FIG. 4(c) are the same as reference position 414 and reference radius 434 in FIG. 4(b), respectively.

また、図4(b)において基準半径435~436を有する基準位置415~416にあった音源は、図4(c)において音源位置445~446に移動して音源半径455~456を有する音源となっている。これらの音源の基準半径435~436に応じた円とホーム側エリア303の境界との間には間隔があるため、図4(c)における音源半径455~456の大きさは、図4(b)における基準半径435~436よりも大きくなっている。すなわち、これらの音源については、音源位置および音源半径を制御することで、音源間隔θ´56が制約条件を満たすようにしている。 In addition, the sound sources at reference positions 415 to 416 having reference radii 435 to 436 in FIG. 4(b) move to sound source positions 445 to 446 in FIG. It's becoming Since there is an interval between the circle corresponding to the reference radii 435-436 of these sound sources and the boundary of the home side area 303, the size of the sound source radii 455-456 in FIG. ) are larger than the reference radii 435-436. That is, for these sound sources, the sound source position and the sound source radius are controlled so that the sound source interval θ'56 satisfies the constraint conditions.

また、図4(b)において基準半径437~438を有する基準位置417~418にあった音源は、図4(c)において音源半径457~458を有する音源位置447~448の音源となっている。このとき、基準半径437~438に応じた円とアウェイ側エリア304の境界との間には間隔があるため、図4(c)における音源半径457~458の大きさは、図4(b)における基準半径437~438よりも大きくなっている。一方、図4(c)における音源位置447~448は、図4(b)における基準位置417~418をそれぞれ維持している。すなわち、これらの音源については、音源半径を制御することで、音源間隔θ´78が制約条件を満たすようにしている。 Also, the sound sources at the reference positions 417 to 418 having the reference radii 437 to 438 in FIG. 4(b) are the sound sources at the sound source positions 447 to 448 having the sound source radii 457 to 458 in FIG. 4(c). . At this time, since there is an interval between the circle corresponding to the reference radii 437-438 and the boundary of the away side area 304, the size of the sound source radii 457-458 in FIG. are larger than the reference radii 437-438 in . On the other hand, the sound source positions 447-448 in FIG. 4(c) maintain the reference positions 417-418 in FIG. 4(b), respectively. That is, for these sound sources, the sound source interval θ′78 satisfies the constraint condition by controlling the sound source radius.

上述した手動モードによる調整と自動モードによる調整は、併用されてもよい。例えば、ユーザ操作に応じて音源半径や音源位置が変更される音源以外の音源については、自動で音源位置及び半径が逐次最適化されるようにしてもよい。また、自動モードによる調整処理(S211からS213の処理)が行われた後に手動モードによる調整処理(S208からS210の処理)が行われてもよい。 The manual mode adjustment and the automatic mode adjustment described above may be used together. For example, for sound sources other than sound sources whose sound source radius and sound source position are changed according to user operations, the sound source positions and radii may be sequentially optimized automatically. Alternatively, the adjustment process in the manual mode (the process from S208 to S210) may be performed after the adjustment process in the automatic mode (the process from S211 to S213).

S214では、信号処理部102が、複数の収音部110が位置する空間における仮想的な聴取位置及び聴取方向を示す情報を取得する。この聴取位置及び聴取方向は、操作検出部105が検出したユーザ操作に基づいて決定される。すなわち、ユーザは収音対象の空間内の仮想的な聴取位置及び聴取方向を任意に指定することができる。なお、聴取位置及び聴取方向の少なくとも何れかが、ユーザ操作に依らずに所定の位置及び方向に決定されてもよい。例えば、聴取位置がスタジアムの中心に決定され、聴取方向がスタジアムの中心からメインスタンドに向かう方向に決定されてもよい。また、情報処理装置100は、外部の装置から聴取位置及び聴取方向を決定するための情報取得を行ってもよい。例えば、情報処理装置100は、音響再生用データと共に再生される映像データに係る視点の位置及び方向を示す視点情報を取得し、その視点情報に基づいて聴取点の位置及び方向を決定してもよい。 In S214, the signal processing unit 102 acquires information indicating a virtual listening position and listening direction in the space where the multiple sound pickup units 110 are located. The listening position and listening direction are determined based on the user's operation detected by the operation detection unit 105 . That is, the user can arbitrarily designate a virtual listening position and listening direction in the space from which sound is to be collected. Note that at least one of the listening position and listening direction may be determined as a predetermined position and direction without depending on the user's operation. For example, the listening position may be determined as the center of the stadium, and the listening direction may be determined as the direction from the center of the stadium toward the main stand. Further, the information processing apparatus 100 may acquire information for determining the listening position and listening direction from an external device. For example, the information processing apparatus 100 may acquire viewpoint information indicating the position and direction of the viewpoint related to the video data reproduced together with the sound reproduction data, and determine the position and direction of the listening point based on the viewpoint information. good.

そして信号処理部102は、収音部110により取得された音響データを、上述のように設定された音源位置及び音源半径の情報と、仮想的な聴取位置及び聴取方向とに基づいて処理することで、音響再生用データを生成する。これにより、仮想的な聴取位置及び聴取方向に応じた音を再生するための音響再生用データが得られる。具体的には、聴取位置及び聴取方向に対する各音源の方向と見込み角に基づいて、MDAPなどの公知のパンニング技術を用いて収音に基づく音響データを処理することで、サラウンド再生用のデータが生成される。なお、信号処理部102は、このようなサラウンド再生用のデータに頭部伝達関数(HRTF)を適用することで、バイノーラル化されたヘッドホン再生用のデータを生成してもよい。 Then, the signal processing unit 102 processes the acoustic data acquired by the sound collecting unit 110 based on the information on the sound source position and sound source radius set as described above and the virtual listening position and listening direction. to generate data for sound reproduction. As a result, sound reproduction data for reproducing sound corresponding to the virtual listening position and listening direction is obtained. Specifically, based on the direction and angle of view of each sound source with respect to the listening position and listening direction, data for surround reproduction is obtained by processing acoustic data based on sound pickup using a known panning technique such as MDAP. generated. The signal processing unit 102 may generate binaural data for headphone reproduction by applying a head-related transfer function (HRTF) to such data for surround reproduction.

また、音響再生用データの生成には、情報処理システム10が有する複数の収音部110で取得された複数の音響データのうち、仮想的な聴取位置や聴取方向に基づいて選択された1以上の音響データが用いられてもよい。このような方法によれば、情報処理装置100が処理するデータ量を削減できる。ただし、取得された複数の音響データのすべてを用いて音響再生用データが生成されてもよい。S215では、出力部106が、S214で生成された音響再生用データに基づく再生用の音響信号を再生部120へ出力する。 In addition, for generating the sound reproduction data, one or more of the plurality of sound data acquired by the plurality of sound pickup units 110 of the information processing system 10 are selected based on the virtual listening position and listening direction. of acoustic data may be used. According to such a method, the amount of data processed by the information processing apparatus 100 can be reduced. However, the data for sound reproduction may be generated using all of the plurality of acquired sound data. In S<b>215 , the output unit 106 outputs to the reproduction unit 120 an acoustic signal for reproduction based on the data for sound reproduction generated in S<b>214 .

以上で図2の説明を終わる。なお、以上の説明では、音源の位置と音源の半径との両方を制御するものとしたが、情報処理装置100はこれらの一方のみを制御してもよい。また、以上の説明では分かり易さのために音源の位置や半径を2次元的に制御する例を示したが、本実施形態は音源の位置や半径を3次元的に制御する場合にも適用できる。例えば情報処理装置100は、各音源の位置を高さ方向に制御してもよい。このとき、音源位置を変更可能な設定範囲も3次元的に設定されてもよい。また、各音源は音源半径を有する球として表される。 This completes the description of FIG. In the above description, both the position of the sound source and the radius of the sound source are controlled, but the information processing apparatus 100 may control only one of them. Also, in the above description, an example of controlling the position and radius of the sound source two-dimensionally was shown for the sake of clarity, but this embodiment can also be applied to the case of controlling the position and radius of the sound source three-dimensionally. can. For example, the information processing device 100 may control the position of each sound source in the height direction. At this time, the setting range in which the sound source position can be changed may also be set three-dimensionally. Also, each sound source is represented as a sphere with a sound source radius.

以上説明したように、本実施形態に係る情報処理装置100は、それぞれ異なる位置で収音する複数の収音部110による収音に基づく複数の音響データを取得する。また情報処理装置100は、音響データに対応する仮想的な音源位置を、当該音響データの特徴及び当該音響データの取得に係る収音部110の特徴の少なくとも何れかと当該収音部110の位置とに基づいてきまる設定範囲内で設定する。そして情報処理装置100は、取得した複数の音響データのうち1以上の音響データを、当該1以上の音響データそれぞれについて設定された音源位置と仮想的な聴取位置とに基づいて処理する。この処理により、当該聴取位置に応じた音を再生するための音響再生用データが生成される。 As described above, the information processing apparatus 100 according to the present embodiment acquires a plurality of acoustic data based on sounds picked up by the plurality of sound pickup units 110 picking up sounds at different positions. Further, the information processing apparatus 100 determines the virtual sound source position corresponding to the acoustic data by combining at least one of the characteristics of the acoustic data and the characteristics of the sound pickup unit 110 related to the acquisition of the acoustic data and the position of the sound pickup unit 110. Set within the setting range determined based on Then, the information processing apparatus 100 processes one or more acoustic data out of the plurality of acquired acoustic data based on the sound source position and the virtual listening position set for each of the one or more acoustic data. By this processing, sound reproduction data for reproducing sound corresponding to the listening position is generated.

以上のような構成によれば、複数の位置で収音された音響データから生成される音響再生用データに基づいて再生される音がユーザに与える臨場感を向上させることができる。例えば、以上のように生成された音響再生用データに基づいて音の再生を行うことで、局所的な音が実際の収音環境における方向とは異なる方向から聞こえることによる違和感を抑制しつつ、音の偏りを低減することでユーザを包み込むような音を再現できる。 According to the configuration as described above, it is possible to improve the sense of realism given to the user by the sound reproduced based on the sound reproduction data generated from the sound data collected at a plurality of positions. For example, by reproducing sound based on the sound reproduction data generated as described above, while suppressing the sense of incongruity caused by hearing a local sound from a direction different from the direction in the actual sound collection environment, By reducing the bias of the sound, it is possible to reproduce the sound that envelops the user.

なお、本実施形態において、S200で取得される音響データは、収音部110による収音に基づくデータであるものとした。しかし、実際に収音された音の音響データに代えて、コンピュータにより生成された音響データを用いてもよい。この場合、音響データに対応する音源の位置は、例えばユーザ操作に基づいて設定される。 It should be noted that in the present embodiment, the acoustic data acquired in S200 is data based on sound collected by the sound collecting unit 110 . However, acoustic data generated by a computer may be used in place of the acoustic data of actually picked-up sounds. In this case, the position of the sound source corresponding to the acoustic data is set, for example, based on the user's operation.

本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC等)によっても実現可能である。また、そのプログラムをコンピュータにより読み取り可能な記録媒体に記録して提供してもよい。 The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be realized by a circuit (for example, ASIC, etc.) that realizes one or more functions. Alternatively, the program may be recorded on a computer-readable recording medium and provided.

10 情報処理システム
100 情報処理装置
110 収音部
10 information processing system 100 information processing device 110 sound pickup unit

Claims (18)

それぞれ異なる位置で収音する複数の収音部で生成された収音信号に基づく複数の音響データを取得するデータ取得手段と、
前記データ取得手段により取得された音響データに対応する仮想的な音源位置を、前記音響データと他の音響データとの相関に関する相関情報と、前記音響データに関連付けられる音源の基準位置とに基づいて設定する設定手段と、
前記データ取得手段により取得された前記複数の音響データのうち1以上の音響データを、仮想的な聴取位置と前記設定手段により前記1以上の音響データそれぞれについて設定された仮想的な音源位置とに基づいて、前記聴取位置に応じた音を再生するための音響再生用データを生成する生成手段とを有することを特徴とする情報処理装置。
a data acquisition means for acquiring a plurality of acoustic data based on sound pickup signals generated by a plurality of sound pickup units that pick up sound at different positions;
A virtual sound source position corresponding to the acoustic data acquired by the data acquisition means is determined based on correlation information relating to correlation between the acoustic data and other acoustic data and a reference position of the sound source associated with the acoustic data. setting means for setting;
One or more acoustic data among the plurality of acoustic data acquired by the data acquiring means are applied to a virtual listening position and a virtual sound source position set for each of the one or more acoustic data by the setting means. and generating means for generating sound reproduction data for reproducing sound corresponding to the listening position based on the above-described listening position.
前記データ取得手段により取得された音響データに関する前記相関情報と前記音響データに関連付けられる音源の基準位置とに基づいて、前記音響データに対応する仮想的な音源位置を設定可能な設定範囲を決定する決定手段をさらに有し、
前記設定手段は、前記データ取得手段により取得された音響データに対応する仮想的な音源位置を、前記決定手段により決定された設定範囲内で設定することを特徴とする請求項1に記載の情報処理装置。
A setting range in which a virtual sound source position corresponding to the acoustic data can be set is determined based on the correlation information relating to the acoustic data acquired by the data acquiring means and a reference position of the sound source associated with the acoustic data. further comprising determining means;
2. The information according to claim 1, wherein said setting means sets a virtual sound source position corresponding to the acoustic data acquired by said data acquiring means within the setting range determined by said determining means. processing equipment.
前記データ取得手段により取得される音響データについて前記決定手段により決定される設定範囲は、前記音響データに関連付けられる音源の基準位置を含むことを特徴とする請求項2に記載の情報処理装置。 3. The information processing apparatus according to claim 2, wherein the setting range determined by said determining means for the acoustic data acquired by said data acquiring means includes a reference position of a sound source associated with said acoustic data. 前記基準位置は、前記収音部が設置される位置、又は、前記収音部が設置される位置から前記収音部の指向方向へ離れた位置であることを特徴とする請求項3に記載の情報処理装置。 4. The reference position according to claim 3, wherein the reference position is a position where the sound pickup unit is installed, or a position away from the position where the sound pickup unit is installed in a directivity direction of the sound pickup unit. information processing equipment. 前記決定手段により決定された設定範囲内の位置を指定するユーザ操作に応じた入力を受け付ける受付手段をさらに有し、
前記設定手段は、前記データ取得手段により取得される音響データに対応する仮想的な音源位置を、前記受付手段により受け付けられた入力に応じて設定することを特徴とする請求項2乃至の何れか1項に記載の情報処理装置。
further comprising receiving means for receiving an input corresponding to a user operation specifying a position within the setting range determined by the determining means;
5. The setting device according to any one of claims 2 to 4 , wherein the setting device sets the virtual sound source position corresponding to the acoustic data acquired by the data acquisition device according to the input received by the receiving device. 1. The information processing apparatus according to 1.
前記決定手段は、前記データ取得手段により取得される第1音響データに関する前記相関情報が表す音の局所性が、前記データ取得手段により取得される第2音響データに関する前記相関情報が表す音の局所性よりも高い場合に、前記第1音響データに対応する設定範囲が前記第2音響データに対応する設定範囲よりも小さくなるように決定することを特徴とする請求項2乃至の何れか1項に記載の情報処理装置。 The determination means determines that the locality of the sound represented by the correlation information regarding the first acoustic data acquired by the data acquisition means is the locality of the sound represented by the correlation information related to the second acoustic data acquired by the data acquisition means. 6. The set range corresponding to the first acoustic data is determined to be smaller than the set range corresponding to the second acoustic data when the set range corresponding to the second acoustic data is higher than the set range corresponding to the second acoustic data. The information processing device according to the item. 前記決定手段は、前記複数の音響データが分類される複数のグループそれぞれに対応する位置範囲を決定し、前記データ取得手段により取得される音響データに対応する設定範囲を前記音響データが属するグループの位置範囲に決定することを特徴とする請求項2乃至の何れか1項に記載の情報処理装置。 The determination means determines a position range corresponding to each of a plurality of groups into which the plurality of acoustic data are classified, and sets a set range corresponding to the acoustic data acquired by the data acquisition means to the group to which the acoustic data belongs. 7. The information processing apparatus according to claim 2, wherein the position range is determined. 前記データ取得手段により取得される音響データに関する前記相関情報は、他の音響データとの相関に応じた相関係数、コサイン類似度、及びメル周波数ケプストラム係数の少なくとも何れかを示すことを特徴とする請求項1乃至の何れか1項に記載の情報処理装置。 The correlation information about the acoustic data acquired by the data acquisition means indicates at least one of a correlation coefficient, a cosine similarity, and a mel-frequency cepstrum coefficient according to correlation with other acoustic data. The information processing apparatus according to any one of claims 1 to 7 . 前記設定手段は、前記データ取得手段により取得される音響データに対応する音の広がりを、前記音響データに関する前記相関情報と前記音響データの取得に係る収音部の指向性との少なくとも何れかに基づいて設定し、
前記生成手段は、前記1以上の音響データを、前記設定手段により前記1以上のデータそれぞれについて設定された音源位置と音の広がりとに基づいて、前記音響再生用データを生成することを特徴とする請求項1乃至の何れか1項に記載の情報処理装置。
The setting means sets the spread of sound corresponding to the acoustic data acquired by the data acquisition means to at least one of the correlation information related to the acoustic data and the directivity of the sound pickup unit related to acquisition of the acoustic data. set based on
The generating means generates the sound reproduction data based on the sound source position and sound spread set for each of the one or more data by the setting means. The information processing apparatus according to any one of claims 1 to 8 .
前記設定手段は、前記データ取得手段により取得される第3音響データに関する前記相関情報が表す音の局所性が、前記データ取得手段により取得される第4音響データに関する前記相関情報が表す音の局所性よりも高い場合に、前記第3音響データに対応する音の広がりが前記第4音響データに対応する音の広がりよりも小さくなるように設定することを特徴とする請求項に記載の情報処理装置。 The setting means sets the locality of the sound represented by the correlation information regarding the third acoustic data acquired by the data acquisition means to be the locality of the sound represented by the correlation information related to the fourth acoustic data acquired by the data acquisition means. 10. The information according to claim 9 , wherein the sound spread corresponding to the third acoustic data is set to be smaller than the sound spread corresponding to the fourth acoustic data when the spread of the sound is higher than the spread of the sound corresponding to the fourth acoustic data. processing equipment. 前記設定手段は、前記複数の音響データに対応する複数の仮想的な音源のうち隣り合う2つの仮想的な音源の間隔が所定範囲内となるように、前記複数の音源の位置と音の広がりとの少なくとも何れかを設定することを特徴とする請求項1乃至10の何れか1項に記載の情報処理装置。 The setting means sets the positions of the plurality of sound sources and the spread of sound so that an interval between two adjacent virtual sound sources among the plurality of virtual sound sources corresponding to the plurality of acoustic data is within a predetermined range. 11. The information processing apparatus according to any one of claims 1 to 10 , wherein at least one of and is set. 前記設定手段は、前記複数の仮想的な音源の位置の移動量が最小化されるように、前記複数の仮想的な音源の位置と音の広がりとの少なくとも何れかを設定することを特徴とする請求項11に記載の情報処理装置。 The setting means sets at least one of the positions of the plurality of virtual sound sources and the spread of sound so that the amount of movement of the positions of the plurality of virtual sound sources is minimized. The information processing apparatus according to claim 11 . 前記設定手段は、前記複数の音響データに対応する複数の仮想的な音源位置の偏りが前記複数の収音部が設置される位置の偏りよりも小さくなるように設定することを特徴とする請求項1乃至12の何れか1項に記載の情報処理装置。 The setting means performs setting such that the bias of the plurality of virtual sound source positions corresponding to the plurality of acoustic data is smaller than the bias of the positions at which the plurality of sound pickup units are installed. Item 13. The information processing apparatus according to any one of Items 1 to 12 . それぞれ異なる位置で収音する複数の収音部で生成された収音信号に基づく複数の音響データを取得するデータ取得手段と、
前記データ取得手段により取得された音響データに対応する仮想的な音源位置を設定する設定手段と、
前記データ取得手段により取得された音響データの取得に係る収音部の指向性と前記収音部の位置とに基づいて、前記音響データに対応する仮想的な音源位置を設定可能な設定範囲を決定する決定手段とを有し、
前記設定手段は、前記データ取得手段により取得された音響データに対応する仮想的な音源位置を、前記決定手段により決定された設定範囲内で設定することを特徴とする情報処理装置。
a data acquisition means for acquiring a plurality of acoustic data based on sound pickup signals generated by a plurality of sound pickup units that pick up sound at different positions;
setting means for setting a virtual sound source position corresponding to the acoustic data acquired by the data acquisition means;
A setting range in which a virtual sound source position corresponding to the acoustic data can be set based on the directivity of the sound pickup unit and the position of the sound pickup unit related to the acquisition of the acoustic data acquired by the data acquisition means. and a determining means for determining
The information processing apparatus, wherein the setting means sets a virtual sound source position corresponding to the acoustic data acquired by the data acquisition means within the setting range determined by the determination means.
前記決定手段は、前記データ取得手段により取得される第1音響データの取得に係る収音部の指向性が、前記データ取得手段により取得される第2音響データの取得に係る収音部の指向性よりも鋭い場合に、前記第1音響データに対応する設定範囲が前記第2音響データに対応する設定範囲よりも小さくなるように決定することを特徴とする請求項14に記載の情報処理装置。 The determination means determines that the directivity of the sound pickup part for obtaining the first acoustic data acquired by the data acquisition means is the directivity of the sound pickup part for acquisition of the second acoustic data acquired by the data acquisition means. 15. The information processing apparatus according to claim 14 , wherein the set range corresponding to the first acoustic data is determined to be smaller than the set range corresponding to the second acoustic data when the set range is sharper than the characteristic. . それぞれ異なる位置で収音する複数の収音部で生成された収音信号に基づく複数の音響データを取得するデータ取得工程と、
前記データ取得工程において取得された音響データに対応する仮想的な音源位置を、前記音響データと他の音響データとの相関に関する相関情報と、前記音響データに関連付けられる音源の基準位置とに基づいて設定する設定工程と、
前記データ取得工程において取得された前記複数の音響データのうち1以上の音響データを、仮想的な聴取位置と前記設定工程において前記1以上の音響データそれぞれについて設定された仮想的な音源位置とに基づいて、前記聴取位置に応じた音を再生するための音響再生用データを生成する生成工程とを有することを特徴とする情報処理方法。
a data acquisition step of acquiring a plurality of acoustic data based on sound signals generated by a plurality of sound pickup units that pick up sounds at different positions;
A virtual sound source position corresponding to the acoustic data acquired in the data acquisition step is determined based on correlation information relating to the correlation between the acoustic data and other acoustic data and a reference position of the sound source associated with the acoustic data. a setting step to set;
One or more acoustic data among the plurality of acoustic data acquired in the data acquiring step are applied to a virtual listening position and a virtual sound source position set for each of the one or more acoustic data in the setting step. and a generating step of generating sound reproduction data for reproducing sound corresponding to the listening position based on the information processing method.
それぞれ異なる位置で収音する複数の収音部で生成された収音信号に基づく複数の音響データを取得するデータ取得工程と、a data acquisition step of acquiring a plurality of acoustic data based on sound signals generated by a plurality of sound pickup units that pick up sounds at different positions;
前記データ取得工程により取得された音響データに対応する仮想的な音源位置を設定する設定工程と、a setting step of setting a virtual sound source position corresponding to the acoustic data obtained by the data obtaining step;
前記データ取得工程により取得された音響データの取得に係る収音部の指向性と前記収音部の位置とに基づいて、前記音響データに対応する仮想的な音源位置を設定可能な設定範囲を決定する決定工程とを有し、A setting range in which a virtual sound source position corresponding to the acoustic data can be set based on the directivity of the sound pickup unit and the position of the sound pickup unit related to the acquisition of the acoustic data acquired in the data acquisition step. and a determining step of determining,
前記設定工程では、前記データ取得工程により取得された音響データに対応する仮想的な音源位置を、前記決定工程により決定された設定範囲内で設定することを特徴とする情報処理方法。The information processing method, wherein, in the setting step, a virtual sound source position corresponding to the acoustic data acquired in the data acquisition step is set within the setting range determined in the determination step.
コンピュータを、請求項1乃至15の何れか1項に記載の情報処理装置の各手段として機能させるためのプログラム。 A program for causing a computer to function as each means of the information processing apparatus according to any one of claims 1 to 15 .
JP2019064366A 2019-03-28 2019-03-28 Information processing device, information processing method, and program Active JP7321736B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019064366A JP7321736B2 (en) 2019-03-28 2019-03-28 Information processing device, information processing method, and program
US16/821,419 US10939224B2 (en) 2019-03-28 2020-03-17 Information processing apparatus, information processing method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019064366A JP7321736B2 (en) 2019-03-28 2019-03-28 Information processing device, information processing method, and program

Publications (3)

Publication Number Publication Date
JP2020167471A JP2020167471A (en) 2020-10-08
JP2020167471A5 JP2020167471A5 (en) 2022-04-05
JP7321736B2 true JP7321736B2 (en) 2023-08-07

Family

ID=72605208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019064366A Active JP7321736B2 (en) 2019-03-28 2019-03-28 Information processing device, information processing method, and program

Country Status (2)

Country Link
US (1) US10939224B2 (en)
JP (1) JP7321736B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024069796A1 (en) * 2022-09-28 2024-04-04 三菱電機株式会社 Sound space construction device, sound space construction system, program, and sound space construction method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006180251A (en) 2004-12-22 2006-07-06 Yamaha Corp Voice signal processor for enabling callers to perform simultaneous utterance, and program
JP2015082844A (en) 2013-10-21 2015-04-27 ハーマン インターナショナル インダストリーズ, インコーポレイテッド Modifying audio panorama to indicate presence of danger or other events of interest
JP2018191127A (en) 2017-05-02 2018-11-29 キヤノン株式会社 Signal generation device, signal generation method, and program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4181511B2 (en) 2004-02-09 2008-11-19 日本放送協会 Surround audio mixing device and surround audio mixing program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006180251A (en) 2004-12-22 2006-07-06 Yamaha Corp Voice signal processor for enabling callers to perform simultaneous utterance, and program
JP2015082844A (en) 2013-10-21 2015-04-27 ハーマン インターナショナル インダストリーズ, インコーポレイテッド Modifying audio panorama to indicate presence of danger or other events of interest
JP2018191127A (en) 2017-05-02 2018-11-29 キヤノン株式会社 Signal generation device, signal generation method, and program

Also Published As

Publication number Publication date
US20200314581A1 (en) 2020-10-01
JP2020167471A (en) 2020-10-08
US10939224B2 (en) 2021-03-02

Similar Documents

Publication Publication Date Title
CN109644314B (en) Method of rendering sound program, audio playback system, and article of manufacture
US10645518B2 (en) Distributed audio capture and mixing
US20190139312A1 (en) An apparatus and associated methods
CN101874414A (en) Method and device for improved sound field rendering accuracy within a preferred listening area
US10998870B2 (en) Information processing apparatus, information processing method, and program
JP2019506058A (en) Signal synthesis for immersive audio playback
JP6613078B2 (en) Signal processing apparatus and control method thereof
TWI709131B (en) Audio scene processing
CN109314832A (en) Acoustic signal processing method and equipment
US20190155483A1 (en) Information processing apparatus, configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium
JP6410769B2 (en) Information processing system, control method therefor, and computer program
JP2003032776A (en) Reproduction system
US20190289418A1 (en) Method and apparatus for reproducing audio signal based on movement of user in virtual space
JP7321736B2 (en) Information processing device, information processing method, and program
US10708679B2 (en) Distributed audio capture and mixing
US10547961B2 (en) Signal processing apparatus, signal processing method, and storage medium
JP2018191127A (en) Signal generation device, signal generation method, and program
KR20180018464A (en) 3d moving image playing method, 3d sound reproducing method, 3d moving image playing system and 3d sound reproducing system
JP7146404B2 (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND PROGRAM
JP2018019295A (en) Information processing system, control method therefor, and computer program
JP6664456B2 (en) Information processing system, control method therefor, and computer program
WO2023085186A1 (en) Information processing device, information processing method, and information processing program
JP7493412B2 (en) Audio processing device, audio processing system and program
US20240196150A1 (en) Adaptive loudspeaker and listener positioning compensation
JP2024056580A (en) Information processing apparatus, control method of the same, and program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230726

R151 Written notification of patent or utility model registration

Ref document number: 7321736

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151