WO2022220181A1 - 情報処理方法、情報処理装置、及び、プログラム - Google Patents

情報処理方法、情報処理装置、及び、プログラム Download PDF

Info

Publication number
WO2022220181A1
WO2022220181A1 PCT/JP2022/017167 JP2022017167W WO2022220181A1 WO 2022220181 A1 WO2022220181 A1 WO 2022220181A1 JP 2022017167 W JP2022017167 W JP 2022017167W WO 2022220181 A1 WO2022220181 A1 WO 2022220181A1
Authority
WO
WIPO (PCT)
Prior art keywords
structures
sound
information processing
simplified
shape
Prior art date
Application number
PCT/JP2022/017167
Other languages
English (en)
French (fr)
Inventor
智一 石川
耕 水野
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to EP22788106.7A priority Critical patent/EP4325898A1/en
Priority to CN202280027328.5A priority patent/CN117178570A/zh
Priority to JP2023514620A priority patent/JPWO2022220181A1/ja
Publication of WO2022220181A1 publication Critical patent/WO2022220181A1/ja
Priority to US18/372,793 priority patent/US20240015461A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present disclosure relates to an information processing method, an information processing device, and a program for reproducing stereophonic sound.
  • the present disclosure provides an information processing method and the like that can reduce the processing load required to reproduce stereophonic sound.
  • An information processing method acquires space information for reproducing a virtual space, wherein the virtual space comprises a first structure arranged in the virtual space; and a sound source, each having a simplified shape for simplifying the shape of the first structure, each of the plurality of second structures having a simplified shape of , having a shape obtained by combining one or more types of three-dimensional shapes among a plurality of types of predetermined simple three-dimensional shapes, and for each of the plurality of second structures, the sound reflection efficiency of the second structure calculating a plurality of reflection index values respectively corresponding to the plurality of second structures by calculating reflection index values related to the plurality of second structures, based on the plurality of reflection index values, By selecting one of the second structures and replacing the first structure with the selected one second structure, a simplified space in which the three-dimensional shape of the first structure is simplified Generate.
  • an information processing apparatus includes a processor and a memory, and the processor acquires space information for reproducing a virtual space using the memory,
  • the virtual space includes a first structure arranged in the virtual space and a sound source, each of which has a simplified shape for simplifying the shape of the first structure.
  • a plurality of reflection index values corresponding to each of the plurality of second structures are calculated by calculating a reflection index value related to the sound reflection efficiency of the second structure. and selecting a second structure from the plurality of second structures based on the plurality of reflection index values, and attaching the first structure to the selected one second structure.
  • a simplified space in which the three-dimensional shape of the first structure is simplified is generated.
  • the information processing method and the like according to the present disclosure can reduce the processing load required for reproducing stereophonic sound.
  • FIG. Fig. 10 is a table showing pre-associated weights for each simple solid shape
  • 4 is a flow chart showing an example of the operation of the information processing device
  • 4 is a flow chart showing an example of processing for simplifying a virtual space
  • It is a figure which shows the example of a virtual space.
  • Conventional sound reproduction technologies include, for example, a method based on wave acoustic theory that faithfully reproduces physical characteristics such as the boundary element method described in Patent Document 1, or a method based on geometrical acoustics such as the sound ray method. methods are known.
  • the method based on the wave acoustic theory has a problem that the amount of calculation increases when calculating the impulse response, especially in high frequencies, for a complicated spatial shape.
  • even when using a method based on geometrical acoustics such as the sound ray method there is a problem that the amount of calculation in real time is large in a 6DoF (six degrees of freedom) environment where the sound object moves and the user moves. be.
  • An information processing method acquires space information for reproducing a virtual space, wherein the virtual space comprises a first structure arranged in the virtual space; and a sound source, each having a simplified shape for simplifying the shape of the first structure, each of the plurality of second structures having a simplified shape of , having a shape obtained by combining one or more types of three-dimensional shapes among a plurality of types of predetermined simple three-dimensional shapes, and for each of the plurality of second structures, the sound reflection efficiency of the second structure calculating a plurality of reflection index values respectively corresponding to the plurality of second structures by calculating reflection index values related to the plurality of second structures, based on the plurality of reflection index values, By selecting one of the second structures and replacing the first structure with the selected one second structure, a simplified space in which the three-dimensional shape of the first structure is simplified Generate.
  • one of the plurality of second structures generated by simplifying the shape of the first structure arranged in the virtual space is replaced with one second structure selected based on the reflection index value. Therefore, the first structure can be replaced with a second structure that has similar characteristics that affect sound and has a simplified shape, and the amount of calculation is reduced so as not to change the characteristics that affect sound. We can obtain a simplified space where Therefore, the processing load required for stereophonic reproduction can be reduced.
  • the listening position of the listener in the virtual space is specified, and in generating the plurality of second structures, the first structure when the first structure is planarly viewed from the listening position
  • the plurality of second structures may be generated by combining one or more types of three-dimensional shapes among the plurality of types of simple three-dimensional shapes so as to have the same projected area as the object.
  • each of the plurality of second structures has a sound propagation path between the sound source and the listening position, and the second structure when viewed from the listening position to the plurality of second structures in a plan view.
  • the angle of reflection of sound at each of three positions that is, the position of the center of gravity of the projected shape of the structure and the position of two points sandwiching the position of the center of gravity, and the angle of reflection of the sound at each position of the position of the center of gravity of the projected shape of the structure, and the first It may be generated such that the sound reflection angles at each of the three positions of the center of gravity of the projected shape of one structure and the positions of two points sandwiching the center of gravity are equal to each other.
  • the plurality of second structures may have shapes different from each other.
  • the second structure having the smallest corresponding reflection index value may be selected as the one second structure from among the plurality of second structures.
  • the structure with the smallest amount of calculation can be selected as one second structure from among the plurality of second structures.
  • the position and orientation of the listener's head in the virtual space are specified, and the sound source is determined based on the simplified space, the head position and orientation, and the position of the sound source.
  • At least one of the sound that arrives at the head from and the sound that arrives at the head after being reflected by the one second structure in the simplified space, and the direction of arrival and the propagation until the arrival A sound signal may be generated by calculating a propagation distance and a propagation distance, and convolving the arrival direction and the propagation distance of the at least one sound with a predetermined head-related transfer function, and outputting the generated sound signal.
  • the stereophonic sound processing is performed using the simplified space that can reduce the amount of calculation so as not to change the characteristics that affect the sound. can.
  • the position and posture of the head and the position of the sound source are specified at a plurality of timings different from each other, and the propagation distance is calculated, the audio signal is generated, and The audio signal may be output.
  • an information processing apparatus includes a processor and a memory, and the processor acquires space information for reproducing a virtual space using the memory,
  • the virtual space includes a first structure arranged in the virtual space and a sound source, each of which has a simplified shape for simplifying the shape of the first structure.
  • a plurality of reflection index values corresponding to each of the plurality of second structures are calculated by calculating a reflection index value related to the sound reflection efficiency of the second structure. and selecting a second structure from the plurality of second structures based on the plurality of reflection index values, and attaching the first structure to the selected one second structure.
  • a simplified space in which the three-dimensional shape of the first structure is simplified is generated.
  • one of the plurality of second structures generated by simplifying the shape of the first structure arranged in the virtual space is replaced with one second structure selected based on the reflection index value. Therefore, the first structure can be replaced with a second structure that has similar characteristics that affect sound and has a simplified shape, and the amount of calculation is reduced so as not to change the characteristics that affect sound. We can obtain a simplified space where Therefore, the processing load required for stereophonic reproduction can be reduced.
  • FIG. 1 is a diagram showing an example of a sound reproduction system according to an embodiment.
  • a sound reproduction system 1 includes, for example, an information processing device 100, a terminal 200, and a controller 300, as shown in FIG.
  • these may be communicably connected to each other by dedicated wired communication, or may be communicably connected by wireless communication. These may be connected so as to be able to communicate directly, or may be connected so as to be able to communicate via a predetermined device therebetween.
  • the information processing device 100 reproduces sound in the virtual space and outputs it to the terminal 200 .
  • the information processing apparatus 100 reproduces a virtual space and reproduces sounds that the user can hear in the virtual space.
  • the virtual space includes structures, sound sources, listeners, and the like. A listener is a user. These structures, sound sources and listeners are virtual.
  • the information processing apparatus 100 reproduces sounds that can be heard by the listener in the virtual space based on the size and position of the structure, the position of the sound source, and the position of the listener in the virtual space.
  • the terminal 200 outputs the generated sound to the user, and the controller 300 acquires the input received by the controller 300 from the user.
  • the position and posture of the listener in the virtual space are changed according to the input obtained by the terminal 200 . Therefore, the information processing apparatus 100 changes the sound to be reproduced according to the listener's position and posture in the virtual space, which is changed according to the input acquired by the terminal 200 .
  • the information processing device 100 includes an acquisition unit 101, a candidate generation unit 102, a calculation unit 103, a selection unit 104, a decoding unit 105, a space generation unit 106, a rendering unit 107, and a communication unit 108.
  • the information processing apparatus 100 can be realized by a processor executing a predetermined program using a memory. That is, the information processing device 100 is a computer.
  • the acquisition unit 101 acquires acoustic information for reproducing acoustics in a virtual space.
  • Acquisition unit 101 may acquire acoustic information from an external storage device via a network, or may acquire acoustic information from an internal storage device.
  • the storage device may be a device that reads information recorded on a recording medium such as an optical disc or a memory card, or has a built-in HDD (Hard Disk Drive) or SSD (Solid State Drive) recording medium. It may be a device for reading information recorded on a recording medium.
  • the external storage device may be, for example, a server connected via the Internet.
  • the acoustic information includes, for example, an audio stream indicating sound from a sound source and spatial information indicating a virtual space.
  • Spatial information includes mesh information for reproducing the first structure placed in the virtual space, sound source positions, and the like.
  • the mesh information includes information such as structure size, shape, color, reflectance, and reverberation characteristics.
  • Structures include man-made structures and natural structures. That is, structures include all virtual objects for defining space.
  • the sound source position indicates the position where the sound is reproduced (output) in the structure. The sound source position may change over time.
  • the sound source is, for example, an object-based, HOA-based, or channel-based sound source.
  • the candidate generation unit 102 generates a plurality of second structures each having a simplified shape for simplifying the shape of the first structure.
  • Each simplified shape of the plurality of second structures has a shape obtained by combining one or more types of three-dimensional shapes among a plurality of types of predetermined simple three-dimensional shapes.
  • simple solid shapes include, for example, cuboids, cylinders, spheres, and cones.
  • the second structure may be composed of, for example, a combination of one or more of cuboids, cylinders, spheres, and cones, or two or more types of cuboids, cylinders, spheres, and cones 1 It may be configured by a combination of one or more.
  • the plurality of second structures have shapes different from each other.
  • the candidate generation unit 102 generates a plurality of second structures by determining a plurality of combinations of simplified shapes so as to have shapes that approximate the shape of the first structure. Specifically, the candidate generation unit 102 generates multiple types of simple three-dimensional structures so as to be equal to the projected area of the first structure to be processed when the first structure to be processed is planarly viewed from the listening position. A plurality of second structures are generated by combining one or more three-dimensional shapes among the shapes.
  • each of the plurality of second structures is a projection of the plurality of second structures when each of the plurality of second structures is viewed from the listening position in a sound propagation path from the sound source to the listening position.
  • the calculation unit 103 calculates, for each of the plurality of second structures generated by the candidate generation unit 102, a reflection index value related to the sound reflection efficiency of the second structure. Thereby, the calculation unit 103 calculates a plurality of reflection index values respectively corresponding to the plurality of second structures. Specifically, the calculation unit 103 calculates, as a reflection index value, the sum of weights pre-associated with one or more simple three-dimensional shapes that constitute each second structure. Specifically, the reflection index value is an index value that is set to a larger value as the predetermined sound from the facing sound source is reflected more efficiently. Efficiently reflecting means, for example, a smaller difference in frequency characteristics when a predetermined sound and a reflected sound are compared. For example, the reflection index value is set to a rectangular parallelepiped, cylinder, sphere, and cone in descending order.
  • Fig. 2 is a table showing the pre-associated weights of each simple three-dimensional shape.
  • a cuboid is associated with a weight w1, a cylinder is associated with a weight w2 smaller than the weight w1, a sphere is associated with a weight w3 smaller than the weight w2, and a cone is associated with a weight less than w3.
  • a small weight w4 is associated.
  • the calculator 103 calculates the weight w1 as the reflection index value of the second structure.
  • the calculation unit 103 calculates the sum of the weight w2 and the weight w3 ⁇ 2 as the reflection of the second structure. Calculated as an index value.
  • the calculator 103 calculates the weight w4 ⁇ 4 as the reflection index value of the second structure.
  • the selection unit 104 selects one second structure from among the plurality of second structures based on the plurality of reflection index values respectively corresponding to the plurality of second structures. Specifically, the selection unit 104 selects the second structure having the smallest corresponding reflection index value among the plurality of second structures as one second structure.
  • the decoding unit 105 decodes the first audio signal by performing decoding processing on the encoded audio stream.
  • the space generation unit 106 generates a simplified space in which the three-dimensional shape of the first structure is simplified by replacing the first structure with one second structure selected by the selection unit 104.
  • the rendering unit 107 Based on the simplified space generated by the space generation unit 106, the position and posture of the listener's head, and the position of the sound source, the rendering unit 107 generates sound arriving from the sound source to the head and the simplified space. An arrival direction and a propagation distance propagated until arrival of at least one of the sounds reflected by one second structure in the space and arriving at the head are calculated. Then, the rendering unit 107 convolves the direction of arrival and the propagation distance of at least one of the sounds in the first audio signal decoded by the decoding unit 105 with a predetermined head-related transfer function (HRTF). , to generate a second audio signal and output the generated second audio signal.
  • HRTF head-related transfer function
  • the rendering unit 107 Based on the spatial information and the position and posture of the listener's head, the rendering unit 107 also generates a video signal representing the field of view seen by the listener from the listener's listening position to the listener's posture.
  • the video signal is an image of a structure in a virtual space in which the structure is not simplified and included in the field of view. Note that the rendering unit 107 identifies the listening position of the listener in the virtual space based on the listener information received by the communication unit 108 .
  • the communication unit 108 exchanges information with the terminal 200 by communicating with the terminal 200 .
  • the communication unit 108 transmits the second audio signal and the video signal for output to the terminal 200, for example.
  • the communication unit 108 also receives, from the terminal 200, listener information indicating the position and posture of the listener's head, for example.
  • the terminal 200 includes a communication section 201 , a control section 202 , a detection section 203 , an input reception section 204 , a display section 205 and an audio output section 206 .
  • the terminal 200 may be, for example, a VR headset worn on the user's head, or may be a mobile terminal such as a smart phone attached to a wearable device for wearing on the user's head.
  • the communication unit 201 exchanges information with the information processing apparatus 100 by communicating with the information processing apparatus 100 .
  • the communication unit 201 transmits, for example, listener information indicating the position and posture of the listener's head to the information processing apparatus 100 .
  • the communication unit 108 receives, for example, the second audio signal and the video signal for output from the information processing apparatus 100 .
  • the control unit 202 outputs the second audio signal to the audio output unit 206 and outputs the video signal to the display unit 205 . Also, the control unit 202 acquires the movement of the user's head (that is, changes in the position and posture of the head) detected by the detection unit 203 . Also, the control unit 202 acquires the input received by the input receiving unit 204 . The input indicates moving the position of the listener in the virtual space or changing the posture of the listener. The control unit 202 adjusts the listening position of the listener and the attitude of the listener's head based on the acquired user's head movement and the input indicating that the listener's head position and attitude should be changed.
  • the listener information shown is generated, and the listener information is transmitted to the information processing apparatus 100 via the communication unit 201 .
  • the control unit 202 acquires head movements and inputs, and sequentially (that is, at regular time intervals) performs processing for generating listener information based on the acquired head movements and inputs.
  • the constant time interval is, for example, less than 1 second.
  • the detection unit 203 sequentially detects the motion of the user's head.
  • the detection unit 203 detects changes in the position and posture of the user's head.
  • the detector 203 includes, for example, an acceleration sensor and an angular velocity sensor.
  • the detection unit 203 is, for example, an IMU (Inertial Measurement Unit).
  • the input reception unit 204 receives an input from the controller 300 operated by the user, indicating that the position of the listener should be moved in the virtual space or the posture of the listener's head should be changed.
  • the input reception unit 204 may receive input from the controller 300 through wireless communication with the controller 300 or may receive input from the controller 300 through wired communication.
  • the communication unit 201 may have the function of the input reception unit 204 that receives input from the controller 300 .
  • the input reception unit 204 may have a button, a touch sensor, or the like that directly receives an input from the user.
  • the display unit 205 displays the video (moving image) indicated by the video signal output by the control unit 202 .
  • a moving image is a video made up of a plurality of frames.
  • the video may be a still image.
  • the display unit 205 is, for example, a liquid crystal display, an organic EL (Electro Luminescence) display, or the like.
  • the audio output unit 206 outputs audio (including music) indicated by the audio signal output by the control unit 202 .
  • the audio output unit 206 is, for example, a speaker.
  • the controller 300 is a device that receives input from the user and transmits the received input to the terminal 200 .
  • FIG. 3 is a flowchart showing an example of the operation of the information processing device.
  • the information processing device 100 simplifies the virtual space included in the spatial information (S11). The details of the process of simplifying the virtual space will be described later.
  • the information processing device 100 acquires listener information including the position and posture of the listener's head in the virtual space (S12).
  • the information processing apparatus 100 Based on the simplified space generated by the space generation unit 106, the position and posture of the listener's head, and the position of the sound source, the information processing apparatus 100 generates sound arriving from the sound source to the head, Then, the direction of arrival and the propagation distance of at least one of the sounds arriving at the head after being reflected by one of the second structures in the simplified space are calculated. Then, the information processing apparatus 100 performs an operation to convolve the direction of arrival and the propagation distance of at least one sound with a predetermined head-related transfer function (HRTF) with respect to the decoded first audio signal, thereby obtaining a second audio signal. is generated (S13).
  • HRTF head-related transfer function
  • the information processing device 100 outputs the generated second audio signal (S14).
  • FIG. 4 is a flowchart showing an example of processing for simplifying a virtual space.
  • the information processing device 100 acquires spatial information (S21).
  • Spatial information is information for reproducing a virtual space.
  • a virtual space includes a structure arranged in the virtual space and a sound source.
  • the information processing device 100 acquires the listening position of the listener in the virtual space (S22).
  • the information processing device 100 executes a loop including steps S23 to S26 for each of the one or more first structures in the virtual space.
  • the information processing device 100 generates a plurality of second structures each having a simplified shape for simplifying the shape of the first structure to be processed (S23).
  • the information processing apparatus 100 calculates a reflection index value related to the sound reflection efficiency of the second structure, thereby corresponding to each of the plurality of second structures.
  • a plurality of reflection index values are calculated (S24).
  • the information processing device 100 selects one second structure from among the plurality of second structures based on the plurality of reflection index values (S25).
  • the information processing device 100 replaces the first structure with one selected second structure (S26).
  • the information processing device 100 ends the loop after executing steps S23 to S26 for all of the one or more first structures. This creates a simplified space in which all the first structures are replaced with the second structures.
  • the information processing apparatus 100 does not have to execute the above loop, and only needs to be able to execute the processing of steps S23 to S26 for each of the one or more first structures in the virtual space.
  • FIG. 5 is a diagram showing a specific example of a virtual space.
  • the virtual space VS100 includes a plurality of first structures 301, sound sources 302, and listeners 310.
  • the information processing apparatus 100 replaces the arc-curved first structure 301 with a simpler-shaped second structure.
  • one of a plurality of types of simple three-dimensional shapes may be selected so as to be equal to the projected area of the projected shape 311 of the first structure 301 when the first structure 301 is viewed from the listening position of the listener 310 .
  • a plurality of second structures are generated by combining the three-dimensional shapes described above.
  • the plurality of second structures may be, for example, one cuboid, a combination of five cylinders, a combination of twenty spheres, a combination of ten cones, or the like.
  • Information processing apparatus 100 performs the following information processing method.
  • the information processing apparatus 100 acquires space information for reproducing a virtual space.
  • the virtual space includes a first structure arranged in the virtual space and a sound source.
  • the information processing apparatus 100 generates a plurality of second structures each having a simplified shape for simplifying the shape of the first structure.
  • Each simplified shape of the plurality of second structures has a shape obtained by combining one or more types of three-dimensional shapes among a plurality of types of predetermined simple three-dimensional shapes.
  • the information processing apparatus 100 calculates, for each of the plurality of second structures, a reflection index value related to the sound reflection efficiency of the second structure, thereby obtaining a plurality of sound reflections corresponding to the plurality of second structures.
  • the information processing device 100 selects one second structure from among the plurality of second structures based on the plurality of reflection index values.
  • the information processing apparatus 100 generates a simplified space in which the three-dimensional shape of the first structure is simplified by replacing the first structure with one selected second structure.
  • one of the plurality of second structures generated by simplifying the shape of the first structure arranged in the virtual space is replaced with one second structure selected based on the reflection index value. Therefore, the first structure can be replaced with a second structure that has similar characteristics that affect sound and has a simplified shape, and the amount of calculation is reduced so as not to change the characteristics that affect sound. We can obtain a simplified space where Therefore, the processing load required for stereophonic reproduction can be reduced.
  • the information processing device 100 further identifies the listening position of the listener in the virtual space.
  • the information processing apparatus 100 When generating a plurality of second structures, the information processing apparatus 100 generates a plurality of types of simple three-dimensional shapes so as to be equal to the projected area of the first structure when the first structure is viewed from the listening position. A plurality of second structures are generated by combining one or more of the three-dimensional shapes.
  • each of the plurality of second structures has a projection shape of the second structure when each of the plurality of second structures is planarly viewed from the listening position in the sound propagation path from the sound source to the listening position.
  • the center of gravity of the projection shape of the first structure when the first structure is viewed from the listening position, and the reflection angle of the sound at each of the three positions of the center of gravity of It is generated such that the sound reflection angles at each of the three positions of the position and the positions of the two points sandwiching the center of gravity position are equal to each other.
  • the information processing apparatus 100 selects the second structure having the smallest corresponding reflection index value among the plurality of second structures as one second structure.
  • the structure with the smallest amount of calculation can be selected as one second structure from among the plurality of second structures.
  • the information processing device 100 further performs the following processing.
  • the information processing apparatus 100 identifies the position and posture of the listener's head in the virtual space. Based on the simplified space, the position and orientation of the head, and the position of the sound source, the information processing apparatus 100 detects the sound coming from the sound source to the head and the sound reflected by one second structure in the simplified space. Then, the arrival direction and the propagation distance of at least one of the sounds arriving at the head are calculated.
  • the information processing apparatus 100 generates an audio signal by convolving the arrival direction and propagation distance of at least one sound with a predetermined head-related transfer function. The information processing device 100 outputs the generated audio signal.
  • the stereophonic sound processing is performed using the simplified space that can reduce the amount of calculation so as not to change the characteristics that affect the sound. can.
  • the position and posture of the head and the position of the sound source are specified at a plurality of mutually different timings. Calculation of the propagation distance, generation of the audio signal, and output of the audio signal are performed for each of a plurality of timings.
  • the information processing apparatus 100 includes a processor and memory, and the processor uses the memory to perform the above processes.
  • Each device in the above embodiment is specifically a computer system composed of a microprocessor, ROM, RAM, hard disk unit, display unit, keyboard, mouse, and the like.
  • a computer program is recorded in the RAM or hard disk unit.
  • Each device achieves its function by the microprocessor operating according to the computer program.
  • the computer program is constructed by combining a plurality of instruction codes indicating instructions to the computer in order to achieve a predetermined function.
  • a system LSI is an ultra-multifunctional LSI manufactured by integrating multiple components on a single chip. Specifically, it is a computer system that includes a microprocessor, ROM, RAM, etc. . A computer program is recorded in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
  • each part of the constituent elements constituting each of the devices described above may be individually integrated into one chip, or may be integrated into one chip so as to include part or all of them.
  • system LSI may also be called IC, LSI, super LSI, or ultra LSI depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connections and settings of the circuit cells inside the LSI may be used.
  • the IC card or module is a computer system composed of a microprocessor, ROM, RAM and the like.
  • the IC card or the module may include the super multifunctional LSI.
  • the IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may be tamper resistant.
  • the present disclosure may be the method shown above. Moreover, it may be a computer program for realizing these methods by a computer, or it may be a digital signal composed of the computer program.
  • the present disclosure includes a computer-readable recording medium for the computer program or the digital signal, such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (Registered Trademark) Disc), semiconductor memory, or the like. Moreover, it may be the digital signal recorded on these recording media.
  • a computer-readable recording medium for the computer program or the digital signal such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD (Blu-ray (Registered Trademark) Disc), semiconductor memory, or the like.
  • BD Blu-ray (Registered Trademark) Disc
  • semiconductor memory or the like.
  • it may be the digital signal recorded on these recording media.
  • the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, data broadcasting, or the like.
  • the present disclosure may also be a computer system comprising a microprocessor and memory, the memory storing the computer program, and the microprocessor operating according to the computer program.
  • the present disclosure can be used for an information processing method, an information processing apparatus, a program, and the like that can reduce the processing load required for reproducing stereophonic sound.
  • Sound reproduction system 100 Information processing device 101 Acquisition unit 102 Candidate generation unit 103 Calculation unit 104 Selection unit 105 Decoding unit 106 Space generation unit 107 Rendering unit 108 Communication unit 200 Terminal 201 Communication unit 202 Control unit 203 Detection unit 204 Input reception unit 205 Display unit 206 Audio output unit 300 Controller 301 First structure 302 Sound source 310 Listener 311 Projection shape

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

情報処理方法は、仮想的な空間を再現するための空間情報を取得し(S21)、仮想的な空間は、仮想的な空間内に配置される第1構造物と、音源とを含み、それぞれが、第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成し(S23)、複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有し、複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出し(S24)、複数の反射指標値に基づいて、複数の第2構造物のうちの1つの第2構造物を選択し(S25)、第1構造物を、選択した1つの第2構造物に置き換えることで、第1構造物の立体形状が単純化された単純化空間を生成する(S26)。

Description

情報処理方法、情報処理装置、及び、プログラム
 本開示は、立体音響を再現する情報処理方法、情報処理装置、及び、プログラムに関する。
 VR(Virtual Reality)またはAR(Augmented Reality)等で空間の伝達特性を模擬した仮想空間における音響を再生する際に、特許文献1に記載されているような、空間の形状に応じたインパルス応答を用いることで音オブジェクトの実在感や仮想環境のリアリティを高める音響再生技術が知られている。
特開2006-128818号公報
 しかしながら、立体音響の再生において、音響再生処理に大きな処理負荷が必要とされる。また、音源の位置、受聴者の位置、再生空間の空間構造などが変化すると、変化した音源の位置、受聴者の位置、再生空間の空間構造に応じて演算をする必要があるため、大きな処理負荷が必要とされる。
 そこで、本開示は、立体音響の再生に要する処理負荷を低減することができる情報処理方法などを提供する。
 本開示の一態様に係る情報処理方法は、仮想的な空間を再現するための空間情報を取得し、前記仮想的な空間は、前記仮想的な空間内に配置される第1構造物と、音源とを含み、それぞれが、前記第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成し、前記複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有し、前記複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出することで、前記複数の第2構造物にそれぞれ対応する複数の反射指標値を算出し、前記複数の反射指標値に基づいて、前記複数の第2構造物のうちの1つの第2構造物を選択し、前記第1構造物を、選択した前記1つの第2構造物に置き換えることで、前記第1構造物の立体形状が単純化された単純化空間を生成する。
 また、本開示の一態様に係る情報処理装置は、プロセッサと、メモリと、を備え、前記プロセッサは、前記メモリを用いて、仮想的な空間を再現するための空間情報を取得し、前記仮想的な空間は、前記仮想的な空間内に配置される第1構造物と、音源とを含み、それぞれが、前記第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成し、前記複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有し、前記複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出することで、前記複数の第2構造物にそれぞれ対応する複数の反射指標値を算出し、前記複数の反射指標値に基づいて、前記複数の第2構造物のうちの1つの第2構造物を選択し、前記第1構造物を、選択した前記1つの第2構造物に置き換えることで、前記第1構造物の立体形状が単純化された単純化空間を生成する。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び非一時的な記録媒体の任意な組み合わせで実現されてもよい。
 本開示に係る情報処理方法などは、立体音響の再生に要する処理負荷を低減することができる。
実施の形態に係る音響再生システムの一例を示す図である。 各単純な立体形状の予め対応付けられている重みを示す表である。 情報処理装置の動作の一例を示すフローチャートである。 仮想的な空間を単純化する処理の一例を示すフローチャートである。 仮想的な空間の具体例を示す図である。
 (本開示の基礎となった知見)
 従来の音響再生技術には、例えば、特許文献1に記載されているような境界要素法などの物理特性を忠実に再現する波動音響理論に基づく方式、または、音線法等の幾何音響に基づく方法などが知られている。波動音響理論に基づく方式では、複雑な空間形状に対して、特に高域においてインパルス応答を算出する際に演算量が増大するという課題がある。また、音線法等の幾何音響に基づく方法を使用する場合においても、音オブジェクトが移動したり、利用者が移動する6DoF(6自由度)環境では実時間での計算量が多いという課題がある。
 本開示の一態様に係る情報処理方法は、仮想的な空間を再現するための空間情報を取得し、前記仮想的な空間は、前記仮想的な空間内に配置される第1構造物と、音源とを含み、それぞれが、前記第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成し、前記複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有し、前記複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出することで、前記複数の第2構造物にそれぞれ対応する複数の反射指標値を算出し、前記複数の反射指標値に基づいて、前記複数の第2構造物のうちの1つの第2構造物を選択し、前記第1構造物を、選択した前記1つの第2構造物に置き換えることで、前記第1構造物の立体形状が単純化された単純化空間を生成する。
 これによれば、仮想的な空間に配置される第1構造物の形状を単純化して生成した複数の第2構造物のうち反射指標値に基づいて選択した1つの第2構造物に置き換える。このため、音響に影響する特性が類似し、かつ、単純化した形状の第2構造物に第1構造物を置き換えることができ、音響に影響する特性を変化させないように、演算量を低減することができる単純化空間を得ることができる。よって、立体音響の再生に要する処理負荷を低減することができる。
 また、さらに、前記仮想的な空間内の受聴者の受聴位置を特定し、前記複数の第2構造物の生成では、前記受聴位置から前記第1構造物を平面視した場合の前記第1構造物の投影面積と等しくなるように、前記複数種類の単純な立体形状のうちの前記1種類以上の立体形状を組み合わせることで、前記複数の第2構造物を生成してもよい。
 このため、第1構造物と音響に影響する特性が類似する複数の第2構造物を生成することができる。
 また、前記複数の第2構造物のそれぞれは、前記音源から前記受聴位置までの間に音の伝搬経路において、前記受聴位置から前記複数の第2構造物をそれぞれ平面視した場合の当該第2構造物の投影形状の重心位置と重心位置を挟む2点の位置との3つの位置のそれぞれの位置における音の反射角と、前記受聴位置から前記第1構造物を平面視した場合の前記第1構造物の投影形状の重心位置と重心位置を挟む2点の位置との3つの位置のそれぞれの位置における音の反射角とが互いに等しくなるように生成されてもよい。
 このため、第1構造物と音響に影響する特性が類似する複数の第2構造物を生成することができる。
 また、前記複数の第2構造物は、互いに異なる形状を有してもよい。
 また、前記1つの第2構造物の選択では、前記複数の第2構造物のうち対応する反射指標値が最小となる第2構造物を前記1つの第2構造物として選択してもよい。
 このため、複数の第2構造物のうちで演算量が最小となる構造物を1つの第2構造物として選択することができる。
 また、さらに、前記仮想的な空間内の受聴者の頭部の位置及び姿勢を特定し、前記単純化空間と、前記頭部の位置及び姿勢と、前記音源の位置とに基づいて、前記音源から前記頭部へ到来する音、及び、前記単純化空間の前記1つの第2構造物に反射して前記頭部へ到来する音の少なくとも一方の音の、到来方向と、到来するまでに伝搬する伝搬距離とを算出し、前記少なくとも一方の音の、前記到来方向及び前記伝搬距離を所定の頭部伝達関数に畳み込むことで、音声信号を生成し、生成した音声信号を出力してもよい。
 これによれば、音響に影響する特性を変化させないように、演算量を低減することができる単純化空間を用いて立体音響処理を行うため、立体音響の再生に要する処理負荷を低減することができる。
 また、前記頭部の位置及び姿勢と、前記音源の位置とは、互いに異なる複数のタイミングで特定され、前記複数のタイミングのそれぞれ毎に、前記伝搬距離の算出、前記音声信号の生成、及び、前記音声信号の出力が行われてもよい。
 これによれば、立体音響の再生に要する処理負荷を低減することができるため、リアルタイムに実行する処理の処理負荷を効果的に低減することができる。
 また、本開示の一態様に係る情報処理装置は、プロセッサと、メモリと、を備え、前記プロセッサは、前記メモリを用いて、仮想的な空間を再現するための空間情報を取得し、前記仮想的な空間は、前記仮想的な空間内に配置される第1構造物と、音源とを含み、それぞれが、前記第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成し、前記複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有し、前記複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出することで、前記複数の第2構造物にそれぞれ対応する複数の反射指標値を算出し、前記複数の反射指標値に基づいて、前記複数の第2構造物のうちの1つの第2構造物を選択し、前記第1構造物を、選択した前記1つの第2構造物に置き換えることで、前記第1構造物の立体形状が単純化された単純化空間を生成する。
 これによれば、仮想的な空間に配置される第1構造物の形状を単純化して生成した複数の第2構造物のうち反射指標値に基づいて選択した1つの第2構造物に置き換える。このため、音響に影響する特性が類似し、かつ、単純化した形状の第2構造物に第1構造物を置き換えることができ、音響に影響する特性を変化させないように、演算量を低減することができる単純化空間を得ることができる。よって、立体音響の再生に要する処理負荷を低減することができる。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 以下、図面を参照しながら、実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。つまり、以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素は、本開示の課題を達成するために必ずしも必要ではないが、より好ましい形態を構成する構成要素として説明される。
 (実施の形態)
 [1.構成]
 まず、本開示に係るシステム構成について説明する。
 図1は、実施の形態に係る音響再生システムの一例を示す図である。
 本実施の形態に係る音響再生システム1は、図1に示すように、例えば、情報処理装置100と、端末200と、コントローラ300とを備える。これらは、例えば、互いに専用の有線通信で通信可能に接続されていてもよいし、無線通信で通信可能に接続されていてもよい。これらは、直接通信可能に接続されていてもよいし、間に所定の機器を介して通信可能に接続されていてもよい。情報処理装置100は、仮想的な空間内での音響を再生し、端末200に出力する。情報処理装置100は、仮想的な空間を再現し、仮想的な空間内のユーザに聞こえる音響を再生する。仮想的な空間には、構造物、音源、受聴者などが含まれる。受聴者は、ユーザである。これらの構造物、音源、及び、受聴者は、仮想的なものである。情報処理装置100は、仮想的な空間における、構造物のサイズ及び位置と、音源の位置と、受聴者の位置とに基づいて、仮想的な空間内の受聴者に聞こえる音響を再生する。端末200は、ユーザに生成された音響を出力し、コントローラ300がユーザから受け付けた入力を、コントローラ300取得する。端末200により取得された入力に応じて、仮想的な空間内の受聴者の位置及び姿勢が変更される。このため、情報処理装置100は、端末200により取得された入力に応じて変更された、仮想的な空間内の受聴者の位置及び姿勢に応じて、再生する音響を変更する。
 まず、情報処理装置100について説明する。
 情報処理装置100は、取得部101と、候補生成部102と、算出部103と、選択部104と、デコード部105と、空間生成部106と、レンダリング部107と、通信部108とを備える。情報処理装置100は、プロセッサがメモリを用いて所定のプログラムを実行することで実現されうる。つまり、情報処理装置100は、コンピュータである。
 取得部101は、仮想的な空間内における音響を再現するための音響情報を取得する。取得部101は、外部の記憶装置からネットワークを介して音響情報を取得してもよいし、内部の記憶装置から音響情報を取得してもよい。記憶装置は、光ディスク、メモリカードなどの記録媒体に記録されている情報を読み出す装置であってもよいし、HDD(Hard Disk Drive)、SSD(Solid State Drive)記録媒体を内蔵しており、当該記録媒体に記録されている情報を読み出す装置であってもよい。外部の記憶装置は、例えば、インターネットを介して接続されるサーバであってもよい。なお、音響情報は、例えば、音源による音声を示す音声ストリームと、仮想的な空間を示す空間情報とを含む。
 空間情報は、仮想的な空間に配置される第1構造物を再現するためのメッシュ情報、音源位置などを含む。メッシュ情報は、構造物のサイズ、形状、色、反射率、残響特性などの情報を含む。構造物は、人工的な構造物、及び、自然の構造物を含む。つまり、構造物は、空間を規定するためのあらゆる仮想的な物体を含む。音源位置は、構造物において、音が再生(出力)される位置を示す。音源位置は、時間経過と共に変化してもよい。音源は、例えば、オブジェクトベース、HOAベース、チャンネルベースなどの音源である。
 候補生成部102は、それぞれが、第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成する。複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有する。複数種類の単純な立体形状は、例えば、直方体、円柱、球、及び、円錐を含む。第2構造物は、例えば、直方体、円柱、球、及び、円錐のうちの1個以上の組み合わせで構成されてもよいし、直方体、円柱、球、及び、円錐の2種類以上の各種類1個以上の組み合わせで構成されてもよい。複数の第2構造物は、互いに異なる形状を有する。
 候補生成部102は、第1構造物の形状と近似する形状を有するように、単純化形状の組み合わせを複数通り決定することで、複数の第2構造物を生成する。具体的には、候補生成部102は、受聴位置から処理対象の第1構造物を平面視した場合の、処理対象の第1構造物の投影面積と等しくなるように、複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせることで、複数の第2構造物を生成する。ここで、複数の第2構造物のそれぞれは、音源から受聴位置までの間に音の伝搬経路において、受聴位置から複数の第2構造物をそれぞれ平面視した場合の当該第2構造物の投影形状の重心位置と重心位置を挟む2点の位置との3つの位置のそれぞれの位置における音の反射角と、受聴位置から第1構造物を平面視した場合の第1構造物の投影形状の重心位置と重心位置を挟む2点の位置との3つの位置のそれぞれの位置における音の反射角とが互いに等しくなるように生成される。また、候補生成部102は、空間情報のメッシュ情報に複数の第1構造物が含まれている場合、複数の第1構造物のそれぞれについて、複数の第2構造物を生成する。
 算出部103は、候補生成部102により生成された複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出する。これにより、算出部103は、複数の第2構造物にそれぞれが対応する複数の反射指標値を算出する。具体的には、算出部103は、各第2構造物を構成している、1以上の単純な立体形状に予め対応付けられている重みの総和を反射指標値として算出する。反射指標値は、具体的には、正対する音源からの所定の音が効率よく反射されるほど大きい値が設定される指標値である。効率よく反射するとは、例えば、所定の音と反射された音とを比較したときの周波数特性の差分がより小さいことをいう。例えば、反射指標値は、直方体、円柱、球、及び、円錐の順に大きい値が設定される。
 図2は、各単純な立体形状の予め対応付けられている重みを示す表である。
 直方体には重みw1が対応付けられており、円柱には重みw1より小さい重みw2が対応付けられており、球体には重みw2より小さい重みw3が対応付けられており、円錐には重みw3より小さい重みw4が対応付けられている。例えば、第2構造物が直方体1個で構成される場合、算出部103は、重みw1を当該第2構造物の反射指標値として算出する。また、例えば、第2構造物が円柱1個と、球体2個との組み合わせで構成される場合、算出部103は、重みw2と、重みw3×2との和を当該第2構造物の反射指標値として算出する。また、例えば、第2構造物が円錐4個の組み合わせで構成される場合、算出部103は、重みw4×4を当該第2構造物の反射指標値として算出する。
 選択部104は、複数の第2構造物にそれぞれ対応する複数の反射指標値に基づいて、複数の第2構造物のうちの1つの第2構造物を選択する。具体的には、選択部104は、複数の第2構造物のうち対応する反射指標値が最小となる第2構造物を1つの第2構造物として選択する。
 デコード部105は、符号化されている音声ストリームに復号処理を行うことで、第1音声信号を復号する。
 空間生成部106は、第1構造物を、選択部104により選択された1つの第2構造物に置き換えることで、第1構造物の立体形状が単純化された単純化空間を生成する。
 レンダリング部107は、空間生成部106により生成された単純化空間と、受聴者の頭部の位置及び姿勢と、音源の位置とに基づいて、音源から頭部へ到来する音、及び、単純化空間の1つの第2構造物に反射して前記頭部へ到来する音の少なくとも一方の音の、到来方向と、到来するまでに伝搬する伝搬距離とを算出する。そして、レンダリング部107は、デコード部105により復号された第1音声信号に対して、少なくとも一方の音の、到来方向及び伝搬距離を所定の頭部伝達関数(HRTF)に畳み込む演算を行うことで、第2音声信号を生成し、生成した第2音声信号を出力する。また、レンダリング部107は、空間情報と、受聴者の頭部の位置及び姿勢とに基づいて、受聴者の受聴位置から受聴者の姿勢において受聴者から見える視界を示す映像信号を生成する。映像信号は、当該視界に含まれる、構造物を単純化していない仮想的な空間内における構造物の映像である。なお、レンダリング部107は、通信部108により受信された受聴者情報に基づいて、仮想的な空間内の受聴者の受聴位置を特定する。
 通信部108は、端末200との間で通信することで、端末200との間で情報の授受を行う。通信部108は、例えば、出力用の第2音声信号及び映像信号を端末200へ送信する。また、通信部108は、例えば、受聴者の頭部の位置及び姿勢を示す受聴者情報を端末200から受信する。
 次に、端末200について説明する。
 端末200は、通信部201と、制御部202と、検出部203と、入力受付部204と、表示部205と、音声出力部206とを備える。端末200は、例えば、ユーザの頭部に装着されるVRヘッドセットであってもよいし、ユーザの頭部に装着するための装着器具に取り付けられたスマートフォンなどの携帯端末であってもよい。
 通信部201は、情報処理装置100との間で通信することで、情報処理装置100との間で情報の授受を行う。通信部201は、例えば、受聴者の頭部の位置及び姿勢を示す受聴者情報を情報処理装置100へ送信する。また、通信部108は、例えば、出力用の第2音声信号及び映像信号を情報処理装置100から受信する。
 制御部202は、通信部201が受信した第2音声信号及び映像信号のうち、第2音声信号を音声出力部206へ出力し、映像信号を表示部205へ出力する。また、制御部202は、検出部203により検出されたユーザの頭部の動作(つまり、頭部の位置及び姿勢の変化)を取得する。また、制御部202は、入力受付部204により受け付けられた入力を取得する。入力は、仮想空間内で受聴者の位置を移動させたり、受聴者の姿勢を変更させたりすることを示す。制御部202は、取得したユーザの頭部の動作、及び、受聴者の頭部の位置及び姿勢を変更することを示す入力に基づいて、受聴者の受聴位置及び受聴者の頭部の姿勢を示す受聴者情報を生成し、通信部201を介して受聴者情報を情報処理装置100へ送信する。制御部202は、頭部の動作及び入力を取得し、取得した頭部の動作及び入力に基づいて受聴者情報を生成する処理を逐次(つまり一定時間間隔で)行う。一定時間間隔は、例えば1秒未満の時間である。
 検出部203は、ユーザの頭部の動作を逐次検出する。検出部203は、ユーザの頭部の位置及び姿勢の変化を検出する。検出部203は、例えば、加速度センサ及び角速度センサを含む。検出部203は、例えば、IMU(Inertial Measurement Unit)である。
 入力受付部204は、仮想空間内で受聴者の位置を移動させたり、受聴者の頭部の姿勢を変更させたりすることを示す入力をユーザに操作されたコントローラ300から受け付ける。入力受付部204は、コントローラ300との間で無線通信することでコントローラ300からの入力を受け付けてもよいし、有線通信することでコントローラ300からの入力を受け付けてもよい。コントローラ300からの入力を受け付ける入力受付部204の機能は、通信部201が有していてもよい。入力受付部204は、ユーザからの入力を直接受け付けるボタン、タッチセンサなどを有していてもよい。
 表示部205は、制御部202により出力された映像信号が示す映像(動画像)を表示する。動画像は、複数のフレームから構成される映像である。映像は、静止画であってもよい。表示部205は、例えば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイなどである。
 音声出力部206は、制御部202により出力された音声信号が示す音声(音楽を含む)を出力する。音声出力部206は、例えば、スピーカなどである。
 コントローラ300は、ユーザからの入力を受け付け、受け付けた入力を端末200に送信する装置である。
 [2.動作]
 次に、情報処理装置100の動作、つまり、情報処理装置100により実行される情報処理方法について説明する。
 図3は、情報処理装置の動作の一例を示すフローチャートである。
 情報処理装置100は、空間情報に含まれる仮想的な空間を単純化する(S11)。仮想的な空間を単純化する処理の詳細は、後述する。
 次に、情報処理装置100は、仮想的な空間内の受聴者の頭部の位置及び姿勢を含む受聴者情報取得する(S12)。
 次に、情報処理装置100は、空間生成部106により生成された単純化空間と、受聴者の頭部の位置及び姿勢と、音源の位置とに基づいて、音源から頭部へ到来する音、及び、単純化空間の1つの第2構造物に反射して前記頭部へ到来する音の少なくとも一方の音の、到来方向と、到来するまでに伝搬する伝搬距離とを算出する。そして、情報処理装置100は、復号された第1音声信号に対して、少なくとも一方の音の、到来方向及び伝搬距離を所定の頭部伝達関数(HRTF)に畳み込む演算を行い、第2音声信号を生成する(S13)。
 次に、情報処理装置100は、生成した第2音声信号を出力する(S14)。
 図4は、仮想的な空間を単純化する処理の一例を示すフローチャートである。
 情報処理装置100は、空間情報を取得する(S21)。空間情報は、仮想的な空間を再現するための情報である。仮想的な空間は、仮想的な空間内に配置される構造物と、音源とを含む。
 情報処理装置100は、仮想的な空間内の受聴者の受聴位置を取得する(S22)。
 次に、情報処理装置100は、仮想的な空間内の1以上の第1構造物のそれぞれについて、ステップS23~ステップS26を含むループを実行する。
 情報処理装置100は、それぞれが、処理対象の第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成する(S23)。
 次に、情報処理装置100は、複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出することで、複数の第2構造物にそれぞれ対応する複数の反射指標値を算出する(S24)。
 次に、情報処理装置100は、複数の反射指標値に基づいて、複数の第2構造物の内の1つの第2構造物を選択する(S25)。
 情報処理装置100は、第1構造物を、選択した1つの第2構造物に置き換える(S26)。
 情報処理装置100は、1以上の第1構造物の全てについて、ステップS23~ステップS26を実行するとループを終了する。これにより、全ての第1構造物が第2構造物に置換された単純化空間が生成される。
 なお、情報処理装置100は、上記ループを実行しなくてもよく、仮想的な空間内の1以上の第1構造物のそれぞれについて、ステップS23~S26の処理を実行できればよい。
 図5は、仮想的な空間の具体例を示す図である。
 図5に示すように、仮想的な空間VS100は、複数の第1構造物301と、音源302と、受聴者310とを含む。情報処理装置100は、円弧状に湾曲している第1構造物301を、より単純な形状の第2構造物に置き換える。例えば、受聴者310の受聴位置から第1構造物301を平面視した場合の第1構造物301の投影形状311の投影面積と等しくなるように、複数種類の単純な立体形状の内の1種類以上の立体形状を組み合わせることで、複数の第2構造物を生成する。複数の第2構造物は、例えば、1個の直方体形状、5個の円柱を組み合わせた形状、20個の球を組み合わせた形状、10個の円錐を組み合わせた形状などであってもよい。
 [3.効果]
 本実施の形態に係る情報処理装置100は、下記の情報処理方法を行う。情報処理装置100は、仮想的な空間を再現するための空間情報を取得する。仮想的な空間は、仮想的な空間内に配置される第1構造物と、音源とを含む。情報処理装置100は、それぞれが、第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成する。複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有する。情報処理装置100は、複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出することで、複数の第2構造物にそれぞれ対応する複数の反射指標値を算出する。情報処理装置100は、複数の反射指標値に基づいて、複数の第2構造物のうちの1つの第2構造物を選択する。情報処理装置100は、第1構造物を、選択した1つの第2構造物に置き換えることで、第1構造物の立体形状が単純化された単純化空間を生成する。
 これによれば、仮想的な空間に配置される第1構造物の形状を単純化して生成した複数の第2構造物のうち反射指標値に基づいて選択した1つの第2構造物に置き換える。このため、音響に影響する特性が類似し、かつ、単純化した形状の第2構造物に第1構造物を置き換えることができ、音響に影響する特性を変化させないように、演算量を低減することができる単純化空間を得ることができる。よって、立体音響の再生に要する処理負荷を低減することができる。
 また、情報処理装置100は、さらに、仮想的な空間内の受聴者の受聴位置を特定する。情報処理装置100は、複数の第2構造物の生成において、受聴位置から第1構造物を平面視した場合の第1構造物の投影面積と等しくなるように、複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせることで、複数の第2構造物を生成する。
 このため、第1構造物と音響に影響する特性が類似する複数の第2構造物を生成することができる。
 また、複数の第2構造物のそれぞれは、音源から受聴位置までの間に音の伝搬経路において、受聴位置から複数の第2構造物をそれぞれ平面視した場合の当該第2構造物の投影形状の重心位置と重心位置を挟む2点の位置との3つの位置のそれぞれの位置における音の反射角と、受聴位置から第1構造物を平面視した場合の第1構造物の投影形状の重心位置と重心位置を挟む2点の位置との3つの位置のそれぞれの位置における音の反射角とが互いに等しくなるように生成される。
 このため、第1構造物と音響に影響する特性が類似する複数の第2構造物を生成することができる。
 また、情報処理装置100は、1つの第2構造物の選択において、複数の第2構造物のうち対応する反射指標値が最小となる第2構造物を1つの第2構造物として選択する。
 このため、複数の第2構造物のうちで演算量が最小となる構造物を1つの第2構造物として選択することができる。
 また、情報処理装置100は、さらに、下記の処理を行う。情報処理装置100は、仮想的な空間内の受聴者の頭部の位置及び姿勢を特定する。情報処理装置100は、単純化空間と、頭部の位置及び姿勢と、音源の位置とに基づいて、音源から頭部へ到来する音、及び、単純化空間の1つの第2構造物に反射して頭部へ到来する音の少なくとも一方の音の、到来方向と、到来するまでに伝搬する伝搬距離とを算出する。情報処理装置100は、少なくとも一方の音の、到来方向及び伝搬距離を所定の頭部伝達関数に畳み込むことで、音声信号を生成する。情報処理装置100は、生成した音声信号を出力する。
 これによれば、音響に影響する特性を変化させないように、演算量を低減することができる単純化空間を用いて立体音響処理を行うため、立体音響の再生に要する処理負荷を低減することができる。
 また、頭部の位置及び姿勢と、音源の位置とは、互いに異なる複数のタイミングで特定される。複数のタイミングのそれぞれ毎に、伝搬距離の算出、音声信号の生成、及び、音声信号の出力が行われる。
 これによれば、立体音響の再生に要する処理負荷を低減することができるため、リアルタイムに実行する処理の処理負荷を効果的に低減することができる。
 例えば、情報処理装置100は、プロセッサと、メモリとを備え、プロセッサは、メモリを用いて、上記の処理を行う。
 [その他の実施の形態等]
 以上のように、本開示について上記の実施の形態に基づいて説明してきたが、本開示は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本開示に含まれる。
 (1)上記の実施の形態における各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記録されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
 (2)上記の実施の形態における各装置は、構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記録されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
 また、上記の各装置を構成する構成要素の各部は、個別に1チップ化されていても良いし、一部またはすべてを含むように1チップ化されてもよい。
 また、ここでは、システムLSIとしたが、集積度の違いにより、IC、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法はLSIに限るものではなく、専用回路または汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。
 さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてありえる。
 (3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
 (4)本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
 また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
 また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
 また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記録しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
 また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
 (5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
 本開示は、立体音響の再生に要する処理負荷を低減することができる情報処理方法、情報処理装置、及び、プログラムなどに利用可能である。
  1  音響再生システム
100  情報処理装置
101  取得部
102  候補生成部
103  算出部
104  選択部
105  デコード部
106  空間生成部
107  レンダリング部
108  通信部
200  端末
201  通信部
202  制御部
203  検出部
204  入力受付部
205  表示部
206  音声出力部
300  コントローラ
301  第1構造物
302  音源
310  受聴者
311  投影形状

Claims (9)

  1.  仮想的な空間を再現するための空間情報を取得し、前記仮想的な空間は、前記仮想的な空間内に配置される第1構造物と、音源とを含み、
     それぞれが、前記第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成し、前記複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有し、
     前記複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出することで、前記複数の第2構造物にそれぞれ対応する複数の反射指標値を算出し、
     前記複数の反射指標値に基づいて、前記複数の第2構造物のうちの1つの第2構造物を選択し、
     前記第1構造物を、選択した前記1つの第2構造物に置き換えることで、前記第1構造物の立体形状が単純化された単純化空間を生成する
     情報処理方法。
  2.  さらに、
     前記仮想的な空間内の受聴者の受聴位置を特定し、
     前記複数の第2構造物の生成では、前記受聴位置から前記第1構造物を平面視した場合の前記第1構造物の投影面積と等しくなるように、前記複数種類の単純な立体形状のうちの前記1種類以上の立体形状を組み合わせることで、前記複数の第2構造物を生成する
     請求項1に記載の情報処理方法。
  3.  前記複数の第2構造物のそれぞれは、前記音源から前記受聴位置までの間に音の伝搬経路において、前記受聴位置から前記複数の第2構造物をそれぞれ平面視した場合の当該第2構造物の投影形状の重心位置と重心位置を挟む2点の位置との3つの位置のそれぞれの位置における音の反射角と、前記受聴位置から前記第1構造物を平面視した場合の前記第1構造物の投影形状の重心位置と重心位置を挟む2点の位置との3つの位置のそれぞれの位置における音の反射角とが互いに等しくなるように生成される
     請求項2に記載の情報処理方法。
  4.  前記複数の第2構造物は、互いに異なる形状を有する
     請求項1から3のいずれか1項に記載の情報処理方法。
  5.  前記1つの第2構造物の選択では、前記複数の第2構造物のうち対応する反射指標値が最小となる第2構造物を前記1つの第2構造物として選択する
     請求項1から4のいずれか1項に記載の情報処理方法。
  6.  さらに、
     前記仮想的な空間内の受聴者の頭部の位置及び姿勢を特定し、
     前記単純化空間と、前記頭部の位置及び姿勢と、前記音源の位置とに基づいて、前記音源から前記頭部へ到来する音、及び、前記単純化空間の前記1つの第2構造物に反射して前記頭部へ到来する音の少なくとも一方の音の、到来方向と、到来するまでに伝搬する伝搬距離とを算出し、
     前記少なくとも一方の音の、前記到来方向及び前記伝搬距離を所定の頭部伝達関数に畳み込むことで、音声信号を生成し、
     生成した音声信号を出力する
     請求項1から5のいずれか1項に記載の情報処理方法。
  7.  前記頭部の位置及び姿勢と、前記音源の位置とは、互いに異なる複数のタイミングで特定され、
     前記複数のタイミングのそれぞれ毎に、前記伝搬距離の算出、前記音声信号の生成、及び、前記音声信号の出力が行われる
     請求項6に記載の情報処理方法。
  8.  請求項1から7のいずれか1項に記載の情報処理方法をコンピュータに実行させるためのプログラム。
  9.  プロセッサと、
     メモリと、を備え、
     前記プロセッサは、前記メモリを用いて、
     仮想的な空間を再現するための空間情報を取得し、前記仮想的な空間は、前記仮想的な空間内に配置される第1構造物と、音源とを含み、
     それぞれが、前記第1構造物の形状を単純化するための単純化形状を有する複数の第2構造物を生成し、前記複数の第2構造物のそれぞれの単純化形状は、予め定められた複数種類の単純な立体形状のうちの1種類以上の立体形状を組み合わせた形状を有し、
     前記複数の第2構造物のそれぞれについて、当該第2構造物の音の反射効率に関連する反射指標値を算出することで、前記複数の第2構造物にそれぞれ対応する複数の反射指標値を算出し、
     前記複数の反射指標値に基づいて、前記複数の第2構造物のうちの1つの第2構造物を選択し、
     前記第1構造物を、選択した前記1つの第2構造物に置き換えることで、前記第1構造物の立体形状が単純化された単純化空間を生成する
     情報処理装置。
PCT/JP2022/017167 2021-04-12 2022-04-06 情報処理方法、情報処理装置、及び、プログラム WO2022220181A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP22788106.7A EP4325898A1 (en) 2021-04-12 2022-04-06 Information processing method, information processing device, and program
CN202280027328.5A CN117178570A (zh) 2021-04-12 2022-04-06 信息处理方法、信息处理装置和程序
JP2023514620A JPWO2022220181A1 (ja) 2021-04-12 2022-04-06
US18/372,793 US20240015461A1 (en) 2021-04-12 2023-09-26 Information processing method, information processing device, and recording medium

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163173609P 2021-04-12 2021-04-12
US63/173,609 2021-04-12
JP2022054455 2022-03-29
JP2022-054455 2022-03-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/372,793 Continuation US20240015461A1 (en) 2021-04-12 2023-09-26 Information processing method, information processing device, and recording medium

Publications (1)

Publication Number Publication Date
WO2022220181A1 true WO2022220181A1 (ja) 2022-10-20

Family

ID=83639670

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/017167 WO2022220181A1 (ja) 2021-04-12 2022-04-06 情報処理方法、情報処理装置、及び、プログラム

Country Status (4)

Country Link
US (1) US20240015461A1 (ja)
EP (1) EP4325898A1 (ja)
JP (1) JPWO2022220181A1 (ja)
WO (1) WO2022220181A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267675A (ja) * 1999-03-16 2000-09-29 Sega Enterp Ltd 音響信号処理装置
JP2006128818A (ja) 2004-10-26 2006-05-18 Victor Co Of Japan Ltd 立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び記録メディア

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267675A (ja) * 1999-03-16 2000-09-29 Sega Enterp Ltd 音響信号処理装置
JP2006128818A (ja) 2004-10-26 2006-05-18 Victor Co Of Japan Ltd 立体映像・立体音響対応記録プログラム、再生プログラム、記録装置、再生装置及び記録メディア

Also Published As

Publication number Publication date
EP4325898A1 (en) 2024-02-21
JPWO2022220181A1 (ja) 2022-10-20
US20240015461A1 (en) 2024-01-11

Similar Documents

Publication Publication Date Title
US10397728B2 (en) Differential headtracking apparatus
KR100606734B1 (ko) 삼차원 입체음향 구현 방법 및 그 장치
KR102506593B1 (ko) 바이노럴 오디오를 생성하는 헤드-웨어러블 장치
WO2020148120A2 (en) Processing audio signals
Schröder et al. Virtual reality system at RWTH Aachen University
US11429340B2 (en) Audio capture and rendering for extended reality experiences
US10757528B1 (en) Methods and systems for simulating spatially-varying acoustics of an extended reality world
CN112470102A (zh) 高效渲染虚拟声场
US9838790B2 (en) Acquisition of spatialized sound data
TW202117500A (zh) 用於音訊呈現之隱私分區及授權
EP3994864A1 (en) Password-based authorization for audio rendering
US11937065B2 (en) Adjustment of parameter settings for extended reality experiences
KR102656969B1 (ko) 불일치 오디오 비주얼 캡쳐 시스템
WO2022220181A1 (ja) 情報処理方法、情報処理装置、及び、プログラム
US11696085B2 (en) Apparatus, method and computer program for providing notifications
CN117178570A (zh) 信息处理方法、信息处理装置和程序
WO2022220182A1 (ja) 情報処理方法、プログラム、及び情報処理システム
US20230345193A1 (en) Signal processing apparatus for generating virtual viewpoint video image, signal processing method, and storage medium
WO2023199815A1 (ja) 音響処理方法、プログラム、及び音響処理システム
CN110428802B (zh) 声音混响方法、装置、计算机设备及计算机存储介质
US20240022854A1 (en) Sound reproduction method, sound reproduction device, and recording medium
CN117063489A (zh) 信息处理方法、程序和信息处理***

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22788106

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023514620

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2022788106

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022788106

Country of ref document: EP

Effective date: 20231113