JP6888810B2 - Spherical camera and voice processing method - Google Patents

Spherical camera and voice processing method Download PDF

Info

Publication number
JP6888810B2
JP6888810B2 JP2017079461A JP2017079461A JP6888810B2 JP 6888810 B2 JP6888810 B2 JP 6888810B2 JP 2017079461 A JP2017079461 A JP 2017079461A JP 2017079461 A JP2017079461 A JP 2017079461A JP 6888810 B2 JP6888810 B2 JP 6888810B2
Authority
JP
Japan
Prior art keywords
camera
image
angular velocity
gravity
acceleration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017079461A
Other languages
Japanese (ja)
Other versions
JP2018182528A (en
Inventor
智岐 奥
智岐 奥
秀史 岡田
秀史 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xacti Corp
Original Assignee
Xacti Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xacti Corp filed Critical Xacti Corp
Priority to JP2017079461A priority Critical patent/JP6888810B2/en
Publication of JP2018182528A publication Critical patent/JP2018182528A/en
Application granted granted Critical
Publication of JP6888810B2 publication Critical patent/JP6888810B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Studio Devices (AREA)
  • Stereophonic Arrangements (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Description

本開示は、全天球カメラ及び音声処理方法に関し、特に、デジタルカメラの音場補正に関する。 The present disclosure relates to spherical cameras and audio processing methods, and more particularly to sound field correction of digital cameras.

特許文献1のように、デジタルカメラにおいて、デジタルカメラの傾きに応じて全天球画像を補正する技術が知られている。 As in Patent Document 1, in a digital camera, a technique for correcting a spherical image according to the tilt of the digital camera is known.

特許文献2のように、デジタルカメラにおいて、デジタルカメラの傾きに応じて音の指向性を補正する技術が知られている。 As in Patent Document 2, in a digital camera, a technique for correcting the directivity of sound according to the inclination of the digital camera is known.

特開2016−149733号公報Japanese Unexamined Patent Publication No. 2016-149733 特開2016−163181号公報Japanese Unexamined Patent Publication No. 2016-163181

全天球画像を取得する全天球カメラにおいては、基準となる鉛直方向を検出して、その鉛直方向からのカメラの傾きに応じて、取得した画像を補正して、違和感なく全天球画像を視認できるようにした技術が特許文献1などで知られている。全天球画像の臨場感を高めるために、カメラにマイクを設けて、三次元音場を収音することが考えられる。しかし単に収音した場合には、カメラの傾きが考慮されていないため、全天球画像と三次元音場とがずれる。そのため視聴者は、そのずれに違和感を覚える可能性がある。 In the omnidirectional camera that acquires the omnidirectional image, the reference vertical direction is detected, and the acquired image is corrected according to the tilt of the camera from the vertical direction, so that the omnidirectional image does not feel strange. Is known in Patent Document 1 and the like. In order to enhance the realistic sensation of the spherical image, it is conceivable to provide a microphone in the camera to collect the three-dimensional sound field. However, when the sound is simply picked up, the spherical image and the three-dimensional sound field deviate from each other because the tilt of the camera is not taken into consideration. Therefore, the viewer may feel uncomfortable with the deviation.

例えば、撮影者が全天球カメラを頭部に装着し移動しながら撮影する場合を考える。撮影者が頭の傾きや向きを変えるのに従い、画像を補正することによって、正面を向いているのと同様の画像を得ることができる。この場合に音場を補正しないままだと、音場は、頭の傾きや向きに応じて変化するので、画像と音場とが一致せず、視聴者は違和感を覚える。 For example, consider a case where a photographer wears a spherical camera on his head and shoots while moving. By correcting the image as the photographer changes the tilt and orientation of his head, it is possible to obtain an image similar to that of facing the front. In this case, if the sound field is not corrected, the sound field changes according to the inclination and orientation of the head, so that the image and the sound field do not match, and the viewer feels uncomfortable.

光学系と、光学系を通して入射する画像を画像データとして出力する素子と、記画像データを処理する画像処理回路と、音場を構成する音声を受け取り、受け取られた音声を表す音声データを出力する複数のマイクと、前記音声データを処理する音声処理回路と、3軸方向の加速度を表す信号を検出する加速度センサと、3軸方向の角速度を表す信号を検出する角速度センサと、を備える全天球カメラであって、前回のカメラの姿勢状態から重力方向を算出し、該重力方向と前記加速度センサからの加速度信号から重力方向の誤差を算出し、該重力方向の誤差に基づいて、前記角速度センサからの角速度信号を補正し、現在のカメラの姿勢状態を算出するカメラ姿勢算出部と、前記画像処理回路は、前記カメラ姿勢算出部で得た現在のカメラの姿勢状態に基づいて、前記画像の傾きを補正し、前記音声処理回路は、前記カメラ姿勢算出部で得た現在のカメラの姿勢状態に基づいて、前記音場の傾きを補正する。 An optical system, an element for outputting an image incident thereon through the optical system as image data, an image processing circuit for processing the pre-Symbol image data, receives the audio constituting a sound field, outputting audio data representing speech received A total of a plurality of microphones, an audio processing circuit for processing the audio data, an acceleration sensor for detecting a signal representing acceleration in the three-axis direction, and an angular velocity sensor for detecting a signal representing an angular velocity in the three-axis direction. In a celestial sphere camera, the gravity direction is calculated from the posture state of the previous camera, the error in the gravity direction is calculated from the gravity direction and the acceleration signal from the acceleration sensor, and the error in the gravity direction is calculated based on the error in the gravity direction. The camera posture calculation unit that corrects the angular speed signal from the angular speed sensor and calculates the current camera posture state, and the image processing circuit are said to be based on the current camera posture state obtained by the camera posture calculation unit. The tilt of the image is corrected, and the sound processing circuit corrects the tilt of the sound field based on the current posture state of the camera obtained by the camera posture calculation unit.

光学系と、光学系を通して入射する画像を画像データとして出力する素子と、3軸方向の加速度を表す信号を出力する加速度センサと、3軸方向の角速度を表す信号を検出する角速度センサと、音場を構成する音声を受け取り、受け取られた音声を表す音声データを出力する複数のマイクと、を備える全天球カメラにおいて、前記音声データに対する音声処理方法であって、前回のカメラの姿勢状態から重力方向を算出し、該重力方向と前記加速度センサからの加速度信号から重力方向の誤差を算出し、該重力方向の誤差に基づいて、前記角速度センサからの角速度信号を補正し、現在のカメラの姿勢状態を算出して、前記現在のカメラの姿勢状態に基づいて、前記音場の傾きを補正することを含む音声処理方法。An optical system, an element that outputs an image incident through the optical system as image data, an acceleration sensor that outputs a signal indicating acceleration in the three-axis direction, an angular velocity sensor that detects a signal indicating an angular velocity in the three-axis direction, and sound. This is a voice processing method for the voice data in an all-sky camera including a plurality of microphones that receive the voices constituting the field and output voice data representing the received voices, from the posture state of the previous camera. The direction of gravity is calculated, the error in the direction of gravity is calculated from the direction of gravity and the acceleration signal from the acceleration sensor, and the angular velocity signal from the angular velocity sensor is corrected based on the error in the direction of gravity to correct the angular velocity signal of the current camera. A sound processing method including calculating an attitude state and correcting the inclination of the sound field based on the current attitude state of the camera.

同一の加速度センサの情報に基づいて、全天球画像の補正と、三次元音場の補正とを行うことによって、全天球画像と三次元音場とのずれを防止又は低減することができる。 By correcting the spherical image and the three-dimensional sound field based on the information of the same acceleration sensor, it is possible to prevent or reduce the deviation between the spherical image and the three-dimensional sound field. ..

本開示の例示的実施形態による全天球カメラの概略図である。It is the schematic of the omnidirectional camera according to the exemplary embodiment of the present disclosure. 全天球カメラを上から見たときの断面図である。It is a cross-sectional view when the omnidirectional camera is seen from above. 全天球カメラのハードウェアの構造を示すブロック図である。It is a block diagram which shows the hardware structure of the spherical camera. 全天球カメラの機能ブロック図である。It is a functional block diagram of an omnidirectional camera. 姿勢算出部及び姿勢補正量算出部の機能ブロック図である。It is a functional block diagram of the posture calculation unit and the posture correction amount calculation unit. 姿勢算出部及び姿勢補正量算出部の処理を示すフロー図である。It is a flow chart which shows the process of the posture calculation part and the posture correction amount calculation part. 角速度センサが出力するx,y,z軸の周りの角速度と、加速度センサが出力するx,y,z軸方向の加速度と、重力加速度との関係を示す図である。It is a figure which shows the relationship between the angular velocity around the x, y, z axis output by an angular velocity sensor, the acceleration in the x, y, z axis direction output by an acceleration sensor, and the gravitational acceleration. 音声処理回路のアルゴリズムを示す図である。It is a figure which shows the algorithm of the voice processing circuit.

以下の説明において同じ参照番号は同一の構成要素を示す。 In the following description, the same reference numbers refer to the same components.

システムの全体構成
図1は、本開示の例示的実施形態による全天球カメラ100の概略図である。全天球カメラ100は、例えば、実質的に全天球の撮像を行う。全天球カメラ100は、典型的には撮影者が手で持って撮影できる形状及び大きさを有する筐体110を備える。筐体110の平行な2つの主平面のそれぞれの上には、光学系120が設けられる。図1では光学系120は、1つしか見えないが、筐体110の反対側に光学系120に対応するもう一つの光学系122(図1では図示されないが、図2を参照して後述する)が存在する。筐体110には、典型的には銘板130が設けられる。本明細書では銘板130が設けられる面を表(おもて)面という。
Overall Configuration of the System FIG. 1 is a schematic view of the spherical camera 100 according to the exemplary embodiment of the present disclosure. The omnidirectional camera 100, for example, substantially captures omnidirectional images. The spherical camera 100 typically includes a housing 110 having a shape and size that allows the photographer to hold and shoot. An optical system 120 is provided on each of the two parallel main planes of the housing 110. In FIG. 1, only one optical system 120 can be seen, but on the opposite side of the housing 110, another optical system 122 corresponding to the optical system 120 (not shown in FIG. 1, but will be described later with reference to FIG. 2). ) Exists. The housing 110 is typically provided with a name plate 130. In this specification, the surface on which the name plate 130 is provided is referred to as a front surface.

筐体110上には、4個のマイク151〜154が設けられる。マイクの個数は複数であれば任意の個数であるが、好ましくは4個である。マイクは、5個以上であってもよい。マイク151〜154は、後面開放型の指向性マイクである。マイク151,153,154の感度の最も高い向き(指向性の向き)は、矢印で図示される。マイク152の指向性の向きは、紙面奥から手前に向かう向きである。マイク151及び152は、指向性の向きが光学系120の光軸に交差する、XY方式で配置される。マイク153及び154も、指向性の向きが光学系120の裏側に設けられた光学系122の光軸に交差する、XY方式で配置される。マイク151〜154の指向性の向きと、位置とは、図1に示されるものには限定されない。例えば、マイク151〜154は、XY方式とは反対のAB
方式であってもよい。
Four microphones 151 to 154 are provided on the housing 110. The number of microphones is arbitrary as long as it is plural, but is preferably four. The number of microphones may be five or more. The microphones 151 to 154 are directional microphones with an open rear surface. The most sensitive orientations (directivity orientations) of the microphones 151, 153, and 154 are indicated by arrows. The directionality of the microphone 152 is from the back of the page to the front. The microphones 151 and 152 are arranged in an XY manner in which the direction of directivity intersects the optical axis of the optical system 120. The microphones 153 and 154 are also arranged in an XY manner in which the direction of directivity intersects the optical axis of the optical system 122 provided on the back side of the optical system 120. The directivity orientation and position of the microphones 151 to 154 are not limited to those shown in FIG. For example, microphones 151 to 154 are AB, which is the opposite of the XY method.
It may be a method.

図2は、全天球カメラ100を上から見たときの断面図である。光学系120及び122は、典型的には全天球の実質的に半分であり、互いに実質的に重複しない領域の画像を、それぞれ撮像素子220及び222上で結像させる。すなわち、光学系120及び撮像素子220の組合せ、及び光学系122及び撮像素子222の組合せによって得られる画像の画角は、それぞれ実質的に180°である。例えば、撮像素子220は、筐体110の上から見た角度θが0°〜180°の半球を撮像し、撮像素子222は、筐体110の上から見た角度θが180°〜360°の半球を撮像する。撮像素子220及び222によって撮像された画像を合成すれば全天球の画像が得られる。光学系120及び撮像素子220の組合せ、及び光学系122及び撮像素子222の組合せによって得られる画像の領域は、全天球の半分より、微小量、大きくても小さくてもよい。光学系120及び撮像素子220の組合せ、及び光学系122及び撮像素子222の組合せによって得られる画像の領域を全天球の半分より、微小量、大きくすれば、得られた2つの領域の画像を合成する(つなぎ合わせる、スティッチするともいう)ときに有利であり得る。撮像素子220及び222は、例えばCMOS(相補型金属酸化膜半導体)センサ又はCCD(電荷結合素子)のようなエリア型の蓄積型光電変換素子である。 FIG. 2 is a cross-sectional view of the spherical camera 100 as viewed from above. The optical systems 120 and 122 typically form images of regions substantially half of the whole celestial sphere and substantially non-overlapping with each other on the image sensors 220 and 222, respectively. That is, the angle of view of the image obtained by the combination of the optical system 120 and the image sensor 220 and the combination of the optical system 122 and the image sensor 222 is substantially 180 °, respectively. For example, the image sensor 220 images a hemisphere having an angle θ of 0 ° to 180 ° as seen from above the housing 110, and the image sensor 222 has an angle θ of 180 ° to 360 ° as seen from above the housing 110. Imagine the hemisphere of. An image of the whole celestial sphere can be obtained by synthesizing the images captured by the image sensors 220 and 222. The area of the image obtained by the combination of the optical system 120 and the image sensor 220 and the combination of the optical system 122 and the image sensor 222 may be smaller than half of the whole celestial sphere, and may be larger or smaller. If the image region obtained by the combination of the optical system 120 and the image sensor 220 and the combination of the optical system 122 and the image sensor 222 is made smaller or larger than half of the entire celestial sphere, the images of the two obtained regions can be obtained. It can be advantageous when synthesizing (also called stitching or stitching). The image pickup devices 220 and 222 are area-type storage-type photoelectric conversion elements such as a CMOS (complementary metal oxide semiconductor) sensor or a CCD (charge-coupled device).

ハードウェア
図3は、全天球カメラ100のハードウェアの構造を示すブロック図である。全天球カメラ100は、CPU(central processing unit)310、ROM(read-only memory
)312、RAM(random access memory)314、外部メモリ316、図4を参照して後述する加速度センサ430、角速度センサ440を備え、これらの要素は、バス318を介して動作可能に接続される。
Hardware FIG. 3 is a block diagram showing the hardware structure of the spherical camera 100. The spherical camera 100 has a CPU (central processing unit) 310 and a ROM (read-only memory).
) 312, a RAM (random access memory) 314, an external memory 316, an acceleration sensor 430, which will be described later with reference to FIG. 4, and an angular velocity sensor 440, and these elements are operably connected via a bus 318.

信号処理回路320は、撮像素子220によって出力された画像信号Aを受け取る。信号処理回路320は、受け取られた画像信号Aに必要な画像補正を行い、評価回路330に転送する。評価回路330は、自動露出及び自動ホワイトバランスのうちの少なくとも1つを行うための、画像信号Aについての評価Aを生成し、CPU310に転送する。 The signal processing circuit 320 receives the image signal A output by the image sensor 220. The signal processing circuit 320 performs image correction necessary for the received image signal A and transfers it to the evaluation circuit 330. The evaluation circuit 330 generates an evaluation A for the image signal A for performing at least one of automatic exposure and automatic white balance, and transfers the evaluation A to the CPU 310.

信号処理回路322は、撮像素子222によって出力された画像信号Bを受け取る。信号処理回路322は、受け取られた画像信号Bに必要な画像補正を行い、評価回路332に転送する。評価回路332は、自動露出及び自動ホワイトバランスのうちの少なくとも1つを行うための、画像信号Bについての評価Bを生成し、CPU310に転送する。 The signal processing circuit 322 receives the image signal B output by the image sensor 222. The signal processing circuit 322 performs necessary image correction on the received image signal B and transfers it to the evaluation circuit 332. The evaluation circuit 332 generates an evaluation B for the image signal B for performing at least one of automatic exposure and automatic white balance, and transfers the evaluation B to the CPU 310.

CPU310は、評価Aに基づいて画像信号Aの画像補正のためのパラメータAを生成し、評価Bに基づいて画像信号Bの画像補正のためのパラメータBを生成する。 The CPU 310 generates a parameter A for image correction of the image signal A based on the evaluation A, and generates a parameter B for image correction of the image signal B based on the evaluation B.

信号処理回路320は、パラメータAを受け取り、パラメータAに基づいてレベルを補正する。信号処理回路322は、パラメータBを受け取り、パラメータBに基づいてレベルを補正する。 The signal processing circuit 320 receives the parameter A and corrects the level based on the parameter A. The signal processing circuit 322 receives the parameter B and corrects the level based on the parameter B.

合成処理回路350は、補正された画像信号A及びBを受け取り、一つの画像に合成し、合成された画像を例えば外部メモリ316に出力する。すなわち画像信号A及びBのレベルは、必要に応じて調整されてから合成処理がなされる。 The synthesis processing circuit 350 receives the corrected image signals A and B, combines them into one image, and outputs the combined image to, for example, an external memory 316. That is, the levels of the image signals A and B are adjusted as necessary, and then the synthesis process is performed.

評価回路330は、画像を評価領域に分割し、その明るさ(自動露出の場合)又は色調(自動ホワイトバランスの場合)を評価する。評価回路は、画像を評価領域に分割し、その明るさ(自動露出の場合)又は色調(自動ホワイトバランスの場合)を評価する。 The evaluation circuit 330 divides the image into evaluation regions and evaluates the brightness (in the case of automatic exposure) or the color tone (in the case of automatic white balance). The evaluation circuit divides the image into evaluation areas and evaluates the brightness (in the case of automatic exposure) or the color tone (in the case of automatic white balance).

明るさの評価としては、順光及び逆光がある。例えば領域のうち、画像中央領域の明るさと、画像上部領域の明るさとがほぼ等しいときには、順光であると判断できる。逆に、例えば領域のうち、画像中央領域の明るさに対して、画像上部領域の明るさが大幅に大きいときには、例えば空に対応する領域に太陽があるとみなして、逆光であると判断できる。色調の評価としては、太陽光、白熱電球光、蛍光灯光等のうちどの種類の光であるかに基づいて、撮影モードを変更できる。これらの明るさ又は色調についての評価は、評価回路330及び332が同様に行うことができる。 The evaluation of brightness includes forward light and backlight. For example, when the brightness of the central region of the image and the brightness of the upper region of the image are substantially equal to each other, it can be determined that the light is normal. On the contrary, for example, when the brightness of the upper part of the image is significantly larger than the brightness of the central part of the image in the area, it can be determined that the sun is in the area corresponding to the sky, for example, and it is backlit. .. As for the evaluation of the color tone, the shooting mode can be changed based on which type of light is sunlight, incandescent light bulb light, fluorescent light, or the like. The evaluation circuits 330 and 332 can similarly evaluate these brightness or color tones.

評価A、B及びパラメータA、Bは、上述の例に限定されず、任意の適切な評価及びパラメータであり得る。 Evaluations A and B and parameters A and B are not limited to the above examples and can be any suitable evaluation and parameters.

マイク151〜154は、それぞれアナログ−デジタル変換器(A/D)351〜354を介してバス318に結合される。マイク151〜154は、それぞれが受け取った音声を表すアナログ信号を出力する。A/D351〜354は、マイク151〜154が出力したアナログ信号をデジタル信号に変換し、バス318に出力する。CPU310は、マイク151〜154が受け取った音声によって構成される音場を、全天球カメラ100の傾きに応じて補正する。具体的には図8を用いて後述する音声処理によって、カメラの傾きに起因する音場の傾きを補正する。 The microphones 151 to 154 are coupled to the bus 318 via analog-to-digital converters (A / D) 351 to 354, respectively. The microphones 151 to 154 output an analog signal representing the voice received by each. The A / D 351 to 354 convert the analog signal output by the microphones 151 to 154 into a digital signal and output the analog signal to the bus 318. The CPU 310 corrects the sound field composed of the sounds received by the microphones 151 to 154 according to the inclination of the spherical camera 100. Specifically, the inclination of the sound field caused by the inclination of the camera is corrected by the voice processing described later with reference to FIG.

図4は、全天球カメラ100の機能ブロック図である。図4のイメージセンサ420及びイメージセンサ422は、図2の撮像素子220及び222にそれぞれ対応する。以下の記載で「カメラ」とは、より具体的には全天球カメラを指し、全天球カメラ100の一例である。画像合成部426は、イメージセンサ420及びイメージセンサ422からの出力を合成することによって、全天球の画像を出力する。画像合成部426は、合成処理回路350によって実現され得る。 FIG. 4 is a functional block diagram of the spherical camera 100. The image sensor 420 and the image sensor 422 of FIG. 4 correspond to the image pickup devices 220 and 222 of FIG. 2, respectively. In the following description, the "camera" more specifically refers to a spherical camera, which is an example of the spherical camera 100. The image synthesizing unit 426 outputs an image of the whole celestial sphere by synthesizing the outputs from the image sensor 420 and the image sensor 422. The image compositing unit 426 can be realized by the compositing processing circuit 350.

音声処理回路480は、マイク151〜154から出力された音声信号によって構成される音場を補正する。より具体的には、音声処理回路480は、カメラ姿勢算出部450の出力(全天球カメラ100の傾きを表す)に応じて音声信号を補正することによって、全天球カメラ100の傾きによって生じる音場の傾きが低減するようにし、ステレオ信号482として出力する。これにより全天球カメラ100の傾きに応じて、全天球画像が補正されると共に、マイク151〜154で収音された音場も補正される。 The voice processing circuit 480 corrects the sound field composed of the voice signals output from the microphones 151 to 154. More specifically, the sound processing circuit 480 is generated by the tilt of the spherical camera 100 by correcting the audio signal according to the output of the camera posture calculation unit 450 (representing the tilt of the spherical camera 100). The inclination of the sound field is reduced, and the signal is output as a stereo signal 482. As a result, the spherical image is corrected according to the inclination of the spherical camera 100, and the sound field picked up by the microphones 151 to 154 is also corrected.

全天球カメラ100は、姿勢算出部450、姿勢補正量算出部460、及び姿勢補正量記録部470を有する。姿勢算出部450、姿勢補正量算出部460、姿勢補正量記録部470、及び音声処理回路480は、典型的にはCPU310と、ソフトウェアとの組み合わせによって実現され得るが、これには限定されずハードウェアだけで実現してもよい。 The spherical camera 100 has a posture calculation unit 450, a posture correction amount calculation unit 460, and a posture correction amount recording unit 470. The posture calculation unit 450, the posture correction amount calculation unit 460, the posture correction amount recording unit 470, and the voice processing circuit 480 can be typically realized by a combination of the CPU 310 and software, but the hardware is not limited thereto. It may be realized only by wear.

角速度センサ430は、x,y,z軸の周りの角速度gx, gy, gz [rad/sec]を出力する。加速度センサ440は、x,y,z軸方向の加速度ax, ay, az [G](1[G]≒9.8[m/s2]
)を出力する。角速度センサ430及び加速度センサ440は、筐体110内に設けられる。
The angular velocity sensor 430 outputs the angular velocities gx, gy, gz [rad / sec] around the x, y, and z axes. The acceleration sensor 440 has accelerations in the x, y, z-axis directions ax, ay, az [G] (1 [G] ≈ 9.8 [m / s2]].
) Is output. The angular velocity sensor 430 and the acceleration sensor 440 are provided in the housing 110.

全天球カメラ100が静止している状態では、加速度センサ440は、重力加速度を各軸方向に分解した成分を出力する。これによって全天球カメラ100の姿勢を正確に推定することができる。 When the spherical camera 100 is stationary, the acceleration sensor 440 outputs a component obtained by decomposing the gravitational acceleration in each axial direction. As a result, the posture of the spherical camera 100 can be accurately estimated.

これに対して全天球カメラ100が、カメラが重力方向を中心に回転した場合、加速度センサの出力は変化しない。その結果、加速度センサ440の出力だけを用いても、正確
に全天球カメラ100の姿勢を推定することができない。これを補うために重力方向を中心に回転したときの姿勢検出を角速度センサ430の出力に基づいて行う。
On the other hand, when the spherical camera 100 rotates around the direction of gravity, the output of the acceleration sensor does not change. As a result, the attitude of the spherical camera 100 cannot be accurately estimated by using only the output of the acceleration sensor 440. To compensate for this, attitude detection when rotating around the direction of gravity is performed based on the output of the angular velocity sensor 430.

図5は、姿勢算出部450の機能ブロック図である。姿勢算出部450は、重力方向誤差算出部550、加算要素560、姿勢クオータニオン算出部570を有する。姿勢算出部450は、上述の場合においても、角速度センサ430の出力と、加速度センサ440の出力とを併用することによって全天球カメラ100の姿勢を推定する。 FIG. 5 is a functional block diagram of the posture calculation unit 450. The attitude calculation unit 450 includes a gravity direction error calculation unit 550, an addition element 560, and a posture quota calculation unit 570. Even in the above case, the attitude calculation unit 450 estimates the attitude of the spherical camera 100 by using the output of the angular velocity sensor 430 and the output of the acceleration sensor 440 together.

具体的には、加速度センサ440の出力に基づいて大局的な姿勢推定を行う。重力方向を中心とする回転による全天球カメラ100姿勢変化は、角速度センサ430の出力を積算することで推定する。各センサ出力を併用するために、角速度センサ430による姿勢推定の積算誤差を、加速度センサ440の出力とカメラ姿勢算出結果を重力方向誤差算出部550で比較することによって補正する。 Specifically, the overall attitude is estimated based on the output of the acceleration sensor 440. The change in attitude of the spherical camera 100 due to rotation about the direction of gravity is estimated by integrating the output of the angular velocity sensor 430. In order to use each sensor output together, the integration error of the attitude estimation by the angular velocity sensor 430 is corrected by comparing the output of the acceleration sensor 440 and the camera attitude calculation result by the gravity direction error calculation unit 550.

アルゴリズム
図6は、姿勢算出部450の処理600を示すフロー図である。
Algorithm FIG. 6 is a flow chart showing a process 600 of the posture calculation unit 450.

630において、前回のカメラ姿勢を表すクオータニオンから重力方向を算出する。クオータニオンをq=[q0,q1,q2,q3]Tで表すと、重力方向ベクトルv=[vx,vy,vz]Tは、次式で
算出できる。
At 630, the direction of gravity is calculated from the quaternion representing the previous camera posture. When the quotation is expressed by q = [q0, q1, q2, q3] T, the gravity direction vector v = [vx, vy, vz] T can be calculated by the following equation.

Figure 0006888810
Figure 0006888810

640において、クオータニオンから算出された重力方向ベクトルvと、加速度センサ
出力のベクトルa=[ax,ay,az]Tの誤差を算出する。誤差ベクトルe=[ex,ey,ez]Tは、ベクトルの外積を用いてe=a×vによって求められる。ここで、誤差ベクトルeの成分は、ベクト
ルa及びvがなす角度成分を表す。
At 640, the error between the gravity direction vector v calculated from the quarterion and the vector a = [ax, ay, az] T of the acceleration sensor output is calculated. The error vector e = [ex, ey, ez] T is obtained by e = a × v using the outer product of the vectors. Here, the component of the error vector e represents the angle component formed by the vectors a and v.

650において、数2によって、誤差成分に基づいて角速度センサ430の出力を補正する。 At 650, the output of the angular velocity sensor 430 is corrected based on the error component by Equation 2.

Figure 0006888810
Figure 0006888810

ここで、Δt [sec]は角速度センサ430のサンプリング周期であり、kは補正係数である。補正係数kは、誤差に対してどの程度補正を行うかを表す。例えば補正係数k=0.001等の値が用いられ得る。 Here, Δt [sec] is the sampling period of the angular velocity sensor 430, and k is the correction coefficient. The correction coefficient k indicates how much the error is corrected. For example, a value such as a correction coefficient k = 0.001 can be used.

660において、数3によって、時刻tにおけるクオータニオンをq(t)、角速度センサ
のサンプリング周期をΔt [sec]として、時刻(t+Δt)のカメラ姿勢クオータニオンを算出し、得られた姿勢量を姿勢補正量算出部460に出力する。
In 660, the camera posture quaternion at the time (t + Δt) is calculated by the equation 3 with the quaternion at the time t as q (t) and the sampling period of the angular velocity sensor as Δt [sec], and the obtained posture amount is used as the posture. It is output to the correction amount calculation unit 460.

Figure 0006888810
Figure 0006888810

姿勢補正量算出部460は、算出された姿勢量から、全天球カメラ100の傾きに基づく画像の傾きを実際に補正する量を算出する。 The posture correction amount calculation unit 460 calculates an amount for actually correcting the tilt of the image based on the tilt of the spherical camera 100 from the calculated posture amount.

姿勢補正量記録部470は、例えば全天球カメラ100に有線又は無線によって結合された外部デバイスに、全天球画像と併せて、姿勢補正量を記録する。これによりユーザは、姿勢補正量が適用された全天球画像をビューワーソフトウェア等で鑑賞することができる。 The attitude correction amount recording unit 470 records the attitude correction amount together with the spherical image on, for example, an external device connected to the spherical camera 100 by wire or wirelessly. As a result, the user can view the spherical image to which the posture correction amount is applied with viewer software or the like.

画像補正
図7は、角速度センサ430が出力するx,y,z軸の周りの角速度gx, gy, gz [rad/sec]と、加速度センサ440が出力するx,y,z軸方向の加速度ax, ay, az [G]と、重力加速度との関係を示す図である。
Image correction FIG. 7 shows the angular velocity gx, gy, gz [rad / sec] around the x, y, z axes output by the angular velocity sensor 430 and the acceleration ax in the x, y, z axis directions output by the acceleration sensor 440. It is a figure which shows the relationship between, ay, az [G] and the gravitational acceleration.

姿勢算出部450は、加速度に基づいて画像の傾きを補正し、x,y,z軸周りの角速度に基づいて重力方向周りの回転角を補正することができる。 The posture calculation unit 450 can correct the inclination of the image based on the acceleration and the rotation angle around the gravity direction based on the angular velocity around the x, y, and z axes.

上述のようにある実施形態によれば、手振れのような短い期間における画像補正は、角速度に基づき行い、手振れの補正誤差が蓄積されるような長い期間における画像補正は、加速度に基づき行う。 According to the above-described embodiment, the image correction in a short period such as camera shake is performed based on the angular velocity, and the image correction in a long period such that the correction error of camera shake is accumulated is performed based on acceleration.

具体的には、姿勢補正量算出部460は、加速度センサ440が出力する加速度に基づいてカメラの傾きに起因する画像の傾きを補正する。代替として、姿勢補正量算出部460は、角速度センサ430が出力する角速度に基づいてカメラの回転に起因する画像の傾き又は回転を補正する。好ましくは、姿勢補正量算出部460は、加速度センサ440が出力する加速度と、角速度センサ430が出力する角速度との両方に基づいてカメラの回転に起因する画像の傾き又は回転を補正する。 Specifically, the posture correction amount calculation unit 460 corrects the tilt of the image due to the tilt of the camera based on the acceleration output by the acceleration sensor 440. As an alternative, the posture correction amount calculation unit 460 corrects the tilt or rotation of the image due to the rotation of the camera based on the angular velocity output by the angular velocity sensor 430. Preferably, the posture correction amount calculation unit 460 corrects the tilt or rotation of the image due to the rotation of the camera based on both the acceleration output by the acceleration sensor 440 and the angular velocity output by the angular velocity sensor 430.

音場補正
全天球画像の撮影時にマイク151〜154によって収音される音場の補正を以下に説明する。
Sound field correction The correction of the sound field picked up by the microphones 151 to 154 when the spherical image is taken will be described below.

図8は、音声処理回路480のアルゴリズムを示す。810において、カメラ姿勢算出部450から数3によって示されるカメラ姿勢クオータニオンを得る。820において、マイク151〜154で規定される三次元空間の音場を、カメラ姿勢量によって補正する。具体的には、カメラの傾きがある場合には、それを打ち消すための、三次元空間での回転を4つの音声データに施す。 FIG. 8 shows the algorithm of the voice processing circuit 480. At 810, the camera attitude quotation indicated by Equation 3 is obtained from the camera attitude calculation unit 450. In 820, the sound field in the three-dimensional space defined by the microphones 151 to 154 is corrected by the amount of camera posture. Specifically, when the camera is tilted, the four audio data are rotated in a three-dimensional space to cancel the tilt.

820のカメラ姿勢クオータニオンに基づく補正においては、典型的には一次アンビソニック基本式が用いられる。830において、三次元空間の音場がステレオに変換され出力される。音声処理回路480は、例えば、CPU310によって実行されるソフトウェアや、DSP(デジタル信号処理装置)のような専用チップで実現され得る。 In the correction based on the camera attitude quaternion of 820, the first-order ambisonic basic equation is typically used. At 830, the sound field in the three-dimensional space is converted into stereo and output. The audio processing circuit 480 can be realized, for example, by software executed by the CPU 310 or a dedicated chip such as a DSP (digital signal processing device).

上述のように、カメラの傾きによって生じる全天球画像の傾きは、加速度センサ440からの加速度を示す信号に基づいて、補正され、カメラの傾き又は回転によって生じる全天球画像の傾きは、角速度センサ430からの角速度を示す信号に基づいて、補正される。この画像の傾き補正と同様に、音像の傾き補正も行われる。すなわち、音場の傾き補正によって、音場の傾き又は回転も、全天球画像の傾きと同様に低減される。その結果、カメラが傾いたために本来の音像からずれた位置に定位する音像が、実空間の位置を正しく反映するように定位する。 As described above, the tilt of the global image caused by the tilt of the camera is corrected based on the signal indicating the acceleration from the acceleration sensor 440, and the tilt of the global image caused by the tilt or rotation of the camera is the angular velocity. It is corrected based on the signal indicating the angular velocity from the sensor 430. Similar to the tilt correction of this image, the tilt correction of the sound image is also performed. That is, by correcting the inclination of the sound field, the inclination or rotation of the sound field is reduced in the same manner as the inclination of the spherical image. As a result, the sound image localized at a position deviated from the original sound image due to the tilt of the camera is localized so as to correctly reflect the position in the real space.

例えば頭上にカメラを固定してスポーツ観戦している状況で、撮影者が手元を見るために頭を下に向ける、又は選手を追いかけて頭を左右に振る、という状況を想定する。角速度センサ430から出力された角速度と、加速度センサ440から出力された加速度とによって、画像と音場との両方が補正される。その結果、視聴者は画像と音場との両方について、画像と音場とが一致した状態で、視聴できる。 For example, in a situation where the camera is fixed overhead and watching sports, the photographer turns his head down to see his hand, or chases the player and shakes his head from side to side. Both the image and the sound field are corrected by the angular velocity output from the angular velocity sensor 430 and the acceleration output from the acceleration sensor 440. As a result, the viewer can view both the image and the sound field in a state where the image and the sound field match.

具体的には、角速度センサ430によって得られる角速度によって音場の傾き又は回転を補正することができ、加速度センサ440によって得られる加速度によって音場の傾きを補正することができる。音場補正のためには、加速度及び角速度のうちのいずれか一つに基づいて、カメラの回転に起因する傾き又は回転を補正することで効果が得られる。好ましくは加速度及び角速度の両方に基づいてカメラの回転に起因する音場の傾き又は回転を補正することによって、さらなる効果を得られる。 Specifically, the inclination or rotation of the sound field can be corrected by the angular velocity obtained by the angular velocity sensor 430, and the inclination of the sound field can be corrected by the acceleration obtained by the acceleration sensor 440. For sound field correction, an effect can be obtained by correcting the inclination or rotation caused by the rotation of the camera based on any one of acceleration and angular velocity. Further effects can be obtained by correcting the tilt or rotation of the sound field due to the rotation of the camera, preferably based on both acceleration and angular velocity.

ある例示的実施形態によれば、画像補正と、音場補正とが、同じ加速度センサからの出力と、カメラ姿勢クオータニオンとに基づいて行われる。それにより全天球画像の傾き補正と一致する、音像の傾き補正が得られる。その結果、視聴者にとって、全天球画像と一貫性を有する、違和感のない音場の傾きの補正が提供できる。 According to one exemplary embodiment, image correction and sound field correction are performed based on the output from the same accelerometer and the camera attitude quaternion. As a result, the tilt correction of the sound image, which matches the tilt correction of the spherical image, can be obtained. As a result, it is possible to provide the viewer with a correction of the inclination of the sound field that is consistent with the spherical image and does not give a sense of discomfort.

他の例示的実施形態によれば、画像補正と、音場補正とが、同じ角速度センサからの出力と、カメラ姿勢クオータニオンとに基づいて行われる。それにより全天球画像の傾き又は回転の補正と一致する、音像の傾き又は回転の補正が得られる。その結果、視聴者にとって、全天球画像と一貫性を有する、違和感のない音場の傾き又は回転の補正が提供できる。 According to another exemplary embodiment, image correction and sound field correction are performed based on the output from the same angular velocity sensor and the camera attitude quaternion. As a result, the correction of the tilt or rotation of the sound image, which is consistent with the correction of the tilt or rotation of the spherical image, can be obtained. As a result, it is possible to provide the viewer with a sound field tilt or rotation correction that is consistent with the spherical image and does not give a sense of discomfort.

好ましくは、画像補正及び音場補正について、上記加速度による補正と、角速度による補正とが併用される。 Preferably, for the image correction and the sound field correction, the correction by the acceleration and the correction by the angular velocity are used together.

本発明(またはその任意の部分(群)または機能(群))は、ハードウェア、ソフトウェア、またはそれらの組み合わせを用いて実現され得て、1つ以上のコンピュータシステムまたは他の処理システムにおいて実現され得る。 The present invention (or any part (s) or function (s) thereof) may be realized using hardware, software, or a combination thereof, and may be realized in one or more computer systems or other processing systems. obtain.

上に説明されてきたものには、本発明のさまざまな例が含まれる。本発明を記載する目的では、要素や手順の考えられるあらゆる組み合わせを記載することは当然のことながら不可能であるが、当業者なら本発明の多くのさらなる組み合わせおよび順列が可能であることがわかるだろう。したがって本発明は、特許請求の範囲の精神および範囲に入るそのような改変、変更および変形例を全て含むよう意図される。 Those described above include various examples of the present invention. For the purposes of describing the invention, it is of course impossible to describe any possible combination of elements or procedures, but one of ordinary skill in the art will find that many additional combinations and permutations of the invention are possible. right. The invention is therefore intended to include all such modifications, modifications and variations that fall within the spirit and scope of the claims.

151〜154 マイク
420 イメージセンサ1
422 イメージセンサ2
430 角速度センサ
432 加速度センサ
450 姿勢算出部
460 姿勢補正量算出部
470 姿勢補正量記録部
480 音声処理回路
482 ステレオ出力
151-154 Microphone 420 Image Sensor 1
422 image sensor 2
430 Angular velocity sensor 432 Accelerometer 450 Posture calculation unit 460 Posture correction amount calculation unit 470 Posture correction amount recording unit 480 Audio processing circuit 482 Stereo output

Claims (2)

光学系と、
光学系を通して入射する画像を画像データとして出力する素子と、
記画像データを処理する画像処理回路と、
音場を構成する音声を受け取り、受け取られた音声を表す音声データを出力する複数のマイクと、
前記音声データを処理する音声処理回路と、
3軸方向の加速度を表す信号を検出する加速度センサと、
3軸方向の角速度を表す信号を検出する角速度センサと、
を備える全天球カメラであって、
前回のカメラの姿勢状態から重力方向を算出し、該重力方向と前記加速度センサからの加速度信号から重力方向の誤差を算出し、該重力方向の誤差に基づいて、前記角速度センサからの角速度信号を補正し、現在のカメラの姿勢状態を算出するカメラ姿勢算出部と、
前記画像処理回路は、前記カメラ姿勢算出部で得た現在のカメラの姿勢状態に基づいて、前記画像の傾きを補正し、
前記音声処理回路は、前記カメラ姿勢算出部で得た現在のカメラの姿勢状態に基づいて、前記音場の傾きを補正する
全天球カメラ。
Optical system and
An element that outputs an image incident through the optical system as image data,
An image processing circuit for processing the pre-Symbol image data,
Multiple microphones that receive the sound that makes up the sound field and output sound data that represents the received sound,
A voice processing circuit that processes the voice data and
An accelerometer that detects signals representing acceleration in the three axial directions,
An angular velocity sensor that detects a signal indicating the angular velocity in the three axial directions,
It is a spherical camera equipped with
The direction of gravity is calculated from the posture state of the previous camera, the error in the direction of gravity is calculated from the direction of gravity and the acceleration signal from the acceleration sensor, and the angular velocity signal from the angular velocity sensor is calculated based on the error in the direction of gravity. A camera attitude calculation unit that corrects and calculates the current attitude state of the camera,
The image processing circuit corrects the inclination of the image based on the current posture state of the camera obtained by the camera posture calculation unit.
The voice processing circuit is an omnidirectional camera that corrects the inclination of the sound field based on the current posture state of the camera obtained by the camera posture calculation unit.
光学系と、
光学系を通して入射する画像を画像データとして出力する素子と、
3軸方向の加速度を表す信号を出力する加速度センサと、
3軸方向の角速度を表す信号を検出する角速度センサと、
音場を構成する音声を受け取り、受け取られた音声を表す音声データを出力する複数のマイクと、
を備える全天球カメラにおいて、前記音声データに対する音声処理方法であって、
前回のカメラの姿勢状態から重力方向を算出し、該重力方向と前記加速度センサからの加速度信号から重力方向の誤差を算出し、該重力方向の誤差に基づいて、前記角速度センサからの角速度信号を補正し、現在のカメラの姿勢状態を算出して、
前記現在のカメラの姿勢状態に基づいて、前記音場の傾きを補正すること
を含む音声処理方法。
Optical system and
An element that outputs an image incident through the optical system as image data,
An accelerometer that outputs a signal indicating acceleration in the three axial directions,
An angular velocity sensor that detects a signal indicating the angular velocity in the three axial directions,
Multiple microphones that receive the sound that makes up the sound field and output sound data that represents the received sound,
This is a voice processing method for the voice data in the spherical camera provided with the above.
The direction of gravity is calculated from the posture state of the previous camera, the error in the direction of gravity is calculated from the direction of gravity and the acceleration signal from the acceleration sensor, and the angular velocity signal from the angular velocity sensor is calculated based on the error in the direction of gravity. Correct and calculate the current camera attitude,
A voice processing method including correcting the inclination of the sound field based on the current posture state of the camera.
JP2017079461A 2017-04-13 2017-04-13 Spherical camera and voice processing method Active JP6888810B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017079461A JP6888810B2 (en) 2017-04-13 2017-04-13 Spherical camera and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017079461A JP6888810B2 (en) 2017-04-13 2017-04-13 Spherical camera and voice processing method

Publications (2)

Publication Number Publication Date
JP2018182528A JP2018182528A (en) 2018-11-15
JP6888810B2 true JP6888810B2 (en) 2021-06-16

Family

ID=64277283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017079461A Active JP6888810B2 (en) 2017-04-13 2017-04-13 Spherical camera and voice processing method

Country Status (1)

Country Link
JP (1) JP6888810B2 (en)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9930225B2 (en) * 2011-02-10 2018-03-27 Villmer Llc Omni-directional camera and related viewing software
CN108028894B (en) * 2015-09-09 2020-07-10 株式会社理光 Control system, imaging apparatus, and computer-readable medium
JP7196399B2 (en) * 2017-03-14 2022-12-27 株式会社リコー Sound device, sound system, method and program

Also Published As

Publication number Publication date
JP2018182528A (en) 2018-11-15

Similar Documents

Publication Publication Date Title
JP6927382B2 (en) Imaging systems, methods, programs, video display devices and image processing devices.
JP6645245B2 (en) Spherical shooting system
KR20180091122A (en) Imaging system, imaging apparatus, computer program, and system
JP7133789B2 (en) Sound collection device, sound collection system, sound collection method, program, and calibration method
JP6721550B2 (en) Information processing apparatus and position information acquisition method
JP6771435B2 (en) Information processing device and location information acquisition method
KR20220128585A (en) Wearable image pickup apparatus, portable device and calibrator that communicate with image pickup apparatus, control methods therefor, and storage media storing control programs therefor
JP2023026477A (en) Imaging device, and imaging system
JP7031280B2 (en) Image processing equipment, image processing systems and programs
JP2018152846A (en) Acoustic recording device, acoustic system, acoustic recording method, program, and data structure
JP6888810B2 (en) Spherical camera and voice processing method
JP7487464B2 (en) IMAGE PROCESSING APPARATUS, IMAGING APPARATUS, VIDEO PLAYBACK SYSTEM, METHOD, AND PROGRAM
JP6725106B2 (en) Imaging device
JP7025042B2 (en) Spherical image generation method, spherical image generation and display method, spherical image generation system program, and spherical image generation and display system program
JP6834556B2 (en) Shooting equipment, shooting method and program
JP7395953B2 (en) Imaging device
JP2019168999A (en) Imaging device, imaging method and program
US11122202B2 (en) Imaging device, image processing system, and image processing method
US20200412928A1 (en) Imaging device, imaging system, and imaging method
US10757387B2 (en) Image processing apparatus, image processing method, and non-transitory computer readable recording medium
WO2022201825A1 (en) Information processing device, information processing method, and information processing system
JP2021004894A (en) Information processing device and position information acquisition method
JP2020136850A (en) Imaging apparatus, imaging method, program, and imaging system
JP2020078065A (en) Imaging apparatus, information processing apparatus, correction amount setting method, and program
JP2022030485A (en) Camera device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200226

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210513

R150 Certificate of patent or registration of utility model

Ref document number: 6888810

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250