JP4587916B2 - Audio signal discrimination device, sound quality adjustment device, content display device, program, and recording medium - Google Patents
Audio signal discrimination device, sound quality adjustment device, content display device, program, and recording medium Download PDFInfo
- Publication number
- JP4587916B2 JP4587916B2 JP2005260618A JP2005260618A JP4587916B2 JP 4587916 B2 JP4587916 B2 JP 4587916B2 JP 2005260618 A JP2005260618 A JP 2005260618A JP 2005260618 A JP2005260618 A JP 2005260618A JP 4587916 B2 JP4587916 B2 JP 4587916B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sound quality
- determination
- determination result
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、音声信号判別装置、音質調整装置、コンテンツ表示装置、プログラム、及び記録媒体に関し、より詳細には、音声信号に対しスピーチ/非スピーチの判定を行う音声信号判定装置、その音声信号判定装置を備えた音質調整装置、その音質調整装置を備えたコンテンツ表示装置、それらのプログラム、及び、そのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to an audio signal determination device, a sound quality adjustment device, a content display device, a program, and a recording medium, and more particularly, an audio signal determination device that performs speech / non-speech determination on an audio signal, and the audio signal determination thereof The present invention relates to a sound quality adjusting device including the device, a content display device including the sound quality adjusting device, a program thereof, and a computer-readable recording medium storing the program.
従来から、一般的なオーディオ装置では、低音域の出力周波数特性を調整するバス調整、高音域の出力周波数特性を調整するトレブル調整、低音域及び高音域を強調するラウドネス調整等の各種音質調整装置が設けられている。 Conventionally, in general audio devices, various sound quality adjustment devices such as bass adjustment that adjusts the output frequency characteristics of the low frequency range, treble adjustment that adjusts the output frequency characteristics of the high frequency range, and loudness adjustment that emphasizes the low and high frequency ranges. Is provided.
このような音質調整装置としては、入力された音声信号の音声情報自体からその周期性の有無を検出することにより、入力された信号が音楽情報かそれ以外の情報かを判断し、その結果に応じて音響パラメータを制御するものも提案されている(例えば、特許文献1を参照)。
しかしながら、特にテレビジョン放送やラジオ放送を受信する機器においては、音声情報だけから音楽情報の是非を判断すると思わぬ誤判定が生じる場合がある。 However, in particular, in devices that receive television broadcasts or radio broadcasts, an unexpected misjudgment may occur when judging whether or not music information is appropriate only from audio information.
例えば、音楽番組でアカペラが流れた場合は、その作風のためにリズム感を検出することができずに、音楽情報ではないと判定し、この音楽情報に最適な音響パラメータをイコライザ等で選択しないという誤判定が生じる。その結果、この音楽情報は、イコライザの方で例えばスピーチに最適な音響パラメータ等を選択することも生じ得るので、生の音の響きを重視したいアカペラの音楽情報に対して、言葉の明瞭性を重視した(中音域を比較的強調した)音響特性で出力する結果となり、ユーザが本来聞きたい音響設定にならない。 For example, if a cappella flows in a music program, it is not possible to detect the rhythm due to its style, it is determined that it is not music information, and the optimal acoustic parameter for this music information is not selected by an equalizer or the like A misjudgment occurs. As a result, for this music information, the equalizer may select, for example, the optimal acoustic parameters for speech, etc., so the clarity of the words is improved for the music information of a cappella that emphasizes the sound of raw sounds. As a result, the sound characteristics that are emphasized (relatively emphasized in the middle sound range) are output, and the sound settings that the user originally wants to hear are not achieved.
また、ニュース番組を視聴中には、本来言語の明瞭性を重視したスピーチに最適なパラメータ等を選択するのが好適であるが、ニュースの内容によっては時にはアナウンサのスピーチと並行してニュースの取材現場で集音した音声をそのまま出力する場合もある。このような集音した音声情報に音楽が混在していると、その両者の音量のバランスによってはニュース番組のスピーチより、集音した音声から出力された音楽情報などが優位性を持つことも想定されるので、このような場合も、上述のアカペラの例とは逆の例として十分起こり得る問題点である。 While watching a news program, it is preferable to select parameters that are optimal for speech that emphasizes language clarity. However, depending on the content of the news, sometimes news reporting is performed in parallel with the announcement speech. In some cases, the sound collected on site is output as it is. If music is mixed in such collected audio information, it is assumed that the music information output from the collected audio has an advantage over the speech of the news program depending on the balance of the volume of both. Therefore, such a case is also a problem that can occur sufficiently as an example opposite to the above-described a cappella example.
そして、上述のごとき問題を解決し、入力音声信号に対し的確なスピーチ/非スピーチ判定を実行可能とした機器であっても、機器内部で判定並びにその判定に基づく音質調整を実行していることから、ユーザはどのような理由で音質が変更されたのかを理解できないといった問題が生じる。特に、このようなスピーチ/非スピーチ判定に基づく音質調整の結果として出力された音声がユーザ好みでなかった場合、ユーザは、音質調整の原因が分からず設定を変更することもできないので、不快感を抱かざるを得ない。 And even if the device solves the problems as described above and can execute accurate speech / non-speech determination on the input audio signal, the determination and the sound quality adjustment based on the determination are executed inside the device. Therefore, there arises a problem that the user cannot understand why the sound quality has been changed. In particular, if the sound output as a result of the sound quality adjustment based on such speech / non-speech determination is not user-preferred, the user cannot understand the cause of the sound quality adjustment and cannot change the setting. I have to hold.
本発明は、上述のごとき実情に鑑みてなされたものであり、入力された音声信号に対して的確にスピーチ/非スピーチを判別することが可能な音声信号判別装置、その音声信号判別装置を備えた音質調整装置、その音質調整装置を備えたコンテンツ表示装置、それらのプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することをその目的とする。 The present invention has been made in view of the above circumstances, and includes an audio signal determination device capable of accurately determining speech / non-speech with respect to an input audio signal, and the audio signal determination device. It is an object of the present invention to provide a sound quality adjusting device, a content display device including the sound quality adjusting device, a program thereof, and a computer-readable recording medium on which the program is recorded.
また、本発明は、入力された音声信号に対してスピーチ/非スピーチを判定してその判定結果に基づき音質を調整する際に、その判定結果をユーザに視認させることが可能な音質調整装置、その音質調整装置を備えたコンテンツ表示装置、それらのプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することを他の目的とする。 In addition, the present invention provides a sound quality adjustment device that allows a user to visually recognize a determination result when determining speech / non-speech with respect to an input audio signal and adjusting the sound quality based on the determination result, It is another object of the present invention to provide a content display device including the sound quality adjusting device, a program thereof, and a computer-readable recording medium on which the program is recorded.
本発明は、上述のごとき課題を解決するために、以下の各技術手段でそれぞれ構成される。 The present invention is constituted by the following technical means in order to solve the above-described problems.
第1の技術手段は、入力された音声信号がもつミュージック性の度合を検出するミュージック性検出手段と、入力された音声信号がもつスピーチ性の度合を検出するスピーチ性検出手段と、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定手段とを有する音声信号判別装置であって、前記スピーチ/非スピーチ判定手段は、前記ミュージック性検出手段の検出結果を所定数の段階に分類し、且つ前記スピーチ性検出手段の検出結果を前記所定数と同じ又は異なる所定数の段階に分類し、スピーチ性の度合及びミュージック性の度合に応じた各分類の組み合わせ毎に異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴としたものである。 The first technical means includes a music detection means for detecting the degree of music characteristic of the input voice signal, a speech detection means for detecting the degree of speech characteristic of the input voice signal, and the input A speech / non-speech determination unit for determining whether a speech signal corresponds to speech or non-speech, and the speech / non-speech determination unit includes: The detection result of the music property detection means is classified into a predetermined number of steps, and the detection result of the speech property detection means is classified into a predetermined number of steps that are the same as or different from the predetermined number, and the degree of speech property and the music property This method is characterized in that speech / non-speech determination is performed using a different calculation formula for each combination of classifications according to the degree.
第2の技術手段は、第1の技術手段において、入力された音声信号がモノラル信号又はステレオ信号のいずれであるかを判定するモノラル/ステレオ判定手段を有し、前記スピーチ/非スピーチ判定手段は、前記モノラル/ステレオ判定手段の判定結果に基づいて、前記計算式の補正成分を調整することを特徴としたものである。 The second technical means includes monaural / stereo determination means for determining whether the input audio signal is a monaural signal or a stereo signal in the first technical means, and the speech / non-speech determination means includes The correction component of the calculation formula is adjusted based on the determination result of the monaural / stereo determination means.
第3の技術手段は、第1又は第2の技術手段における音声信号判別装置を備えた音質調整装置であって、該音声信号判別装置によってスピーチ/非スピーチに判別された音声信号に対し、スピーチと非スピーチとで異なる音質に調整する音質調整手段を備えることを特徴としたものである。 A third technical means is a sound quality adjusting device including the audio signal discriminating device in the first or second technical means, and is adapted to perform speech on an audio signal discriminated as speech / non-speech by the audio signal discriminating device. And a non-speech speech quality adjusting means for adjusting to a different sound quality.
第4の技術手段は、第3の技術手段において、前記スピーチ/非スピーチ判定手段における判定結果を表示する判定結果表示手段を備え、該判定結果表示手段は、ユーザに対し、前記判定結果をスピーチ或いは非スピーチの度合に応じて段階的に表示することを特徴としたものである。 A fourth technical means includes a determination result display means for displaying the determination result in the speech / non-speech determination means in the third technical means, and the determination result display means provides the user with the determination result as a speech. Or it is characterized by displaying in steps according to the degree of non-speech.
第5の技術手段は、第4の技術手段において、前記音質調整手段は、前記スピーチ/非スピーチ判定手段の判定結果に基づく前記音質調整を実行するか否かを設定する調整設定手段を有し、前記判定結果表示手段は、前記調整設定手段によって前記音質調整を実行するよう設定されている場合にのみ、前記判定結果の表示を行うことを特徴としたものである。 According to a fifth technical means, in the fourth technical means, the sound quality adjusting means has an adjustment setting means for setting whether or not to execute the sound quality adjustment based on a determination result of the speech / non-speech determining means. The determination result display means displays the determination result only when the sound quality adjustment is set to be executed by the adjustment setting means.
第6の技術手段は、第4又は第5の技術手段において、前記判定結果表示手段は、前記判定結果の表示を実行するか否かを設定する表示設定手段を有し、該表示設定手段によって前記判定結果表示を実行するよう設定されている場合にのみ、前記判定結果の表示を行うことを特徴としたものである。 A sixth technical means is the fourth or fifth technical means, wherein the determination result display means has display setting means for setting whether or not to display the determination result, and the display setting means The determination result is displayed only when it is set to execute the determination result display.
第7の技術手段は、第4乃至第6のいずれかの技術手段における音質調整装置とコンテンツ入力装置とを備えたコンテンツ表示装置であって、該コンテンツ入力装置で入力されたコンテンツに含まれる音声信号を前記音質調整装置に入力し、音質を調整して音声出力し、且つ、前記コンテンツに含まれる映像信号を表示すると共に、必要に応じて前記判定結果表示手段による判定結果表示を行うことを特徴としたものである。 A seventh technical means is a content display device comprising the sound quality adjusting device and the content input device according to any one of the fourth to sixth technical means, wherein the audio included in the content input by the content input device A signal is input to the sound quality adjustment device, the sound quality is adjusted and sound is output, a video signal included in the content is displayed, and a determination result display by the determination result display means is performed as necessary. It is a feature.
第8の技術手段は、ミュージック性検出手段が、入力された音声信号がもつミュージック性の度合を検出するミュージック性検出ステップと、スピーチ性検出手段が、入力された音声信号がもつスピーチ性の度合を検出するスピーチ性検出ステップと、スピーチ/非スピーチ判定手段が、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定ステップとを、コンピュータに実行させるためのプログラムであって、前記スピーチ/非スピーチ判定ステップは、前記ミュージック性検出ステップの検出結果を所定数の段階に分類し、且つ前記スピーチ性検出ステップの検出結果を前記所定数と同じ又は異なる所定数の段階に分類し、スピーチ性の度合及びミュージック性の度合に応じた各分類の組み合わせ毎に異なる計算式を用い、スピーチ/非スピーチの判定を行うことを特徴としたものである。 Eighth technical means is the music characteristic detection means, and music of detecting a degree of music of having the input audio signal, the speech characteristic detection means, a speech of having the input audio signal degree Speech / non-speech determination , and speech / non-speech determination means for determining whether the input audio signal corresponds to speech or non-speech. The speech / non-speech determination step classifies the detection result of the music property detection step into a predetermined number of stages, and the detection result of the speech property detection step. the classified into stages of the same or a different predetermined number and the predetermined number, the speech of the degree and MusiCares Using different calculation formulas for each combination of the classification according to the degree of click resistance, in which it is characterized in that a determination of the speech / non-speech.
第9の技術手段は、第8の技術手段において、当該プログラムは、音質調整手段が前記スピーチ/非スピーチ判定ステップによりスピーチ/非スピーチに判別された音声信号に対しスピーチと非スピーチとで異なる音質に調整する音質調整ステップを、前記コンピュータに実行させるための調整プログラムを含むことを特徴としたものである。 In the ninth technical means is the eighth technical means, the program includes a sound quality adjustment means the speech / non-speech decision step by the speech / pair to the determined audio signal into non-speech cis peach and non-speech An adjustment program for causing the computer to execute a sound quality adjustment step for adjusting to a different sound quality is included.
第10の技術手段は、第8又は第9の技術手段において、当該プログラムは、判定結果表示手段が前記スピーチ/非スピーチ判定ステップにおける判定結果を表示部に表示する判定結果表示ステップを、前記コンピュータに実行させるための表示プログラムを含み、該判定結果表示ステップは、ユーザに対し、前記判定結果をスピーチ或いは非スピーチの度合に応じて段階的に表示することを特徴としたものである。 A tenth technical means is the eighth or ninth technical means, the program causes the determination result display step of determination result displaying means displays on the display unit of the determination result in said speech / non-speech decision step, the computer The determination result display step is characterized in that the determination result is displayed stepwise to the user in accordance with the degree of speech or non-speech.
第11の技術手段は、第8乃至第10のいずれかの技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。 The eleventh technical means is a computer-readable recording medium on which a program according to any of the eighth to tenth technical means is recorded.
本発明によれば、入力された音声信号に対して的確にスピーチ/非スピーチを判別することが可能となる。また、本発明によれば、入力された音声信号に対してスピーチ/非スピーチを判定してその判定結果に基づき音質を調整する際に、その判定結果をユーザに視認させることが可能となる。 According to the present invention, it is possible to accurately determine speech / non-speech for an input audio signal. Further, according to the present invention, when the speech / non-speech is determined for the input audio signal and the sound quality is adjusted based on the determination result, the determination result can be made visible to the user.
本発明に係る音声信号判別装置は、ミュージック性検出手段、スピーチ性検出手段、及びスピーチ/非スピーチ判定手段を備えるものとする。以下、このような音声信号判別装置を備え、ここでの判別に基づいた音質調整を行う音質調整手段を備えた音質調整装置について説明するが、本発明に係る音声信号判別装置は、音質調整以外、例えば判別に基づいたコンテンツ(その音声信号を含むコンテンツ)の分別記録(録画)などにも適用可能である。 The audio signal discriminating apparatus according to the present invention includes music property detection means, speech property detection means, and speech / non-speech determination means. Hereinafter, a sound quality adjusting device including such a sound signal determining device and including sound quality adjusting means for performing sound quality adjustment based on the determination here will be described. However, the sound signal determining device according to the present invention is other than sound quality adjusting. For example, the present invention can also be applied to classification recording (recording) of content (content including the audio signal) based on discrimination.
また、本発明に係る音質調整装置は、このような音声信号判別装置に加え、音質調整手段、及び好ましくは判定結果表示手段を備えるものとする。以下、本発明の説明にあたり、スピーチ/非スピーチ判定に際して、モノラル/ステレオ判定並びにその判定結果に基づきスピーチ/非スピーチ判定における判断基準を最適化するといった好適な例を挙げて説明するが、本発明ではこのようなモノラル/ステレオ判定及び最適化を実行しない形態も当然採用可能である。このような他の実施形態として、モノラル/ステレオ判定及び最適化の代わりに有音/無音判定を行う形態についても説明するが、当然モノラル/ステレオ判定及び最適化と有音/無音判定とを併用する形態を採用してもよい。 The sound quality adjusting apparatus according to the present invention includes a sound quality adjusting means and preferably a determination result displaying means in addition to such an audio signal discriminating apparatus. Hereinafter, in the description of the present invention, in the speech / non-speech determination, the mono / stereo determination and the determination standard in the speech / non-speech determination based on the determination result will be described as a preferred example. Then, it is naturally possible to adopt a form in which such monaural / stereo determination and optimization are not executed. As another embodiment of the present invention, an embodiment in which sound / silence determination is performed instead of monaural / stereo determination and optimization will be described. Naturally, monaural / stereo determination and optimization are combined with sound / silence determination. You may employ | adopt the form to do.
図1は、本発明の一実施形態に係る音質調整装置の一構成例を示すブロック図で、図中、1は音質調整装置、10は音声信号入力手段、11aはミュージック性検出手段、11bはスピーチ性検出手段、12はスピーチ/非スピーチ判定手段、13はモノラル/ステレオ判定手段、14は基準最適化手段、14aはスイッチ、14bは閾値(スレッショルド)VSL1への設定手段、14cは閾値VSL2への設定手段、15は音質調整手段、16は音声信号出力手段、17は判定結果表示手段である。 FIG. 1 is a block diagram showing a configuration example of a sound quality adjusting apparatus according to an embodiment of the present invention. In the figure, 1 is a sound quality adjusting apparatus, 10 is an audio signal input means, 11a is a music detection means, and 11b is Speech property detection means, 12 is a speech / non-speech determination means, 13 is a monaural / stereo determination means, 14 is a reference optimization means, 14a is a switch, 14b is a threshold VSL1 setting means, 14c is a threshold V SL2 setting means, 15 a sound quality adjusting means, 16 an audio signal output means, and 17 a determination result display means.
ミュージック性検出手段11aは、入力された音声信号がもつミュージック性の度合を検出する手段で、非スピーチ性判定手段とも言える。スピーチ性検出手段11bは、入力された音声信号がもつスピーチ性の度合を検出する手段で、スピーチ性判定手段とも言える。ミュージック性とは音声信号が音楽の信号である可能性を示し、スピーチ性とは音声信号が会話などを含む信号である可能性を示す。ミュージック性検出手段11a及びスピーチ性検出手段11bは、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。
The music property detection means 11a is a means for detecting the degree of music property of the input audio signal, and can be said to be a non-speech property determination means. The speech property detection unit 11b is a unit that detects the degree of speech property of the input audio signal, and can be said to be a speech property determination unit. The music characteristic indicates the possibility that the voice signal is a music signal, and the speech characteristic indicates the possibility that the voice signal is a signal including conversation. The music
スピーチ/非スピーチ判定手段12は、音声信号入力手段10で入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行う。音声信号入力手段10では、その入力元や入力方法は問わない。また、スピーチ/非スピーチ判定手段12も、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。
The speech /
そして、本発明におけるスピーチ/非スピーチ判定手段12は、ミュージック性検出手段11aの検出結果及びスピーチ性検出手段11bの検出結果に基づき、スピーチ性の度合及びミュージック性の度合に応じて異なる計算式を用い、スピーチ/非スピーチの判定を行う。従って、例えば、スピーチ性の度合を0〜100及びミュージック性の度合も0〜100で検出した場合、スピーチ/非スピーチの判定は101×101通りの検出結果を閾値処理などして実行する。
The speech /
このような判定は煩雑であることから、より好ましくは、スピーチ/非スピーチ判定手段12は、まず、ミュージック性検出手段11aの検出結果を、予め分類した所定数の段階のどの段階に該当するかを判定し、且つスピーチ性検出手段11bの検出結果をその所定数と同じ又は異なる所定数の予め分類した段階のどの段階に該当するかを判定する。そして、スピーチ/非スピーチ判定手段12は、ミュージック性の度合及びスピーチ性の度合に応じた各分類の組み合わせ毎に異なる計算式を用い、スピーチ/非スピーチの判定を行う。例えば、ミュージック性・スピーチ性共に3つずつの段階に分類していた場合、3×3の9通りの計算式が用いられ、ミュージック性・スピーチ性の検出結果に基づきこれらの計算式が選択され計算がなされる。
Since such determination is complicated, more preferably, the speech /
また、スピーチ/非スピーチ判定手段12では、「ニュース番組などは一般的にモノラル放送が多く、一方で音楽が流れるCMや音楽番組はステレオ放送に設定されていることが多い」といった経験則を利用し、音声信号に重畳されたモノラル/ステレオ信号を検出することによって、現在放送されている番組がスピーチ/非スピーチ(音楽)のいずれに好適かを判断することが好ましい。このため、ここで説明する音質調整装置は、モノラル/ステレオ判定手段13及び基準最適化手段14を備え、これらの手段によってスピーチ/非スピーチ判定を最適化し、その判定に基づき上述の計算式或いは他の計算式の音響パラメータの制御を行っている。
Further, the speech / non-speech determination means 12 uses an empirical rule such as “News programs are generally monaural broadcasting, while music and music programs in which music flows are often set to stereo broadcasting”. It is preferable to determine whether the currently broadcast program is suitable for speech / non-speech (music) by detecting the monaural / stereo signal superimposed on the audio signal. For this reason, the sound quality adjustment apparatus described here includes a monaural /
モノラル/ステレオ判定手段13は、入力された音声信号が、モノラル信号又はステレオ信号のいずれであるかを判定する。モノラル/ステレオ判定手段13も、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよく、また、単に音声信号を入力した際のモノラル/ステレオの切り替えなどの情報によって判定してもよい。さらに、音声信号の元のコンテンツが電子プログラムガイド(EPG)に掲載され予約録画可能なようになっている場合などには、EPGにおけるモノラル/ステレオの情報も共に掲載されているので、その情報を取得することでモノラル/ステレオ判定を行うことも可能である。 The monaural / stereo determination means 13 determines whether the input audio signal is a monaural signal or a stereo signal. The monaural / stereo determination means 13 may be configured in whole or in part by hardware or software, and is determined by information such as mono / stereo switching when a sound signal is input. May be. Furthermore, if the original content of the audio signal is posted in an electronic program guide (EPG) and can be reserved for recording, the mono / stereo information in the EPG is also posted together. It is also possible to perform monaural / stereo determination by acquiring.
基準最適化手段14は、モノラル/ステレオ判定手段13での判定結果に基づいて、スピーチ/非スピーチ判定手段12における判定基準を最適化する。この最適化は、上述の計算式の補正項(補正成分)のパラメータを変更することで行ってもよいし、その他、例えば上述の計算式による計算後の閾値処理などの閾値のパラメータ(例えば後述のVSL1,VSL2)を変更することで行っても、これら双方変更することを行ってもよい。このように、モノラル/ステレオ判定によりスピーチ自動検出機能の判定基準を最適化させることで、検出機能の精度を向上させることができる。従って、入力された音声信号に対して的確にスピーチ/非スピーチを判別すること、すなわち音声信号のモノラル/ステレオの信号に応じて好適なスピーチ/非スピーチ検出が可能となる。
The
例えば、ニュース等のモノラル信号時はスピーチと判定し易く、またBGMを含めた音楽が多いステレオ信号時は非スピーチと判定し易くなるように最適化制御を行うことができる。また、この例では、音声信号のスピーチ/非スピーチの判定を的確に行うためにその音声信号に対してモノラル/ステレオ判定及び基準最適化が予めなされていることを前提とするが、ディレイなどを用いてもよいし、単に、音声信号が入力される度に、逐次、モノラル/ステレオ判定及び基準最適化を行ってスピーチ/非スピーチ判定を行っていってもよい。 For example, optimization control can be performed so that a monaural signal such as news can be easily determined as speech, and a stereo signal with a lot of music including BGM can be easily determined as non-speech. Also, in this example, it is assumed that monaural / stereo determination and reference optimization have been performed in advance for the sound signal in order to accurately determine the speech / non-speech of the sound signal. Alternatively, the speech / non-speech determination may be performed by sequentially performing monaural / stereo determination and reference optimization every time an audio signal is input.
また、ミュージック性検出手段11aやスピーチ性検出手段11bにおける検出は、入力された音声信号に対して複数の信号解析を施すことによって行うようにすることが好ましい。信号解析としては、例えば、信号の対時間エネルギー変化解析,音節の均一解析,周波数対音声強度の解析などである。このような信号解析により、例えば、(I)信号の対時間エネルギー変化,(II)周波数対音声強度,(III)母音と子音の順序,(IV)音節の長さ,(V)子音と母音のエネルギー量などが得られる。そして、ミュージック性検出手段11aとスピーチ性検出手段11bとの差として、これらの信号解析の一部又は全部のパラメータを異ならしめるようにすればよい。 Moreover, it is preferable that the detection in the music property detection means 11a and the speech property detection means 11b is performed by performing a plurality of signal analyzes on the input audio signal. Signal analysis includes, for example, signal energy change analysis with respect to time, syllable uniformity analysis, and frequency vs. sound intensity analysis. By such signal analysis, for example, (I) signal energy change over time, (II) frequency versus voice intensity, (III) vowel and consonant order, (IV) syllable length, (V) consonant and vowel. The amount of energy can be obtained. Then, as a difference between the music property detection means 11a and the speech property detection means 11b, some or all of these signal analysis parameters may be made different.
そして、これらの検出結果に基づいて、最終的に例えば次のような点を考慮して、スピーチ/非スピーチが判定されるようにするとよい。(I)スピーチには、音節(音声エネルギーが高い)と音節との間に、音声エネルギーが低い区分が存在し、非スピーチにはこのような区分は存在しないことが多い。(II)スピーチが100Hz〜3kHzの中域の強度が強く、非スピーチが低域及び高域の強度が強い。(III)スピーチは、音節内の順序が子音から母音へと続く場合が多い。(IV)スピーチは、音節の長さが均一の場合が多い。(V)スピーチは、母音のエネルギー量が子音のエネルギー量より大きい場合が多い。さらに、(I)〜(V)に対し、重み付けを行って合算し、統計処理を施すなどして、最終的な信号解析の結果を得、その数値をモノラルの場合にはそれ用の閾値VSL1でステレオの場合はそれ用の閾値VSL2で判定することで、スピーチ/非スピーチの判定(例えばスピーチの可能性等の度合の判定)を行えばよい。他の方法として、基準最適化手段14が、スピーチ/非スピーチの判定基準としての各信号解析に対する閾値のセットを、モノラル/ステレオ判定に基づいて変更するようにしてもよい。
Based on these detection results, speech / non-speech may be finally determined in consideration of, for example, the following points. (I) In speech, there is a segment with low speech energy between syllables (with high speech energy) and syllables, and such segments are often absent in non-speech. (II) The mid-range intensity of speech is 100 Hz to 3 kHz, and the non-speech intensity is high in low and high frequencies. (III) Speech often follows the order in a syllable from a consonant to a vowel. (IV) Speech often has uniform syllable lengths. In (V) speech, the amount of vowel energy is often greater than the amount of consonant energy. Further, weighting is performed on (I) to (V), and the result is subjected to statistical processing to obtain a final signal analysis result. When SL1 is stereo, it is sufficient to determine speech / non-speech (for example, determination of the degree of possibility of speech, etc.) by determining with the threshold V SL2 for that. As another method, the
音質調整手段15は、上述のごとき構成によってスピーチ/非スピーチに判別された音声信号に対し、少なくともスピーチと非スピーチとで異なる音質に調整する。ここでの音質設定の方法は任意であり、スピーチ/非スピーチの可能性などの度合により、その設定値や増減の設定値、或いは各周波数帯での設定値などが異なっていればよい。例えば、グラフィックイコライザのごときイコライザの中心周波数とフィルタのQ値(グラフィックイコライザの1つの帯域分のカーブにおける山,谷の鋭さ)が固定されている音質設定や、パラメトリックイコライザのごとくこれらも変更可能な音質設定であってもよい。そして、音声信号出力手段16は、音質調整手段15で調整された音声信号を出力する。
The sound quality adjusting means 15 adjusts the sound signal determined to be speech / non-speech by the configuration as described above to at least different sound quality between speech and non-speech. The sound quality setting method here is arbitrary, and the set value, the increase / decrease set value, or the set value in each frequency band may be different depending on the degree of possibility of speech / non-speech. For example, a sound quality setting in which the center frequency of the equalizer such as a graphic equalizer and the Q value of the filter (the sharpness of peaks and valleys in the curve for one band of the graphic equalizer) are fixed, and these can be changed as in the case of a parametric equalizer. Sound quality setting may be used. The audio
そして、本発明の特徴となる判定結果表示手段17は、ユーザに対し、スピーチ/非スピーチ判定手段12における判定結果を、スピーチ或いは非スピーチの度合(例えば、スピーチ部分の割合やスピーチである可能性)に応じて段階的に表示する。実際、スピーチ/非スピーチ判定手段12においては、上述のごとくスピーチ性及び非スピーチ性(ミュージック性)を検出し、その検出結果に応じて、計算式を選択し、その計算式での計算結果を所定の閾値で閾値処理し、スピーチであるか/非スピーチであるかの判定を下す。判定結果表示手段17では、このようなスピーチ/非スピーチの判定結果を、そのレベル(例えばスピーチの度合)に応じて段階的に表示するようにしてもよい。このような段階的表示を行う際には、併せて複数段階の閾値処理(モノラル/ステレオの度合いに応じて少なくとも2セット以上の閾値群を用意しておくとよい)を行っておくなどして、各段階に応じた音質に調整するようにしておくことで、より段階的表示が効果的となる。 Then, the determination result display means 17 which is a feature of the present invention gives the determination result of the speech / non-speech determination means 12 to the user as the degree of speech or non-speech (for example, the ratio of speech portion or the possibility of speech) ) To display in stages. Actually, the speech / non-speech determination means 12 detects speech and non-speech (music) as described above, selects a calculation formula according to the detection result, and calculates the calculation result in the calculation formula. Threshold processing is performed with a predetermined threshold value, and it is determined whether the speech is speech / non-speech. The determination result display means 17 may display such a speech / non-speech determination result in stages according to the level (for example, the degree of speech). When performing such stepwise display, a plurality of threshold processings (at least two sets of threshold groups may be prepared according to the level of monaural / stereo) are performed. By adjusting the sound quality according to each stage, the staged display becomes more effective.
また、判定結果表示手段17では、このようなスピーチ/非スピーチの判定の元となるスピーチ性検出結果或いはミュージック性(ミュージック信号)検出結果を、その検出レベル(例えばスピーチの度合)に応じて段階的に表示するようにしてもよい。また、このような場合には、判定結果の表示のみにスピーチ性検出結果及びミュージック性検出結果の双方を用い、音質調整にはスピーチ性検出結果をそのままスピーチ/非スピーチの判定結果として採用してもよい。但し、この場合、音質調整の元となるデータと判定結果のデータとが例えば音楽番組などで異なることとなってしまうが、その差異が視聴者に分からない程度(例えば放送内容と合う程度)となるような工夫を行う必要がある。 In addition, the determination result display means 17 provides a speech detection result or a music (music signal) detection result that is a source of such speech / non-speech determination according to the detection level (for example, the degree of speech). You may make it display automatically. In such a case, both the speech detection result and the music detection result are used only for displaying the determination result, and the speech detection result is used as it is as a speech / non-speech determination result for sound quality adjustment. Also good. However, in this case, the sound quality adjustment source data and the determination result data differ, for example, in a music program, etc., but the difference is not understood by the viewer (for example, suitable for the broadcast content). It is necessary to make such a device.
また、音質調整手段15は、スピーチ/非スピーチ判定手段12の判定結果に基づく音質調整手段15による音質調整を実行するか否かを設定する調整設定手段を有するようにしてもよい。なお、スピーチ/非スピーチ判定以外に起因する音質調整については別途設定するなどすればよい。この調整設定手段ではユーザ操作により設定させることとなる。そして、ここでいう設定とは、例えば、(a)音質調整をスピーチ/非スピーチ判定に基づき自動的に行うこと、(b)音質調整を固定すること(所定のスピーチに対して行う音質調整とするなど)、(c)音質調整(あくまでスピーチ/非スピーチ判定に基づく音質調整)を行わないこと、などの選択肢の中からユーザの選択操作によって設定となる。その調整設定手段におけるユーザ設定に基づき、音質調整手段15では(a),(b),(c)のそれぞれに合致した音質調整を行い、判定結果表示手段17では、(a)の場合には判定結果(検出結果)の表示、(b),(c)の場合には非表示とする。このように、判定結果表示手段17では、調整設定手段によって音質調整を実行するよう設定されている場合にのみ、判定結果の表示を行えばよい。例えば、単に上述の(b)のごときスピーチ用の音質調整を行うだけのときには判定結果を表示しないことになる。
Further, the sound
さらに、判定結果表示手段17は、判定結果の表示を実行するか否かを設定する表示設定手段を有するようにしてもよい。そして、判定結果表示手段17では、表示設定手段によって判定結果表示を実行するよう設定されている場合にのみ、判定結果の表示を行えばよい。なお、この表示設定手段は上述の調整設定手段の具備の如何は問わず具備すればよいが、調整設定手段と共に具備する形態にあっては、判定結果表示手段17は、調整設定手段で判定結果に基づく音質調整を実行する場合で、且つ判定結果表示を実行する場合でのみ、判定結果の表示を行うこととなる。 Furthermore, the determination result display unit 17 may include a display setting unit that sets whether or not to display the determination result. Then, the determination result display means 17 may display the determination result only when the display setting means is set to execute the determination result display. The display setting means may be provided regardless of the provision of the above-described adjustment setting means. However, in the case of being provided with the adjustment setting means, the determination result display means 17 is the adjustment result by the adjustment setting means. The determination result is displayed only when the sound quality adjustment based on is performed and the determination result display is performed.
図2は、図1の音質調整装置における音質調整処理並びに判定結果表示処理の一例を説明するためのフロー図で、図3は、図1の音質調整装置における音質調整処理で用いる音質設定イコライジングの一例を示す図、図4は、図2の判定結果表示処理における画面表示例を示す図である。 2 is a flowchart for explaining an example of the sound quality adjustment process and the determination result display process in the sound quality adjustment apparatus of FIG. 1, and FIG. 3 shows the sound quality setting equalization used in the sound quality adjustment process in the sound quality adjustment apparatus of FIG. FIG. 4 is a diagram illustrating an example, and FIG. 4 is a diagram illustrating a screen display example in the determination result display process of FIG.
簡略化のため、スピーチ/非スピーチにおける判定基準がある1つの閾値処理によってなされるものとして説明するが、複数段階の閾値処理を行う場合には以下の説明で閾値を閾値のセットと読みかえればよい。まず、音声信号が入力されると、モノラル/ステレオ判定手段13によりモノラル/ステレオ判定がなされる(ステップS1)。この判定に際しては、例えば、Lを左入力信号、Rを右入力信号とすると、入力信号に(L−R)/(L+R)の演算を実行し、位相差判定を実施するとよい。 For simplification, the description will be made on the assumption that a determination criterion for speech / non-speech is performed by a single threshold process. However, in the case of performing a threshold process in a plurality of stages, the threshold value can be read as a set of thresholds in the following description. Good. First, when an audio signal is input, monaural / stereo determination means 13 performs monaural / stereo determination (step S1). In this determination, for example, assuming that L is a left input signal and R is a right input signal, a calculation of (LR) / (L + R) is performed on the input signal, and the phase difference determination may be performed.
この判定により、モノラル信号であると判定された場合には、基準最適化手段14において、スイッチ14aを閾値VSL1への設定手段14b側へ接続し、スピーチ/非スピーチ判定手段12における判定の閾値をVSL1に設定する(ステップS2)。一方、ステップS1により、ステレオ信号であると判定された場合には、基準最適化手段14において、スイッチ14aを閾値VSL2への設定手段14c側へ接続し、スピーチ/非スピーチ判定手段12における判定の閾値をVSL2に設定する(ステップS3)。このように閾値の設定を最適化することで、ニュース等のモノラル信号時はスピーチと判定し易く、またBGMを含めた音楽が多いステレオ信号時は非スピーチと判定し易くなるように制御することができる。なお、基準最適化手段14の構成は図示したものに限定されるものではない。
If it is determined by this determination that the signal is a monaural signal, the reference optimization means 14 connects the
次に、ミュージック性検出手段11a及びスピーチ性検出手段11bが、ミュージック性の検出及びスピーチ性の検出をに実行する(ステップS4,S5)。ステップS4,S5の順序は問わない。そして、スピーチ/非スピーチ判定手段12が、まず、ステップS4,S5での検出結果に基づいて計算式を選択して計算を実行し、さらにステップS2/S3のいずれかで設定された閾値VSL1/VSL2に基づいて、スピーチ/非スピーチの判定を行う(ステップS6)。そして、スピーチであると判定された場合には、音質設定Aを選択して音質を調整する(ステップS7)。一方、ステップS6で非スピーチと判定された場合、音質設定Bを選択して音質を調整する(ステップS8)。
Next, the music
ここで、音質設定Aと音質設定Bとの違いの例について、図3を参照して説明する。音質設定A(スピーチ)の場合、イコライザの周波数特性をグラフ21で示すように設定し、音質設定B(非スピーチ)の場合、イコライザの周波数特性をグラフ22で示すように設定する。グラフ21とグラフ22との違いは、非スピーチのときはスピーチのときに比べて、所定の低周波数22aの付近及び所定の高周波数22bの付近を強調している点にある。
Here, an example of the difference between the sound quality setting A and the sound quality setting B will be described with reference to FIG. In the case of the sound quality setting A (speech), the frequency characteristic of the equalizer is set as shown in the
ステップS7/S8の処理の前後(少なくともステップS6におけるスピーチ/非スピーチ判定の後)に、その判定結果を表示する(ステップS9)。この表示の方法としては音質調整装置にLED表示するようにしてもよいし、音声信号が映像信号と共に入力されている場合には、例えば図4で例示するように、その映像信号を表示する画面31上にOSD(On Screen Display)表示を行うようにしてもよい。 The determination result is displayed before and after the processing of step S7 / S8 (at least after the speech / non-speech determination in step S6) (step S9). As a display method, an LED may be displayed on the sound quality adjusting device. When an audio signal is input together with a video signal, a screen for displaying the video signal, for example, as illustrated in FIG. OSD (On Screen Display) display may be performed on 31.
また、ステップS9における判定結果表示に際しては、スピーチ/非スピーチ判定によるスピーチ度合(或いは非スピーチ度合)が視認できるように、段階的に表示する。なお、ここでのスピーチ度合或いは非スピーチ度合は、ミュージック性検出手段11a及びスピーチ性検出手段11bが検出したミュージック性の度合及びスピーチ性の度合とは通常異なるものとする。なお、ここでの最低の段階表示処理としては、結果的に1つの閾値でスピーチ/非スピーチ判定の処理をして音質調整を実行する場合に対応させ、少なくともスピーチか非スピーチかの2段階で表示する。
When the determination result is displayed in step S9, the determination result is displayed step by step so that the speech degree (or non-speech degree) by the speech / non-speech determination can be visually recognized. Here, the degree of speech or the degree of non-speech is usually different from the degree of music and the degree of speech detected by the
以下、スピーチ度合をユーザに視認させるような例で説明すると、図4で例示したように、例えば、画面31上に「スピーチ度合」を表す文字32等を表示させると共に、スピーチ度合(スピーチ検出レベル)に応じた数のマーク33を表示させるとよい。このマーク33の数は、スピーチ度合に応じた数であってスピーチセンサマークとも呼べ、結果的に音質調整がどの位スピーチ寄りになされているかを示すものであり、マーク33の例としてはグリーンの色で口を開けた人の顔をイメージしたスピーチマークを表示するなどすればよい。その他、例えばユーザ設定によって、色の選択や(例えば日本語はグリーン、英文字はオレンジ等)、形状の選択(スピーカマーク,サイン,コサインマーク,フラッシング点滅等)も可能としておいてもよい。なお、図4の例では、「スピーチ度合」を表す文字32として、スピーチ/非スピーチ判定に基づく音質調整の名称(ここでは「いきいきボイス」と命名)を示している。また、このスピーチセンサマークの近隣にスピーチ/非スピーチの判定結果の確実性などをパーセンテージで表示するようにしてもよい。この確実性は、ミュージック性の検出結果とスピーチ性の検出結果があまりにも相反するものであった場合に低いものとすればよい。
Hereinafter, an example in which the user visually recognizes the speech level will be described. As illustrated in FIG. 4, for example, the
また、判定結果表示に際しては、マーク33のごとく画面31の下部に顔イメージを横方向に表示するようにしてもよいし、自動又は手動によって表示位置を任意の位置に移動できるようにすること、さらには縦型表示/横型表示を変更することも可能としておくとよい。また、表示位置を移動する方法として、例えば画面の下部や上部に文字が表示された場合は、それらの文字と重ならない位置に移動できるようにするとよい。より具体的には、例えば、音声多重放送の日本語の吹き替え表示や画面の下部にデータ放送のニュース情報等の文字表示と重ならない位置などに移動すればよい。また、EPGから番組種別情報(例えば歌番組かそれ以外の番組)を取得して、歌番組の場合に表示の大きさを小さく又は大きくするとともに、画面に表示される歌詞の表示と重ならない位置に表示するなどの応用も可能である。
When displaying the determination result, the face image may be displayed in the horizontal direction at the bottom of the
さらに、本発明は、上述のごとき音質調整装置とコンテンツ入力装置とを備えたコンテンツ表示装置(例えば、デジタル/アナログに限らずテレビジョン放送やラジオ放送の放送信号を受信する放送受信装置)にも適用可能である。このコンテンツ表示装置では、コンテンツ入力装置で入力されたコンテンツに含まれる音声信号を音質調整装置に入力し、音質を調整して音声出力し、且つ、コンテンツに含まれる映像信号を表示すると共に、必要に応じて判定結果表示手段17による判定結果表示を行う。本発明に係るコンテンツ表示装置は、例えば、テレビジョン受信機をはじめ、コンテンツ再生プログラム,ビデオカード(ビデオアダプタともいう)等のモジュールを備えた汎用のパーソナルコンピュータ(以下、PCと略す)などにも、後述するように適用可能である。また、本発明においては、コンテンツの配信及び放送形態は基本的に問わない。次に、音質調整装置を組み込んだコンテンツ表示装置の例としてテレビ受信機(テレビ受像機)を挙げて、より具体的に説明する。 Furthermore, the present invention is also applied to a content display device (for example, a broadcast receiving device that receives a broadcast signal of a television broadcast or a radio broadcast as well as a digital / analog) including the sound quality adjusting device and the content input device as described above. Applicable. In this content display device, the audio signal included in the content input by the content input device is input to the sound quality adjustment device, the sound quality is adjusted and the sound is output, the video signal included in the content is displayed, and necessary. In response to this, the determination result display means 17 displays the determination result. The content display device according to the present invention is also applicable to, for example, a general-purpose personal computer (hereinafter abbreviated as a PC) including modules such as a television receiver, a content reproduction program, and a video card (also referred to as a video adapter). It is applicable as described later. Further, in the present invention, the distribution and broadcasting form of the content are basically not questioned. Next, a television receiver (television receiver) is given as an example of a content display device incorporating a sound quality adjusting device, and will be described more specifically.
図5は、図1の音質調整装置における適用例の一つであるテレビ受像機の一構成例を示すブロック図で、図6は、図5におけるマイコン内に格納されている計算式テーブルの一例を示す図で、図7は、図5におけるマイコン内に格納されているマーク表示目標テーブルの一例を示す図である。図5において、4はテレビ受像機本体、40はチューナ部、41は外部入力部、42は本体操作部、43は映像処理IC(Integrated Circuit)、44は本体のマイクロコンピュータ(以下、マイコン)、45は音声処理IC、46はディスプレイ、47Lは左スピーカ、47Rは右スピーカ、48は受光部、49はリモートコントローラユニット(以下、リモコン)である。また、図6及び図7において、51はマイコン44内のROM(Read Only Memory)等に格納された計算式テーブル、52はマイコン44内のROM等に格納されたスピーチセンサマーク表示目標テーブルである。
FIG. 5 is a block diagram showing a configuration example of a television receiver which is one of application examples in the sound quality adjustment apparatus of FIG. 1, and FIG. 6 is an example of a calculation formula table stored in the microcomputer in FIG. FIG. 7 is a diagram showing an example of a mark display target table stored in the microcomputer in FIG. In FIG. 5, 4 is a television receiver main body, 40 is a tuner unit, 41 is an external input unit, 42 is a main body operation unit, 43 is a video processing IC (Integrated Circuit), 44 is a main body microcomputer (hereinafter referred to as a microcomputer), 45 is an audio processing IC, 46 is a display, 47L is a left speaker, 47R is a right speaker, 48 is a light receiving unit, and 49 is a remote controller unit (hereinafter referred to as a remote controller). 6 and 7, 51 is a calculation formula table stored in a ROM (Read Only Memory) or the like in the
また、図8は、図5のテレビ受像機におけるスピーチ/非スピーチ判定及び判定結果表示処理を説明するためのフロー図で、図9は、図5のテレビ受像機における判定結果表示処理を説明するためのフロー図で、図2のフロー図における判定結果表示処理を抜粋して詳細に説明するためのフロー図でもある。さらに、図10乃至図12は、図1の音質調整装置における判定結果表示の設定画面の一例を示す図で、図10は音声調整の設定項目例を、図11は図10の設定項目例のうちの本発明に係る音質調整に対する動作設定の項目例を、図12は図10の設定項目例のうちの本発明に係る音質調整に対する表示設定の項目例を、それぞれ示している。また、図10乃至図12において、6は音声調整の設定画面例、61は設定メニュー一覧、62は音声調整項目一覧、63は動作設定項目、64は表示設定項目である。 FIG. 8 is a flowchart for explaining speech / non-speech determination and determination result display processing in the television receiver of FIG. 5, and FIG. 9 explains the determination result display processing in the television receiver of FIG. FIG. 3 is a flowchart for excerpting the determination result display process in the flowchart of FIG. 2 and explaining in detail. Further, FIGS. 10 to 12 are diagrams illustrating an example of a setting screen for determination result display in the sound quality adjustment device of FIG. 1, FIG. 10 is an example of setting items for sound adjustment, and FIG. FIG. 12 shows an example of operation setting items for sound quality adjustment according to the present invention, and FIG. 12 shows an example of display setting items for sound quality adjustment according to the present invention, among the setting item examples of FIG. 10 to 12, 6 is an example of a setting screen for voice adjustment, 61 is a setting menu list, 62 is a voice adjustment item list, 63 is an operation setting item, and 64 is a display setting item.
ここで例示するテレビ受像機本体4は、主として、制御手段の一例としての本体マイコン44、アンテナ及びチューナ部40や外部入力部41などの映像・音声入力部、入力した映像信号に対し各種映像処理を施す映像処理IC43、入力した音声信号に対し各種音声処理を施す音声処理IC45、ユーザ操作を受け付ける本体操作部42、映像処理した映像信号を映し出すLCD,PDP,有機EL等のディスプレイ(表示デバイス)46、音声処理した音声信号を出力する左右のスピーカ47L,47R、リモコン49からの光を受光する受光部48により構成される。そして、マイコン44内のROM等には、計算式テーブル51及びスピーチセンサマーク表示目標テーブル52が格納されているものとする。なお、マイコン44及び音声処理IC45(及び映像処理IC43)は、システムLSI(Large Scale Integrated Circuit)としても組み込むこともできる。
The television receiver
また、周期処理時間の設定を、テレビ受像機4における調整工程で設定しておく。この周期処理時間の設定は、本発明に係る判定結果表示処理を行うに際し、音声処理IC45でなされるスピーチ/非スピーチの判定結果をマイコン44で読み取る周期を設定する処理であり、例えば100ms単位で読み取る設定しておくとよい。ここでは、例えば100ms〜2000msの間で可変としてもよく、調整工程だけでなくユーザ設定によっても可変としてもよい。このように読み取り時間をある程度固定しないと、判定結果表示の滑らかさに影響してしまう。実際にここで設定された周期で読み取られるデータ、すなわちスピーチ/非スピーチの判定結果のデータとしては、例えばレジスタの可動範囲として−100〜0〜+100(FFFF9C〜000000〜000064)を用意しておき、このレジスタの初期設定値を「000000」としておく。そして、音質調整自体は、このレジスタ値が正方向でスピーチ、負方向で非スピーチの音質設定となるように制御しておく。なお、音質調整を行わないモードの時は、マイコン44内部で強制的にスピーチの音質設定にするなどすればよいが、上述のスピーチ/非スピーチの判定結果のレジスタへの書込みは行わない。
In addition, the setting of the periodic processing time is set in the adjustment process in the
また、音質設定の計算式は、図6で例示した次式などにより予め設定しておく。まず、スピーチ性検出結果を、(I)0≦SP結果≦SPEECH LP、(II)SPEECH LP<SP結果<SPEECH HP、(III)SPEECH HP≦SP結果、の3つの段階に分類分けしておく。ミュージック性検出結果は、(i)0≦MU結果≦MUSIC LP,(ii)MUSIC LP<MU結果<MUSIC HP、(iii)MUSIC HP≦MU結果、の3つの段階に分類分けしておく。なお、例えば、SP結果はスピーチ性検出結果/83886の整数部分を、MU結果はミュージック性検出結果/83886の整数部分を採用すればよい。そして、SP結果及びMU結果は、例えば0〜100の範囲の値(000000h〜7FFFFFh)とすればよい。 The sound quality setting calculation formula is set in advance by the following formula illustrated in FIG. First, the speech detection result is classified into three stages: (I) 0 ≦ SP result ≦ SPEECH LP, (II) SPEECH LP <SP result <SPEECH HP, and (III) SPEECH HP ≦ SP result. . The music property detection result is classified into three stages: (i) 0 ≦ MU result ≦ MUSIC LP, (ii) MUSIC LP <MU result <MUSIC HP, and (iii) MUSIC HP ≦ MU result. For example, the SP result may be the integer part of the speech detection result / 83886, and the MU result may be the integer part of the music detection result / 83886. The SP result and the MU result may be set to a value in the range of 0 to 100 (000000h to 7FFFFFh), for example.
そして、(I)且つ(i)の場合、|SP結果−MU結果|+α、(I)且つ(ii)の場合、|SP結果−MU結果|、(I)且つ(iii)の場合、−MU結果、(II)且つ(i)の場合、SP結果−MU結果、(II)且つ(ii)の場合、|SP結果−MU結果|+α、(II)且つ(iii)の場合、SP結果−MU結果、(III)且つ(i)の場合、SP結果、(III)且つ(ii)の場合、SP結果−MU結果+α、(III)且つ(iii)の場合、|SP結果−MU結果|+α、といった計算式を用いる。 In the case of (I) and (i), | SP result−MU result | + α, in the case of (I) and (ii), | SP result−MU result |, in the case of (I) and (iii), − MU result, (II) and (i), SP result-MU result, (II) and (ii), | SP result-MU result | + α, (II) and (iii), SP result -MU result, (III) and (i), SP result, (III) and (ii), SP result -MU result + α, (III) and (iii), | SP result -MU result A calculation formula such as | + α is used.
ここで、SPEECH LP、SPEECH HP、MUSIC LP、MUSIC HPは0〜100の範囲で、状態の境界線となり、MONO、STEは0〜100の範囲でモノラル/ステレオ判定によるステレオ判定時「STE」、モノラル判定時「MONO」の値を+αとして計算結果に加算している。また、これらの値「SPEECH LP」「SPEECH HP」「MUSIC LP」「MUSIC HP」「MONO」「STE」は、調整工程で用意しておけばよい。「STE」の場合、α=+5、「MONO」の場合、α=+10などと決めておけばよく、αはマイナスの値であってもよい。 Here, SPEECH LP, SPEECH HP, MUSIC LP, and MUSIC HP are in the range of 0 to 100, which is a boundary line of the state, and MONO and STE are in the range of 0 to 100 and “STE” at the time of stereo determination by mono / stereo determination At the time of monaural determination, the value of “MONO” is added to the calculation result as + α. Also, these values “SPEECH LP”, “SPEECH HP”, “MUSIC LP”, “MUSIC HP”, “MONO”, and “STE” may be prepared in the adjustment step. In the case of “STE”, α = + 5, in the case of “MONO”, α = + 10 may be determined, and α may be a negative value.
音質設定の計算式の他に、表示目標数を下式、並びに下式におけるMIN及びMAXの値の設定などにより、予め設定しておく。ここで、各表示数の設定値は「以上未満」とする。なお、下式をスピーチセンサマーク表示目標テーブル52などとして格納しておけばよい。 In addition to the sound quality setting calculation formula, the display target number is set in advance by the following formula, and the MIN and MAX values in the following formula. Here, the set value of each display number is “less than or equal to”. The following equation may be stored as the speech sensor mark display target table 52 or the like.
MIN+(MAX−MIN)×変数[1〜9]÷9 MIN + (MAX−MIN) × variables [1-9] ÷ 9
上式において、MAX及びMINは、上述した例でいうところの−100〜+100の間の値として予め設定される最大値及び最小値であり、例えばMINを−80、MAXを90などと予め設定しておけばよい。さらに下式では、判定結果表示を10段階(つまりMAX)で行うものとして、すなわち表示の個数の一例として図4のマーク33が0〜10個表示できるように予め設定されているものとして例示しているが、これに限ったものではない。
In the above equation, MAX and MIN are the maximum and minimum values preset as values between −100 and +100 in the above example, for example, MIN is set to −80, MAX is set to 90, etc. You just have to. Further, in the following expression, the determination result is displayed in 10 steps (that is, MAX), that is, as an example of the number of displays, it is illustrated as being preset so that 0 to 10
上述のごときテレビ受像機4におけるマイコン44の処理は、図8を参照すると、まず、上述のごとく設定された周期での周期処理(例えば100ms単位)を行う(ステップS11)。ステップS11では、処理周期の到来によって、以下のステップS12〜S16を実行させることになる。まずステップS12では、動作設定が自動か否かを判定する。自動であれば、ステップS13〜S16の処理を実行してスピーチ/非スピーチ判定結果に基づく音質調整を実行することとなるが、自動でない(固定)の場合には以降の処理は実行せず、例えば強制的にスピーチ用の音質設定を行うなどすればよい。
As for the processing of the microcomputer 44 in the
ステップS13では、マイコン44は、音声処理IC45に命令することでスピーチ性及びミュージック性の検出を行わせ、その検出結果を読み込む。次に或いはステップS13の前段で、マイコン44は、音声処理IC45に命令することでモノラル/ステレオの判定を行わせ、その検出結果を読み込む(ステップS14)。そして、マイコン44は、読み取った音声処理IC45における検出結果を、テーブル51と比較することで計算式を選択する(ステップS15)。ステップS15では、スピーチ性検出結果及びミュージック性検出結果と「SPEECH LP」「SPEECH HP」「MUSIC LP」「MUSIC HP」を比較し計算式を決定することとなる。そして、マイコン44は、テーブル51上の該当する計算式を用い、モノラル/ステレオ判定結果を併せて代入して計算結果を算出し、スピーチ/非スピーチの判定結果(音質設定の計算結果)を算出してレジスタに書き込む(ステップS16)。このレジスタの値が、図9のステップS22での表示目標値の設定に使用される。
In step S13, the microcomputer 44 instructs the
マイコン44における表示処理は、まず、上述のごとく設定された周期での周期処理(例えば100ms単位)を行う(ステップS21)。ステップS21では、処理周期の到来によって、以下のステップS22〜S32を実行させることになる。まず、ステップS22では、図8で説明した処理の結果得られた判定結果のレジスタ値を上式(テーブル52)に代入すること、すなわち音質設定(音質調整)による計算結果をテーブル52に代入することで、表示目標値を設定、すなわち表示数を決定する。 In the display processing in the microcomputer 44, first, periodic processing (for example, in units of 100 ms) is performed with the period set as described above (step S21). In step S21, the following steps S22 to S32 are executed according to the arrival of the processing cycle. First, in step S22, the register value of the determination result obtained as a result of the processing described in FIG. 8 is substituted into the above equation (table 52), that is, the calculation result by sound quality setting (sound quality adjustment) is substituted into table 52. Thus, the display target value is set, that is, the display number is determined.
ここで、同期無し時及び無音時は表示を即時に“0”とする(ステップS23,S24)。ステップS23において、入力信号の同期の有無の判定及び無音状態の判定を行い、入力信号同期が無かった場合或いは無音状態であった場合、ステップS24において「強制的に“0”」とする計算を行って、ステップS30へ進む。無音状態の判定については他の実施形態で後述する。なお、ステップS23の判断及びステップS24における計算は、例えばユーザがニュース番組を視聴していて次に選曲によって砂嵐の画面が表示された場合などに有効である。このような場合、またスピーチ/非スピーチの判定結果としては例えばスピーチであるとの判定結果(例えばレジスタ値が+100)が徐々に0に落ちてはいくがレジスタに残ってしまっており、周期的な表示がそのレジスタ値(その残った値)を読み取って実行するようになっていることから、スピーチ/非スピーチの判定が実行できない砂嵐に対しても実行されているようにユーザが勘違いしてしまう。従って、このような勘違いを防止するために強制的にレジスタ値を0にする必要がある。 Here, the display is immediately set to “0” when there is no synchronization and when there is no sound (steps S23 and S24). In step S23, the presence / absence of synchronization of the input signal and the silence state are determined. If the input signal is not synchronized or is silent, the calculation is forcibly set to “0” in step S24. Go to step S30. The determination of the silent state will be described later in another embodiment. Note that the determination in step S23 and the calculation in step S24 are effective, for example, when the user views a news program and then displays a sandstorm screen by selecting a song. In such a case, as a speech / non-speech determination result, for example, a determination result indicating that the speech is a speech (for example, the register value is +100) gradually falls to 0 but remains in the register. Since the display is executed by reading the register value (the remaining value), the user misunderstands that it is also executed for a sandstorm where speech / non-speech determination cannot be performed. End up. Therefore, it is necessary to forcibly set the register value to 0 in order to prevent such a misunderstanding.
一方、ステップS23でNOの場合、前周期の表示数がステップS22で設定された表示目標値であるか否かを判定する(ステップS25)。ステップS25でYESの場合、その表示数を維持し(ステップS26)、ステップS30へ進む。ステップS25でNOの場合、前周期の表示数がステップS22で設定された表示目標値より小さいか否かを判定する(ステップS27)。ステップS27でYESの場合、「前周期の表示数+1」の計算を実行し(ステップS28)、ステップS30へ進む。ステップS27でNOの場合、「前周期の表示数−1」の計算を実行し(ステップS29)、ステップS30へ進む。 On the other hand, in the case of NO in step S23, it is determined whether or not the display number of the previous cycle is the display target value set in step S22 (step S25). If YES in step S25, the display number is maintained (step S26), and the process proceeds to step S30. In the case of NO in step S25, it is determined whether or not the display number of the previous cycle is smaller than the display target value set in step S22 (step S27). If “YES” in the step S27, a calculation of “the display number of the previous cycle + 1” is executed (step S28), and the process proceeds to the step S30. In the case of NO in step S27, the calculation of “number of previous period displays−1” is executed (step S29), and the process proceeds to step S30.
そして、ステップS24,S26,S28,S29の後、表示数を前周期の表示数に格納し(ステップS30)、表示するか否かの判定を行って(ステップS31)、表示すると判定された場合には画面に表示を行い(ステップS32)、そうでない場合にはそのままこの周期での処理を終了して次の周期の到来を待つ。このように、マイコン44では、ROM内に格納されたテーブル52を元に、上述のごとき周期処理及び計算がなされる。 Then, after Steps S24, S26, S28, and S29, the display number is stored in the display number of the previous cycle (Step S30), and whether or not to display is determined (Step S31). Is displayed on the screen (step S32). If not, the process in this cycle is terminated and the next cycle is awaited. Thus, the microcomputer 44 performs the periodic processing and calculation as described above based on the table 52 stored in the ROM.
次に、ステップS31における判定に関して説明する。この判定は、デフォルト値或いはユーザ設定を読み取ることでなされる。ここで、ユーザ設定は、上述した調整設定手段並びに表示設定手段における設定がそれに相当し、次のような手順でなされる。まず、図10に示すようにユーザメニュー一覧61(映像調整,音声調整,本体設定,機能切替)を表示し、ユーザが音声調整を選択することで、音声調整に関する項目一覧62(高音,低音,バランス,サラウンド,いきいきボイス,リセット)を表示する。ユーザが、その中から本発明に係る音質調整(「いきいきボイス」62a)を選択することで、図11或いは図12のように、動作設定項目(調整設定手段における設定項目)63及び表示設定項目64(表示設定手段における設定項目)を表示する。 Next, the determination in step S31 will be described. This determination is made by reading a default value or a user setting. Here, the user setting corresponds to the setting in the adjustment setting means and the display setting means described above, and is performed in the following procedure. First, as shown in FIG. 10, a user menu list 61 (video adjustment, audio adjustment, main unit setting, function switching) is displayed, and when the user selects audio adjustment, an item list 62 (high, low, (Balance, surround, lively voice, reset) is displayed. When the user selects the sound quality adjustment (“live voice” 62a) according to the present invention from among them, the operation setting item (setting item in the adjustment setting means) 63 and the display setting item as shown in FIG. 11 or FIG. 64 (setting item in the display setting means) is displayed.
動作設定項目63としては、例えば、本発明に係る音質調整を行わない設定に相当する「切」63a、スピーチ/非スピーチの判定無しで或いは判定に依らずにスピーチ(又は非スピーチ)寄りの音質に調整するための設定に相当する「固定」63b、及び自動でスピーチ/非スピーチの判定並びにその判定結果に基づく音質調整を行う設定に相当する「自動」63cを用意しておく。そして、「動作設定」が「自動」63cの時にスピーチセンサマークを表示し、「固定」63b,「切」63aの時にはスピーチセンサマークを表示しない。なお、フローのように、「切」64aに設定されている時でもデータの読み取りを行っておくとよい。一方、表示設定項目64としては、「表示なし」64a及び「表示あり」64bを用意しておき、「表示設定」が「表示あり」64bの時だけ、スピーチセンサマークを表示する。勿論、設定周期(例えば100ms単位)毎にデータを読み取って画面下部にスピーチセンサマークを表示すること自体を、「表示あり」64bに設定されている時のみ実行してもよい。
As the
上述のごとき構成及び処理により、本実施形態では、入力された音声信号に対してスピーチ/非スピーチを判定する際に、その判定結果をユーザに視認させることが可能となる。このような判定結果をユーザに視認させることによって、その判定結果に基づいて処理されている音質調整の正しい要因もユーザに把握させることが可能となる。また、その視認によって、さらなるユーザ設定も可能になる。また、スピーチ/非スピーチを判定する際にモノラル/ステレオ判定を行うことで、音声信号の音声情報だけからではなく番組(その音声信号を含む番組)の主旨に沿った判断(スピーチ/非スピーチの判断)も同時になすことで、入力された音声信号の特性によるイコライザ等の音響パラメータ制御の誤判定を極力低減し、的確な音響パラメータの制御及び的確な音質調整が可能となる。また、例えば、音声信号に音声情報と同時に重畳されたモノラル/ステレオ信号によってその番組の主旨を判定し、その結果に応じて入力された音声信号がスピーチか非スピーチ(音楽)かを判断するための判断基準を最適化することによって、放送された番組の内容、特性に応じたスピーチ/非スピーチ検出の自由な制御、及びその制御に基づく機器の制御(例えば音質調整や分別録画等)も可能になる。 With the configuration and processing as described above, in this embodiment, when speech / non-speech is determined for an input audio signal, the determination result can be made visible to the user. By allowing the user to visually recognize such a determination result, it is possible to cause the user to understand the correct factor of the sound quality adjustment being processed based on the determination result. Further, further user settings can be made by the visual recognition. In addition, by performing monaural / stereo determination when determining speech / non-speech, not only the audio information of the audio signal but also the determination (speech / non-speech) based on the gist of the program (the program including the audio signal) (Judgement) is also performed at the same time, it is possible to reduce erroneous determination of acoustic parameter control of an equalizer or the like due to the characteristics of the input audio signal as much as possible, and it is possible to perform accurate acoustic parameter control and accurate sound quality adjustment. Also, for example, in order to determine whether the program is based on a monaural / stereo signal superimposed on the audio signal at the same time as the audio information, and to determine whether the input audio signal is speech or non-speech (music) according to the result. By optimizing the judgment criteria, it is possible to freely control speech / non-speech detection according to the contents and characteristics of the broadcasted program, and to control equipment based on that control (for example, sound quality adjustment and separate recording) become.
また、本実施形態に係るコンテンツ表示装置では、例えば、スピーチ自動検出機能を使用し、TV番組やビデオ/DVD等がスピーチ音声か非スピーチ音声かを視覚的に認識できる表示機能を備えることで、現在表示しているコンテンツがスピーチ音声か非スピーチ音声かをユーザに視覚的に認識させることが可能となる。すなわち、リアルタイムにTV番組やビデオ/DVD等の音声体系(スピーチ/非スピーチ)が視覚的にわかる。また、上述したスピーチ/非スピーチの判定をコンテンツの記録(再録画も含む)に適用してもよく、その場合には、コンテンツ表示装置に、コンテンツを放送経由,ネットワーク経由,記録媒体経由などで取得するだけでなく取得したコンテンツを記録或いは予約記録する機能を付加しておくとよい。例えば、各種レコーダなどでスピーチ/非スピーチ判定をCM判定やその他の分別録画に利用することもでき、そのときに、併せてそのコンテンツがスピーチに相当するのか、或いは非スピーチに相当するのかをユーザに視認可能なように表示すればよい。 In addition, the content display device according to the present embodiment includes a display function capable of visually recognizing whether a TV program, a video / DVD, or the like is a speech sound or a non-speech sound by using a speech automatic detection function, for example. It is possible to make the user visually recognize whether the currently displayed content is speech voice or non-speech voice. That is, an audio system (speech / non-speech) such as a TV program or video / DVD can be visually recognized in real time. In addition, the speech / non-speech determination described above may be applied to content recording (including re-recording). In this case, the content is transmitted to the content display device via broadcast, via a network, via a recording medium, or the like. It is preferable to add a function to record or reserve record the acquired content as well as the acquired content. For example, speech / non-speech determination can be used for CM determination and other separate recordings with various recorders, etc., and at that time, whether the content corresponds to speech or non-speech at the same time It may be displayed so as to be visible.
また、図1乃至図12で上述した音質調整装置1やテレビ受像機4等のコンテンツ表示装置、さらにはそれらの構成要素となる各手段は、上述したように、ハードウェアで構成してもよいがその一部をソフトウェアで構成してもよい。例えば、図5のマイコンで示したようなコンピュータやPC等の汎用コンピュータなどにプログラムを組み込むことで構成してもよく、その場合の各種処理について、図13に示す一般的な情報処理装置の構成例を参照して説明する。図13は、一般的な情報処理装置の構成例を示すブロック図で、図中、7は情報処理装置、71はCPU(Central Processing Unit)、72はRAM(Random Access Memory)、73は書き換え可能なROM、74は入力装置、75は表示装置、76は出力装置、77はバスである。
Also, the content display devices such as the sound
また、コンピュータを本発明に係る装置や各手段として機能させるためのプログラム、或いは各処理ステップをコンピュータに実行させるためのプログラムは、ROM73に蓄積されており、CPU71が読み出すことによって実行される。コンピュータ等に搭載される場合のこのプログラムは、上述の各手段としてコンピュータのCPU71等を制御するプログラム(コンピュータを機能させるプログラム)である。本発明に係る装置や各手段で取り扱われる情報は、その処理時に一時的にRAM72に蓄積され、その後、各種ROM73に格納され、必要に応じて、CPU71によって読み出し、修正・書き込みが行われる。ここで本発明に関連する情報としては、ユーザ選択された項目の情報や、閾値や入力装置74の一つとしての音声信号入力手段によって入力され信号解析される時の音声信号などが挙げられる。また、例えばROM73に記憶された設定選択肢のうち設定された値をRAM72に読み出すことでその設定をその間維持するようにしてもよい。
Further, a program for causing a computer to function as an apparatus or each means according to the present invention or a program for causing a computer to execute each processing step is stored in the
また、処理の途中経過や結果は、LCD,PDP,有機EL,CRT等の表示装置75を通して装置ユーザに提示され、ユーザ設定が必要な場合には、キーボード,マウス(ポインティングデバイス)等の入力装置74から装置ユーザが処理に必要なパラメータを入力指定或いは選択入力すればよい(例えば入力する音声信号或いはそれを含むコンテンツの指定、各種ユーザ設定項目の選択など)。また、このプログラムは、装置ユーザが使用する際に容易となるように、表示装置75用のグラフィカルユーザインターフェース(GUI)を備えるようにするとよい。GUIの例は、図10乃至図12でも例示している。出力装置76としては、音声信号の出力装置であるスピーカをはじめとして、ネットワークに接続して通信を行うためのネットワークボード等の通信機器や、その他、印刷装置等の出力デバイス用の出力装置がある。なお、CPU71,RAM72,ROM73,入力装置74,表示装置75,出力装置76は、バス77などで接続されていればよい。
The progress and result of the process are presented to the device user through a
また、上述のごときプログラムを記録した記録媒体としては、具体的には、CD−ROM、光磁気ディスク、DVD−ROM、FD、フラッシュメモリ、及びその他各種ROM(書き換え可能なROMも含む)やRAM等が想定でき、上述した本発明の各実施形態の機能をコンピュータに実行させるプログラムを、これら記録媒体に記録して流通させることにより、当機能の実現を容易にする。そして、コンピュータ等の情報処理装置に、上述のごとくの記録媒体を装着して情報処理装置によりプログラムを読み出すか、若しくは情報処理装置が備えている記録媒体に当プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に係わる機能を実行することができる。 Further, as a recording medium on which the program as described above is recorded, specifically, a CD-ROM, a magneto-optical disk, a DVD-ROM, an FD, a flash memory, and various other ROMs (including a rewritable ROM) and a RAM The above functions can be easily realized by recording and distributing a program for causing a computer to execute the functions of the above-described embodiments of the present invention on these recording media. Then, the information processing apparatus such as a computer is loaded with the recording medium as described above, and the program is read by the information processing apparatus, or the program is stored in the recording medium included in the information processing apparatus, By reading in response, the function according to the present invention can be executed.
図14は、本発明の他の実施形態に係る音質調整装置の一構成例を示すブロック図で、図中、8は音質調整装置、80は音声信号入力手段、81aはミュージック性検出手段、81bはスピーチ性検出手段、82はスピーチ/非スピーチ判定手段、83は有音/無音判定手段、85は音質調整手段、86は音声信号出力手段、87は判定結果表示手段である。 FIG. 14 is a block diagram showing a configuration example of a sound quality adjusting apparatus according to another embodiment of the present invention, in which 8 is a sound quality adjusting apparatus, 80 is an audio signal input means, 81a is a music property detecting means, and 81b. Is speech quality detection means, 82 is speech / non-speech determination means, 83 is sound / silence determination means, 85 is sound quality adjustment means, 86 is audio signal output means, and 87 is judgment result display means.
本実施形態に係る音質調整装置8は、ミュージック性検出手段81a、スピーチ性検出手段81b、スピーチ/非スピーチ判定手段82、有音/無音判定手段83、音質調整手段85、音声信号出力手段86、及び判定結果表示手段87を備えるものとする。有音/無音判定手段83は、音声信号入力手段80で入力された音声信号が有音の状態か無音の状態かを判定する。音声信号入力手段80では、その入力元や入力方法は問わない。また、有音/無音判定手段83では、例えば入力音声信号の信号レベルを検出すること(所定レベル以上を有音とするなど)で、有音/無音のいずれの状態であるかを判定すればよい。なお、有音/無音判定手段83は、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。
The sound
音質調整手段85は、スピーチ/非スピーチ判定手段82の判定結果(図1等で説明したものと同様)並びに有音/無音判定手段83での判定結果に基づいて、音声信号を有音と無音とで異なる音質に設定し、その設定に基づいて音質を調整する。なお、音質調整手段85は、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。そして、音質調整手段85による無音時の音質設定は、有音/無音判定手段83で無音と判定された直前の有音時の音質設定に基づき、その一部のみの変更により行う。例えば、無音の場合には所定の低域帯及び所定の高域帯の出力レベルを有音の場合に比べ1〜2dB下げるなどすればよい。一部のみの変更により、直前の有音時の設定値に近い設定値で調整することとなり、無音時から再度有音状態に移行した際、この状態が上記直前の有音時と近い信号レベルを持つ状態と想定されることから、設定値の変更が一部で済み、素早い復帰が可能となる。なお、この効果は、音質調整手段85に基づく音質の設定をハードウェアで構成することでより顕著になる。そして、音声信号出力手段86は、音質調整手段85で調整された音声信号を出力する。
The sound
また、ミュージック性検出手段81a、スピーチ性検出手段81b、及びスピーチ/非スピーチ判定手段82については、図1で説明した通りであるが、ここではモノラル/ステレオ判定に基づく閾値の最適化を行わない例を示している。なお、モノラル/ステレオ判定によってスピーチ自動検出機能の判定基準を最適化させる方が、検出機能の精度を向上させることができる。また、計算式テーブル51のαに相当するパラメータを有音/無音によって異ならしめるようにしてもよい。また、スピーチ/非スピーチ判定手段82の代わりに、EPG情報によってコンテンツの詳細な時系列の情報を取得するよう構成してもよく、その場合にはその取得した情報を元に判定結果表示も行うこととなる。また、スピーチ/非スピーチ判定手段82の配置は、図14で示したものに限らない。そして、この形態における音質調整手段85は、スピーチ/非スピーチ判定手段82における判定結果に基づいて、スピーチと非スピーチとで、上記一部のみの変更の値を異ならしめればよい。
Further, the music
ここでの音質設定の方法は任意であり、スピーチ/非スピーチにより、その設定値や増減の設定値、或いは各周波数帯での設定値などが異なっていればよい。例えば、グラフィックイコライザのごときイコライザの中心周波数とフィルタのQ値が固定されている音質設定や、パラメトリックイコライザのごとくこれらも変更可能な音質設定であってもよいが、上述したように、基本的に有音から無音に移行した際の音質設定は直前の有音時のそれに一部変更したものとなる。さらに、上記一部のみの変更は、無音の場合には所定の低域帯及び所定の高域帯の出力レベルを有音の場合に比べ1〜2dB下げるなどとして例示したように、一部の周波数帯域で局所的に出力レベルを低減させる変更とすることが好ましい。 The sound quality setting method here is arbitrary, and it suffices if the setting value, the increase / decrease setting value, or the setting value in each frequency band differs depending on speech / non-speech. For example, a sound quality setting such as a graphic equalizer in which the center frequency of the equalizer and the Q value of the filter are fixed, or a sound quality setting that can be changed like a parametric equalizer may be used. The sound quality setting at the time of transition from sound to silence is partially changed from that at the previous sound. In addition, only a part of the change described above is illustrated as a case where the output level of the predetermined low-frequency band and the predetermined high-frequency band is lowered by 1 to 2 dB in the case of silence as compared to the case of sound. It is preferable to change the output level locally in the frequency band.
また、判定結果表示手段87は、スピーチ/非スピーチ判定の結果をユーザに視認させるための手段であるが、同様に、有音/無音の判定結果をユーザに視認させるようにしてもよい。 Further, the determination result display means 87 is a means for making the user visually recognize the result of speech / non-speech determination. Similarly, the determination result of sound / no sound may be made visible to the user.
図15は、図14の音質調整装置における音質調整処理の一例を説明するためのフロー図で、図16は、図14の音質調整装置における音質調整処理で用いる音質設定イコライジングの一例を示す図である。ここで、図16(A)はスピーチ時の例、図16(B)は非スピーチ時の例を示している。 FIG. 15 is a flowchart for explaining an example of the sound quality adjustment process in the sound quality adjustment apparatus of FIG. 14, and FIG. 16 is a diagram showing an example of the sound quality setting equalizing used in the sound quality adjustment process in the sound quality adjustment apparatus of FIG. is there. Here, FIG. 16A shows an example during speech, and FIG. 16B shows an example during non-speech.
音質が基本音質に初期設定されているものとして説明する。また、音声信号からスピーチ/非スピーチを判定し、スピーチと判定されたときにはAの音質に、非スピーチと判定されたときにはBの音質に設定する例を中心に説明する。 In the following description, it is assumed that the sound quality is initially set to the basic sound quality. Further, an explanation will be mainly given of an example in which speech / non-speech is determined from a speech signal, and the sound quality of A is set when it is determined as speech, and the sound quality of B is set when it is determined as non-speech.
まず、有音/無音判定手段83で入力レベルを確認する(ステップS41)。ここで、有音であればステップS45へ、無音であれば基本音質を修正し(ステップS42)、再度ステップS41で入力レベルを確認する。ステップS42では、ステップS41での無音状態との判定が二度目以降の場合には、基本音質の修正を行わないようにしてもよく、この場合でなく再度修正する場合でもその設定は継続しておく。ステップS41,S42での処理は、音声信号が入力され、最初に音質が音質A/Bのいずれかに設定される前の処理であり、その後はステップS43以降の処理で設定の変更及び保持が遂行されていく。 First, the voice / silence determination means 83 confirms the input level (step S41). Here, if there is sound, the process proceeds to step S45. If there is no sound, the basic sound quality is corrected (step S42), and the input level is confirmed again in step S41. In step S42, if the silence state is determined for the second time or later in step S41, the basic sound quality may not be corrected, and the setting is continued even in the case of correcting again instead of this case. deep. The processes in steps S41 and S42 are processes before an audio signal is input and the sound quality is first set to one of sound quality A / B, and thereafter, the setting is changed and retained in the processes after step S43. It will be carried out.
次に、ミュージック性検出手段11a及びスピーチ性検出手段11bが、ミュージック性の検出及びスピーチ性の検出をに実行する(ステップS43,S44)。ステップS43,S44の順序は問わない。次に、スピーチ/非スピーチを判定する(ステップS45)。なお、スピーチ/非スピーチにおける判定基準は、ある1つの閾値処理によってなされても複数パラメータの閾値処理によってなされてもよい。ステップS45の判定に基づいて、音質の設定・調整を行う(ステップS46,S47)。この音質設定では、スピーチと判定されたときにはAの音質を選択して音質を調整し(ステップS46)、非スピーチと判定されたときにはBの音質を選択して音質を調整する(ステップS47)。
Next, the music
ここで、音質設定Aと音質設定Bとの違いの例について、図16を参照して説明する。音質設定A(スピーチ)の場合、イコライザの周波数特性をグラフ91で示すように設定し、音質設定B(非スピーチ)の場合、イコライザの周波数特性をグラフ93で示すように設定する。グラフ91とグラフ93との違いは、非スピーチのとき、スピーチのときの所定の低周波数91aの付近及び所定の高周波数91bの付近の出力レベルに比べて、所定の低周波数93aの付近及び所定の高周波数93bの付近の出力レベルを強調している点にある。
Here, an example of the difference between the sound quality setting A and the sound quality setting B will be described with reference to FIG. In the case of sound quality setting A (speech), the frequency characteristic of the equalizer is set as shown by a
ステップS46,S47の処理では、この選択した音質を保持しておき、次にステップS48において、その元となったスピーチ/非スピーチの判定結果の表示を行う。そして、有音/無音判定手段83で入力レベルを確認する(ステップS49)。ここで、有音であれば処理を終了し、無音であれば音質の調整を行う。ここで行われる音質の調整は、音質をそれぞれの前の状態に合わせて修正する(ステップS50)。設定保持されている音質(無音になる前の音質)が、音質Aであった場合には図16(A)のグラフ92のごとき音質A′、音質Bであった場合には図16(B)のグラフ94のごとき音質B′に修正する。スピーチ時のグラフ92とグラフ91との違いは、所定の低周波数91aの付近及び所定の高周波数91bの付近を強調している点にある。同様に、非スピーチ時のグラフ94とグラフ93との違いは、所定の低周波数93aの付近及び所定の高周波数93bの付近を強調している点にある。本実施形態では、音質A′,B′のように、スピーチ自動検出機能使用時に、有音時の音質設定A,Bの他に、無音状態用の音質設定、すなわち音声入力信号が無い時、若しくは入力信号が小さい(バックグランドノイズ)時の音質設定を設けておく。
In the processes in steps S46 and S47, the selected sound quality is held, and in step S48, the original speech / non-speech determination result is displayed. The voice / silence determination means 83 confirms the input level (step S49). Here, if there is sound, the process is terminated, and if there is no sound, the sound quality is adjusted. In the sound quality adjustment performed here, the sound quality is corrected according to the previous state (step S50). When the set sound quality (the sound quality before silence) is the sound quality A, the sound quality is A ′ as shown in the
次に、無音状態から有音状態へ復帰したかを判定する(ステップS51)。復帰せず、無音のままであればそのときの設定(音質パラメータなど)は変更せずに継続しておき、有音状態への復帰を待つ。一方、復帰した場合には、音質A′又は音質B′を、有音時の音質設定A又はBに戻し(ステップS52)、処理を終了する。 Next, it is determined whether the silent state has returned to the voiced state (step S51). If the sound is not restored and remains silent, the settings (sound quality parameters, etc.) at that time are continued without being changed, and a return to the sound state is awaited. On the other hand, when the sound is restored, the sound quality A ′ or the sound quality B ′ is returned to the sound quality setting A or B when there is a sound (step S52), and the process is terminated.
以上、本実施形態のごとき有音/無音判定を実行することにより、次のような従来技術の課題を解決することができる。すなわち、従来技術では、音声情報だけから音楽情報の是非を判断することによって生ずるこのような誤判定によって的確な音質調整を行うことが困難であるだけでなく、音声信号が無音の信号や入力レベルが小さい信号であった場合には、スピーカから低高域ノイズが出力される。このような事態を解消するために、信号レベルが0或いは小さいときには入力信号をシャットアウトするような音質調整を行うように機器を構成した場合であっても、信号レベルが上がり音声が復帰したときに的確で素早い音質設定ができない。このような現象は、記録媒体のローディング時、外部入力との切り替え時、視聴するコンテンツがスピーチ時から非スピーチ時への切り替え時、受信するチャンネルの切り替え時、さらにはCMからの本編への移行時など、急激に信号レベルの大小が切り替わるような音声信号に対しては、特に問題となる。 As described above, by executing the sound / silence determination as in the present embodiment, the following problems of the prior art can be solved. That is, in the prior art, not only is it difficult to accurately adjust the sound quality due to such a misjudgment caused by judging whether or not the music information is only from the sound information, but the sound signal is a silent signal or an input level. Is a small signal, low and high frequency noise is output from the speaker. To solve this situation, when the signal level rises and the sound is restored even when the equipment is configured to adjust the sound quality so that the input signal is shut out when the signal level is 0 or low The sound quality cannot be set accurately and quickly. Such phenomena occur when recording media are loaded, when switching to external input, when the content to be viewed is switched from speech to non-speech, when the channel to be received is switched, and from CM to the main part. This is particularly a problem for audio signals whose signal level changes suddenly, such as at times.
すなわち、本実施形態に係る音質調整装置によれば、無音時にスピーカから低高域ノイズが出力されるのを削減すると共に、前の状態に近い状態で音質設定をすることによって、音声復帰時の素早い対応(音質設定)が可能となる。つまり、この音質調整装置では、入力レベルが急激に切り替わるような音声信号に対しても、無音時のノイズ出力を的確に低減し且つ有音状態に素早く復帰するような音質設定を行うことが可能となる。 That is, according to the sound quality adjustment apparatus according to the present embodiment, the low-high frequency noise is output from the speaker when there is no sound, and the sound quality setting is performed in a state close to the previous state, so that the sound quality is restored. Quick response (sound quality setting) is possible. In other words, with this sound quality adjustment device, it is possible to perform sound quality settings that accurately reduce noise output during silence and quickly return to the sound state even for audio signals whose input level changes abruptly. It becomes.
本実施形態によれば、このような効果に加え、音声信号の音声情報だけからではなく番組(その音声信号を含む番組)の主旨に沿った判断(スピーチ/非スピーチの判断)も同時になすことで、入力された音声信号の特性によるイコライザ等の音響パラメータ制御の誤判定を極力低減し、的確な音響パラメータの制御及び的確な音質調整が可能となり、さらに、本発明の主たる効果として、入力された音声信号に対してスピーチ/非スピーチを判定する際にその判定結果をユーザに視認させることが可能となる。例えば、音声信号に音声情報と同時に重畳されたモノラル/ステレオ信号によってその番組の主旨を判定し、その結果に応じて入力された音声信号がスピーチか非スピーチ(音楽)かを判断するための判断基準を最適化することによって、放送された番組の内容、特性に応じたスピーチ/非スピーチ検出の自由な制御、及びその制御に基づく音質調整、並びにユーザへの検出結果の提示が可能になる。 According to the present embodiment, in addition to the effects described above, not only the audio information of the audio signal but also the determination (speech / non-speech determination) according to the gist of the program (the program including the audio signal) is made at the same time. Therefore, it is possible to reduce the erroneous determination of the acoustic parameter control of the equalizer or the like as much as possible due to the characteristics of the input audio signal, and it is possible to accurately control the acoustic parameters and adjust the sound quality.In addition, as the main effect of the present invention, When the speech / non-speech is determined for the audio signal, the determination result can be made visible to the user. For example, the main purpose of the program is determined by a monaural / stereo signal superimposed on the audio signal at the same time as the audio information, and a determination for determining whether the input audio signal is speech or non-speech (music) according to the result. By optimizing the criteria, it is possible to freely control speech / non-speech detection according to the contents of broadcasted programs, characteristics, and sound quality adjustment based on the control, and to present detection results to the user.
また、図14乃至図16で上述した音質調整装置8も、図1等で示した音質調整装置と同様に、コンテンツ表示装置に組み込むことも可能である。また、その音質調整装置8又はコンテンツ表示装置における構成要素となる各手段もハードウェアで構成してもよいがその一部をソフトウェアで構成してもよい。PC(パーソナルコンピュータ)等の汎用コンピュータなどにプログラムを組み込むことで構成した例、並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体の例も、図13を参照して説明した通りであるが、ROMに格納されているプログラムが異なる。このプログラムは、上述した各手段に対応する処理ステップ、すなわち有音/無音判定ステップ、スピーチ/非スピーチ判定ステップ、音質調整ステップ、及びスピーチ/非スピーチ判定に基づく判定結果表示ステップとを、コンピュータに実行させるためのプログラムである。そして、音質調整ステップにおける無音時の音質設定は、有音/無音判定ステップで無音と判定された直前の有音時の音質設定に基づき、その一部のみの変更により行う。また、音質調整を音質調整器(ハードウェア)によって実行させる場合の音質調整ステップは、音声信号を音質設定に基づき音声信号の音質を音質調整機器に調整させるための制御を行うステップとなる。
Further, the sound
1,8…音質調整装置、4…テレビ受像機、7…情報処理装置、10,80…音声信号入力手段、11a,81a…ミュージック性検出手段、11b,81b…スピーチ性検出手段、12,82…スピーチ/非スピーチ判定手段、13…モノラル/ステレオ判定手段、14…基準最適化手段、14a…スイッチ、14b…閾値VSL1への設定手段、14c…閾値VSL2への設定手段、15,85…音質調整手段、16,86…音声信号出力手段、、17,87…判定結果表示手段40…チューナ部、41…外部入力部、42…本体操作部、43…映像処理IC、44…マイコン、45…音声処理IC、46…ディスプレイ、47L,47R…スピーカ、48…受光部、49…リモコン、71…CPU、72…RAM、73…書き換え可能なROM、74…入力装置、75…表示装置、76…出力装置、77…バス、83…有音/無音判定手段。
DESCRIPTION OF
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005260618A JP4587916B2 (en) | 2005-09-08 | 2005-09-08 | Audio signal discrimination device, sound quality adjustment device, content display device, program, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005260618A JP4587916B2 (en) | 2005-09-08 | 2005-09-08 | Audio signal discrimination device, sound quality adjustment device, content display device, program, and recording medium |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010157615A Division JP2010231241A (en) | 2010-07-12 | 2010-07-12 | Voice signal discrimination apparatus, tone adjustment device, content display device, program, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007072273A JP2007072273A (en) | 2007-03-22 |
JP4587916B2 true JP4587916B2 (en) | 2010-11-24 |
Family
ID=37933749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005260618A Expired - Fee Related JP4587916B2 (en) | 2005-09-08 | 2005-09-08 | Audio signal discrimination device, sound quality adjustment device, content display device, program, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4587916B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008278003A (en) * | 2007-04-26 | 2008-11-13 | Matsushita Electric Ind Co Ltd | Audio signal processing apparatus |
WO2010003521A1 (en) * | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and discriminator for classifying different segments of a signal |
JP2011065093A (en) * | 2009-09-18 | 2011-03-31 | Toshiba Corp | Device and method for correcting audio signal |
JP4886907B2 (en) * | 2011-06-14 | 2012-02-29 | 株式会社東芝 | Audio signal correction apparatus and audio signal correction method |
CN113724708A (en) * | 2021-07-23 | 2021-11-30 | 山东环维通讯科技有限公司 | Quality control system for converting voice into text intelligent checklist |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0588695A (en) * | 1991-04-12 | 1993-04-09 | Samsung Electron Co Ltd | Audio/music discriminator of audio band signal |
JPH1124698A (en) * | 1997-07-09 | 1999-01-29 | Sony Corp | Signal discriminating device, code book switching device, signal discriminating method and code book switching method |
JP2003309530A (en) * | 2002-04-16 | 2003-10-31 | Hitachi Ltd | Digital broadcasting contents delivery station and contents delivery method, and digital broadcasting reception terminal and audio contents processing method |
JP2004354589A (en) * | 2003-05-28 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for sound signal discrimination |
JP2005227544A (en) * | 2004-02-13 | 2005-08-25 | Matsushita Electric Ind Co Ltd | Voice signal recording method and voice signal recording device |
-
2005
- 2005-09-08 JP JP2005260618A patent/JP4587916B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0588695A (en) * | 1991-04-12 | 1993-04-09 | Samsung Electron Co Ltd | Audio/music discriminator of audio band signal |
JPH1124698A (en) * | 1997-07-09 | 1999-01-29 | Sony Corp | Signal discriminating device, code book switching device, signal discriminating method and code book switching method |
JP2003309530A (en) * | 2002-04-16 | 2003-10-31 | Hitachi Ltd | Digital broadcasting contents delivery station and contents delivery method, and digital broadcasting reception terminal and audio contents processing method |
JP2004354589A (en) * | 2003-05-28 | 2004-12-16 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for sound signal discrimination |
JP2005227544A (en) * | 2004-02-13 | 2005-08-25 | Matsushita Electric Ind Co Ltd | Voice signal recording method and voice signal recording device |
Also Published As
Publication number | Publication date |
---|---|
JP2007072273A (en) | 2007-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6896135B2 (en) | Volume leveler controller and control method | |
JP6921907B2 (en) | Equipment and methods for audio classification and processing | |
KR101249239B1 (en) | Audio level control | |
CN104079247B (en) | Balanced device controller and control method and audio reproducing system | |
KR101958664B1 (en) | Method and apparatus for providing various audio environment in multimedia contents playback system | |
KR20060123072A (en) | Method and apparatus for controlling play of an audio signal | |
EP2538559B1 (en) | Audio controlling apparatus, audio correction apparatus, and audio correction method | |
JP4837123B1 (en) | SOUND QUALITY CONTROL DEVICE AND SOUND QUALITY CONTROL METHOD | |
JP4587916B2 (en) | Audio signal discrimination device, sound quality adjustment device, content display device, program, and recording medium | |
US8837744B2 (en) | Sound quality correcting apparatus and sound quality correcting method | |
JP4709928B1 (en) | Sound quality correction apparatus and sound quality correction method | |
JP2006171458A (en) | Tone quality controller, content display device, program, and recording medium | |
JP2010231241A (en) | Voice signal discrimination apparatus, tone adjustment device, content display device, program, and recording medium | |
JP4275055B2 (en) | SOUND QUALITY ADJUSTMENT DEVICE, BROADCAST RECEIVER, PROGRAM, AND RECORDING MEDIUM | |
JP4275054B2 (en) | Audio signal discrimination device, sound quality adjustment device, broadcast receiver, program, and recording medium | |
EP4307693A1 (en) | Control device, control method, and program | |
CN115775551A (en) | Real-time sound modification method and device and storage medium | |
JP2006171663A (en) | Demodulated sound signal level decision system | |
JP2000276186A (en) | Device and method for voice processing and recording medium where the method is recorded |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100712 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100907 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100907 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |