JP2006285254A - Method and apparatus for measuring voice speed, and sound recorder - Google Patents
Method and apparatus for measuring voice speed, and sound recorder Download PDFInfo
- Publication number
- JP2006285254A JP2006285254A JP2006095376A JP2006095376A JP2006285254A JP 2006285254 A JP2006285254 A JP 2006285254A JP 2006095376 A JP2006095376 A JP 2006095376A JP 2006095376 A JP2006095376 A JP 2006095376A JP 2006285254 A JP2006285254 A JP 2006285254A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- phoneme
- speech
- word
- speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
Images
Abstract
Description
本発明は、音声処理技術、特に音声速度測定方法及び装置並びに録音装置に関する。 The present invention relates to a voice processing technique, and more particularly to a voice speed measuring method and apparatus and a recording apparatus.
現在、各種のタイプの録音装置がプロフェショナル録音スタジオ又は家庭用に幅広く使用されている。
多くの録音装置は音の大きさ及び周波数を測定し、制御する機能を有するが、音声速度を測定し、制御する機能を有していない。他方、録音スタジオ又は実験室での録音作業中には、(アナウンサのような)話者及びディレクタ又はモニタなどは自らの経験に基づいて音の速度を主観的に測定し、制御しており、結果は余り正確ではないことが多い。録音を完了した後に語、文又は節の開始及び停止時刻を手動にてマーク付けすることによって音声速度を測定することができるが、これは、リアルタイムで音声速度を測定する必要があるときには使用できない。 Many recording devices have the function of measuring and controlling the volume and frequency of sound, but do not have the function of measuring and controlling the voice speed. On the other hand, during recording work in a recording studio or laboratory, speakers (such as announcers) and directors or monitors, etc., subjectively measure and control the speed of sound based on their experience, The results are often not very accurate. You can measure voice speed by manually marking the start and stop times of words, sentences or clauses after recording is complete, but this is not available when you need to measure voice speed in real time .
故に、録音又は音発生中に音声速度を自動的に測定し、計算し、情報を素早く又はリアルタイムで話者及び(ディレクタ、DJ及び他のような)関係者にフィードバックすることができれば望ましく、それにより、彼等はいつでも話者の音声速度を知ることができ、音声時間及び速度を制御できる。 Therefore, it would be desirable to be able to automatically measure and calculate voice speed during recording or sound generation and to feed back information quickly and in real time to speakers and parties (such as directors, DJs and others) Thus, they can know the voice speed of the speaker at any time and can control the voice time and speed.
従来技術の上記問題を解決するために、本発明が提供される。本発明の一態様は、音声を含む音声情報を入力するステップと、前記音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、前記音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、前記語列及び認識された各語に対応するタイミング点に基づいて前記音声の速度を算出するステップと含むことを特徴とする。 In order to solve the above problems of the prior art, the present invention is provided. One aspect of the present invention includes a step of inputting speech information including speech, a step of recognizing a phoneme sequence and a timing point corresponding to each phoneme from the speech information, and a timing point corresponding to the phoneme sequence and each phoneme. Recognizing a word string and a timing point corresponding to each word, and calculating a speed of the voice based on the word string and a timing point corresponding to each recognized word.
本発明の他の態様は、音声に対応するテキスト情報を入力するステップと、前記音声を含む音声情報を入力するステップと、前記テキスト情報に含まれる語列に対応する音素列を生成するステップと、前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列の各音素に対応するタイミング点を認識するステップと、前記語列及び認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するステップとを含むことを特徴とする。 According to another aspect of the present invention, a step of inputting text information corresponding to speech, a step of inputting speech information including the speech, and a step of generating a phoneme sequence corresponding to a word sequence included in the text information, Recognizing a timing point corresponding to each phoneme of the phoneme sequence from the speech information to obtain a timing point corresponding to each word of the word sequence, and corresponding to the word sequence and each recognized word Calculating the speed of the voice based on a timing point.
本発明の他の態様は、音声を含む音声情報を入力するよう構成される音声入力部と、前記音声入力部により入力された前記音声情報から音素列及び各音素に対応するタイミング点を認識するよう構成される音素列認識部と、前記音素列及び前記音素列認識部により認識された各音素に対応する前記タイミング点から前記音声に含まれる語列及び各語に対応するタイミング点を認識するように構成される語列認識部と、前記語列及び前記語列認識部によって認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するように構成される音声速度計算部とを具備することを特徴とする。 According to another aspect of the present invention, a speech input unit configured to input speech information including speech, and a phoneme string and a timing point corresponding to each phoneme are recognized from the speech information input by the speech input unit. A phoneme string recognition unit configured as described above, and a word string included in the speech and a timing point corresponding to each word from the phoneme string and the timing point corresponding to each phoneme recognized by the phoneme string recognition unit A speech speed calculator configured to calculate the speed of the speech based on the word sequence and the timing point corresponding to each word recognized by the word sequence recognizer It comprises the part.
本発明の他の態様は、速度を含む音声情報を入力するように構成される音声入力部と、前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、前記テキスト情報に含まれる語列に対応する音素列を生成するように構成される音素列生成部と、前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列生成部により生成された前記音素列の各音素に対応するタイミング点を認識するように構成される強制整合部と、前記語列及び各語に対応する前記タイミング点に基づいて前記音声の前記速度を算出するように構成される音声速度計算部とを具備することを特徴とする。 Another aspect of the present invention includes a voice input unit configured to input voice information including speed, a text input unit configured to input text information corresponding to the voice, and the text information. A phoneme string generator configured to generate a phoneme string corresponding to an included word string, and generated by the phoneme string generator from the speech information to obtain a timing point corresponding to each word of the word string. A compulsory matching unit configured to recognize a timing point corresponding to each phoneme of the phoneme string, and to calculate the speed of the speech based on the word string and the timing point corresponding to each word. And a voice speed calculator configured.
本発明の他の態様は、上記音声速度測定装置を含む録音装置を提供する。 Another aspect of the present invention provides a recording device including the above-described audio speed measuring device.
図1は、本発明の実施形態に従った音声速度測定方法を示すフローチャートである。図1に示すように、最初にステップ101で、音声を含む音声情報が入力される。ここで、音声情報は話者の音声を含む音声データであり、これはWAV,RAM,MP3などのような異なるフォーマットであっても良い。このステップで、音声情報はマイクロフォンやサンプリング回路のような装置からリアルタイムで得られてもよく、通信手段を介して他の外部装置から送信されてもよく、或いは音声情報を記録していた記録媒体から読み出されても良い。
FIG. 1 is a flowchart illustrating an audio speed measurement method according to an embodiment of the present invention. As shown in FIG. 1, first, in
次に、ステップ105で、音素列及び各音素に対応するタイミング点が音声情報から認識される。当業者により知られているように、音素は自然言語の音声の基本単位である。音声の要素は実際には多数の音素で成る音素列である。既存の音声認識技術では、音声情報から音素列を認識するために使用できる多くの方法があることは知られている。例えば、ビタビ復号アルゴリズム、A*アルゴリズムなど全てが本発明に適用できる。これらは次の実施形態において説明する。更に、本ステップでは、音声列を認識しながら音声の各音素のタイミング点、即ち各音素の開始及び終止タイミングが決定される。 Next, in step 105, the phoneme string and the timing points corresponding to each phoneme are recognized from the speech information. As is known by those skilled in the art, phonemes are the basic unit of natural language speech. A speech element is actually a phoneme string composed of a large number of phonemes. In existing speech recognition technology, it is known that there are many methods that can be used to recognize phoneme sequences from speech information. For example, Viterbi decoding algorithm, A * algorithm, etc. can all be applied to the present invention. These will be described in the next embodiment. Further, in this step, the timing point of each phoneme of the speech, that is, the start and end timing of each phoneme is determined while recognizing the speech sequence.
次に、ステップ110で、語列及び各語に対応するタイミング点が音素列及び各音素に対応するタイミング点から認識される。本発明では、語は例えば自然語の基本単位を意味し、それは中国語の文字であり、英語の単一単語、或いは日本語の仮名又は漢字である。当業者により知られているように、音声では、語は1つ以上の子音音素及び1以上の母音音素により構成される。既存の音声認識技術では、音素列から語列を認識するために使用できる多数の方法がある。たとえば、共通に使用される方法は対応する語列を見つけるようにマッチングのための認識音素列を検索するために発音語彙集を使用することである。更に、このステップでは、語列を認識しながら音声の各語のタイミング点、即ち、音素の開始及び終止タイミングが決定される。
Next, in
最後に、ステップ115で、音声の音声速度が認識語列及び各語に対応するタイミング点に基づいて計算される。本発明の音声速度を表すために多くの方法が使用できる。例えば、中国語の場合は、音声速度は「秒当たりの語」又は「分当たりの語」で表してもよい。故に、音声に含まれる語列及び各語に対応するタイミング点を得た後、時間単位当たりの語数(即ち、音声速度)が計算できる。例えば、英語の場合は、音声速度は時間単位当たりの語数又は時間帯当たりの音節数で表すことができる。音声速度が中国語の場合と同様に、時間単位当たりの語数で表されると、時間単位当たりの語数が認識語列及び各語に対応するタイミング点に基づいて計算できる。音声速度が時間単位当たりの音節数で表されると、時間単位当たりの音節数を得るために各語に含まれる音節を合計する必要がある。
Finally, in
本実施形態の音声速度測定方法が採用されれば、音声の要素の音声速度が以前のように記録過程の後に音声速度を手動で測定する必要がなく自動的に測定されることは上記説明から明らかである。 If the voice speed measuring method of this embodiment is adopted, the voice speed of the voice elements is automatically measured without the need to manually measure the voice speed after the recording process as before. it is obvious.
更に、音声速度を測定する本実施形態の方法は録音過程でのリアルタイム測定、即ち話者又はその他の人(例えば、ディレクタ、管理者など)に音声速度情報を提供するように音声列に従って音声速度を測定するため本実施形態の方法を繰り返し実行するために使用されてもよい。 Furthermore, the method of the present embodiment for measuring the voice speed is a real-time measurement during the recording process, that is, the voice speed according to the voice string so as to provide voice speed information to the speaker or other person (eg, director, administrator, etc.). May be used to repeatedly perform the method of the present embodiment.
図2は、本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明のこの実施形態に従った音声速度測定方法は図2を鑑みて説明する。図2において、上記実施形態と同様な部分に対しては同じ参照符号が使用されている。以下の説明では、これら同じ部分に対しては説明を省略する。 FIG. 2 is a flowchart illustrating an audio speed measurement method according to another embodiment of the present invention. An audio speed measurement method according to this embodiment of the invention will be described in view of FIG. In FIG. 2, the same reference numerals are used for the same parts as in the above embodiment. In the following description, description of these same parts is omitted.
図2に示すように、先ず、ステップ101では、音声を含む音声情報が入力される。次に、ステップ205では、音声特徴が入力音声情報から抽出される。当業者によって知られているように、音声特徴は音声信号から抽出され、異なる音を区別するために使用できる特徴である。現在、比較的に一般的に使用される音声特徴は例えば、MFCC特徴などを含む(例えば、非特許文献1を参照)。
As shown in FIG. 2, first, in
次に、ステップ210では、抽出音声特徴のビタビ復号が音素列及び各音素に対応するタイミング点を認識するように音響モデルに基づいて用いられる。当業者に知られているように、ビタビ復号は音声認識、通信などの分野で広く使用されている実用的で有効な技術である。音声要素が入力されると、音響モデルに基づくアルゴリズムが最高確率で音声の要素を生成するはずである音素列を見つけることができる。これらの音素を合成することにより列が生成されることになり、それによって音声のこの要素の認識が実現される。ビタビ復号アルゴリズムについては、次のような文献、即ち、非特許文献2を参照する。 Next, in step 210, Viterbi decoding of the extracted speech features is used based on the acoustic model to recognize the phoneme sequence and the timing points corresponding to each phoneme. As known to those skilled in the art, Viterbi decoding is a practical and effective technique widely used in the fields of speech recognition and communication. When a speech element is input, an algorithm based on the acoustic model can find a phoneme sequence that should generate the speech element with the highest probability. By synthesizing these phonemes, a sequence will be generated, thereby realizing recognition of this element of speech. For the Viterbi decoding algorithm, reference is made to the following document, that is, Non-Patent Document 2.
音素列を認識するために本実施形態にはビタビ復号アルゴリズムが使用されているが、A*アルゴリズムのような他の方法が本発明に使用できることは留意すべきである。即ち、音声認識の既存する他の技術は、それらが抽出音声特徴から音素列を認識できる限り本発明に使用できる。 It should be noted that although the Viterbi decoding algorithm is used in this embodiment to recognize phoneme sequences, other methods such as the A * algorithm can be used in the present invention. That is, other existing technologies for speech recognition can be used in the present invention as long as they can recognize phoneme sequences from extracted speech features.
次に、ステップ215では、発音語彙集を用いて、音素列に対応する語列及び各語に対応するタイミング点が認識される。
Next, in
最後に、ステップ115で、音声の音声速度が認識語列及び各語に対応するタイミング点に基づいて計算される。
Finally, in
本発明が採用されれば、ビタビ復号技術の使用により音声速度が効果的に測定できる。 If the present invention is adopted, the voice speed can be effectively measured by using the Viterbi decoding technique.
図3Aは本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図3Aを鑑みて説明する。図3Aにおいて、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。 FIG. 3A is a flowchart illustrating an audio speed measurement method according to another embodiment of the present invention. An audio speed measurement method according to an embodiment of the present invention will be described in view of FIG. 3A. In FIG. 3A, the same reference numerals are used for the same parts as those of the above embodiment. Explanation of these same parts is omitted.
図3Aに示されるように、先ず、ステップ301では、音声に対応するテキストが入力される。即ち、このステップでは、音声テキスト(テキスト情報)が入力される。この音声テキストは音声速度が測定されることになる音声に対応する語を含む。具体的には、テキスト情報はキーボード又は他の入力装置を介して入力されてもよく、又は通信手段を介して他の外部装置から送信されてもよく、或いは音声情報を記録した記録媒体から読み取られてもよい。
As shown in FIG. 3A, first, in
次に、ステップ305では、入力テキスト情報に基づいた音響モデルが採用される。一般的に、音声認識に使用される音響モデルは一般的に使用される音響モデルであり、即ち、音素の情報及び音声の一般的状態に適する音声特徴を含む音響モデルである。しかしながら、本実施形態では、処理すべき音声のテキスト情報は予め知られているので、音響モデルは処理すべき音声の内容に適合してもよい。この種の適合はこの分野では「管理適合」と呼ばれる。音響モデルの適合については、次の文献、即ち非特許文献3が参照される。
Next, in
次に、ステップ101にて、音声情報が入力され、ステップ205で、音声特徴が抽出される。
Next, in
次に、ステップ310で、抽出音声特徴のビタビ復号が音素列及び各音素に対応するタイミングを認識するように適合音響モデルに基づいて行われる。使用される音響モデルは処理されることになる音声の内容に適合されていたので、このステップでは、音素列認識速度及び制度が向上される。
Next, in
次に、ステップ215では、発音語彙集を用いて、音素列に対応する語列及び各語に対応するタイミング点が認識される。
Next, in
最後に、ステップ115で、音声の音声速度が認識された語列及び各語に対応するタイミング点に基づいて算出される。
Finally, in
上記から、本発明が採用されれば、音響モデルが処理されるべき音声の内容に監視適合されるので、音素列がより速く、より正確に認識でき、かつ音声速度がより速く、より性格に計算できることが理解できる。 From the above, if the present invention is adopted, the acoustic model is supervised and adapted to the content of the speech to be processed, so that the phoneme sequence can be recognized faster and more accurately, and the speech speed is faster and more personal. I can understand that I can calculate.
図3Aに示されるようにステップ301(音声テキストの入力)及びステップ305(音響モデルの適合)はステップ101の前に行われるけれども、ステップ301及び305は音素列の認識(ステップ310)の前に行う必要があるだけであることが理解できることは留意すべきである。
As shown in FIG. 3A, steps 301 (input speech text) and 305 (acoustic model adaptation) are performed before
図3Bは本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図3Bを鑑みて説明する。図3Bにおいて、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。 FIG. 3B is a flowchart illustrating an audio speed measurement method according to another embodiment of the present invention. An audio speed measurement method according to an embodiment of the present invention will be described in view of FIG. 3B. In FIG. 3B, the same reference numerals are used for the same parts as those of the above embodiment. Explanation of these same parts is omitted.
本実施形態と図3Aを鑑みて説明される実施形態の両方は予め音声テキストを知っているものと仮定し、違いは本実施形態がテキストに基づいて音声テキストに対応する音素列を生成することである。 Both this embodiment and the embodiment described in view of FIG. 3A assume that the phonetic text is known beforehand, the difference being that this embodiment generates a phoneme sequence corresponding to the phonetic text based on the text. It is.
具体的には、図3Bに示すようにステップ301の後にステップ305’で音声テキストが発音語彙集を用いて入力され、音声テキストの語列に対応する音素列が生成される。本実施形態では、音声テキストの語列を音素列に変換するのは発音語彙集に基づいている。
Specifically, as shown in FIG. 3B, after
次に、ステップ101での音声情報入力及びステップ205での音声特徴の抽出後に、ステップ310’で抽出された音声特徴のビタビ復号が音素列の各音素に対応するタイミング点を得るように音響モデルに基づいて行われる。このプロセスはこの分野では「強制整合」と呼ばれる。更に、周知の音素列に対応する語列により、音素列に対応する語列及び各語に対応するタイミング点が同時に得ることができる。
Next, after the speech information input in
最後に、ステップ115では、音声速度が算出できる。
Finally, in
上記の説明から、本実施形態が採用されれば、音素列が音声テキストに基づいて予め生成され、それからビタビ復号がタイミング点を得るように強制整合を行うために使用されるということにより、音声速度は速く、最も正確に計算できる。音素を得るためにビタビ復号を用い、それから語列を認識する方法に比べて本実施形態の方法はより高い精度を持つ。 From the above description, if this embodiment is adopted, the phoneme sequence is generated in advance based on the speech text, and then Viterbi decoding is used to perform the forced matching so as to obtain the timing point. The speed is fast and can be calculated most accurately. Compared with the method of using Viterbi decoding to obtain phonemes and then recognizing word strings, the method of this embodiment has higher accuracy.
その上、本実施形態は上記実施形態と組み合わせて実施できる。即ち、本実施形態でも更に該方法の正確さ及び速度を向上するように音響モデルの適合ができる。 In addition, this embodiment can be implemented in combination with the above embodiment. That is, in this embodiment, the acoustic model can be adapted to further improve the accuracy and speed of the method.
その上、音声テキストが図3A及び3Bに示される実施形態で知られているので、本発明の好ましい実施によると、音声の速度が算出された後に、現音声速度に従って音声テキストの残り語を完了するにはどのくらい時間がかかるかを評価するために残り時間が音声テキストの残り語と現音声速度に基づいて計算される。ゆえに、話者(及び他者)は常に発話時間及び速度を知り、制御することができる。 Moreover, since the speech text is known in the embodiment shown in FIGS. 3A and 3B, according to the preferred implementation of the present invention, after the speech speed is calculated, the remaining words of the speech text are completed according to the current speech speed. In order to evaluate how long it will take, the remaining time is calculated based on the remaining words in the speech text and the current speech speed. Thus, the speaker (and others) can always know and control the speaking time and speed.
図4は本発明の他の実施形態に従った音声速度測定方法を示すフローチャートである。本発明の実施形態に従った音声速度測定方法は図4を鑑みて説明する。図4において、上記実施形態の部分と同じ部分に対して同じ符号が使用される。これら同じ部分については説明を省略する。 FIG. 4 is a flowchart illustrating an audio speed measurement method according to another embodiment of the present invention. An audio speed measurement method according to an embodiment of the present invention will be described with reference to FIG. In FIG. 4, the same reference numerals are used for the same parts as those of the above embodiment. Explanation of these same parts is omitted.
図4に示すように、先ず、ステップ101で、音声情報が入力され、ステップ205で音声特徴が抽出される。
As shown in FIG. 4, first, voice information is input in
次に、ステップ210で、抽出された音声特徴のビタビ復号が音素列及び各音素に対応するタイミング点を認識するように音響モデルに基づいて行われる。 Next, in step 210, Viterbi decoding of the extracted speech features is performed based on the acoustic model so as to recognize a phoneme sequence and a timing point corresponding to each phoneme.
次に、ステップ215で、発音語彙集を用いて音声列に対応する語列及び各語に対応するタイミング点が認識される。更に、ステップ115で、音声の速度が計算される。
Next, in
それから、ステップ420で、音声が終了したか否かが決定される。音声が終了していれば、処理はステップ440に進み、そこで終る。音声が終了していなければ、処理はステップ425に進む。
Then, in
ステップ425では、音響モデルが適正に調整される。当業者により知られるように、通常、音響モデルが音声の一般的状態に利用できる一般的な音声認識ために準備される。しかしながら、話者の発音又は音声環境の違いにより各特定の音声は異なってもよい。既存の音声認識技術では、音響モデルは次の音声認識の精度を向上するように先に認識された語列に基づいて適応的に調整できることは知られている。これは図3Aを鑑みて説明されている実施形態の適合に類似するが、本実施形態では音声テキストがなく、認識された語列を使用して適合がなされる。故に、この処理はこの分野では「非管理適合」と呼ばれる。
In
ステップ425の後のステップ430では、元の音声モデルが適正に調整された音響モデルと置き換えられる。それから、処理はステップ210に戻り、音声の次の部分を認識し、音声速度を算出する。
In
上記説明から、本実施形態によると、音響モデルを同時に調整しながら音声の速度を測定し、測定精度を連続的に向上するように音声速度の次の測定のために調整された音響モデルを使用することができる。 From the above description, according to the present embodiment, the sound speed is measured while simultaneously adjusting the sound model, and the sound model adjusted for the next measurement of the sound speed is used to continuously improve the measurement accuracy. can do.
更に、本実施形態は音声速度の測定精度を向上するように認識制度を向上するために音声の同じ要素に対して繰り返し適正調整及び認識の処理を行うことができる。 Furthermore, this embodiment can repeatedly perform appropriate adjustment and recognition processing on the same elements of speech in order to improve the recognition system so as to improve the measurement accuracy of speech speed.
更に、本実施形態は図3A及び3Bを鑑みて説明した上記実施形態の利点を持つために上記実施形態と組み合わせて実施できる。 Furthermore, this embodiment can be implemented in combination with the above embodiment to have the advantages of the above embodiment described in view of FIGS. 3A and 3B.
図5は本発明の実施形態に従った音声測定装置を示すブロック図である。図5に示すように、本実施形態の音声速度測定装置500は音声を含む音声情報を入力するように構成された音声入力部510と、音声入力部510によって入力された音声情報から音素列及び各音素に対応するタイミング点を認識するように構成された音素列認識部520と、音素列認識イブ520によって認識された音素列及び各音素に対応するタイミング点から音声に含まれる語列及び各語に対応するタイミング点を認識するように構成された語列認識部530と、語列認識部530によって認識された語列及び各語に対応するタイミング点に基づいて音声の速度を算出するように構成された音声速度計算部540により構成される。
FIG. 5 is a block diagram showing an audio measuring device according to an embodiment of the present invention. As shown in FIG. 5, the audio
本実施形態の音声測定装置500の上記構成要素はハードウエア又はソフトウエアによって実施できる。例えば、音素列認識部520、語列認識部530、音声速度計算部540などは特定回路又はチップによって構成されてもよく、又は対応するプログラムを実行するコンピュータ(プロセッサ)によって実行できる。
The above-described components of the
更に、音声入力部510は音声信号を入力し、獲得するための記録装置の回路部品であってもよく、又は音声情報を他の装置から入力するための(ネットワークカードのような)通信装置或いは音声情報を記録した記録媒体からデータを読み出す(ディスクドライブのような)装置であってもよい。
Furthermore, the
動作において、本実施形態の音声速度測定装置500は図1を鑑みて上記実施形態の音声速度測定方法を実施できる。
In operation, the audio
図6は本発明の他の実施形態に従った音声速度想定装置のブロック図である。本発明の実施形態に従った音声速度測定装置は図6を鑑みて説明する。図6では、上記実施形態と同じ部分に対しては同じ参照符号が使用されている。書き説明では、同じ部分については説明が省略されている。 FIG. 6 is a block diagram of an audio speed assumption device according to another embodiment of the present invention. An audio speed measuring device according to an embodiment of the present invention will be described in view of FIG. In FIG. 6, the same reference numerals are used for the same parts as in the above embodiment. In the written description, the description of the same part is omitted.
図6に示されるように、図5の実施形態と比較して、本実施形態は音素列認識部520が入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部521、音響モデルを記憶するように構成された音響モデル記憶部422及び最高確率を有する音素列及び各音素に対応するタイミング点を得るために音声特徴抽出部521によって抽出された音声特徴をビタビ復号するように構成されるビタビ復号部523を更に含む点が異なっている。その上、語列認識部530は発音語彙集を記憶するように構成される発音語彙集記憶部531を更に含む。
As shown in FIG. 6, compared with the embodiment of FIG. 5, the present embodiment is that the phoneme
本実施形態の音響モデル記憶部522及び発音語彙記憶部531はRAM,ROM,HDD,フラッシュメモリのような各種記憶装置により構成されてもよく、それらは互いに物理的に独立していてもよく、或いは互いに組み合わされてもよい。
The acoustic
上述した音声特徴抽出部521、ビタビ復号部523などは特定回路又はチップによって構成されてもよく、或いは対応するプログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。
The voice
動作において、本実施形態の音声速度測定装置500は図2を鑑みて上述した実施形態の音声速度測定方法を実施できる。
In operation, the audio
その上、本実施形態では、A*復号部は最高確率を有する音素列及び各音素に対応するタイミング点を得るようにA*アルゴリズムで抽出音声特徴を復号するためにビタビ復号部523の代わりに使用されてもよい。同様に、A*復号部は特定回路又はチップ或いは対応するプログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。
In addition, in this embodiment, the A * decoding unit replaces the
図7は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置は図7を鑑みて説明する。図7では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分いついては説明を省略する。 FIG. 7 is a block diagram showing an audio speed measuring apparatus according to another embodiment of the present invention. An audio speed measuring device according to an embodiment of the present invention will be described with reference to FIG. In FIG. 7, the same reference numerals are used for the same parts as in the above embodiment. In the following description, description of the same parts will be omitted.
図7に示されるように、図6の実施形態と比較して、本実施形態は音声速度測定装置500は処理されるべき音声に対応するテキスト情報を入力するように構成されるテキスト入力部550及びテキスト入力部550によって入力されたテキスト情報に基づいて音響モデルを管理適合するように構成される管理適合部560を更に有する点で異なる。
As shown in FIG. 7, compared to the embodiment of FIG. 6, in this embodiment, the voice
本実施形態のテキスト入力部はキーボードのような入力装置、又は他の装置からテキスト情報を入力するために(ネットワークカードのような)通信装置、或いはテキスト情報を記録した記録媒体からデータを読み出すための(ディスクドライブのような)装置であってもよい。 The text input unit of the present embodiment reads data from an input device such as a keyboard, a communication device (such as a network card) for inputting text information from another device, or a recording medium on which text information is recorded. (Such as a disk drive).
本実施形態の音響モデル管理適合部560は特定回路又はチップ、或いは対応プログラムを実行するコンピュータ(プロセッサ)によって行われてもよい。
The acoustic model
動作において、本実施形態の音声速度測定装置500は図3A及び3Bを鑑みて上述した実施形態の音声速度測定方法を実施することができる。
In operation, the audio
図8は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を図8を鑑みて説明する。図8では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分については説明は省略されている。 FIG. 8 is a block diagram showing an audio speed measuring apparatus according to another embodiment of the present invention. An audio speed measuring device according to an embodiment of the present invention will be described with reference to FIG. In FIG. 8, the same reference numerals are used for the same parts as in the above embodiment. In the following description, the description of the same part is omitted.
図8に示されるように、図7の実施形態と比較して、本実施形態は音声速度測定装置500が語列認識部530によって認識された語列に基づいて音響モデルを非管理適合するように構成される音響モデル非管理適合部570及び音声速度計算部540によって算出された音声毒度に関する情報を表示するように構成される音声速度表示部580を更に含むことが異なる。
As shown in FIG. 8, as compared with the embodiment of FIG. 7, the present embodiment is configured so that the audio
本実施形態の音響モデル非管理適合部570は特定回路又はチップ、或いは対応プログラムを実行するコンピュータ(プロセッサ)によって行われてもよい
本実施形態の音声速度表示部580はLCD,CRT,PDPのような表示装置であってもよい。特に、音声速度に関する情報は図10A及び10Bに示されるようにデジタル数字又はバーチャートによって表示されてもよい。更に、音声テキストが事前に入力されていれば、予想音声速度、即ち所定期間内で音声テキストが完了するために必要な音声速度が音声速度表示部580に表示されてもよい。
The acoustic model
更に、図8に示されるように、本実施形態は算出音声速度及びテキスト情報から残り時間を算出するように構成される残り時間計算部590を更に含む。残り時間計算機590によって算出された残り時間は音声速度表示部580に表示されてもよい。
Furthermore, as shown in FIG. 8, the present embodiment further includes a remaining
動作において、本実施形態の音声速度測定装置500は図3A及び4を鑑みて上述した実施形態の音声速度測定方法を実施できる。
In operation, the audio
図9は本発明の他の実施形態に従った音声速度測定装置を示すブロック図である。本発明の実施形態に従った音声速度測定装置を図9を鑑みて説明する。図9では、上記実施形態と同じ部分に対して同じ参照符号が使用される。下記説明では、同じ部分については説明は省略されている。 FIG. 9 is a block diagram showing an audio speed measuring apparatus according to another embodiment of the present invention. An audio speed measuring apparatus according to an embodiment of the present invention will be described with reference to FIG. In FIG. 9, the same reference numerals are used for the same parts as in the above embodiment. In the following description, the description of the same part is omitted.
図9に示されるように、本実施形態の音声速度測定装置500’は音声入力部510、テキスト入力部550、音素列生成部630、強制整合部620、音声速度計算部540および音声速度表示部580を含む。
As shown in FIG. 9, the voice
本実施形態と上記実施形態との主要な違いは本実施形態が音素列生成部630および強制整合部620を有し、音素列生成部630はテキスト入力部550によって入力されるテキスト情報に含まれる語列に対応する音素列を生成するように構成され、発音語彙集が記憶されている発音語彙列記憶部631を含む。音素列生成部630は発音語彙集を参照して、テキスト情報に含まれる語列を音素列に変換する。
The main difference between the present embodiment and the above embodiment is that the present embodiment has a phoneme
強制整合部620は語列の各語に対応するタイミング点を得るように音声入力部510によって入力された音声情報から音素列生成部630によって生成される音素列の各語に対応するタイミング点を認識するように構成される。特に、本実施形態によると、強制整合部620は上記実施形態の音声特徴抽出部521と同様に入力音声情報から音声特徴を抽出するように構成される音声特徴抽出部621と、上記実施形態の音響モデル記憶部522と同様に音響モデルを記憶するように構成される音声特徴記憶部622と、音素列と整合するように抽出音声特徴をビタビ復号するように構成されるビタビ復号部623を含む。強制整合の処理は上記実施形態において説明されており、繰り返して説明しない。
The
動作において、本実施形態の音声速度測定装置500’は図3Bを鑑みて上述した実施形態の音声速度測定方法を実施できる。
In operation, the audio
更に、本実施形態では、A*復号部は音声列と整合するようにA*アルゴリズムで抽出音声特徴を復号するためビタビ復号部の代わりに使用できる。 Further, in the present embodiment, the A * decoding unit can be used in place of the Viterbi decoding unit to decode the extracted speech features with the A * algorithm so as to match the speech sequence.
その上、本実施形態では、上記実施形態に記載された、残り時間計算部590などのような幾つかの構成要素が含まれてもよく、実施形態は上記実施形態と組み合わされてもよい。
Moreover, in the present embodiment, some components such as the remaining
更に、上述した実施形態の音声速度測定装置の適用形態として、本発明は既存の録音装置に音声速度測定機能を設けるように音声速度測定装置500が既存の録音装置に加えられている録音装置を更に提供する。
Furthermore, as an application mode of the audio speed measuring device of the above-described embodiment, the present invention provides a recording device in which the audio
好ましくは、音声速度測定装置500の音声入力部510は録音装置によって入力され、獲得される音情報から音声情報を直接取り込んでもよい。
Preferably, the
音声速度測定方法、音声速度測定装置および録音装置が幾つかの実施形態で詳細に説明されているが、これら実施形態は網羅していない。当業者は本発明の精神と範囲内で種々変更及び変形できる。ゆえに、本発明はこれら実施例に限定されなく、むしろ本発明の範囲は特許請求によってのみ規定される。 An audio speed measurement method, an audio speed measurement device, and a recording device have been described in detail in some embodiments, but these embodiments are not exhaustive. Those skilled in the art can make various changes and modifications within the spirit and scope of the present invention. Therefore, the invention is not limited to these examples, but rather the scope of the invention is defined only by the claims.
510…音声入力部、520…音素列認識部、521…音声特徴抽出部、522…音響モデル記憶部、523…ビタビ復号部、530…語列認識部、531…発音語彙集記憶部、
540…音声速度計算部、550…テキスト入力部、560…音響モデル管理適合部、570…音響モデル非管理適合部、580…音声速度表示部、590…残り時間計算部、620…強制整合部、621…音声特徴抽出部、622…音響モデル記憶部、630…音素列生成部、631…発音語彙集記憶部
510 ... Speech input unit, 520 ... Phoneme sequence recognition unit, 521 ... Speech feature extraction unit, 522 ... Acoustic model storage unit, 523 ... Viterbi decoding unit, 530 ... Word sequence recognition unit, 531 ... Pronunciation vocabulary collection storage unit,
540 ... voice speed calculation unit, 550 ... text input unit, 560 ... acoustic model management adaptation unit, 570 ... acoustic model non-management adaptation unit, 580 ... voice speed display unit, 590 ... remaining time calculation unit, 620 ... forced matching unit, 621 ... Speech feature extraction unit, 622 ... Acoustic model storage unit, 630 ... Phoneme sequence generation unit, 631 ... Pronunciation vocabulary collection storage unit
Claims (30)
前記音声情報から音素列及び各音素に対応するタイミング点を認識するステップと、
前記音素列及び各音素に対応するタイミング点から語列及び各語に対応するタイミング点を認識するステップと、
前記語列及び認識された各語に対応するタイミング点に基づいて前記音声の速度を算出するステップと、を含むことを特徴とする音声速度測定方法。 Inputting voice information including voice;
Recognizing phoneme strings and timing points corresponding to each phoneme from the speech information;
Recognizing a word string and a timing point corresponding to each word from the phoneme string and a timing point corresponding to each phoneme;
Calculating the speed of the voice based on the word string and a timing point corresponding to each recognized word.
最高確率を有する音素列及び各音素に対応するタイミング点を得るために音響モデルを用いて前記抽出音声特徴を復号するステップと、を含むことを特徴とする請求項1記載の音声速度測定方法。 The step of recognizing extracts voice features from the input voice information;
The speech speed measurement method according to claim 1, further comprising: decoding the extracted speech feature using an acoustic model to obtain a phoneme string having the highest probability and a timing point corresponding to each phoneme.
前記入力テキスト情報に基づいて最適化された前記音響モデルを前記音声に適合するステップとを含み、
前記復号ステップは、前記適合音響モデルによって行われることを特徴とする請求項2記載の音声速度測定方法。 A step of inputting text information corresponding to the voice;
Adapting the acoustic model optimized based on the input text information to the speech,
The method according to claim 2, wherein the decoding step is performed by the adaptive acoustic model.
前記認識ステップ及び後続のステップを前記適合音響モデルによって行うステップと、を含むことを特徴とする請求項2又は請求項6記載の音声速度測定方法。 And further non-supervising adaptation of the acoustic model based on the recognition word string;
The voice speed measurement method according to claim 2, further comprising: performing the recognition step and the subsequent step by the adaptive acoustic model.
前記音声を含む音声情報を入力するステップと、
前記テキスト情報に含まれる語列に対応する音素列を生成するステップと、
前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列の各音素に対応するタイミング点を認識するステップと、
前記語列及び認識された、各語に対応する前記タイミング点に基づいて前記音声の速度を算出するステップと、を含むことを特徴とする音声速度測定方法。 Inputting text information for speech;
Inputting voice information including the voice;
Generating a phoneme string corresponding to a word string included in the text information;
Recognizing a timing point corresponding to each phoneme of the phoneme sequence from the speech information to obtain a timing point corresponding to each word of the word sequence;
Calculating the speed of the voice based on the word string and the recognized timing point corresponding to each word.
前記音素列の各音素に対応するタイミング点を得るために音響モデルを用いて前記抽出音声特徴に強制整合を行うステップと、を含むことを特徴とする請求項9記載の音声速度測定方法。 The step of recognizing extracts voice features from the input voice information;
The method of claim 9, further comprising: forcibly matching the extracted speech feature using an acoustic model to obtain a timing point corresponding to each phoneme of the phoneme string.
前記音声入力部により入力された前記音声情報から音素列及び各音素に対応するタイミング点を認識するように構成される音素列認識部と、
前記音素列及び前記音素列認識部により認識された各音素に対応する前記タイミング点から前記音声に含まれる語列及び各語に対応するタイミング点を認識するように構成される語列認識部と、
前記語列及び前記語列認識部によって認識された各語に対応する前記タイミング点に基づいて前記音声の速度を算出するように構成される音声速度計算部と、を具備することを特徴とする音声速度測定装置。 A voice input unit configured to input voice information including voice;
A phoneme string recognition unit configured to recognize a phoneme string and a timing point corresponding to each phoneme from the voice information input by the voice input unit;
A word string recognition unit configured to recognize a word string included in the speech and a timing point corresponding to each word from the timing points corresponding to each phoneme recognized by the phoneme string and the phoneme string recognition unit; ,
A voice speed calculation unit configured to calculate the speed of the voice based on the word string and the timing point corresponding to each word recognized by the word string recognition unit. Voice speed measuring device.
前記音声に対応するテキスト情報を入力するように構成されるテキスト入力部と、
前記テキスト情報に含まれる語列に対応する音素列を生成するため構成される音素列生成部と、
前記語列の各語に対応するタイミング点を得るために前記音声情報から前記音素列生成部により生成された前記音素列の各音素に対応するタイミング点を認識するように構成される強制整合部と、
前記語列及び各語に対応する前記タイミング点に基づいて前記音声速度を算出するように構成される音声速度計算部と、を具備することを特徴とする音声速度測定装置。 A voice input unit configured to input voice information including speed;
A text input unit configured to input text information corresponding to the speech;
A phoneme string generation unit configured to generate a phoneme string corresponding to a word string included in the text information;
A compulsory matching unit configured to recognize a timing point corresponding to each phoneme of the phoneme sequence generated by the phoneme sequence generation unit from the speech information to obtain a timing point corresponding to each word of the word sequence When,
A voice speed measuring device comprising: a voice speed calculation unit configured to calculate the voice speed based on the word string and the timing point corresponding to each word.
音響モデルを記憶するように構成される音響モデル記憶部と
を具備することを特徴とする請求項24記載の音声速度測定装置。 A speech feature extraction unit configured to extract speech features from the input speech information;
The sound speed measuring device according to claim 24, further comprising: an acoustic model storage unit configured to store an acoustic model.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510059832 CN1841496A (en) | 2005-03-31 | 2005-03-31 | Method and apparatus for measuring speech speed and recording apparatus therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006285254A true JP2006285254A (en) | 2006-10-19 |
Family
ID=37030481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006095376A Abandoned JP2006285254A (en) | 2005-03-31 | 2006-03-30 | Method and apparatus for measuring voice speed, and sound recorder |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2006285254A (en) |
CN (1) | CN1841496A (en) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101472060B (en) * | 2007-12-27 | 2011-12-07 | 新奥特(北京)视频技术有限公司 | Method and device for estimating news program length |
CN103632667B (en) * | 2013-11-25 | 2017-08-04 | 华为技术有限公司 | acoustic model optimization method, device and voice awakening method, device and terminal |
US9082407B1 (en) * | 2014-04-15 | 2015-07-14 | Google Inc. | Systems and methods for providing prompts for voice commands |
CN107123419A (en) * | 2017-05-18 | 2017-09-01 | 北京大生在线科技有限公司 | The optimization method of background noise reduction in the identification of Sphinx word speeds |
CN107767869B (en) * | 2017-09-26 | 2021-03-12 | 百度在线网络技术(北京)有限公司 | Method and apparatus for providing voice service |
CN108109633A (en) * | 2017-12-20 | 2018-06-01 | 北京声智科技有限公司 | The System and method for of unattended high in the clouds sound bank acquisition and intellectual product test |
CN109994106B (en) * | 2017-12-29 | 2023-06-23 | 阿里巴巴集团控股有限公司 | Voice processing method and equipment |
CN108682420B (en) * | 2018-05-14 | 2023-07-07 | 平安科技(深圳)有限公司 | Audio and video call dialect recognition method and terminal equipment |
CN112185363B (en) * | 2020-10-21 | 2024-02-13 | 北京猿力未来科技有限公司 | Audio processing method and device |
CN113838456B (en) * | 2021-09-28 | 2024-05-31 | 中国科学技术大学 | Phoneme extraction method, voice recognition method, device, equipment and storage medium |
CN114067787B (en) * | 2021-12-17 | 2022-07-05 | 广东讯飞启明科技发展有限公司 | Voice speech speed self-adaptive recognition system |
-
2005
- 2005-03-31 CN CN 200510059832 patent/CN1841496A/en active Pending
-
2006
- 2006-03-30 JP JP2006095376A patent/JP2006285254A/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN1841496A (en) | 2006-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108573693B (en) | Text-to-speech system and method, and storage medium therefor | |
JP2006285254A (en) | Method and apparatus for measuring voice speed, and sound recorder | |
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
WO2017067206A1 (en) | Training method for multiple personalized acoustic models, and voice synthesis method and device | |
US10650810B2 (en) | Determining phonetic relationships | |
US20190130894A1 (en) | Text-based insertion and replacement in audio narration | |
WO2021225830A1 (en) | Speech synthesis prosody using a bert model | |
Fendji et al. | Automatic speech recognition using limited vocabulary: A survey | |
CN110265028B (en) | Method, device and equipment for constructing speech synthesis corpus | |
JP5007401B2 (en) | Pronunciation rating device and program | |
US20140236597A1 (en) | System and method for supervised creation of personalized speech samples libraries in real-time for text-to-speech synthesis | |
JP2020034883A (en) | Voice synthesizer and program | |
US20230343319A1 (en) | speech processing system and a method of processing a speech signal | |
US20230298564A1 (en) | Speech synthesis method and apparatus, device, and storage medium | |
US11322133B2 (en) | Expressive text-to-speech utilizing contextual word-level style tokens | |
EP3376497B1 (en) | Text-to-speech synthesis using an autoencoder | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
CN110930975A (en) | Method and apparatus for outputting information | |
CN112908308B (en) | Audio processing method, device, equipment and medium | |
Gutkin et al. | Building statistical parametric multi-speaker synthesis for bangladeshi bangla | |
CN113421571B (en) | Voice conversion method and device, electronic equipment and storage medium | |
US11670292B2 (en) | Electronic device, method and computer program | |
CN115700871A (en) | Model training and speech synthesis method, device, equipment and medium | |
KR20210059581A (en) | Method and apparatus for automatic proficiency evaluation of speech | |
Prasangini et al. | Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Effective date: 20070926 Free format text: JAPANESE INTERMEDIATE CODE: A621 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20090928 |