JP4779954B2 - Audio data processing apparatus, method and program - Google Patents
Audio data processing apparatus, method and program Download PDFInfo
- Publication number
- JP4779954B2 JP4779954B2 JP2006333308A JP2006333308A JP4779954B2 JP 4779954 B2 JP4779954 B2 JP 4779954B2 JP 2006333308 A JP2006333308 A JP 2006333308A JP 2006333308 A JP2006333308 A JP 2006333308A JP 4779954 B2 JP4779954 B2 JP 4779954B2
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- data
- voice
- input
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Management Or Editing Of Information On Record Carriers (AREA)
Description
本発明は、音声データ処理装置、方法及びプログラムに関する。 The present invention relates to an audio data processing apparatus, method, and program.
近年、メモリやHDD(Hard Disk Drive)が大容量かつ安価になってきており、音声をディジタル圧縮して長時間記録するポータブルプレーヤやボイスレコーダ等の機器が普及している。例えば、ポータブルプレーヤを用いて会議の音声を記録する場合、1つの音声データファイルとして長時間の会議を記録し、後で音声を聞く際に、聞きたい位置や区切りの良い位置での頭出しが困難となる。早送り再生をすることで頭出し時間を短縮することも可能であるが、人が聞き取り可能な再生速度には限界があるため、時間短縮のための過度な早送りは的確な頭出しを困難にする。 In recent years, memories and HDDs (Hard Disk Drives) have become large-capacity and inexpensive, and devices such as portable players and voice recorders that digitally compress sound and record for a long time have become widespread. For example, when recording the audio of a conference using a portable player, the long-time conference is recorded as one audio data file, and when listening to the audio later, cueing at the position where you want to hear or at a position with good separation can be made. It becomes difficult. Although it is possible to shorten the cue time by fast-forwarding playback, there is a limit to the playback speed that humans can hear, so excessive fast-forwarding to shorten the time makes accurate cueing difficult. .
このような問題を解決するために、従来、音声の記録時にユーザが機器を適宜操作することによりファイルを分割することも行われているが、手間である。
さらに、特許文献1には、記録中に無音を検出してファイルを分割する方法や、所定のキーワードの検知によりファイルを分割することが提案されている。
Further, Patent Document 1 proposes a method of dividing a file by detecting silence during recording, and a method of dividing a file by detecting a predetermined keyword.
しかし、上記従来技術では、音声の無音区間を検出する方法の場合、記録する会話が途切れがちになると多数の無音区間により頻繁にファイルが区切られることが考えられる。
また、所定のキーワードを検知する方法の場合、所定のキーワードを予めポータブルプレーヤ等の操作部より入力する必要があるため、操作が煩雑である。また、話者の癖により区切り位置に多用される語句も異なることから、記録中に話者の癖を判断してキーワード設定を行えることが好ましい。
However, in the above-described prior art, in the case of a method for detecting a silent section of speech, it is considered that a file is frequently divided by a large number of silent sections when the recorded conversation tends to be interrupted.
In the case of a method for detecting a predetermined keyword, it is necessary to input the predetermined keyword from an operation unit such as a portable player in advance, so that the operation is complicated. In addition, since words frequently used at the delimiter position differ depending on the speaker's habit, it is preferable that keyword setting can be performed by determining the speaker's habit during recording.
本発明の課題は、音声データの区分けを容易かつ適切に行うことである。 An object of the present invention is to easily and appropriately classify audio data.
請求項1に記載の発明は、
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段を有する音声データ処理装置において、
前記入力手段で入力された音声データの音声認識を行う音声認識手段と、
前記入力手段での入力時の操作を受け付ける操作手段と、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする。
The invention described in claim 1
In an audio data processing apparatus having an input means and an audio data recording means for recording audio data input by the input means,
Voice recognition means for performing voice recognition of the voice data input by the input means;
Operation means for accepting an operation at the time of input by the input means;
Voice recognition data registration means for registering voice recognition data recognized by the voice recognition means based on an operation at the time of input by the operation means;
Based on the voice recognition result of the input voice data in the voice recognition means and the voice recognition data registered in the voice recognition data registration means, the input voice data is divided and recorded by the recording means. Recording control means for controlling so as to
It is characterized by providing.
請求項2に記載の発明は、
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段を有する音声データ処理装置において、
前記再生手段で再生された音声データの音声認識を行う音声認識手段と、
前記再生手段での音声再生時の操作を受け付ける操作手段と、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする。
The invention described in
In an audio data processing apparatus having reproduction means for reproducing audio data input from the outside or audio data recorded in advance in the recording means,
Voice recognition means for performing voice recognition of the voice data reproduced by the reproduction means;
Operation means for accepting an operation at the time of sound reproduction by the reproduction means;
Voice recognition data registration means for registering voice recognition data recognized by the voice recognition means based on an operation at the time of voice reproduction by the operation means;
Based on the voice recognition result of the reproduced voice data in the voice recognition means and the voice recognition data registered by the voice recognition data registration means, the voice data is divided and recorded by the recording means. Recording control means for controlling;
It is characterized by providing.
請求項3に記載の発明は、請求項1又は請求項2に記載の音声データ処理装置において、
音声データを記録するバッファを備え、
前記バッファは、前記操作手段からの指示に従って、所定の時間分の音声データを記録し、
前記音声認識手段は、前記バッファに記録されたデータに対し音声認識を行い、
前記音声認識データ登録手段は、前記音声認識手段によって音声認識された音声認識データを登録することを特徴とする。
The invention according to claim 3 is the audio data processing device according to
It has a buffer for recording audio data,
The buffer records audio data for a predetermined time according to an instruction from the operation means,
The voice recognition means performs voice recognition on the data recorded in the buffer,
The voice recognition data registration unit registers the voice recognition data recognized by the voice recognition unit.
請求項4に記載の発明は、請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データのファイル分割であることを特徴とする。
According to a fourth aspect of the present invention, in the audio data processing device according to any one of the first to third aspects,
The audio data classification performed by the recording control means is file division of audio data.
請求項5に記載の発明は、請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データのトラック書換えであることを特徴とする。
The invention according to
The audio data classification performed by the recording control means is track rewriting of audio data.
請求項6に記載の発明は、請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データへのフラグ設定であることを特徴とする。
The invention according to
The audio data classification performed by the recording control means is a flag setting for the audio data.
請求項7に記載の発明は、
入力工程及び当該入力工程で入力された音声データを記録する音声データ記録工程を有する音声データ処理方法において、
前記入力工程で入力された音声データの音声認識を行う音声認識工程と、
前記入力工程での入力時の操作を受け付ける操作工程と、
前記操作工程による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における入力された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする。
The invention described in
In an audio data processing method including an input process and an audio data recording process for recording audio data input in the input process,
A voice recognition step of performing voice recognition of the voice data input in the input step;
An operation process for receiving an operation at the time of input in the input process;
A voice recognition data registration step of registering voice recognition data recognized by the voice recognition means based on an operation at the time of input in the operation step;
Based on the voice recognition result of the input voice data in the voice recognition step and the voice recognition data registered in the voice recognition data registration step, the input voice data is divided and recorded in the recording step. A recording control process for controlling
It is characterized by providing.
請求項8に記載の発明は、
外部から入力される音声データ又は記録工程にて予め記録された音声データを再生する再生工程を有する音声データ処理方法において、
前記再生工程で再生された音声データの音声認識を行う音声認識工程と、
前記再生工程での音声再生時の操作を受け付ける操作工程と、
前記操作工程による音声再生時の操作に基づいて、前記音声認識工程で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における再生された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする。
The invention according to
In an audio data processing method having a reproduction step of reproducing audio data input from the outside or audio data recorded in advance in a recording step,
A voice recognition step of performing voice recognition of the voice data reproduced in the reproduction step;
An operation step of accepting an operation at the time of audio reproduction in the reproduction step;
A voice recognition data registration step of registering voice recognition data recognized in the voice recognition step based on an operation at the time of voice reproduction by the operation step;
Based on the voice recognition result of the reproduced voice data in the voice recognition step and the voice recognition data registered in the voice recognition data registration step, the voice data is divided and recorded in the recording step. Recording control process to control;
It is characterized by providing.
請求項9に記載の発明は、コンピュータを
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段として機能させるプログラムにおいて、
前記入力手段で入力された音声データの音声認識を行う音声認識手段、
前記入力手段での入力時の操作を受け付ける操作手段、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とする。
The invention according to
Voice recognition means for performing voice recognition of the voice data input by the input means;
Operation means for accepting an operation at the time of input by the input means;
Voice recognition data registration means for registering voice recognition data recognized by the voice recognition means based on an operation at the time of input by the operation means;
Based on the voice recognition result of the input voice data in the voice recognition means and the voice recognition data registered in the voice recognition data registration means, the input voice data is divided and recorded by the recording means. Recording control means for controlling to
It is made to function as.
請求項10に記載の発明は、コンピュータを
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段として機能させるプログラムにおいて、
前記再生手段で再生された音声データの音声認識を行う音声認識手段、
前記再生手段での音声再生時の操作を受け付ける操作手段、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とする。
According to a tenth aspect of the present invention, there is provided a program for causing a computer to function as reproduction means for reproducing audio data input from the outside or audio data recorded in advance in the recording means.
Voice recognition means for performing voice recognition of the voice data reproduced by the reproduction means;
Operation means for accepting an operation at the time of sound reproduction by the reproduction means;
Voice recognition data registration means for registering voice recognition data that has been voice-recognized by the voice recognition means based on an operation during voice reproduction by the operation means;
Based on the voice recognition result of the reproduced voice data in the voice recognition means and the voice recognition data registered by the voice recognition data registration means, the voice data is divided and recorded by the recording means. Recording control means for controlling,
It is made to function as.
本発明によれば、音声データの区分けを容易かつ適切に行うことができるという効果を奏する。 According to the present invention, there is an effect that audio data can be classified easily and appropriately.
以下、図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、発明の範囲は本実施の形態に限定されない。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. However, the scope of the invention is not limited to this embodiment.
図1を参照して、音声データ処理装置の内部構成を説明する。音声データ処理装置は、ポータブルプレーヤ、ボイスレコーダ、ステレオ装置といった音声の録音、音声データの入力、再生が可能な装置である。
図1に示すように、音声データ処理装置1は、アナログ入力部2、ADC(Analog Digital Converter)3、エンコード部4、記録部5、ディジタル入力部6、単語DB(Database)7、音声認識部8、再生部9、DAC(Digital Analog Converter)10、増幅部11、出力部12、キー操作部13、バッファ14、及び制御部15等から構成されている。
With reference to FIG. 1, the internal configuration of the audio data processing apparatus will be described. The audio data processing apparatus is an apparatus capable of recording sound, inputting and reproducing audio data, such as a portable player, a voice recorder, and a stereo apparatus.
As shown in FIG. 1, an audio data processing device 1 includes an
アナログ入力部2は、マイク等の装置であり、音声の録音時に外部の音声を集音し、アナログ音声データに変換する処理を行う。
ADC3は、アナログ入力部2から受取ったアナログ音声データをディジタル音声データに変換する処理を行う。
エンコード部4は、バッファ14から受取ったディジタル音声データをMP3(MPEG Audio Layer-3)、WMA(Windows Media(登録商標) Audio)、又はWAVE等のファイル形式にエンコードし、ファイルとして記録する処理を行う。
記録部5は、エンコード部4により生成された音声データファイル、ディジタル入力部6から入力された音声データファイル等を記録するHDD(Hard Disk Drive)やメモリ、音声データを格納するためにMD(Mini Disk)などのメディアを格納するドライブ等の装置である。
ディジタル入力部6は、USB(Universal Serial Bus)等のインターフェースであり、外部装置と接続し、ファイル等の形式のディジタル音声データの入力を受ける。
The
The ADC 3 performs processing for converting the analog voice data received from the
The
The
The
再生部9は、記録部5に格納されたMP3、WMA、WAVE等の各種形式の音声データを制御部15の制御を受けて再生する処理を行う。
DAC10は、再生部9から入力したディジタル音声データをアナログ音声データに変換する処理を行う。
増幅部11は、アンプ等の装置であり、DAC10から入力したアナログ音声データを増幅する装置である。
出力部12は、スピーカ等の装置であり、増幅部11から入力したアナログ音声データを音声として外部に出力する装置である。
The
The
The amplifying
The
単語DB7は、複数の単語及びその単語の読みが登録されたデータベースであり、単語の読みからその単語を検索することができる。また、後述のキーワードが登録され、その読みからキーワードを検索することができる。
音声認識部8は、ADC3又はバッファ14から入力される音声データに対し、単語DB7を参照して音声認識処理を施すことにより、音声データが表している可能性のある単語の尤度(スコア)を特定する。スコアの値が所定値を下回る単語を候補からはずすことで、単語を特定する。音声認識の手法は任意であり、単語が特定されれば良い。
The
The
キー操作部13は、ユーザが音声データ処理装置1を操作するためのボタンやスイッチなどの装置である。
The
バッファ14は、ADC3又は再生部9から出力されたディジタル音声データを一時的に保存しておくRAM(Random Access Memory)等の記憶媒体である。
制御部15は、CPU(Central Processing Unit)、ROM(Read Only Memory)、バッファ14などから構成される。ROMに記憶された制御プログラムに従って、記録部5に蓄積される音声データをバッファ14にて区分する処理、及び音声データ処理装置1が行う処理全体を制御する。
The
The
図2を参照して、音声データ処理装置1が録音をしている際に、その録音されている音声の中からキーワードを検出し、そのキーワードを検出した位置で音声を分割し、ファイルとして保存する際の処理の流れを説明する。なお、処理の実行は制御部15が行う。
Referring to FIG. 2, when voice data processing apparatus 1 is recording, a keyword is detected from the recorded voice, and the voice is divided at the position where the keyword is detected, and saved as a file. The flow of processing when doing this will be described. Note that the
この処理は、キー操作部13から録音開始の指示を受けることによって開始する。
図2に示すように、まず記憶部6にMP3、WMA又はWAVE等の形式のファイルが生成され、そのファイルがオープンされる(S1)。
This process is started by receiving a recording start instruction from the
As shown in FIG. 2, first, a file of a format such as MP3, WMA, or WAVE is generated in the
次いで、アナログ音声データがアナログ入力部2から継続して流れ始め、ADC3によりディジタル音声データに変換され、バッファ14に一時的に(例えば2秒間)蓄えられる。その後、ディジタル音声データはエンコード部4によりエンコードされ、ファイルに順次蓄積される(S2)。
Next, analog audio data starts to flow continuously from the
次いで、キー操作部13からキーワード登録指示を受信しない場合(S3;No)、S9に進む。
また、キーワード登録指示を受けた場合(S3;Yes)、バッファ14に一時的に蓄積された音声データは音声認識部8により音声認識処理が行われ、この音声データが表している単語が特定される(S4)。
次いで、S4により特定された単語は、単語DB7にキーワードとして新たに登録される(S5)。
Next, when a keyword registration instruction is not received from the key operation unit 13 (S3; No), the process proceeds to S9.
When a keyword registration instruction is received (S3; Yes), the voice data temporarily stored in the
Next, the word specified in S4 is newly registered as a keyword in the word DB 7 (S5).
次いで、S4により特定された単語の直前の位置で音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S6)。
次いで、新たにファイルがオープンされ(S7)、バッファ14に一時的に蓄えられた音声データは、S6にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S8)。
Next, the accumulation of the voice data in the file is stopped at the position immediately before the word specified in S4, and the file is closed there (S6).
Next, a new file is opened (S7), and the audio data temporarily stored in the
次いで、ADC3によりディジタルデータに変換された音声データは、バッファ14に入力されるのと同期を取りながら平行して音声認識部8に継続して入力され、音声認識処理が行われる。S5にて登録されたキーワードが検出されない場合(S9;No)、S13に進む。
また、キーワードが検出された場合(S9、Yes)、検出されたキーワードの直前の位置でバッファ14に蓄えられた音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S10)。
Next, the voice data converted into digital data by the ADC 3 is continuously input to the
If a keyword is detected (S9, Yes), the storage of the audio data stored in the
次いで、新たにファイルがオープンされ(S11)、バッファ14に一時的に蓄えられた音声データは、S10にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S12)。
Next, a new file is opened (S11), and the audio data temporarily stored in the
次いで、キー操作部13から録音終了の指示がない場合(S13;No)、S3に戻る。
また、録音終了の指示を受けた場合(S13;Yes)、ファイルはクローズされ(S14)、この処理は終了する。
Next, when there is no instruction to end recording from the key operation unit 13 (S13; No), the process returns to S3.
If an instruction to end recording is received (S13; Yes), the file is closed (S14), and this process ends.
以上のように、この処理を要すれば、キーワード登録指示を受信した際は、キーワード登録処理(S4、S5)が行われ、音声認識により登録されたキーワードを検出した際は、音声データを分割しファイルとして記録する処理(S1、S2、S6、S7、S8、S10、S11、S12、S14)が行われることとなる。 As described above, if this processing is required, keyword registration processing (S4, S5) is performed when a keyword registration instruction is received, and voice data is divided when a registered keyword is detected by voice recognition. The process of recording as a file (S1, S2, S6, S7, S8, S10, S11, S12, S14) will be performed.
図3を参照して、例えば会議中に会議内容を録音する際に、音声データ処理装置1であるボイスレコーダの使用方法及びボイスレコーダが行う処理の概要を説明する。 With reference to FIG. 3, for example, when recording the contents of a conference during a conference, a method for using the voice recorder that is the voice data processing device 1 and an outline of the processing performed by the voice recorder will be described.
まず、図3(a)は、どのように話者の発話からキーワードが登録され、キーワードが検出されるかを示した図である。
話者が「・・・と思います。 それでは次に・・ ・・ ・・ ・・となるでしょう。 それでは昨今の・・」と発話する(a1)。
話者が「それでは次に」と発話した際の「それでは」のタイミングで、ボイスレコーダを操作する者がキーワードを登録するためにキー操作部13を操作すると(a2)、バッファ14に一時的に(例えば2秒間)蓄えられている音声データ(a3)の内容に対して、音声認識部8により音声認識処理が行われ、「それでは」という単語が特定され、その単語が検出された音声のまま単語DB7にキーワードとして登録される。そして、音声認識部8はその後の話者の発話から「それでは」を検出する(a4)。
First, FIG. 3A is a diagram showing how a keyword is registered from a speaker's utterance and the keyword is detected.
The speaker utters "I think ... Then it will be ... Next ... Now then ..." (a1).
When the person who operates the voice recorder operates the
図3(b)は、話者の発話からキーワードが検出される度にファイルが記録されることを示したイメージ図である。
話者の発話からキーワード「それでは」が検出される度に、エンコード部4によってエンコードされた音声データは制御部15によってその位置で分割され、MP3の形式のファイルとして記録部5に記録される(例えばファイル名は「ファイルN.mp3」)。
FIG. 3B is an image diagram showing that a file is recorded every time a keyword is detected from a speaker's utterance.
Each time the keyword “Now” is detected from the utterance of the speaker, the audio data encoded by the
なお、本実施の形態では、音声データの区分の方法は、分割した音声データをファイルに分けて記録する方法であったが、この方法に限られず、音声データにフラグ情報を設定する方法や、トラックに分けて音楽データをMDに記録する方法であってもよい。 In the present embodiment, the method of dividing the audio data was a method of recording the divided audio data divided into files, but is not limited to this method, a method of setting flag information in the audio data, It may be a method of recording music data on an MD divided into tracks.
フラグ設定により音声データを区分する場合は、制御部15が行う処理は、音声データの分割を行う代わりに、音声データにフラグ情報を設定する処理を行う。そして、図2のフローチャートにおけるステップS6及びS7に代わって、フラグ情報設定が行われ、同様に、ステップS10及びS11に代わって、フラグ情報設定が行われる。
When the voice data is classified by setting the flag, the process performed by the
図3(c)は、フラグ情報の設定により音声データが区分されることを示したイメージ図である。話者の発話からキーワード「それでは」が検出される度に、エンコード部4によってエンコードされた音声データは制御部15によってその位置にフラグ情報(c1、c2)が設定され、記録部5に記録される。
FIG. 3C is an image diagram showing that audio data is divided by setting flag information. Each time the keyword “Now” is detected from the speaker's utterance, the
また、トラックに分けて音声データをMDに記録する場合は、エンコード部4は音声データをMDへ記録するためのエンコード処理を行い、記録部5はMDドライブ等のMDを格納する装置となり、制御部15はMDが保持する音声データのアドレス情報及びトラック情報を書き換える処理を行う。そして、図2のフローチャートにおけるステップS6及びS7に代わって、音声データのアドレス情報及びトラック情報の書き換えが行われ、同様に、ステップS10及びS11に代わって、音声データのアドレス情報及びトラック情報の書き換えが行われる。
Also, when recording audio data on an MD divided into tracks, the
また、本実施の形態では、記録部5に記録する音声データは、アナログ入力部2から入力された音声データであるが、この方法に限定されない。
In the present embodiment, the audio data recorded in the
例えば、ディジタル入力部6から入力され、記録部5に記録されたMP3等の音声ファイルを再生部9により再生し、その音声を音声認識部8で認識しながらエンコード部4により分割し、記録部5に記録することとしても良い。この際、音声データ処理装置1のユーザは、再生部9により再生され、DAC10によりアナログデータに変換され、増幅部11により増幅され、出力部12から出力された音声を聞きながら、キーワード登録の為にキー操作部13を操作する。
For example, an audio file such as MP3 input from the
図4を参照して、音声データ処理装置1が音声データを再生している際に、その再生されている音声の中からキーワードを検出し、そのキーワードを検出した位置で音声を分割し、ファイルとして保存する際の処理の流れを説明する。なお、処理の実行は制御部15が行う。
Referring to FIG. 4, when audio data processing apparatus 1 is reproducing audio data, a keyword is detected from the reproduced audio, the audio is divided at the position where the keyword is detected, and a file is The flow of processing when saving as will be described. Note that the
この処理は、記録部5に記録された音声データの再生中に、キー操作部13から録音開始の指示を受けることによって開始する。
図4に示すように、まず記憶部6にMP3、WMA又はWAVE等の形式のファイルが生成され、そのファイルがオープンされる(S21)。
This process is started by receiving an instruction to start recording from the
As shown in FIG. 4, first, a file of a format such as MP3, WMA, or WAVE is generated in the
次いで、再生部9により再生された音声データは、バッファ14に一時的に(例えば2秒間)蓄えられた後、エンコード部4によりエンコードされ、オープンされたファイルに順次蓄積される(S22)。
Next, the audio data reproduced by the reproducing
次いで、キー操作部13からキーワード登録指示を受信しない場合(S23;No)、S29に進む。
また、キーワード登録指示を受けた場合(S23;Yes)、バッファ14に一時的に蓄積された音声データは音声認識部8により音声認識処理が行われ、この音声データが表している単語が特定される(S24)。
Next, when a keyword registration instruction is not received from the key operation unit 13 (S23; No), the process proceeds to S29.
When a keyword registration instruction is received (S23; Yes), the voice data temporarily stored in the
次いで、S24により特定された単語は、単語DB7にキーワードとして新たに登録される(S25)。 Next, the word specified in S24 is newly registered as a keyword in the word DB 7 (S25).
次いで、S24により特定された単語の直前の位置で音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S26)。 Next, the accumulation of the voice data in the file is stopped at the position immediately before the word specified in S24, and the file is closed there (S26).
次いで、新たにファイルがオープンされ(S27)、バッファ14に一時的に蓄えられた音声データは、S26にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S28)。
Next, a new file is opened (S27), and the audio data temporarily stored in the
次いで、再生部9により再生された音声データは、バッファ14に入力されるのと同期を取りながら平行して音声認識部8に継続して入力され、音声認識処理が行われる。S25にて登録されたキーワードが検出されない場合(S29;No)、S33に進む。
また、キーワードが検出された場合(S29、Yes)、検出されたキーワードの直前の位置でバッファ14に蓄えられた音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S30)。
Next, the audio data reproduced by the reproducing
When a keyword is detected (S29, Yes), the accumulation of the audio data stored in the
次いで、新たにファイルがオープンされ(S31)、バッファ14に一時的に蓄えられた音声データは、S28にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S32)。
Next, a new file is opened (S31), and the audio data temporarily stored in the
次いで、キー操作部13から再生終了の指示がない場合(S33;No)、S23に戻る。
また、再生終了の指示を受けた場合(S33;Yes)、ファイルはクローズされ(S34)、この処理は終了する。
Next, when there is no instruction to end reproduction from the key operation unit 13 (S33; No), the process returns to S23.
If an instruction to end reproduction is received (S33; Yes), the file is closed (S34), and this process ends.
なお、再生部9により再生される音声データは、アナログ入力部2から入力され、記録部5に記録された音声データであってもよい。また、ディジタル入力部6から入力される音声データはファイルではなく、ストリーミングデータであってもよい。
The audio data reproduced by the
また、登録するキーワードは一つではなく異なるキーワードを複数登録し、音声データの分割位置をキーワード毎に変えて音声データを記録することとしても良い。 Also, not a single keyword but a plurality of different keywords may be registered, and the voice data may be recorded by changing the division position of the voice data for each keyword.
以上のように、本実施形態によれば、アナログ入力部2から入力された音声データをエンコード部4によりエンコードし、記録部5に記録しながら音声認識部8により音声データを音声認識し、キー操作部13によりキーワード登録のための操作をすることで、音声の録音をしながらキーワードを登録することができ、録音前に音声データを区分するためのキーワードを登録する事前作業が不要となる。
As described above, according to the present embodiment, the audio data input from the
また、録音中もしくは再生中の音声を聞きながらキーワードの登録を行うことによって、話者がどのような言葉を多用するか、又は話者が話題を変える際にどのような言葉を使用するか、といった話者の癖を判断してキーワードを登録することができる。 Also, by registering keywords while listening to the sound being recorded or played back, what words the speaker uses frequently or what words the speaker uses when changing topics, It is possible to register keywords by judging the speaker's habits.
また、ADC3によりディジタル音声データに変換後、もしくは再生部9により再生後の音声データをバッファ14に一時的に蓄積しておくことで、一定時間前に既に録音もしくは再生された音声に対して、音声認識部8はキーワード登録のための音声認識を容易に行うことができる。
Further, by storing the audio data after being converted into digital audio data by the ADC 3 or after being reproduced by the
更に、異なるキーワードを複数登録し、音声データの区分け位置を登録されたキーワード毎に変えて音声データを記録することで、音声データの使用目的に応じて様々な位置で音声を区分けすることが容易となる。 Furthermore, by recording multiple different keywords and recording the voice data by changing the voice data segmentation position for each registered keyword, it is easy to classify the voice at various positions according to the purpose of use of the voice data. It becomes.
1 音声データ処理装置
2 アナログ入力部
3 ADC
4 エンコード部
5 記録部
6 ディジタル入力部
7 単語DB
8 音声認識部
9 再生部
10 DAC
11 増幅部
12 出力部
13 キー操作部
14 バッファ
15 制御部
DESCRIPTION OF SYMBOLS 1 Audio | voice
4 Encoding
8
DESCRIPTION OF
Claims (10)
前記入力手段で入力された音声データの音声認識を行う音声認識手段と、
前記入力手段での入力時の操作を受け付ける操作手段と、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする音声データ処理装置。 In an audio data processing apparatus having an input means and an audio data recording means for recording audio data input by the input means,
Voice recognition means for performing voice recognition of the voice data input by the input means;
Operation means for accepting an operation at the time of input by the input means;
Voice recognition data registration means for registering voice recognition data recognized by the voice recognition means based on an operation at the time of input by the operation means;
Based on the voice recognition result of the input voice data in the voice recognition means and the voice recognition data registered in the voice recognition data registration means, the input voice data is divided and recorded by the recording means. Recording control means for controlling so as to
An audio data processing apparatus comprising:
前記再生手段で再生された音声データの音声認識を行う音声認識手段と、
前記再生手段での音声再生時の操作を受け付ける操作手段と、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする音声データ処理装置。 In an audio data processing apparatus having reproduction means for reproducing audio data input from the outside or audio data recorded in advance in the recording means,
Voice recognition means for performing voice recognition of the voice data reproduced by the reproduction means;
Operation means for accepting an operation at the time of sound reproduction by the reproduction means;
Voice recognition data registration means for registering voice recognition data recognized by the voice recognition means based on an operation at the time of voice reproduction by the operation means;
Based on the voice recognition result of the reproduced voice data in the voice recognition means and the voice recognition data registered by the voice recognition data registration means, the voice data is divided and recorded by the recording means. Recording control means for controlling;
An audio data processing apparatus comprising:
前記バッファは、前記操作手段からの指示に従って、所定の時間分の音声データを記録し、
前記音声認識手段は、前記バッファに記録されたデータに対し音声認識を行い、
前記音声認識データ登録手段は、前記音声認識手段によって音声認識された音声認識データを登録すること
を特徴とする請求項1又は請求項2に記載の音声データ処理装置。 It has a buffer for recording audio data,
The buffer records audio data for a predetermined time according to an instruction from the operation means,
The voice recognition means performs voice recognition on the data recorded in the buffer,
The voice data processing apparatus according to claim 1, wherein the voice recognition data registration unit registers voice recognition data voice-recognized by the voice recognition unit.
前記入力工程で入力された音声データの音声認識を行う音声認識工程と、
前記入力工程での入力時の操作を受け付ける操作工程と、
前記操作工程による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における入力された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする音声データ処理方法。 In an audio data processing method including an input process and an audio data recording process for recording audio data input in the input process,
A voice recognition step of performing voice recognition of the voice data input in the input step;
An operation process for receiving an operation at the time of input in the input process;
A voice recognition data registration step of registering voice recognition data recognized by the voice recognition means based on an operation at the time of input in the operation step;
Based on the voice recognition result of the input voice data in the voice recognition step and the voice recognition data registered in the voice recognition data registration step, the input voice data is divided and recorded in the recording step. A recording control process for controlling
An audio data processing method comprising:
前記再生工程で再生された音声データの音声認識を行う音声認識工程と、
前記再生工程での音声再生時の操作を受け付ける操作工程と、
前記操作工程による音声再生時の操作に基づいて、前記音声認識工程で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における再生された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする音声データ処理方法。 In an audio data processing method having a reproduction step of reproducing audio data input from the outside or audio data recorded in advance in a recording step,
A voice recognition step of performing voice recognition of the voice data reproduced in the reproduction step;
An operation step of accepting an operation at the time of audio reproduction in the reproduction step;
A voice recognition data registration step of registering voice recognition data recognized in the voice recognition step based on an operation at the time of voice reproduction by the operation step;
Based on the voice recognition result of the reproduced voice data in the voice recognition step and the voice recognition data registered in the voice recognition data registration step, the voice data is divided and recorded in the recording step. Recording control process to control;
An audio data processing method comprising:
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段として機能させるプログラムにおいて、
前記入力手段で入力された音声データの音声認識を行う音声認識手段、
前記入力手段での入力時の操作を受け付ける操作手段、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とするプログラム。 In a program for causing a computer to function as input means and sound data recording means for recording sound data input by the input means,
Voice recognition means for performing voice recognition of the voice data input by the input means;
Operation means for accepting an operation at the time of input by the input means;
Voice recognition data registration means for registering voice recognition data recognized by the voice recognition means based on an operation at the time of input by the operation means;
Based on the voice recognition result of the input voice data in the voice recognition means and the voice recognition data registered in the voice recognition data registration means, the input voice data is divided and recorded by the recording means. Recording control means for controlling to
A program characterized by functioning as
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段として機能させるプログラムにおいて、
前記再生手段で再生された音声データの音声認識を行う音声認識手段、
前記再生手段での音声再生時の操作を受け付ける操作手段、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とするプログラム。 In a program for causing a computer to function as reproduction means for reproducing audio data input from outside or audio data recorded in advance in a recording means,
Voice recognition means for performing voice recognition of the voice data reproduced by the reproduction means;
Operation means for accepting an operation at the time of sound reproduction by the reproduction means;
Voice recognition data registration means for registering voice recognition data that has been voice-recognized by the voice recognition means based on an operation during voice reproduction by the operation means;
Based on the voice recognition result of the reproduced voice data in the voice recognition means and the voice recognition data registered by the voice recognition data registration means, the voice data is divided and recorded by the recording means. Recording control means for controlling,
A program characterized by functioning as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006333308A JP4779954B2 (en) | 2006-12-11 | 2006-12-11 | Audio data processing apparatus, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006333308A JP4779954B2 (en) | 2006-12-11 | 2006-12-11 | Audio data processing apparatus, method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008145757A JP2008145757A (en) | 2008-06-26 |
JP4779954B2 true JP4779954B2 (en) | 2011-09-28 |
Family
ID=39606005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006333308A Active JP4779954B2 (en) | 2006-12-11 | 2006-12-11 | Audio data processing apparatus, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4779954B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105047203A (en) * | 2015-05-25 | 2015-11-11 | 腾讯科技(深圳)有限公司 | Audio processing method, device and terminal |
-
2006
- 2006-12-11 JP JP2006333308A patent/JP4779954B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105047203A (en) * | 2015-05-25 | 2015-11-11 | 腾讯科技(深圳)有限公司 | Audio processing method, device and terminal |
CN105047203B (en) * | 2015-05-25 | 2019-09-10 | 广州酷狗计算机科技有限公司 | A kind of audio-frequency processing method, device and terminal |
Also Published As
Publication number | Publication date |
---|---|
JP2008145757A (en) | 2008-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004258659A5 (en) | ||
JP2013200423A (en) | Voice interaction support device, method and program | |
US20140376885A1 (en) | Method for playing video file and electronic device using the same | |
JP3881620B2 (en) | Speech speed variable device and speech speed conversion method | |
US20050016364A1 (en) | Information playback apparatus, information playback method, and computer readable medium therefor | |
JP4779954B2 (en) | Audio data processing apparatus, method and program | |
JP4990375B2 (en) | Recording / playback device | |
JP2004093729A (en) | Recording device and reproducing device for music data | |
JP4588626B2 (en) | Music playback device, playback control method, and program | |
JP2007183410A (en) | Information reproduction apparatus and method | |
JPH11242496A (en) | Information reproducing device | |
JP6143824B2 (en) | Spoken dialogue support apparatus, method, and program | |
JP2005107617A5 (en) | ||
JP2005107617A (en) | Voice data retrieval apparatus | |
JPH05334861A (en) | Voice retrieving device | |
JP4264056B2 (en) | Audio file playback apparatus, control method, and program | |
JP2009204872A (en) | Creation system of dictionary for speech recognition | |
JP2005341138A (en) | Video summarizing method and program, and storage medium with the program stored therein | |
JP2004240352A (en) | Speech comparison learning device | |
JP2005235365A (en) | Information reproducing device, and voice recording/reproducing device | |
JP4394465B2 (en) | Playback apparatus, information processing method, and program | |
JP2006178648A (en) | Apparatus, method, program and recording medium for extracting keyword from voice data | |
JP2000089784A (en) | Voice recognition system | |
JP2007103004A (en) | Electronic apparatus and method for retrieving title information of electronic apparatus | |
JP2008170588A (en) | Voice recording device and voice recording method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110620 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4779954 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |