JP2012208218A - Electronic apparatus - Google Patents
Electronic apparatus Download PDFInfo
- Publication number
- JP2012208218A JP2012208218A JP2011072349A JP2011072349A JP2012208218A JP 2012208218 A JP2012208218 A JP 2012208218A JP 2011072349 A JP2011072349 A JP 2011072349A JP 2011072349 A JP2011072349 A JP 2011072349A JP 2012208218 A JP2012208218 A JP 2012208218A
- Authority
- JP
- Japan
- Prior art keywords
- buffer
- determination process
- sample sequence
- command
- recognition processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
この発明は、コマンドの音声入力が可能な電子機器に関する。 The present invention relates to an electronic device capable of inputting a command voice.
近年の電子機器のなかには、各種処理の実行を指示するコマンドを音声入力することが可能なものがある。この種の電子機器においては、ユーザの発話音声をマイクロホンにより収音し、当該マイクロホンの出力信号に音声認識処理を施すことで、予め定められたコマンドが入力されたか否かを判定し、コマンドが入力されたと判定された場合にはそのコマンドに応じた処理を実行する、といった制御が為される。なお、音声認識処理とは、マイクロホンにより収音された音声をその発話内容を表す文字列データに変換する処理のことである。 Some recent electronic devices are capable of inputting voice commands for commands to execute various processes. In this type of electronic device, a user's speech is collected by a microphone, and a speech recognition process is performed on an output signal of the microphone to determine whether a predetermined command is input. When it is determined that the input has been made, control is performed such that processing corresponding to the command is executed. Note that the voice recognition process is a process of converting voice picked up by a microphone into character string data representing the utterance content.
ところで、電子機器のなかには、例えばオーディオ機器のように音声出力機能を有するものがある。このように音声出力機能を有する電子機器に対してコマンドの音声入力機能を設ける際には、音声出力機能によって出力した音声が偶然にコマンドの入力音声と一致する場合であっても、ユーザによるコマンド入力音声であると誤認識されることを防止する仕組みを設ける必要がある。このような誤認識を防止するための技術の一例としては特許文献1〜4に開示されたものが挙げられる。
Incidentally, some electronic devices have an audio output function, such as an audio device. Thus, when a command voice input function is provided for an electronic device having a voice output function, even if the voice output by the voice output function coincides with the command input voice by chance, the user command It is necessary to provide a mechanism for preventing erroneous recognition of input speech. Examples of the technique for preventing such erroneous recognition include those disclosed in
特許文献1および特許文献2に開示された技術では、音声によるコマンド入力を実現するための音声認識処理部とは別個に、スピーカに与えるオーディオ信号に音声認識処理を施す音声認識処理部を設け、前者の音声認識処理部によって何らかのコマンドが検出された場合であっても、同一のコマンドが後者の音声認識処理部によっても検出された場合には当該コマンドの実行を見合わせることで、上記誤認識が防止される。特許文献3には、マイクロホンから出力されたオーディオ信号からスピーカ出力成分を減算した後に音声認識処理を施すことで上記誤認識を回避する技術が開示されている。そして特許文献4には、マイクロホンからの信号出力等を契機としてスピーカ出力音の音量を引き下げることで上記誤認識の発生を回避する技術が開示されている。
In the technologies disclosed in
しかし、特許文献1または特許文献2に開示された技術では、スピーカ出力とマイク入力の各々に独立に音声認識処理部を設ける必要があり、電子機器の製造コストが高くなるといった問題や、電子機器の小型化に適さない、といった問題がある。特許文献3に開示された技術の場合、スピーカから出力された音声が音響空間を伝播してマイクロホンに至るまでに遅延やゲイン、周波数スペクトル等が変化するため、これら変化を適切に考慮しないとマイクロホンの出力信号からのスピーカ出力成分の減算を正しく行えず、上記誤認識の発生を確実に防止することが困難になる。このため、特許文献3に開示された技術には、家庭用のオーディオ機器のようにスピーカとマイクロホンの相対的な位置関係がその使用のたびに変化し得る機器には適用し難い、といった問題がある。そして、特許文献4に開示された技術には、例えばスピーカから出力される音の音量調整に関するコマンドを音声入力した際に、再生音量が一旦低下した後に所望の音量変化が生じることとなり、ユーザに違和感を与える場合がある、といった問題がある。特に、音量を引き上げるコマンドを音声入力した場合に、上記違和感は顕著となる。
However, in the technique disclosed in
本発明は上記課題に鑑みてなされたものであり、音声の入出力機能を有する電子機器に対して音声入力されるコマンドの誤認識を、簡単な構成で防止することを可能にする技術を提供することを目的とする。 The present invention has been made in view of the above problems, and provides a technique capable of preventing erroneous recognition of a command inputted to an electronic device having a voice input / output function with a simple configuration. The purpose is to do.
上記課題を解決するために本発明は、(A)マイクロホンにより収音された入力音を表すオーディオ信号のサンプル列を蓄積する第1のバッファと、(B)スピーカに出力させる出力音を表すオーディオ信号のサンプル列を蓄積する第2のバッファと、(C)与えられたサンプル列に音声認識処理を施す音声認識処理部と、(D)前記第1のバッファに蓄積されたサンプル列を最も古いものから順に所定サンプル数ずつ前記音声認識処理部に与え、前記音声認識処理部による音声認識処理の処理結果に基づいて予め定められた1または複数のコマンドの何れかの入力音を表すものであるか否かを判定する第1の判定処理と、前記1または複数のコマンドの何れかの入力音を表すものであると前記第1の判定処理にて判定されたサンプル列の前記第1のバッファへの書き込みタイミングと同じまたは少し早いタイミングで前記第2のバッファに書き込まれたサンプル列に基づいて、当該入力音が前記スピーカから出力されたものであるか否かを判定する第2の判定処理と、前記1または複数のコマンドの何れかを表すものであると前記第1の判定処理にて判定され、かつ前記スピーカから放音されたものではないと前記第2の判定処理にて判定された入力音の表すコマンドを実行するコマンド実行処理と、を実行する制御部と、を有することを特徴とする電子機器を提供する。 In order to solve the above problems, the present invention provides (A) a first buffer for storing a sample sequence of an audio signal representing an input sound collected by a microphone, and (B) an audio representing an output sound to be output to a speaker. A second buffer for accumulating the signal sample sequence; (C) a speech recognition processing unit for performing speech recognition processing on the given sample sequence; and (D) the oldest sample sequence accumulated in the first buffer. A predetermined number of samples are sequentially given to the voice recognition processing unit, and represent an input sound of one or a plurality of commands determined in advance based on the processing result of the voice recognition processing by the voice recognition processing unit. A first determination process for determining whether or not a sample string determined by the first determination process to represent an input sound of any one of the one or more commands. A first determination is made as to whether or not the input sound is output from the speaker based on the sample sequence written in the second buffer at the same timing or slightly earlier than the write timing to the first buffer. 2 and the second determination process when it is determined in the first determination process that it represents one of the one or the plurality of commands and the sound is not emitted from the speaker. And a control unit that executes a command execution process for executing a command represented by the input sound determined in step (b).
ここで、第2の判定処理における判定手法の具体例としては、1または複数のコマンドの何れかの入力音を表すものであると第1の判定処理にて判定されたサンプル列の当該第1のバッファへの書き込みタイミングと同じまたは少し早いタイミングで第2のバッファに書き込まれたサンプル列を所定のサンプル数ずつ音声認識処理部に与え、その音声認識処理結果に基づいて判定する態様や、第2のバッファに書き込まれたサンプル列と1または複数のコマンドの何れかを表すものであると第1の判定処理にて判定されたサンプル列との相関を求め、両者の相関の強さに基づいて判定する態様とが考えられる。 Here, as a specific example of the determination method in the second determination process, the first of the sample strings determined in the first determination process to represent an input sound of any one or a plurality of commands. A sample sequence written to the second buffer at the same timing or a little earlier than the timing of writing to the buffer is given to the speech recognition processing unit by a predetermined number of samples, and a determination is made based on the result of the speech recognition processing, The correlation between the sample sequence written in the second buffer and the sample sequence determined in the first determination processing is obtained as representing one of a plurality of commands, and based on the strength of the correlation between the two. It is conceivable that this is determined in the manner described above.
このような電子機器によれば、第2の判定処理における判定手法として前者の態様を用いる場合であっても、1つの音声認識処理部を用いて第1の判定処理および第2の判定処理が実行されるため、第1の判定処理を実行するための音声認識処理部と第2の判定処理を行うための音声認識処理部とを別個独立に設ける態様に比較して電子機器の製造コストを低く抑えることが可能であり、また、電子機器の小型化にも適するといった利点がある。なお、1つの音声認識処理部を用いて第1の判定処理および第2の判定処理が実行することの具体的な実現方法としては、第1の判定処理により1または複数のコマンドの何れかを表すものであるとの判定結果が得られた後に第2の判定処理を開始する態様や、第1の判定処理の実行過程において、判定対象のサンプル列が前記1または複数のコマンドの何れかの少なくとも1部を表すとの判定結果が得られた時点で前記第1の判定処理の終了を待たずに前記第2の判定処理を開始する態様が考えられる。後者の態様によれば、コマンドの音声入力を行ってから当該コマンドに応じた処理の実行が開始されるまでの遅延を前者の態様に比較して短くすることができる、といった効果が奏される。一方、前者の態様には、第2の判定処理が無駄に実行されることを回避することができるといった利点がある。 According to such an electronic device, even if the former aspect is used as the determination method in the second determination process, the first determination process and the second determination process are performed using one speech recognition processing unit. Therefore, the manufacturing cost of the electronic device can be reduced as compared with an aspect in which a voice recognition processing unit for executing the first determination process and a voice recognition processing unit for performing the second determination process are separately provided. There is an advantage that it can be kept low and is suitable for downsizing of electronic equipment. In addition, as a concrete realization method of performing the first determination process and the second determination process using one voice recognition processing unit, either one or a plurality of commands is determined by the first determination process. In the aspect in which the second determination process is started after the determination result is obtained, or in the execution process of the first determination process, the sample sequence to be determined is one of the one or more commands. A mode is conceivable in which the second determination process is started without waiting for the end of the first determination process when a determination result that represents at least one copy is obtained. According to the latter aspect, there is an effect that it is possible to shorten the delay from the voice input of the command until the execution of the processing corresponding to the command is started compared to the former aspect. . On the other hand, the former aspect has an advantage that the second determination process can be avoided from being performed wastefully.
また、上記課題を解決するために本発明は、(A)マイクロホンにより収音された入力音を表すオーディオ信号のサンプル列を蓄積する第1のバッファと、(B)複数のスピーカの各々に出力させる出力音を表すオーディオ信号のサンプル列をスピーカ毎に、または前記各オーディオ信号をミキシングして得られるミキシング信号のサンプル列を蓄積する第2のバッファと、(C)与えられたサンプル列に音声認識処理を施す音声認識処理部と、(D)前記第1のバッファに蓄積されたサンプル列を最も古いものから順に所定サンプル数ずつ前記音声認識処理部に与え、予め定められた1または複数のコマンドの何れかの入力音を表すものあるか否かを前記音声認識処理部による音声認識処理の処理結果に基づいて判定する第1の判定処理と、前記1または複数のコマンドの何れかの入力音を表すものであると前記第1の判定処理にて判定されたサンプル列の前記第1のバッファへの書き込みタイミングと同じまたは少し早いタイミングで前記第2のバッファに蓄積された前記ミキシング信号のサンプル列または前記スピーカ毎のサンプル列に基づいて、当該入力音が前記複数のスピーカの何れかから放音されたものであるか否かを判定する第2の判定処理と、前記1または複数のコマンドの何れかを表すものであると前記第1の判定処理にて判定され、かつ前記複数のスピーカから放音されたものではないと前記第2の判定処理にて判定された入力音の表すコマンドを実行するコマンド実行処理と、を実行する制御部と、を有することを特徴とする電子機器を提供する。 In order to solve the above problems, the present invention provides (A) a first buffer for storing a sample sequence of an audio signal representing an input sound picked up by a microphone, and (B) an output to each of a plurality of speakers. A second buffer for storing a sample sequence of an audio signal representing an output sound to be generated for each speaker, or a sample sequence of a mixing signal obtained by mixing each audio signal; and (C) a sound in a given sample sequence A speech recognition processing unit that performs recognition processing; and (D) a predetermined number of samples from the oldest sample sequence stored in the first buffer are given to the speech recognition processing unit in order from the oldest one. A first determination process for determining whether or not any input sound of a command is present based on a result of a voice recognition process performed by the voice recognition processing unit; The first or the plurality of commands represent the input sound, and the first timing is the same as or slightly earlier than the timing at which the sample sequence determined in the first determination process is written to the first buffer. Determining whether or not the input sound is emitted from any of the plurality of speakers based on a sample sequence of the mixing signal stored in the second buffer or a sample sequence for each speaker; 2 and the second determination process if it represents one of the one or the plurality of commands, and the second determination means that the sound is not emitted from the plurality of speakers. There is provided an electronic apparatus comprising: a control unit that executes a command execution process that executes a command represented by an input sound determined in the determination process.
このような電子機器によれば、例えば左右各1チャネルのスピーカ出力が可能なステレオオーディオ機器や、5.1チャネルのマルチサラウンドオーディオ機器のように複数のスピーカが接続される電子機器において、音声によるコマンド入力を可能とし、かつ何れかのスピーカから出力された音声が偶然にコマンド入力音声と一致する場合の誤認識を簡単な構成で防止することが可能になる。 According to such an electronic device, for example, in a stereo audio device capable of outputting left and right one-channel speakers and an electronic device to which a plurality of speakers are connected, such as a 5.1-channel multi-surround audio device, it is possible to use sound. It is possible to input a command and prevent erroneous recognition when a voice output from any speaker coincides with a command input voice by chance.
より好ましい態様においては、上記各電子機器は、前記第2のバッファに書き込むサンプル列に、より低いサンプリングレートのサンプル列に変換するサンプリングレート変換部を備え、前記サンプリングレート変換部による処理を経たサンプル列を前記第2のバッファに書き込むことを特徴とする。前記第2のバッファに書き込むサンプル列のサンプリングレートを音声認識に影響を及ぼさない範囲で引き下げるようにすれば、当該第2のバッファのバッファサイズを節約することが可能になる。 In a more preferred aspect, each of the electronic devices includes a sampling rate conversion unit that converts the sample sequence to be written into the second buffer into a sample sequence having a lower sampling rate, and has undergone processing by the sampling rate conversion unit. A column is written to the second buffer. If the sampling rate of the sample sequence written to the second buffer is reduced within a range that does not affect speech recognition, the buffer size of the second buffer can be saved.
以下、図面を参照し、この発明の実施形態について説明する。
(A:第1実施形態)
図1は、本発明の第1実施形態の電子機器1Aの構成例を示す図である。
この電子機器1Aは、例えば地上デジタル放送等により提供される放送コンテンツを再生するオーディオ機器であり、当該放送コンテンツに含まれるオーディオ信号をスピーカ2に与え、当該オーディオ信号を音として出力させる。図1に示すように電子機器1Aには、スピーカ2の他にマイクロホン3が接続され、当該電子機器1Aのユーザは各種処理の実行を指示するコマンドをマイクロホン3を介して音声入力することができる。なお、本実施形態では、スピーカ2およびマイクロホン3の両者を電子機器1Aの外部装置としたが、これらの両方、あるいは何れか一方を電子機器1Aに内蔵させても勿論良い。また、再生対象のオーディオ信号の信号源についても電子機器1Aの外部に設けられている場合に限らず、電子機器1Aに内蔵されていても良い。そして、スピーカ2やマイクロホン3、再生対象のオーディオ信号の信号源等を外部機器として電子機器1Aの外部に設ける場合には、それら外部機器と電子機器1Aとの間の信号授受のためのインタフェースは無線インタフェースであっても良く、また有線インタフェースであっても良い。
Embodiments of the present invention will be described below with reference to the drawings.
(A: 1st Embodiment)
FIG. 1 is a diagram illustrating a configuration example of an
The
図1に示すように、電子機器1Aは、サンプリングレート変換部10、再生信号バッファ20、マイク入力バッファ30、読出制御部40、音声認識処理部50、および制御部60を含んでいる。再生信号バッファ20は、スピーカ2に与えるオーディオ信号の波形を表すサンプル列を蓄積するためのものである。この再生信号バッファ20は、電子機器1Aの揮発性メモリ(図示略)内に確保されたリングバッファである。再生信号バッファ20には、サンプリングレート変換部10によるサンプリングレートの変換を経たサンプル列が書き込まれる。サンプリングレート変換部10は、スピーカ2に与えるオーディオ信号の波形を表すサンプル列(当該オーディオ信号を例えば44.1kHz〜96kHzのサンプリングレートでサンプルすることにより得られるサンプル列)を、後段の音声認識処理部50による音声認識処理の実行に影響のない範囲で、よりサンプリングレートの低いものに変換して出力する。このようなサンプリングレート変換部10を設けたのは、再生信号バッファ20のバッファサイズを節約するためである。したがって、再生信号バッファ20のバッファサイズを節約する必要がない場合にはサンプリングレート変換部10を設ける必要はない。なお、上記放送コンテンツに含まれるオーディオ信号がアナログ形式のものである場合には、A/D変換器等によるA/D変換を施した後にサンプリングレート変換部10に与えるようにすれば良い。
As shown in FIG. 1, the
マイク入力バッファ30は、再生信号バッファ20と同様にリングバッファである。マイク入力バッファ30には、マイクロホン3から出力されるオーディオ信号(すなわち、マイクロホン3によって収音された音を表すオーディオ信号)の波形を表すサンプル列が蓄積される。本実施形態のマイク入力バッファ30は、4秒分のサンプル列を格納するバッファサイズを有している。これは、コマンドの発話時間は概ね1〜4秒の範囲に収まっていることが多いからである。読出制御部40は、制御部60による制御の下、マイク入力バッファ30に蓄積されているサンプル列を古いものから順に所定サンプル数のブロックに区切って読み出して音声認識処理部50に与える第1の処理と、制御部60から与えられる読出指示に応じて、再生信号バッファ20に蓄積されているサンプル列のうち当該読出指示にて指示された時間区間のサンプル列を上記所定サンプル数のブロックに区切って読み出し音声認識処理部50に与える第2の処理とを実行する。
The
音声認識処理部50は、例えばDSP(Digital Signal Processor)である。この音声認識処理部50は、読出制御部40から与えられるサンプル列に対して音声認識処理を施し、当該サンプル列の表す音声の発話内容を表す文字列データを生成し制御部60に出力する。ここで、音声認識処理部50における音声認識の具体的な手法としては周知のものを適宜用いるようにすれば良い。
The voice
制御部60は、CPU(Central
Processing Unit)と、ROM(Read Only Memory)などの不揮発性メモリと、RAM(Random Access Memory)などの揮発性メモリとを含んでいる(何れも、図示略)。上記不揮発性メモリには、音声によるコマンド入力を実現するためのユーザインタフェースプログラムと、制御部60が実行可能な1または複数のコマンドの各々を表すコマンドデータ(例えば、コマンドを表す文字列データ)が書き込まれたコマンドテーブルとが予め格納されている。制御部60は、上記ユーザインタフェースプログラムにしたがって上記CPUを作動させることにより、本実施形態の特徴を顕著に示す処理を実行する。また、上記揮発性メモリは、上記ユーザインタフェースプログラムをCPUに実行させる際のワークエリアとして利用される。
The
It includes a processing unit), a nonvolatile memory such as a ROM (Read Only Memory), and a volatile memory such as a RAM (Random Access Memory) (all not shown). In the nonvolatile memory, a user interface program for realizing voice command input and command data representing each of one or more commands that can be executed by the control unit 60 (for example, character string data representing a command) are stored. The written command table is stored in advance. The
ユーザインタフェースプログラムにしたがってCPUを作動させることにより制御部60が実行する処理としては、第1の判定処理、第2の判定処理、およびコマンド実行処理の3つの処理が挙げられる。第1の判定処理とは、マイク入力バッファ30に蓄積されているサンプル列を上記ブロック単位で古いものから順に音声認識処理部50に与えるように読出制御部40を制御し、当該サンプル列の表す入力音がコマンドテーブルに格納されているコマンドデータの表すコマンドの何れかを表すものであるか否かを音声認識処理部50による音声認識処理の処理結果に基づいて判定する処理である。この第1の判定処理は、マイク入力バッファ30のバッファサイズに比較して短い時間間隔(例えば、5〜10msなど)で周期的に実行される。
The process executed by the
第2の判定処理とは、何れかのコマンドを表すものであると第1の判定処理によって判定されたサンプル列のマイク入力バッファ30への書き込みタイミングと同じタイミング(或いは、スピーカ2から出力された音が音響空間を伝播してマイクロホン3に至るまでの遅延時間の分だけ上記書き込みタイミングよりも早いタイミング)で再生信号バッファ20に書き込まれたサンプル列をブロック単位で読み出して音声認識処理部50に与える旨の読出指示を読出制御部40に与え、上記入力音がスピーカ2から放音されたものであるか否かを判定する処理である。ここで、何れかのコマンドを表すものであると第1の判定処理によって判定されたサンプル列のマイク入力バッファ30への書き込みタイミングを特定するには、マイク入力バッファ30に蓄積されているサンプルのうちの最新のものから当該サンプル列の先頭のものまでのサンプル数を時間に換算して求めるようにすれば良い。また、再生信号バッファ20からのサンプルの読出し位置を特定する際にも上記のようにして求めた時間を再生信号バッファ20におけるサンプル数に換算して特定するようにすれば良い。そして、コマンド実行処理とは、コマンドテーブルに格納されている何れかのコマンドを表すものであると第1の判定処理にて判定され、かつスピーカ2から放音されたものではないと第2の判定処理にて判定された入力音の表すコマンドをユーザにより実行を指示されたコマンドとして実行する処理である。
The second determination process is the same timing as the writing timing to the
本実施形態では、第1の判定処理にて何れかのコマンドを表すものであるとの判定結果が得られたことを契機として第2の判定処理を開始するが、第2の判定処理の開始タイミングはこれに限定されるものではない。例えば、第1の判定処理の実行過程において、コマンドテーブルに格納されたコマンドの何れかと少なくとも一部が一致する(例えば、先頭N(Nは任意の自然数)文字が一致するなど)の音声認識結果が得られた時点で第2の判定処理を開始し、以後、第1の判定処理と第2の判定処理とを時分割制御によって並列に実行する態様も考えられる。このような態様によれば、本実施形態の態様に比較して第2の判定処理がより早く開始され、電子機器1Aのユーザがコマンド入力のための音声を発してからそのコマンドに応じた処理が開始されるまでの遅延が短くなるといった利点がある。
In the present embodiment, the second determination process is started when the determination result that represents any command is obtained in the first determination process, but the second determination process starts. The timing is not limited to this. For example, in the execution process of the first determination process, a speech recognition result that at least partially matches any of the commands stored in the command table (for example, the first N (N is an arbitrary natural number) character matches). It is also conceivable that the second determination process is started at the time when the first and second determination processes are obtained, and thereafter the first determination process and the second determination process are executed in parallel by time division control. According to such an aspect, the second determination process is started earlier than the aspect of the present embodiment, and the process according to the command after the user of the
また、第2の判定処理の終了タイミングについても種々の態様が考えられる。例えば、判定対象のサンプル列に音声認識処理を施して得られる文字列の先頭M(Mは自然数)文字が何れのコマンドの先頭M文字とも一致しないことが判明した時点で、第1の判定処理によりコマンド入力音であると判定された音はスピーカ2から出力されたものではないと判定して当該第2の判定処理を終了する態様が考えられる。また、第1の判定処理による判定対象のサンプル列とは異なる文字列を表すものであることが判明した時点で第2の判定処理を終了するようにしても良い。また、第1の判定処理の終了を待たずに第2の判定処理を開始する態様においては、第1の判定処理にてコマンドを表すものではないとの判定結果が得られた時点で第2の判定処理を終了するようにしても良い。
以上が電子機器1Aの構成である。
Various modes can be considered for the end timing of the second determination process. For example, when it is determined that the first M (M is a natural number) character of a character string obtained by performing speech recognition processing on the sample sequence to be determined does not match the first M characters of any command, the first determination processing It can be considered that the sound determined as the command input sound is not output from the speaker 2 and the second determination process is terminated. Alternatively, the second determination process may be terminated when it is determined that the character string is different from the sample string to be determined by the first determination process. In the aspect in which the second determination process is started without waiting for the end of the first determination process, the second determination process is performed when a determination result indicating that the first determination process does not represent a command is obtained. This determination process may be terminated.
The above is the configuration of the
次いで、図2を参照しつつ電子機器1Aの動作を説明する。
図2に示すように、本実施形態では、再生信号バッファ20およびマイク入力バッファ30へのサンプル列の書き込みが順次行われ、前述した第1の判定処理が所定の時間間隔で実行される結果、マイク入力バッファ30に対するサンプル列の書き込みを追いかけるように、マイク入力バッファ30に書き込まれたサンプル列を古いものから順に所定サンプル数のブロックに区切って読み出して音声認識処理部50に与える処理が読出制御部40によって実行される。
Next, the operation of the
As shown in FIG. 2, in this embodiment, the sample sequence is sequentially written into the
ここで、図2のブロックM1およびM2に亘って何れかのコマンドの入力音声を表すサンプル列が格納されているとする。上記第1の判定処理を実行中の制御部60は、ブロックM1およびM2に対する音声認識処理の処理結果データを音声認識処理部50から受け取り、これら処理結果データの表す文字列がコマンドテーブルに格納されているコマンドの何れかと一致することを検出すると、当該ブロックM1およびM2に対応するブロックS1およびS2を再生信号バッファ20から読み出す旨の読出指示を読出制御部40に与え、第2の判定処理を開始する。一方、読出制御部40は、当該読出指示にしたがって再生信号バッファ20からブロックS1およびS2を順次読み出して音声認識処理部50に与え、音声認識処理部50はこれらブロックS1およびS2に対して音声認識処理を施し、その処理結果データを制御部60に与える。
Here, it is assumed that a sample string representing the input voice of any command is stored across the blocks M1 and M2 in FIG. The
第2の判定処理を実行中の制御部60は、ブロックS1およびS2に対する音声認識処理の処理結果が文字列を表すものではない場合、または、文字列を表すものの、第1の判定処理にて検出されたコマンドとは異なる文字列を表すものである場合には、当該コマンドを表すものであると第1の判定処理にて判定された入力音はスピーカ2によって出力されたものではないと判定する。この場合、制御部60は、第1の判定処理にて検出されたコマンドを実行するコマンド実行処理を実行する。
The
これに対して、ブロックS1およびS2に対する音声認識処理の処理結果が、第1の判定処理にて検出されたコマンドと同一の文字列を表すものである場合には、制御部60は、当該コマンドを表すものであると第1の判定処理にて判定された入力音はスピーカ2によって出力されたものであると判定する。この場合、コマンド実行処理が実行されることはない。したがって、マイクロホン3を介して入力されたコマンド入力音声とスピーカ2によって出力される出力音声とが偶然に一致する場合には、当該コマンド入力音声によって入力されたコマンドは実行されないこととなるが、この場合は、電子機器1Aのユーザは自らが発したコマンド入力音声とスピーカ2の出力音とが偶然に一致したことを容易に把握することができ、再度、コマンド入力音声を発するなどの対処を行うことができるため、特段の問題は生じない。
On the other hand, when the processing result of the speech recognition processing for the blocks S1 and S2 represents the same character string as the command detected in the first determination processing, the
以上説明したように、本実施形態においては、1つの音声認識処理部の時分割制御によってマイク入力音に対する音声認識処理とスピーカ出力音に対する音声認識処理とが実行され、スピーカ出力音がコマンド入力音声である誤認されることが防止される。このため、特許文献1および特許文献2に開示された技術のように入力系および出力系の各々に別個独立に音声認識処理部を設ける態様に比較して電子機器の小型化および製造コストの低減を図ることができる。
As described above, in this embodiment, the voice recognition process for the microphone input sound and the voice recognition process for the speaker output sound are executed by the time division control of one voice recognition processing unit, and the speaker output sound is the command input voice. Is prevented from being misidentified. For this reason, compared with the aspect which provided the speech recognition process part separately in each of an input system and an output system like the technique disclosed by
(B:第2実施形態)
図3(A)および図3(B)は、本発明の第2実施形態の電子機器1Bおよび1Cの構成例を示す図である。電子機器1Bおよび1Cは、ステレオオーディオ機器、あるいはマルチチャネルサラウンドオーディオ機器であり、複数のスピーカ2−k(k=1〜N)を接続する点が第1実施形態の電子機器1Aと異なる。
(B: Second embodiment)
FIG. 3A and FIG. 3B are diagrams showing a configuration example of the
図3(A)に示す電子機器1Bにおいては、スピーカ2−k(k=1〜N)の各々に与えられるオーディオ信号をミキシングするミキシング部70を有しており、このミキシング部70によるミキシング処理により得られたオーディオ信号がサンプリングレート変換部10に与えられる。つまり、図3(A)に示す電子機器1Bにおいては、スピーカ2−k(k=1〜N)の各々に与えるオーディオ信号のミキシング信号を対象として上記第2の判定処理が行われる。
The
一方、電子機器1Cは、図3(B)に示すように、スピーカ2−k(k=1〜N)の各々に1つずつ対応するN個の再生信号バッファ20−k(k=1〜N)を有している。再生信号バッファ20−k(k=1〜N)の各々には、スピーカ2−k(k=1〜N)の各々に与えられるものと同じオーディオ信号のサンプル列がサンプリングレート変換部10によるサンプリングレート変換を経て書き込まれる。図3(B)に示す電子機器1Cでは、予め定められた1または複数のコマンドの入力音声を表すものであるとの判定結果が第1の判定処理によって得られた場合には、再生信号バッファ20−k(k=1〜N)の各々に格納されているサンプル列に対して順次第2の判定処理が実行される。つまり、図3(B)に示す電子機器1Cにおいては、スピーカ2−k(k=1〜N)の各々に与えるオーディオ信号のそれぞれを対象として上記第2の判定処理が行われるのである。
On the other hand, as shown in FIG. 3B, the
電子機器1Bと電子機器1Cとを比較すると、ユーザによるコマンド入力音声の発声から実際に当該コマンドに応じた処理が開始されるまでの遅延は前者のほうが短くなる。しかし、前者の態様(電子機器1B)では後者の態様(電子機器1C)に比較して以下のような誤判断が発生する虞がある。第1に、スピーカ2−k(k=1〜N)の各々から出力される音声がコマンド入力音声とは異なっているものの、それらを重ね合わせた音声(すなわち、上記ミキシング信号に対応する音声)が偶然にコマンド入力音声と一致するような場合に、ユーザの発したコマンド入力音声がスピーカ2−kから出力されたものであると判断されるといった誤判断である。第2に、複数のオーディオ信号をミキシングすることで、特定のチャネルのみに含まれていたコマンドを他のチャネルの妨害によって認識することができなくなるといった誤判断である。この第2の誤判断は、上記特定のチャネルを再生しているスピーカの近くにマイクロホン3がある場合にその発生が懸念される。上記特定のチャネルを再生しているスピーカの近くにマイクロホン3がある場合には、当該スピーカからの再生音が第1の判定処理のみで認識され、第2の判定処理では認識されない虞があるからである。後者の態様(電子機器1C)では、ユーザによるコマンド入力音声の発声から実際に当該コマンドに応じた処理が開始されるまでの遅延が前者の態様(電子機器1B)に比べて長くなるものの、上記第1および第2の誤判断が確実に回避される。
Comparing the
そこで、ユーザによるコマンド入力音声の発声から実際に当該コマンドに応じた処理が開始されるまでの遅延を短くする必要がある場合には前者の態様の電子機器(すなわち、図3(A)に示す電子機器1B)が好ましく、上記誤判断を確実に回避する必要がある場合には後者の態様の電子機器(図3(B)に示す電子機器1C)が好ましいと言える。なお、前者の態様の電子機器であっても上記2種類の誤判断のうち第1の誤判断についてはその発生頻度は低く、仮に発生したとしても、ユーザが再度同一のコマンドを音声入力するようにすれば上記誤判断が再度発生する可能性は低く、当該コマンドに応じた処理が実行される。また第2の誤判断についても各スピーカとマイクロホン3との距離が均等になるようにスピーカおよびマイクロホンの配置位置に注意を払うことでその発生頻度を低くすることができる。
Therefore, when it is necessary to shorten the delay from the utterance of the command input voice by the user until the processing corresponding to the command is actually started, the former electronic device (that is, shown in FIG. 3A). The
(C:変形)
以上、本発明の第1および第2実施形態について説明したが、これら実施形態を以下のように変形しても勿論良い。
(1)上述した第1および第2実施形態では、マイク入力バッファ30からサンプル列を読み出す際のブロックサイズを常に一定としたが、ブロックサイズを可変にしても勿論良い。例えば、読み込んだサンプル列に対する音声認識処理の結果、当該サンプル列が音声を表すものではない場合、或いは音声を表すもののコマンドを表すものではない(例えば、音声認識処理の結果得られる文字列データの1文字目がコマンドと一致しない)間は、ブロックサイズを一定とし、1文字目が何れかのコマンドと一致する文字列データが音声認識処理によって得られたことを契機として、後続のサンプル列を読み出す際のブロックサイズを小さくするといった具合である。また、上記第1および第2実施形態では、マイク入力バッファ30からサンプル列を読み出す際のブロックサイズと再生信号バッファ20からサンプル列を読み出す際のブロックサイズとを同一としたが、両者のブロックサイズが異なっていても勿論良い。
(C: deformation)
Although the first and second embodiments of the present invention have been described above, it is needless to say that these embodiments may be modified as follows.
(1) In the first and second embodiments described above, the block size when the sample string is read from the
(2)上述した第1および第2実施形態では、上記第1の判定処理および第2の判定処理によってスピーカ2(或いはスピーカ2−k(k=1〜N))から出力された音声がコマンド入力音声であると誤認識されることを回避したが、第1の判定処理において1または複数のコマンドの何れかを表す入力音声であると判定された場合には、スピーカ2(あるいはスピーカ2−k(k=1〜N))に与えるオーディオ信号のゲイン(すなわち、スピーカ2あるいはスピーカ2−kから出力される音声の音量)を引き下げる音量制御をさらに行うようにしても勿論良い。 (2) In the first and second embodiments described above, the voice output from the speaker 2 (or the speaker 2-k (k = 1 to N)) by the first determination process and the second determination process is a command. Although it is avoided that the input voice is erroneously recognized, if it is determined in the first determination process that the input voice represents one or a plurality of commands, the speaker 2 (or the speaker 2- Needless to say, volume control may be further performed to lower the gain of the audio signal applied to k (k = 1 to N) (that is, the volume of the sound output from the speaker 2 or the speaker 2-k).
(3)上述した第1および第2実施形態では、オーディオ機器への本発明の適用例を説明したが、本発明の適用対象はこれに限定されるものではない。オーディオ機器以外の電子機器であっても、音声出力機能と音声によるコマンド入力機能とを備えた電子機器(例えば、家庭用ゲーム機やパーソナルコンピュータ、カーオーディオ装置など)であれば、本発明を適用することによってコマンドの誤認識を回避することが可能になるからである。 (3) In the first and second embodiments described above, application examples of the present invention to audio equipment have been described, but the application target of the present invention is not limited to this. The present invention is applied to an electronic device other than an audio device as long as it is an electronic device having a voice output function and a voice command input function (for example, a home game machine, a personal computer, or a car audio device). This is because erroneous recognition of commands can be avoided.
(4)上述した第1および第2実施形態の第2の判定処理では、何れかのコマンドの入力音を表すものであると第1の判定処理によって判定されたサンプル列のマイク入力バッファ30への書き込みタイミングと同じタイミング(或いは、当該書き込みタイミングよりも早いタイミング)で再生信号バッファ20に書き込まれたサンプル列をブロック単位で読み出して音声認識処理部50に与え、その音声認識処理の処理結果に基づいて、上記入力音がスピーカ2から放音されたものであるか否かを判定した。しかし、何れかのコマンドの入力音を表すものであると第1の判定処理によって判定されたサンプル列と、当該サンプル列のマイク入力バッファ30への書き込みタイミングと同じタイミング(或いは、当該書き込みタイミングよりも早いタイミング)で再生信号バッファ20に書き込まれたサンプル列との相関を求め、両者の相関の強さに基づいて上記入力音がスピーカ2から放音されたものであるか否かを判定しても良い。例えば、図2に示す例ではブロックM1とブロックS1の相関の強さに基づいて当該ブロック1に対応する音がスピーカ2によって放音されたものであるか否かを判定する、といった具合である。要は、何れかのコマンドの入力音を表すものであると第1の判定処理によって判定されたサンプル列のマイク入力バッファ30への書き込みタイミングと同じタイミング(或いは、当該書き込みタイミングよりも早いタイミング)で再生信号バッファ20に書き込まれたサンプル列に基づいて当該入力音がスピーカ2から放音されたものであるのか否かを判定する態様であれば良い。
(4) In the second determination process of the first and second embodiments described above, to the
(5)上述した第2実施形態では、複数のスピーカの各々に与えるオーディオ信号を全てミキシングして第2の判定処理を行う態様と、各スピーカに与えるオーディオ信号毎に第2の判定処理を行う態様と、を説明した。しかし、Nチャネルのオーディオ信号を全てミキシングするのではなく、N種類のオーディオ信号をM(2≦M<N)種類にグループ分けし、グループ毎にオーディオ信号のミキシングを行ってM種類のミキシング信号を生成してグループ毎に設けた再生信号バッファに書き込み、それらM種類のミキシング信号の各々を第2の判定処理による判定対象としても良い。例えば、5.1チャネル信号に対してフロント左右およびセンタの合計3チャネルのオーディオ信号をミキシングして第1のミキシング信号を生成する一方、サラウンド左右の合計2チャネルのオーディオ信号をミキシングして第2のミキシング信号を生成し、これら第1および第2のミキシング信号の各々を第2の判定処理の判定対象とするのである。このような態様によれば、複数のスピーカの各々に与えるオーディオ信号を全てミキシングして第2の判定処理を行う態様と各スピーカに与えるオーディオ信号毎に第2の判定処理を行う態様の利点と欠点のバランスをとること(すなわち、判定精度をある程度保ちつつ判定遅延の増加を抑えること)が可能になる。 (5) In the second embodiment described above, the second determination process is performed by mixing all the audio signals applied to each of the plurality of speakers, and the second determination process is performed for each audio signal applied to each speaker. The embodiment has been described. However, not all N-channel audio signals are mixed, but N types of audio signals are grouped into M (2 ≦ M <N) types, and the audio signals are mixed for each group to obtain M types of mixing signals. May be generated and written into a reproduction signal buffer provided for each group, and each of the M kinds of mixing signals may be determined by the second determination process. For example, a total of 3 channels of front left and right and center audio signals are mixed with a 5.1 channel signal to generate a first mixing signal, while a total of 2 channels of surround left and right audio signals are mixed to generate a second mixing signal. These mixing signals are generated, and each of the first and second mixing signals is set as a determination target of the second determination process. According to such an aspect, the aspect of performing the second determination process by mixing all the audio signals to be provided to each of the plurality of speakers and the advantage of performing the second determination process for each audio signal to be applied to each speaker, It is possible to balance the defects (that is, to suppress increase in determination delay while maintaining determination accuracy to some extent).
(6)上述した第1および第2実施形態では、本発明の特徴を顕著に示す第1の判定処理、第2の判定処理およびコマンド実行処理をソフトウェアによって実現したが、第1の判定処理を実行する第1の判定手段、第2の判定処理を実行する第2の判定手段、コマンド実行処理を実行するコマンド実行手段の各々を電子回路などのハードウェアによって構成しても良い。また、上述した実施形態では、音声認識処理を実行する音声認識処理部50を制御部60とは別個のハードウェアとして実装したが、音声認識処理を制御部60によるソフトウェア処理によって実現しても勿論良い。また、上記第1の判定処理、第2の判定処理、およびコマンド実行処理(あるいは、さらに音声認識処理)をコンピュータに実行させるプログラムをCD−ROM(Compact Disk-Read Only Memory)などのコンピュータ読み取り可能な記録媒体に書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより配布しても良い。
(6) In the first and second embodiments described above, the first determination process, the second determination process, and the command execution process that clearly show the features of the present invention are implemented by software. Each of the first determination means to execute, the second determination means to execute the second determination processing, and the command execution means to execute the command execution processing may be configured by hardware such as an electronic circuit. In the above-described embodiment, the voice
1A、1B、1C…電子機器、2…スピーカ、3…マイクロホン、10…サンプリングレート変換部、20…再生信号バッファ、30…マイク入力バッファ、40…読出制御部、50…音声認識処理部、60…制御部。 1A, 1B, 1C ... electronic equipment, 2 ... speaker, 3 ... microphone, 10 ... sampling rate conversion unit, 20 ... reproduction signal buffer, 30 ... microphone input buffer, 40 ... reading control unit, 50 ... voice recognition processing unit, 60 ... control unit.
Claims (4)
(B)スピーカに出力させる出力音を表すオーディオ信号のサンプル列を蓄積する第2のバッファと、
(C)与えられたサンプル列に音声認識処理を施す音声認識処理部と、
(D)前記第1のバッファに蓄積されたサンプル列を最も古いものから順に所定サンプル数ずつ前記音声認識処理部に与え、前記音声認識処理部による音声認識処理の処理結果に基づいて予め定められた1または複数のコマンドの何れかの入力音を表すものであるか否かを判定する第1の判定処理と、
前記1または複数のコマンドの何れかの入力音を表すものであると前記第1の判定処理にて判定されたサンプル列の前記第1のバッファへの書き込みタイミングと同じまたは少し早いタイミングで前記第2のバッファに書き込まれたサンプル列に基づいて、当該入力音が前記スピーカから出力されたものであるか否かを判定する第2の判定処理と、
前記1または複数のコマンドの何れかを表すものであると前記第1の判定処理にて判定され、かつ前記スピーカから放音されたものではないと前記第2の判定処理にて判定された入力音の表すコマンドを実行するコマンド実行処理と、を実行する制御部と、
を有することを特徴とする電子機器。 (A) a first buffer for storing a sample sequence of an audio signal representing an input sound picked up by a microphone;
(B) a second buffer for accumulating a sample sequence of an audio signal representing an output sound to be output from a speaker;
(C) a speech recognition processing unit that performs speech recognition processing on a given sample sequence;
(D) The sample sequence stored in the first buffer is given to the speech recognition processing unit by a predetermined number of samples in order from the oldest one, and is predetermined based on the processing result of the speech recognition processing by the speech recognition processing unit. A first determination process for determining whether or not the input sound of any one or a plurality of commands is represented;
The first or the plurality of commands represent the input sound, and the first timing is the same as or slightly earlier than the timing at which the sample sequence determined in the first determination process is written to the first buffer. A second determination process for determining whether or not the input sound is output from the speaker based on the sample string written in the second buffer;
The input determined in the first determination process as representing one of the one or a plurality of commands and determined in the second determination process as not being emitted from the speaker A command execution process for executing a command represented by a sound;
An electronic device comprising:
(B)複数のスピーカの各々に出力させる出力音を表すオーディオ信号のサンプル列をスピーカ毎に、または前記各オーディオ信号をミキシングして得られるミキシング信号のサンプル列を蓄積する第2のバッファと、
(C)与えられたサンプル列に音声認識処理を施す音声認識処理部と、
(D)前記第1のバッファに蓄積されたサンプル列を最も古いものから順に所定サンプル数ずつ前記音声認識処理部に与え、予め定められた1または複数のコマンドの何れかの入力音を表すものあるか否かを前記音声認識処理部による音声認識処理の処理結果に基づいて判定する第1の判定処理と、
前記1または複数のコマンドの何れかの入力音を表すものであると前記第1の判定処理にて判定されたサンプル列の前記第1のバッファへの書き込みタイミングと同じまたは少し早いタイミングで前記第2のバッファに蓄積された前記ミキシング信号のサンプル列または前記スピーカ毎のサンプル列に基づいて、当該入力音が前記複数のスピーカの何れかから放音されたものであるか否かを判定する第2の判定処理と、
前記1または複数のコマンドの何れかを表すものであると前記第1の判定処理にて判定され、かつ前記複数のスピーカから放音されたものではないと前記第2の判定処理にて判定された入力音の表すコマンドを実行するコマンド実行処理と、を実行する制御部と、
を有することを特徴とする電子機器。 (A) a first buffer for storing a sample sequence of an audio signal representing an input sound picked up by a microphone;
(B) a second buffer for storing a sample sequence of an audio signal representing an output sound to be output to each of a plurality of speakers for each speaker or a sample sequence of a mixing signal obtained by mixing each audio signal;
(C) a speech recognition processing unit that performs speech recognition processing on a given sample sequence;
(D) A sample string stored in the first buffer is given to the speech recognition processing unit by a predetermined number of samples in order from the oldest one and represents an input sound of one or more predetermined commands. First determination processing for determining whether or not there is based on a processing result of the speech recognition processing by the speech recognition processing unit;
The first or the plurality of commands represent the input sound, and the first timing is the same as or slightly earlier than the timing at which the sample sequence determined in the first determination process is written to the first buffer. Determining whether or not the input sound is emitted from any of the plurality of speakers based on a sample sequence of the mixing signal stored in the second buffer or a sample sequence for each speaker; 2 determination processing;
It is determined in the first determination process that it represents one of the one or a plurality of commands, and it is determined in the second determination process that it is not emitted from the plurality of speakers. A command execution process for executing a command represented by the input sound, a control unit for executing,
An electronic device comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011072349A JP2012208218A (en) | 2011-03-29 | 2011-03-29 | Electronic apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011072349A JP2012208218A (en) | 2011-03-29 | 2011-03-29 | Electronic apparatus |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012208218A true JP2012208218A (en) | 2012-10-25 |
Family
ID=47188035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011072349A Withdrawn JP2012208218A (en) | 2011-03-29 | 2011-03-29 | Electronic apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012208218A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016524193A (en) * | 2013-06-27 | 2016-08-12 | ロウルズ リミテッド ライアビリティ カンパニー | Detection of self-generated wake expressions |
US10269347B2 (en) | 2016-02-05 | 2019-04-23 | Samsung Electronics Co., Ltd. | Method for detecting voice and electronic device using the same |
JP2019192121A (en) * | 2018-04-27 | 2019-10-31 | シャープ株式会社 | Voice input device and remote dialogue system |
JP2020518861A (en) * | 2017-06-29 | 2020-06-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Speech recognition method, apparatus, device, and storage medium |
-
2011
- 2011-03-29 JP JP2011072349A patent/JP2012208218A/en not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016524193A (en) * | 2013-06-27 | 2016-08-12 | ロウルズ リミテッド ライアビリティ カンパニー | Detection of self-generated wake expressions |
US9747899B2 (en) | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US10720155B2 (en) | 2013-06-27 | 2020-07-21 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US11568867B2 (en) | 2013-06-27 | 2023-01-31 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US11600271B2 (en) | 2013-06-27 | 2023-03-07 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
US10269347B2 (en) | 2016-02-05 | 2019-04-23 | Samsung Electronics Co., Ltd. | Method for detecting voice and electronic device using the same |
JP2020518861A (en) * | 2017-06-29 | 2020-06-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | Speech recognition method, apparatus, device, and storage medium |
JP2019192121A (en) * | 2018-04-27 | 2019-10-31 | シャープ株式会社 | Voice input device and remote dialogue system |
JP7133969B2 (en) | 2018-04-27 | 2022-09-09 | シャープ株式会社 | Voice input device and remote dialogue system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009139592A (en) | Speech processing device, speech processing system, and speech processing program | |
JP2005084253A (en) | Sound processing apparatus, method, program and storage medium | |
JP2017021125A (en) | Voice interactive apparatus | |
RU2673599C2 (en) | Method for transmitting a musical performance information and a musical performance information transmission system | |
JP2013223031A (en) | Vehicular acoustic output control device | |
JP2012208218A (en) | Electronic apparatus | |
JP2013025299A (en) | Transcription support system and transcription support method | |
JPWO2020017518A1 (en) | Audio signal processor | |
JP2019113636A (en) | Voice recognition system | |
US9355648B2 (en) | Voice input/output device, method and programme for preventing howling | |
JP4305084B2 (en) | Music player | |
WO2018173295A1 (en) | User interface device, user interface method, and sound operation system | |
JP4127155B2 (en) | Hearing aids | |
JP5223843B2 (en) | Information processing apparatus and program | |
JP2019110447A (en) | Electronic device, control method of electronic device, and control program of electronic device | |
WO2019234952A1 (en) | Speech processing device and translation device | |
JP5375869B2 (en) | Music playback device, music playback method and program | |
JP2007086592A (en) | Speech output device and method therefor | |
JP4134844B2 (en) | Hearing aids | |
WO2018105961A3 (en) | High-quality audio player for android operating system-based portable electronic device and method therefor | |
JP4381108B2 (en) | Time signal processor in speech speed converter | |
JP5176391B2 (en) | Audio transmitter | |
JP4172452B2 (en) | Karaoke device with noise gate | |
US11418883B2 (en) | Audio interface apparatus and recording system | |
JP2022178110A (en) | Voice recognition display device, voice recognition display method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140603 |