JP2007041089A - Information terminal and speech recognition program - Google Patents
Information terminal and speech recognition program Download PDFInfo
- Publication number
- JP2007041089A JP2007041089A JP2005222326A JP2005222326A JP2007041089A JP 2007041089 A JP2007041089 A JP 2007041089A JP 2005222326 A JP2005222326 A JP 2005222326A JP 2005222326 A JP2005222326 A JP 2005222326A JP 2007041089 A JP2007041089 A JP 2007041089A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- voice
- complexity
- recognition
- information terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声認識技術に関するものである。 The present invention relates to speech recognition technology.
携帯電話、カーナビゲーションシステム、家庭内AV機器等の情報端末の高機能化が進むにつれ、操作の複雑化が進んでいる。複雑な操作を簡単にできるようにするためのユーザインタフェースとして、音声認識を利用したユーザインタフェースが利用されるようになってきている。
通常、音声認識では、処理負荷が重い、あるいは、大規模の音声認識用データベースを必要とするため、端末で認識できる単語数などに制約があった。そのような制約を取り払うための技術として、特許文献1に記載されているような、サーバ側で音声認識処理を行う分散型音声認識(Distributed Speech Recgnition:以下DSRとする)技術がある。
As information terminals such as mobile phones, car navigation systems, and home AV equipment become more sophisticated, operations are becoming more complicated. As a user interface for enabling complicated operations to be easily performed, a user interface using speech recognition has been used.
Normally, speech recognition has a heavy processing load or requires a large-scale speech recognition database, so that there are restrictions on the number of words that can be recognized by a terminal. As a technique for removing such restrictions, there is a distributed speech recognition (hereinafter referred to as DSR) technique that performs voice recognition processing on the server side as described in Patent Document 1.
上記DSRでは、情報端末が音声の特徴点抽出処理を実行し、特徴点データを音声認識サーバに送信する。音声認識サーバでは、受信した特徴点データを用いて音声を認識し、結果を情報端末に送信する。
しかしながら、DSRには、通信できない環境(例えば携帯電話の圏外)では利用できない、通信を用いるため簡単な音声認識であっても時間がかかるといった問題がある。
In the DSR, the information terminal executes a feature point extraction process for speech and transmits feature point data to the speech recognition server. The speech recognition server recognizes speech using the received feature point data and transmits the result to the information terminal.
However, DSR has a problem that it cannot be used in an environment where communication is not possible (for example, outside the mobile phone range), and it takes time even for simple voice recognition because communication is used.
上記課題を解決するために、本発明では、情報端末に、音声を取り込む音声入力手段、音声入力手段により入力された音声から特徴点データを抽出する特徴点抽出手段、入力された音声の複雑さを判定する複雑度判定手段を具備させるようにしている。さらに、情報端末内部で音声認識を行う第1の音声認識手段と、DSRを用いて音声認識を行う第2の音声認識手段とを具備させるようにしている。そして、複雑度判定手段により、入力が「単純」であると判定した場合には第1の音声認識手段、入力が「複雑」であると判定した場合には第2の音声認識手段を用いて音声認識処理を実行するようにしている。 In order to solve the above-mentioned problems, in the present invention, a voice input means for capturing voice in an information terminal, a feature point extraction means for extracting feature point data from voice inputted by the voice input means, and complexity of the inputted voice Complexity determining means is provided. Furthermore, a first speech recognition unit that performs speech recognition inside the information terminal and a second speech recognition unit that performs speech recognition using DSR are provided. When the complexity determination means determines that the input is “simple”, the first speech recognition means is used. When the input is determined to be “complex”, the second speech recognition means is used. Voice recognition processing is executed.
これにより、簡単な認識処理は情報端末内で実行することにより、レスポンスの向上を図ることができる。また、DSRを利用することにより、複雑な音声認識処理も実行でき、高度なユーザインタフェースを構築することが可能となる。
さらに、情報端末が通信を行えない状況にあっても、端末の操作などの簡単な音声認識処理を実行することができるようになる。
Thereby, it is possible to improve the response by executing the simple recognition process in the information terminal. Further, by using DSR, complicated voice recognition processing can be executed, and an advanced user interface can be constructed.
Further, even when the information terminal cannot communicate, simple speech recognition processing such as operation of the terminal can be executed.
本発明によれば、使い勝手のよい音声認識処理を実行することができる。 According to the present invention, it is possible to execute a user-friendly speech recognition process.
以下、本発明の実施の形態について図面を用いて説明する。
図1は、本発明の一実施例にかかる情報端末および音声認識サーバのハードウェアの概要を示すブロック図である。なお、情報端末としては、携帯電話、カーナビゲーションシステム、家庭内AV機器等が想定される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing an outline of hardware of an information terminal and a voice recognition server according to an embodiment of the present invention. As information terminals, mobile phones, car navigation systems, home AV equipment, and the like are assumed.
図中、100は情報端末である。101はCPUであり、周辺部の制御、データの処理や通信に関わる各種プログラムの実行を行う。102は音声入力部であり、例えばマイクである。103は入力処理部であり、例えばキーパッド、リモコンなどである。104は、記憶部であり、例えば、RAM、Flash ROMなどである。105は通信処理部であり、携帯電話の通信機能や、イーサネット(登録商標)、ワイヤレスLAN等である。なお、情報端末100は、通信処理部105を介して、音声認識サーバ110とデータの送受信を行う。106は、表示処理部であり、例えば、LCD(Liquid Crystal Device)ディスプレイである。107は音声認識処理部であり、音声認識に関わる音響分析処理や音声認識DB108を用いた認識処理を実行する。ここでは、音声認識処理部107をハードウェアのイメージで例示したが、音声認識処理はソフトウェアを用いてCPU101で実行するようにしてもよい。
In the figure, 100 is an information terminal.
図中、110は音声認識サーバである。111はCPUであり、周辺部の制御、データの処理や通信に関わる各種プログラムの実行を行う。112は通信処理部であり、イーサネット(登録商標)等である。音声認識サーバ110は、通信処理部112を介して、情報端末100とデータの送受信を行う。113は記憶部であり、例えば、RAM、Flash ROMなどである。114は音声認識処理部であり、音声認識に関わる特徴点抽出処理(音響分析処理)や音声認識DB118を用いた認識処理を実行する。ここでは、音声認識処理部114をハードウェアのイメージで例示したが、音声認識処理はソフトウェアを用いてCPU111で実行するようにしてもよい。
図中、120は通信回線である。通信回線としては、携帯電話網、公衆電話回線、ADSL回線等がある。
In the figure,
In the figure, 120 is a communication line. Examples of the communication line include a mobile phone network, a public telephone line, and an ADSL line.
次に、情報端末100において、ユーザが入力した音声データを認識する処理(音声処理)について図2を用いて説明する。
図中200は、情報端末100における音声処理の概要を示したフローチャートである。
Next, a process (speech process) for recognizing voice data input by the user in the
In the figure,
音声処理200では、まず、音声入力部102を介して、音声データの取り込みを行う(ステップ201)。次に、音声認識処理部107で、ステップ201で取り込んだ音声データの特徴点抽出処理を実行する(ステップ202)。次に、ステップ201で入力されたデータの複雑度を判定する(ステップ203)。複雑度の判定基準としては、例えば、入力された音声データの長さ(時間)、特徴点抽出処理後のデータ量等がある。音声データを基準にする場合、例えば、入力された音声データが3秒未満の場合に「単純」、3秒以上の場合に「複雑」と判定する。また、特徴点抽出処理後のデータ量を基準にする場合、例えば、1Kバイト未満の場合に「単純」、1Kバイト以上の場合に「複雑」と判定する。
In the
ステップ203で「単純」と判定した場合は、情報端末100内の音声認識処理部107で音声認識を実行する(ステップ204)。ステップ203で「複雑」と判定した場合は、DSRを利用した音声認識を実行する(ステップ205)。DSRを利用した音声認識では、ステップ202で抽出したデータを、通信処理部105を介して音声認識サーバ110に送信し、音声認識結果を受信する。
When it is determined as “simple” in
ステップ204またはステップ205により音声認識結果が得られた場合は、音声認識を結果に基づいて処理を実行する(ステップ206)。ここで、音声認識を結果に基づいた処理とは、入力された音声がコマンドの場合はコマンドに応じた処理を実行したり、音声メモの場合はテキスト入力として処理を実行したりすることである。
以上のように、入力されるデータの複雑度に応じて適切な音声認識処理を実行するようにすることにより、単純な入力に対するレスポンスの向上、複雑な音声認識の実行が可能となる。
If a speech recognition result is obtained in
As described above, by performing appropriate speech recognition processing according to the complexity of input data, it is possible to improve response to simple input and to perform complex speech recognition.
次に、情報端末100における音声処理の別の例を図3を用いて説明する。
図中210は、情報端末100における音声処理の概要を示したフローチャートである。
Next, another example of voice processing in the
In the figure, 210 is a flowchart showing an outline of voice processing in the
音声処理210では、まず、音声入力部102を介して、音声データの取り込みを行う(ステップ211)。次に、音声認識処理部107で、ステップ301で取り込んだ音声データの特徴点抽出処理を実行する(ステップ212)。次に、情報端末100内の音声認識処理部107で音声認識を実行する(ステップ213)。そして、音声認識結果が得られたか否かを判定する(ステップ214)。音声認識結果が得られた場合は、音声認識を結果に基づいて処理を実行する(ステップ216)。音声認識結果が得られなかった場合は、DSRを利用した音声認識を実行する(ステップ215)。そして、ステップ216を実行する。
In the
以上のように、最初に情報端末100内で音声認識を実行し、端末内で認識を処理できない場合のみDSRによる音声認識処理を実行するようにすることにより、単純な入力に対するレスポンスの向上、複雑な音声認識の実行が可能となる。
As described above, voice recognition is first executed in the
なお、音声処理200、210のいずれにおいても、情報端末100内で、単純な入力に対する音声認識処理を実行するため、通信ができないような状態(例えば携帯電話における通信圏外時)であっても、単純な音声入力に対する処理だけは実行できるようになるため、ユーザの利便性が向上する。
In any of the voice processes 200 and 210, the voice recognition process for simple input is executed in the
100…情報端末
110…音声認識サーバ
120…通信回線
100 ...
Claims (7)
取り込んだ音声の複雑度を判定する複雑度判定手段と、
通信を行わずに音声認識を実行する第1の音声認識手段と、
音声認識サーバと通信を行うことにより音声認識を行う第2の音声認識手段と、を具備し、複雑度判定手段が判定する複雑度が一定の基準より低い場合に、第1の音声認識手段を、高い場合に第2の音声認識手段を用いて音声認識処理を実行することを特徴とする情報端末。 Audio input means for capturing audio;
Complexity determination means for determining the complexity of the captured audio;
First speech recognition means for performing speech recognition without performing communication;
Second speech recognition means for performing speech recognition by communicating with the speech recognition server, and when the complexity determined by the complexity determination means is lower than a certain reference, the first speech recognition means An information terminal that performs voice recognition processing using the second voice recognition means when it is high.
音声取り込みステップで取り込んだ音声の複雑さを判定する複雑度判定ステップと、
複雑度判定ステップで単純と判断した場合に、通信を行わずに音声認識を行う第1の音声認識ステップ、あるいは、複雑度判定ステップで複雑と判断した場合に、音声認識サーバと通信することで音声認識を行う第2の音声認識ステップの、どちらかのステップと、をコンピュータに実行させることを特徴とする音声認識プログラム。 An audio capture step for capturing audio, a complexity determination step for determining the complexity of the audio captured in the audio capture step,
When the complexity determination step determines simple, the first speech recognition step for performing speech recognition without performing communication, or when the complexity determination step determines complexity, by communicating with the speech recognition server A speech recognition program that causes a computer to execute one of the second speech recognition steps for performing speech recognition.
通信を行わずに音声認識を行う第1の音声認識ステップと、
第1の音声認識ステップで認識結果が得られなかった場合に、音声認識サーバと通信することで音声認識を行う第2の音声認識ステップと、をコンピュータに実行させることを特徴とする音声認識プログラム。
A first voice recognition step for performing voice recognition without performing communication;
A speech recognition program for causing a computer to execute a second speech recognition step for performing speech recognition by communicating with a speech recognition server when a recognition result is not obtained in the first speech recognition step. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005222326A JP2007041089A (en) | 2005-08-01 | 2005-08-01 | Information terminal and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005222326A JP2007041089A (en) | 2005-08-01 | 2005-08-01 | Information terminal and speech recognition program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007041089A true JP2007041089A (en) | 2007-02-15 |
Family
ID=37799154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005222326A Pending JP2007041089A (en) | 2005-08-01 | 2005-08-01 | Information terminal and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007041089A (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012168349A (en) * | 2011-02-15 | 2012-09-06 | Alpine Electronics Inc | Speech recognition system and retrieval system using the same |
JP2013529794A (en) * | 2010-06-24 | 2013-07-22 | 本田技研工業株式会社 | Communication system and method between in-vehicle speech recognition system and off-vehicle speech recognition system |
JP2015535952A (en) * | 2012-09-29 | 2015-12-17 | シェンジェン ピーアールテック カンパニー リミテッド | Voice control system and method for multimedia device and computer storage medium |
JP2016089670A (en) * | 2014-10-31 | 2016-05-23 | 株式会社カーメイト | Remote control operation device for vehicle and remote control operation system for vehicle |
JP2018081185A (en) * | 2016-11-15 | 2018-05-24 | クラリオン株式会社 | Speech recognition device and speech recognition system |
US10303433B2 (en) | 2013-01-07 | 2019-05-28 | Maxell, Ltd. | Portable terminal device and information processing system |
-
2005
- 2005-08-01 JP JP2005222326A patent/JP2007041089A/en active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10269348B2 (en) | 2010-06-24 | 2019-04-23 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
JP2017097373A (en) * | 2010-06-24 | 2017-06-01 | 本田技研工業株式会社 | Method for voice recognition processing, on-vehicle system, and nonvolatile storage medium |
US10818286B2 (en) | 2010-06-24 | 2020-10-27 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
US9564132B2 (en) | 2010-06-24 | 2017-02-07 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
US9620121B2 (en) | 2010-06-24 | 2017-04-11 | Honda Motor Co., Ltd. | Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system |
JP2013529794A (en) * | 2010-06-24 | 2013-07-22 | 本田技研工業株式会社 | Communication system and method between in-vehicle speech recognition system and off-vehicle speech recognition system |
JP2012168349A (en) * | 2011-02-15 | 2012-09-06 | Alpine Electronics Inc | Speech recognition system and retrieval system using the same |
JP2015535952A (en) * | 2012-09-29 | 2015-12-17 | シェンジェン ピーアールテック カンパニー リミテッド | Voice control system and method for multimedia device and computer storage medium |
US10303433B2 (en) | 2013-01-07 | 2019-05-28 | Maxell, Ltd. | Portable terminal device and information processing system |
US11487502B2 (en) | 2013-01-07 | 2022-11-01 | Maxell, Ltd. | Portable terminal device and information processing system |
US11861264B2 (en) | 2013-01-07 | 2024-01-02 | Maxell, Ltd. | Portable terminal device and information processing system |
JP2016089670A (en) * | 2014-10-31 | 2016-05-23 | 株式会社カーメイト | Remote control operation device for vehicle and remote control operation system for vehicle |
WO2018092786A1 (en) * | 2016-11-15 | 2018-05-24 | クラリオン株式会社 | Speech recognition device and speech recognition system |
JP2018081185A (en) * | 2016-11-15 | 2018-05-24 | クラリオン株式会社 | Speech recognition device and speech recognition system |
US11087764B2 (en) | 2016-11-15 | 2021-08-10 | Clarion Co., Ltd. | Speech recognition apparatus and speech recognition system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20160162469A1 (en) | Dynamic Local ASR Vocabulary | |
US9363372B2 (en) | Method for personalizing voice assistant | |
KR102141116B1 (en) | Interface device and method supporting speech dialogue survice | |
KR102265931B1 (en) | Method and user terminal for performing telephone conversation using voice recognition | |
WO2014208231A1 (en) | Voice recognition client device for local voice recognition | |
CN102591455A (en) | Selective Transmission of Voice Data | |
CN103491257B (en) | A kind of method and system sending associated person information in communication process | |
US20180103376A1 (en) | Device and method for authenticating a user of a voice user interface and selectively managing incoming communications | |
CN106504748A (en) | Voice control method and device | |
CN103760969A (en) | Mobile terminal and method for controlling application program through voice | |
US20080255852A1 (en) | Apparatuses and methods for voice command processing | |
WO2016094418A1 (en) | Dynamic local asr vocabulary | |
WO2017128775A1 (en) | Voice control system, voice processing method and terminal device | |
WO2016061968A1 (en) | Voice control method and device | |
JP2007041089A (en) | Information terminal and speech recognition program | |
CN103338311A (en) | Method for starting APP with screen locking interface of smartphone | |
CN103973542B (en) | A kind of voice information processing method and device | |
CN110992955A (en) | Voice operation method, device, equipment and storage medium of intelligent equipment | |
CN109215640B (en) | Speech recognition method, intelligent terminal and computer readable storage medium | |
US20230138804A1 (en) | Enhanced video call method and system, and electronic device | |
JP6016134B2 (en) | Voice input device, voice input method and program | |
US20230333803A1 (en) | Enhanced Screen Sharing Method and System, and Electronic Device | |
CN103971683A (en) | Voice control method and system and handheld device | |
CN103426429A (en) | Voice control method and voice control device | |
JP2017107333A (en) | Communication apparatus and communication apparatus control method |