JP7501523B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP7501523B2 JP7501523B2 JP2021511308A JP2021511308A JP7501523B2 JP 7501523 B2 JP7501523 B2 JP 7501523B2 JP 2021511308 A JP2021511308 A JP 2021511308A JP 2021511308 A JP2021511308 A JP 2021511308A JP 7501523 B2 JP7501523 B2 JP 7501523B2
- Authority
- JP
- Japan
- Prior art keywords
- operating
- voice recognition
- control unit
- result
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 123
- 238000003672 processing method Methods 0.000 title claims description 13
- 238000012545 processing Methods 0.000 claims description 78
- 238000000034 method Methods 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 75
- 230000033001 locomotion Effects 0.000 claims description 52
- 230000009471 action Effects 0.000 claims description 33
- 239000000284 extract Substances 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 29
- 238000004891 communication Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 19
- 230000004044 response Effects 0.000 description 17
- 230000006399 behavior Effects 0.000 description 12
- 230000001276 controlling effect Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 5
- 230000010354 integration Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000001932 seasonal effect Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- 240000004270 Colocasia esculenta var. antiquorum Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 235000019219 chocolate Nutrition 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J11/00—Manipulators not otherwise provided for
- B25J11/0005—Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0011—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement
- G05D1/0016—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots associated with a remote control arrangement characterised by the operator's input device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Mechanical Engineering (AREA)
- Robotics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Description
1.実施形態
1.1.概要
1.2.システム構成例
1.3.第1の動作体10の機能構成例
1.4.第2の動作体20の機能構成例
1.5.情報処理サーバ30の機能構成例
1.6.機能の詳細
2.情報処理サーバ30のハードウェア構成例
3.まとめ
<<1.1.概要>>
近年、ユーザの発話などを認識し、認識結果に基づく動作を実行する種々の装置が開発されている。上記のような装置には、例えば、ユーザとの音声対話を介して種々の機能提供を行う音声エージェント装置や、認識したユーザの発話や周囲環境などに応じて振る舞いを変化させる自律動作体が挙げられる。
図1は、本開示の一実施形態に係る情報処理システムの構成例を示す図である。本実施形態に係る情報処理サーバ30は、音声認識処理に基づく動作を行う複数の動作体を備えてよい。図1に示す一例の場合、本実施形態に係る情報処理システムは、第1の動作体10、第2の動作体20、および情報処理サーバ30を備えている。また、各構成は、ネットワーク40を介して互いに通信が可能なように接続される。
本実施形態に係る第1の動作体10は、音声認識処理に基づいて動作する動作体(情報処理装置)の一例である。本実施形態に係る第1の動作体10は、収集した音声を情報処理サーバ30に送信し、情報処理サーバ30による音声認識処理の結果に基づいて動作する。本実施形態に係る第1の動作体10は、上記の音声認識処理の結果に基づいて、ユーザの発話に対するレスポンス発話を行うことや、認識した環境などに基づいて能動的にユーザに語りかけることなどができてよい。
本実施形態に係る第2の動作体20は、第1の動作体10と同様に、音声認識処理に基づいて動作する動作体(情報処理装置)の一例である。一方、本実施形態に係る第2の動作体20は、第1の動作体10とは異なり、自身、すなわちローカル側で音声認識処理を実行する。
本実施形態に係る情報処理サーバ30は、第1の動作体10が収集した音声に基づく音声認識処理や自然言語理解処理を行う情報処理装置である。また、本実施形態に係る情報処理サーバ30は、一の動作体が収集した音声に基づく音声認識処理の結果や一の動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の動作体の動作を制御してもよい。
ネットワーク40は、上記の各構成を接続する機能を有する。ネットワーク40は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク40は、IP-VPN(Internet Protocol-Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク40は、Wi-Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
次に、本実施形態に係る第1の動作体10の機能構成例について述べる。図2は、本実施形態に係る第1の動作体10の機能構成例を示すブロック図である。図2に示すように、本実施形態に係る第1の動作体10は、音入力部110、撮影部120、センサ部130、トリガ検出部140、制御部150、駆動部160、音出力部170、表示部180、および通信部190を備える。
本実施形態に係る音入力部110は、ユーザの発話音声を含む各種の音を収集する。このために、本実施形態に係る音入力部110は、1つ以上のマイクロフォンを備える。
本実施形態に係る撮影部120は、ユーザや周囲環境の画像を撮影する。このために、本実施形態に係る撮影部120は、撮像素子を備える。
本実施形態に係るトリガ検出部140は、音入力部110、撮影部120、およびセンサ部130が収集した各種の情報に基づいて、音声認識処理の開始に係る各種のトリガを検出する。
本実施形態に係る制御部150は、第1の動作体10が備える各構成を制御する。また、本実施形態に係る制御部150は、後述するように、情報処理サーバ30による音声認識処理の結果などを第2の動作体20に伝達し、間接的あるいは直接的に第2の動作体20の動作を制御してもよい。
本実施形態に係る駆動部160は、制御部150による制御に基づいて、各種の動作を行う。本実施形態に係る駆動部160は、例えば、複数のアクチュエータ(モータ等)や車輪等を備えてもよい。
本実施形態に係る音出力部170は、制御部150による制御に基づいてシステム音声等の出力を行う。このために、本実施形態に係る音出力部170は、アンプやスピーカを備える。
本実施形態に係る表示部180は、制御部150による制御に基づいて、視覚情報の提示を行う。本実施形態に係る表示部180は、例えば、眼に対応するLEDやOLED等を備える。
本実施形態に係る通信部190は、ネットワーク40を介して第2の動作体20や情報処理サーバ30との情報通信を行う。例えば、本実施形態に係る通信部190は、音入力部110が収集したユーザの発話音声を情報処理サーバ30に送信し、当該発話音声に対応する音声認識結果や応答情報を受信する。
次に、本実施形態に係る第2の動作体20の機能構成例について述べる。図3は、本実施形態に係る第2の動作体20の機能構成例を示すブロック図である。図3に示すように、本実施形態に係る第2の動作体20は、音入力部210、撮影部220、センサ部230、認識部240、制御部250、駆動部260、音出力部270、表示部280、および通信部290を備える。
本実施形態に係る音入力部210は、ユーザの発話音声を含む各種の音を収集する。このために、本実施形態に係る音入力部210は、1つ以上のマイクロフォンを備える。
本実施形態に係る撮影部220は、ユーザや周囲環境の画像を撮影する。このために、本実施形態に係る撮影部220は、撮像素子を備える。撮影部220は、例えば、第2の動作体20の鼻先と腰部に2つの広角カメラを備えてもよい。この場合、鼻先に配置される広角カメラは、第2の動作体20の前方視野(すなわち、イヌの視野)に対応した画像を撮像し、腰部の広角カメラは、上方を中心とする周囲領域の画像を撮像する。第2の動作体20は、例えば、腰部に配置される広角カメラにより撮像された画像に基づいて、天井の特徴点などを抽出し、SLAM(Simultaneous Localization and Mapping)を実現することができる。
本実施形態に係る認識部240は、音入力部210、撮影部220、およびセンサ部230が収集した情報に基づいて、各種の認識処理を実行する。例えば、本実施形態に係る認識部240は、音入力部210が収集したユーザの発話音声に基づく音声認識処理をローカル側で実行する。また、認識部240は、話者識別、表情や視線の認識、物体認識、動作認識、空間領域認識、色認識、形認識、マーカー認識、障害物認識、段差認識、明るさ認識などを行ってよい。
本実施形態に係る制御部250は、認識部240による各種の認識処理の結果に基づいて、第2の動作体20が備える各構成を制御する。また、本実施形態に係る制御部250は、認識部240による各種の認識処理の結果を他の動作体(例えば、第1の動作体または第2の動作体)に伝達し、当該他の動作体の動作を間接的あるいは直接的に制御してもよい。
駆動部260は、制御部250による制御に基づいて、第2の動作体20が有する複数の関節部を屈伸させる機能を有する。より具体的には、駆動部260は、制御部250による制御に基づき、各関節部が備えるアクチュエータを駆動させる。
本実施形態に係る音出力部270は、制御部250による制御に基づいてイヌの鳴き声を模した音等の出力を行う。このために、本実施形態に係る音出力部170は、アンプやスピーカを備える。
本実施形態に係る表示部280は、制御部250による制御に基づいて、視覚情報の提示を行う。本実施形態に係る表示部280は、例えば、眼に対応するLEDやOLED等を備える。
本実施形態に係る通信部290は、ネットワーク40を介して第1の動作体10や情報処理サーバ30との情報通信を行う。例えば、本実施形態に係る通信部290は、第1の動作体10または情報処理サーバ30から、他の動作体が収集した音声に基づく音声認識処理の結果を受信する。
次に、本実施形態に係る情報処理サーバ30の機能構成例について述べる。図4は、本実施形態に係る情報処理サーバ30の機能構成例を示すブロック図である。図4に示すように、本実施形態に係る情報処理サーバ30は、音声認識部310、自然言語処理部320、制御部330、応答生成部340、通信部350を備える。
本実施形態に係る音声認識部310は、第1の動作体10から受信した発話音声に戻づく音声認識処理を行い、当該発話音声を文字列に変換する。
本実施形態に係る自然言語処理部320は、音声認識部310が生成した文字列に基づく自然言語理解処理を行い、ユーザの発話の意図を抽出する。
本実施形態に係る制御部330は、一の動作体が収集した音声に基づく音声認識処理の結果や、一の動作体が収集したセンサ情報に基づいて認識された環境に基づいて、一の動作体や他の動作体の動作を制御する。本実施形態に係る制御部330が有する機能の詳細については、別途後述する。
本実施形態に係る応答生成部340は、制御部330による制御に基づいて、自然言語処理部320が抽出したユーザの発話意図に対応する応答情報を生成する。応答生成部340は、例えば、ユーザの発話に対する応答音声等を生成する。
本実施形態に係る通信部350は、ネットワーク40を介して第1の動作体10や第2の動作体20との情報通信を行う。例えば、通信部350は、第1の動作体10から発話音声を受信する。また、通信部350は、上記発話音声に基づく音声認識処理および自然言語理解処理の結果に係る情報を第2の動作体20に送信する。
次に、本実施形態に係る情報処理システムが有する機能について詳細に説明する。上述したように、本実施形態に係る情報処理方法は、音声認識処理に基づき動作する複数の動作体が存在する環境において、各動作体が収集した情報から認識された情報を共有することにより、各動作体がより適切な動作を行うことを実現するものである。
次に、本開示の一実施形態に係る情報処理サーバ30のハードウェア構成例について説明する。図24は、本開示の一実施形態に係る情報処理サーバ30のハードウェア構成例を示すブロック図である。図24に示すように、情報処理サーバ30は、例えば、プロセッサ871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インタフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
プロセッサ871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、プロセッサ871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、プロセッサ871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
プロセッサ871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インタフェース877を介して種々の構成要素と接続される。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置879は、触覚刺激を出力することが可能な種々の振動デバイスを含む。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu-ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS-232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上説明したように、本開示の一実施形態に係る情報処理サーバ30は、音声認識処理の結果に基づいて動作体の動作を制御する制御部330を備える。また、本開示の一実施形態に係る制御部330は、一の動作体が収集した音声に基づく音声認識処理の結果、または一の動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の動作体の動作を制御すること、を特徴の一つとする。係る構成によれば、音声認識処理に基づく動作を行う複数の動作体が存在する環境において、各動作体がより状況に適した動作を実現することを可能とする。
(1)
音声認識処理の結果に基づいて動作体の動作を制御する制御部、
を備え、
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、
情報処理装置。
(2)
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果に基づいて、当該音声認識処理の結果に対応する動作を他の前記動作体に実行させる、
前記(1)に記載の情報処理装置。
(3)
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果を他の前記動作体に伝達したことを示す動作を当該一の前記動作体に実行させる、
前記(2)に記載の情報処理装置。
(4)
前記動作体は、第1の辞書を用いた第1の音声認識処理の結果に基づく動作を行う第1の動作体と、前記第1の辞書よりも語彙数の少ない第2の辞書を用いた第2の音声認識処理の結果に基づく動作を行う第2の動作体を含み、
前記制御部は、前記第1の動作体が収集した音声と前記第1の辞書に基づく前記第1の音声認識処理の結果に基づいて、前記第1の音声認識処理の結果に対応する動作を前記第2の動作体に実行させる、
前記(2)または(3)に記載の情報処理装置。
(5)
前記制御部は、前記第1の音声認識処理の結果として得られた語彙のカテゴリに対応する語彙を前記第2の辞書から抽出し、当該語彙を前記第2の動作体に伝達する、
前記(4)に記載の情報処理装置。
(6)
前記制御部は、前記第1の音声認識処理の結果に係るログに基づいて、前記第2の辞書の語彙の入れ替えを制御する、
前記(4)または(5)に記載の情報処理装置。
(7)
前記第2の動作体は、前記第2の辞書を用いた前記第2の音声認識処理をローカルで実行する、
前記(4)~(6)のいずれかに記載の情報処理装置。
(8)
前記動作体は、自律移動体である、
前記(1)~(7)のいずれかに記載の情報処理装置。
(9)
前記制御部は、一の前記動作体に係る音声認識環境が音声認識処理精度の低下要因となり得る環境である場合、他の前記動作体に係る音声認識環境が向上するよう他の前記動作体の動作を制御する、
前記(8)に記載の情報処理装置。
(10)
前記音声認識環境は、前記動作体の動作状況を含み、
前記制御部は、一の前記動作体の動作状況に基づいて、他の前記動作体の動作を制御する、
前記(9)に記載の情報処理装置。
(11)
前記制御部は、一の前記動作体が動作音を伴う動作を実行している場合、他の前記動作体の動作音がより低下するよう制御する、
前記(10)に記載の情報処理装置。
(12)
前記音声認識環境は、ノイズ音源または話者の認識結果を含み、
前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識されたノイズ音源または話者に係る情報を他の前記動作体に伝達する、
前記(1)~(11)のいずれかに記載の情報処理装置。
(13)
前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識されたノイズ音源または話者に係る情報に基づいて、他の前記動作体に係る音声認識処理の実行有無を制御する、
前記(12)に記載の情報処理装置。
(14)
前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識された環境に基づいて、ユーザに対する能動的なアクションを他の前記動作体に実行させる、
前記(1)~(13)のいずれかに記載の情報処理装置。
(15)
前記制御部は、一の前記動作体が収集したセンサ情報に基づいて認識された環境に基づいて、当該環境に応じた能動的な発話を他の前記動作体に実行させる、
前記(14)に記載の情報処理装置。
(16)
前記制御部は、複数の前記動作体が収集した音声のそれぞれに基づく複数の音声認識処理の結果から決定される統合認識結果に基づいて、前記動作体の動作を制御する、
前記(1)~(15)のいずれかに記載の情報処理装置。
(17)
前記制御部は、前記統合認識結果と同一の音声認識処理の結果が得られた音声を収集した前記動作体に、前記統合認識結果と同一の音声認識処理の結果が得られなかった他の前記動作体に関する言動を実行させる、
前記(16)に記載の情報処理装置。
(18)
前記制御部は、前記統合認識結果と同一の音声認識処理の結果が得られなかった音声を収集した前記動作体に、前記統合認識結果と同一の音声認識処理の結果が得られなかったことを示す言動を実行させる、
前記(16)または(17)に記載の情報処理装置。
(19)
プロセッサが、音声認識処理の結果に基づいて動作体の動作を制御すること、
を含み、
前記制御することは、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御すること、
をさらに含む、
情報処理方法。
(20)
コンピュータを、
音声認識処理の結果に基づいて動作体の動作を制御する制御部、
を備え、
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御する、
情報処理装置、
として機能させるためのプログラム。
140 トリガ検出部
150 制御部
20 第2の動作体
240 認識部
242 第2の辞書
250 制御部
30 情報処理サーバ
310 音声認識部
320 自然言語処理部
322 第1の辞書
330 制御部
40 ネットワーク
Claims (9)
- 音声認識処理の結果に基づいて動作体の動作を制御する制御部、
を備え、
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御し、
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果に基づいて、当該音声認識処理の結果に対応する動作を他の前記動作体に実行させ、
前記動作体は、第1の辞書を用いた第1の音声認識処理の結果に基づく動作を行う第1の動作体と、前記第1の辞書よりも語彙数の少ない第2の辞書を用いた第2の音声認識処理の結果に基づく動作を行う第2の動作体を含み、
前記制御部は、前記第1の動作体が収集した音声と前記第1の辞書に基づく前記第1の音声認識処理の結果に基づいて、前記第1の音声認識処理の結果に対応する動作を前記第2の動作体に実行させる、
情報処理装置。 - 前記制御部は、前記第1の音声認識処理の結果として得られた語彙のカテゴリに対応する語彙を前記第2の辞書から抽出し、当該語彙を前記第2の動作体に伝達する、
請求項1に記載の情報処理装置。 - 前記制御部は、前記第1の音声認識処理の結果に係るログに基づいて、前記第2の辞書の語彙の入れ替えを制御する、
請求項1に記載の情報処理装置。 - 前記第2の動作体は、前記第2の辞書を用いた前記第2の音声認識処理をローカルで実行する、
請求項1に記載の情報処理装置。 - 音声認識処理の結果に基づいて動作体の動作を制御する制御部、
を備え、
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御し、
前記動作体は、自律移動体であり、
前記制御部は、一の前記動作体に係る音声認識環境が音声認識処理精度の低下要因となり得る環境である場合、他の前記動作体に係る音声認識環境が向上するよう他の前記動作体の動作を制御し、
前記音声認識環境は、前記動作体の動作状況を含み、
前記制御部は、一の前記動作体の動作状況に基づいて、他の前記動作体の動作を制御し、
前記制御部は、一の前記動作体が動作音を伴う動作を実行している場合、他の前記動作体の動作音がより低下するよう制御する、
情報処理装置。 - プロセッサが、音声認識処理の結果に基づいて動作体の動作を制御すること、
を含み、
前記制御することは、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御することと、一の前記動作体が収集した音声に基づく音声認識処理の結果に基づいて、当該音声認識処理の結果に対応する動作を他の前記動作体に実行させることと、をさらに含み、
前記動作体は、第1の辞書を用いた第1の音声認識処理の結果に基づく動作を行う第1の動作体と、前記第1の辞書よりも語彙数の少ない第2の辞書を用いた第2の音声認識処理の結果に基づく動作を行う第2の動作体を含み、
前記制御することは、前記第1の動作体が収集した音声と前記第1の辞書に基づく前記第1の音声認識処理の結果に基づいて、前記第1の音声認識処理の結果に対応する動作を前記第2の動作体に実行させること、をさらに含む、
情報処理方法。 - プロセッサが、音声認識処理の結果に基づいて動作体の動作を制御すること、
を含み、
前記制御することは、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御すること、をさらに含み、
前記動作体は、自律移動体であり、
前記制御することは、一の前記動作体に係る音声認識環境が音声認識処理精度の低下要因となり得る環境である場合、他の前記動作体に係る音声認識環境が向上するよう他の前記動作体の動作を制御すること、をさらに含み、
前記音声認識環境は、前記動作体の動作状況を含み、
前記制御することは、一の前記動作体の動作状況に基づいて、他の前記動作体の動作を制御することと、一の前記動作体が動作音を伴う動作を実行している場合、他の前記動作体の動作音がより低下するよう制御することと、をさらに含む、
情報処理方法。 - コンピュータを、
音声認識処理の結果に基づいて動作体の動作を制御する制御部、
を備え、
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御し、
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果に基づいて、当該音声認識処理の結果に対応する動作を他の前記動作体に実行させ、
前記動作体は、第1の辞書を用いた第1の音声認識処理の結果に基づく動作を行う第1の動作体と、前記第1の辞書よりも語彙数の少ない第2の辞書を用いた第2の音声認識処理の結果に基づく動作を行う第2の動作体を含み、
前記制御部は、前記第1の動作体が収集した音声と前記第1の辞書に基づく前記第1の音声認識処理の結果に基づいて、前記第1の音声認識処理の結果に対応する動作を前記第2の動作体に実行させる、
情報処理装置、
として機能させるためのプログラム。 - コンピュータを、
音声認識処理の結果に基づいて動作体の動作を制御する制御部、
を備え、
前記制御部は、一の前記動作体が収集した音声に基づく音声認識処理の結果、または一の前記動作体が収集したセンサ情報に基づいて認識された音声認識環境に基づいて、他の前記動作体の動作を制御し、
前記動作体は、自律移動体であり、
前記制御部は、一の前記動作体に係る音声認識環境が音声認識処理精度の低下要因となり得る環境である場合、他の前記動作体に係る音声認識環境が向上するよう他の前記動作体の動作を制御し、
前記音声認識環境は、前記動作体の動作状況を含み、
前記制御部は、一の前記動作体の動作状況に基づいて、他の前記動作体の動作を制御し、
前記制御部は、一の前記動作体が動作音を伴う動作を実行している場合、他の前記動作体の動作音がより低下するよう制御する、
情報処理装置、
として機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019065746 | 2019-03-29 | ||
JP2019065746 | 2019-03-29 | ||
PCT/JP2020/009948 WO2020203067A1 (ja) | 2019-03-29 | 2020-03-09 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020203067A1 JPWO2020203067A1 (ja) | 2020-10-08 |
JP7501523B2 true JP7501523B2 (ja) | 2024-06-18 |
Family
ID=72668580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021511308A Active JP7501523B2 (ja) | 2019-03-29 | 2020-03-09 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220157305A1 (ja) |
EP (1) | EP3950236A4 (ja) |
JP (1) | JP7501523B2 (ja) |
WO (1) | WO2020203067A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024025244A1 (ko) * | 2022-07-27 | 2024-02-01 | 삼성전자주식회사 | 로봇 장치의 위치에 대응되는 모드로 동작하는 로봇 장치 및 그 제어 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002337079A (ja) | 2001-05-11 | 2002-11-26 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2016130800A (ja) | 2015-01-14 | 2016-07-21 | シャープ株式会社 | システム、サーバ、電子機器、サーバの制御方法、およびプログラム |
JP2017138476A (ja) | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2018081233A (ja) | 2016-11-17 | 2018-05-24 | シャープ株式会社 | 電子機器、制御方法、およびプログラム |
CN107077844B (zh) | 2016-12-14 | 2020-07-31 | 深圳前海达闼云端智能科技有限公司 | 语音联合协助的实现方法、装置及机器人 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2737624B2 (ja) * | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
KR100682897B1 (ko) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | 사전 업데이트 방법 및 그 장치 |
US9070367B1 (en) * | 2012-11-26 | 2015-06-30 | Amazon Technologies, Inc. | Local speech recognition of frequent utterances |
JP6729430B2 (ja) | 2017-02-02 | 2020-07-22 | 株式会社デンソー | 電子制御装置 |
JP2020046478A (ja) * | 2018-09-14 | 2020-03-26 | 株式会社フュートレック | ロボットシステム |
CN109119078A (zh) * | 2018-10-26 | 2019-01-01 | 北京石头世纪科技有限公司 | 自动机器人控制方法、装置、自动机器人和介质 |
-
2020
- 2020-03-09 JP JP2021511308A patent/JP7501523B2/ja active Active
- 2020-03-09 EP EP20784973.8A patent/EP3950236A4/en active Pending
- 2020-03-09 WO PCT/JP2020/009948 patent/WO2020203067A1/ja unknown
- 2020-03-09 US US17/441,009 patent/US20220157305A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002337079A (ja) | 2001-05-11 | 2002-11-26 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
JP2016130800A (ja) | 2015-01-14 | 2016-07-21 | シャープ株式会社 | システム、サーバ、電子機器、サーバの制御方法、およびプログラム |
JP2017138476A (ja) | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2018081233A (ja) | 2016-11-17 | 2018-05-24 | シャープ株式会社 | 電子機器、制御方法、およびプログラム |
CN107077844B (zh) | 2016-12-14 | 2020-07-31 | 深圳前海达闼云端智能科技有限公司 | 语音联合协助的实现方法、装置及机器人 |
Also Published As
Publication number | Publication date |
---|---|
EP3950236A1 (en) | 2022-02-09 |
WO2020203067A1 (ja) | 2020-10-08 |
EP3950236A4 (en) | 2022-07-06 |
JPWO2020203067A1 (ja) | 2020-10-08 |
US20220157305A1 (en) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110313152B (zh) | 用于智能助理计算机的用户注册 | |
JP7317529B2 (ja) | サウンドデータを処理するシステム、及びシステムの制御方法 | |
KR102541718B1 (ko) | 키 문구 사용자 인식의 증강 | |
CN110427462A (zh) | 与用户互动的方法、装置、存储介质及服务机器人 | |
KR102339819B1 (ko) | 프레임워크를 이용한 자연어 표현 생성 방법 및 장치 | |
KR102490916B1 (ko) | 전자 장치, 이의 제어 방법 및 비일시적인 컴퓨터 판독가능 기록매체 | |
KR102508863B1 (ko) | 전자 장치 및 상기 전자 장치로부터 수신된 데이터를 처리하는 서버 | |
US20190019509A1 (en) | Voice data processing method and electronic device for supporting the same | |
KR20210039049A (ko) | 음성 인식을 수행하는 인공 지능 장치 및 그 방법 | |
US11367443B2 (en) | Electronic device and method for controlling electronic device | |
KR102120751B1 (ko) | 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체 | |
KR20190113693A (ko) | 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 | |
US20180281196A1 (en) | Robot control device and robot control method | |
KR20190096308A (ko) | 전자기기 | |
CN108648754A (zh) | 语音控制方法及装置 | |
JP7501523B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2023133410A (ja) | 対話制御装置、対話システム、対話制御方法及びプログラム | |
CN110517702A (zh) | 信号生成的方法、基于人工智能的语音识别方法及装置 | |
KR20210042520A (ko) | 전자 장치 및 이의 제어 방법 | |
US11743588B1 (en) | Object selection in computer vision | |
WO2021153325A1 (ja) | 情報処理装置、情報処理システム及び情報処理方法 | |
CN110291768A (zh) | 信息处理装置、信息处理方法和信息处理*** | |
KR20230095585A (ko) | 안내 로봇 및 그것의 동작 방법 | |
KR102261198B1 (ko) | 스마트 서비스 제공장치 및 그 방법 | |
JP7459791B2 (ja) | 情報処理装置、情報処理方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240520 |