JP6852734B2 - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP6852734B2 JP6852734B2 JP2018523347A JP2018523347A JP6852734B2 JP 6852734 B2 JP6852734 B2 JP 6852734B2 JP 2018523347 A JP2018523347 A JP 2018523347A JP 2018523347 A JP2018523347 A JP 2018523347A JP 6852734 B2 JP6852734 B2 JP 6852734B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- utterance
- information processing
- unit
- delimiter position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 190
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 126
- 230000006870 function Effects 0.000 description 36
- 238000004891 communication Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 25
- 238000000034 method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
1.実施形態
1.1.本開示に係る実施形態の概要
1.2.システム構成例
1.3.情報処理端末10の機能構成例
1.4.情報処理サーバ20の機能構成例
1.5.新たな区切り位置に基づく文字変換の具体例
1.6.情報処理サーバ20の動作の流れ
2.ハードウェア構成例
3.まとめ
[1.1.本開示に係る実施形態の概要]
近年、各種のゲーム機やスマートフォンアプリケーション、自律型ロボットなどにおいて、ユーザの発話を認識し、当該発話に基づいた処理を行う音声認識技術が普及している。音声認識技術を利用する装置では、例えば、キーボードなどの入力装置に代えて、ユーザの発話による文字入力を実現することも可能である。上記のような装置を利用する場合、ユーザは、キーボードなどによる文字入力の負荷を大幅に軽減することができる。
まず、本実施形態に係るシステム構成例について説明する。図1は、本実施形態に係るシステム構成例を示す図である。図1を参照すると、本実施形態に係る情報処理システムは、情報処理端末10、及び情報処理サーバ20を備える。また、情報処理端末10及び情報処理サーバ20は、互いに通信が行えるように、ネットワーク30を介して接続される。
本実施形態に係る情報処理端末10は、ユーザの発話情報を収集する機能を有する情報処理装置である。また、情報処理端末10は、上記の発話情報に対応する文字変換の結果をユーザに提示する機能を有する。
本実施形態に係る情報処理サーバ20は、情報処理端末10が収集した発話情報に基づく文字変換を行う機能を有する情報処理装置である。また、本実施形態に係る情報処理サーバ20は、再入力された発話情報に基づいて、文字変換を行う区切り位置を変更する機能を有する。この際、本実施形態に係る情報処理サーバ20は、例えば、先行して収集された発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定してよい。本実施形態に係る情報処理サーバ20が有する上記の機能については、後に詳細に説明する。
ネットワーク30は、情報処理端末10および情報処理サーバ20を接続する機能を有する。ネットワーク30は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、ネットワーク30は、IP−VPN(Internt Protocol−Virtual Private Network)などの専用回線網を含んでもよい。また、ネットワーク30は、Wi−Fi(登録商標)、Bluetooth(登録商標)など無線通信網を含んでもよい。
次に、本実施形態に係る情報処理端末10の機能構成例について、詳細に説明する。図2は、本実施形態に係る情報処理端末10の機能ブロック図である。図2を参照すると、本実施形態に係る情報処理端末10は、入力部110、端末制御部120、出力部130、およびサーバ通信部140を備える。また、本実施形態に係る入力部110は、音声収集部112および操作取得部114を含む。また、本実施形態に係る出力部130は、表示部132および音声出力部134を含む。
入力部110は、ユーザによる各種の入力を検出する機能を有する。このため、入力部110は、ユーザの発話や、ユーザによる入力操作を検出するための各種のセンサや装置を含んでよい。特に、本実施形態においては、入力部110は、音声収集部112および操作取得部114を含んでよい。
音声収集部112は、ユーザの発話情報を収集する機能を有する。上記の発話情報には、ユーザの発した音声の他、周囲の環境音等が含まれてもよい。音声収集部112は、例えば、ユーザの音声や環境音を電気信号に変換するマイクロフォンにより実現され得る。
操作取得部114は、情報処理端末10に対するユーザの各種の入力操作を検出する機能を有する。本実施形態に係る操作取得部114は、例えば、ユーザによる文字変換結果の削除操作を検出することができる。この際、操作取得部114は、検出した入力操作に基づいて、第1の発話情報を特定する対象情報を生成することができる。本実施形態に係る対象情報の詳細については、後述する。
端末制御部120は、情報処理端末10により実行される各処理を制御する機能を有する。端末制御部120は、例えば、出力部130による各種の出力を制御してよい。本実施形態に係る端末制御部120は、特に、情報処理サーバ20により設定される区切り位置に基づいて文字変換された変換結果の出力を制御することができる。この際、端末制御部120は、出力部130に上記の変換結果と上記の区切り位置とを対応づけて出力させてもよい。
出力部130は、端末制御部120による制御に基づいて、発話情報に対応する文字変換の結果を出力する機能を有する。このため、本実施形態に係る出力部130は、上記の変換結果を出力するための各種の装置を含んでよい。特に、本実施形態においては、出力部130は、表示部132および音声出力部134を含んでよい。
表示部132は、受信した応答情報に基づいて、視覚情報を伴う出力を行う機能を有する。当該機能は、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置により実現されてもよい。また、表示部132は、ユーザの操作を受け付ける入力部としての機能を有してもよい。入力部としての機能は、例えば、タッチパネルにより実現され得る。
音声出力部134は、電気信号を音に変換し出力する機能を有する。具体的には、音声出力部134は、受信した応答情報に含まれる音声情報に基づいた音声をユーザに提示する機能を有する。音声出力部134は、上記の機能を有するスピーカやアンプなどを含んでよい。
サーバ通信部140は、ネットワーク30を介して、情報処理サーバ20との通信を行う機能を有する。本実施形態に係るサーバ通信部140は、例えば、上述した第1の発話情報および第2の発話情報を送信してよい。また、サーバ通信部140は、第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報や、当該新たな区切り位置に基づく新たな変換結果を受信してよい。
次に、本実施形態に係る情報処理サーバ20の機能構成例について詳細に説明する。図3は、本実施形態に係る情報処理サーバ20の機能ブロック図である。図3を参照すると、本実施形態に係る情報処理サーバ20は、音声認識部210、比較部220、設定部230、変換部240、記憶部250、および端末通信部260を備える。以降、上記に示す各構成について当該構成が有する特徴を中心に詳細に説明する。
音声認識部210は、情報処理端末10の音声収集部112が収集した発話情報に基づいて音声認識を行う機能を有する。具体的には、音声認識部210は、受信した第1の発話情報または第2の発話情報に基づく音声認識を行ってよい。また、音声認識部210は、発話情報に基づく音声認識結果と共に、音関係情報を記憶部250に記憶させることができる。ここで、上記の音関係情報とは、抽出された音素や音声認識結果における読みの情報であってよい。また、音声認識部210は、音声認識結果および音関係情報を比較部220に送信してもよい。
比較部220は、収集された第1の発話情報から得られる第1の音関係情報と、第2の発話情報から得られる第2の音関係情報と、を比較する機能を有する。具体的には、本実施形態に係る比較部220は、第1の音関係情報と第2の音関係情報とが類似または同一であるかを判定することができる。この際、比較部220は、例えば、第1の音関係情報と第2の音関係情報とにおける類似度が所定の閾値を超えることに基づいて、両者の類似性を判定してもよい。
設定部230は、音声認識部210による音声認識結果に対し区切り位置を設定する機能を有する。ここで、本実施形態に係る区切り位置とは、例えば、文節、単語などの文字列、アクセント句などの音素列、音素、音節などの単位で設定されてもよい。特に、本実施形態に係る設定部230は、比較部220による上記の比較結果に基づいて、第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定することができる。設定部230は、例えば、上記の比較結果が類似または一致を示すことに基づいて、上記の処理を行うことができる。設定部230が有する上記機能の詳細については、後述する。また、設定部230は、設定した区切り位置に係る情報を記憶部250に記憶させることができる。設定部230は、上記の区切り位置に係る情報を変換部240に送信してもよい。
変換部240は、設定部230が設定した新たな区切り位置に基づいて文字変換を行う機能を有する。この際、本実施形態に係る変換部240は、上記の新たな区切り位置に基づいて第2の発話情報に対応する文字変換を行ってもよい。すなわち、本実施形態に係る変換部240は、収集された第2の発話情報に基づく音声認識結果に対し、新たな区切り位置に基づく文字変換を行うことができる。
記憶部250は、情報処理端末10から受信した各種の情報や、情報処理サーバ20の各構成により生成される情報を記憶する機能を有する。本実施形態に係る記憶部250は、例えば、第1の発話情報および第2の発話情報に基づく音声認識の結果や、比較部220による比較結果、設定部230により設定される区切り位置に係る情報、変換部240による文字変換の結果などを記憶することができる。
端末通信部260は、ネットワーク30を介して、情報処理端末10との通信を行う機能を有する。本実施形態に係る端末通信部260は、例えば、収集された第1の発話情報および第2の発話情報を受信することができる。また、端末通信部260は、操作取得部114により生成される対象情報を受信してよい。
次に、本実施形態に係る新たな区切り位置に基づく文字変換の具体例について説明する。図4Aおよび図4Bは、新たな区切り位置に基づく文字変換について説明するための図である。図4Aを参照すると、まず、ユーザは、新規の発話U1を行っている。本例では、発話U1が、“I am writing a tag sentence”、という内容である場合を例に説明する。
次に、本実施形態に係る情報処理サーバ20の動作の流れについて説明する。
まず、図7を参照して、第1の発話情報に係る処理フローについて説明する。図7は、第1の発話情報に対する情報処理サーバ20の処理の流れを示すフローチャートである。
次に、図8を参照して、対象情報に基づく新たな区切り位置の設定フローについて説明する。図8は、情報処理サーバ20による対象情報に基づく新たな区切り位置の設定の流れを示すフローチャートである。
次に、図9を参照して、第2の発話情報に係る処理フローについて説明する。図9は、第2の発話情報に対する情報処理サーバ20の処理の流れを示すフローチャートである。以下における処理は、図8におけるステップS1230に該当するものであってよい。
次に、図10を参照して、発話情報のみに基づく新たな区切り位置の設定フローについて説明する。図10は、情報処理サーバ20による発話情報のみに基づく新たな区切り位置の設定の流れを示すフローチャートである。
次に、本開示に係る情報処理端末10及び情報処理サーバ20に共通するハードウェア構成例について説明する。図11は、本開示に係る情報処理端末10及び情報処理サーバ20のハードウェア構成例を示すブロック図である。図11を参照すると、情報処理端末10及び情報処理サーバ20は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力装置878と、出力装置879と、ストレージ880と、ドライブ881と、接続ポート882と、通信装置883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、ストレージ880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
入力装置878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。また、入力装置878には、マイクロフォンなどの音声入力装置が含まれる。
出力装置879は、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。
ストレージ880は、各種のデータを格納するための装置である。ストレージ880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
通信装置883は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。
以上説明したように、本開示に係る情報処理端末10は、第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信し、当該新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御することができる。また、本開示に係る情報処理サーバ20は、収集された第1発話情報と第2の発話情報とを比較し、当該比較結果に基づいて、音声認識結果に係る新たな区切り位置を設定することができる。また、情報処理サーバ20は、設定した新たな区切り位置に基づいて、文字変換を行うことができる。係る構成によれば、より柔軟な認識文章の修正を実現することが可能となる。
(1)
収集された第1の発話情報から得られる第1の音関係情報と第2の発話情報から得られる第2の音関係情報とを比較する比較部と、
前記比較部による比較結果に基づいて、前記第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定する設定部と、
を備える、
情報処理装置。
(2)
前記新たな区切り位置に基づいて文字変換を行う変換部、
をさらに備える、
前記(1)に記載の情報処理装置。
(3)
前記変換部は、前記新たな区切り位置に基づいて前記第2の発話情報に対応する文字変換を行う、
前記(2)に記載の情報処理装置。
(4)
前記変換部は、前記新たな区切り位置に基づいて前記第1の発話情報に対応する文字変換を行う、
前記(2)または(3)に記載の情報処理装置。
(5)
前記第1の発話情報および前記第2の発話情報を受信する受信部、
をさらに備える、
前記(1)〜(4)のいずれかに記載の情報処理装置。
(6)
前記受信部は、前記第1の発話情報を特定する対象情報を受信し、
前記比較部は、前記対象情報に基づいて、前記第1の音関係情報と前記第2の音関係情報とを比較する、
前記(5)に記載の情報処理装置。
(7)
前記設定部の設定する新たな区切り位置に係る情報を送信する送信部、
をさらに備える、
前記(1)〜(6)のいずれかに記載の情報処理装置。
(8)
前記送信部は、前記新たな区切り位置に基づく文字変換の結果を送信する、
前記(7)に記載の情報処理装置。
(9)
前記第1の発話情報または前記第2の発話情報に基づいて音声認識を行う音声認識部、
をさらに備える、
前記(1)〜(8)のいずれかに記載の情報処理装置。
(10)
収集された第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信する受信部と、
前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御する出力制御部と、
を備え、
前記新たな区切り位置は、収集された第1の発話情報から得られる第1の音関係情報と第2の発話情報から得られる第2の音関係情報との比較結果に基づいて設定される、
情報処理装置。
(11)
前記出力制御部は、出力部に前記新たな変換結果と前記新たな区切り位置とを対応付けて出力させる、
前記(10)に記載の情報処理装置。
(12)
前記第1の発話情報および前記第2の発話情報を送信する送信部、
をさらに備える、
前記(10)または(11)に記載の情報処理装置。
(13)
前記送信部は、前記第1の発話情報を特定する対象情報を送信し、
前記受信部は、前記対象情報に基づいて設定される前記新たな区切り位置に係る情報を受信する、
前記(12)に記載の情報処理装置。
(14)
前記受信部は、前記新たな変換結果を受信する、
前記(10)〜(13)のいずれかに記載の情報処理装置。
(15)
前記新たな区切り位置に基づいて文字変換を行う変換部、
をさらに備える、
前記(10)〜(13)のいずれかに記載の情報処理装置。
(16)
ユーザによる入力操作を検出し前記入力操作に基づいて前記対象情報を生成する操作取得部、
をさらに備える、
前記(13)に記載の情報処理装置。
(17)
前記出力制御部による制御に基づいて、前記新たな変換結果を出力する出力部、
をさらに備える、
前記(10)〜(16)のいずれかに記載の情報処理装置。
(18)
前記第1の発話情報および前記第2の発話情報を収集する音声収集部、
をさらに備え、
前記第2の発話情報は、前記第1の発話情報よりも後に取得される、
前記(10)〜(17)のいずれかに記載の情報処理装置。
(19)
プロセッサが、収集された第1の発話情報から得られる第1の音関係情報と第2の発話情報から得られる第2の音関係情報とを比較することと、
前記第1の音関係情報と前記第2の音関係情報との比較結果に基づいて、前記第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定することと、
を含む、
情報処理方法。
(20)
プロセッサが、収集された第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信することと、
前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御することと、
を含み、
前記新たな区切り位置は、収集された第1の発話情報から得られる第1の音関係情報と第2の発話情報から得られる第2の音関係情報との比較結果に基づいて設定される、
情報処理方法。
110 入力部
112 音声収集部
114 操作取得部
120 端末制御部
130 出力部
132 表示部
134 音声出力部
140 サーバ通信部
20 情報処理サーバ
210 音声認識部
220 比較部
230 設定部
240 変換部
250 記憶部
260 端末通信部
Claims (20)
- 収集された第1の発話情報から得られる第1の音関係情報と第2の発話情報から得られる第2の音関係情報とを比較する比較部と、
前記比較部による比較結果に基づいて、前記第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定する設定部と、
を備える、
情報処理装置。 - 前記新たな区切り位置に基づいて文字変換を行う変換部、
をさらに備える、
請求項1に記載の情報処理装置。 - 前記変換部は、前記新たな区切り位置に基づいて前記第2の発話情報に対応する文字変換を行う、
請求項2に記載の情報処理装置。 - 前記変換部は、前記新たな区切り位置に基づいて前記第1の発話情報に対応する文字変換を行う、
請求項2または3に記載の情報処理装置。 - 前記第1の発話情報および前記第2の発話情報を受信する受信部、
をさらに備える、
請求項1〜4のいずれか1項に記載の情報処理装置。 - 前記受信部は、前記第1の発話情報を特定する対象情報を受信し、
前記比較部は、前記対象情報に基づいて、前記第1の音関係情報と前記第2の音関係情報とを比較する、
請求項5に記載の情報処理装置。 - 前記新たな区切り位置に係る情報を送信する送信部、
をさらに備える、
請求項1〜6のいずれか1項に記載の情報処理装置。 - 前記送信部は、前記新たな区切り位置に基づく文字変換の結果を送信する、
請求項7に記載の情報処理装置。 - 前記第1の発話情報または前記第2の発話情報に基づいて音声認識を行う音声認識部、
をさらに備える、
請求項1〜8のいずれか1項に記載の情報処理装置。 - 収集された第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信する受信部と、
前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御する出力制御部と、
を備え、
前記新たな区切り位置は、収集された第1の発話情報から得られる第1の音関係情報と第2の発話情報から得られる第2の音関係情報との比較結果に基づいて設定される、
情報処理装置。 - 前記出力制御部は、出力部に前記新たな変換結果と前記新たな区切り位置とを対応付けて出力させる、
請求項10に記載の情報処理装置。 - 前記第1の発話情報および前記第2の発話情報を送信する送信部、
をさらに備える、
請求項10または11に記載の情報処理装置。 - 前記送信部は、前記第1の発話情報を特定する対象情報を送信し、
前記受信部は、前記対象情報に基づいて設定される前記新たな区切り位置に係る情報を受信する、
請求項12に記載の情報処理装置。 - 前記受信部は、前記新たな変換結果を受信する、
請求項10〜13のいずれか1項に記載の情報処理装置。 - 前記新たな区切り位置に基づいて文字変換を行う変換部、
をさらに備える、
請求項10〜13のいずれか1項に記載の情報処理装置。 - ユーザによる入力操作を検出し前記入力操作に基づいて前記対象情報を生成する操作取得部、
をさらに備える、
請求項13に記載の情報処理装置。 - 前記出力制御部による制御に基づいて、前記新たな変換結果を出力する出力部、
をさらに備える、
請求項10〜16のいずれか1項に記載の情報処理装置。 - 前記第1の発話情報および前記第2の発話情報を収集する音声収集部、
をさらに備え、
前記第2の発話情報は、前記第1の発話情報よりも後に取得される、
請求項10〜17のいずれか1項に記載の情報処理装置。 - プロセッサが、収集された第1の発話情報から得られる第1の音関係情報と第2の発話情報から得られる第2の音関係情報とを比較することと、
前記第1の音関係情報と前記第2の音関係情報との比較結果に基づいて、前記第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置を設定することと、
を含む、
情報処理方法。 - プロセッサが、収集された第1の発話情報に対応する文字変換の結果とは異なる新たな区切り位置に係る情報を受信することと、
前記新たな区切り位置に基づいて文字変換された新たな変換結果の出力を制御することと、
を含み、
前記新たな区切り位置は、収集された第1の発話情報から得られる第1の音関係情報と第2の発話情報から得られる第2の音関係情報との比較結果に基づいて設定される、
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016122437 | 2016-06-21 | ||
JP2016122437 | 2016-06-21 | ||
PCT/JP2017/014717 WO2017221516A1 (ja) | 2016-06-21 | 2017-04-10 | 情報処理装置及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017221516A1 JPWO2017221516A1 (ja) | 2019-04-18 |
JP6852734B2 true JP6852734B2 (ja) | 2021-03-31 |
Family
ID=60784276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018523347A Active JP6852734B2 (ja) | 2016-06-21 | 2017-04-10 | 情報処理装置及び情報処理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11217266B2 (ja) |
EP (1) | EP3474275A4 (ja) |
JP (1) | JP6852734B2 (ja) |
CN (1) | CN109313894A (ja) |
WO (1) | WO2017221516A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11437025B2 (en) * | 2018-10-04 | 2022-09-06 | Google Llc | Cross-lingual speech recognition |
KR102321806B1 (ko) * | 2019-08-27 | 2021-11-05 | 엘지전자 주식회사 | 음성신호 및 텍스트가 매칭된 데이터베이스의 구축방법 및 이를 위한 시스템, 이를 기록한 컴퓨터 판독 가능한 기록매체 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03148750A (ja) * | 1989-11-06 | 1991-06-25 | Fujitsu Ltd | 音声ワープロ |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
US5864805A (en) * | 1996-12-20 | 1999-01-26 | International Business Machines Corporation | Method and apparatus for error correction in a continuous dictation system |
JPH11149294A (ja) * | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置および音声認識方法 |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US6770572B1 (en) * | 1999-01-26 | 2004-08-03 | Alliedsignal Inc. | Use of multifunctional si-based oligomer/polymer for the surface modification of nanoporous silica films |
JP3762327B2 (ja) * | 2002-04-24 | 2006-04-05 | 株式会社東芝 | 音声認識方法および音声認識装置および音声認識プログラム |
US7047193B1 (en) * | 2002-09-13 | 2006-05-16 | Apple Computer, Inc. | Unsupervised data-driven pronunciation modeling |
JP4225128B2 (ja) * | 2003-06-13 | 2009-02-18 | ソニー株式会社 | 規則音声合成装置及び規則音声合成方法 |
US8095364B2 (en) * | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US7469205B2 (en) * | 2004-06-30 | 2008-12-23 | Marvell International Ltd. | Apparatus and methods for pronunciation lexicon compression |
TWI244638B (en) * | 2005-01-28 | 2005-12-01 | Delta Electronics Inc | Method and apparatus for constructing Chinese new words by the input voice |
JP2007057714A (ja) * | 2005-08-23 | 2007-03-08 | Nec Corp | 話者識別器更新データを生成する装置、方法、プログラムおよび話者識別器を更新する装置、方法、プログラム |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
JP2008051895A (ja) * | 2006-08-22 | 2008-03-06 | Casio Comput Co Ltd | 音声認識装置および音声認識処理プログラム |
US8056070B2 (en) * | 2007-01-10 | 2011-11-08 | Goller Michael D | System and method for modifying and updating a speech recognition program |
EP2019383A1 (en) * | 2007-07-25 | 2009-01-28 | Dybuster AG | Device and method for computer-assisted learning |
US8498870B2 (en) * | 2008-01-24 | 2013-07-30 | Siemens Medical Solutions Usa, Inc. | Medical ontology based data and voice command processing system |
US8185396B2 (en) * | 2008-07-11 | 2012-05-22 | Research In Motion Limited | Facilitating text-to-speech conversion of a domain name or a network address containing a domain name |
US9280971B2 (en) * | 2009-02-27 | 2016-03-08 | Blackberry Limited | Mobile wireless communications device with speech to text conversion and related methods |
US9123339B1 (en) * | 2010-11-23 | 2015-09-01 | Google Inc. | Speech recognition using repeated utterances |
US8682670B2 (en) * | 2011-07-07 | 2014-03-25 | International Business Machines Corporation | Statistical enhancement of speech output from a statistical text-to-speech synthesis system |
US9087039B2 (en) * | 2012-02-07 | 2015-07-21 | Microsoft Technology Licensing, Llc | Language independent probabilistic content matching |
US20130257732A1 (en) * | 2012-03-29 | 2013-10-03 | Robert Duffield | Adaptive virtual keyboard |
US8612213B1 (en) * | 2012-10-16 | 2013-12-17 | Google Inc. | Correction of errors in character strings that include a word delimiter |
US20140278357A1 (en) * | 2013-03-14 | 2014-09-18 | Wordnik, Inc. | Word generation and scoring using sub-word segments and characteristic of interest |
JP6155821B2 (ja) * | 2013-05-08 | 2017-07-05 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9324319B2 (en) * | 2013-05-21 | 2016-04-26 | Speech Morphing Systems, Inc. | Method and apparatus for exemplary segment classification |
EP3100174A1 (de) * | 2014-01-28 | 2016-12-07 | Somol Zorzin GmbH | Verfahren zur automatischen sinnerkennung und messung der eindeutigkeit von text |
US20150364140A1 (en) * | 2014-06-13 | 2015-12-17 | Sony Corporation | Portable Electronic Equipment and Method of Operating a User Interface |
JP5943436B2 (ja) * | 2014-06-30 | 2016-07-05 | シナノケンシ株式会社 | テキストデータと読み上げ音声データとの同期処理装置および同期処理プログラム |
US9880997B2 (en) * | 2014-07-23 | 2018-01-30 | Accenture Global Services Limited | Inferring type classifications from natural language text |
US10515151B2 (en) * | 2014-08-18 | 2019-12-24 | Nuance Communications, Inc. | Concept identification and capture |
CN107209552B (zh) * | 2014-09-02 | 2020-10-27 | 托比股份公司 | 基于凝视的文本输入***和方法 |
US9940016B2 (en) * | 2014-09-13 | 2018-04-10 | Microsoft Technology Licensing, Llc | Disambiguation of keyboard input |
KR102267405B1 (ko) * | 2014-11-21 | 2021-06-22 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 장치의 제어 방법 |
KR102351366B1 (ko) * | 2015-01-26 | 2022-01-14 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US10019984B2 (en) * | 2015-02-27 | 2018-07-10 | Microsoft Technology Licensing, Llc | Speech recognition error diagnosis |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
KR102413067B1 (ko) * | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
KR102018331B1 (ko) * | 2016-01-08 | 2019-09-04 | 한국전자통신연구원 | 음성 인식 시스템에서의 발화 검증 장치 및 그 방법 |
US10109217B2 (en) * | 2016-03-27 | 2018-10-23 | Ya-Mei TSENG | Speech assessment device and method for a multisyllabic-word learning machine, and a method for visualizing continuous audio |
-
2017
- 2017-04-10 WO PCT/JP2017/014717 patent/WO2017221516A1/ja active Application Filing
- 2017-04-10 US US16/089,174 patent/US11217266B2/en active Active
- 2017-04-10 JP JP2018523347A patent/JP6852734B2/ja active Active
- 2017-04-10 CN CN201780037397.3A patent/CN109313894A/zh not_active Withdrawn
- 2017-04-10 EP EP17814987.8A patent/EP3474275A4/en not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP3474275A1 (en) | 2019-04-24 |
JPWO2017221516A1 (ja) | 2019-04-18 |
CN109313894A (zh) | 2019-02-05 |
EP3474275A4 (en) | 2019-11-06 |
US11217266B2 (en) | 2022-01-04 |
WO2017221516A1 (ja) | 2017-12-28 |
US20200302950A1 (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6754184B2 (ja) | 音声認識装置及び音声認識方法 | |
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
US20150019221A1 (en) | Speech recognition system and method | |
US10553206B2 (en) | Voice keyword detection apparatus and voice keyword detection method | |
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
WO2020024620A1 (zh) | 语音信息的处理方法以及装置、设备和存储介质 | |
JP2012256047A (ja) | ディスプレイ装置およびそのリンク実行方法、並びに、音声認識方法 | |
US12033639B2 (en) | Caching scheme for voice recognition engines | |
EP3550454A1 (en) | Electronic device and control method | |
EP3916538A1 (en) | Creating a cinematic storytelling experience using network-addressable devices | |
WO2018047421A1 (ja) | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 | |
EP4392972A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
EP3503091A1 (en) | Dialogue control device and method | |
JP2013029690A (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
JP6852734B2 (ja) | 情報処理装置及び情報処理方法 | |
US11900931B2 (en) | Information processing apparatus and information processing method | |
JP6930538B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US11948564B2 (en) | Information processing device and information processing method | |
JP2016109725A (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN106980640B (zh) | 针对照片的交互方法、设备和计算机可读存储介质 | |
TW202211077A (zh) | 多國語言語音辨識及翻譯方法與相關的系統 | |
JP5997813B2 (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
US20230117535A1 (en) | Method and system for device feature analysis to improve user experience | |
US20220199096A1 (en) | Information processing apparatus and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200317 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210222 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6852734 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |