JPWO2019031268A1 - 情報処理装置、及び情報処理方法 - Google Patents
情報処理装置、及び情報処理方法 Download PDFInfo
- Publication number
- JPWO2019031268A1 JPWO2019031268A1 JP2019535101A JP2019535101A JPWO2019031268A1 JP WO2019031268 A1 JPWO2019031268 A1 JP WO2019031268A1 JP 2019535101 A JP2019535101 A JP 2019535101A JP 2019535101 A JP2019535101 A JP 2019535101A JP WO2019031268 A1 JPWO2019031268 A1 JP WO2019031268A1
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- utterances
- information
- history
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 77
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 175
- 238000000034 method Methods 0.000 claims description 90
- 230000008569 process Effects 0.000 claims description 85
- 230000005540 biological transmission Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 6
- 238000003384 imaging method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 44
- 230000003993 interaction Effects 0.000 abstract description 8
- 238000004891 communication Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 230000005236 sound signal Effects 0.000 description 17
- 238000001514 detection method Methods 0.000 description 16
- 238000012790 confirmation Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000945 filler Substances 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Collating Specific Patterns (AREA)
Abstract
Description
2.前提となる技術
3.本技術の実施の形態
(1)第1の実施の形態:発話の履歴情報を利用した音声言語理解処理
(2)第2の実施の形態:センサ情報を利用した音声言語理解処理
4.変形例
5.コンピュータの構成
図1は、本技術を適用した音声対話システムの構成例を示すブロック図である。
図2は、図1の音声処理装置10の構成例を示すブロック図である。
図3は、図1のサーバ20の構成例を示すブロック図である。
図4は、本技術を適用した音声対話システムの機能的構成例を示すブロック図である。
・切り出された音声信号
・切り出しを開始した時刻、切り出しが完了した時刻
・音声認識結果
・意味フレームのリスト
ユーザ意図(intent)
パラメータ(SlotSet)
・切り出された音声信号
・切り出しを開始した時刻、切り出しが完了した時刻
ここで、図8には、入力(IN2)に対する処理を行う音声認識・音声言語理解プログラムAPIの出力例(OUT2)を示している。
・切り出された音声信号
・切り出しを開始した時刻、切り出しが完了した時刻
ここで、図9には、入力(IN3)に対する処理を行う音声認識・音声言語理解プログラムAPIの出力例(OUT3)を示している。
・切り出された音声信号
・切り出しを開始した時刻、切り出しが完了した時刻
・発話の履歴情報(音声認識結果の文字列、対応する音声信号の切り出しの開始時刻)
・切り出された音声信号
・切り出しを開始した時刻、切り出しが完了した時刻
・発話の履歴情報
図10は、発話の履歴情報の例を示す図である。
図11は、発話の履歴情報(HI4)を含む入力(IN4)に対する処理を行う音声認識・音声言語理解プログラムAPIの出力例(OUT4)を示す図である。
・切り出された音声信号
・切り出しを開始した時刻、切り出しが完了した時刻
・発話の履歴情報
図12は、発話の履歴情報の例を示す図である。
図13は、発話の履歴情報(HI5)を含む入力(IN5)に対する処理を行う音声認識・音声言語理解プログラムAPIの出力例(OUT5)を示している。
・切り出された音声信号
・切り出しを開始した時刻、切り出しが完了した時刻
・発話の履歴情報
図14は、発話の履歴情報の例を示している。
図15は、発話の履歴情報(HI6)を含む入力(IN6)に対する処理を行う音声認識・音声言語理解プログラムAPIの出力例(OUT6)を示している。
(2)セマンティックフレームテンプレート(IS1)に当てはめる(S12)。
(3)必要に応じてパラメータの解釈・変換を行う(S13)。
(2)第2のスコア:それぞれの入力仮説に対し、言語モデル(IS3)に基づくスコア
(3)第3のスコア:それぞれの入力仮説における、最も古い過去の発話の履歴と、次に古い過去の発話の履歴との間の時刻の差
(4)第4のスコア:それぞれの入力仮説の結合数
次に、図21のフローチャートを参照して、発話の履歴情報を用いる、本技術の音声言語理解処理の流れを説明する。
次に、図22及び図23を参照して、入力仮説の選択の他の例を説明する。ここでは、例えば、ユーザが、「お腹空いた、、、今日の、、、天気を教えて」のように、「お腹空いた」の後と、「今日の」の後に、「間」を空けて発話した場合を想定する。
・切り出された音声信号
・切り出しを開始した時刻、切り出しが完了した時刻
・発話の履歴情報(音声認識結果の文字列、対応する音声信号の切り出し開始時刻)
・他センサ情報
図24は、他センサ情報の例を示す図である。
図25は、発話の履歴情報の例を示す図である。
図26は、他センサ情報(SI10)と発話の履歴情報(HI10)を含む入力(IN10)に対応する処理を行う音声認識・音声言語理解プログラムAPIの出力例(OUT10)を示す図である。
最後に、図27のフローチャートを参照して、音声処理装置10とサーバ20によって実行される、音声対話処理の流れを説明する。
ユーザの発話に含まれる間の前後の発話の意味単位での適合度に応じて、前記前後の発話を接続する処理部を備える
情報処理装置。
(2)
前記処理部は、
現在の発話と、過去の発話の履歴に基づいて、前記前後の発話の意味単位での適合度を算出し、
算出された前記適合度に基づいて、前記前後の発話を接続するか否かを判定し、
前記前後の発話を接続すると判定された場合に、前記前後の発話を接続する
前記(1)に記載の情報処理装置。
(3)
前記処理部は、前記現在の発話と、前記過去の発話の履歴とともに、センサから得られるセンサ情報を用い、前記前後の発話の意味単位での適合度を算出する
前記(2)に記載の情報処理装置。
(4)
前記処理部は、
前記前後の発話を仮に接続して得られる入力仮説ごとのスコアを算出し、
算出された前記入力仮説ごとのスコアに基づいて、前記入力仮説ごとの前記前後の発話の適合度を算出し、
算出された前記入力仮説ごとの適合度に基づいて、複数の入力仮説の中から、1つの入力仮説を選択する
前記(2)又は(3)に記載の情報処理装置。
(5)
前記処理部は、前記入力仮説ごとに得られる情報量に応じて、前記スコアを算出する
前記(4)に記載の情報処理装置。
(6)
前記スコアは、前記入力仮説ごとに、
前記ユーザの意図に応じた関数のパラメータの使用の割合から得られる第1のスコア、
前記ユーザの発話の言い回しの情報に関する言語モデルから得られる第2のスコア、
前記現在の発話と前記過去の発話の履歴との時間的な間隔、又は前記過去の発話の履歴同士の時間的な間隔から得られる第3のスコア、
及び前記現在の発話と前記過去の発話の履歴との結合数から得られる第4のスコア
のうち、少なくとも1以上のスコアを含む
前記(4)又は(5)に記載の情報処理装置。
(7)
前記適合度は、前記前後の発話の関連度及び文法的なつながりの少なくとも一方を含む
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記処理部は、前記間の間隔に基づいて、前記前後の発話を接続するかどうかを判定する
前記(2)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記処理部は、前記過去の発話の履歴のうち、有効な発話の履歴のみを用いる
前記(2)に記載の情報処理装置。
(10)
前記過去の発話の履歴は、前記ユーザの発話の内容と発話された時刻の情報を含む
前記(9)に記載の情報処理装置。
(11)
前記センサ情報は、被写体を撮像して得られる画像データ、又は前記ユーザの位置を示す位置情報を含む
前記(3)に記載の情報処理装置。
(12)
情報処理装置の情報処理方法において、
前記情報処理装置が、
ユーザの発話に含まれる間の前後の発話の意味単位での適合度に応じて、前記前後の発話を接続する
情報処理方法。
(13)
ユーザの過去の発話の履歴から、間を含んだ発話に対する音声言語理解処理に適合する過去の発話の履歴を抽出する処理部と、
前記ユーザの現在の発話に応じた音声信号とともに、抽出された前記過去の発話の履歴を、前記音声言語理解処理を行う情報処理装置に送信する送信部と
を備える情報処理装置。
(14)
前記処理部は、間の時間間隔、言葉の言い淀みに関する情報、話者に関する情報、又は前記ユーザの視線情報を含む抽出情報に基づいて、前記過去の発話の履歴を抽出する
前記(13)に記載の情報処理装置。
(15)
前記送信部は、前記過去の発話の履歴に関する送信最大個数、又は送信最大データサイズに基づいて、前記過去の発話の履歴を送信する
前記(13)又は(14)に記載の情報処理装置。
(16)
情報処理装置の情報処理方法において、
前記情報処理装置が、
ユーザの過去の発話の履歴から、間を含んだ発話に対する音声言語理解処理に適合する過去の発話の履歴を抽出し、
前記ユーザの現在の発話に応じた音声信号とともに、抽出された前記過去の発話の履歴を、前記音声言語理解処理を行う情報処理装置に送信する
情報処理方法。
Claims (16)
- ユーザの発話に含まれる間の前後の発話の意味単位での適合度に応じて、前記前後の発話を接続する処理部を備える
情報処理装置。 - 前記処理部は、
現在の発話と、過去の発話の履歴に基づいて、前記前後の発話の意味単位での適合度を算出し、
算出された前記適合度に基づいて、前記前後の発話を接続するか否かを判定し、
前記前後の発話を接続すると判定された場合に、前記前後の発話を接続する
請求項1に記載の情報処理装置。 - 前記処理部は、前記現在の発話と、前記過去の発話の履歴とともに、センサから得られるセンサ情報を用い、前記前後の発話の意味単位での適合度を算出する
請求項2に記載の情報処理装置。 - 前記処理部は、
前記前後の発話を仮に接続して得られる入力仮説ごとのスコアを算出し、
算出された前記入力仮説ごとのスコアに基づいて、前記入力仮説ごとの前記前後の発話の適合度を算出し、
算出された前記入力仮説ごとの適合度に基づいて、複数の入力仮説の中から、1つの入力仮説を選択する
請求項2に記載の情報処理装置。 - 前記処理部は、前記入力仮説ごとに得られる情報量に応じて、前記スコアを算出する
請求項4に記載の情報処理装置。 - 前記スコアは、前記入力仮説ごとに、
前記ユーザの意図に応じた関数のパラメータの使用の割合から得られる第1のスコア、
前記ユーザの発話の言い回しの情報に関する言語モデルから得られる第2のスコア、
前記現在の発話と前記過去の発話の履歴との時間的な間隔、又は前記過去の発話の履歴同士の時間的な間隔から得られる第3のスコア、
及び前記現在の発話と前記過去の発話の履歴との結合数から得られる第4のスコア
のうち、少なくとも1以上のスコアを含む
請求項5に記載の情報処理装置。 - 前記適合度は、前記前後の発話の関連度及び文法的なつながりの少なくとも一方を含む
請求項1に記載の情報処理装置。 - 前記処理部は、前記間の間隔に基づいて、前記前後の発話を接続するかどうかを判定する
請求項2に記載の情報処理装置。 - 前記処理部は、前記過去の発話の履歴のうち、有効な発話の履歴のみを用いる
請求項2に記載の情報処理装置。 - 前記過去の発話の履歴は、前記ユーザの発話の内容と発話された時刻の情報を含む
請求項9に記載の情報処理装置。 - 前記センサ情報は、被写体を撮像して得られる画像データ、又は前記ユーザの位置を示す位置情報を含む
請求項3に記載の情報処理装置。 - 情報処理装置の情報処理方法において、
前記情報処理装置が、
ユーザの発話に含まれる間の前後の発話の意味単位での適合度に応じて、前記前後の発話を接続する
情報処理方法。 - ユーザの過去の発話の履歴から、間を含んだ発話に対する音声言語理解処理に適合する過去の発話の履歴を抽出する処理部と、
前記ユーザの現在の発話に応じた音声信号とともに、抽出された前記過去の発話の履歴を、前記音声言語理解処理を行う情報処理装置に送信する送信部と
を備える情報処理装置。 - 前記処理部は、間の時間間隔、言葉の言い淀みに関する情報、話者に関する情報、又は前記ユーザの視線情報を含む抽出情報に基づいて、前記過去の発話の履歴を抽出する
請求項13に記載の情報処理装置。 - 前記送信部は、前記過去の発話の履歴に関する送信最大個数、又は送信最大データサイズに基づいて、前記過去の発話の履歴を送信する
請求項14に記載の情報処理装置。 - 情報処理装置の情報処理方法において、
前記情報処理装置が、
ユーザの過去の発話の履歴から、間を含んだ発話に対する音声言語理解処理に適合する過去の発話の履歴を抽出し、
前記ユーザの現在の発話に応じた音声信号とともに、抽出された前記過去の発話の履歴を、前記音声言語理解処理を行う情報処理装置に送信する
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017153883 | 2017-08-09 | ||
JP2017153883 | 2017-08-09 | ||
PCT/JP2018/028201 WO2019031268A1 (ja) | 2017-08-09 | 2018-07-27 | 情報処理装置、及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019031268A1 true JPWO2019031268A1 (ja) | 2020-09-10 |
JP7230806B2 JP7230806B2 (ja) | 2023-03-01 |
Family
ID=65272301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019535101A Active JP7230806B2 (ja) | 2017-08-09 | 2018-07-27 | 情報処理装置、及び情報処理方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200219487A1 (ja) |
EP (1) | EP3667660A4 (ja) |
JP (1) | JP7230806B2 (ja) |
CN (1) | CN110998719A (ja) |
WO (1) | WO2019031268A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
US11164562B2 (en) * | 2019-01-10 | 2021-11-02 | International Business Machines Corporation | Entity-level clarification in conversation services |
CN110223697B (zh) * | 2019-06-13 | 2022-04-22 | 思必驰科技股份有限公司 | 人机对话方法及*** |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
KR20210044985A (ko) * | 2019-10-16 | 2021-04-26 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
CN113362828B (zh) * | 2020-03-04 | 2022-07-05 | 阿波罗智联(北京)科技有限公司 | 用于识别语音的方法和装置 |
CN113126765A (zh) * | 2021-04-22 | 2021-07-16 | 北京云迹科技有限公司 | 一种多模态输入交互方法、装置、机器人和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61285570A (ja) * | 1985-06-12 | 1986-12-16 | Hitachi Ltd | 音声入力装置 |
WO2012023450A1 (ja) * | 2010-08-19 | 2012-02-23 | 日本電気株式会社 | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム |
JP2015060127A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5838871B2 (ja) * | 2012-03-14 | 2016-01-06 | 富士通株式会社 | データ解析装置、データ分割装置、データ解析方法、データ分割方法、データ解析プログラム、及びデータ分割プログラム |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9666192B2 (en) * | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
US10121471B2 (en) * | 2015-06-29 | 2018-11-06 | Amazon Technologies, Inc. | Language model speech endpointing |
-
2018
- 2018-07-27 JP JP2019535101A patent/JP7230806B2/ja active Active
- 2018-07-27 CN CN201880049934.0A patent/CN110998719A/zh not_active Withdrawn
- 2018-07-27 EP EP18843678.6A patent/EP3667660A4/en not_active Withdrawn
- 2018-07-27 US US16/635,571 patent/US20200219487A1/en not_active Abandoned
- 2018-07-27 WO PCT/JP2018/028201 patent/WO2019031268A1/ja unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61285570A (ja) * | 1985-06-12 | 1986-12-16 | Hitachi Ltd | 音声入力装置 |
WO2012023450A1 (ja) * | 2010-08-19 | 2012-02-23 | 日本電気株式会社 | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム |
JP2015060127A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声同時処理装置、方法およびプログラム |
Non-Patent Citations (3)
Title |
---|
中澤聡 他: ""ビデオ音声認識テキストからの文認定"", 言語処理学会第8回年次大会発表論文集, JPN6018039976, 18 March 2002 (2002-03-18), pages 575 - 578, ISSN: 0004834124 * |
河原達也: ""筆記録作成のための話し言葉処理技術"", 情報処理学会研究報告, vol. 2006, no. 136, JPN6018039973, 22 December 2006 (2006-12-22), pages 209 - 214, ISSN: 0004834126 * |
畑昇吾 他: ""音声認識の信頼度に着目した文境界検出に関する検討"", 情報処理学会研究報告, vol. Vol.2009-SLP-79,No.20, JPN6018039974, 22 December 2009 (2009-12-22), pages 1 - 6, ISSN: 0004834125 * |
Also Published As
Publication number | Publication date |
---|---|
JP7230806B2 (ja) | 2023-03-01 |
WO2019031268A1 (ja) | 2019-02-14 |
EP3667660A1 (en) | 2020-06-17 |
EP3667660A4 (en) | 2020-12-23 |
CN110998719A (zh) | 2020-04-10 |
US20200219487A1 (en) | 2020-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7230806B2 (ja) | 情報処理装置、及び情報処理方法 | |
US11817080B2 (en) | Using corrections, of predicted textual segments of spoken utterances, for training of on-device speech recognition model | |
JP7243625B2 (ja) | 情報処理装置、及び情報処理方法 | |
EP3525204A1 (en) | Method and apparatus to provide comprehensive smart assistant services | |
US11423885B2 (en) | Utilizing pre-event and post-event input streams to engage an automated assistant | |
US11978432B2 (en) | On-device speech synthesis of textual segments for training of on-device speech recognition model | |
CN113948083A (zh) | 基于用户反馈来改善自动语音识别 | |
CN111742362B (zh) | 在调用短语检测中选择性地适配和利用噪声降低技术 | |
JPWO2019087811A1 (ja) | 情報処理装置、及び情報処理方法 | |
US9099091B2 (en) | Method and apparatus of adaptive textual prediction of voice data | |
US11568878B2 (en) | Voice shortcut detection with speaker verification | |
US11532301B1 (en) | Natural language processing | |
WO2018043137A1 (ja) | 情報処理装置及び情報処理方法 | |
US11948564B2 (en) | Information processing device and information processing method | |
US11626107B1 (en) | Natural language processing | |
US20240055003A1 (en) | Automated assistant interaction prediction using fusion of visual and audio input | |
JP7230205B2 (ja) | 音声入力処理 | |
KR20230025708A (ko) | 오디오 제시 인터렉션을 갖는 자동화된 어시스턴트 | |
US12033641B2 (en) | Voice shortcut detection with speaker verification | |
US20240233712A1 (en) | Speech Recognition Biasing | |
JP2019109424A (ja) | 計算機、言語解析方法、及びプログラム | |
US11935539B1 (en) | Integrating voice controls into applications | |
US11935533B1 (en) | Content-related actions based on context | |
CN113763921B (zh) | 用于纠正文本的方法和装置 | |
US20230230578A1 (en) | Personalized speech query endpointing based on prior interaction(s) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230130 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7230806 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |