JP6704525B2 - ユーザによって録音された音声の生成および再生を容易にすること - Google Patents
ユーザによって録音された音声の生成および再生を容易にすること Download PDFInfo
- Publication number
- JP6704525B2 JP6704525B2 JP2019531697A JP2019531697A JP6704525B2 JP 6704525 B2 JP6704525 B2 JP 6704525B2 JP 2019531697 A JP2019531697 A JP 2019531697A JP 2019531697 A JP2019531697 A JP 2019531697A JP 6704525 B2 JP6704525 B2 JP 6704525B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- input
- computer
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 77
- 230000004044 response Effects 0.000 claims description 45
- 230000000694 effects Effects 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 2
- 230000009471 action Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000013515 script Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 5
- 241000272525 Anas platyrhynchos Species 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 235000019687 Lamb Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 244000035744 Hura crepitans Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 241000283973 Oryctolagus cuniculus Species 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- PSGAAPLEWMOORI-PEINSRQWSA-N medroxyprogesterone acetate Chemical compound C([C@@]12C)CC(=O)C=C1[C@@H](C)C[C@@H]1[C@@H]2CC[C@]2(C)[C@@](OC(C)=O)(C(C)=O)CC[C@H]21 PSGAAPLEWMOORI-PEINSRQWSA-N 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012015 optical character recognition Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- User Interface Of Digital Computer (AREA)
Description
自動化アシスタント120: "Sounds like you want to hear a story. Is that right?"
個人(ユーザ101ではない): "yes"
自動化アシスタント120: "Ok. I have three stories. The first is Macbeth. Do you want to read that?"
個人(ユーザ101ではない): "yes"
このようなダイアログは、本明細書で説明されるオーディオファイル作成技術へのアクセスを簡素化してもよい。それに加えて、そのようなダイアログは、本明細書で説明される技術を使用して作成されたオーディオファイル以外のコンテンツにアクセスする個人の能力を制限してもよい。さらに、ユーザ101以外の個人とインタラクティブにやり取りするときに、自動化アシスタント120は、(認識されないアクセント、発音、語彙、抑揚、ピッチなどを有する場合がある)個人からの自然言語入力を解釈することができること以上に容易に"yes"、"no"、"okay"などの単純な二択応答を解釈することができてもよい。
マクベス夫人(自動化アシスタント120を介して)
A foolish thought, to say a sorry sight.
マクベス(存在する俳優によってリアルタイムで話される)
There's one did laugh in's sleep, and one cried 'Murder!'
That they did wake each other: I stood and heard them:
But they did say their prayers, and address'd them
Again to sleep.
マクベス夫人(自動化アシスタント120を介して)
There are two lodged together.
マクベス(存在する俳優によってリアルタイムで話される)
One cried 'God bless us!' and 'Amen' the other;
As they had seen me with these hangman's hands.
Listening their fear, I could not say 'Amen,'
When they did say 'God bless us!'
マクベス夫人(自動化アシスタント120を介して)
Consider it not so deeply.
102 子供
106、1061〜N クライアントコンピューティングデバイス、クライアントデバイス
1071〜N メッセージ交換クライアント
120 自動化アシスタント
122 自然言語プロセッサ
130 応答コンテンツエンジン
132 アクションモジュール
134 エンティティモジュール
136 コンテンツモジュール
152 書誌データベース
154 叙述データベース
210 コンピューティングデバイス
280A 自然言語入力
280B 自然言語入力
280C 音声入力
280D 自然言語入力
282A 自然言語出力
282B 自然言語出力
600 方法
700 方法
810 コンピューティングデバイス
812 バスサブシステム
814 プロセッサ
816 ネットワークインターフェースサブシステム
820 ユーザインターフェース出力デバイス
822 ユーザインターフェース入力デバイス
824 ストレージサブシステム
825 メモリサブシステム、メモリ
826 ファイルストレージサブシステム
830 主ランダムアクセスメモリ(RAM)
832 リードオンリーメモリ(ROM)
Claims (20)
- コンピュータ実装方法であって、
第1のユーザがオーディオコンテンツを録音することを意図することを示す入力を前記第1のユーザから受信したことに応答して、オーディオコンテンツの取り込みおよび記憶を行わせるステップと、
前記オーディオコンテンツに対する少なくとも1つの識別子を示す入力を前記第1のユーザから受信するステップと、
前記記憶されたオーディオコンテンツを前記少なくとも1つの識別子に関連付けるステップと、
後続のユーザから音声入力を受信するステップと、
前記音声入力の特性を分析するステップと、
前記音声入力が特定の特性を有するとの判定に応答して、前記音声入力に関する音声認識を前記少なくとも1つの識別子の認識の方へバイアスするステップであって、前記少なくとも1つの識別子が認識される尤度を増加させるように、音声テキスト変換モデルのまたは前記音声テキスト変換モデルによって生成される1つまたは複数の値を修正するステップを含み、前記特定の特性は、前記後続のユーザが前記第1のユーザと異なる誰かであることを示す、ステップと、
前記バイアスされた音声認識に基づいて前記音声入力内の前記少なくとも1つの識別子の存在を認識したことに応答して、前記記憶されたオーディオコンテンツの再生を引き起こすステップと
を含む、コンピュータ実装方法。 - 前記バイアスされた音声認識が前記音声入力の非認識をもたらしたことに応答して、前記後続のユーザが前記記憶されたコンテンツの再生を引き起こすことを可能にするために前記後続のユーザへの選択可能なオプションの提供を引き起こすステップ
をさらに含む、請求項1に記載のコンピュータ実装方法。 - 前記選択可能なオプションが前記少なくとも1つの識別子を含む、請求項2に記載のコンピュータ実装方法。
- 前記選択可能なオプションがオーディオプロンプトである、請求項2に記載のコンピュータ実装方法。
- 前記第1のユーザがオーディオコンテンツを録音することを意図することを示す前記入力を前記第1のユーザから受信したことに応答して、前記少なくとも1つの識別子を示す前記入力を提供することを前記第1のユーザに指示するプロンプトを前記第1のユーザに提供するステップ
をさらに含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。 - コンピュータ実装方法であって、
1つまたは複数の入力デバイスにおいて音声作動製品によって、ユーザから第1のコマンドを受信するステップであって、前記第1のコマンドは前記ユーザが叙述の可聴表現を録音することを望むことを前記音声作動製品に通知する、ステップと、
前記入力デバイスのうちの1つまたは複数において前記音声作動製品によって、前記ユーザから書誌入力を受信するステップであって、前記書誌入力は前記叙述に関連付けられた書誌情報を示す、ステップと、
音声入力デバイスを介して前記音声作動製品によって、前記ユーザが話す前記叙述の前記可聴表現を録音するステップと、
前記音声作動製品に利用可能なコンピュータメモリ内に、前記ユーザが話す前記叙述の前記録音済みの可聴表現を含むオーディオファイルを記憶するステップであって、前記オーディオファイルは前記書誌情報に少なくとも部分的に基づいて前記コンピュータメモリ内でインデックス付けされる、ステップと、
音声出力デバイスを介して前記音声作動製品によって、後続のユーザから前記入力デバイスのうちの1つまたは複数において受信された第2のコマンドに応答して前記オーディオファイルを表現するステップであって、前記第2のコマンドは前記書誌情報を示す情報を含む、ステップと
を含み、
前記第2のコマンドは、音声入力内に前記書誌情報を示す前記情報の存在を認識したことに応答して実行され、
前記音声入力内に前記書誌情報を示す前記情報の存在を認識することは、前記音声入力が特定の特性を有すると決定された場合に、前記音声入力に関する音声認識を前記書誌情報を示す前記情報の認識の方へバイアスすることを含み、前記特定の特性は、前記後続のユーザが前記ユーザと異なる誰かであることを示し、
前記音声入力を前記書誌情報を示す前記情報の認識の方へバイアスすることは、前記書誌情報を示す前記情報が認識される尤度を増加させるように、音声テキスト変換モデルのまたは前記音声テキスト変換モデルによって生成される1つまたは複数の値を修正することを含む、
コンピュータ実装方法。 - 前記第1のコマンドは、前記音声入力デバイスを介して受信された発話を含む、請求項6に記載のコンピュータ実装方法。
- 1つまたは複数の出力デバイスにおいて前記音声作動製品によって、前記叙述に関連付けられた前記書誌情報に対する請求を提供するステップをさらに含む、請求項6または7に記載のコンピュータ実装方法。
- 前記書誌入力は、前記音声入力デバイスを介して受信された発話を含む、請求項6から8のいずれか一項に記載のコンピュータ実装方法。
- 前記第2のコマンドは、前記音声入力デバイスを介して受信された発話を含む、請求項6から9のいずれか一項に記載のコンピュータ実装方法。
- 前記叙述は既存の書物を含み、前記方法は、前記書誌情報をデータベース内の前記既存の書物と照合するステップをさらに含む、請求項6から10のいずれか一項に記載のコンピュータ実装方法。
- 前記出力デバイスのうちの1つまたは複数を介して前記音声作動製品によって、前記データベース内の前記既存の書物に関連付けられた付加情報を提供するステップをさらに含む、請求項11に記載のコンピュータ実装方法。
- 前記付加情報は、前記既存の書物を表す視覚的表現を含む、請求項12に記載のコンピュータ実装方法。
- 前記オーディオファイルは、前記データベース内の前記既存の書物に関連付けられた付加情報に基づいて前記コンピュータメモリ内でさらにインデックス付けされる、請求項11から13のいずれか一項に記載のコンピュータ実装方法。
- 前記コンピュータメモリは、対応する書誌情報によってインデックス付けされた複数の録音済みのオーディオファイルを記憶する、請求項6から14のいずれか一項に記載のコンピュータ実装方法。
- 前記複数のオーディオファイルは、それらを録音したユーザの識別情報によってさらにインデックス付けされる、請求項15に記載のコンピュータ実装方法。
- 前記音声作動製品によって前記オーディオファイル内に、前記ユーザによって選択された1つまたは複数の音響効果を組み込むステップをさらに含む、請求項6から16のいずれか一項に記載のコンピュータ実装方法。
- 前記第2のコマンドが前記ユーザと異なるユーザによって話されたことを判定するために前記第2のコマンドで音声分析を実行するステップをさらに含む、請求項6から17のいずれか一項に記載のコンピュータ実装方法。
- 前記音声作動製品によって、前記音声分析結果に基づいて前記異なるユーザ向けに手直しされたインタラクティブダイアログを開始するステップをさらに含む、請求項18に記載のコンピュータ実装方法。
- 音声対応デバイスであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサと動作可能に結合された1つまたは複数のスピーカーと、
前記1つまたは複数のプロセッサと動作可能に結合された1つまたは複数のマイクロホンと、
前記1つまたは複数のプロセッサと動作可能に結合されたメモリであって、前記メモリは命令を記憶し、前記命令は、前記1つまたは複数のプロセッサによる前記命令の実行に応答して、請求項6から19のいずれか一項に記載の方法を実行させる、メモリと
を備える、音声対応デバイス。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/378,920 | 2016-12-14 | ||
US15/378,920 US11238854B2 (en) | 2016-12-14 | 2016-12-14 | Facilitating creation and playback of user-recorded audio |
PCT/US2017/054452 WO2018111384A1 (en) | 2016-12-14 | 2017-09-29 | Facilitating creation and playback of user-recorded audio |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2020502571A JP2020502571A (ja) | 2020-01-23 |
JP2020502571A5 JP2020502571A5 (ja) | 2020-03-26 |
JP6704525B2 true JP6704525B2 (ja) | 2020-06-03 |
Family
ID=60043415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019531697A Active JP6704525B2 (ja) | 2016-12-14 | 2017-09-29 | ユーザによって録音された音声の生成および再生を容易にすること |
Country Status (8)
Country | Link |
---|---|
US (1) | US11238854B2 (ja) |
EP (1) | EP3504704B1 (ja) |
JP (1) | JP6704525B2 (ja) |
KR (1) | KR102097097B1 (ja) |
CN (1) | CN108228132B (ja) |
DE (2) | DE102017122513B4 (ja) |
GB (1) | GB2559643B (ja) |
WO (1) | WO2018111384A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018174443A1 (en) * | 2017-03-23 | 2018-09-27 | Samsung Electronics Co., Ltd. | Electronic apparatus, controlling method of thereof and non-transitory computer readable recording medium |
US10573298B2 (en) | 2018-04-16 | 2020-02-25 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
FR3080941B1 (fr) * | 2018-05-04 | 2020-04-17 | Thales | Systeme et procede de reconnaissance vocale pour aeronef |
US11348588B2 (en) * | 2018-08-20 | 2022-05-31 | Samsung Electronics Co., Ltd. | Electronic device and operation method for performing speech recognition |
EP4191563A1 (en) | 2018-08-27 | 2023-06-07 | Google LLC | Determination of a story readers current reading location |
US11417325B2 (en) | 2018-09-04 | 2022-08-16 | Google Llc | Detection of story reader progress for pre-caching special effects |
CN109286769B (zh) * | 2018-10-11 | 2021-05-14 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及存储介质 |
CN111372107B (zh) * | 2018-12-26 | 2022-06-03 | 中国电信股份有限公司 | 音频传输方法、装置、***和计算机可读存储介质 |
CN112041809A (zh) | 2019-01-25 | 2020-12-04 | 微软技术许可有限责任公司 | 将音效自动添加到音频文件中 |
US11741951B2 (en) * | 2019-02-22 | 2023-08-29 | Lenovo (Singapore) Pte. Ltd. | Context enabled voice commands |
CN110148418B (zh) * | 2019-06-14 | 2024-05-03 | 安徽咪鼠科技有限公司 | 一种场景记录分析***、方法及其装置 |
EP4361897A3 (en) * | 2020-01-28 | 2024-07-17 | Google Llc | Language-agnostic multilingual modeling using effective script normalization |
CN112233661B (zh) * | 2020-10-14 | 2024-04-05 | 广州欢网科技有限责任公司 | 基于语音识别的影视内容字幕生成方法、***及设备 |
US12039996B2 (en) * | 2021-07-28 | 2024-07-16 | Google Llc | Dynamic adaptation of graphical user interface elements by an automated assistant as a user iteratively provides a spoken utterance, or sequence of spoken utterances |
CN113571101B (zh) * | 2021-09-10 | 2022-09-20 | 深圳市升迈电子有限公司 | 智能录音方法、装置、设备及存储介质 |
CN114595384A (zh) * | 2022-02-25 | 2022-06-07 | 北京字节跳动网络技术有限公司 | 书籍推荐方法、装置、电子设备及存储介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152787A (ja) * | 1994-01-13 | 1995-06-16 | Sony Corp | 情報アクセスシステムおよび記録媒体 |
US6205204B1 (en) | 1996-06-28 | 2001-03-20 | Distributed Software Development, Inc. | System and method for identifying an unidentified person using an ambiguity-resolution criterion |
JP2007152787A (ja) | 2005-12-06 | 2007-06-21 | Canon Inc | インクジェット記録装置 |
US20080140413A1 (en) * | 2006-12-07 | 2008-06-12 | Jonathan Travis Millman | Synchronization of audio to reading |
US20080221902A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile browser environment speech processing facility |
AU2009271622A1 (en) | 2008-07-14 | 2010-01-21 | Everhear Partners, Inc. | Child's media player with automatic wireless synchronization from content servers with adult management and content creation |
WO2010008609A2 (en) | 2008-07-18 | 2010-01-21 | Sensys Networks, Inc. | Method and apparatus matching incoming to outgoing vehicle signatures to estimate arterial vehicular movement |
JP4986301B2 (ja) | 2008-09-30 | 2012-07-25 | Kddi株式会社 | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20110165549A1 (en) | 2010-01-06 | 2011-07-07 | Kuang-Tsai Hao | Children's story audio/video playing device |
JP2011203859A (ja) | 2010-03-24 | 2011-10-13 | Fujitsu Frontech Ltd | 音声出力装置、および音声出力方法 |
US20120059651A1 (en) | 2010-09-07 | 2012-03-08 | Microsoft Corporation | Mobile communication device for transcribing a multi-party conversation |
US8898630B2 (en) * | 2011-04-06 | 2014-11-25 | Media Direct, Inc. | Systems and methods for a voice- and gesture-controlled mobile application development and deployment platform |
US20130178961A1 (en) | 2012-01-05 | 2013-07-11 | Microsoft Corporation | Facilitating personal audio productions |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
KR101977072B1 (ko) | 2012-05-07 | 2019-05-10 | 엘지전자 주식회사 | 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기 |
US9460715B2 (en) * | 2013-03-04 | 2016-10-04 | Amazon Technologies, Inc. | Identification using audio signatures and additional characteristics |
US9483628B2 (en) * | 2013-08-29 | 2016-11-01 | Paypal, Inc. | Methods and systems for altering settings or performing an action by a user device based on detecting or authenticating a user of the user device |
KR20170056364A (ko) * | 2015-11-13 | 2017-05-23 | 현대자동차주식회사 | Avn 시스템 및 avn 시스템의 컨텐츠 제공 방법 |
US9965247B2 (en) * | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
-
2016
- 2016-12-14 US US15/378,920 patent/US11238854B2/en active Active
-
2017
- 2017-09-27 GB GB1715653.0A patent/GB2559643B/en active Active
- 2017-09-27 DE DE102017122513.7A patent/DE102017122513B4/de active Active
- 2017-09-27 DE DE202017105901.4U patent/DE202017105901U1/de active Active
- 2017-09-29 EP EP17781366.4A patent/EP3504704B1/en active Active
- 2017-09-29 WO PCT/US2017/054452 patent/WO2018111384A1/en unknown
- 2017-09-29 KR KR1020197017813A patent/KR102097097B1/ko active IP Right Grant
- 2017-09-29 JP JP2019531697A patent/JP6704525B2/ja active Active
- 2017-09-30 CN CN201710918670.5A patent/CN108228132B/zh active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11880645B2 (en) | 2022-06-15 | 2024-01-23 | T-Mobile Usa, Inc. | Generating encoded text based on spoken utterances using machine learning systems and methods |
Also Published As
Publication number | Publication date |
---|---|
JP2020502571A (ja) | 2020-01-23 |
GB2559643A (en) | 2018-08-15 |
EP3504704A1 (en) | 2019-07-03 |
GB201715653D0 (en) | 2017-11-08 |
CN108228132A (zh) | 2018-06-29 |
DE102017122513A1 (de) | 2018-06-14 |
KR20190076061A (ko) | 2019-07-01 |
EP3504704B1 (en) | 2020-02-19 |
GB2559643B (en) | 2020-02-19 |
US11238854B2 (en) | 2022-02-01 |
US20180166074A1 (en) | 2018-06-14 |
WO2018111384A1 (en) | 2018-06-21 |
KR102097097B1 (ko) | 2020-04-03 |
DE102017122513B4 (de) | 2024-03-07 |
DE202017105901U1 (de) | 2018-01-09 |
CN108228132B (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6704525B2 (ja) | ユーザによって録音された音声の生成および再生を容易にすること | |
JP7486540B2 (ja) | 複数の年齢グループおよび/または語彙レベルに対処する自動化されたアシスタント | |
US11810554B2 (en) | Audio message extraction | |
JP7443407B2 (ja) | 会議能力を有する自動アシスタント | |
US20230206940A1 (en) | Method of and system for real time feedback in an incremental speech input interface | |
EP3642833B1 (en) | Dynamic and/or context-specific hot words to invoke automated assistant | |
CN114041283B (zh) | 利用事件前和事件后输入流来接洽自动化助理 | |
KR101772032B1 (ko) | 음성 작동형 문서 탐색 및 브라우징을 위한 디바이스, 방법 및 사용자 인터페이스 | |
CN110730953B (zh) | 基于创建者提供的内容定制交互式对话应用的方法、*** | |
CN113761268A (zh) | 音频节目内容的播放控制方法、装置、设备和存储介质 | |
JP7481488B2 (ja) | オーディオプレゼンテーション対話を用いた自動アシスタント | |
KR101914582B1 (ko) | 보안성을 강화한 의미-무관 사용자 성문 인증을 제공하는 방법, 대화형 ai 에이전트 시스템 및 컴퓨터 판독가능 기록 매체 | |
KR20190056967A (ko) | 보안성을 강화한 의미-무관 사용자 성문 인증을 제공하는 방법, 대화형 ai 에이전트 시스템 및 컴퓨터 판독가능 기록 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190802 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190802 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20190802 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191024 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191118 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20200214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6704525 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |