JP6654691B2 - 情報処理装置 - Google Patents
情報処理装置 Download PDFInfo
- Publication number
- JP6654691B2 JP6654691B2 JP2018510188A JP2018510188A JP6654691B2 JP 6654691 B2 JP6654691 B2 JP 6654691B2 JP 2018510188 A JP2018510188 A JP 2018510188A JP 2018510188 A JP2018510188 A JP 2018510188A JP 6654691 B2 JP6654691 B2 JP 6654691B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- utterance
- information processing
- option
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 67
- 238000012545 processing Methods 0.000 claims description 68
- 230000008451 emotion Effects 0.000 claims description 34
- 238000011156 evaluation Methods 0.000 claims description 21
- 230000005236 sound signal Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000003672 processing method Methods 0.000 claims description 4
- 239000003795 chemical substances by application Substances 0.000 description 79
- 238000000034 method Methods 0.000 description 31
- 230000008569 process Effects 0.000 description 25
- 230000014509 gene expression Effects 0.000 description 14
- 238000004891 communication Methods 0.000 description 7
- 240000000220 Panda oleosa Species 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 241000408728 Hidari Species 0.000 description 1
- 235000006040 Prunus persica var persica Nutrition 0.000 description 1
- 240000006413 Prunus persica var. persica Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 150000003722 vitamin derivatives Chemical class 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Description
Claims (16)
- 複数の選択肢をユーザーに提示する選択肢提示部と、
前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部と、
前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部と、
前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行う出力部と、
を含み、
前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置において、
前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢の語句に関連する語句、及び当該選択肢の語句を他の言語に翻訳した語句のいずれか少なくとも一つを含む
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置において、
前記選択肢提示部は、前記複数の選択肢のそれぞれに対して、当該選択肢を識別するラベルを付加して前記ユーザーに提示し、
前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢に付加されたラベルを示す語句を含む
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置において、
前記複数の選択肢のそれぞれに対応する辞書は、当該選択肢の表示態様を示す語句を含む
ことを特徴とする情報処理装置。 - 請求項4に記載の情報処理装置において、
前記選択肢の表示態様を示す語句は、前記選択肢の表示位置、表示順序、及び、表示色のいずれか少なくとも一つを含む
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置において、
前記選択結果特定部は、前記発話内容に含まれる語句が、前記辞書に含まれる語句の一部と一致する場合に、両者が対応すると判定する
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置において、
前記選択結果特定部は、前記発話内容に含まれる語句と前記辞書に含まれる語句との間のずれが予め定められたパターンに該当する場合に、両者が対応すると判定する
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置において、
前記出力部は、前記経過時間を用いて前記ユーザーの感情を評価する際に、前記選択結果特定部が特定する選択肢が前記ユーザーに提示された際の提示順序に応じて、評価基準を変化させる
ことを特徴とする情報処理装置。 - 請求項1に記載の情報処理装置において、
ユーザーに提示すべき発言を音声で再生する再生部をさらに含み、
前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止する
ことを特徴とする情報処理装置。 - 請求項9に記載の情報処理装置において、
前記音声認識部は、前記発言の長さに応じて、前記発言の再生中に前記ユーザーの発話を検出するか否かを決定する
ことを特徴とする情報処理装置。 - 請求項9に記載の情報処理装置において、
前記音声認識部は、前記発言の再生開始からの経過時間に応じて、前記ユーザーの発話の検出基準を変化させる
ことを特徴とする情報処理装置。 - ユーザーに提示すべき発言を音声で再生する再生部と、
前記ユーザーの発話内容を認識する音声認識部と、
を含み、
前記再生部は、前記発言の再生中に前記音声認識部が前記ユーザーの発話を検出した場合に、前記発言の再生を中止し、
前記音声認識部は、前記発言の再生開始からの経過時間に応じて、前記ユーザーの発話の検出基準を変化させる
ことを特徴とする情報処理装置。 - 請求項12に記載の情報処理装置において、
前記音声認識部は、前記発言の長さに応じて、前記発言の再生中に前記ユーザーの発話を検出するか否かを決定する
ことを特徴とする情報処理装置。 - 複数の選択肢をユーザーに提示するステップと、
前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識するステップと、
前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定するステップと、
前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行うステップと、
を含み、
前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
ことを特徴とする情報処理方法。 - 複数の選択肢をユーザーに提示する選択肢提示部、
前記複数の選択肢のいずれかを選択する前記ユーザーの発話内容を認識する音声認識部、
前記認識されるユーザーの発話内容に含まれる語句が、予め用意された前記複数の選択肢のそれぞれに対応する辞書に含まれる語句と対応するか否かに基づいて、前記ユーザーが選択した選択肢を特定する選択結果特定部、及び、
前記ユーザーの発話を含む音声信号の特徴量を算出することによって、前記ユーザーの感情を評価し、当該感情の評価結果と、前記ユーザーが選択した選択肢と、に応じた出力を行う出力部、
としてコンピュータを機能させるためのプログラムであって、
前記特徴量は、前記複数の選択肢が前記ユーザーに提示されてから、前記ユーザーが前記複数の選択肢のいずれかを選択する発話を行うまでの経過時間を含む
プログラム。 - 請求項15に記載のプログラムを記憶した、コンピュータ読み取り可能な情報記憶媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2016/061385 WO2017175351A1 (ja) | 2016-04-07 | 2016-04-07 | 情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017175351A1 JPWO2017175351A1 (ja) | 2018-08-02 |
JP6654691B2 true JP6654691B2 (ja) | 2020-02-26 |
Family
ID=60000927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018510188A Active JP6654691B2 (ja) | 2016-04-07 | 2016-04-07 | 情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10839800B2 (ja) |
JP (1) | JP6654691B2 (ja) |
WO (1) | WO2017175351A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2997760A1 (en) * | 2017-03-07 | 2018-09-07 | Salesboost, Llc | Voice analysis training system |
JP2022051970A (ja) | 2019-02-01 | 2022-04-04 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP7388006B2 (ja) * | 2019-06-03 | 2023-11-29 | コニカミノルタ株式会社 | 画像処理装置及びプログラム |
CN110570866A (zh) * | 2019-09-11 | 2019-12-13 | 百度在线网络技术(北京)有限公司 | 语音技能创建方法、装置、电子设备和介质 |
JP7274210B2 (ja) * | 2019-09-24 | 2023-05-16 | 学校法人早稲田大学 | 対話システムおよびプログラム |
KR20210059367A (ko) | 2019-11-15 | 2021-05-25 | 삼성전자주식회사 | 음성 입력 처리 방법 및 이를 지원하는 전자 장치 |
WO2021230100A1 (ja) * | 2020-05-13 | 2021-11-18 | ソニーグループ株式会社 | 情報処理装置および方法、並びにプログラム |
WO2023068067A1 (ja) | 2021-10-18 | 2023-04-27 | ソニーグループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08146991A (ja) * | 1994-11-17 | 1996-06-07 | Canon Inc | 情報処理装置及びその制御方法 |
US6067521A (en) * | 1995-10-16 | 2000-05-23 | Sony Corporation | Interrupt correction of speech recognition for a navigation device |
JP2006343661A (ja) | 2005-06-10 | 2006-12-21 | Sanyo Electric Co Ltd | 音声認識装置および音声認識プログラム |
JP4736632B2 (ja) | 2005-08-31 | 2011-07-27 | 株式会社国際電気通信基礎技術研究所 | ボーカル・フライ検出装置及びコンピュータプログラム |
JP2009271258A (ja) | 2008-05-02 | 2009-11-19 | Toshiba Corp | 情報選択装置 |
JP2010054549A (ja) | 2008-08-26 | 2010-03-11 | Gifu Univ | 回答音声認識システム |
JP2011171948A (ja) | 2010-02-17 | 2011-09-01 | Advance:Kk | デジタルテレビの双方向システム |
EP2498250B1 (en) * | 2011-03-07 | 2021-05-05 | Accenture Global Services Limited | Client and server system for natural language-based control of a digital network of devices |
JP2013114020A (ja) | 2011-11-29 | 2013-06-10 | Seiko Epson Corp | 音声処理装置及び音声処理装置の制御方法 |
US20140046891A1 (en) * | 2012-01-25 | 2014-02-13 | Sarah Banas | Sapient or Sentient Artificial Intelligence |
US9978362B2 (en) * | 2014-09-02 | 2018-05-22 | Microsoft Technology Licensing, Llc | Facet recommendations from sentiment-bearing content |
-
2016
- 2016-04-07 WO PCT/JP2016/061385 patent/WO2017175351A1/ja active Application Filing
- 2016-04-07 US US16/087,924 patent/US10839800B2/en active Active
- 2016-04-07 JP JP2018510188A patent/JP6654691B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2017175351A1 (ja) | 2017-10-12 |
JPWO2017175351A1 (ja) | 2018-08-02 |
US10839800B2 (en) | 2020-11-17 |
US20190096401A1 (en) | 2019-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6654691B2 (ja) | 情報処理装置 | |
CN106373569B (zh) | 语音交互装置和方法 | |
JP4085130B2 (ja) | 感情認識装置 | |
JP6154155B2 (ja) | プロミネンスを使用した音声対話システム | |
JP6172417B1 (ja) | 語学学習システム及び語学学習プログラム | |
JP6585733B2 (ja) | 情報処理装置 | |
CN107403011B (zh) | 虚拟现实环境语言学习实现方法和自动录音控制方法 | |
JPWO2017187712A1 (ja) | 情報処理装置 | |
CN109817244B (zh) | 口语评测方法、装置、设备和存储介质 | |
JP4729902B2 (ja) | 音声対話システム | |
JP5105943B2 (ja) | 発話評価装置及び発話評価プログラム | |
KR102062524B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
CN115088033A (zh) | 代表对话中的人参与者生成的合成语音音频数据 | |
CN113112575B (zh) | 一种口型生成方法、装置、计算机设备及存储介质 | |
JP2010197644A (ja) | 音声認識システム | |
US11176943B2 (en) | Voice recognition device, voice recognition method, and computer program product | |
Kabashima et al. | Dnn-based scoring of language learners’ proficiency using learners’ shadowings and native listeners’ responsive shadowings | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
Pandey et al. | Effects of speaking rate on speech and silent speech recognition | |
Furui | Toward the ultimate synthesis/recognition system | |
Black et al. | An empirical analysis of user uncertainty in problem-solving child-machine interactions | |
KR20130137367A (ko) | 이미지 기반 도서 관련 서비스 제공 시스템 및 방법 | |
KR20230105046A (ko) | 음성 인터페이스 stt 기반 자막 생성 장치, 및 음성 인터페이스 stt 기반 자막 생성 방법 | |
KR20230025742A (ko) | 외국어 음성의 청취 난이도 평가 방법, 장치 및 프로그램 | |
WO2024079605A1 (en) | Assisting a speaker during training or actual performance of a speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190611 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6654691 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |