JP2020042131A - 情報処理装置、情報処理方法、およびプログラム - Google Patents
情報処理装置、情報処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2020042131A JP2020042131A JP2018168724A JP2018168724A JP2020042131A JP 2020042131 A JP2020042131 A JP 2020042131A JP 2018168724 A JP2018168724 A JP 2018168724A JP 2018168724 A JP2018168724 A JP 2018168724A JP 2020042131 A JP2020042131 A JP 2020042131A
- Authority
- JP
- Japan
- Prior art keywords
- text
- unit
- vector
- input
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 58
- 238000003672 processing method Methods 0.000 title claims abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 113
- 238000004458 analytical method Methods 0.000 claims abstract description 82
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 abstract description 20
- 238000010586 diagram Methods 0.000 description 22
- 238000012821 model calculation Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 16
- 238000011156 evaluation Methods 0.000 description 13
- 230000000877 morphologic effect Effects 0.000 description 7
- 238000009795 derivation Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
情報処理装置は、一以上のプロセッサにより実現される。情報処理装置は、利用者の発した音声を収録した音声データを受信し、受信した入力データの音声認識処理を行い、認識の結果に基づいて種々の処理を行う装置である。種々の処理としては、音声を発した利用者の意図に沿ったIoT(Internet of Things)機器の制御を行うこと、利用者の質問に対して応答することなどがある。以下、利用者の意図する情報処理装置の動作をタスクと称する場合がある。なお音声データは、圧縮や暗号化などの処理が施されたものであってもよい。
図3は、情報処理装置100の構成図である。情報処理装置100は、例えば、取得部102と、解析部104と、W2V(Word2Vec)実行部106と、テキストベクトル生成部108と、選別部110と、言語モデル演算部112と、選択部114と、出力情報生成部116と、出力部118と、記憶部120とを備える。これらの構成要素は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。また、これらの構成要素のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予め情報処理装置100のHDDやフラッシュメモリなどの記憶装置(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD−ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることで情報処理装置100のHDDやフラッシュメモリにインストールされてもよい。
以下、タスクテキストについて説明する。情報処理装置100の管理者は、例えば、端末装置20の過去の音声入力履歴や、情報処理装置100の処理履歴に基づいて、選択部114が評価基準とするタスクテキストを抽出する。
以下、情報処理装置100による言語モデル120bの生成処理について説明する。情報処理装置100は、例えば、コーパスの種別毎に言語モデル120bを生成する。また、情報処理装置100の管理者により、定期的に言語モデル演算用テキスト120hの変更・更新が行われてもよく、例えば、そのタイミングで言語モデルの再生成が行われる。
以下、信頼度導出部110aの信頼度導出処理についてより具体的に説明する。信頼度とは、音声認識結果の信頼性を評価する度合を0から1.0の間の数値で示すものである。信頼度導出部110aは、例えば、テキストの信頼性が高い場合、すなわち、他の競合候補となるテキストが存在しない場合に信頼度を1.0に設定する。信頼度は、例えば、大語彙連続音声認識エンジンの検索結果として得られる単語の事後確率を用いて導出される。
図10は、タスクテキストベクトルリスト120gを模式的に示す図である。タスクテキストベクトルリスト120gは、例えば、10個程度のクラスタ構造をとる。類似するタスクテキストをクラスタとして取りまとめる。クラスタは、例えば、k平均法(k-means clustering)等により構成される。
以下、テキストの類似評価方法について説明する。図12は、類似評価方法について説明するための図である。
図14は、情報処理装置100による音声認識処理の流れの一例を示すフローチャートである。
Claims (9)
- 音声データを取得する取得部と、
前記音声データを解析してテキストに変換した、1以上の解析結果を出力する解析部と、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換するベクトル変換部と、
前記ベクトル変換部により変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記1以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択する選択部と、
を備える情報処理装置。 - 前記解析結果の信頼度を導出する、信頼度導出部をさらに備え、
前記選択部は、前記信頼度に基づいて選択する前記解析結果を変更する、
請求項1に記載の情報処理装置。 - 前記選択部は、前記信頼度が閾値以上である前記解析結果を優先的に選択する、
請求項2に記載の情報処理装置。 - 前記ベクトル変換部は、意味の類似度が所定の度合以上の前記既知の入力テキストの一群であるクラスタの代表ベクトルを導出し、
前記選択部は、前記代表ベクトルを用いて前記解析結果の第1段階の選択を行い、その後、前記第1段階の選択により選択された前記クラスタから前記利用者の入力テキストの入力意図が反映された可能性の高い前記解析結果を選択する、
請求項1から3のいずれか1項に記載の情報処理装置。 - 前記選択部は、前記音声データに付与された位置情報に基づいて、前記音声データが利用者のタスクの実行意図を含むものであるか否かを判別する、
請求項1から4のいずれか1項に記載の情報処理装置。 - 前記選択部は、前記位置情報に基づいて推定される前記音声データの入力環境に応じて、前記対応するタスクの選択する確度を変更する、
請求項5に記載の情報処理装置。 - 前記選択部による選択結果に基づいて、前記入力意図に対応する出力情報を生成するタスクに関する命令を出力する出力情報生成部を更に備える、
請求項1から6のいずれか1項に記載の情報処理装置。 - コンピュータが、
音声データを取得し、
前記音声データを解析してテキストに変換した、1以上の解析結果を出力し、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換し、
変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記1以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択する、
情報処理方法。 - コンピュータに、
音声データを取得させ、
前記音声データを解析させてテキストに変換させた、1以上の解析結果を出力させ、
前記解析結果に係る前記テキストに含まれる複数の単語のそれぞれを示す分散表現によるベクトル値に変換させ、
変換されたベクトル値と、前記音声データに係る音声を発した利用者の入力テキストの入力意図が既知の入力テキストに対応し、予め求められている前記既知の入力テキストのベクトル値とに基づいて、前記1以上の解析結果から前記入力意図が反映された可能性の高い前記解析結果を選択させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018168724A JP7058574B2 (ja) | 2018-09-10 | 2018-09-10 | 情報処理装置、情報処理方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018168724A JP7058574B2 (ja) | 2018-09-10 | 2018-09-10 | 情報処理装置、情報処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020042131A true JP2020042131A (ja) | 2020-03-19 |
JP7058574B2 JP7058574B2 (ja) | 2022-04-22 |
Family
ID=69798120
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018168724A Active JP7058574B2 (ja) | 2018-09-10 | 2018-09-10 | 情報処理装置、情報処理方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7058574B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113093625A (zh) * | 2021-04-12 | 2021-07-09 | 广州宏途教育网络科技有限公司 | 一种用于智慧教室的学生行为分析*** |
WO2021186501A1 (ja) * | 2020-03-16 | 2021-09-23 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
CN113903340A (zh) * | 2020-06-18 | 2022-01-07 | 北京声智科技有限公司 | 样本筛选方法及电子设备 |
WO2022044957A1 (en) * | 2020-08-31 | 2022-03-03 | Recruit Co., Ltd. | Systems and methods for enhanced review comprehension using domain-specific knowledgebases |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049541A (ja) * | 1996-08-01 | 1998-02-20 | Takatsugu Kitagawa | 意味情報処理装置 |
JP2007122383A (ja) * | 2005-10-27 | 2007-05-17 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
JP2015001695A (ja) * | 2013-06-18 | 2015-01-05 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及びプログラム |
JP2018045657A (ja) * | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 学習装置、プログラムパラメータおよび学習方法 |
JP2018045001A (ja) * | 2016-09-12 | 2018-03-22 | 株式会社リコー | 音声認識システム、情報処理装置、プログラム、音声認識方法 |
-
2018
- 2018-09-10 JP JP2018168724A patent/JP7058574B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1049541A (ja) * | 1996-08-01 | 1998-02-20 | Takatsugu Kitagawa | 意味情報処理装置 |
JP2007122383A (ja) * | 2005-10-27 | 2007-05-17 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
JP2015001695A (ja) * | 2013-06-18 | 2015-01-05 | 日本電信電話株式会社 | 音声認識装置、音声認識方法及びプログラム |
JP2018045001A (ja) * | 2016-09-12 | 2018-03-22 | 株式会社リコー | 音声認識システム、情報処理装置、プログラム、音声認識方法 |
JP2018045657A (ja) * | 2016-09-16 | 2018-03-22 | ヤフー株式会社 | 学習装置、プログラムパラメータおよび学習方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021186501A1 (ja) * | 2020-03-16 | 2021-09-23 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
CN113903340A (zh) * | 2020-06-18 | 2022-01-07 | 北京声智科技有限公司 | 样本筛选方法及电子设备 |
WO2022044957A1 (en) * | 2020-08-31 | 2022-03-03 | Recruit Co., Ltd. | Systems and methods for enhanced review comprehension using domain-specific knowledgebases |
US11620448B2 (en) | 2020-08-31 | 2023-04-04 | Recruit Co., Ltd. | Systems and methods for enhanced review comprehension using domain-specific knowledgebases |
US11934783B2 (en) | 2020-08-31 | 2024-03-19 | Recruit Co., Ltd. | Systems and methods for enhanced review comprehension using domain-specific knowledgebases |
CN113093625A (zh) * | 2021-04-12 | 2021-07-09 | 广州宏途教育网络科技有限公司 | 一种用于智慧教室的学生行为分析*** |
Also Published As
Publication number | Publication date |
---|---|
JP7058574B2 (ja) | 2022-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10991366B2 (en) | Method of processing dialogue query priority based on dialog act information dependent on number of empty slots of the query | |
JP6317111B2 (ja) | ハイブリッド型クライアントサーバ音声認識 | |
US11282524B2 (en) | Text-to-speech modeling | |
JP7058574B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
US20200082808A1 (en) | Speech recognition error correction method and apparatus | |
CN111837116B (zh) | 自动构建或更新对话式ai***的对话流管理模型的方法 | |
US20190221208A1 (en) | Method, user interface, and device for audio-based emoji input | |
US11574637B1 (en) | Spoken language understanding models | |
JP6019604B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP2010537321A (ja) | 統計的分類のための最適な選択方略の方法及びシステム | |
JP6370962B1 (ja) | 生成装置、生成方法および生成プログラム | |
KR101891498B1 (ko) | 대화형 ai 에이전트 시스템에서 멀티 도메인 인텐트의 혼재성을 해소하는 멀티 도메인 서비스를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 | |
KR20200084260A (ko) | 전자 장치 및 이의 제어 방법 | |
US10600419B1 (en) | System command processing | |
US11043215B2 (en) | Method and system for generating textual representation of user spoken utterance | |
JP6408080B1 (ja) | 生成装置、生成方法及び生成プログラム | |
WO2022237376A1 (en) | Contextualized speech to text conversion | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN110164416B (zh) | 一种语音识别方法及其装置、设备和存储介质 | |
TW200415573A (en) | Adaptive context sensitive analysis | |
US11200885B1 (en) | Goal-oriented dialog system | |
KR20210020656A (ko) | 인공 지능을 이용한 음성 인식 방법 및 그 장치 | |
KR102120751B1 (ko) | 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체 | |
CN112395396A (zh) | 问答匹配和搜索方法、设备、***及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191108 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210831 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7058574 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |