JP6436494B2 - 自動音声認識のための方法およびシステム - Google Patents
自動音声認識のための方法およびシステム Download PDFInfo
- Publication number
- JP6436494B2 JP6436494B2 JP2016232328A JP2016232328A JP6436494B2 JP 6436494 B2 JP6436494 B2 JP 6436494B2 JP 2016232328 A JP2016232328 A JP 2016232328A JP 2016232328 A JP2016232328 A JP 2016232328A JP 6436494 B2 JP6436494 B2 JP 6436494B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- language model
- decoding
- speech
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 74
- 239000011159 matrix material Substances 0.000 claims description 49
- 230000009467 reduction Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 20
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 230000004044 response Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011946 reduction process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000334160 Isatis Species 0.000 description 1
- 239000012814 acoustic material Substances 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
p(s)=p(w1w2w3...wn)=p(w1)p(w2|w1)p(w3|w1w2)...p(wk|w1w2...wk-1)
いくつかの実施形態によれば、重み付け補間処理は、分類された各言語モデルに対して、それぞれの音声コーパスカテゴリの不明瞭さの度合いに基づいて実施される。音声コーパスカテゴリの不明瞭さの度合いは、重み付け値と正の相関関係にある。
502 分類言語モデル学習モジュール
503 重み付けマージモジュール
504 リソース構築モジュール
505 デコーダ
601 プライマリ言語モデル学習モジュール
602 分類処理モジュール
603 分類言語モデル学習モジュール
604 プライマリリソース構築モジュール
605 分類リソース構築モジュール
606 第1デコーダ
607 第2デコーダ
701 アフィニティ行列モジュール
702 特性抽出モジュール
703 次元縮小モジュール
704 分類器
1000 コンピュータ
1002 CPU
1003 ディスプレイ
1004 ネットワークインターフェース
1005 入力デバイス
1006 メモリ
1010 オペレーティングシステム
1012 ネットワーク通信モジュール
1014 ユーザインターフェースモジュール
1016 分類処理モジュール
1018 アフィリエーション行列モジュール
1020 特性抽出モジュール
1022 次元縮小モジュール
1024 分類器
1050 分類言語モデル学習モジュール
1052 重み付けマージモジュール
1054 リソース構築モジュール
1056 デコーダ
1200 コンピュータ
1202 CPU
1203 ディスプレイ
1204 ネットワークインターフェース
1205 入力デバイス
1206 メモリ
1210 オペレーティングシステム
1212 ネットワーク通信モジュール
1214 ユーザインターフェースモジュール
1216 プライマリ言語モデル学習モジュール
1218 分類処理モジュール
1220 アフィリエーション行列モジュール
1222 特性抽出モジュール
1224 次元縮小モジュール
1226 分類器
1250 分類言語モデル学習モジュール
1252 プライマリリソース構築モジュール
1254 分類リソース構築モジュール
1256 プライマリデコーダ
1258 分類デコーダ
Claims (8)
- 自動音声認識方法であって、
1つまたは複数のプロセッサと、前記プロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリとを備えたコンピュータにおいて、
生の音声コーパスに適用された言語モデル学習によって、プライマリ言語モデルを取得するステップと、
前記生の音声コーパスの単語特性を計算し、前記単語特性に基づき分類することによって、複数の音声コーパスカテゴリを取得するステップと、
各音声コーパスカテゴリに適用された言語モデル学習によって、前記複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するステップと、
音響モデルおよび前記プライマリ言語モデルに従って、プライマリデコードリソースを構築するステップと、
前記複数の分類された言語モデルにそれぞれ従って、複数の分類されたデコードリソースを構築するステップと、
前記プライマリデコードリソースを用いて入力音声をデコードし、最も高い方からn個の確率値を有するn個の文字列を出力するステップと、
前記複数の分類されたデコードリソースの各々を用いて前記n個の文字列をデコードし、最も高い合成確率を有する文字列を、前記入力音声の認識結果として出力するステップと
を有し、
前記生の音声コーパスの単語特性を計算し、前記単語特性に基づき分類することによって、複数の音声コーパスカテゴリを取得する前記ステップが、
前記生の音声コーパスに基づいて、単語間のアフィリエーション行列を計算するステップと、
単語頻度−逆文書頻度(TF−IDF)方法を用いて、前記生の音声コーパスから単語特性を抽出するステップと、
前記アフィリエーション行列に基づいて、抽出された前記単語特性に次元縮小方法を実施するステップと、
学習のために、次元縮小後に前記単語特性を分類器に入力し、前記複数の音声コーパスカテゴリを出力するステップと
を含み、
前記生の音声コーパスに基づいて、単語間のアフィリエーション行列を計算する前記ステップが、
式
前記同時発生行列に基づいて、式
前記アフィリエーション率に基づいて前記アフィリエーション行列を構築するステップとをさらに含む、方法。 - 前記次元縮小方法が、主成分分析(PCA)次元縮小方法である、請求項1に記載の方法。
- 前記分類器が、サポートベクトルマシン(SVM)分類器である、請求項1に記載の方法。
- 前記複数の分類されたデコードリソースの各々を用いて前記n個の文字列をデコードし、最も高い合成確率を有する文字列を、前記入力音声の認識結果として出力する前記ステップが、
前記プライマリデコードリソースを用いてデコードされた各文字列の確率値l(w)を取得するステップと、
分類された各デコードリソースを用いてデコードされた各文字列の確率値n(w)を取得するステップと、
前記確率値n(w)に前記確率値l(w)を乗じて、各文字列の合成確率値p(w)を取得するステップと
を含む、請求項1に記載の方法。 - 自動音声認識システムであって、
1つまたは複数のプロセッサと、
前記プロセッサによって実行されるべき1つまたは複数のプログラムを格納するためのメモリと、
生の音声コーパスに適用された言語モデル学習によって、プライマリ言語モデルを取得するように構成されたプライマリ言語モデル学習モジュールと、
前記生の音声コーパスの単語特性を計算し、前記単語特性に基づき分類することによって、複数の音声コーパスカテゴリを取得するように構成された分類処理モジュールと、
各音声コーパスカテゴリに適用された言語モデル学習によって、前記複数の音声コーパスカテゴリにそれぞれ対応する、複数の分類された言語モデルを取得するように構成された分類言語モデル学習モジュールと、
音響モデルおよび前記プライマリ言語モデルに従って、プライマリデコードリソースを構築するように構成されたプライマリリソース構築モジュールと、
前記複数の分類された言語モデルにそれぞれ従って、複数の分類されたデコードリソースを構築するように構成された分類リソース構築モジュールと、
前記プライマリデコードリソースを用いて入力音声をデコードし、最も高い方からn個の確率値を有するn個の文字列を出力するように構成されたプライマリデコーダと、
前記複数の分類されたデコードリソースの各々を用いて前記n個の文字列をデコードし、最も高い合成確率を有する文字列を、前記入力音声の認識結果として出力するように構成された分類デコーダと
を備え、
前記分類処理モジュールが、
前記生の音声コーパスに基づいて、単語間のアフィリエーション行列を計算するように構成されたアフィリエーション行列モジュールと、
単語頻度−逆文書頻度(TF−IDF)方法を用いて、前記生の音声コーパスから単語特性を抽出するように構成された特性抽出モジュールと、
前記アフィリエーション行列に基づいて、抽出された前記単語特性に次元縮小方法を実施するように構成された次元縮小モジュールと、
次元縮小後に前記単語特性を学習し、前記複数の音声コーパスカテゴリを出力するように構成された分類器とを備え、
前記生の音声コーパスに基づいて、単語間のアフィリエーション行列を計算することが、
式
前記同時発生行列に基づいて、式
前記アフィリエーション率に基づいて前記アフィリエーション行列を構築することをさらに備えるシステム。 - 前記次元縮小モジュールが、主成分分析(PCA)次元縮小モジュールである、請求項5に記載のシステム。
- 前記分類器が、サポートベクトルマシン(SVM)分類器である、請求項5に記載のシステム。
- 前記複数の分類されたデコードリソースの各々を用いて前記n個の文字列をデコードし、最も高い合成確率を有する文字列を、前記入力音声の認識結果として出力することが、
前記プライマリデコードリソースを用いてデコードされた各文字列の確率値l(w)を取得することと、
分類された各デコードリソースを用いてデコードされた各文字列の確率値n(w)を取得することと、
前記確率値n(w)に前記確率値l(w)を乗じて、各文字列の合成確率値p(w)を取得することと
を含む、請求項5に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310033201.7A CN103971675B (zh) | 2013-01-29 | 2013-01-29 | 自动语音识别方法和*** |
CN201310033201.7 | 2013-01-29 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015554021A Division JP2016512609A (ja) | 2013-01-29 | 2013-11-07 | 自動音声認識のための方法およびシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017049612A JP2017049612A (ja) | 2017-03-09 |
JP6436494B2 true JP6436494B2 (ja) | 2018-12-12 |
Family
ID=51241094
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015554021A Pending JP2016512609A (ja) | 2013-01-29 | 2013-11-07 | 自動音声認識のための方法およびシステム |
JP2016232328A Active JP6436494B2 (ja) | 2013-01-29 | 2016-11-30 | 自動音声認識のための方法およびシステム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015554021A Pending JP2016512609A (ja) | 2013-01-29 | 2013-11-07 | 自動音声認識のための方法およびシステム |
Country Status (6)
Country | Link |
---|---|
JP (2) | JP2016512609A (ja) |
CN (1) | CN103971675B (ja) |
CA (1) | CA2899537C (ja) |
SG (1) | SG11201505402RA (ja) |
TW (1) | TWI536364B (ja) |
WO (1) | WO2014117555A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9697821B2 (en) | 2013-01-29 | 2017-07-04 | Tencent Technology (Shenzhen) Company Limited | Method and system for building a topic specific language model for use in automatic speech recognition |
US9990917B2 (en) | 2015-04-13 | 2018-06-05 | Intel Corporation | Method and system of random access compression of transducer data for automatic speech recognition decoding |
CN105654945B (zh) * | 2015-10-29 | 2020-03-06 | 乐融致新电子科技(天津)有限公司 | 一种语言模型的训练方法及装置、设备 |
CN105304084B (zh) * | 2015-11-13 | 2020-04-24 | 深圳狗尾草智能科技有限公司 | 一种实现机器人记忆主人强相关信息的方法 |
CN107195299A (zh) * | 2016-03-14 | 2017-09-22 | 株式会社东芝 | 训练神经网络声学模型的方法和装置及语音识别方法和装置 |
CN106128454A (zh) * | 2016-07-08 | 2016-11-16 | 成都之达科技有限公司 | 基于车联网的语音信号匹配方法 |
CN106202045B (zh) * | 2016-07-08 | 2019-04-02 | 成都之达科技有限公司 | 基于车联网的专项语音识别方法 |
CN108288467B (zh) * | 2017-06-07 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置及语音识别引擎 |
CN110019832B (zh) * | 2017-09-29 | 2023-02-24 | 阿里巴巴集团控股有限公司 | 语言模型的获取方法和装置 |
CN110111780B (zh) * | 2018-01-31 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 数据处理方法和服务器 |
JP2019208138A (ja) * | 2018-05-29 | 2019-12-05 | 住友電気工業株式会社 | 発話認識装置、及びコンピュータプログラム |
TWI714078B (zh) * | 2019-05-07 | 2020-12-21 | 國立高雄大學 | 基於深度學習之大數據分析平台排程系統及方法 |
CN110310086B (zh) * | 2019-06-06 | 2022-04-05 | 安徽淘云科技有限公司 | 辅助背诵提醒方法、设备和存储介质 |
CN110634469B (zh) * | 2019-09-27 | 2022-03-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音信号处理方法、装置及存储介质 |
CN110610700B (zh) * | 2019-10-16 | 2022-01-14 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN111540343B (zh) * | 2020-03-17 | 2021-02-05 | 北京捷通华声科技股份有限公司 | 一种语料识别方法和装置 |
CN112562640B (zh) * | 2020-12-01 | 2024-04-12 | 北京声智科技有限公司 | 多语言语音识别方法、装置、***及计算机可读存储介质 |
TWI833072B (zh) | 2021-03-30 | 2024-02-21 | 緯創資通股份有限公司 | 語音辨識系統及語音辨識方法 |
CN113178190A (zh) * | 2021-05-14 | 2021-07-27 | 山东浪潮科学研究院有限公司 | 一种基于元学习提高生僻字识别的端到端自动语音识别算法 |
KR102620070B1 (ko) * | 2022-10-13 | 2024-01-02 | 주식회사 타이렐 | 상황 인지에 따른 자율발화 시스템 |
KR102626954B1 (ko) * | 2023-04-20 | 2024-01-18 | 주식회사 덴컴 | 치과용 음성 인식 장치 및 이를 이용한 방법 |
KR102632872B1 (ko) * | 2023-05-22 | 2024-02-05 | 주식회사 포지큐브 | 음성인식 오류 교정 방법 및 그 시스템 |
KR102648689B1 (ko) * | 2023-05-26 | 2024-03-18 | 주식회사 액션파워 | 텍스트 오류를 검출하는 방법 |
KR102616598B1 (ko) * | 2023-05-30 | 2023-12-22 | 주식회사 엘솔루 | 번역 자막을 이용한 원문 자막 병렬 데이터 생성 방법 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2938866B1 (ja) * | 1998-08-28 | 1999-08-25 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 統計的言語モデル生成装置及び音声認識装置 |
JP3660512B2 (ja) * | 1998-12-07 | 2005-06-15 | 日本電信電話株式会社 | 音声認識方法、その装置及びプログラム記録媒体 |
JP3547350B2 (ja) * | 1999-09-28 | 2004-07-28 | Kddi株式会社 | 連続音声認識装置 |
JP4067776B2 (ja) * | 2001-03-13 | 2008-03-26 | 三菱電機株式会社 | 言語モデル構成装置及び音声認識装置 |
JP4034602B2 (ja) * | 2002-06-17 | 2008-01-16 | 富士通株式会社 | データ分類装置、データ分類装置の能動学習方法及び能動学習プログラム |
EP1450350A1 (en) * | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
US7729911B2 (en) * | 2005-09-27 | 2010-06-01 | General Motors Llc | Speech recognition method and system |
CN101329868B (zh) * | 2008-07-31 | 2011-06-01 | 林超 | 一种针对地区语言使用偏好的语音识别优化***及其方法 |
GB0905457D0 (en) * | 2009-03-30 | 2009-05-13 | Touchtype Ltd | System and method for inputting text into electronic devices |
KR101478146B1 (ko) * | 2011-12-15 | 2015-01-02 | 한국전자통신연구원 | 화자 그룹 기반 음성인식 장치 및 방법 |
CN102800314B (zh) * | 2012-07-17 | 2014-03-19 | 广东外语外贸大学 | 具有反馈指导的英语句子识别与评价***及其方法 |
-
2013
- 2013-01-29 CN CN201310033201.7A patent/CN103971675B/zh active Active
- 2013-09-11 TW TW102132754A patent/TWI536364B/zh active
- 2013-11-07 WO PCT/CN2013/086707 patent/WO2014117555A1/en active Application Filing
- 2013-11-07 JP JP2015554021A patent/JP2016512609A/ja active Pending
- 2013-11-07 SG SG11201505402RA patent/SG11201505402RA/en unknown
- 2013-11-07 CA CA2899537A patent/CA2899537C/en active Active
-
2016
- 2016-11-30 JP JP2016232328A patent/JP6436494B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CA2899537A1 (en) | 2014-08-07 |
TWI536364B (zh) | 2016-06-01 |
SG11201505402RA (en) | 2015-08-28 |
CN103971675A (zh) | 2014-08-06 |
JP2016512609A (ja) | 2016-04-28 |
TW201430832A (zh) | 2014-08-01 |
JP2017049612A (ja) | 2017-03-09 |
WO2014117555A1 (en) | 2014-08-07 |
CA2899537C (en) | 2018-08-07 |
CN103971675B (zh) | 2016-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6436494B2 (ja) | 自動音声認識のための方法およびシステム | |
US9697821B2 (en) | Method and system for building a topic specific language model for use in automatic speech recognition | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
WO2018157789A1 (zh) | 一种语音识别的方法、计算机、存储介质以及电子装置 | |
JP5901001B1 (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
US20170270912A1 (en) | Language modeling based on spoken and unspeakable corpuses | |
JP5990178B2 (ja) | キーワード抽出に関するシステム及び方法 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
WO2018223796A1 (zh) | 语音识别方法、存储介质及语音识别设备 | |
US10242670B2 (en) | Syntactic re-ranking of potential transcriptions during automatic speech recognition | |
JP2023535709A (ja) | 言語表現モデルシステム、事前訓練方法、装置、機器及び媒体 | |
US11120799B1 (en) | Natural language processing policies | |
US10592542B2 (en) | Document ranking by contextual vectors from natural language query | |
Pimentel et al. | Phonotactic complexity and its trade-offs | |
WO2017198031A1 (zh) | 解析语义的方法和装置 | |
CN113656660B (zh) | 跨模态数据的匹配方法、装置、设备及介质 | |
JP2018194902A (ja) | 生成装置、生成方法および生成プログラム | |
CN112836016B (zh) | 会议纪要生成方法、装置、设备和存储介质 | |
Chien | Association pattern language modeling | |
KR102540665B1 (ko) | 한국어 언어 모델에 기반한 핵심문장 추출장치 및 그 방법 | |
CN114970516A (zh) | 数据增强方法及装置、存储介质、电子设备 | |
CN111814025A (zh) | 一种观点提取方法及装置 | |
CN112632234A (zh) | 人机交互方法、装置、智能机器人和存储介质 | |
Bost et al. | Multiple topic identification in human/human conversations | |
CN117892735B (zh) | 一种基于深度学习的自然语言处理方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180703 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6436494 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |