JP2007264473A - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents
音声処理装置、音声処理方法および音声処理プログラム Download PDFInfo
- Publication number
- JP2007264473A JP2007264473A JP2006091995A JP2006091995A JP2007264473A JP 2007264473 A JP2007264473 A JP 2007264473A JP 2006091995 A JP2006091995 A JP 2006091995A JP 2006091995 A JP2006091995 A JP 2006091995A JP 2007264473 A JP2007264473 A JP 2007264473A
- Authority
- JP
- Japan
- Prior art keywords
- section
- processing
- utterance
- voice
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 424
- 238000000034 method Methods 0.000 claims description 141
- 230000008569 process Effects 0.000 claims description 95
- 238000001514 detection method Methods 0.000 claims description 60
- 238000013519 translation Methods 0.000 claims description 36
- 238000003825 pressing Methods 0.000 claims description 7
- 238000003384 imaging method Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000007257 malfunction Effects 0.000 abstract description 10
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005314 correlation function Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
【解決手段】操作者または操作者以外の者の発声を含む音声を入力するマイク104と、入力された音声のうち音声処理の対象とする区間として操作者により指定された指定区間の入力を受付ける指定区間受付部204と、入力された音声から発声が存在する区間である発声区間を検出する発声区間検出部202と、入力された音声に基づいて、操作者または操作者以外の者のいずれが発声の発話者であるかを判断する話者判断部203と、指定区間受付部204が受付けた指定区間と発声区間検出部202が検出した発声区間とが重複する部分を検出し、重複する部分が検出された場合であって、話者判断部203により話者は操作者以外の者であると判断された場合に、重複する部分が含まれる発声区間を処理区間として決定する処理内容判断部205と、を備えた。
【選択図】 図2
Description
第1の実施の形態にかかる音声処理装置は、操作者が指定した指定区間と、入力された音声から検出した発声区間と、複数のマイクから入力された音声の情報を参照して求めた話者とから、音声処理の対象とする音声の区間である処理区間を決定するものである。
第2の実施の形態にかかる音声処理装置は、プレストークボタンの代わりにカメラを備え、カメラで撮像した話者の顔の画像の変化により、音声処理の対象とする指定区間の指定を受付けるものである。
上述の実施の形態では、例えば、対話相手が「今日は天気もいいし(息継ぎ)すごしやすい天気だ」と発声し、息継ぎの部分でシステム操作者が「ええ」と相槌をうった場合、指定区間が継続して指定されていたとしても、発話区間が2つに分割されるという問題が生じうる。
第4の実施の形態にかかる音声処理装置は、検出された発声区間の信頼度を算出し、信頼度に応じて処理区間の始終端を調整するものである。
第5の実施の形態にかかる音声処理装置は、複数のマイクから構成されるマイクロホンアレーにより音声を入力し、音源方向を高精度に検出するとともに、音源方向の音声を強調して音声処理を高精度に実行するものである。
上述の各実施の形態では、対話相手の発声が検出され、かつシステム操作者から指定区間が指定され、両者の区間に重複部分が存在すれば発声区間が処理区間として決定される(ステップS804)。しかし、対話相手の発声中に一瞬でも指定区間が指定されれば処理区間として決定されるという問題が生じる可能性がある。
上述の各実施の形態では、指定区間の入力が開始された状態でシステム操作者の発声区間の始終端が検出された場合、指定区間の終端が検出されるまで候補が保留され、処理区間および処理内容が決定されない(ステップS805:NO)。
上述の各実施の形態では、プレストークボタン105を押下して指定区間を指定する場合、プレストークボタン105がON状態である音声の区間が指定区間であると判断していた。
上述の各実施の形態では、処理区間に対応する音声情報を取り出し、処理区間が複数に分かれている場合には時間順に連結して音声認識を行い、音声認識結果を翻訳していた。処理区間の音声を連結して音声認識を行った方が、音声認識の精度が上がることが期待されるためである。
52 ROM
53 RAM
54 通信I/F
61 バス
100 音声処理装置
101 システム操作者
102 対話相手
103 出力部
104a、104b マイク
105 プレストークボタン
201 入力受付部
202 発声区間検出部
203 話者判断部
204 指定区間受付部
205 処理内容判断部
206 音声処理部
501 初期状態
502、503 判断
1001 発声区間
1100 音声処理装置
1108 カメラ
1204 指定区間受付部
6100 音声処理装置
6109 マイクロホンアレー
6201 入力受付部
6203 話者判断部
Claims (18)
- 操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段と、
前記音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付手段と、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出手段と、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断手段と、
前記指定区間受付手段により受付けられた前記指定区間と前記発声区間検出手段により検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断手段により前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定手段と、
を備えたことを特徴とする音声処理装置。 - 前記決定手段は、前記重複する部分が検出された場合であって、前記話者判断手段により前記発話者は前記操作者であると判断された場合に、前記重複する部分を前記処理区間として決定することを特徴とする請求項1に記載の音声処理装置。
- 前記決定手段が決定した前記音声の前記処理区間に対して音声処理を実行する音声処理手段をさらに備え、
前記決定手段は、前記話者判断手段が判断した前記発話者に基づいて、前記音声に対する音声処理の処理内容をさらに決定し、
前記音声処理手段は、前記決定手段が決定した前記処理内容で、前記音声の前記処理区間に対して音声処理を実行することを特徴とする請求項1に記載の音声処理装置。 - 前記決定手段は、前記話者判断手段が判断した前記発話者が前記操作者かまたは前記操作者以外の者かに応じて、音声認識処理で用いる情報であって、音響モデル、語彙、文法のうち少なくとも1つを含む情報を変更し、変更した前記情報で音声認識処理を実行することを前記処理内容として決定することを特徴とする請求項3に記載の音声処理装置。
- 前記決定手段は、前記話者判断手段が判断した前記発話者が前記操作者かまたは前記操作者以外の者かに応じて、翻訳処理で用いる情報であって、翻訳の原言語、翻訳の目的言語、翻訳方法のうち少なくとも1つを含む情報を変更し、変更した前記情報で翻訳処理を実行することを前記処理内容として決定することを特徴とする請求項3に記載の音声処理装置。
- 前記音声処理手段は、前記発声区間検出手段により検出された前記発声区間に対して音声処理を行い、音声処理結果のうち、前記決定手段が決定した前記処理区間に対応する部分の音声処理結果を出力することを特徴とする請求項3に記載の音声処理装置。
- 前記音声処理手段は、前記指定区間受付手段により受付けられた前記指定区間の中に、前記発声区間検出手段によって前記発声区間が複数検出された場合であって、前記決定手段が複数の前記発声区間を前記処理区間として決定した場合に、複数の前記処理区間を連結して音声処理を実行することを特徴とする請求項3に記載の音声処理装置。
- 前記決定手段は、前記指定区間受付手段が受付けた前記指定区間が予め定められた時間より短い場合に、前記指定区間受付手段により前記指定区間が受付けられていないものとして前記処理区間を決定することを特徴とする請求項1に記載の音声処理装置。
- 前記決定手段は、前記発声区間検出手段が検出した前記発声区間に対する前記指定区間受付手段が受付けた前記指定区間の割合が予め定められた閾値より小さい場合に、前記指定区間受付手段により前記指定区間が受付けられていないものとして前記処理区間を決定することを特徴とする請求項1に記載の音声処理装置。
- 前記指定区間受付手段は、操作ボタンの押下操作中の期間を前記指定区間として受付けることを特徴とする請求項1に記載の音声処理装置。
- 前記指定区間受付手段は、操作ボタンの押下操作から、次の前記操作ボタンの押下操作までの期間を前記指定区間として受付けることを特徴とする請求項1に記載の音声処理装置。
- 前記指定区間受付手段は、操作ボタンの押下操作の開始時から予め定められた時間が経過したときに、前記開始時から前記時間が経過した時までの区間を前記指定区間として受付けることを特徴とする請求項1に記載の音声処理装置。
- 前記操作者または前記操作者以外の者の顔の画像を撮像する撮像手段と、
前記撮像手段で撮像された前記顔の画像を認識して前記顔の向きや表情を含む顔画像情報を取得する認識手段と、をさらに備え、
前記指定区間受付手段は、前記認識手段が取得した前記顔画像情報の変化に基づいて前記開始の指定および前記終了の指定を受付けることを特徴とする請求項1に記載の音声処理装置。 - 前記話者判断手段は、前記指定区間の指定中に前記発話者が判断済みの場合は、再度前記発話者の判断を行わないことを特徴とする請求項1に記載の音声処理装置。
- 前記発声区間検出手段は、検出した前記発声区間の確からしさを表す信頼度をさらに算出し、
前記決定手段は、前記開始時点または前記終了時点を、前記開始時点または前記終了時点の前方と後方との少なくとも一方の予め定められた範囲の前記発声区間について前記発声区間検出手段が算出した前記信頼度が最大の前記発声区間の開始時点または終了時点に変更することを特徴とする請求項1に記載の音声処理装置。 - 前記音声入力手段は、複数のマイクロホンを含むマイクロホンアレーにより前記音声を入力し、
前記話者判断手段は、複数の前記マイクロホンに入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断することを特徴とする請求項1に記載の音声処理装置。 - 操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付ステップと、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出ステップと、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断ステップと、
前記指定区間受付ステップにより受付けられた前記指定区間と前記発声区間検出ステップにより検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断ステップにより前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定ステップと、
を備えたことを特徴とする音声処理方法。 - 操作者または前記操作者以外の者の発声を含む音声を入力する音声入力手段に入力された前記音声のうち音声処理の対象とする区間として前記操作者により指定された指定区間の入力を受付ける指定区間受付手順と、
前記音声入力手段に入力された前記音声から、前記発声が存在する区間である発声区間を検出する発声区間検出手順と、
前記音声入力手段に入力された前記音声に基づいて、前記操作者または前記操作者以外の者のいずれが前記発声の発話者であるかを判断する話者判断手順と、
前記指定区間受付手順により受付けられた前記指定区間と前記発声区間検出手順により検出された前記発声区間とが重複する部分を検出し、前記重複する部分が検出された場合であって、前記話者判断手順により前記発話者は前記操作者以外の者であると判断された場合に、前記重複する部分が含まれる前記発声区間を前記処理区間として決定する決定手順と、
をコンピュータに実行させる音声処理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006091995A JP4557919B2 (ja) | 2006-03-29 | 2006-03-29 | 音声処理装置、音声処理方法および音声処理プログラム |
US11/550,236 US7801726B2 (en) | 2006-03-29 | 2006-10-17 | Apparatus, method and computer program product for speech processing |
CNA2007100915674A CN101046958A (zh) | 2006-03-29 | 2007-03-28 | 语音处理的装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006091995A JP4557919B2 (ja) | 2006-03-29 | 2006-03-29 | 音声処理装置、音声処理方法および音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007264473A true JP2007264473A (ja) | 2007-10-11 |
JP4557919B2 JP4557919B2 (ja) | 2010-10-06 |
Family
ID=38596393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006091995A Active JP4557919B2 (ja) | 2006-03-29 | 2006-03-29 | 音声処理装置、音声処理方法および音声処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7801726B2 (ja) |
JP (1) | JP4557919B2 (ja) |
CN (1) | CN101046958A (ja) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248002A (ja) * | 2010-05-25 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | 翻訳装置 |
JP2013072978A (ja) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | 音声解析装置および音声解析システム |
JP2013072979A (ja) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | 音声解析システムおよび音声解析装置 |
JP2013072977A (ja) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | 音声解析装置 |
JP2013121078A (ja) * | 2011-12-07 | 2013-06-17 | Fuji Xerox Co Ltd | 対面角度出力装置、対面角度出力システムおよびプログラム |
JP2013140534A (ja) * | 2012-01-06 | 2013-07-18 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
JP2013164468A (ja) * | 2012-02-09 | 2013-08-22 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
JP2013164515A (ja) * | 2012-02-10 | 2013-08-22 | Toshiba Corp | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム |
JP2013181899A (ja) * | 2012-03-02 | 2013-09-12 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
WO2018087969A1 (ja) * | 2016-11-11 | 2018-05-17 | パナソニックIpマネジメント株式会社 | 翻訳装置の制御方法、翻訳装置、および、プログラム |
JP2018081239A (ja) * | 2016-11-17 | 2018-05-24 | 富士通株式会社 | 音声処理方法、音声処理装置、及び音声処理プログラム |
JP2018085091A (ja) * | 2016-11-11 | 2018-05-31 | パナソニックIpマネジメント株式会社 | 翻訳装置の制御方法、翻訳装置、および、プログラム |
JPWO2018008227A1 (ja) * | 2016-07-08 | 2018-08-16 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
JP2019040106A (ja) * | 2017-08-25 | 2019-03-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 情報処理方法、情報処理装置およびプログラム |
JP2019087986A (ja) * | 2017-09-14 | 2019-06-06 | 富士通株式会社 | 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム |
JP2020160431A (ja) * | 2019-03-27 | 2020-10-01 | パナソニック株式会社 | 音声認識装置、音声認識方法及びそのプログラム |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4814152B2 (ja) * | 2007-05-09 | 2011-11-16 | 長谷川香料株式会社 | 風味評価方法 |
KR100930584B1 (ko) * | 2007-09-19 | 2009-12-09 | 한국전자통신연구원 | 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치 |
KR100933946B1 (ko) * | 2007-10-29 | 2009-12-28 | 연세대학교 산학협력단 | 음성 분석구간 중첩길이의 가변적 선택을 이용한 특징 벡터추출 방법 및 이를 이용한 화자 인식 시스템 |
US8639300B2 (en) * | 2009-12-09 | 2014-01-28 | Motorola Solutions, Inc. | Method and apparatus for maintaining transmit audio in a half duplex system |
US8676581B2 (en) * | 2010-01-22 | 2014-03-18 | Microsoft Corporation | Speech recognition analysis via identification information |
US8265341B2 (en) * | 2010-01-25 | 2012-09-11 | Microsoft Corporation | Voice-body identity correlation |
CN102682767B (zh) * | 2011-03-18 | 2015-04-08 | 株式公司Cs | 一种应用于家庭网络的语音识别方法 |
JP2013186228A (ja) * | 2012-03-07 | 2013-09-19 | Seiko Epson Corp | 音声認識処理装置及び音声認識処理方法 |
JP6045175B2 (ja) * | 2012-04-05 | 2016-12-14 | 任天堂株式会社 | 情報処理プログラム、情報処理装置、情報処理方法及び情報処理システム |
CN103383594B (zh) * | 2012-05-04 | 2018-01-05 | 富泰华工业(深圳)有限公司 | 电子设备及其控制方法 |
JP5653392B2 (ja) * | 2012-06-29 | 2015-01-14 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
CN104049721B (zh) * | 2013-03-11 | 2019-04-26 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
JP2016521382A (ja) * | 2013-05-13 | 2016-07-21 | トムソン ライセンシングThomson Licensing | マイクロフォンの音声を分離するための方法、装置、およびシステム |
US9514747B1 (en) * | 2013-08-28 | 2016-12-06 | Amazon Technologies, Inc. | Reducing speech recognition latency |
JP2015060332A (ja) * | 2013-09-18 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
CN103731768B (zh) * | 2013-12-25 | 2018-11-16 | 深圳Tcl新技术有限公司 | 一种声音拾取方法及装置 |
CN106463111B (zh) * | 2014-06-17 | 2020-01-21 | 雅马哈株式会社 | 基于字符的话音生成的控制器与*** |
CN104408042B (zh) * | 2014-10-17 | 2017-12-01 | 广州三星通信技术研究有限公司 | 显示终端中的对话语音对应的文本的方法和装置 |
CN107004405A (zh) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN105976829B (zh) * | 2015-03-10 | 2021-08-20 | 松下知识产权经营株式会社 | 声音处理装置、声音处理方法 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
KR102413692B1 (ko) * | 2015-07-24 | 2022-06-27 | 삼성전자주식회사 | 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 |
JP6585022B2 (ja) * | 2016-11-11 | 2019-10-02 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
JP6916130B2 (ja) * | 2018-03-02 | 2021-08-11 | 株式会社日立製作所 | 話者推定方法および話者推定装置 |
CN108831456B (zh) * | 2018-05-25 | 2022-04-15 | 深圳警翼智能科技股份有限公司 | 一种通过语音识别对视频标记的方法、装置及*** |
CN109949812A (zh) * | 2019-04-26 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 一种语音交互方法、装置、设备及存储介质 |
CN111681675B (zh) * | 2020-06-03 | 2024-06-07 | 西安通立软件开发有限公司 | 数据动态传输方法、装置、设备和存储介质 |
CN111640456B (zh) * | 2020-06-04 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 叠音检测方法、装置和设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59121099A (ja) * | 1982-12-28 | 1984-07-12 | 株式会社東芝 | 音声区間検出装置 |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
JPH08339198A (ja) * | 1995-06-12 | 1996-12-24 | Nec Corp | プレゼンテーション装置 |
JPH10171492A (ja) * | 1996-12-16 | 1998-06-26 | Citizen Watch Co Ltd | 電子辞書装置とその操作方法 |
JPH11338490A (ja) * | 1998-05-29 | 1999-12-10 | Tokai Rika Co Ltd | 車両用音声認識装置 |
JP2000099099A (ja) * | 1998-09-22 | 2000-04-07 | Sharp Corp | データ再生装置 |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
JP2003295892A (ja) * | 2002-04-01 | 2003-10-15 | Nec Corp | 通訳システム及びプログラム |
JP2004024863A (ja) * | 1994-05-13 | 2004-01-29 | Matsushita Electric Ind Co Ltd | ***認識装置および発生区間認識装置 |
JP2004302196A (ja) * | 2003-03-31 | 2004-10-28 | Nec Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2005141759A (ja) * | 2001-01-24 | 2005-06-02 | Matsushita Electric Ind Co Ltd | 音声変換装置、音声変換方法、プログラム、及び記録媒体 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5876899A (ja) * | 1981-10-31 | 1983-05-10 | 株式会社東芝 | 音声区間検出装置 |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US5857173A (en) * | 1997-01-30 | 1999-01-05 | Motorola, Inc. | Pronunciation measurement device and method |
US6167374A (en) * | 1997-02-13 | 2000-12-26 | Siemens Information And Communication Networks, Inc. | Signal processing method and system utilizing logical speech boundaries |
EP0867856B1 (fr) * | 1997-03-25 | 2005-10-26 | Koninklijke Philips Electronics N.V. | "Méthode et dispositif de detection d'activité vocale" |
US6067516A (en) * | 1997-05-09 | 2000-05-23 | Siemens Information | Speech and text messaging system with distributed speech recognition and speaker database transfers |
KR100229874B1 (ko) * | 1997-06-09 | 1999-11-15 | 윤종용 | 음성인식 통화장치의 통화개시시 음성인식율 향상 방법 |
US6041227A (en) * | 1997-08-27 | 2000-03-21 | Motorola, Inc. | Method and apparatus for reducing transmission time required to communicate a silent portion of a voice message |
US6219642B1 (en) * | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
US6233557B1 (en) * | 1999-02-23 | 2001-05-15 | Motorola, Inc. | Method of selectively assigning a penalty to a probability associated with a voice recognition system |
-
2006
- 2006-03-29 JP JP2006091995A patent/JP4557919B2/ja active Active
- 2006-10-17 US US11/550,236 patent/US7801726B2/en active Active
-
2007
- 2007-03-28 CN CNA2007100915674A patent/CN101046958A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59121099A (ja) * | 1982-12-28 | 1984-07-12 | 株式会社東芝 | 音声区間検出装置 |
JP2004024863A (ja) * | 1994-05-13 | 2004-01-29 | Matsushita Electric Ind Co Ltd | ***認識装置および発生区間認識装置 |
JPH08185196A (ja) * | 1994-12-28 | 1996-07-16 | Sony Corp | 音声区間検出装置 |
JPH08339198A (ja) * | 1995-06-12 | 1996-12-24 | Nec Corp | プレゼンテーション装置 |
JPH10171492A (ja) * | 1996-12-16 | 1998-06-26 | Citizen Watch Co Ltd | 電子辞書装置とその操作方法 |
JPH11338490A (ja) * | 1998-05-29 | 1999-12-10 | Tokai Rika Co Ltd | 車両用音声認識装置 |
JP2000099099A (ja) * | 1998-09-22 | 2000-04-07 | Sharp Corp | データ再生装置 |
JP2001075594A (ja) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | 音声認識システム |
JP2005141759A (ja) * | 2001-01-24 | 2005-06-02 | Matsushita Electric Ind Co Ltd | 音声変換装置、音声変換方法、プログラム、及び記録媒体 |
JP2003295892A (ja) * | 2002-04-01 | 2003-10-15 | Nec Corp | 通訳システム及びプログラム |
JP2004302196A (ja) * | 2003-03-31 | 2004-10-28 | Nec Corp | 音声認識装置、音声認識方法及び音声認識プログラム |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011248002A (ja) * | 2010-05-25 | 2011-12-08 | Fujitsu Toshiba Mobile Communications Ltd | 翻訳装置 |
JP2013072978A (ja) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | 音声解析装置および音声解析システム |
JP2013072979A (ja) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | 音声解析システムおよび音声解析装置 |
JP2013072977A (ja) * | 2011-09-27 | 2013-04-22 | Fuji Xerox Co Ltd | 音声解析装置 |
JP2013121078A (ja) * | 2011-12-07 | 2013-06-17 | Fuji Xerox Co Ltd | 対面角度出力装置、対面角度出力システムおよびプログラム |
JP2013140534A (ja) * | 2012-01-06 | 2013-07-18 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
JP2013164468A (ja) * | 2012-02-09 | 2013-08-22 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
JP2013164515A (ja) * | 2012-02-10 | 2013-08-22 | Toshiba Corp | 音声翻訳装置、音声翻訳方法および音声翻訳プログラム |
US9262410B2 (en) | 2012-02-10 | 2016-02-16 | Kabushiki Kaisha Toshiba | Speech translation apparatus, speech translation method and program product for speech translation |
JP2013181899A (ja) * | 2012-03-02 | 2013-09-12 | Fuji Xerox Co Ltd | 音声解析装置、音声解析システムおよびプログラム |
JPWO2018008227A1 (ja) * | 2016-07-08 | 2018-08-16 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
US10872605B2 (en) | 2016-07-08 | 2020-12-22 | Panasonic Intellectual Property Management Co., Ltd. | Translation device |
WO2018087969A1 (ja) * | 2016-11-11 | 2018-05-17 | パナソニックIpマネジメント株式会社 | 翻訳装置の制御方法、翻訳装置、および、プログラム |
JP2018085091A (ja) * | 2016-11-11 | 2018-05-31 | パナソニックIpマネジメント株式会社 | 翻訳装置の制御方法、翻訳装置、および、プログラム |
JP2018081239A (ja) * | 2016-11-17 | 2018-05-24 | 富士通株式会社 | 音声処理方法、音声処理装置、及び音声処理プログラム |
JP2019040106A (ja) * | 2017-08-25 | 2019-03-14 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 情報処理方法、情報処理装置およびプログラム |
JP7197259B2 (ja) | 2017-08-25 | 2022-12-27 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理方法、情報処理装置およびプログラム |
JP2019087986A (ja) * | 2017-09-14 | 2019-06-06 | 富士通株式会社 | 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム |
JP7020283B2 (ja) | 2017-09-14 | 2022-02-16 | 富士通株式会社 | 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム |
JP2020160431A (ja) * | 2019-03-27 | 2020-10-01 | パナソニック株式会社 | 音声認識装置、音声認識方法及びそのプログラム |
JP7330066B2 (ja) | 2019-03-27 | 2023-08-21 | パナソニックホールディングス株式会社 | 音声認識装置、音声認識方法及びそのプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4557919B2 (ja) | 2010-10-06 |
US7801726B2 (en) | 2010-09-21 |
US20070233471A1 (en) | 2007-10-04 |
CN101046958A (zh) | 2007-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4557919B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US10019992B2 (en) | Speech-controlled actions based on keywords and context thereof | |
JP6230726B2 (ja) | 音声認識装置および音声認識方法 | |
JP6520878B2 (ja) | 音声取得システムおよび音声取得方法 | |
JP5381988B2 (ja) | 対話音声認識システム、対話音声認識方法および対話音声認識用プログラム | |
KR20130022607A (ko) | 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법 | |
JP6654691B2 (ja) | 情報処理装置 | |
US20210343270A1 (en) | Speech translation method and translation apparatus | |
US11790900B2 (en) | System and method for audio-visual multi-speaker speech separation with location-based selection | |
US9691389B2 (en) | Spoken word generation method and system for speech recognition and computer readable medium thereof | |
JP2007322523A (ja) | 音声翻訳装置及びその方法 | |
KR101644015B1 (ko) | 시스템과 다수 사용자 간의 대화 인터페이스 장치 | |
JP5040778B2 (ja) | 音声合成装置、方法及びプログラム | |
JP6827536B2 (ja) | 音声認識装置および音声認識方法 | |
JP7330066B2 (ja) | 音声認識装置、音声認識方法及びそのプログラム | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
JP2008052178A (ja) | 音声認識装置と音声認識方法 | |
KR102557092B1 (ko) | 투명 디스플레이를 이용한 자동 통번역 및 대화 보조 시스템 | |
JP2010128766A (ja) | 情報処理装置、情報処理方法、プログラム及び記憶媒体 | |
JP3891023B2 (ja) | 通訳システム及びプログラム | |
US20210020179A1 (en) | Information processing apparatus, information processing system, information processing method, and program | |
JP7511374B2 (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP4143487B2 (ja) | 時系列情報制御システム及びその方法並びに時系列情報制御プログラム | |
JP7429107B2 (ja) | 音声翻訳装置、音声翻訳方法及びそのプログラム | |
JP2009284473A (ja) | カメラ制御装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070926 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100614 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100622 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100720 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4557919 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |