JP4867804B2 - 音声認識装置及び会議システム - Google Patents
音声認識装置及び会議システム Download PDFInfo
- Publication number
- JP4867804B2 JP4867804B2 JP2007155036A JP2007155036A JP4867804B2 JP 4867804 B2 JP4867804 B2 JP 4867804B2 JP 2007155036 A JP2007155036 A JP 2007155036A JP 2007155036 A JP2007155036 A JP 2007155036A JP 4867804 B2 JP4867804 B2 JP 4867804B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- signal
- dictionary
- sound
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(A)構成
図1は音声認識装置1の全体構成を示すブロック図である。音声認識装置1は、制御部11、収音部12、記憶部13、操作部14、表示部15、外部機器IF16を備えており、これらはバス19で接続されている。制御部11は、例えばCPU(Central Processing Unit)などの演算装置とROM(Read Only Memory)やRAM(Random Access Memory)などの各種メモリを備えている。演算装置がこれらのメモリや記憶部に記憶されているコンピュータプログラムを読み出して実行することにより、音声認識装置1の各部を制御する。また、制御部11にはタイマが内蔵されている。このタイマは水晶振動子を有する発振回路(図示略)を備えており、その発振回路から出力される発信信号を適宜分周してタイミング制御用のクロックを生成し、生成したクロックに基づいて時間を計測する。
(B)動作
利用者が操作部14の図示しないスイッチを押下して収音開始の指示をすると、制御部11はこの指示を受けて、収音部12を収音可能にする。これにより、収音部12の複数のマイクロフォンM、M…は収音された音を音声信号S(S1〜S8)に変換して出力する。制御部11は、各音声信号Sのパワー(音声振幅の自乗)を常時検知して、当該音声信号Sのパワーが所定のパワー閾値を超えているか否かを監視する。そして、パワー閾値を超えた音声信号Sに対しては、発言が開始されたと判定し、以後の処理を行う。
そこで、以下の説明においてはマイクロフォンMの収音状態に応じて場合分けをして説明を行う。なお、以下においては、会議参加者が8名であると想定する。
一人の参加者だけが発音している状態とは、マイクロフォンM1〜M8のいずれか一つが出力する音声信号Sのパワーがパワー閾値を上回っている状態である。ここでは、音声信号S2のパワーのみが所定のパワー閾値を超えた場合を挙げて説明する。
制御部11は音声信号S2のパワーが上述のパワー閾値を超えたことを検出すると、その時刻にタイマから時刻情報を取得する。この時刻がt0であれば、時刻t0を示す時刻情報t0を記憶部13の所定のエリアに書き込む。また、時刻情報t0に関連させて、上記所定エリアに音声信号S2の記憶を開始させる。次に制御部11は音声信号S2に対して2以上の音声が混入しているか否かを判定して分離処理を行うが(この判定・分離処理については後述する)、ここでは一つの音声だけであるから分離処理は行わない。
なお、発言者を識別するためのデータとして、選択された辞書を特定するデータを用いたり、あるいは、発言者とマイクロフォンとの対応関係や、発言者と辞書の対応関係を記憶したテーブルを用意し、このテーブルを用いて発言者を特定し、特定した発言者を識別するデータを用いたりすることもできる。
次に、複数の参加者の発言が重なる場合について説明する。発音が重なる態様としては、一人の発言が終了する前に他の参加者が発言を開始した場合や、複数の参加者が同時に意見を述べる場合などがある。ここでは一例として、音声信号S1のパワーと音声信号S2のパワーが前後して所定のパワー閾値を超えた場合を挙げて説明する。制御部11はすべての音声信号S1〜S8のパワーを常時監視しているから、音声信号S1のパワーが上述のパワー閾値を超えると、その時刻を示す時刻情報t0−1を記憶部に記憶させるとともに音声信号S1の記憶を開始する。そして、音声信号S1パワーが上述のパワー閾値を下回ると、その時刻を示す時刻情報tz−1を記憶部に記憶させるとともに音声信号S1の記憶を終了し、時刻t0−1から時刻tz−1までを音声区間とする。次に、この音声区間において記憶された音声信号S1について上述のような音声認識処理を行う。これと並行して、音声信号S2がパワー閾値を超えた時刻情報t0−2からパワー閾値を下回った時刻情報tz−2までの時間は、音声信号S1の処理に加えて音声信号S2についての処理を行う。
以上のようにして、複数の参加者の発言が重なった場合には、これらの音声信号についての処理が並行して行われる。
このようにして音声信号S1、S2は音声認識されてゆき、各音声信号S1、S2に対応する発言データが生成され、発言開始時刻、発言終了時刻、発言者の識別(選択された辞書を特定するデータ、マイクロフォンの識別など)とともに記憶部13に記憶されてゆく。
上述した(1)、(2)で説明した動作において音声信号Sに、二以上の発言者の音声が含まれている場合がある。これは前述したように発言者が本来の位置から移動したり、あるいは大きな声を出したりして、他人が話しているマイクロフォンMに音声が混入した場合などに生じる。
ところで、音声信号S1と音声信号S2が初めから相互に独立である場合には、最初の演算によって分離フィルタの係数の変化量が所定の閾値を下回ることになり、結局、分離フィルタによる処理はなされない。したがって、それぞれの最初の音声信号のパワースペクトルX1(f,t),X2(f,t)について音声認識処理を行う。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されることなく、他の様々な形態で実施可能である。以下にその一例を示す。なお、以下の各態様を適宜に組み合わせてもよい。
Claims (3)
- 複数位置からの収音が可能に構成され、収音した位置ごとに音を音声信号に変換してそれぞれ出力する収音手段と、
前記収音手段が出力した各音声信号のパワーが所定値を超えたか否かを検知する検知手段と、
前記検知手段によって前記パワーが所定値を超えたことを検知された音声信号に対し、当該音声信号と収音位置が異なる他の音声信号を用いて、前記音声信号と前記他の音声信号とが相互に独立であるか否かを判断し、これらが相互に独立であると判断した場合には当該音声信号を音声認識用信号として出力し、相互に独立でないと判断した場合には当該音声信号に含まれる1つの音声を分離して、音声認識用信号として出力する前処理手段と、
前記前処理手段が出力した音声認識用信号から特徴量を抽出する特徴量抽出手段と、
音声認識処理に用いられる複数の辞書を記憶する辞書記憶手段と、
発言者の発声する音声の特徴量と前記各辞書とを対応付ける対応付け手段と、
前記特徴量抽出手段が抽出した特徴量に対応する辞書を、前記対応付け手段による対応付けを参照して選択する辞書選択手段と、
前記辞書選択手段が選択した辞書を用いて、前記前処理手段が出力する音声認識用信号に対して音声認識処理を行う音声認識手段と
を具備することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置と、
前記前処理手段が出力する音声信号から音声の開始時刻を示す開始時刻情報と当該音声の終了時刻を示す終了時刻情報を検出する検出手段と、
前記検出手段が検出した前記開始時刻情報、前記終了時刻情報および前記特徴量抽出手段が当該音声認識用信号から抽出した特徴量および前記音声認識手段が当該音声信号に対して音声認識処理を行った処理結果を対応付けて記憶する処理結果記憶手段
を具備することを特徴とする会議システム。 - 前記処理結果記憶手段が記憶した処理結果を前記特徴量ごとに予め定められた態様で表示手段に表示させる表示制御手段を有し、
前記表示制御手段は前記各処理結果について、それぞれの前記開始時刻情報と前記終了時刻情報が示す時間帯が重複しているか否かを判定し、重複している場合には、重複していない部分とは異なる態様で表示させる
ことを特徴とする請求項2に記載の会議システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007155036A JP4867804B2 (ja) | 2007-06-12 | 2007-06-12 | 音声認識装置及び会議システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007155036A JP4867804B2 (ja) | 2007-06-12 | 2007-06-12 | 音声認識装置及び会議システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008309856A JP2008309856A (ja) | 2008-12-25 |
JP4867804B2 true JP4867804B2 (ja) | 2012-02-01 |
Family
ID=40237543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007155036A Expired - Fee Related JP4867804B2 (ja) | 2007-06-12 | 2007-06-12 | 音声認識装置及び会議システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4867804B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348011A (zh) * | 2019-06-25 | 2019-10-18 | 武汉冠科智能科技有限公司 | 一种无纸化会议展示对象确定方法、装置和存储介质 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010092914A1 (ja) * | 2009-02-13 | 2010-08-19 | 日本電気株式会社 | 多チャンネル音響信号処理方法、そのシステム及びプログラム |
JP5274324B2 (ja) * | 2009-03-19 | 2013-08-28 | 株式会社エヌ・ティ・ティ・ドコモ | 言語モデル特定装置、言語モデル特定方法、音響モデル特定装置、および音響モデル特定方法 |
JP5533854B2 (ja) * | 2009-03-31 | 2014-06-25 | 日本電気株式会社 | 音声認識処理システム、および音声認識処理方法 |
JP5385876B2 (ja) * | 2010-08-30 | 2014-01-08 | 日本電信電話株式会社 | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 |
JP5677901B2 (ja) * | 2011-06-29 | 2015-02-25 | みずほ情報総研株式会社 | 議事録作成システム及び議事録作成方法 |
JP2015014675A (ja) * | 2013-07-04 | 2015-01-22 | 株式会社日立システムズ | 音声認識装置、方法、プログラム、システム及び端末 |
JP2015102667A (ja) * | 2013-11-25 | 2015-06-04 | シャープ株式会社 | 電子機器 |
JP6721298B2 (ja) | 2014-07-16 | 2020-07-15 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声情報制御方法及び端末装置 |
JP6052814B2 (ja) * | 2014-09-24 | 2016-12-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 |
US20170330564A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Processing Simultaneous Speech from Distributed Microphones |
JP6800809B2 (ja) | 2017-06-01 | 2020-12-16 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
JP7044633B2 (ja) * | 2017-12-28 | 2022-03-30 | シャープ株式会社 | 操作支援装置、操作支援システム、及び操作支援方法 |
JP7243145B2 (ja) * | 2018-03-19 | 2023-03-22 | 株式会社リコー | 情報処理装置、情報処理システム及び情報処理方法 |
JP6598323B1 (ja) * | 2018-06-01 | 2019-10-30 | 学校法人北里研究所 | 補聴器及びプログラム |
JP7095569B2 (ja) * | 2018-11-21 | 2022-07-05 | 株式会社リコー | 音声認識システム、及び音声認識方法 |
JP2020184007A (ja) * | 2019-05-07 | 2020-11-12 | 株式会社チェンジ | 情報処理装置、音声テキスト化システム、音声テキスト化方法および音声テキスト化プログラム |
CN113708868B (zh) * | 2021-08-27 | 2023-06-27 | 国网安徽省电力有限公司池州供电公司 | 一种多拾音设备的调度***及其调度方法 |
WO2023105778A1 (ja) * | 2021-12-10 | 2023-06-15 | 日本電信電話株式会社 | 音声信号の処理方法、音声信号処理装置、およびプログラム |
CN114257778A (zh) * | 2021-12-27 | 2022-03-29 | 新联合众(北京)科技有限公司 | 一种远程会议***及多麦克风语音识别播放方法 |
KR102661005B1 (ko) * | 2023-02-24 | 2024-04-25 | (주)페르소나에이아이 | 다채널 다화자 환경에서 화자별 음원분리장치 및 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3207281B2 (ja) * | 1993-02-12 | 2001-09-10 | 株式会社東芝 | ステレオ音声符号化・復号化方式、ステレオ音声復号化装置及び単独発言/複数同時発言判別装置 |
JP3859612B2 (ja) * | 2003-04-10 | 2006-12-20 | 株式会社アドバンスト・メディア | 会議録音・書き起こしシステム |
JP2006330170A (ja) * | 2005-05-24 | 2006-12-07 | Nhk Engineering Services Inc | 記録文書作成支援システム |
JP4225430B2 (ja) * | 2005-08-11 | 2009-02-18 | 旭化成株式会社 | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
-
2007
- 2007-06-12 JP JP2007155036A patent/JP4867804B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348011A (zh) * | 2019-06-25 | 2019-10-18 | 武汉冠科智能科技有限公司 | 一种无纸化会议展示对象确定方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2008309856A (ja) | 2008-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
JP3968133B2 (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP6866715B2 (ja) | 情報処理装置、感情認識方法、及び、プログラム | |
WO2001052237A1 (fr) | Appareil, methode et support d'apprentissage de langues etrangeres | |
CN110111778B (zh) | 一种语音处理方法、装置、存储介质及电子设备 | |
JP2018013549A (ja) | 発話内容認識装置 | |
JP2008262120A (ja) | 発話評価装置及び発話評価プログラム | |
JP2008275987A (ja) | 音声認識装置および会議システム | |
JPH06110494A (ja) | 発音学習装置 | |
JP7347511B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
WO2013035293A1 (ja) | 音声認識装置 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JP4622106B2 (ja) | 人物特定システム | |
JPS645320B2 (ja) | ||
JP2001282098A (ja) | 外国語学習装置、外国語学習方法および媒体 | |
JP6991409B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
JPH08110790A (ja) | 音声認識装置 | |
JP2004309654A (ja) | 音声認識装置 | |
KR20090081046A (ko) | 인터넷을 이용한 언어 학습 시스템 및 방법 | |
JPH10198393A (ja) | 会話記録装置 | |
JP2004139049A (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
JP2005148764A (ja) | 音声認識対話処理方法および音声認識対話装置 | |
JP2638151B2 (ja) | 会話補助装置 | |
KR101394290B1 (ko) | 한국어 경음/연음 구분을 이용한 음성인식 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100421 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111031 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141125 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |