JP2013109125A - 単語追加装置、単語追加方法、およびプログラム - Google Patents
単語追加装置、単語追加方法、およびプログラム Download PDFInfo
- Publication number
- JP2013109125A JP2013109125A JP2011253615A JP2011253615A JP2013109125A JP 2013109125 A JP2013109125 A JP 2013109125A JP 2011253615 A JP2011253615 A JP 2011253615A JP 2011253615 A JP2011253615 A JP 2011253615A JP 2013109125 A JP2013109125 A JP 2013109125A
- Authority
- JP
- Japan
- Prior art keywords
- word
- unregistered
- frequency
- unregistered word
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】本発明の単語追加装置10は、未登録単語抽出部100が、認識辞書を用いて、未登録単語を抽出する。未登録単語特徴量抽出部200が、未登録単語を特徴づける共起頻度ベクトルを生成する。認識結果特徴量抽出部300が、認識結果を特徴づける単語頻度ベクトルを生成する。タスク関連度算出部400が、タスク関連度を算出する。未登録単語頻度算出部500が、未登録単語の関連文書における出現頻度である未登録単語頻度を算出する。登録優先度算出部600が、登録優先度を算出する。認識辞書登録部700が、予め設定された閾値を用いて、追加登録単語を抽出し、認識辞書に追加登録単語を追加して拡張認識辞書を生成する。
【選択図】図1
Description
そして、未登録単語oの共起頻度ベクトルvoを、式(5)のように生成する。
そして、発話窓Wu_kに対する単語頻度ベクトルvu_kを、式(7)のように生成する。
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
100 未登録単語抽出部
200,201 未登録単語特徴量抽出部
210 共起窓抽出手段 220 共起頻度ベクトル算出手段
221 共起tf−idfベクトル算出手段
300,301 認識結果特徴量抽出部
310 発話窓抽出手段 320 単語頻度ベクトル算出手段
321 単語tf−idfベクトル算出手段
400 タスク関連度算出部
410 コサイン距離算出手段 420 線形二乗和計算手段
500 未登録単語頻度算出部 501 未登録単語tf−idf算出部
600,601,602 登録優先度算出部
700 認識辞書登録部
910 認識結果記憶部 920 関連文書記憶部
930 認識辞書記憶部 940 未登録単語記憶部
950 拡張認識辞書記憶部
Claims (9)
- 入力音声を音声認識した認識結果が記憶された認識結果記憶部と、
前記入力音声のタスクに関連のある関連文書が記憶された関連文書記憶部と、
認識辞書が記憶された認識辞書記憶部と、
前記認識辞書に追加登録単語を追加した拡張認識辞書を記憶する拡張認識辞書記憶部と、
前記認識辞書に登録されていない未登録単語を記憶する未登録単語記憶部と、
前記関連文書から、前記認識辞書を用いて、前記未登録単語を抽出する未登録単語抽出部と、
前記未登録単語と前記関連文書から、当該未登録単語を特徴づける共起頻度ベクトルを生成する未登録単語特徴量抽出部と、
前記認識結果から、当該認識結果を特徴づける単語頻度ベクトルを生成する認識結果特徴量抽出部と、
前記共起頻度ベクトルと前記単語頻度ベクトルから、前記未登録単語ごとに、タスク関連度を算出するタスク関連度算出部と、
前記未登録単語と前記関連文書から、当該未登録単語の前記関連文書における出現頻度である未登録単語頻度を算出する未登録単語頻度算出部と、
前記タスク関連度と前記未登録単語頻度から、前記未登録単語ごとに、登録優先度を算出する登録優先度算出部と、
前記未登録単語と前記登録優先度から、予め設定された閾値を用いて、前記追加登録単語を抽出し、前記認識辞書に前記追加登録単語を追加して前記拡張認識辞書を生成する認識辞書登録部と、
を備えることを特徴とする単語追加装置。 - 請求項1に記載の単語追加装置であって、
前記未登録単語特徴量抽出部は、
前記未登録単語と前記関連文書から、当該未登録単語が含まれる文とその前後n文を含む共起窓を抽出する共起窓抽出手段と、
前記共起窓に含まれるすべての共起単語を抽出し、当該共起単語の前記共起窓における出現頻度である共起頻度を算出して、前記共起頻度ベクトルを生成する共起頻度ベクトル生成手段を有し、
前記認識結果特徴量抽出部は、
前記認識結果を所定の発話数で分割して発話窓を生成する発話窓抽出手段と、
前記発話窓ごとに、当該発話窓に含まれるすべての発話単語を抽出し、当該発話単語の当該発話窓における出現頻度である単語頻度を算出して、前記単語頻度ベクトルを生成する単語頻度ベクトル生成手段を有し、
前記タスク関連度算出部は、
前記共起頻度ベクトルと前記単語頻度ベクトルとのコサイン距離を算出するコサイン距離算出手段と、
前記未登録単語ごとに、前記コサイン距離の線形二乗和を計算して、前記タスク関連度を算出する線形二乗和計算手段を有し、
前記登録優先度算出部は、
前記未登録単語ごとに、前記タスク関連度と前記未登録単語頻度を乗算して、前記登録優先度を算出する
ことを特徴とする単語追加装置。 - 請求項2から6のいずれかに記載の単語追加装置であって、
前記発話窓抽出手段は、
前記認識結果をトピック境界で分割して前記発話窓を生成する
ことを特徴とする単語追加装置。 - 認識結果記憶部に、入力音声を音声認識した認識結果が記憶されており、
関連文書記憶部に、前記入力音声のタスクに関連のある関連文書が記憶されており、
認識辞書記憶部に、認識辞書が記憶されており、
未登録単語抽出部が、前記関連文書から、前記認識辞書を用いて、前記未登録単語を抽出する未登録単語抽出ステップと、
未登録単語特徴量抽出部が、前記未登録単語と前記関連文書から、当該未登録単語を特徴づける共起頻度ベクトルを生成する未登録単語特徴量抽出ステップと、
認識結果特徴量抽出部が、前記認識結果から、当該認識結果を特徴づける単語頻度ベクトルを生成する認識結果特徴量抽出ステップと、
タスク関連度算出部が、前記共起頻度ベクトルと前記単語頻度ベクトルから、前記未登録単語ごとに、タスク関連度を算出するタスク関連度算出ステップと、
未登録単語頻度算出部が、前記未登録単語と前記関連文書から、当該未登録単語の前記関連文書における出現頻度である未登録単語頻度を算出する未登録単語頻度算出ステップと、
登録優先度算出部が、前記タスク関連度と前記未登録単語頻度から、前記未登録単語ごとに、登録優先度を算出する登録優先度算出ステップと、
認識辞書登録部が、前記未登録単語と前記登録優先度から、予め設定された閾値を用いて、追加登録単語を抽出し、前記認識辞書に前記追加登録単語を追加して前記拡張認識辞書を生成する認識辞書登録ステップと、
を有することを特徴とする単語追加方法。 - 請求項1から7のいずれかに記載の単語追加装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011253615A JP5670293B2 (ja) | 2011-11-21 | 2011-11-21 | 単語追加装置、単語追加方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011253615A JP5670293B2 (ja) | 2011-11-21 | 2011-11-21 | 単語追加装置、単語追加方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013109125A true JP2013109125A (ja) | 2013-06-06 |
JP5670293B2 JP5670293B2 (ja) | 2015-02-18 |
Family
ID=48705947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011253615A Expired - Fee Related JP5670293B2 (ja) | 2011-11-21 | 2011-11-21 | 単語追加装置、単語追加方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5670293B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002237A (ja) * | 2012-06-18 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識単語追加装置とその方法とプログラム |
JP2015215390A (ja) * | 2014-05-08 | 2015-12-03 | 日本電信電話株式会社 | 音声認識辞書更新装置、音声認識辞書更新方法、プログラム |
JP2020112920A (ja) * | 2019-01-09 | 2020-07-27 | 富士ゼロックス株式会社 | 情報処理装置、及び情報処理プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6021384A (en) * | 1997-10-29 | 2000-02-01 | At&T Corp. | Automatic generation of superwords |
JP2004326479A (ja) * | 2003-04-25 | 2004-11-18 | Hitachi Ltd | 単語間類似度計算プログラム及び装置 |
JP2005149014A (ja) * | 2003-11-13 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書関連語彙獲得方法及び装置及びプログラム |
JP2005250071A (ja) * | 2004-03-03 | 2005-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 |
JP2010154397A (ja) * | 2008-12-26 | 2010-07-08 | Sony Corp | データ処理装置、データ処理方法、及び、プログラム |
-
2011
- 2011-11-21 JP JP2011253615A patent/JP5670293B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6021384A (en) * | 1997-10-29 | 2000-02-01 | At&T Corp. | Automatic generation of superwords |
JP2004326479A (ja) * | 2003-04-25 | 2004-11-18 | Hitachi Ltd | 単語間類似度計算プログラム及び装置 |
JP2005149014A (ja) * | 2003-11-13 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書関連語彙獲得方法及び装置及びプログラム |
JP2005250071A (ja) * | 2004-03-03 | 2005-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 |
JP2010154397A (ja) * | 2008-12-26 | 2010-07-08 | Sony Corp | データ処理装置、データ処理方法、及び、プログラム |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014002237A (ja) * | 2012-06-18 | 2014-01-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識単語追加装置とその方法とプログラム |
JP2015215390A (ja) * | 2014-05-08 | 2015-12-03 | 日本電信電話株式会社 | 音声認識辞書更新装置、音声認識辞書更新方法、プログラム |
JP2020112920A (ja) * | 2019-01-09 | 2020-07-27 | 富士ゼロックス株式会社 | 情報処理装置、及び情報処理プログラム |
US11314810B2 (en) | 2019-01-09 | 2022-04-26 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
JP7192507B2 (ja) | 2019-01-09 | 2022-12-20 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5670293B2 (ja) | 2015-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6829559B2 (ja) | 固有表現抽出用ドキュメント専用地名辞典 | |
JP6310150B2 (ja) | 意図理解装置、方法およびプログラム | |
US8140530B2 (en) | Similarity calculation device and information search device | |
US9519870B2 (en) | Weighting dictionary entities for language understanding models | |
US20110184981A1 (en) | Personalize Search Results for Search Queries with General Implicit Local Intent | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
JP2016513269A (ja) | 音響言語モデルトレーニングのための方法およびデバイス | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
CN114091425A (zh) | 医学实体对齐方法及装置 | |
JP2015118498A (ja) | 同一意図の類似文を作成するプログラム、装置及び方法 | |
JP5670293B2 (ja) | 単語追加装置、単語追加方法、およびプログラム | |
JP5546565B2 (ja) | 単語追加装置、単語追加方法、およびプログラム | |
JP2006338261A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
Yang et al. | Vocabulary expansion through automatic abbreviation generation for Chinese voice search | |
JP5770753B2 (ja) | Cjk名前検出 | |
JP2007065029A (ja) | 構文・意味解析装置、音声認識装置、及び構文・意味解析プログラム | |
WO2021107006A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP5293607B2 (ja) | 略語生成装置およびプログラム、並びに、略語生成方法 | |
Chen et al. | Learning semantic hierarchy with distributed representations for unsupervised spoken language understanding. | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
JP5755603B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム | |
JP5700566B2 (ja) | スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141216 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5670293 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |