JP5524138B2 - 同義語辞書生成装置、その方法、及びプログラム - Google Patents
同義語辞書生成装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP5524138B2 JP5524138B2 JP2011148198A JP2011148198A JP5524138B2 JP 5524138 B2 JP5524138 B2 JP 5524138B2 JP 2011148198 A JP2011148198 A JP 2011148198A JP 2011148198 A JP2011148198 A JP 2011148198A JP 5524138 B2 JP5524138 B2 JP 5524138B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- synonym
- similarity
- context
- notation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1及び図2を用いて、本発明の一実施形態に係る同義語辞書生成装置11を説明する。同義語辞書生成装置11は、CPU等のプログラム実行手段、メモリやハードディスク記憶装置等の記憶手段、キーボードやマウス等の入力手段、及びモニタ等の表示手段、を含む公知のコンピュータにより構成してもよいし、同様の手段を含む同義語辞書生成用の専用装置として構成してもよい。
図2を用いて同義語辞書生成装置11の処理フローの概要を説明する。同義語辞書生成装置11は、基準語彙を入力手段または他の装置から取得し(s201)、記憶部22に格納する(図3のc01参照)。なお、語彙とは単語とその意味からなる概念であり、本実施形態では、単語の表記と読みと品詞で語彙を表現する。なお、単語の表記、読み及び品詞を含む情報を語彙情報と呼ぶ。基準語彙とは同義語辞書を作成する際に基準となる語彙であり、同義語辞書において同義語を検索する際の検索対象となる語彙である。言い換えると、同義語辞書を利用するシステムや利用者は、基準語彙をキーとして同義語辞書を検索し、基準語彙の同義語を取得することができる。
関連語彙取得部12は、基準語彙を用いて、基準語彙の関連語彙を少なくとも一つ語彙情報記憶部16から取得する。ここで取得される関連語彙は、(1)既存の同義語辞書によるものでもよいし(図4A、図4B参照)、(2)大量のテキスト情報における共起関係に基づく関連性の高い単語であってもよい。なお、大量のテキスト情報はテキスト情報記憶部13に記憶されている音声テキストであってもよいし、他の文書テキスト等であってもよい。(2)の場合について説明する。(2)の場合、関連語彙取得部12には、語彙情報と「概念ベース」が記憶されている(図6、参考文献1参照)。
[参考文献1]特開2009−277099号公報
テキスト情報記憶部13には、大量のテキスト情報が記憶されており、文脈取得部14はテキスト情報記憶部13から基準語彙文脈と関連語彙文脈を取得する。
[参考文献2]特開2010−117764号公報
[参考文献3]寺田雄一郎他、「日本語連語データの整備」、福岡大学工学集報、2007年、9月、79号、p.53-57
文脈類似性算出部15は、基準語彙文脈と関連語彙文脈との類似性を算出する。例えば、文脈類似性算出部15は、文脈取得部14により取得した文脈が音声テキストであるときに所定の形態素解析アルゴリズムを用いて形態素に分割する。また、連語データであるときは、形態素に分割されていることを前提とする。次に、基準語彙文脈と関連語彙文脈各々について類似性を算出する。例えば、基準語彙文脈における全語彙の共起関係と、関連語彙文脈における全語彙の共起関係とに基づいて、文脈類似性を算出する。具体的には、分割された形態素ごとにその概念ベクトルを語彙情報記憶部16より取得し、各々の形態素同士の単語概念ベクトルのコサイン類似度の総和を正規化して基準語彙文脈と関連語彙文脈との類似性とする。
表記類似性算出部17は、基準語彙の表記と関連語彙の表記との類似性を算出する。例えば、表記類似性算出部17は、語彙情報記憶部16により取得した語彙の表記を1文字ごとに分割する。具体的には、符号化文字や文字コードなどのプログラムないし媒体上で語彙を記述するための最小単位ごとに個別の要素として抽出する。次に、基準語彙と関連語彙の表記の類似性を各々の文字の一致率に基づいて算出する。例えば、基準語彙及び関連語彙を1文字ごとに分割し、生成された符号の列を2つのパターンとみなし、符号を個別の要素とみなして、基準語彙と関連語彙の間の対応付けを行いながら効率的に類似性を計算する方法として動的計画法(Dynamic Programming)によるマッチング(DPマッチング)を用い、正規化された一致率として基準語彙と関連語彙の表記の類似性を算出する。
読み類似性算出部18は、基準語彙の読みと関連語彙の読みとの類似性を算出する。例えば、読み類似性算出部18は、語彙情報記憶部16により取得した語彙の読みを音素単位に分割する。なお、音素は、一般的に母音、撥音、促音を1単位、それ以外を子音と母音の2単位で記述し、音素による読みの記述を音素表記とする。次に、基準語彙と関連語彙の音素表記の類似性を各々の音素の一致率に基づいて算出する。例えば、前記表記類似性算出部17と同様にDPマッチングを用い、一致率を正規化して基準語彙と関連語彙の読みの類似性を算出する。
品詞類似性算出部19は、基準語彙の品詞と関連語彙との品詞の類似性を算出する。ここで品詞は、全ての品詞を根とし、大分類から樹状に細分化される意味体系上に位置するものとする(参考文献4参照)。
[参考文献4]白井諭、大山芳史、池原悟、宮崎正弘、横尾昭男、「日本語語彙大系について」、情報処理学会研究報告.IM、1998年11月、Vol.1998 No.106、p.47-52
同義語判定部20は、文脈類似性、表記類似性、読み類似性及び品詞類似性を用いて基準語彙及び関連語彙についての同義指標を求め、その同義指標の大きさに基づき関連語彙が基準語彙の同義語であるか否かを判定する。次に、同義語判定部20は、基準語彙と、その基準語彙と同義語であると判定された関連語彙とを組合せて出力し、同義語情報記憶部21に格納する。
Svocab(u,v)=Scontext(u,v)+β・SPOS(u,v)+γ・Sdescribe(u,v)+δ・Spronounce(u,v)
(0≦Scontext(u,v),SPOS(u,v),Sdescribe(u,v),Spronounce(u,v)≦1,β≧0,γ>0,δ<0) (1)
ここで基準語彙uと関連語彙vに対し、Scontext、SPOS、Sdescribe及びSpronounceは、それぞれ文脈類似性、品詞類似性、表記類似性及び読み類似性を表す。β、γ、δは、重み係数となる。|β|、|γ|、|δ|は1より小さい値が望ましい。
Svocab(u,v)=(Scontext(u,v)+β・SPOS(u,v))×sα(Sdescribe(u,v)-Spronounce(u,v)) (α>0) (2)
ここでsαは、ゲインαのシグモイド関数である。例えば、αは3.0〜5.0程度の値を取る。
以上説明した同義語辞書生成装置11によれば、類似する文脈に出現しやすいという同義語の特性と、読みの類似と相反して表記や品詞の類似性が低いという認識誤りの特性を利用することにより、文脈類似性、読み類似性、表記類似性及び品詞類似性とに基づいて、基準語彙と関連語彙が同義語であるかどうかを判定する。このため、単語の脱落や挿入や認識誤り等の影響を受けることなく、音声テキストに基づき、基準語彙と関連語彙とが同義語であるかどうかを精度よく判定し、同義語辞書を生成することができる。
本実施形態において、各データのやり取りは記憶部22を介して行われているが、記憶部22を介さず各部間で直接データを送受信してもよい。
Svocab(u,v)=Scontext(u,v)+γ・Sdescribe(u,v)+δ・Spronounce(u,v)
(0≦Scontext(u,v),Sdescribe(u,v),Spronounce(u,v)≦1,γ>0,δ<0) (3)
または
Svocab(u,v)=Scontext(u,v)×sα(Sdescribe(u,v)-Spronounce(u,v)) (α>0) (4)
なお、上記式は式(1)及び(2)において、SPOS=0としたものである。品詞を同義語か否かを判定する材料として用いないため、その精度は若干低下する可能性がある。しかし、表記と読みからのみでも認識誤りの特性を利用することができると考えられるので、ほとんど遜色ない精度を期待でき、演算量等を減らすことができるという効果を奏する。
上述した同義語辞書生成装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施例で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施例で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置等の記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
Claims (7)
- 同義語辞書を作成する際に基準となる基準語彙を含む文脈と、前記基準語彙に関連する関連語彙を含む文脈の類似性を算出する文脈類似性算出部と、
前記基準語彙の表記と前記関連語彙の表記の類似性を算出する表記類似性算出部と、
前記基準語彙の読みと前記関連語彙の読みの類似性を算出する読み類似性算出部と、
基準語彙及び関連語彙についての同義指標は、その基準語彙とその関連語彙とが同義語である確からしさを示し、その基準語彙の文脈及びその関連語彙の文脈が類似しているほど確からしいことを示し、その基準語彙の表記及びその関連語彙の表記が類似しているほど確からしいことを示し、その基準語彙の読み及びその関連語彙の読みが類似していないほど確からしいことを示すものとし、前記算出された文脈、表記及び読みの類似性を用いて前記基準語彙及び前記関連語彙についての同義指標を求め、その同義指標の大きさに基づき前記関連語彙が前記基準語彙の同義語であるか否かを判定する同義語判定部と、を含む、
同義語辞書生成装置。 - 請求項1記載の同義語辞書生成装置であって、
文脈、表記及び読みの類似性をそれぞれScontext(u,v)、Sdescribe(u,v)及びSpronounce(u,v)とし、前記同義指標をSvocab(u,v)とし、sαは、ゲインαのシグモイド関数とし、前記同義語判定部において、前記同義指標を
Svocab(u,v)=Scontext(u,v)×sα(Sdescribe(u,v)-Spronounce(u,v))
として求める、
同義語辞書生成装置。 - 請求項1記載の同義語辞書生成装置であって、
前記基準語彙の品詞と前記関連語彙の品詞の類似性を算出する品詞類似性算出部をさらに含み、
文脈、表記、読み及び品詞の類似性をそれぞれScontext(u,v)、Sdescribe(u,v)、Spronounce(u,v)及びSPOS(u,v)とし、前記同義指標をSvocab(u,v)とし、sαは、ゲインαのシグモイド関数とし、βを重み係数とし、前記同義語判定部において、前記同義指標を
Svocab(u,v)=(Scontext(u,v)+β・SPOS(u,v))×sα(Sdescribe(u,v)-Spronounce(u,v))
として求める、
同義語辞書生成装置。 - 請求項1から3の何れかに記載の同義語辞書生成装置であって、
前記基準語彙を用いて、その基準語彙に関連する関連語彙を取得する関連語彙取得部と、
大量のテキスト情報が記憶されるテキスト情報記憶部と、
前記テキスト情報記憶部から前記基準語彙を含む文脈と前記関連語彙を含む文脈を取得する文脈取得部と、をさらに含み、
前記同義語判定部は、基準語彙と、その基準語彙と同義語であると判定された関連語彙とを組合せて出力する、
同義語辞書生成装置。 - 請求項4記載の同義語辞書生成装置であって、
前記基準語彙と、その基準語彙と同義語であると判定された関連語彙と、その基準語彙とその関連語彙の語彙情報と、その基準語彙とその関連語彙との各前記類似性と、前記同義指標とが記憶される同義語情報記憶部をさらに含む、
同義語辞書生成装置。 - 文脈類似性算出部が、同義語辞書を作成する際に基準となる基準語彙を含む文脈と、前記基準語彙に関連する関連語彙を含む文脈の類似性を算出する文脈類似性算出ステップと、
表記類似性算出部が、前記基準語彙の表記と前記関連語彙の表記の類似性を算出する表記類似性算出ステップと、
読み類似性算出部が、前記基準語彙の読みと前記関連語彙の読みの類似性を算出する読み類似性算出ステップと、
基準語彙及び関連語彙が同義語である確からしさを示す同義指標は、その基準語彙の文脈及びその関連語彙の文脈が類似しているほど確からしいことを示し、その基準語彙の表記及びその関連語彙の表記が類似しているほど確からしいことを示し、その基準語彙の読み及びその関連語彙の読みが類似していないほど確からしいことを示すものとし、同義語判定部が、前記算出された文脈、表記及び読みの類似性を用いて前記基準語彙及び前記関連語彙についての同義指標を求め、その同義指標の大きさに基づき前記関連語彙が前記基準語彙の同義語であるか否かを判定する同義語判定ステップと、を含む、
同義語辞書生成方法。 - コンピュータを請求項1から5の何れかに記載の同義語辞書生成装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011148198A JP5524138B2 (ja) | 2011-07-04 | 2011-07-04 | 同義語辞書生成装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011148198A JP5524138B2 (ja) | 2011-07-04 | 2011-07-04 | 同義語辞書生成装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013016011A JP2013016011A (ja) | 2013-01-24 |
JP5524138B2 true JP5524138B2 (ja) | 2014-06-18 |
Family
ID=47688647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011148198A Active JP5524138B2 (ja) | 2011-07-04 | 2011-07-04 | 同義語辞書生成装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5524138B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6106616B2 (ja) * | 2014-02-13 | 2017-04-05 | 日本電信電話株式会社 | データベース作成装置、単語検索装置、情報端末、単語検索方法、プログラム |
JP2019049873A (ja) * | 2017-09-11 | 2019-03-28 | 株式会社Screenホールディングス | 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法 |
JP6509391B1 (ja) * | 2018-01-31 | 2019-05-08 | 株式会社Fronteo | 計算機システム |
JP6571231B1 (ja) * | 2018-03-12 | 2019-09-04 | 株式会社ソケッツ | 検索装置および方法 |
JP7168334B2 (ja) * | 2018-03-20 | 2022-11-09 | ヤフー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7029813B2 (ja) * | 2019-02-28 | 2022-03-04 | 株式会社ミラボ | 辞書作成装置、辞書作成方法及び辞書作成プログラム |
CN111488735B (zh) * | 2020-04-09 | 2023-10-27 | 中国银行股份有限公司 | 测试语料生成方法、装置及电子设备 |
JP7209909B1 (ja) * | 2021-05-20 | 2023-01-20 | 三菱電機株式会社 | 情報処理装置、処理方法、及び処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5094486B2 (ja) * | 2008-03-14 | 2012-12-12 | 日本電信電話株式会社 | 同義性判定装置、その方法、プログラム及び記録媒体 |
JP5356197B2 (ja) * | 2009-12-01 | 2013-12-04 | 株式会社日立製作所 | 単語意味関係抽出装置 |
-
2011
- 2011-07-04 JP JP2011148198A patent/JP5524138B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013016011A (ja) | 2013-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5524138B2 (ja) | 同義語辞書生成装置、その方法、及びプログラム | |
Arisoy et al. | Turkish broadcast news transcription and retrieval | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
Klejch et al. | Punctuated transcription of multi-genre broadcasts using acoustic and lexical approaches | |
US20110224982A1 (en) | Automatic speech recognition based upon information retrieval methods | |
WO2003010754A1 (fr) | Systeme de recherche a entree vocale | |
Sitaram et al. | Speech synthesis of code-mixed text | |
Sitaram et al. | Experiments with Cross-lingual Systems for Synthesis of Code-Mixed Text. | |
Kirchhoff et al. | Novel speech recognition models for Arabic | |
Althobaiti | Automatic Arabic dialect identification systems for written texts: A survey | |
Hanani et al. | Spoken Arabic dialect recognition using X-vectors | |
Bigot et al. | Person name recognition in ASR outputs using continuous context models | |
Juhár et al. | Recent progress in development of language model for Slovak large vocabulary continuous speech recognition | |
Soto et al. | Rescoring confusion networks for keyword search | |
Liu et al. | Paraphrastic language models | |
Pan et al. | Evaluation of Transformer-Based Models for Punctuation and Capitalization Restoration in Spanish and Portuguese | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
Jiang et al. | Dict-tts: Learning to pronounce with prior dictionary knowledge for text-to-speech | |
JP2011175046A (ja) | 音声検索装置および音声検索方法 | |
JP2011128903A (ja) | 系列信号検索装置および系列信号検索方法 | |
JPH117447A (ja) | 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体 | |
JP6067616B2 (ja) | 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム | |
Enzell | Domain Adaptation with N-gram Language Models for Swedish Automatic Speech Recognition: Using text data augmentation to create domain-specific n-gram models for a Swedish open-source wav2vec 2.0 model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140401 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5524138 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |