JP2008059389A - Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program - Google Patents
Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program Download PDFInfo
- Publication number
- JP2008059389A JP2008059389A JP2006236915A JP2006236915A JP2008059389A JP 2008059389 A JP2008059389 A JP 2008059389A JP 2006236915 A JP2006236915 A JP 2006236915A JP 2006236915 A JP2006236915 A JP 2006236915A JP 2008059389 A JP2008059389 A JP 2008059389A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- consonant
- dictionary database
- candidate output
- search target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
Description
本発明は、外来語等のように、表記が曖昧な語彙が入力されたときでも、統一された語彙を出力するための語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラムに関する。 The present invention relates to a vocabulary candidate output system, a vocabulary candidate output method, and a vocabulary candidate output program for outputting a unified vocabulary even when a vocabulary with ambiguous notation such as a foreign word is input.
今日、各種データベースの検索時や文書作成時に外来語などのカタカナ語彙を用いることが多くなっている。しかし、外来語の場合、発音等から表記が決められていることがあり、表示が統一されていない場合がある。このため、表記が曖昧な場合においても正しいスペリングが得られるようにする仮名外来語スペリング変換装置に関する技術も検討されている(例えば、特許文献1参照。)。この文献記載の技術では、仮名文字列を入力するための文字列入力部と、この入力された仮名文字列を一時格納しておく一時記憶部と、ある外来語の表音に対応する仮名,カタカナ,そのスペリング,意味を含む文字情報を記憶した辞書記憶部と、仮名文字列中の長音部の変換候補仮名文字に対応する長音文字が格納されている変換テーブルとを備える。そして、変換候補仮名文字を特定するとともに変換テーブル内を検索し、かつ該当長音文字に変換する。この変換された長音文字を含む仮名文字列を格納し、格納された仮名文字列に対応する文字情報を辞書記憶部により検索するとともに目的の文字情報を選択する。そして、選択された文字情報を表示する。 Today, Katakana vocabulary such as foreign words is often used when searching various databases and creating documents. However, in the case of foreign words, the notation may be determined by pronunciation or the like, and the display may not be unified. For this reason, a technique relating to a kana / foreign word spelling conversion device that allows correct spelling to be obtained even when the notation is ambiguous (for example, see Patent Document 1). In the technique described in this document, a character string input unit for inputting a kana character string, a temporary storage unit for temporarily storing the input kana character string, a kana corresponding to a phonetic of a foreign word, A dictionary storage unit that stores character information including katakana, its spelling, and meaning, and a conversion table that stores long sound characters corresponding to the conversion candidate kana characters of the long sound part in the kana character string. Then, a conversion candidate kana character is specified, the conversion table is searched, and the corresponding long sound character is converted. A kana character string including the converted long sound character is stored, character information corresponding to the stored kana character string is searched by the dictionary storage unit, and target character information is selected. Then, the selected character information is displayed.
また、利用者によって入力された検索キーワードを含む文字列をデータベース中で検索する場合、曖昧語を利用することがある。そこで、効率良く曖昧検索を行なえるようにするデータベース検索方法に関する技術も開示されている(例えば、特許文献2参照。)。この文献記載の技術では、検索キーワードから一群の連語を作成する。この場合、各連語は、ひらがな、カタカナ及び英数字の内の同一の文字種の字のみで構成される場合と、それ以外の場合とに分けて生成する。そして、データベース中の各文字列と一連の連語との一致度を算出する。そして、一致度が閾値以上である文字列を検索文字列として用いて検索を行なう。
しかし、日本語のカタカナ表記は、慣習や企業、人によって様々である。例えば、「マネージメント」のように表記する場合もあれば、「マネジメント」のように表記する場合もある。また、「レクレーション」に関しては、「リクレーション」、「リクリエイション」のように表記する場合もある。「ウェーハ」に関しては、「ウェハー」、「ウエハ」のように表記する場合もある。また、最近の表記では英語の「V」を「ヴ」と書くことも許されるため、「バージョン」を「ヴァージョン」と表記されるようなこともある。 However, Japanese katakana notation varies according to customs, companies, and people. For example, it may be expressed as “management” or may be expressed as “management”. In addition, “recreation” may be expressed as “recreation” or “recreation”. “Wafer” may be expressed as “wafer” or “wafer”. Also, in recent notation, it is allowed to write “V” in English as “V”, so “version” is sometimes expressed as “version”.
この場合、「マネージメント or マネジメント」のように、利用されているカタカナ語を想像して検索式を作成して検索を行なうことも可能である。しかし、この場合も想定外の表記について検索することができない。 In this case, as in “management or management”, it is possible to imagine a katakana language being used and create a search formula to perform a search. However, even in this case, it is not possible to search for an unexpected notation.
本発明は、上記課題を解決するためになされたものであり、その目的は、外来語のように発音上の曖昧さからカタカナ表記が揺らいでいる場合であっても、統一した表記を得るための語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラムを提供することにある。 The present invention has been made to solve the above problems, and its purpose is to obtain a unified notation even when katakana notation is fluctuating due to pronunciation ambiguity like foreign words. A vocabulary candidate output system, a vocabulary candidate output method, and a vocabulary candidate output program.
上記問題点を解決するために、請求項1に記載の発明は、標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力するシステムであって、前記制御手段が、入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理手段と、前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換手段と、前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力手段とを備えたことを要旨とする。 In order to solve the above-mentioned problems, the invention described in claim 1 includes a dictionary database in which a standard vocabulary, a consonant sequence in which consonants are extracted in a romanized character string for each standard vocabulary, and a vocabulary candidate A lexical candidate for an input character string using a control means for performing output processing, wherein the control means searches using the dictionary database using the input character string as a search target word A matching processing means, a Roman character notation conversion means for acquiring a Roman character notation character string for the search target word, and a consonant in the Roman character notation character string when the search target word is not registered in the dictionary database. Extract the consonant sequences extracted in the order of notation, compare the consonant sequence registered in the dictionary database with the consonant sequence of the search target word,致度 identify standard vocabulary descending order, and summarized in that and a candidate output means for outputting the standard vocabulary as a vocabulary candidate.
請求項2に記載の発明は、請求項1に記載の語彙候補出力システムにおいて、前記辞書データベースには、標準語彙毎にローマ字表記の文字列において母音を表記順に抽出した母音配列が更に登録され、前記候補出力手段は、更に、前記ローマ字表記文字列において、母音を表記順に抽出した母音配列を抽出し、前記辞書データベースに登録された母音配列と、前記検索対象語の母音配列とを比較し、前記子音配列の一致度と母音配列の一致度とを所定の関数に導入して関数値を算出し、この関数値の高い順に標準語彙を特定し、この標準語彙を語彙候補として出力することを要旨とする。 The invention according to claim 2 is the vocabulary candidate output system according to claim 1, wherein in the dictionary database, a vowel array in which vowels are extracted in order of notation in a character string in Roman letters is registered for each standard vocabulary, The candidate output means further extracts a vowel array in which the vowels are extracted in the written order in the Roman character notation character string, and compares the vowel array registered in the dictionary database with the vowel array of the search target word, Calculating the function value by introducing the matching degree of the consonant arrangement and the matching degree of the vowel arrangement into a predetermined function, specifying the standard vocabulary in descending order of the function value, and outputting the standard vocabulary as a vocabulary candidate; The gist.
請求項3に記載の発明は、請求項2に記載の語彙候補出力システムにおいて、前記候補出力手段は、前記検索対象語の文字数を特定し、前記文字数が基準文字数以下の場合に、前記母音配列の一致度を用いて語彙候補を特定することを要旨とする。 According to a third aspect of the present invention, in the vocabulary candidate output system according to the second aspect, the candidate output means specifies the number of characters of the search target word, and the vowel array when the number of characters is equal to or less than a reference number of characters. The gist is to identify vocabulary candidates using the degree of coincidence.
請求項4に記載の発明は、請求項2に記載の語彙候補出力システムにおいて、文字総数に対応して、母音配列の一致度に対する重み付け値を記録した重み付けテーブルを備え、前記候補出力手段は、前記検索対象語の文字数を特定し、前記重み付けテーブルを用いて、前記検索対象語の文字総数に対応した重み付け値を取得し、前記子音配列の一致度、及び前記母音配列の一致度に対して重み付け値を所定の関数に代入した値を用いて、語彙候補の優先順位を決定することを要旨とする。 The invention according to claim 4 is the vocabulary candidate output system according to claim 2, further comprising a weighting table in which weighting values for the degree of coincidence of vowel sequences are recorded corresponding to the total number of characters, and the candidate output means includes: The number of characters of the search target word is specified, and using the weighting table, a weighting value corresponding to the total number of characters of the search target word is obtained, and the consonant arrangement matching degree and the vowel arrangement matching degree are obtained. The gist is to determine priorities of vocabulary candidates using a value obtained by assigning a weighting value to a predetermined function.
請求項5に記載の発明は、請求項2〜4のいずれか一つに記載の語彙候補出力システムにおいて、前記辞書データベースには、標準語彙毎に発音記号配列が更に登録され、前記候補出力手段は、前記辞書データベースを用いて、語彙候補の発音記号配列のアクセント位置を特定し、前記アクセント位置の母音配列が一致している語彙候補の優先順位を高くすることを要旨とする。 According to a fifth aspect of the present invention, in the vocabulary candidate output system according to any one of the second to fourth aspects, a phonetic symbol array is further registered for each standard vocabulary in the dictionary database, and the candidate output means The gist is to identify the accent position of the phonetic symbol sequence of the vocabulary candidate using the dictionary database, and to increase the priority of the vocabulary candidate that matches the vowel sequence of the accent position.
請求項6に記載の発明は、請求項1〜5のいずれか一つに記載の語彙候補出力システムにおいて、前記制御手段が、語彙候補の中から選択された標準語彙が確定された場合、前記標準語彙に対して、前記入力された文字列を関連付けて辞書データベースに記録するデータベース更新手段を更に備えたことを要旨とする。 The invention according to claim 6 is the vocabulary candidate output system according to any one of claims 1 to 5, wherein when the control unit determines a standard vocabulary selected from vocabulary candidates, The gist of the present invention is that it further includes database updating means for associating the inputted character string with a standard vocabulary and recording it in a dictionary database.
請求項7に記載の発明は、標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力する方法であって、前記制御手段が、入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理段階と、前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換段階と、前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、前記辞書デ
ータベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力段階とを実行することを要旨とする。
The invention according to claim 7 uses a standard vocabulary, a dictionary database in which consonant sequences are extracted in a character string in Roman alphabet notation for each standard vocabulary and registered, and control means for performing processing for outputting vocabulary candidates. A matching processing step in which the control means searches using the dictionary database using the input character string as a search target word, and a method for outputting vocabulary candidates of the input character string, and the dictionary database If the search target word is not registered, a Roman character notation conversion step for acquiring a Roman character notation character string for the search target word, and a consonant array in which consonants are extracted in the notation order in the Roman character notation character string are extracted. The consonant arrangement registered in the dictionary database is compared with the consonant arrangement of the search target word, and the standard vocabulary is specified in descending order of the degree of coincidence between the two. And summarized in that to perform the candidate output step of outputting the standard vocabulary as a vocabulary candidate.
請求項8に記載の発明は、標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力するプログラムであって、前記制御手段を、入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理手段と、前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換手段と、前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力手段として機能させることを要旨とする。 The invention according to claim 8 uses a standard vocabulary, a dictionary database in which consonant sequences are extracted in a character string in Roman alphabet notation for each standard vocabulary and registered, and control means for performing processing for outputting vocabulary candidates. A program for outputting vocabulary candidates of an input character string, wherein the control means searches the dictionary database using the input character string as a search target word, and the dictionary database If the search target word is not registered, a Roman character notation conversion means for acquiring a Roman character notation character string for the search target word, and a consonant array in which consonants are extracted in the notation order in the Roman character notation character string are extracted. The consonant arrangement registered in the dictionary database is compared with the consonant arrangement of the search target word, and the standard vocabulary Constant, and the subject matter that function as candidate output means for outputting the standard vocabulary as a vocabulary candidate.
(作用)
請求項1、7又は8に記載の発明によれば、制御手段が、辞書データベースに検索対象語の登録が無い場合には、検索対象語についてローマ字表記文字列を取得する。そして、ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定する。発音等に起因して表記が曖昧な場合にも、比較的、子音配列は共通することが多い。この点に着目することにより、標準語彙を語彙候補として効率的に特定し、表記を統一することができる。
(Function)
According to the first, seventh, or eighth aspect of the invention, when the search target word is not registered in the dictionary database, the control means obtains a Roman character string for the search target word. Then, in the Roman character notation character string, a consonant array in which consonants are extracted in the order of notation is extracted, and the consonant array registered in the dictionary database is compared with the consonant array of the search target word. Identify vocabulary. Even when the notation is ambiguous due to pronunciation or the like, the consonant arrangement is relatively common in many cases. By paying attention to this point, the standard vocabulary can be efficiently identified as vocabulary candidates and the notation can be unified.
請求項2に記載の発明によれば、ローマ字表記文字列において、母音を表記順に抽出した母音配列を抽出する。そして、辞書データベースに登録された母音配列と、検索対象語の母音配列とを比較し、子音配列の一致度と母音配列の一致度とを所定の関数に導入して関数値を算出し、この関数値の高い順に標準語彙を特定する。これにより、子音配列と母音配列とを分けて、語彙候補を出力することができる。 According to the second aspect of the present invention, a vowel array in which vowels are extracted in the written order is extracted from a Roman character string. Then, the vowel array registered in the dictionary database is compared with the vowel array of the search target word, the coincidence degree of the consonant array and the coincidence degree of the vowel array are introduced into a predetermined function, and a function value is calculated. Specify standard vocabulary in descending order of function value. Thereby, a vocabulary candidate can be output by dividing the consonant arrangement and the vowel arrangement.
請求項3に記載の発明によれば、検索対象語の文字数を特定し、文字数が基準文字数以下の場合に、前記母音配列の一致度を用いて語彙候補を特定する。基準文字数以下の場合には、子音配列の揺らぎは小さくなる傾向にあるので、母音配列を考慮して語彙候補を特定することができる。 According to the third aspect of the invention, the number of characters of the search target word is specified, and when the number of characters is equal to or less than the reference number of characters, the vocabulary candidate is specified using the matching degree of the vowel arrangement. When the number of characters is less than the reference number, the fluctuation of the consonant arrangement tends to be small, so that the vocabulary candidate can be specified in consideration of the vowel arrangement.
請求項4に記載の発明によれば、検索対象語の文字数を特定し、重み付けテーブルを用いて、検索対象語の文字数に対応した重み付け値を取得する。そして、子音配列の一致度及び母音配列の一致度に対して重み付け値を所定の関数に代入した値を用いて、語彙候補の優先順位を決定する。重み付けテーブルにより、文字数に応じて、子音配列や母音配列の影響を制御することができる。 According to the fourth aspect of the invention, the number of characters of the search target word is specified, and a weighting value corresponding to the number of characters of the search target word is obtained using a weighting table. Then, the priority order of the vocabulary candidates is determined using a value obtained by assigning a weighting value to a predetermined function with respect to the consonant arrangement coincidence and the vowel arrangement coincidence. The weighting table can control the influence of consonant arrangement and vowel arrangement according to the number of characters.
請求項5に記載の発明によれば、辞書データベースを用いて、語彙候補の発音記号配列のアクセント位置を特定し、アクセント位置の母音配列が一致している語彙候補の優先順位を高くする。アクセント位置の母音の揺らぎは少ない傾向にあるので、発音記号を利用して、より的確な語彙候補を特定することができる。 According to the fifth aspect of the present invention, the dictionary database is used to identify the accent position of the phonetic symbol sequence of the vocabulary candidate, and to increase the priority of the vocabulary candidate that matches the vowel sequence of the accent position. Since there is a tendency for the vowels at the accent position to fluctuate, more accurate vocabulary candidates can be identified using phonetic symbols.
請求項6に記載の発明によれば、語彙候補の中から選択された標準語彙が確定された場合、標準語彙に対して、入力された文字列を関連付けて辞書データベースに記録する。これにより、一度、選択された標準語彙は、マッチング処理により標準語彙に変換されるので、学習機能を実現し、効率的に標準語彙を特定することができる。 According to the sixth aspect of the present invention, when the standard vocabulary selected from the vocabulary candidates is determined, the input character string is associated with the standard vocabulary and recorded in the dictionary database. Thereby, the standard vocabulary selected once is converted into the standard vocabulary by the matching process, so that the learning function can be realized and the standard vocabulary can be efficiently identified.
本発明によれば、外来語のように発音上の曖昧さからカタカナ表記が揺らいでいる場合であっても、統一した表記を得ることができる。また、ドキュメント内の語句検索で、表記が揺らいだ同意語も検索できる。 According to the present invention, unified notation can be obtained even when katakana notation fluctuates due to pronunciation ambiguity like foreign words. You can also search for synonyms that have been shaken by a word search in the document.
以下、本発明を具体化した一実施形態を、図1〜図5を用いて説明する。本実施形態では、文書作成時に入力された文字列を、統一した表記に変更する場合に用いる語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラムとして説明する。図1に示すように、本実施形態では、語彙候補出力システムとして情報処理端末20を用いる。
Hereinafter, an embodiment embodying the present invention will be described with reference to FIGS. In the present embodiment, a vocabulary candidate output system, a vocabulary candidate output method, and a vocabulary candidate output program used when changing a character string input at the time of document creation to a unified notation will be described. As shown in FIG. 1, in this embodiment, an
情報処理端末20は、文書を作成するためのコンピュータシステムである。この情報処理端末20は、CPU、RAM、ROM等から構成された制御手段としての制御部21、データ記憶手段や通信手段等を備える。更に、情報処理端末20は、キーボードやポインティングデバイス等から構成された入力部11や、ディスプレイ等から構成された出力部12を備える。更に、情報処理端末20は、辞書データベース23、処理データ記憶部24を備える。
The
情報処理端末20の制御部21は、入力された語彙についての各種データ処理等を行なう。この制御部21は、後述する処理(マッチング処理段階、ローマ字表記変換段階、候補出力段階、データ更新段階等の各処理)を行なう。制御部21は文書作成機能部210及びカタカナ標準化機能部220を含んで構成される。
The
この文書作成機能部210は、入力部11における入力に基づいて文章の作成・編集処理を行なう。更に、制御部21は、語彙候補出力プログラムが実行されることによりカタカナ標準化機能部220として機能する。このカタカナ標準化機能部220は、マッチング処理手段221、ローマ字表記変換手段222、配列抽出手段223、配列照合手段224及びデータベース更新手段225として機能する。本実施形態では、配列抽出手段223、配列照合手段224が、候補出力手段として機能する。
The document
マッチング処理手段221は、入力された文字列を検索対象語として、辞書データベース23を検索する。
ローマ字表記変換手段222は、検索対象語の登録が無い場合には、検索対象語についてローマ字表記文字列を取得する。
The matching
When the search target word is not registered, the Roman character
配列抽出手段223は、ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出する。更に、配列抽出手段223は、ローマ字表記文字列において、母音を表記順に抽出した母音配列を抽出する。 The sequence extracting means 223 extracts a consonant sequence obtained by extracting consonants in the order of the notation in the Roman character notation character string. Furthermore, the sequence extracting means 223 extracts a vowel sequence in which vowels are extracted in the written order in the Roman character string.
配列照合手段224は、検索対象語の子音配列と、辞書データベース23に記録された子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する。更に、配列照合手段224は、検索対象語の文字数を特定し、文字数が基準文字数以下の場合には、母音配列の一致度を用いて語彙候補を特定する。
データベース更新手段225は、語彙候補において選択が行われた場合、辞書データベース23に記録されたデータを更新する。
The sequence matching means 224 compares the consonant sequence of the search target word with the consonant sequence recorded in the
The
辞書データベース23には、図2に示すように、カタカナ語彙レコード230が記録されている。このカタカナ語彙レコード230は、カタカナ語彙を登録した場合に設定され、候補が選択された場合に更新記録される。カタカナ語彙レコード230には、標準語彙
毎に、ローマ字表記、子音配列、母音配列、関連語彙に関するデータを記録するためのデータ領域が設けられている。
In the
標準語彙データ領域には、本実施形態において標準的に用いられるカタカナ語彙に関するデータが記録される。
ローマ字表記データ領域には、この語彙を、予め決定された標準方式によりローマ字に変換したローマ字配列に関するデータが記録される。本実施形態では、標準方式としてヘボン式を用いるが、日本式、訓令式、99式等の各種のローマ字や、カタカナを母音部と子音部を分けて表記できる変換方式を使用することも可能である。
In the standard vocabulary data area, data related to the Katakana vocabulary used as a standard in the present embodiment is recorded.
In the romaji notation data area, data relating to a romaji arrangement obtained by converting this vocabulary into romaji by a predetermined standard method is recorded. In this embodiment, the Hebon method is used as a standard method, but it is also possible to use various Roman characters such as Japanese, Koraku, 99, etc., or a conversion method that can separate katakana into vowel and consonant parts. is there.
子音配列データ領域には、ローマ字表記から、子音をその表記順で抽出した配列に関するデータが記録されている。
母音配列データ領域には、ローマ字表記から、母音をその表記順で抽出した配列に関するデータが記録される。
関連語彙データ領域には、利用者によって選択候補が選択された場合の入力文字に関するデータが記録される。
In the consonant arrangement data area, data relating to an arrangement in which consonants are extracted in Roman alphabet notation in the order of the notation is recorded.
In the vowel arrangement data area, data relating to an arrangement in which vowels are extracted in the order of the notation is recorded from the Roman alphabet.
In the related vocabulary data area, data related to input characters when a selection candidate is selected by the user is recorded.
一方、処理データ記憶部24には、ローマ字変換テーブル241、母音・子音テーブル242、及び基準値テーブル243が記録されている。
On the other hand, the processing
ローマ字変換テーブル241には、入力された語彙を構成するカタカナ文字をローマ字に変換するためのテーブルが記録されている。本実施形態では、母音部と子音部を分けて表記できる変換方式のローマ字変換テーブルが記録されている。 The Romaji conversion table 241 records a table for converting Katakana characters constituting the input vocabulary into Romaji. In the present embodiment, a romaji conversion table of a conversion method that can separately represent a vowel part and a consonant part is recorded.
母音・子音テーブル242には、母音と子音とを識別するためのテーブルが記録されている。ここでは、母音としては「a」、「i」…「o」、子音としては「k」、「s」、「t」、「n」…「w」が記録されている。 The vowel / consonant table 242 stores a table for identifying vowels and consonants. Here, “a”, “i”... “O” are recorded as vowels, and “k”, “s”, “t”, “n”.
基準値テーブル243には、照合方式を決定するための基準文字数や、候補を出力する場合の基準一致度に関するデータが記録されている。本実施形態の照合方式には、後述するように子音配列に基づいて候補を決定する方式と、母音配列と子音配列とを併用する方式とがある。 In the reference value table 243, data relating to the number of reference characters for determining the collation method and the reference matching degree when candidates are output is recorded. As will be described later, the collation method of the present embodiment includes a method for determining candidates based on a consonant arrangement and a method for using both a vowel arrangement and a consonant arrangement.
このように構成されたシステムを用いて行なう検索処理を、図3〜図5に従って説明する。
図3に示すように、入力文字配列は、「レクレーション」、「リクレーション」、「リクリエーション」、「リクリエイション」のように揺らぐ場合がある。そこで、本実施形態では、まず、入力文字配列をローマ字表記文字列に展開し、その子音配列に着目する。いずれの場合も、「R,K,R,SH,N」になることから、表記を標準語彙に統一させる。なお、ここでは、シ行拗音は「SH」で表現し、一体として表現することとする。
A search process performed using the system configured as described above will be described with reference to FIGS.
As shown in FIG. 3, the input character arrangement may fluctuate like “recreation”, “recreation”, “recreation”, and “recreation”. Therefore, in this embodiment, first, the input character array is expanded into a Roman character notation character string, and attention is paid to the consonant array. In any case, since it becomes “R, K, R, SH, N”, the notation is unified to the standard vocabulary. Note that here, the roaring roaring is expressed as “SH” and expressed as one.
本実施形態では、辞書データベース23には、図5に示すように、標準語彙として「リクレーション」のカタカナ語彙レコード230が登録されている場合を想定する。この「リクレーション」のローマ字表記文字列は「RIKURE−SHON」となる。なお、ここでは、長音記号の表記は「−」(ハイフン)で表現することとする。従って、このカタカナ語彙レコード230には、子音配列としては「R,K,R,SH,N」、母音配列としては「I,U,E,O」が記録されている。そして、関連語彙は登録されていないものとする。
In the present embodiment, it is assumed that a “recreation”
図4に示すように、制御部21は、検索対象語の取得処理を実行する(ステップS1−
1)。具体的には、文書作成機能部210は、入力部11において入力された語彙を取得する。そして、入力語彙にカタカナ文字列が含まれる場合には、文書作成機能部210は、カタカナ文字列を検索対象語として、カタカナ標準化機能部220に提供する。本実施形態では、図5に示すように、「レクレーション」という文字列が入力された場合を想定する。そして、カタカナ標準化機能部220のマッチング処理手段221は、制御部21のキャッシュメモリに検索対象語501を記録する。
As illustrated in FIG. 4, the
1). Specifically, the document
次に、制御部21は、マッチング処理を実行する(ステップS1−2)。具体的には、カタカナ標準化機能部220のマッチング処理手段221が、取得した検索対象語と、辞書データベース23に記録されたカタカナ語彙レコード230に含まれる語彙とを照合する。ここでは、カタカナ語彙レコード230に含まれる標準語彙及び関連語彙を検索する。
Next, the
検索対象語と一致する語彙が記録されたカタカナ語彙レコード230を検出した場合(ステップS1−3において「YES」の場合)、マッチング処理手段221は、標準語彙を出力する(ステップS1−4)。具体的には、検索対象語と標準語彙とが一致する場合には、そのまま標準語彙(すなわち、検索対象語)を出力する。また、検索対象語と関連語彙とが一致する場合には、このカタカナ語彙レコード230の標準語彙を特定して出力する。
When the
一方、検索対象と一致する語彙が記録されたカタカナ語彙レコード230を検出できない場合(ステップS1−3において「NO」の場合)、制御部21はローマ字変換処理を実行する(ステップS1−5)。具体的には、カタカナ標準化機能部220のローマ字表記変換手段222が、ローマ字変換テーブル241を用いて、検索対象語を構成するカタカナ文字をローマ字に変換し、キャッシュメモリに記録する。本実施形態では、図5に示すように「REKURE−SHON」のローマ字表記文字列502に変換される。
On the other hand, when the
次に、制御部21は、子音配列/母音配列の抽出処理を実行する(ステップS1−6)。具体的には、カタカナ標準化機能部220の配列抽出手段223が、図5に示すように、ローマ字表記文字列502を構成する文字を分けて構成文字配列503を取得する。次に、配列抽出手段223は、排除文字テーブル(図示せず)を用いて、特殊記号の排除処理を実行する。ここでは、長音記号が排除される。この結果、アルファベットから構成された構成文字配列504を取得する。
Next, the
そして、配列抽出手段223は、母音・子音テーブル242を用いて、構成文字配列504に含まれるアルファベットを、その順番に並べた子音配列505と母音配列506とを生成し、両者をキャッシュメモリに記録する。
Then, using the vowel / consonant table 242, the
次に、制御部21は、子音配列の一致度の算出処理を実行する(ステップS1−7)。具体的には、カタカナ標準化機能部220の配列照合手段224が、辞書データベース23に記録された子音配列と、構成文字配列504から生成した子音配列505とを比較する。そして、配列と一致する文字数を構成文字数で除算して一致度を算出する。この一致度が、基準値テーブル243に記録された基準一致度より高いカタカナ語彙レコード230を特定する。そして、このカタカナ語彙レコード230の標準語彙を抽出する。
Next, the
次に、制御部21は、全体文字数と基準文字数との比較処理を実行する(ステップS1−8)。具体的には、カタカナ標準化機能部220の配列照合手段224が、子音配列及び母音配列の構成文字数を総計する。更に、配列照合手段224は、基準値テーブル243の基準文字数を取得する。そして、配列照合手段224は、構成文字数と基準文字数とを比較する。
Next, the
全体文字数が基準文字数より大きい場合(ステップS1−8において「YES」の場合)、カタカナ標準化機能部220は、子音配列の一致度により特定した標準語彙を候補語彙として出力する(ステップS1−10)。
If the total number of characters is larger than the reference number of characters (in the case of “YES” in step S1-8), the katakana
一方、全体文字数が基準文字数より小さい場合(ステップS1−8において「NO」の場合)、制御部21は、更に母音配列の一致度の算出処理を実行する(ステップS1−9)。この場合も、ステップS1−7と同様に実行される。具体的には、カタカナ標準化機能部220の配列照合手段224が、辞書データベース23に記録された母音配列と、構成文字配列504から生成した母音配列506とを比較する。そして、配列と一致する文字数を構成文字数で除算して一致度を算出する。
On the other hand, when the total number of characters is smaller than the reference number of characters (in the case of “NO” in step S1-8), the
そして、子音配列の一致度と母音配列の一致度とを、制御部21のメモリに記憶させた所定の関数(本実施形態では、乗算)に導入して、その関数値により全体一致度を算出する。この全体一致度が、基準値テーブル243に記録された基準一致度より高いカタカナ語彙レコード230を特定する。そして、このカタカナ語彙レコード230の標準語彙を抽出する。
Then, the coincidence degree of the consonant arrangement and the coincidence degree of the vowel arrangement are introduced into a predetermined function (multiplication in the present embodiment) stored in the memory of the
そして、配列照合手段224は、この標準語彙を候補語彙として出力する(ステップS1−10)。カタカナ標準化機能部220は、文書作成機能部210に、抽出した標準語彙を候補として提供する。この文書作成機能部210は、候補語彙を出力部12に表示して利用者に選択を促す。
And the arrangement | sequence collation means 224 outputs this standard vocabulary as a candidate vocabulary (step S1-10). The katakana
そして、制御部21は、データベース更新処理を実行する(ステップS1−11)。具体的には、文書作成機能部210は、入力部11において選択された候補語彙を取得する。そして、文書作成機能部210は、候補語彙をカタカナ標準化機能部220に提供する。カタカナ標準化機能部220のデータベース更新手段225は、選択された候補語彙を辞書データベースのカタカナ語彙レコード230の関連語彙データ領域に記録する。
And the
以上のように、制御部21のカタカナ標準化機能部220は、カタカナ文字を検出するたびに検索処理を実行する。
以上、本実施形態によれば、以下に示す効果を得ることができる。
As described above, the katakana
As described above, according to the present embodiment, the following effects can be obtained.
・ 上記実施形態では、検索対象と一致する語彙が記録されたカタカナ語彙レコード230を検出できない場合、制御部21はローマ字変換処理を実行する(ステップS1−5)。そして、制御部21は、子音配列/母音配列の抽出処理を実行する(ステップS1−6)。制御部21は、この子音配列の一致度の算出処理を実行する(ステップS1−7)。外来語のように表記がゆれる場合でも、子音のゆれは少ないことが多い。このため、子音配列を抜き出して、辞書データベース23の登録語と照合するため、効率よく標準語彙を特定することができる。
In the above embodiment, when the
・ 上記実施形態では、制御部21は、全体文字数と基準文字数との比較処理を実行する(ステップS1−8)。全体文字数が基準文字数より小さい場合、制御部21は、更に母音配列の一致度の算出処理を実行する(ステップS1−9)。文字数が少ない場合には、子音配列に含まれる文字数が少ないため、母音配列を考慮することにより、更に精度よく標準語彙を特定することができる。
In the above embodiment, the
なお、上記実施形態は、以下の態様に変更してもよい。
○ 上記実施形態では、文書を作成するための情報処理端末20において、語彙候補出力処理を実行させたが、これに限定されるものではない。例えば、クライアント端末から
の要求に応じて、サーバで語彙候補出力処理を実行してもよい。
In addition, you may change the said embodiment into the following aspects.
In the above embodiment, the vocabulary candidate output process is executed in the
○ 上記実施形態では、制御部21は、全体文字数と基準文字数との比較処理を実行する(ステップS1−8)。そして、全体文字数が基準文字数より小さい場合、制御部21は、更に母音配列の一致度の算出処理を実行する(ステップS1−9)。そして、子音配列の一致度と母音配列の一致度とを乗算して、全体一致度を算出する。これに代えて、子音配列の一致度や母音配列の一致度に重み付けを行なって、全体一致度を算出してもよい。この処理を、図6に従って説明する。
In the above embodiment, the
この場合、処理データ記憶部24に、文字総数に対応して、母音配列の一致度に対する重み付け値を記録した文字数重み付けテーブル245を記録しておく。この文字数重み付けテーブル245においては、文字総数が少ない場合に、母音配列の一致度に対する重み付け値が大きくなるように設定しておく。
In this case, a number-of-characters weighting table 245 that records weighting values for the degree of coincidence of vowel arrays is recorded in the processing
そして、上記実施形態のステップS1−1〜S1−7と同様に、制御部21は、ステップS2−1〜S2−7の処理を実行する。そして、制御部21は、全体文字数に基づいて母音配列の重み付け処理を実行する(ステップS2−8)。具体的には、カタカナ標準化機能部220の配列照合手段224が、子音配列及び母音配列の構成文字数を総計する。更に、配列照合手段224は、文字数重み付けテーブル245において、全体文字数に対応した重み付け値を取得する。
And the
そして、子音配列の一致度、及び前記母音配列の一致度に対して重み付け値を所定の関数に代入した値を用いて全体一致度を算出する(ステップS2−9)。そして、この全体一致度の大きさに基づいて語彙候補の優先順位を決定して候補語彙を出力する(ステップS2−10)。そして、ステップS1−11と同様に、制御部21はデータベース更新処理を実行する(S2−11)。
Then, using the value obtained by assigning a weighting value to a predetermined function for the matching degree of the consonant arrangement and the matching degree of the vowel arrangement, the overall matching degree is calculated (step S2-9). Then, the priority order of vocabulary candidates is determined based on the magnitude of the overall matching score, and the candidate vocabulary is output (step S2-10). And the
これにより、全体文字数が多い場合には子音配列を優先して候補語彙を特定するとともに、全体文字数が少ない場合には母音配列を優先して候補語彙を特定する。従って、全体文字数が多い場合には、曖昧さが大きい母音配列を排除して、子音配列により候補語彙を特定することができる。 Thereby, when the total number of characters is large, the candidate vocabulary is specified with priority on the consonant arrangement, and when the total number of characters is small, the candidate vocabulary is specified with priority on the vowel arrangement. Therefore, when the total number of characters is large, it is possible to specify a candidate vocabulary based on a consonant sequence by eliminating a vowel sequence having a large ambiguity.
○ 上記実施形態では、子音配列の一致度と母音配列の一致度から語彙候補を特定する。これに加えて、アクセントを考慮して語彙候補を特定することも可能である。辞書データベース23のカタカナ語彙レコード230に、母音配列に対応させて、発音記号配列によって決定したアクセント位置を記録しておく。更に、処理データ記憶部24に、アクセント位置の文字に対する重み付け値を記録したアクセント重み付けテーブルを記録しておく。そして、制御部21は、辞書データベース23を用いて、語彙候補の発音記号配列のアクセント位置を特定し、アクセント位置の母音配列が一致している語彙候補の一致度に重み付け値を乗算することにより、全体一致度を大きくして優先順位を高くする。アクセント位置の母音の揺らぎは少ない傾向にあるため、発音を考慮して候補語彙を特定することができる。
In the embodiment described above, vocabulary candidates are specified from the consonant arrangement coincidence and the vowel arrangement coincidence. In addition to this, it is also possible to specify vocabulary candidates in consideration of accents. Accent positions determined by the phonetic symbol arrangement are recorded in the
○ 上記実施形態では、検索対象語と一致する語彙が記録されたカタカナ語彙レコード230を検出した場合、マッチング処理手段221は、標準語彙を出力する(ステップS1−4)。ここで、検索対象語と一致する複数の関連語彙が検出された場合には、各関連語彙に対応するカタカナ語彙レコード230の標準語彙を特定し、これらを選択候補として出力させてもよい。一つの表記が複数の標準語彙に関連付けられている場合にも対応することができる。
In the above embodiment, when the
○ 上記実施形態では、入力部11において入力された語彙を取得して、統一した表記に変更するように構成したが、既存のドキュメント内の語句検索で、表記が揺らいだ同意語も検索できるように構成することも可能である。この場合には、制御部21が、既存のドキュメント内の語彙を取得して、図4に示す処理を実行する。
In the above embodiment, the vocabulary input in the
11…入力部、12…出力部、20…情報処理端末、21…制御部、210…文書作成機能部、220…カタカナ標準化機能部、221…マッチング処理手段、222…ローマ字表記変換手段、223…配列抽出手段、224…配列照合手段、225…データベース更新手段、23…辞書データベース、230…カタカナ語彙レコード、24…処理データ記憶部、241…ローマ字変換テーブル、242…母音・子音テーブル、243…基準値テーブル、245…文字数重み付けテーブル、501…検索対象語、502…ローマ字表記文字列、503…構成文字配列、504…構成文字配列、505…子音配列、506…母音配列。
DESCRIPTION OF
Claims (8)
前記制御手段が、
入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理手段と、
前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換手段と、
前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、
前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力手段と
を備えたことを特徴とする語彙候補出力システム。 The vocabulary of the input character string using the standard vocabulary, a dictionary database in which consonant sequences are extracted in the romanized character strings for each standard vocabulary and registered, and a control means for outputting vocabulary candidates A system for outputting candidates,
The control means is
Matching processing means for searching using the dictionary database, using the input character string as a search target word,
When the search target word is not registered in the dictionary database, a Roman character notation conversion means for acquiring a Roman character notation character string for the search target word;
In the Roman character string, extract a consonant array that extracts consonants in the notation order;
A candidate output means for comparing the consonant arrangement registered in the dictionary database with the consonant arrangement of the search target word, specifying a standard vocabulary in descending order of matching degree, and outputting the standard vocabulary as a vocabulary candidate; Vocabulary candidate output system characterized by comprising.
前記候補出力手段は、更に、
前記ローマ字表記文字列において、母音を表記順に抽出した母音配列を抽出し、
前記辞書データベースに登録された母音配列と、前記検索対象語の母音配列とを比較し、
前記子音配列の一致度と母音配列の一致度とを所定の関数に導入して関数値を算出し、この関数値の高い順に標準語彙を特定し、この標準語彙を語彙候補として出力することを特徴とする請求項1に記載の語彙候補出力システム。 In the dictionary database, a vowel array in which vowels are extracted in the order of notation in a character string in Roman alphabet for each standard vocabulary is further registered,
The candidate output means further includes:
In the Roman character notation string, extract a vowel array in which the vowels are extracted in the notation order,
Compare the vowel arrangement registered in the dictionary database with the vowel arrangement of the search target word,
Calculating the function value by introducing the matching degree of the consonant arrangement and the matching degree of the vowel arrangement into a predetermined function, specifying the standard vocabulary in descending order of the function value, and outputting the standard vocabulary as a vocabulary candidate; The vocabulary candidate output system according to claim 1, wherein:
前記候補出力手段は、
前記検索対象語の文字総数を特定し、
前記重み付けテーブルを用いて、前記検索対象語の文字数に対応した重み付け値を取得し、
前記子音配列の一致度、及び前記母音配列の一致度に対して重み付け値を所定の関数に代入した値を用いて、語彙候補の優先順位を決定することを特徴とする請求項2に記載の語彙候補出力システム。 Corresponding to the total number of characters, a weighting table that records weighting values for the degree of coincidence of vowel sequences is provided.
The candidate output means includes
Specify the total number of characters of the search target word,
Using the weighting table, obtain a weighting value corresponding to the number of characters of the search target word,
3. The priority order of vocabulary candidates is determined using a value obtained by assigning a weighting value to a predetermined function with respect to the matching degree of the consonant arrangement and the matching degree of the vowel arrangement. Vocabulary candidate output system.
前記候補出力手段は、
前記辞書データベースを用いて、語彙候補の発音記号配列のアクセント位置を特定し、前記アクセント位置の母音配列が一致している語彙候補の優先順位を高くすることを特徴とする請求項2〜4のいずれか一つに記載の語彙候補出力システム。 The dictionary database further registers phonetic symbol sequences for each standard vocabulary,
The candidate output means includes
5. The dictionary database is used to identify accent positions of phonetic symbol sequences of vocabulary candidates and to increase the priority of vocabulary candidates that match the vowel sequences of the accent positions. The vocabulary candidate output system according to any one of the above.
前記制御手段が、
入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理段階と、
前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換段階と、
前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、
前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力段階と
を実行することを特徴とする語彙候補出力方法。 The vocabulary of the input character string using the standard vocabulary, a dictionary database in which consonant sequences are extracted in the romanized character strings for each standard vocabulary and registered, and a control means for outputting vocabulary candidates A method for outputting candidates,
The control means is
A matching processing step of searching using the dictionary database as an input character string as a search target word;
If there is no registration of the search target word in the dictionary database, a Roman character notation conversion step of obtaining a Roman character notation character string for the search target word;
In the Roman character string, extract a consonant array that extracts consonants in the notation order;
A candidate output step of comparing the consonant arrangement registered in the dictionary database with the consonant arrangement of the search target word, specifying a standard vocabulary in descending order of matching degree, and outputting the standard vocabulary as a vocabulary candidate. A vocabulary candidate output method characterized by being executed.
前記制御手段を、
入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理手段と、
前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換手段と、
前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、
前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力手段
として機能させることを特徴とする語彙候補出力プログラム。
The vocabulary of the input character string using the standard vocabulary, a dictionary database in which consonant sequences are extracted in the romanized character strings for each standard vocabulary and registered, and a control means for outputting vocabulary candidates A program for outputting candidates,
The control means;
Matching processing means for searching using the dictionary database, using the input character string as a search target word,
When the search target word is not registered in the dictionary database, a Roman character notation conversion means for acquiring a Roman character notation character string for the search target word;
In the Roman character string, extract a consonant array that extracts consonants in the notation order;
Functions as candidate output means for comparing the consonant arrangement registered in the dictionary database with the consonant arrangement of the search target word, specifying the standard vocabulary in descending order of coincidence, and outputting the standard vocabulary as vocabulary candidates Vocabulary candidate output program characterized by having
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006236915A JP2008059389A (en) | 2006-08-31 | 2006-08-31 | Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006236915A JP2008059389A (en) | 2006-08-31 | 2006-08-31 | Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008059389A true JP2008059389A (en) | 2008-03-13 |
Family
ID=39242022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006236915A Pending JP2008059389A (en) | 2006-08-31 | 2006-08-31 | Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008059389A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012014699A (en) * | 2010-06-30 | 2012-01-19 | Business Objects Software Ltd | Phonetic key for japanese language |
JP2018180260A (en) * | 2017-04-12 | 2018-11-15 | トヨタ自動車株式会社 | Voice recognition device |
JP2020030379A (en) * | 2018-08-24 | 2020-02-27 | ソプラ株式会社 | Recognition result correction device, recognition result correction method, and program |
CN111399666A (en) * | 2020-03-05 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | Candidate word display method and device and electronic equipment |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0362260A (en) * | 1989-07-31 | 1991-03-18 | Nippon Telegr & Teleph Corp <Ntt> | Detecting/correcting device for katakana word error |
JPH064571A (en) * | 1992-06-18 | 1994-01-14 | Nec Corp | Synonym definition device |
JPH0869467A (en) * | 1994-08-29 | 1996-03-12 | Fujitsu Ltd | Japanese word processor |
JP2006053666A (en) * | 2004-08-10 | 2006-02-23 | Olympus Corp | Image processing program, image processing method, image processing apparatus, and recording medium |
-
2006
- 2006-08-31 JP JP2006236915A patent/JP2008059389A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0362260A (en) * | 1989-07-31 | 1991-03-18 | Nippon Telegr & Teleph Corp <Ntt> | Detecting/correcting device for katakana word error |
JPH064571A (en) * | 1992-06-18 | 1994-01-14 | Nec Corp | Synonym definition device |
JPH0869467A (en) * | 1994-08-29 | 1996-03-12 | Fujitsu Ltd | Japanese word processor |
JP2006053666A (en) * | 2004-08-10 | 2006-02-23 | Olympus Corp | Image processing program, image processing method, image processing apparatus, and recording medium |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012014699A (en) * | 2010-06-30 | 2012-01-19 | Business Objects Software Ltd | Phonetic key for japanese language |
JP2018180260A (en) * | 2017-04-12 | 2018-11-15 | トヨタ自動車株式会社 | Voice recognition device |
JP2020030379A (en) * | 2018-08-24 | 2020-02-27 | ソプラ株式会社 | Recognition result correction device, recognition result correction method, and program |
CN111399666A (en) * | 2020-03-05 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | Candidate word display method and device and electronic equipment |
CN111399666B (en) * | 2020-03-05 | 2023-07-21 | 百度在线网络技术(北京)有限公司 | Candidate word display method and device and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5997217B2 (en) | A method to remove ambiguity of multiple readings in language conversion | |
Azmi et al. | A survey of automatic Arabic diacritization techniques | |
KR101425182B1 (en) | Typing candidate generating method for enhancing typing efficiency | |
JP5599662B2 (en) | System and method for converting kanji into native language pronunciation sequence using statistical methods | |
JP5362095B2 (en) | Input method editor | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
CN103970798B (en) | The search and matching of data | |
JP2003514304A5 (en) | ||
WO2008134208A1 (en) | Recognition architecture for generating asian characters | |
US8583415B2 (en) | Phonetic search using normalized string | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
Jain et al. | “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning | |
Elshafei et al. | Machine Generation of Arabic Diacritical Marks. | |
JP2008059389A (en) | Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program | |
Bagul et al. | Rule based POS tagger for Marathi text | |
Onyenwe et al. | Toward an effective igbo part-of-speech tagger | |
JP7102710B2 (en) | Information generation program, word extraction program, information processing device, information generation method and word extraction method | |
Kaur et al. | Hybrid approach for spell checker and grammar checker for Punjabi | |
Kang et al. | Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval | |
JP3952964B2 (en) | Reading information determination method, apparatus and program | |
QasemiZadeh et al. | Adaptive language independent spell checking using intelligent traverse on a tree | |
JP2009020567A (en) | Document retrieval device | |
JPH08339376A (en) | Foreign language retrieving device and information retrieving system | |
KR102278288B1 (en) | Apparatus and method for searching text based on phoneme | |
JP2014164260A (en) | Information processor and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110408 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110419 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110816 |