JP2008059389A - Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program - Google Patents

Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program Download PDF

Info

Publication number
JP2008059389A
JP2008059389A JP2006236915A JP2006236915A JP2008059389A JP 2008059389 A JP2008059389 A JP 2008059389A JP 2006236915 A JP2006236915 A JP 2006236915A JP 2006236915 A JP2006236915 A JP 2006236915A JP 2008059389 A JP2008059389 A JP 2008059389A
Authority
JP
Japan
Prior art keywords
vocabulary
consonant
dictionary database
candidate output
search target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006236915A
Other languages
Japanese (ja)
Inventor
Shoji Kubota
昭治 窪田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mizuho Information and Research Institute Inc
Original Assignee
Mizuho Information and Research Institute Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mizuho Information and Research Institute Inc filed Critical Mizuho Information and Research Institute Inc
Priority to JP2006236915A priority Critical patent/JP2008059389A/en
Publication of JP2008059389A publication Critical patent/JP2008059389A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a vocabulary candidate output system, a vocabulary candidate output method and a vocabulary candidate output program, capable of obtaining a unified declaration, even when katakana syllabaries are fluctuated because of ambiguity on pronunciation as in a word of foreign origin. <P>SOLUTION: A control part 21 of an information processing terminal 20 acquires a retrieval objective word, and a matching processing means 221 collates the acquired retrieval objective word with a vocabulary recorded in a dictionary database 23. The control part 21 converts the retrieval objective word into Roman characters, when a vocabulary consistent therewith is not recorded, and extracts consonant/vowel sequences. A sequence collation means 224 compares a consonant sequence recorded in the dictionary database 23, with the consonant sequence generated from a constitutive character sequence to calculate the consistency therebetween. The control part 21 executes further calculation processing for the consistency of the vowel sequence, when total character number is smaller than a reference character number. The sequence collation means 224 executes an output as a candidate vocabulary, based on the consistency. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、外来語等のように、表記が曖昧な語彙が入力されたときでも、統一された語彙を出力するための語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラムに関する。   The present invention relates to a vocabulary candidate output system, a vocabulary candidate output method, and a vocabulary candidate output program for outputting a unified vocabulary even when a vocabulary with ambiguous notation such as a foreign word is input.

今日、各種データベースの検索時や文書作成時に外来語などのカタカナ語彙を用いることが多くなっている。しかし、外来語の場合、発音等から表記が決められていることがあり、表示が統一されていない場合がある。このため、表記が曖昧な場合においても正しいスペリングが得られるようにする仮名外来語スペリング変換装置に関する技術も検討されている(例えば、特許文献1参照。)。この文献記載の技術では、仮名文字列を入力するための文字列入力部と、この入力された仮名文字列を一時格納しておく一時記憶部と、ある外来語の表音に対応する仮名,カタカナ,そのスペリング,意味を含む文字情報を記憶した辞書記憶部と、仮名文字列中の長音部の変換候補仮名文字に対応する長音文字が格納されている変換テーブルとを備える。そして、変換候補仮名文字を特定するとともに変換テーブル内を検索し、かつ該当長音文字に変換する。この変換された長音文字を含む仮名文字列を格納し、格納された仮名文字列に対応する文字情報を辞書記憶部により検索するとともに目的の文字情報を選択する。そして、選択された文字情報を表示する。   Today, Katakana vocabulary such as foreign words is often used when searching various databases and creating documents. However, in the case of foreign words, the notation may be determined by pronunciation or the like, and the display may not be unified. For this reason, a technique relating to a kana / foreign word spelling conversion device that allows correct spelling to be obtained even when the notation is ambiguous (for example, see Patent Document 1). In the technique described in this document, a character string input unit for inputting a kana character string, a temporary storage unit for temporarily storing the input kana character string, a kana corresponding to a phonetic of a foreign word, A dictionary storage unit that stores character information including katakana, its spelling, and meaning, and a conversion table that stores long sound characters corresponding to the conversion candidate kana characters of the long sound part in the kana character string. Then, a conversion candidate kana character is specified, the conversion table is searched, and the corresponding long sound character is converted. A kana character string including the converted long sound character is stored, character information corresponding to the stored kana character string is searched by the dictionary storage unit, and target character information is selected. Then, the selected character information is displayed.

また、利用者によって入力された検索キーワードを含む文字列をデータベース中で検索する場合、曖昧語を利用することがある。そこで、効率良く曖昧検索を行なえるようにするデータベース検索方法に関する技術も開示されている(例えば、特許文献2参照。)。この文献記載の技術では、検索キーワードから一群の連語を作成する。この場合、各連語は、ひらがな、カタカナ及び英数字の内の同一の文字種の字のみで構成される場合と、それ以外の場合とに分けて生成する。そして、データベース中の各文字列と一連の連語との一致度を算出する。そして、一致度が閾値以上である文字列を検索文字列として用いて検索を行なう。
特開平5−189474号公報(第1頁) 特開平8−287075号公報(第1頁)
In addition, when searching for a character string including a search keyword input by a user in a database, an ambiguous word may be used. Therefore, a technique related to a database search method that enables efficient fuzzy search is also disclosed (for example, see Patent Document 2). In the technique described in this document, a group of collocations is created from a search keyword. In this case, each collocation is generated separately for the case where it is composed only of characters of the same character type among hiragana, katakana, and alphanumeric characters, and for other cases. Then, the degree of coincidence between each character string in the database and a series of consecutive words is calculated. Then, a search is performed using a character string having a matching degree equal to or higher than a threshold value as a search character string.
Japanese Patent Laid-Open No. 5-189474 (first page) JP-A-8-287075 (first page)

しかし、日本語のカタカナ表記は、慣習や企業、人によって様々である。例えば、「マネージメント」のように表記する場合もあれば、「マネジメント」のように表記する場合もある。また、「レクレーション」に関しては、「リクレーション」、「リクリエイション」のように表記する場合もある。「ウェーハ」に関しては、「ウェハー」、「ウエハ」のように表記する場合もある。また、最近の表記では英語の「V」を「ヴ」と書くことも許されるため、「バージョン」を「ヴァージョン」と表記されるようなこともある。   However, Japanese katakana notation varies according to customs, companies, and people. For example, it may be expressed as “management” or may be expressed as “management”. In addition, “recreation” may be expressed as “recreation” or “recreation”. “Wafer” may be expressed as “wafer” or “wafer”. Also, in recent notation, it is allowed to write “V” in English as “V”, so “version” is sometimes expressed as “version”.

この場合、「マネージメント or マネジメント」のように、利用されているカタカナ語を想像して検索式を作成して検索を行なうことも可能である。しかし、この場合も想定外の表記について検索することができない。   In this case, as in “management or management”, it is possible to imagine a katakana language being used and create a search formula to perform a search. However, even in this case, it is not possible to search for an unexpected notation.

本発明は、上記課題を解決するためになされたものであり、その目的は、外来語のように発音上の曖昧さからカタカナ表記が揺らいでいる場合であっても、統一した表記を得るための語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラムを提供することにある。   The present invention has been made to solve the above problems, and its purpose is to obtain a unified notation even when katakana notation is fluctuating due to pronunciation ambiguity like foreign words. A vocabulary candidate output system, a vocabulary candidate output method, and a vocabulary candidate output program.

上記問題点を解決するために、請求項1に記載の発明は、標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力するシステムであって、前記制御手段が、入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理手段と、前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換手段と、前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力手段とを備えたことを要旨とする。   In order to solve the above-mentioned problems, the invention described in claim 1 includes a dictionary database in which a standard vocabulary, a consonant sequence in which consonants are extracted in a romanized character string for each standard vocabulary, and a vocabulary candidate A lexical candidate for an input character string using a control means for performing output processing, wherein the control means searches using the dictionary database using the input character string as a search target word A matching processing means, a Roman character notation conversion means for acquiring a Roman character notation character string for the search target word, and a consonant in the Roman character notation character string when the search target word is not registered in the dictionary database. Extract the consonant sequences extracted in the order of notation, compare the consonant sequence registered in the dictionary database with the consonant sequence of the search target word,致度 identify standard vocabulary descending order, and summarized in that and a candidate output means for outputting the standard vocabulary as a vocabulary candidate.

請求項2に記載の発明は、請求項1に記載の語彙候補出力システムにおいて、前記辞書データベースには、標準語彙毎にローマ字表記の文字列において母音を表記順に抽出した母音配列が更に登録され、前記候補出力手段は、更に、前記ローマ字表記文字列において、母音を表記順に抽出した母音配列を抽出し、前記辞書データベースに登録された母音配列と、前記検索対象語の母音配列とを比較し、前記子音配列の一致度と母音配列の一致度とを所定の関数に導入して関数値を算出し、この関数値の高い順に標準語彙を特定し、この標準語彙を語彙候補として出力することを要旨とする。   The invention according to claim 2 is the vocabulary candidate output system according to claim 1, wherein in the dictionary database, a vowel array in which vowels are extracted in order of notation in a character string in Roman letters is registered for each standard vocabulary, The candidate output means further extracts a vowel array in which the vowels are extracted in the written order in the Roman character notation character string, and compares the vowel array registered in the dictionary database with the vowel array of the search target word, Calculating the function value by introducing the matching degree of the consonant arrangement and the matching degree of the vowel arrangement into a predetermined function, specifying the standard vocabulary in descending order of the function value, and outputting the standard vocabulary as a vocabulary candidate; The gist.

請求項3に記載の発明は、請求項2に記載の語彙候補出力システムにおいて、前記候補出力手段は、前記検索対象語の文字数を特定し、前記文字数が基準文字数以下の場合に、前記母音配列の一致度を用いて語彙候補を特定することを要旨とする。   According to a third aspect of the present invention, in the vocabulary candidate output system according to the second aspect, the candidate output means specifies the number of characters of the search target word, and the vowel array when the number of characters is equal to or less than a reference number of characters. The gist is to identify vocabulary candidates using the degree of coincidence.

請求項4に記載の発明は、請求項2に記載の語彙候補出力システムにおいて、文字総数に対応して、母音配列の一致度に対する重み付け値を記録した重み付けテーブルを備え、前記候補出力手段は、前記検索対象語の文字数を特定し、前記重み付けテーブルを用いて、前記検索対象語の文字総数に対応した重み付け値を取得し、前記子音配列の一致度、及び前記母音配列の一致度に対して重み付け値を所定の関数に代入した値を用いて、語彙候補の優先順位を決定することを要旨とする。   The invention according to claim 4 is the vocabulary candidate output system according to claim 2, further comprising a weighting table in which weighting values for the degree of coincidence of vowel sequences are recorded corresponding to the total number of characters, and the candidate output means includes: The number of characters of the search target word is specified, and using the weighting table, a weighting value corresponding to the total number of characters of the search target word is obtained, and the consonant arrangement matching degree and the vowel arrangement matching degree are obtained. The gist is to determine priorities of vocabulary candidates using a value obtained by assigning a weighting value to a predetermined function.

請求項5に記載の発明は、請求項2〜4のいずれか一つに記載の語彙候補出力システムにおいて、前記辞書データベースには、標準語彙毎に発音記号配列が更に登録され、前記候補出力手段は、前記辞書データベースを用いて、語彙候補の発音記号配列のアクセント位置を特定し、前記アクセント位置の母音配列が一致している語彙候補の優先順位を高くすることを要旨とする。   According to a fifth aspect of the present invention, in the vocabulary candidate output system according to any one of the second to fourth aspects, a phonetic symbol array is further registered for each standard vocabulary in the dictionary database, and the candidate output means The gist is to identify the accent position of the phonetic symbol sequence of the vocabulary candidate using the dictionary database, and to increase the priority of the vocabulary candidate that matches the vowel sequence of the accent position.

請求項6に記載の発明は、請求項1〜5のいずれか一つに記載の語彙候補出力システムにおいて、前記制御手段が、語彙候補の中から選択された標準語彙が確定された場合、前記標準語彙に対して、前記入力された文字列を関連付けて辞書データベースに記録するデータベース更新手段を更に備えたことを要旨とする。   The invention according to claim 6 is the vocabulary candidate output system according to any one of claims 1 to 5, wherein when the control unit determines a standard vocabulary selected from vocabulary candidates, The gist of the present invention is that it further includes database updating means for associating the inputted character string with a standard vocabulary and recording it in a dictionary database.

請求項7に記載の発明は、標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力する方法であって、前記制御手段が、入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理段階と、前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換段階と、前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、前記辞書デ
ータベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力段階とを実行することを要旨とする。
The invention according to claim 7 uses a standard vocabulary, a dictionary database in which consonant sequences are extracted in a character string in Roman alphabet notation for each standard vocabulary and registered, and control means for performing processing for outputting vocabulary candidates. A matching processing step in which the control means searches using the dictionary database using the input character string as a search target word, and a method for outputting vocabulary candidates of the input character string, and the dictionary database If the search target word is not registered, a Roman character notation conversion step for acquiring a Roman character notation character string for the search target word, and a consonant array in which consonants are extracted in the notation order in the Roman character notation character string are extracted. The consonant arrangement registered in the dictionary database is compared with the consonant arrangement of the search target word, and the standard vocabulary is specified in descending order of the degree of coincidence between the two. And summarized in that to perform the candidate output step of outputting the standard vocabulary as a vocabulary candidate.

請求項8に記載の発明は、標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力するプログラムであって、前記制御手段を、入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理手段と、前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換手段と、前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力手段として機能させることを要旨とする。   The invention according to claim 8 uses a standard vocabulary, a dictionary database in which consonant sequences are extracted in a character string in Roman alphabet notation for each standard vocabulary and registered, and control means for performing processing for outputting vocabulary candidates. A program for outputting vocabulary candidates of an input character string, wherein the control means searches the dictionary database using the input character string as a search target word, and the dictionary database If the search target word is not registered, a Roman character notation conversion means for acquiring a Roman character notation character string for the search target word, and a consonant array in which consonants are extracted in the notation order in the Roman character notation character string are extracted. The consonant arrangement registered in the dictionary database is compared with the consonant arrangement of the search target word, and the standard vocabulary Constant, and the subject matter that function as candidate output means for outputting the standard vocabulary as a vocabulary candidate.

(作用)
請求項1、7又は8に記載の発明によれば、制御手段が、辞書データベースに検索対象語の登録が無い場合には、検索対象語についてローマ字表記文字列を取得する。そして、ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定する。発音等に起因して表記が曖昧な場合にも、比較的、子音配列は共通することが多い。この点に着目することにより、標準語彙を語彙候補として効率的に特定し、表記を統一することができる。
(Function)
According to the first, seventh, or eighth aspect of the invention, when the search target word is not registered in the dictionary database, the control means obtains a Roman character string for the search target word. Then, in the Roman character notation character string, a consonant array in which consonants are extracted in the order of notation is extracted, and the consonant array registered in the dictionary database is compared with the consonant array of the search target word. Identify vocabulary. Even when the notation is ambiguous due to pronunciation or the like, the consonant arrangement is relatively common in many cases. By paying attention to this point, the standard vocabulary can be efficiently identified as vocabulary candidates and the notation can be unified.

請求項2に記載の発明によれば、ローマ字表記文字列において、母音を表記順に抽出した母音配列を抽出する。そして、辞書データベースに登録された母音配列と、検索対象語の母音配列とを比較し、子音配列の一致度と母音配列の一致度とを所定の関数に導入して関数値を算出し、この関数値の高い順に標準語彙を特定する。これにより、子音配列と母音配列とを分けて、語彙候補を出力することができる。   According to the second aspect of the present invention, a vowel array in which vowels are extracted in the written order is extracted from a Roman character string. Then, the vowel array registered in the dictionary database is compared with the vowel array of the search target word, the coincidence degree of the consonant array and the coincidence degree of the vowel array are introduced into a predetermined function, and a function value is calculated. Specify standard vocabulary in descending order of function value. Thereby, a vocabulary candidate can be output by dividing the consonant arrangement and the vowel arrangement.

請求項3に記載の発明によれば、検索対象語の文字数を特定し、文字数が基準文字数以下の場合に、前記母音配列の一致度を用いて語彙候補を特定する。基準文字数以下の場合には、子音配列の揺らぎは小さくなる傾向にあるので、母音配列を考慮して語彙候補を特定することができる。   According to the third aspect of the invention, the number of characters of the search target word is specified, and when the number of characters is equal to or less than the reference number of characters, the vocabulary candidate is specified using the matching degree of the vowel arrangement. When the number of characters is less than the reference number, the fluctuation of the consonant arrangement tends to be small, so that the vocabulary candidate can be specified in consideration of the vowel arrangement.

請求項4に記載の発明によれば、検索対象語の文字数を特定し、重み付けテーブルを用いて、検索対象語の文字数に対応した重み付け値を取得する。そして、子音配列の一致度及び母音配列の一致度に対して重み付け値を所定の関数に代入した値を用いて、語彙候補の優先順位を決定する。重み付けテーブルにより、文字数に応じて、子音配列や母音配列の影響を制御することができる。   According to the fourth aspect of the invention, the number of characters of the search target word is specified, and a weighting value corresponding to the number of characters of the search target word is obtained using a weighting table. Then, the priority order of the vocabulary candidates is determined using a value obtained by assigning a weighting value to a predetermined function with respect to the consonant arrangement coincidence and the vowel arrangement coincidence. The weighting table can control the influence of consonant arrangement and vowel arrangement according to the number of characters.

請求項5に記載の発明によれば、辞書データベースを用いて、語彙候補の発音記号配列のアクセント位置を特定し、アクセント位置の母音配列が一致している語彙候補の優先順位を高くする。アクセント位置の母音の揺らぎは少ない傾向にあるので、発音記号を利用して、より的確な語彙候補を特定することができる。   According to the fifth aspect of the present invention, the dictionary database is used to identify the accent position of the phonetic symbol sequence of the vocabulary candidate, and to increase the priority of the vocabulary candidate that matches the vowel sequence of the accent position. Since there is a tendency for the vowels at the accent position to fluctuate, more accurate vocabulary candidates can be identified using phonetic symbols.

請求項6に記載の発明によれば、語彙候補の中から選択された標準語彙が確定された場合、標準語彙に対して、入力された文字列を関連付けて辞書データベースに記録する。これにより、一度、選択された標準語彙は、マッチング処理により標準語彙に変換されるので、学習機能を実現し、効率的に標準語彙を特定することができる。   According to the sixth aspect of the present invention, when the standard vocabulary selected from the vocabulary candidates is determined, the input character string is associated with the standard vocabulary and recorded in the dictionary database. Thereby, the standard vocabulary selected once is converted into the standard vocabulary by the matching process, so that the learning function can be realized and the standard vocabulary can be efficiently identified.

本発明によれば、外来語のように発音上の曖昧さからカタカナ表記が揺らいでいる場合であっても、統一した表記を得ることができる。また、ドキュメント内の語句検索で、表記が揺らいだ同意語も検索できる。   According to the present invention, unified notation can be obtained even when katakana notation fluctuates due to pronunciation ambiguity like foreign words. You can also search for synonyms that have been shaken by a word search in the document.

以下、本発明を具体化した一実施形態を、図1〜図5を用いて説明する。本実施形態では、文書作成時に入力された文字列を、統一した表記に変更する場合に用いる語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラムとして説明する。図1に示すように、本実施形態では、語彙候補出力システムとして情報処理端末20を用いる。   Hereinafter, an embodiment embodying the present invention will be described with reference to FIGS. In the present embodiment, a vocabulary candidate output system, a vocabulary candidate output method, and a vocabulary candidate output program used when changing a character string input at the time of document creation to a unified notation will be described. As shown in FIG. 1, in this embodiment, an information processing terminal 20 is used as a vocabulary candidate output system.

情報処理端末20は、文書を作成するためのコンピュータシステムである。この情報処理端末20は、CPU、RAM、ROM等から構成された制御手段としての制御部21、データ記憶手段や通信手段等を備える。更に、情報処理端末20は、キーボードやポインティングデバイス等から構成された入力部11や、ディスプレイ等から構成された出力部12を備える。更に、情報処理端末20は、辞書データベース23、処理データ記憶部24を備える。   The information processing terminal 20 is a computer system for creating a document. The information processing terminal 20 includes a control unit 21 as a control unit configured by a CPU, a RAM, a ROM, and the like, a data storage unit, a communication unit, and the like. Furthermore, the information processing terminal 20 includes an input unit 11 configured from a keyboard, a pointing device, and the like, and an output unit 12 configured from a display or the like. Further, the information processing terminal 20 includes a dictionary database 23 and a processing data storage unit 24.

情報処理端末20の制御部21は、入力された語彙についての各種データ処理等を行なう。この制御部21は、後述する処理(マッチング処理段階、ローマ字表記変換段階、候補出力段階、データ更新段階等の各処理)を行なう。制御部21は文書作成機能部210及びカタカナ標準化機能部220を含んで構成される。   The control unit 21 of the information processing terminal 20 performs various data processing on the input vocabulary. The control unit 21 performs processes (each process such as a matching process stage, a Roman character conversion stage, a candidate output stage, a data update stage, etc.) described later. The control unit 21 includes a document creation function unit 210 and a katakana standardization function unit 220.

この文書作成機能部210は、入力部11における入力に基づいて文章の作成・編集処理を行なう。更に、制御部21は、語彙候補出力プログラムが実行されることによりカタカナ標準化機能部220として機能する。このカタカナ標準化機能部220は、マッチング処理手段221、ローマ字表記変換手段222、配列抽出手段223、配列照合手段224及びデータベース更新手段225として機能する。本実施形態では、配列抽出手段223、配列照合手段224が、候補出力手段として機能する。   The document creation function unit 210 performs a text creation / editing process based on the input from the input unit 11. Furthermore, the control unit 21 functions as the katakana standardization function unit 220 by executing the vocabulary candidate output program. The katakana standardization function unit 220 functions as a matching processing unit 221, a Roman character notation conversion unit 222, a sequence extraction unit 223, a sequence collation unit 224, and a database update unit 225. In the present embodiment, the sequence extraction unit 223 and the sequence matching unit 224 function as candidate output units.

マッチング処理手段221は、入力された文字列を検索対象語として、辞書データベース23を検索する。
ローマ字表記変換手段222は、検索対象語の登録が無い場合には、検索対象語についてローマ字表記文字列を取得する。
The matching processing unit 221 searches the dictionary database 23 using the input character string as a search target word.
When the search target word is not registered, the Roman character notation conversion unit 222 acquires a Roman character notation character string for the search target word.

配列抽出手段223は、ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出する。更に、配列抽出手段223は、ローマ字表記文字列において、母音を表記順に抽出した母音配列を抽出する。   The sequence extracting means 223 extracts a consonant sequence obtained by extracting consonants in the order of the notation in the Roman character notation character string. Furthermore, the sequence extracting means 223 extracts a vowel sequence in which vowels are extracted in the written order in the Roman character string.

配列照合手段224は、検索対象語の子音配列と、辞書データベース23に記録された子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する。更に、配列照合手段224は、検索対象語の文字数を特定し、文字数が基準文字数以下の場合には、母音配列の一致度を用いて語彙候補を特定する。
データベース更新手段225は、語彙候補において選択が行われた場合、辞書データベース23に記録されたデータを更新する。
The sequence matching means 224 compares the consonant sequence of the search target word with the consonant sequence recorded in the dictionary database 23, specifies the standard vocabulary in descending order of coincidence, and outputs this standard vocabulary as a vocabulary candidate. . Furthermore, the arrangement matching means 224 specifies the number of characters of the search target word, and if the number of characters is equal to or less than the reference number of characters, specifies the vocabulary candidate using the matching degree of the vowel arrangement.
The database update unit 225 updates the data recorded in the dictionary database 23 when a selection is made in the vocabulary candidate.

辞書データベース23には、図2に示すように、カタカナ語彙レコード230が記録されている。このカタカナ語彙レコード230は、カタカナ語彙を登録した場合に設定され、候補が選択された場合に更新記録される。カタカナ語彙レコード230には、標準語彙
毎に、ローマ字表記、子音配列、母音配列、関連語彙に関するデータを記録するためのデータ領域が設けられている。
In the dictionary database 23, as shown in FIG. 2, a katakana vocabulary record 230 is recorded. This Katakana vocabulary record 230 is set when a Katakana vocabulary is registered, and is updated and recorded when a candidate is selected. The Katakana vocabulary record 230 is provided with a data area for recording data related to Roman alphabet notation, consonant arrangement, vowel arrangement, and related vocabulary for each standard vocabulary.

標準語彙データ領域には、本実施形態において標準的に用いられるカタカナ語彙に関するデータが記録される。
ローマ字表記データ領域には、この語彙を、予め決定された標準方式によりローマ字に変換したローマ字配列に関するデータが記録される。本実施形態では、標準方式としてヘボン式を用いるが、日本式、訓令式、99式等の各種のローマ字や、カタカナを母音部と子音部を分けて表記できる変換方式を使用することも可能である。
In the standard vocabulary data area, data related to the Katakana vocabulary used as a standard in the present embodiment is recorded.
In the romaji notation data area, data relating to a romaji arrangement obtained by converting this vocabulary into romaji by a predetermined standard method is recorded. In this embodiment, the Hebon method is used as a standard method, but it is also possible to use various Roman characters such as Japanese, Koraku, 99, etc., or a conversion method that can separate katakana into vowel and consonant parts. is there.

子音配列データ領域には、ローマ字表記から、子音をその表記順で抽出した配列に関するデータが記録されている。
母音配列データ領域には、ローマ字表記から、母音をその表記順で抽出した配列に関するデータが記録される。
関連語彙データ領域には、利用者によって選択候補が選択された場合の入力文字に関するデータが記録される。
In the consonant arrangement data area, data relating to an arrangement in which consonants are extracted in Roman alphabet notation in the order of the notation is recorded.
In the vowel arrangement data area, data relating to an arrangement in which vowels are extracted in the order of the notation is recorded from the Roman alphabet.
In the related vocabulary data area, data related to input characters when a selection candidate is selected by the user is recorded.

一方、処理データ記憶部24には、ローマ字変換テーブル241、母音・子音テーブル242、及び基準値テーブル243が記録されている。   On the other hand, the processing data storage unit 24 stores a Romaji conversion table 241, a vowel / consonant table 242, and a reference value table 243.

ローマ字変換テーブル241には、入力された語彙を構成するカタカナ文字をローマ字に変換するためのテーブルが記録されている。本実施形態では、母音部と子音部を分けて表記できる変換方式のローマ字変換テーブルが記録されている。   The Romaji conversion table 241 records a table for converting Katakana characters constituting the input vocabulary into Romaji. In the present embodiment, a romaji conversion table of a conversion method that can separately represent a vowel part and a consonant part is recorded.

母音・子音テーブル242には、母音と子音とを識別するためのテーブルが記録されている。ここでは、母音としては「a」、「i」…「o」、子音としては「k」、「s」、「t」、「n」…「w」が記録されている。   The vowel / consonant table 242 stores a table for identifying vowels and consonants. Here, “a”, “i”... “O” are recorded as vowels, and “k”, “s”, “t”, “n”.

基準値テーブル243には、照合方式を決定するための基準文字数や、候補を出力する場合の基準一致度に関するデータが記録されている。本実施形態の照合方式には、後述するように子音配列に基づいて候補を決定する方式と、母音配列と子音配列とを併用する方式とがある。   In the reference value table 243, data relating to the number of reference characters for determining the collation method and the reference matching degree when candidates are output is recorded. As will be described later, the collation method of the present embodiment includes a method for determining candidates based on a consonant arrangement and a method for using both a vowel arrangement and a consonant arrangement.

このように構成されたシステムを用いて行なう検索処理を、図3〜図5に従って説明する。
図3に示すように、入力文字配列は、「レクレーション」、「リクレーション」、「リクリエーション」、「リクリエイション」のように揺らぐ場合がある。そこで、本実施形態では、まず、入力文字配列をローマ字表記文字列に展開し、その子音配列に着目する。いずれの場合も、「R,K,R,SH,N」になることから、表記を標準語彙に統一させる。なお、ここでは、シ行拗音は「SH」で表現し、一体として表現することとする。
A search process performed using the system configured as described above will be described with reference to FIGS.
As shown in FIG. 3, the input character arrangement may fluctuate like “recreation”, “recreation”, “recreation”, and “recreation”. Therefore, in this embodiment, first, the input character array is expanded into a Roman character notation character string, and attention is paid to the consonant array. In any case, since it becomes “R, K, R, SH, N”, the notation is unified to the standard vocabulary. Note that here, the roaring roaring is expressed as “SH” and expressed as one.

本実施形態では、辞書データベース23には、図5に示すように、標準語彙として「リクレーション」のカタカナ語彙レコード230が登録されている場合を想定する。この「リクレーション」のローマ字表記文字列は「RIKURE−SHON」となる。なお、ここでは、長音記号の表記は「−」(ハイフン)で表現することとする。従って、このカタカナ語彙レコード230には、子音配列としては「R,K,R,SH,N」、母音配列としては「I,U,E,O」が記録されている。そして、関連語彙は登録されていないものとする。   In the present embodiment, it is assumed that a “recreation” katakana vocabulary record 230 is registered in the dictionary database 23 as a standard vocabulary as shown in FIG. The Roman character notation string of “Recreation” is “RIKURE-SHON”. Note that here, the notation of a long sound symbol is represented by “-” (hyphen). Therefore, in this Katakana vocabulary record 230, “R, K, R, SH, N” is recorded as a consonant array, and “I, U, E, O” is recorded as a vowel array. It is assumed that no related vocabulary is registered.

図4に示すように、制御部21は、検索対象語の取得処理を実行する(ステップS1−
1)。具体的には、文書作成機能部210は、入力部11において入力された語彙を取得する。そして、入力語彙にカタカナ文字列が含まれる場合には、文書作成機能部210は、カタカナ文字列を検索対象語として、カタカナ標準化機能部220に提供する。本実施形態では、図5に示すように、「レクレーション」という文字列が入力された場合を想定する。そして、カタカナ標準化機能部220のマッチング処理手段221は、制御部21のキャッシュメモリに検索対象語501を記録する。
As illustrated in FIG. 4, the control unit 21 executes a search target word acquisition process (step S <b> 1 −
1). Specifically, the document creation function unit 210 acquires the vocabulary input by the input unit 11. When the input vocabulary includes a katakana character string, the document creation function unit 210 provides the katakana character string as a search target word to the katakana standardization function unit 220. In the present embodiment, it is assumed that a character string “recreation” is input as shown in FIG. Then, the matching processing unit 221 of the katakana standardization function unit 220 records the search target word 501 in the cache memory of the control unit 21.

次に、制御部21は、マッチング処理を実行する(ステップS1−2)。具体的には、カタカナ標準化機能部220のマッチング処理手段221が、取得した検索対象語と、辞書データベース23に記録されたカタカナ語彙レコード230に含まれる語彙とを照合する。ここでは、カタカナ語彙レコード230に含まれる標準語彙及び関連語彙を検索する。   Next, the control part 21 performs a matching process (step S1-2). Specifically, the matching processing unit 221 of the katakana standardization function unit 220 collates the acquired search target word with the vocabulary included in the katakana vocabulary record 230 recorded in the dictionary database 23. Here, the standard vocabulary and the related vocabulary included in the katakana vocabulary record 230 are searched.

検索対象語と一致する語彙が記録されたカタカナ語彙レコード230を検出した場合(ステップS1−3において「YES」の場合)、マッチング処理手段221は、標準語彙を出力する(ステップS1−4)。具体的には、検索対象語と標準語彙とが一致する場合には、そのまま標準語彙(すなわち、検索対象語)を出力する。また、検索対象語と関連語彙とが一致する場合には、このカタカナ語彙レコード230の標準語彙を特定して出力する。   When the katakana vocabulary record 230 in which the vocabulary that matches the search target word is detected (“YES” in step S1-3), the matching processing unit 221 outputs the standard vocabulary (step S1-4). Specifically, when the search target word matches the standard vocabulary, the standard vocabulary (that is, the search target word) is output as it is. If the search target word matches the related vocabulary, the standard vocabulary of the katakana vocabulary record 230 is specified and output.

一方、検索対象と一致する語彙が記録されたカタカナ語彙レコード230を検出できない場合(ステップS1−3において「NO」の場合)、制御部21はローマ字変換処理を実行する(ステップS1−5)。具体的には、カタカナ標準化機能部220のローマ字表記変換手段222が、ローマ字変換テーブル241を用いて、検索対象語を構成するカタカナ文字をローマ字に変換し、キャッシュメモリに記録する。本実施形態では、図5に示すように「REKURE−SHON」のローマ字表記文字列502に変換される。   On the other hand, when the katakana vocabulary record 230 in which the vocabulary that matches the search target cannot be detected (in the case of “NO” in step S1-3), the control unit 21 executes the Roman character conversion process (step S1-5). Specifically, the Roman character notation conversion means 222 of the Katakana standardization function unit 220 converts the Katakana characters constituting the search target word into Roman characters using the Romaji conversion table 241, and records them in the cache memory. In this embodiment, as shown in FIG. 5, the character string 502 is converted into a Roman character notation string 502 of “REKURE-SHON”.

次に、制御部21は、子音配列/母音配列の抽出処理を実行する(ステップS1−6)。具体的には、カタカナ標準化機能部220の配列抽出手段223が、図5に示すように、ローマ字表記文字列502を構成する文字を分けて構成文字配列503を取得する。次に、配列抽出手段223は、排除文字テーブル(図示せず)を用いて、特殊記号の排除処理を実行する。ここでは、長音記号が排除される。この結果、アルファベットから構成された構成文字配列504を取得する。   Next, the control unit 21 performs a consonant array / vowel array extraction process (step S1-6). Specifically, the array extraction unit 223 of the katakana standardization function unit 220 obtains the constituent character array 503 by dividing the characters constituting the Roman character notation character string 502 as shown in FIG. Next, the sequence extraction means 223 executes special symbol exclusion processing using an exclusion character table (not shown). Here, the long sound symbols are eliminated. As a result, the constituent character array 504 composed of alphabets is acquired.

そして、配列抽出手段223は、母音・子音テーブル242を用いて、構成文字配列504に含まれるアルファベットを、その順番に並べた子音配列505と母音配列506とを生成し、両者をキャッシュメモリに記録する。   Then, using the vowel / consonant table 242, the array extraction unit 223 generates a consonant array 505 and a vowel array 506 in which alphabets included in the constituent character array 504 are arranged in that order, and records both in the cache memory. To do.

次に、制御部21は、子音配列の一致度の算出処理を実行する(ステップS1−7)。具体的には、カタカナ標準化機能部220の配列照合手段224が、辞書データベース23に記録された子音配列と、構成文字配列504から生成した子音配列505とを比較する。そして、配列と一致する文字数を構成文字数で除算して一致度を算出する。この一致度が、基準値テーブル243に記録された基準一致度より高いカタカナ語彙レコード230を特定する。そして、このカタカナ語彙レコード230の標準語彙を抽出する。   Next, the control part 21 performs the calculation process of the coincidence degree of a consonant arrangement (step S1-7). Specifically, the array collation unit 224 of the katakana standardization function unit 220 compares the consonant array recorded in the dictionary database 23 with the consonant array 505 generated from the constituent character array 504. Then, the degree of coincidence is calculated by dividing the number of characters matching the array by the number of constituent characters. The katakana vocabulary record 230 having the matching degree higher than the reference matching degree recorded in the reference value table 243 is specified. Then, the standard vocabulary of this katakana vocabulary record 230 is extracted.

次に、制御部21は、全体文字数と基準文字数との比較処理を実行する(ステップS1−8)。具体的には、カタカナ標準化機能部220の配列照合手段224が、子音配列及び母音配列の構成文字数を総計する。更に、配列照合手段224は、基準値テーブル243の基準文字数を取得する。そして、配列照合手段224は、構成文字数と基準文字数とを比較する。   Next, the control unit 21 performs a comparison process between the total number of characters and the number of reference characters (step S1-8). Specifically, the array collating means 224 of the katakana standardization function unit 220 totals the number of constituent characters of the consonant array and the vowel array. Further, the array collating unit 224 acquires the reference character number in the reference value table 243. Then, the array collating unit 224 compares the number of constituent characters with the number of reference characters.

全体文字数が基準文字数より大きい場合(ステップS1−8において「YES」の場合)、カタカナ標準化機能部220は、子音配列の一致度により特定した標準語彙を候補語彙として出力する(ステップS1−10)。   If the total number of characters is larger than the reference number of characters (in the case of “YES” in step S1-8), the katakana standardization function unit 220 outputs the standard vocabulary specified by the consonant sequence matching degree as a candidate vocabulary (step S1-10). .

一方、全体文字数が基準文字数より小さい場合(ステップS1−8において「NO」の場合)、制御部21は、更に母音配列の一致度の算出処理を実行する(ステップS1−9)。この場合も、ステップS1−7と同様に実行される。具体的には、カタカナ標準化機能部220の配列照合手段224が、辞書データベース23に記録された母音配列と、構成文字配列504から生成した母音配列506とを比較する。そして、配列と一致する文字数を構成文字数で除算して一致度を算出する。   On the other hand, when the total number of characters is smaller than the reference number of characters (in the case of “NO” in step S1-8), the control unit 21 further executes a vowel arrangement matching degree calculation process (step S1-9). In this case, the process is executed in the same manner as in step S1-7. Specifically, the array collation unit 224 of the katakana standardization function unit 220 compares the vowel array recorded in the dictionary database 23 with the vowel array 506 generated from the constituent character array 504. Then, the degree of coincidence is calculated by dividing the number of characters matching the array by the number of constituent characters.

そして、子音配列の一致度と母音配列の一致度とを、制御部21のメモリに記憶させた所定の関数(本実施形態では、乗算)に導入して、その関数値により全体一致度を算出する。この全体一致度が、基準値テーブル243に記録された基準一致度より高いカタカナ語彙レコード230を特定する。そして、このカタカナ語彙レコード230の標準語彙を抽出する。   Then, the coincidence degree of the consonant arrangement and the coincidence degree of the vowel arrangement are introduced into a predetermined function (multiplication in the present embodiment) stored in the memory of the control unit 21, and the overall coincidence is calculated from the function value. To do. The katakana vocabulary record 230 in which the overall matching degree is higher than the reference matching degree recorded in the reference value table 243 is specified. Then, the standard vocabulary of this katakana vocabulary record 230 is extracted.

そして、配列照合手段224は、この標準語彙を候補語彙として出力する(ステップS1−10)。カタカナ標準化機能部220は、文書作成機能部210に、抽出した標準語彙を候補として提供する。この文書作成機能部210は、候補語彙を出力部12に表示して利用者に選択を促す。   And the arrangement | sequence collation means 224 outputs this standard vocabulary as a candidate vocabulary (step S1-10). The katakana standardization function unit 220 provides the extracted standard vocabulary as candidates to the document creation function unit 210. The document creation function unit 210 displays the candidate vocabulary on the output unit 12 and prompts the user to select.

そして、制御部21は、データベース更新処理を実行する(ステップS1−11)。具体的には、文書作成機能部210は、入力部11において選択された候補語彙を取得する。そして、文書作成機能部210は、候補語彙をカタカナ標準化機能部220に提供する。カタカナ標準化機能部220のデータベース更新手段225は、選択された候補語彙を辞書データベースのカタカナ語彙レコード230の関連語彙データ領域に記録する。   And the control part 21 performs a database update process (step S1-11). Specifically, the document creation function unit 210 acquires the candidate vocabulary selected by the input unit 11. Then, the document creation function unit 210 provides the candidate vocabulary to the katakana standardization function unit 220. The database updating unit 225 of the katakana standardization function unit 220 records the selected candidate vocabulary in the related vocabulary data area of the katakana vocabulary record 230 of the dictionary database.

以上のように、制御部21のカタカナ標準化機能部220は、カタカナ文字を検出するたびに検索処理を実行する。
以上、本実施形態によれば、以下に示す効果を得ることができる。
As described above, the katakana standardization function unit 220 of the control unit 21 executes the search process every time a katakana character is detected.
As described above, according to the present embodiment, the following effects can be obtained.

・ 上記実施形態では、検索対象と一致する語彙が記録されたカタカナ語彙レコード230を検出できない場合、制御部21はローマ字変換処理を実行する(ステップS1−5)。そして、制御部21は、子音配列/母音配列の抽出処理を実行する(ステップS1−6)。制御部21は、この子音配列の一致度の算出処理を実行する(ステップS1−7)。外来語のように表記がゆれる場合でも、子音のゆれは少ないことが多い。このため、子音配列を抜き出して、辞書データベース23の登録語と照合するため、効率よく標準語彙を特定することができる。   In the above embodiment, when the katakana vocabulary record 230 in which the vocabulary that matches the search target cannot be detected, the control unit 21 executes the Roman character conversion process (step S1-5). And the control part 21 performs the extraction process of a consonant arrangement | sequence / vowel arrangement | sequence (step S1-6). The control unit 21 executes a process for calculating the coincidence degree of the consonant arrangement (step S1-7). Even when the notation fluctuates like a foreign word, the consonant fluctuation is often small. For this reason, since the consonant arrangement is extracted and collated with the registered words in the dictionary database 23, the standard vocabulary can be identified efficiently.

・ 上記実施形態では、制御部21は、全体文字数と基準文字数との比較処理を実行する(ステップS1−8)。全体文字数が基準文字数より小さい場合、制御部21は、更に母音配列の一致度の算出処理を実行する(ステップS1−9)。文字数が少ない場合には、子音配列に含まれる文字数が少ないため、母音配列を考慮することにより、更に精度よく標準語彙を特定することができる。   In the above embodiment, the control unit 21 performs a comparison process between the total number of characters and the reference number of characters (step S1-8). When the total number of characters is smaller than the reference number of characters, the control unit 21 further executes a vowel arrangement degree calculation process (step S1-9). When the number of characters is small, the number of characters included in the consonant array is small, so that the standard vocabulary can be specified with higher accuracy by considering the vowel array.

なお、上記実施形態は、以下の態様に変更してもよい。
○ 上記実施形態では、文書を作成するための情報処理端末20において、語彙候補出力処理を実行させたが、これに限定されるものではない。例えば、クライアント端末から
の要求に応じて、サーバで語彙候補出力処理を実行してもよい。
In addition, you may change the said embodiment into the following aspects.
In the above embodiment, the vocabulary candidate output process is executed in the information processing terminal 20 for creating a document, but the present invention is not limited to this. For example, the vocabulary candidate output process may be executed by the server in response to a request from the client terminal.

○ 上記実施形態では、制御部21は、全体文字数と基準文字数との比較処理を実行する(ステップS1−8)。そして、全体文字数が基準文字数より小さい場合、制御部21は、更に母音配列の一致度の算出処理を実行する(ステップS1−9)。そして、子音配列の一致度と母音配列の一致度とを乗算して、全体一致度を算出する。これに代えて、子音配列の一致度や母音配列の一致度に重み付けを行なって、全体一致度を算出してもよい。この処理を、図6に従って説明する。   In the above embodiment, the control unit 21 performs a comparison process between the total number of characters and the reference number of characters (step S1-8). If the total number of characters is smaller than the reference number of characters, the control unit 21 further executes a process of calculating the degree of coincidence of vowel sequences (step S1-9). Then, the degree of coincidence of the consonant arrangement and the degree of coincidence of the vowel arrangement are multiplied to calculate the overall coincidence. Instead of this, the degree of coincidence of the consonant arrangement and the degree of coincidence of the vowel arrangement may be weighted to calculate the overall coincidence. This process will be described with reference to FIG.

この場合、処理データ記憶部24に、文字総数に対応して、母音配列の一致度に対する重み付け値を記録した文字数重み付けテーブル245を記録しておく。この文字数重み付けテーブル245においては、文字総数が少ない場合に、母音配列の一致度に対する重み付け値が大きくなるように設定しておく。   In this case, a number-of-characters weighting table 245 that records weighting values for the degree of coincidence of vowel arrays is recorded in the processing data storage unit 24 in correspondence with the total number of characters. In the character number weighting table 245, when the total number of characters is small, the weighting value for the matching degree of the vowel arrangement is set to be large.

そして、上記実施形態のステップS1−1〜S1−7と同様に、制御部21は、ステップS2−1〜S2−7の処理を実行する。そして、制御部21は、全体文字数に基づいて母音配列の重み付け処理を実行する(ステップS2−8)。具体的には、カタカナ標準化機能部220の配列照合手段224が、子音配列及び母音配列の構成文字数を総計する。更に、配列照合手段224は、文字数重み付けテーブル245において、全体文字数に対応した重み付け値を取得する。   And the control part 21 performs the process of step S2-1-S2-7 similarly to step S1-1-S1-7 of the said embodiment. And the control part 21 performs the weighting process of a vowel arrangement | sequence based on the whole number of characters (step S2-8). Specifically, the array collating means 224 of the katakana standardization function unit 220 totals the number of constituent characters of the consonant array and the vowel array. Further, the array collating means 224 acquires a weight value corresponding to the total number of characters in the character number weighting table 245.

そして、子音配列の一致度、及び前記母音配列の一致度に対して重み付け値を所定の関数に代入した値を用いて全体一致度を算出する(ステップS2−9)。そして、この全体一致度の大きさに基づいて語彙候補の優先順位を決定して候補語彙を出力する(ステップS2−10)。そして、ステップS1−11と同様に、制御部21はデータベース更新処理を実行する(S2−11)。   Then, using the value obtained by assigning a weighting value to a predetermined function for the matching degree of the consonant arrangement and the matching degree of the vowel arrangement, the overall matching degree is calculated (step S2-9). Then, the priority order of vocabulary candidates is determined based on the magnitude of the overall matching score, and the candidate vocabulary is output (step S2-10). And the control part 21 performs a database update process similarly to step S1-11 (S2-11).

これにより、全体文字数が多い場合には子音配列を優先して候補語彙を特定するとともに、全体文字数が少ない場合には母音配列を優先して候補語彙を特定する。従って、全体文字数が多い場合には、曖昧さが大きい母音配列を排除して、子音配列により候補語彙を特定することができる。   Thereby, when the total number of characters is large, the candidate vocabulary is specified with priority on the consonant arrangement, and when the total number of characters is small, the candidate vocabulary is specified with priority on the vowel arrangement. Therefore, when the total number of characters is large, it is possible to specify a candidate vocabulary based on a consonant sequence by eliminating a vowel sequence having a large ambiguity.

○ 上記実施形態では、子音配列の一致度と母音配列の一致度から語彙候補を特定する。これに加えて、アクセントを考慮して語彙候補を特定することも可能である。辞書データベース23のカタカナ語彙レコード230に、母音配列に対応させて、発音記号配列によって決定したアクセント位置を記録しておく。更に、処理データ記憶部24に、アクセント位置の文字に対する重み付け値を記録したアクセント重み付けテーブルを記録しておく。そして、制御部21は、辞書データベース23を用いて、語彙候補の発音記号配列のアクセント位置を特定し、アクセント位置の母音配列が一致している語彙候補の一致度に重み付け値を乗算することにより、全体一致度を大きくして優先順位を高くする。アクセント位置の母音の揺らぎは少ない傾向にあるため、発音を考慮して候補語彙を特定することができる。   In the embodiment described above, vocabulary candidates are specified from the consonant arrangement coincidence and the vowel arrangement coincidence. In addition to this, it is also possible to specify vocabulary candidates in consideration of accents. Accent positions determined by the phonetic symbol arrangement are recorded in the katakana vocabulary record 230 of the dictionary database 23 in association with the vowel arrangement. Further, an accent weighting table in which weighting values for characters at accent positions are recorded in the processing data storage unit 24. Then, the control unit 21 uses the dictionary database 23 to identify the accent position of the phonetic symbol array of the vocabulary candidate, and multiplies the matching degree of the vocabulary candidate whose vowel array of the accent position matches by the weight value. , Increase the overall matching degree and raise the priority. Since the vowel fluctuation at the accent position tends to be small, the candidate vocabulary can be specified in consideration of pronunciation.

○ 上記実施形態では、検索対象語と一致する語彙が記録されたカタカナ語彙レコード230を検出した場合、マッチング処理手段221は、標準語彙を出力する(ステップS1−4)。ここで、検索対象語と一致する複数の関連語彙が検出された場合には、各関連語彙に対応するカタカナ語彙レコード230の標準語彙を特定し、これらを選択候補として出力させてもよい。一つの表記が複数の標準語彙に関連付けられている場合にも対応することができる。   In the above embodiment, when the katakana vocabulary record 230 in which the vocabulary that matches the search target word is detected, the matching processing unit 221 outputs the standard vocabulary (step S1-4). Here, when a plurality of related vocabularies that match the search target word are detected, the standard vocabulary of the katakana vocabulary record 230 corresponding to each related vocabulary may be specified, and these may be output as selection candidates. A case where one notation is associated with a plurality of standard vocabularies can also be handled.

○ 上記実施形態では、入力部11において入力された語彙を取得して、統一した表記に変更するように構成したが、既存のドキュメント内の語句検索で、表記が揺らいだ同意語も検索できるように構成することも可能である。この場合には、制御部21が、既存のドキュメント内の語彙を取得して、図4に示す処理を実行する。   In the above embodiment, the vocabulary input in the input unit 11 is acquired and changed to a unified notation. However, synonyms whose notation is fluctuated can be searched by a phrase search in an existing document. It is also possible to configure. In this case, the control unit 21 acquires the vocabulary in the existing document and executes the processing shown in FIG.

本発明の一実施形態のシステムの概略図。1 is a schematic diagram of a system according to an embodiment of the present invention. 辞書データベースに記録された語彙レコードの説明図。Explanatory drawing of the vocabulary record recorded on the dictionary database. カタカナ表記の揺らぎの説明図。Explanatory drawing of fluctuation in katakana notation. 本発明の一実施形態の処理手順の説明図。Explanatory drawing of the process sequence of one Embodiment of this invention. 本発明の一実施形態の処理手順の説明図。Explanatory drawing of the process sequence of one Embodiment of this invention. 他の実施形態の処理手順の説明図。Explanatory drawing of the process sequence of other embodiment.

符号の説明Explanation of symbols

11…入力部、12…出力部、20…情報処理端末、21…制御部、210…文書作成機能部、220…カタカナ標準化機能部、221…マッチング処理手段、222…ローマ字表記変換手段、223…配列抽出手段、224…配列照合手段、225…データベース更新手段、23…辞書データベース、230…カタカナ語彙レコード、24…処理データ記憶部、241…ローマ字変換テーブル、242…母音・子音テーブル、243…基準値テーブル、245…文字数重み付けテーブル、501…検索対象語、502…ローマ字表記文字列、503…構成文字配列、504…構成文字配列、505…子音配列、506…母音配列。
DESCRIPTION OF SYMBOLS 11 ... Input part, 12 ... Output part, 20 ... Information processing terminal, 21 ... Control part, 210 ... Document creation function part, 220 ... Katakana standardization function part, 221 ... Matching processing means, 222 ... Roman character notation conversion means, 223 ... Sequence extraction means, 224 ... sequence matching means, 225 ... database update means, 23 ... dictionary database, 230 ... katakana vocabulary record, 24 ... process data storage unit, 241 ... Romaji conversion table, 242 ... vowel / consonant table, 243 ... reference Value table, 245 ... Character number weighting table, 501 ... Search target word, 502 ... Roman character notation character string, 503 ... Component character array, 504 ... Component character array, 505 ... Consonant array, 506 ... Vowel array.

Claims (8)

標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力するシステムであって、
前記制御手段が、
入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理手段と、
前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換手段と、
前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、
前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力手段と
を備えたことを特徴とする語彙候補出力システム。
The vocabulary of the input character string using the standard vocabulary, a dictionary database in which consonant sequences are extracted in the romanized character strings for each standard vocabulary and registered, and a control means for outputting vocabulary candidates A system for outputting candidates,
The control means is
Matching processing means for searching using the dictionary database, using the input character string as a search target word,
When the search target word is not registered in the dictionary database, a Roman character notation conversion means for acquiring a Roman character notation character string for the search target word;
In the Roman character string, extract a consonant array that extracts consonants in the notation order;
A candidate output means for comparing the consonant arrangement registered in the dictionary database with the consonant arrangement of the search target word, specifying a standard vocabulary in descending order of matching degree, and outputting the standard vocabulary as a vocabulary candidate; Vocabulary candidate output system characterized by comprising.
前記辞書データベースには、標準語彙毎にローマ字表記の文字列において母音を表記順に抽出した母音配列が更に登録され、
前記候補出力手段は、更に、
前記ローマ字表記文字列において、母音を表記順に抽出した母音配列を抽出し、
前記辞書データベースに登録された母音配列と、前記検索対象語の母音配列とを比較し、
前記子音配列の一致度と母音配列の一致度とを所定の関数に導入して関数値を算出し、この関数値の高い順に標準語彙を特定し、この標準語彙を語彙候補として出力することを特徴とする請求項1に記載の語彙候補出力システム。
In the dictionary database, a vowel array in which vowels are extracted in the order of notation in a character string in Roman alphabet for each standard vocabulary is further registered,
The candidate output means further includes:
In the Roman character notation string, extract a vowel array in which the vowels are extracted in the notation order,
Compare the vowel arrangement registered in the dictionary database with the vowel arrangement of the search target word,
Calculating the function value by introducing the matching degree of the consonant arrangement and the matching degree of the vowel arrangement into a predetermined function, specifying the standard vocabulary in descending order of the function value, and outputting the standard vocabulary as a vocabulary candidate; The vocabulary candidate output system according to claim 1, wherein:
前記候補出力手段は、前記検索対象語の文字数を特定し、前記文字数が基準文字数以下の場合に、前記母音配列の一致度を用いて語彙候補を特定することを特徴とする請求項2に記載の語彙候補出力システム。   The said candidate output means specifies the number of characters of the said search object word, and when the number of characters is below a reference character number, it specifies a vocabulary candidate using the matching degree of the said vowel arrangement. Vocabulary candidate output system. 文字総数に対応して、母音配列の一致度に対する重み付け値を記録した重み付けテーブルを備え、
前記候補出力手段は、
前記検索対象語の文字総数を特定し、
前記重み付けテーブルを用いて、前記検索対象語の文字数に対応した重み付け値を取得し、
前記子音配列の一致度、及び前記母音配列の一致度に対して重み付け値を所定の関数に代入した値を用いて、語彙候補の優先順位を決定することを特徴とする請求項2に記載の語彙候補出力システム。
Corresponding to the total number of characters, a weighting table that records weighting values for the degree of coincidence of vowel sequences is provided.
The candidate output means includes
Specify the total number of characters of the search target word,
Using the weighting table, obtain a weighting value corresponding to the number of characters of the search target word,
3. The priority order of vocabulary candidates is determined using a value obtained by assigning a weighting value to a predetermined function with respect to the matching degree of the consonant arrangement and the matching degree of the vowel arrangement. Vocabulary candidate output system.
前記辞書データベースには、標準語彙毎に発音記号配列が更に登録され、
前記候補出力手段は、
前記辞書データベースを用いて、語彙候補の発音記号配列のアクセント位置を特定し、前記アクセント位置の母音配列が一致している語彙候補の優先順位を高くすることを特徴とする請求項2〜4のいずれか一つに記載の語彙候補出力システム。
The dictionary database further registers phonetic symbol sequences for each standard vocabulary,
The candidate output means includes
5. The dictionary database is used to identify accent positions of phonetic symbol sequences of vocabulary candidates and to increase the priority of vocabulary candidates that match the vowel sequences of the accent positions. The vocabulary candidate output system according to any one of the above.
前記制御手段が、語彙候補の中から選択された標準語彙が確定された場合、前記標準語彙に対して、前記入力された文字列を関連付けて辞書データベースに記録するデータベース更新手段を更に備えたことを特徴とする請求項1〜5のいずれか一つに記載の語彙候補出力システム。   When the standard vocabulary selected from the vocabulary candidates is confirmed, the control means further comprises database update means for associating the input character string with the standard vocabulary and recording it in a dictionary database. The vocabulary candidate output system according to any one of claims 1 to 5. 標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力する方法であって、
前記制御手段が、
入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理段階と、
前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換段階と、
前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、
前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力段階と
を実行することを特徴とする語彙候補出力方法。
The vocabulary of the input character string using the standard vocabulary, a dictionary database in which consonant sequences are extracted in the romanized character strings for each standard vocabulary and registered, and a control means for outputting vocabulary candidates A method for outputting candidates,
The control means is
A matching processing step of searching using the dictionary database as an input character string as a search target word;
If there is no registration of the search target word in the dictionary database, a Roman character notation conversion step of obtaining a Roman character notation character string for the search target word;
In the Roman character string, extract a consonant array that extracts consonants in the notation order;
A candidate output step of comparing the consonant arrangement registered in the dictionary database with the consonant arrangement of the search target word, specifying a standard vocabulary in descending order of matching degree, and outputting the standard vocabulary as a vocabulary candidate. A vocabulary candidate output method characterized by being executed.
標準語彙と、標準語彙毎にローマ字表記の文字列において子音を表記順に抽出した子音配列を登録した辞書データベースと、語彙候補の出力処理を行なう制御手段とを用いて、入力された文字列の語彙候補を出力するプログラムであって、
前記制御手段を、
入力された文字列を検索対象語として、前記辞書データベースを用いて検索するマッチング処理手段と、
前記辞書データベースに、前記検索対象語の登録が無い場合には、前記検索対象語についてローマ字表記文字列を取得するローマ字表記変換手段と、
前記ローマ字表記文字列において、子音を表記順に抽出した子音配列を抽出し、
前記辞書データベースに登録された子音配列と、前記検索対象語の子音配列とを比較し、両者の一致度が高い順に標準語彙を特定し、この標準語彙を語彙候補として出力する候補出力手段
として機能させることを特徴とする語彙候補出力プログラム。

The vocabulary of the input character string using the standard vocabulary, a dictionary database in which consonant sequences are extracted in the romanized character strings for each standard vocabulary and registered, and a control means for outputting vocabulary candidates A program for outputting candidates,
The control means;
Matching processing means for searching using the dictionary database, using the input character string as a search target word,
When the search target word is not registered in the dictionary database, a Roman character notation conversion means for acquiring a Roman character notation character string for the search target word;
In the Roman character string, extract a consonant array that extracts consonants in the notation order;
Functions as candidate output means for comparing the consonant arrangement registered in the dictionary database with the consonant arrangement of the search target word, specifying the standard vocabulary in descending order of coincidence, and outputting the standard vocabulary as vocabulary candidates Vocabulary candidate output program characterized by having

JP2006236915A 2006-08-31 2006-08-31 Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program Pending JP2008059389A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006236915A JP2008059389A (en) 2006-08-31 2006-08-31 Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006236915A JP2008059389A (en) 2006-08-31 2006-08-31 Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program

Publications (1)

Publication Number Publication Date
JP2008059389A true JP2008059389A (en) 2008-03-13

Family

ID=39242022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006236915A Pending JP2008059389A (en) 2006-08-31 2006-08-31 Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program

Country Status (1)

Country Link
JP (1) JP2008059389A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014699A (en) * 2010-06-30 2012-01-19 Business Objects Software Ltd Phonetic key for japanese language
JP2018180260A (en) * 2017-04-12 2018-11-15 トヨタ自動車株式会社 Voice recognition device
JP2020030379A (en) * 2018-08-24 2020-02-27 ソプラ株式会社 Recognition result correction device, recognition result correction method, and program
CN111399666A (en) * 2020-03-05 2020-07-10 百度在线网络技术(北京)有限公司 Candidate word display method and device and electronic equipment

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0362260A (en) * 1989-07-31 1991-03-18 Nippon Telegr & Teleph Corp <Ntt> Detecting/correcting device for katakana word error
JPH064571A (en) * 1992-06-18 1994-01-14 Nec Corp Synonym definition device
JPH0869467A (en) * 1994-08-29 1996-03-12 Fujitsu Ltd Japanese word processor
JP2006053666A (en) * 2004-08-10 2006-02-23 Olympus Corp Image processing program, image processing method, image processing apparatus, and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0362260A (en) * 1989-07-31 1991-03-18 Nippon Telegr & Teleph Corp <Ntt> Detecting/correcting device for katakana word error
JPH064571A (en) * 1992-06-18 1994-01-14 Nec Corp Synonym definition device
JPH0869467A (en) * 1994-08-29 1996-03-12 Fujitsu Ltd Japanese word processor
JP2006053666A (en) * 2004-08-10 2006-02-23 Olympus Corp Image processing program, image processing method, image processing apparatus, and recording medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014699A (en) * 2010-06-30 2012-01-19 Business Objects Software Ltd Phonetic key for japanese language
JP2018180260A (en) * 2017-04-12 2018-11-15 トヨタ自動車株式会社 Voice recognition device
JP2020030379A (en) * 2018-08-24 2020-02-27 ソプラ株式会社 Recognition result correction device, recognition result correction method, and program
CN111399666A (en) * 2020-03-05 2020-07-10 百度在线网络技术(北京)有限公司 Candidate word display method and device and electronic equipment
CN111399666B (en) * 2020-03-05 2023-07-21 百度在线网络技术(北京)有限公司 Candidate word display method and device and electronic equipment

Similar Documents

Publication Publication Date Title
JP5997217B2 (en) A method to remove ambiguity of multiple readings in language conversion
Azmi et al. A survey of automatic Arabic diacritization techniques
KR101425182B1 (en) Typing candidate generating method for enhancing typing efficiency
JP5599662B2 (en) System and method for converting kanji into native language pronunciation sequence using statistical methods
JP5362095B2 (en) Input method editor
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
CN103970798B (en) The search and matching of data
JP2003514304A5 (en)
WO2008134208A1 (en) Recognition architecture for generating asian characters
US8583415B2 (en) Phonetic search using normalized string
Mosavi Miangah FarsiSpell: A spell-checking system for Persian using a large monolingual corpus
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
Elshafei et al. Machine Generation of Arabic Diacritical Marks.
JP2008059389A (en) Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program
Bagul et al. Rule based POS tagger for Marathi text
Onyenwe et al. Toward an effective igbo part-of-speech tagger
JP7102710B2 (en) Information generation program, word extraction program, information processing device, information generation method and word extraction method
Kaur et al. Hybrid approach for spell checker and grammar checker for Punjabi
Kang et al. Two approaches for the resolution of word mismatch problem caused by English words and foreign words in Korean information retrieval
JP3952964B2 (en) Reading information determination method, apparatus and program
QasemiZadeh et al. Adaptive language independent spell checking using intelligent traverse on a tree
JP2009020567A (en) Document retrieval device
JPH08339376A (en) Foreign language retrieving device and information retrieving system
KR102278288B1 (en) Apparatus and method for searching text based on phoneme
JP2014164260A (en) Information processor and information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110408

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110816