JP5512614B2

JP5512614B2 - 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム

Info

Publication number: JP5512614B2
Application number: JP2011176001A
Authority: JP
Inventors: ジョンソン，リチャード・シィ
Original assignee: オラクル・インターナショナル・コーポレイション
Priority date: 2004-10-20
Filing date: 2011-08-11
Publication date: 2014-06-04
Anticipated expiration: 2025-05-10
Also published as: US7376648B2; JP4825216B2; JP2008517399A; WO2006043988A1; CN101084500A; US20060089928A1; CN101084500B; CA2584816A1; JP2012038320A; EP1810184A1; AU2005296294A1

Description

発明の背景
発明の分野
本発明は、文書ならびにウェブおよび他のデータオブジェクト、画像、および記号オブジェクトまたは概念検索のために中国語および日本語の文字を入力するための、コンピュータで実現される方法とシステムとに関する。

関連技術の説明
中国語および日本語の文字をコンピュータに入力することに関連する基本的な問題は、単に、正式な中国語の技術文書または政府文書に必要な約４万の文字は言うに及ばず、日本語の新聞で見られる何千もの文字を収容するようにはキーボードを十分に大きく作ることができないことである。同じ問題は他の言語でも起こり得る。さらに、（中国語、日本語、およびいくらかの朝鮮語の）文字ベースのウェブサイトの数が増大していることは、このような文字の適切な入力方法なしにこれらのウェブサイトの検索を極めて困難にしている。さらに、文字を得ること、およびそれを検索することさえ、検索が実行されている文字の特定の例が分離されたことを意味するわけではない。アラビア語またはヘブライ語などの他の言語は、現在の方法による手動入力にはうまく適合されていない文字または構文および文体を有する。次善の策は存在するが、うまく機能しているものはない。従来の検索システムは所望の結果を返すかもしれないが、代わらず何度も、所望の結果を返すのと同程度に多く、所望でない結果を返す。

発明の分野
日本人は音声入力を好むが、言語欠陥または言語障害、アクセント、発音、（ある単語や文字が別の単語または文字に置換えられる）誤り、方言、第２言語または後続言語に関係した問題は残存する。最近の音声認識システムでは、機械が正確にユーザの発話を書き写せるようになるまで長いトレーニング期間が必要である。さらに、多くの場合、許容できる認識レベルで機械が作動できるようにするために、ユーザが正しい言葉遣いを駆使するようトレーニングする必要がある。

まず日本語を書く形式については、最も古い一般的な方法は、ユーザが所望の文字（または文字のクラスタを意味する句）の音声表記をキーボードに入力する（ローマ字（Romaji）すなわちローマアルファベット（Roman alphabet）を用いた日本語文字（Japanese characters）の音声訳、または日本の音声文字である仮名）ことである。同様に発音される文字がすべてスクリーンに示され、ユーザは次にディスプレイ上に提示された同様に発音される文字の中から選び出すよう求められる。このプロセスは遅く、面倒で、必ずしも所望の文字を生じるとは限らない。

近年の解決法では、ユーザが、話し言葉から文字へのソフトウェア／機械翻訳を用いて、話された日本語または中国語を書取ることが必要である。次にユーザは結果を編集したり話を繰返したり、または結果を確認しなければならない。しかしながら、発話を用いる現在の方法は、すべての潜在的なユーザに対して適切な速度、精度および適合性を欠くと考えられる。同様に、ローマ字発音を入力するキーボード方法にもっぱら依存する従来の方法は、遅く、厄介で、直観に反するものであると考えられる。最後に、これらの従来の方法は、多くの候補文字のうち１つを選択する必要があることにより、またはユーザが自分の話を繰返す必要があることにより、ユーザの思考脈略をしばしば中断する。しばしば、ユーザは候補文字を認識しないことがあり、したがって候補文字の中から適切な文字を選択することができない。さらに、これらの方法では、しばしばユーザは所望の文字を確実にタイミングよく選択することができない。

これらの欠点は、このような非ローマアルファベット文字を包含するウェブサイトを検索する目的でウェブ検索エンジンにその文字を入力しようと試みるとき、さらに明らかとなる。したがって、ユーザが検索エンジンに非ローマアルファベット文字を入力すること、およびその入力された文字で検索することが容易にできるような方法およびシステムも必要である。

発明の概要
本発明は、ある実施例によれば、１組の非ローマアルファベット文字から所望の非ローマアルファベット文字を選択する、コンピュータで実現される方法である。以下の単語「連想」の使用はすべて、本発明の特定のユーザの心の中の連想を指す。この方法は、その組の各非ローマアルファベット文字について、前記各非ローマアルファベット文字に関連付けられたローマアルファベットの音声訳と前記各非ローマアルファベット文字に関連付けられた複数のエントリとを含む連想データベースを与えるステップと、所望の非ローマアルファベット文字の音声訳と所望の非ローマアルファベット文字に関連付けられた少なくとも１つのエントリとを受取るステップと、連想データベースにアクセスして、受取った音声訳と少なくとも１つの受取った連想エントリとに関連付けられたその組のそれらの文字を候補文字として特定するステップと、候補文字の数が１を超える場合に追加的な連想エントリを受取り、多くの候補文字がただ１つの候補文字に狭められるまでアクセスし特定するステップを繰返すステップと、そのただ１つの候補文字を所望の非ローマアルファベット文字として与えるステップとを含み得る。

他の実施例によれば、１つ以上の連想エントリは所望の文字の意味とは無関係であってもよい。関連付けられたデータベースにおける１つ以上の連想エントリはユーザが与えるものでもよい。受取った連想エントリが所望の文字と現在関連付けられていない場合、この方法は、その受取った連想エントリを所望の文字に関連付け、受取った連想エントリを連想データベースに格納するステップをさらに含んでもよい。受取った連想エントリが連想データベースに現在存在しない場合、この方法は、その受取った連想エントリを連想データベースに加えるステップを実行するステップをさらに含んでもよい。与えるステップは、（たとえば）日本語、中国語、朝鮮語、ヘブライ語および／またはアラビア語の文字を含む非ローマ文字の組で実行することができる。与えるステップは、複数の行を有する連想表を含む連想データベースで行なわれてもよく、各行は、その組のただ１つの非ローマアルファベット文字、そのただ１つの非ローマアルファベット文字のローマアルファベット音声訳、およびそのただ１つの非ローマ文字に関連付けられ得る複数のエントリを含む。受取るステップは、音声入力、キーボード入力、および／または、（たとえば）連想データベースに結合されたコンピュータへのマシン画像（machine vision）を介して行なわれてもよい。連想データベースを個別化するステップは、連想データベースが、各ユーザについて、各前記ユーザから受取った連想エントリを包含するように実行されてもよい。この方法は、アクセスし特定するステップをさほど反復せずにただ１つの候補文字に至るこれらの受取った連想エントリが、アクセスし特定するステップを比較的多く反復してただ１つの候補文字に至る連想エントリよりも高くランク付けされ得るように、連想エントリを連想データベースにおいて順序付けるステップをさらに含んでもよい。この方法は、与えられた非ローマアルファベット文字を含み得る文書についてコンピュータネットワーク（たとえばインターネットまたは企業イントラネットなど）を検索するステップをさらに含んでもよい。受取るステップは、所望の非ローマアルファベット文字と同じ言語の連想エントリで行なわれてもよい。受取るステップは、所望の非ローマアルファベット文字とは異なる言語の連想エントリで行なわれてもよい。この方法は、複数の非ローマアルファベット文字を選択するために音声訳を受取るステップに連続的に戻るステップをさらに含んでもよい。

別の実施例によれば、本発明は機械読取り可能な媒体であって、そこに命令のシーケンスを表わすデータが格納され、計算装置によって実行されると、以下のステップを実行することによって、その計算装置が１組の非ローマ文字から所望の非ローマアルファベット文字を選択するようにさせ、そのステップは、その組の各非ローマアルファベット文字について、各前記非ローマアルファベット文字に関連付けられ得るローマアルファベット音声（または日本語の仮名もしくは他の音声アルファベットの）訳と、各前記非ローマアルファベット文字に関連付けられ得る複数のエントリとを含み得る連想データベースを与えるステップと、所望の非ローマアルファベット文字の音声訳と所望の非ローマアルファベット文字に関連付けられた少なくとも１つの連想エントリとを受取るステップと、連想データベースにアクセスして、受取った音声訳と少なくとも１つの受取った連想エントリとに関連付けられ得るその組のそれらの文字を候補文字として特定するステップと、候補文字の数が１を超える場合に追加的な連想エントリを受取り、多くの候補文字がただ１つの候補文字に狭められるまでアクセスし特定するステップを繰返すステップと、そのただ１つの候補文字を所望の非ローマアルファベット文字として与えるステップとを含み得る。

本発明は、さらに別の実施例によれば、１組の非ローマ文字から所望の非ローマアルファベット文字を選択するためのコンピュータシステムであって、コンピュータシステムは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに結合された少なくとも１つのデータ記憶装置と、前記少なくとも１つのプロセッサによって生じる複数のプロセスとを含み、当該プロセスは、下記のための処理論理を含む：その組の各非ローマアルファベット文字について、各前記非ローマアルファベット文字に関連付けられ得るローマアルファベット音声訳と各前記非ローマアルファベット文字に関連付けられ得る複数のエントリとを含み得る連想データベースを与えることと、所望の非ローマアルファベット文字の音声訳と所望の非ローマアルファベット文字に関連付けられた少なくとも１つの連想エントリとを受取ることと、連想データベースにアクセスして、受取った音声訳と少なくとも１つの受取った連想エントリとに関連付けられ得るその組のそれらの文字を候補文字として特定することと、候補文字の数が１を超える場合に追加的な連想エントリを受取り、多くの候補文字がただ１つの候補文字に狭められるまでアクセスし特定するステップを繰返すことと、ただ１つの候補文字を所望の非ローマアルファベット文字として与えることである。

本発明のさらに別の実施例は、ユーザが知らないかもしれない１つ以上の予め定められた非ローマアルファベット文字を含み得る文書を検索する、コンピュータで実現される方法である。このような方法は、所望の非ローマアルファベット文字の発音を任意の音声表現rendering（たとえば日本語の仮名もしくは朝鮮語の中国式でないアルファベット文字など）または記号入力（たとえば符号言語（sign languageなど）で与えるステップと、ユーザが所望の非ローマアルファベット文字から連想する少なくとも１つの連想エントリを与えるステップと、その発音が与えられた発音と一致する、かつ少なくとも１つの連想エントリのうち１つ以上と関連付けられる１つ以上の候補文字の連想データベースからの検索をさせるステップと、候補文字の数が１を超える場合に追加的な連想エントリを与え、ただ１つの候補文字が検索されるまで検索をさせるステップを繰返すステップと、そのただ１つの候補文字を含み得る文書について検索が実行されるようにするステップとを含み得る。連想を用いることが、検索が行なわれている文字の出現すべてを掘り出すのではなく、その特定の文字の所望の例にまで検索を狭めるのを助けることが期待される。

他の実施例によれば、発音を与えるステップにおいて、発音は（たとえば）音声発音であってもよい。連想エントリを与えるステップにおいて、連想エントリの少なくとも１つは、予め定められた文字の（たとえば辞書的な）意味とは無関係であってもよく、所与のユーザの任意の連想であってもよい。与えられた連想エントリが予め定められた文字と現在関連付けられていない場合、この方法は、与えられた連想エントリを予め定められた文字に関連付けて、受取った連想エントリを連想データベースに格納するステップをさらに含んでもよい。与えられた連想エントリが連想データベースに現在存在しない場合、この方法は、与えられた連想エントリを連想データベースに加えるステップを含んでもよい。発音を与えるステップは、たとえばいくつかの可能な言語を示すと、日本語、中国語、朝鮮語、ヘブライ語、またはアラビア語などの文字である、非ローマ文字で行なわれてもよい。検索をさせるステップは、複数の行を有する連想表を含む連想データベースで行なわれてもよく、各行は、ただ１つの異なる非ローマアルファベット文字、そのただ１つの非ローマアルファベット文字のローマアルファベット発音、およびそのただ１つの非ローマ文字に関連付けられ得る複数のエントリを含む。与えるステップは、（たとえば）音声入力、キーボード入力、および／または、連想データベースに結合されたコンピュータへのマシン画像を介して行なわれてもよい。この方法は、検索をさせるステップが、ログインしているユーザについて個別化された連想から少なくとも１つの候補文字の検索をさせるよう、ログインするステップをさらに含んでもよい。サーチをさせるステップは、文書についてコンピュータネットワークの検索をさせてもよい。連想エントリを与えるステップは、予め定められた非ローマアルファベット文字と同じまたは異なる言語の連想エントリで行なわれてもよい。この方法は、追加的な予め定められた非ローマアルファベット文字のための追加的な候補文字を検索するために発音を与えるステップに連続的に戻るステップをさらに含んでもよい。発音を与えるステップの発音は、いかなる音声アルファベットも用いるよう構成され得る。サーチをさせるステップは、たとえばローマ文字、非ローマ文字、絵（picture）もしくは音楽などの、いかなるコンピュータ可読ファイルまたはデータの検索もさせるよう構成されてもよい。

さらに別の実施例によれば、本発明は、ユーザが、文書、絵、記号、概念またはデータオブジェクト（本願明細書において集合的に、コンピュータネットワークにわたる、または検索に用いられているコンピュータ内のローカル記憶装置内の「文書」と呼ぶ）を検索するための、コンピュータで実現される方法として見ることができる。この方法は、検索語を受取るステップと、少なくとも１つの連想エントリを受取るステップとを含むことができ、少なくとも１つの連想エントリは検索語と関係し、連想データベースを参照するステップを含み、連想データベースは複数の辞書的な意味と各辞書な意味についての少なくとも１つの連想エントリとを格納し、各連想エントリはその対応する辞書的な意味と関係し、さらに、受取った連想エントリを１つ以上の格納された連想エントリおよび対応する辞書的な意味と一致させるステップと、検索語、一致した格納された辞書的な意味、および連想エントリと関係するかまたは包含する文書についてコンピュータネットワークを検索するステップとを含み得る。この方法は、サーチするステップが成功すると、受取った少なくとも１つの連想エントリを連想データベースに加えるステップをさらに含んでもよい。この方法は、たとえばカテゴリ、特性、および／またはメンバーシップなどの追加情報を与えるようにユーザに促すステップをさらに含んでもよい。この方法は、サーチするステップが、受取った排他的な連想エントリに対応する検索語の１つ以上の辞書的な意味を含むかまたは関係する文書を検索しないように、排他的な連想エントリをユーザから受取るステップをさらに含んでもよい。

ローマ字音訳「けん（ken）」を有するいくつかの漢字についての関連を示す表である。ローマ字音訳「きたい（kitai）」を有するいくつかの漢字についての関連を示す表である。ローマ字音訳「きり（kiri）」を有するいくつかの漢字についての関連を示す表である。本発明の実施例による連想データベースが進行し得る例示的な態様を示す図である。本発明の実施例による連想データベースの例示的な表を示す図である。本発明の実施例による文字を入力するための方法のフロー図を示す図である。本発明の実施例による、連想データベースが個別化され得る例示的な態様を示す図である。本発明の実施例を使用する例示的な検索エンジンを示す図である。本発明の実施例による図７の検索エンジンによって返された結果を示す図である。本発明の実施例による本発明の実施例が実行され得るコンピュータを示す図である。

発明の説明
日本語および多くの中国語の方言のように、その書く形式がローマアルファベットに依存しない言語を母語とする人であっても、典型的には手で再生することができるよりはるかに多くの文字を視覚によって認識する。本発明の実施例は、ユーザが所望の文字がどんなものであったかかすかな曖昧な記憶しか持たない場合でさえ、所望の非ローマ文字の一意の選択を可能にする。そうしながら、本発明の実施例は、音声的な発音および１つ以上の連想エントリを与えることにより、ユーザが実際に有するより明らかに優れた文字を書く能力および技能を示すことを可能にする。そのような入力は、一連のキーボードを打つこと、話し言葉、および／または他のコンピュータ認識可能な入力形式（たとえばマシン画像など）を通してなされ得る。そうすることで、本発明の実施例は、ユーザが実際に知っている（またはキーボードを打つことをすべて再構築することにより実際に作り出すことができる）よりも多くの文字をうまく入力することを支援する。本発明の実施例は、文書の構成および（たとえばＧｏｏｇｌｅ（登録商標）、Ｙａｈｏｏ（登録商標）などを含む）検索エンジンにおいて有益であり、非ローマアルファベットによって書く形式を用いて発行された文書および検索ウェブサイトを走査し検索することができる。

以下の図面および説明の書かれた部分では、日本語の書き言葉の漢字（kanji）に重点をおいている。しかしながら、本発明の実施例は、この文章が書かれているローマアルファベットに依存しない、他のすべての書く形式表現に等しく適用可能である。たとえば、本発明の実施例は、たとえば多くの中国語の方言、アラビア語の形式、およびヘブライ語に容易に拡張できる。したがって、本発明で主張される実施例は、ローマアルファベットに依存しないこれらのすべての書く形式表現、および、検索のための、ローマアルファベットを含むがこれに限定されないあらゆる文字システムにおける単語の特定の例を、ローマ文字または任意の音声表現におけるその関連語とともに包含することが明らかに意図される。

ここで図面を見ると、図１は、「けん（ken）」のローマ字音訳を有するいくつかの漢字（Kanji characters）の連想を示す表である。図１では、ローマ字音訳が１０２で示され、漢字は番号１０４によって参照される列に示され、連想は１０６に見られる。これらの漢字は、「同義語（dougigo）」すなわち同様に発音される日本語文字（Japanese characters）として知られている。図１では、「けん（ken）」は、漢字１０４の発音方法のローマ字版である。すなわち、それらの音訳である。各漢字１０４に隣接するのは、漢字１０４から連想されるいくつかの（この例では英語の）、その意味が漢字と関係しているエントリ（この例では単語）である。連想１０６は、文字１０４の言語に対応する話し言葉を含むいかなる言語であってもよい。たとえば、連想１０６は日本語であってもよい。連想エントリおよび意味１０６は、本発明の実施例によれば、文化やその結果としての単語／文字連想を共有する、その言語（この場合は日本語）を母語として話す人によく知られた単語および概念を含み得る。したがって、本発明の実施例によれば、連想エントリ１０６は、所与の漢字についての対応する辞書的なエントリに包含された単語のみならず他の単語、概念、および／または短い句、典型的なユーザが対応する漢字から連想し得る（たとえば）音をも含み得る。たとえば、図１の中の第５列は漢字１０８を示し、その辞書的なエントリは「権利（right）」、「道義的に正しい（morally good）」であるが、そのローマ字音訳が「けん（ken）」である図１の第５列の記号１０８の連想エントリ１０６のリストは、ユーザがその文字から連想し得るさらに他の単語、概念、および／または、短い句を含んでいてもよい。たとえば、漢字１０８から連想され得るエントリはさらに、たとえこれらの単語がそれぞれ日本語で固有の漢字記号を有するとしても、「権力（Power）」「権威（Authority）」「影響（Influence）」、「正しくない（Wrong）」および「特権（Privilege）」という単語を含み得る。本発明の実施例によれば、所与の非ローマアルファベット文字と連想エントリは、その文字に正確に対応する英語であってもよく、その基礎をなす文字と密接に関係する意味を有してもよく、その基礎をなす文字と遠い関係にしかない意味を有してもよく、または、その非ローマ文字の容認された意味とは全く無関係であってもよい。本発明の別の局面によれば、連想エントリは単語である必要は全くないが、ユーザが所望の文字から連想するものの音声表記、および／または、機械読取り可能な媒体に格納されアクセスされ得る任意の機械認識可能なユーザの明示であり得る。たとえば、連想エントリは、そのユーザの明示が電子的に表現されて得る限り、ユーザが作り出した音、動き、または身振りの表現を含んでもよい。実際、発話、身振り、符号言語、キーボード入力、高い、または低い調子の発話、アクセント、強調、および／または他の発語または行為が連想エントリとして捉えられ、記録され、用いられ得、所望の文字を見つける。経験に基づいた連想表を、多様なキーボード、発話、および他の入力からリレーショナル連想データベース４０２に構築することにより、特定の文字との関連付けが可能になる。このような入力を用いることによって、ユーザは素早く所望の文字を選択することができ、その文字は、文書を構成するため、または所望の文字を包含する１つ以上の文書の検索の基礎を形成するために、容易に用いられ得る。本発明によれば、文書は、テキスト文書、または、ＨＴＴＰ要求などのクライアントからの要求に応じてサーバ（ウェブサーバなど）によって生成されたＸＭＬもしくはＨＴＭＬ文書（たとえばウェブページなど）といった、いかなるコンピュータ可読ファイルを含んでもよい。このようなＨＴＭＬ文書は、クライアント側で解像され得る画像および／または他の豊富なデータソースへの参照を含んでいてもよく、クライアントは、埋込まれた画像、音、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔコードの断片などを得るためには追加的な要求を出さなければならない。従来の翻訳による発話指向の文字選択とは異なり、また従来の発音に基づいたキーボード選択とも異なって、本発明の実施例は、所望の文字の選択に際して各種のユーザ入力を別の要因として利用する。この方法は文書オーサリングまたはより複雑な検索のための一連の文字を構築するために繰返されてもよい。

本発明の実施例によれば、少なくとも１人のユーザが自分の心の中で文字（図１の漢字１０８など）と連想エントリとの間に連想を形成したことで足りる。たとえば、ユーザが文字１０８から単語「月（Moon）」を連想した場合、単語「月」が明らかに文字１０８と無関係であるにもかかわらず、その単語は文字１０８と関連付けられることができる。

同様に、図２の第１列の漢字２０８は、辞書では「気体（Gas）」または「蒸気（Vapor）」を意味するとして定義され得る。したがって、文字２０８のローマ字音訳「きたい（kitai）」とともに、連想エントリとしてこれらの意味がリストに記載され得る。しかしながら、ユーザはこの漢字２０８から他の連想を形成し得る。これらの連想のうちいくつかは、同じ文化、育ち、大衆文化、および教育を経験してきた他の人と共有され得る一方、その他の連想のは類似の状況にある小さな集団の人にのみ、または一人の人にのみ共有されるかもしれない。たとえば、「空気（Air）」、「爆発する（Explode）」、「ＣＯ２」または「ボパール（Bhopal）」といった単語が、多くのユーザの心の中で文字２０８から連想されるかもしれない。文字２０８を検索するとき、ユーザはそのローマ字音訳「きたい（kitai）」を想起し、またそこに対応する１つ以上の連想エントリを与えることができる。図３は追加的な漢字、これらに共通のそれぞれのローマ字音訳（この場合は「きり（kiri）」）、およびそこから連想され得るいくつかのエントリを示す。

本発明の実施例は、たとえばオラクル社（Oracle Corporation）のリレーショナルデータベースマネジメントシステムＲＤＭＳを含む連想データベース４０２を含む。データベース４０２は１組の非ローマアルファベット文字、それぞれの音声発音または他の音訳、および１つ以上の連想エントリを格納することができる。ここで開発された実施例では、データベース４０２に格納された非ローマアルファベット文字は漢字であって、それぞれの音訳はローマ字音訳である。他の実施例は他の非ローマアルファベット文字および他の発音または音訳を含む。

図４は、本発明の実施例による、連想データベース４０２に予め種を蒔く（preseed）例示的な態様を示す。データベース４０２は、複数のレコードを含む１つ以上の表を含み得る。代表的なレコードは４０４で示される。各レコードはデータベース４０２に行として格納され得る。本発明の実施例によれば、１組以上の非ローマ文字（たとえば４０，０００程度の漢字）、それらのローマ字音訳（またはたとえば音声発音）、および漢字−ローマ字音訳のそれぞれの対に対する１つ以上の連想エントリを、データベース４０２に予め蒔くことができる。４０８で示唆されるように、連想データベース４０２に予め種を蒔くために、既存のデータベース、コンパイルcompilationおよび／または辞書が有用となり得る。本発明の実施例はさらに、漢字の各々について１つ以上の連想エントリをデータベース４０２に予め蒔くことを求める。図４に示されるように、この予め種を蒔くプロセスは、本発明のユーザと予測される人々を多少とも（たとえば教育、文化的な背景において）代表すると考えられる複数の参加者と面接することを含んでもよい。このような参加者は、図４において参照番号４１０、４１４および４１８で示される。たとえば、面接するプロセスは、参加者に漢字およびそのローマ字音訳を示して、各漢字から自由に連想するよう求めることを含んでもよい。図４の例では、漢字４０６は、日英辞書では「切符（Ticket）」、「クーポン（Coupon）」、「債券（Bond）」および「証明書（Certificate）」といった単語に対応するとして挙げられ得る。漢字４０６のこれらの一般的な意味の各々は、その音訳「けん（ken）」とともに、予め蒔かれた連想エントリとしてレコード４０４に含まれることができる。本発明の実施例によれば、データベース４０２のレコードのうち１つ以上は、以下のように選択され得る追加的な連想エントリを各レコードに含み得る。各参加者４１０−４１８は漢字４０６から自由に連想するよう求められ得る。その結果、参加者は、吹出し４１２、４１６および４２０によって示唆されるようないくつかの異なる連想を思いつくであろう。たとえば、文字４０６を示され、音訳「けん（ken）」を見たり／聞いたりすると、参加者４１０はこの文字から「切符」、「許可（Permit）」「証明書」、「債券」、「ピンク（Pink）」および「クーポン」といった単語を連想し得る。これらの連想は連想候補を形成する。他の参加者４１４および４１８の連想候補も示される。参加者全員について一致する連想候補が太字で示される。本発明の実施例によれば、最多の参加者によって作られた連想候補が追加的な予め蒔かれる連想エントリとして選択されて、レコード４０４に含まれることができる。たとえば、参加者は、文字４０６から「証明書」、「債券」、「ピンク」および「クーポン」といった単語を連想し、この連想候補が連想単語として既にレコード４０４に含まれていてもよい。これらはレコード４０４に複写される必要はない。しかしながら、２人以上の参加者が文字４０６から「スピード違反（speeding）」、「コンサート（concert）」、「交通（Traffic）」といった単語を連想した。これらの連想に十分な（かつ選択可能な）数の参加者が応答した場合、図１に示されるように、この連想も文字４０６のレコードに含まれてもよい。連想候補が連想エントリとしてレコード４０４に含められるために選択される態様は完全に選択可能である。たとえば、連想候補のどれが各レコードに含められるよう選択されるかを決定するために、多数アルゴリズムが用いられてもよい。

自由な連想の求めに応じ、参加者４１０が「切符」、「債券」、「証明書」および「クーポン」に加えて「許可」「ピンク」の単語を文字４０６から連想したことに注意されたい。しかしながら、これらの連想候補が十分な数の参加者によって共有されなかったので、これらの連想候補は連想エントリとしてレコード４０４に含まれるよう選択されなかった。同様に、連想候補「レシート（Receipt）」、「公文書（Official Document）」および「金銭（Money）」は、十分な数の参加者によって共有されず、したがって連想エント
リとしてレコード４０４に含まれるよう選択されなかった。同様に、参加者４１８が思いついた単語「記録（Record）」、「橋本（Hashimoto）」、および「卒業証書（Diploma）」も選択されなかった。これらの入力は種蒔きの目的のためには一般的なデータベースに含まれ得ないが、それを入力した人の使用のための、データベースのユーザ固有の部分においては保持されることに注意されたい。ここでの意図は、任意の試みられた連想候補を、一般的なデータベース、または多数のユーザを有する中央データベースがある場合は、その連想候補を採用したその特定のユーザにだけ見られるようなデータベースのいずれかに蓄積することである。データベースにログインしたユーザの各々は、次に利用可能な連想の異なる組を有する。共通の連想の組は、元来から種を蒔かれたものに加えて、元の種蒔きされたストア（store）に追加されたアルゴリズムで選択された追加的な連想であり、および、最後に、一般的なデータベースに含めるためにアルゴリズムがタブをつけない、ユーザに特有の変わった連想であろう。

上記より、連想エントリが、文字４０６の辞書的な、または一般に了解された意味に対して直接の意味的関係を有する必要がないことが認識され得る。レコード４０４に含むためには、十分な数の参加者が、その連想候補が心の中で文字４０６と何らかの関係があるものとして挙げれば十分である。このようにして、たとえば連想候補「コンサート」が連想エントリとしてレコード４０４に含められたのである。

図５は、本発明の実施例による連想データベース４０２の例示的な連想表を示す。４つの表が図５に示される。第１のそのような表５０２は日本語表であり、第２の表５０４は標準中国語表であり、第３の表５０６は広東語表であり、第４の表５０８は上海語表である。実際には、連想データベース４０２にはこのような連想表が１つしか含まれていないか、またはさらに多くのこのような連想表が含まれていてもよい。たとえば連想表は連想表５０２のように体系付けられてもよいが、このように表を体系づける必要はない。図５に示されるように、および本発明の実施例によれば、表５０２の各行はレコードであり、各レコードは複数の列を含む。第１の列は非ローマアルファベット文字（この場合は漢字）、または文字に対応するコード（たとえば４０，０００程度の漢字のうち１つに対応する２バイトの単語など）を記憶することができる。別の列は、たとえば、文字のローマ字音訳またはその他の音声発音を記憶してもよい。各レコードは次に、たとえば図４に関連して詳述され、以後記述されるような態様で選択され得る１つ以上の連想エントリを含んでもよい。図５は単に概念図にすぎず、連想データベース４０２内の連想表の物理的構成が図５に示されるようである必要はなく、効率または他の要件を最適化するために必要に応じて変更され得ることが理解される。

中国語の方言は多いが書かれる漢字の一般的なリストは１つだけである。しかしながら所与の文字は代替的な伝統的または近代的な簡略形式を有し得る。いずれにしても、それは方言にかかわらず同じである。書かれる漢字を用いてアメリカの符号言語を表現することさえできる。その文字は必ずしも特定の音声的に対応するものと関係しない。したがって、多様な方言を話す人にとって本発明の実施例が有用であるようにするには、これらの特定の方言の各々を話す人を含めるように連想表を与えることが必要であり、本発明はそのために実現される、たとえば、中国の書かれる漢字はすべての中国語の連想表にわたって共有され得るが、そのローマアルファベット音訳は、これらの文字の各々についての連想エントリと同じく、異なり得る。実際、中国語の方言の各連想表において連想エントリは異なり得る。なぜならば、方言間に差異があるからだけでなく、このような方言を母語として話す人々の、および本発明の局面を具体化するアプリケーションの予想されるユーザの、文化、教育、および社会的背景が異なるからである。

日本語および多くの中国語の方言以外の言語に対して追加的な表が与えられ、埋められ得ることが理解される。上述のように、連想表は、アラビア語、ヘブライ語、朝鮮語、または他の、書く形式に非ローマアルファベット文字を用いる言語のために開発され得る。

図６は、本発明の実施例による、１組の非ローマ文字から所望の非ローマアルファベット文字を選択する方法のフロー図である。方法はＳ６１から始まり、そこでユーザは所望の非ローマアルファベットのローマアルファベット音訳（またはたとえば音声発音）を入力するよう促され得る。図示する目的のために、本発明がそれに限定的ではないことが理解されるが、この方法はここでは日本の漢字に関して説明される。したがって、ステップＳ６２は、本発明の局面を具体化するアプリケーションを実行するコンピュータに所望の漢字のローマ字音訳を入力する（または他の方法で与える）ようユーザに促す。本発明の実施例はコンピュータキーボードによるユーザ入力に限定されず、（音声認識技術を用いる）話し言葉、（光学式文字認識技術を用いる）書き言葉、（たとえばマシン画像およびパターン認識技術を用いる）視覚的入力などの任意の形式、またはコンピュータが認識可能な事実上すべてのデータ入力形式性（たとえば音訳、音声発音および／または連想エントリを含む）のユーザ入力に構成されてもよい。本発明の実施例を具体化するコンピュータには、たとえばいくつかの可能性を挙げれば、手または身体の身振りなど、符号言語を認識するための手段が与えられてもよい。本発明の実施例は、たとえば身体的または精神的に障害のある人のために開発された多くの機械対話型手段で作動するよう適合されてもよい。

ステップＳ６２で要求されるように、所望の漢字のローマ字音訳を入力すると、次に、入力されたローマ字音訳がなんらかの漢字に対応するかが判断される。もし対応しなければ、ユーザは、再試行して別のローマ字音訳または以前に入力したものの変形を入力するよう促され得る。しかしながら、ステップＳ６３で示されるように、入力されたローマ字音訳が１つの漢字のみに対応する場合、方法はステップＳ６７に移り、その唯一の漢字が入力される。ユーザ確認ステップがステップＳ６７の前に加えられて、ユーザが与えたローマ字音訳に応答して与えられたそのただ１つの漢字が所望の（たとえば正しい）ものであることをユーザに確認する。与えられた漢字が所望の文字でない場合、ユーザはステップＳ６２に戻って再試行することができる。さらに、検索では、正しい漢字だが間違った使用法が返される場合、ユーザは異なる連想で再試行してもよい。

しかしながら、入力されたローマ字音訳が１つを超える漢字（図１−図３の音訳「けん（ken）」、「きたい（kitai）」および「きり（kiri）」の場合などのように）に対応する場合、方法はステップＳ６３からＳ６４へ進んでもよい。そこで、コンピュータシステムはユーザに対して候補漢字を表示するか、他の方法で与えてもよい。しかしながら、ユーザが連想エントリを構成していたり与えていたりする間に複数の候補文字を表示することがあまりにユーザの気を散らすこととなるならば、ステップＳ６４は省略されてもよい。本願明細書に記述され、図面で示される連想エントリは、示されるように英単語である必要はない。たとえば、日本語を母語として話す人にとっては、連想エントリは、ユーザが所望の文字から連想したものの音声（仮名）形式であり得る。したがって、下記に詳述されるように、連想エントリはいかなる言語および／またはいかなる形式性でも規定され得る。候補文字は、ユーザによって与えられたローマ字音訳に対応する漢字である。たとえば、図１に示される文字は、ローマ字音訳「けん（ken）」を入力するユーザに応答して、漢字候補としてユーザに表示され得る。次いで、ユーザは、漢字候補のうちの１つを所望の漢字として直接に選択する機会を与えられ得る。しかしながら、本発明の実施例によれば、ユーザは、漢字候補のフィールドを１つのみに狭めるような試行において、１つ以上の連想エントリをコンピュータに与えることができる。したがって、ステップＳ６５に示されるように、コンピュータは、たとえば図４および図５に示されるような１つ以上の連想エントリをユーザに促すことができる。ステップＳ６６では、与えられた連想エントリが漢字候補のフィールドを実際に１つにまで狭めるか否かが判断される。狭めない場合、ユーザは、１つ以上の追加的な連想エントリを与えるように促され、方法はステップＳ６５に戻ることができる。ただ１つの漢字候補のみが残る場合、ステップＳ６７によって示唆されるように、その唯一の残った漢字候補はユーザが求める漢字であるはずである。そうでなければ、そのプロセスが繰返されてもよい。方法はステップＳ６９で終了する。

本発明の実施例は、連想表（図５参照）に予め種が蒔かれる場合に限定されない。すなわち、たとえば図４に示される態様で他の人によって選択された連想エントリで埋められる場合である。実際、本発明の実施例は、本願明細書に記述した非ローマアルファベト文字の選択システムがそのユーザから学習することができるようにすることによって、より強化された機能を獲得し得る。確かに、本願明細書に記述された非ローマアルファベット文字選択方法およびシステムは、集合の中のユーザから学習し得るだけでなく、個人ユーザから学習し適合するよう構成されてもよい。いかなる２人のユーザも同一の背景を有するとは考えられないので、これは望ましいことである。そのかわり、異なる背景（教育的、社会的、文化的背景など）は必然的にユーザに異なる連想および心の中のイメージを形成させ、したがって、異なる漢字から異なるエントリを連想させる。したがって、１人のユーザにとっては意味があり、直感し得る、所与の漢字からの所与のエントリまたは単語の連想は、同様の状況にある人であっても、別のユーザにとっては意味をなさず、直感されないかもしれない（その可能性が高い）。

少し図４に戻ると、４１０、４１４および４１８で示された、連想データベースに種を蒔くために用いられた参加者は、ローマ字音訳「けん（ken）」について「証明書」および「スピード違反」などのいくつかの連想を共有した。しかしながら、参加者４１８は、漢字４０６および音訳「けん（ken）」４０８から「橋本」を連想したが、恐らくは４１８のみが知る理由でそうしたのである。同様に、同じ漢字４０６に対して、参加者４１０によって「ピンク」という連想単語が与えられた。これらの連想が連想データベース４０２において予め種が蒔かれた連想エントリとして包含されるための選択基準に一致しなかった一方で、しかしながらこれらの連想は参加者４１０、４１８には完全に意味がわかるものであった。このように、本発明の実施例によって、連想表（図５参照）は有利にこの文字選択システムの各ユーザのためにカスタマイズされることができる。するとこれらのユーザはこれらの同じ連想を思いついて所望の文字を選択することができる。

図７は、本発明の実施例によって連想データベース４０２がこの文字選択方法およびシステムの各ユーザのために個別化され得る、例示的な態様を示す。３人のユーザが示される。すなわち、ユーザ７０２のアリス（Alice）、ユーザ７１０のボブ（Bob）、およびユーザ７１８のチャーリー（Charlie）である。本発明の実施例によれば、連想データベース４０２は、図４に関して示され、記述された態様で、予め種を蒔かれ得る。関連付けられたデータベース４０２は、さらに、そのユーザによって与えられる連想エントリをそこに含めることにより拡張され得る。示されるように、アリスについての文字４０６のレコードは、予め蒔かれた連想エントリに加えて、アリスが文字４０６および／または音訳４０４から連想するエントリを含み得る。７０４で示されるように、アリスが文字４０６から連想する連想エントリは、「用紙（Form）」、「応募（Application）」および「場外馬券投票（Off-Track Betting）」である。したがって、これらのユーザ固有の連想は、連想データベース４０２における文字４０６のレコードに含まれる。したがって、連想データベース４０２は、７０８で示されるように、文字４０６が提示されるとアリスが行う連想によって個別化されることができる。したがってこの文字選択方法およびシステムは、各ユーザが、選択された文字に選択されたエントリを関連付けるようにシステムをトレーニングする、トレーニングコンポーネントを含めることができる。この態様で、ユーザ７１０は、７１２で示されるように、同じ漢字４０６からエントリ「記録」および「Ｓａｔａｉ」を連想し得る。たとえば、連想エントリ「Ｓａｔａｉ」は、ユーザ７１０のボブにとってのみ有用であって他のユーザには有用ではないかもしれない。しかしながら、この連想エントリ「Ｓａｔａｉ」はボブにとっては最も有効な連想かもしれない。なぜならば、このような連想の背景にある理由にかかわらず、この単語が、ボブが文字４０６について最も密接に関連付ける単語であり得るからである。ユーザ７１８であるチャーリーは、文字４０６から金融関連用語を連想してもよく、７２０で示されるように、これは彼の文字４０６から連想するエントリの選択に反映されている。次いで、参照番号７０８、７１６および７２４で示されるように、これらの個別の連想はユーザ個人の個別化された連想データベースに組入れられる。これらは別個のデータベースか、または連想データベース４０２に統合されてもよい。システムがユーザを区別できるように（たとえば）ログイン手順が実現されてもよい。

本発明の別の実施例によれば、複数のユーザに単一の連想データベース４０２のみが与えられてもよい。その場合、たとえば、関連付けられたエントリまたは発音は、最も成功した連想エントリ（すなわち、結果としてただ１つの文字の選択をした連想エントリ、または最も少ない数の連想エントリを用いて所望の文字の選択に成功に至った連想エントリ）が、それほど成功しなかったエントリの前に現われるよう互いに順序付けられてもよい。さらに、連想エントリは、連想データベース内の効率的な二分探索を可能にするよう順序付けられてもよい。別の実施例によれば、しばしば用いられる、かつ／または、所望の文字の選択の成功に至る連想エントリだけがデータベースに残ることができる。用いられないか、または効率的に所望の文字の選択に至らない連想エントリは、所望の文字の連想データベースにおけるレコードから間引かれてもよい。この態様で、連想データベース４０２は結局ユーザの好みの連想によってのみ、または主にそれにより、すなわち、最も成功した連想エントリによって占められるようになり得る。連想データベース４０２がさらに、音訳自体が二分探索を受け得るような仕分け順序で並べられるよう順序付けられ得ることに注意されたい。連想表４０２におけるすべてのエントリには迅速なアクセスのために索引が付けられてもよい。

ユーザの使用パターンを監視することによって、本発明の実施例はユーザの選択を予測し、文字選択プロセスの性能を高めてもよい。上記に詳述されるようにデータベース４０２を修正することによって、連想データベース４０２は、短期間の経過（たとえば数週間の大量使用）後に高度に個別的になり得る。格納されたユーザプロフィルの実現により、図７の７０８、７１６および７２４で示唆されるように、個人ユーザが自分の「個別的になった」連想データベース４０２にアクセスすることが可能になる。

図４に関して説明されるように、本発明の実施例は別々のトレーニングコンポーネントを含み得る。しかしながら、本発明の実施例はさらに、別々のトレーニングセッションに依存しない、より統合されたトレーニング機能を含む。実際、この文字選択システムおよび方法は、事実上、ユーザが失敗した連想から学習するよう形成されてもよい。たとえばユーザが、ステップＳ６５のプロンプトに応答して連想エントリをシステムに与えるとき、ユーザは連想データベースの漢字のどれにでもない連想エントリを与えることがあり得る。その後は、システムは連想データベース４０２のいかなるレコードにも与えられた連想エントリを一致させることができないので、このように与えられた連想エントリは漢字候補のフィールドを狭めるのに有効ではない。するとステップＳ６６への回答は「Ｎｏ」であるので、システムはステップＳ６５に戻り、１つ以上の追加の連想エントリを与えるようにユーザに促す。結局ユーザは、候補文字のフィールドを実際にただ１つにまで狭めるような連想エントリをシステムに与えなければならず、それがステップＳ６７で選択された所望の漢字となる。プロセスが、ユーザが与えた連想エントリを用いてただ１つの漢字を選択することに成功したので、ステップＳ６８で示されるように、関連付けられるデータベース４０２は更新され、以前には格納されていなかった、ユーザが与えたこれらの連想エントリを連想データベースに含めることができる。次いで、これらの新しい連想エントリは、ステップＳ６７で選択された漢字に対応するレコードに格納されることができる。ユーザが同じ漢字の選択を次に試みる時には、新しく追加された連想エントリは所望の漢字を選択するのに、または少なくとも漢字候補のフィールドを狭める（数を少なくする）のに有効となり得る。検索している状況において、ユーザが、用いられた連想を与えられると、ユーザの音声的な表現および与えられた連想によって決定される所望の参照を見つける可能性がさらに高い。

連想データベース４０２の表が各漢字について複数の連想エントリを有し得るので、いくつかの連想エントリは２つ以上のレコードに共通であることが予測できる。すなわち、２つ以上の漢字に関連付けられている。その場合、候補文字の数（ユーザに与えられるかもしれないし、与えられないかもしれない）は１を超え、それは、そのレコードが共通の連想エントリを包含するような文字の数を表わす。これを解決し、かつ候補文字の数を１にまでふるい分けるために、ユーザは１つ以上の追加の連想エントリを与えてもよく、それがこのような共通の連想エントリを包含するレコードの数を減じなければならない。ユーザが追加的な連想エントリを与え、それらのエントリが候補文字のかつてなく縮小していく母集団に加えられると、その数は非常に素早くただ１つの候補文字となる。

本発明の実施例は検索エンジンとして構成されてもよく、または、検索の効能を増大してよりユーザに関連した結果を返すことにより、既存の検索技術を補い、強化するよう構成されてもよい。図８は、本発明の実施例を採用する例示的かつ例証となる検索エンジンを示す。検索エンジンは、たとえば企業ネットワーク検索エンジンとして配備されるかその中にもしくは組込まれ、またはウェブ検索エンジンとして配備され得る。その検索は、文書、データベースエントリ、絵に付けられたラベルもしくはテキスト、単語、文字、絵、または本願明細書に集合的に「文書」と呼ぶあらゆる説明のデータオブジェクトについてなされる。図８に示されるユーザインタフェースの実現例で示されるように、上述のように、ユーザは、標準ブラウザ（たとえば）８００を介して、所望の非ローマアルファベット文字の発音（たとえば音声発音であり得る）または音訳を入力するように８０２において促され得る。ユーザはさらに、テキストボックス８０４に１つ以上の連想エントリを入力するよう促されてもよい。この場合、ユーザによって入力された音訳は「けん（ken）」であり、ユーザによってテキストボックス８０４に入力された連想エントリは、「剣（Sword）」、「刃（Blade）」および「ジェットリー（Jet Li）」である。本願明細書では連想エントリは英語で示されるが、連想エントリは、所望の文字の言語（この場合は日本語）を含むいかなる言語で入力されてもよいことが理解される。一旦ユーザが音訳および連想エントリの両方を入力し終えると、ユーザは例示的なテキスト「漢字を探す」を有するボタン８０６をクリックするか他の方法で選択することができる。入力された音訳および入力された連想エントリがただ１つの候補文字に対応すると仮定すると、図９の例示的なスクリーンが現われ得る。ユーザの入力に応答して、検索エンジンは、ユーザが入力した音訳および連想エントリを包含するレコードに包含される漢字について連想データベースを検索することができる。この場合、唯一の漢字候補９０６が返される。次いで、ユーザはこの文字を受取って、９０２においてネットワーク（たとえばインターネットなど）全体にわたって文字の例を見つけるように検索エンジンに命じてもよく、またはテキストボックス８０４に追加的な連想エントリを加えてもよく、ボタン９０４の選択によって以前そこに包含されていた連想エントリを新しい連想エントリに置き換えることを決定してもよい。さらに代替的には、ユーザに２つ以上の候補文字が提示されてもよく、ユーザが自分の求める文字を認識している場合は、追加的な連想エントリを与える代わりに、これらの示されたものの中から所望の文字を単に指すか、他の方法で選択してもよい。上述のように、多くのユーザが、自ら再生することができるよりもはるかに多くの漢字を認識する。本発明の実施例はこのような能力をうまく利用する。

代替的には、単一の漢字で検索する代わりに、ユーザは本願明細書に記述された方法を反復して用いて、このような（漢字または他の）文字の検索列を構築し、たとえば文字ベースのウェブサイトおよび／または企業イントラネットを検索する際に使用してもよい。本発明の実施例の他の用途は、効率的に買い手と売り手とを適合させるために、ウェブベースのオークションのための品目を特定することを含み得る。

本発明の実施例は、文書を作成する目的のため、検索の指定のため、および／またはアプリケーションプログラムを制御し、それに寄与するために、容易に習得される、効率のよい（performant）、かつ柔軟な、特定の非ローマアルファベット文字（たとえば日本や中国の漢字など）にアクセスする方法およびシステムを与える。本発明の実施例は、関連付けられた文字を備えるすべての種々様々のデータベースに対応することができる。たとえば、中国語は多くの話し言葉を有する単一の書き言葉であるが、共通の漢字が２つ以上の方言と関連付けられるように連想データベースを構成することができる。たとえば、共通に理解されるが異なった発音をされる構成言語の文字にアクセスするために、クレオール（Creole）（２つ以上の言語の方言の組合わせ）が用いられてもよい。文字アクセスの従来の手段と異なり、本発明の実施例は、ソフトウェア購入者に販売されているアプリケーションそのものに埋込まれてもよく、任意の特定のハードウェアにリンクされる必要はない。

検索語の「コンテキスト」およびそのコンテキストがいかに確立され得るかは、すべての高度な検索アルゴリズムの基礎である。本発明の実施例はいかなる書き言葉の検索エンジンにも適用可能である。事実、本発明の実施例は、文字ベースの文書生成および検索の他にも有用性が見られる。たとえば本発明の実施例は、検索エンジンにこのようなコンテキストを与えることによって、検索エンジンが検索をする人の検索目的に最も近い用語をヒットし、他のすべてを排除することを可能にする。ユーザは、本発明の局面を検索エンジンに用いて、いくつかのヒットのスコアを他と相対して高めるためにコンテキストを与えることにより、検索の有効性および効率を増大させることができる。コンテキストを与えることはまた、望ましくない用語を排除するのにも有効であり得、それにより、ユーザが興味を持つ可能性が最も高い検索結果にまで検索結果をふるい分ける。下記に詳述されるように、本発明の実施例は、その書き言葉にローマ文字が用いられるか非ローマ文字が用いられるかにかかわらず、いかなる言語の検索エンジンにも適用可能である。

下記に記述される実施例は、既存の検索エンジンおよび技術が、成功した検索の履歴のコンパイル、リンクの頻度、または他のウェブ検索、データベース検索、もしくは単なるテキスト文書検索の公知の手段を伴うか否かを問わず、これらの既存の検索エンジンおよび技術の代わりに、またはこれに加えて、用いられ得ることが理解されるべきである。

本発明の実施例によれば、検索を始めるために、ユーザはたとえば英語（またはたとえば自分の母語）などのいかなる言語でも、１つ以上の検索語を口頭で入力し、タイプし、または他の方法で与えることができる。すると与えられた検索語は同音異字リストに分けられ、上述の方法が用いられて、与えられた検索語は、単語、文字、または書き言葉の組に分けられ得る。検索語の指定に用いられる言語のデータベース４０２を基準にした言語が何であっても、話される応答およびキーとなる応答が交互になることにより、検索語の辞書的な意味のリストへの最初の指定が素早く決定される。

与えられた検索語の辞書的な意味はいくつかの辞書的な意味を含み得る。たとえば、英単語「カウント（count）」は、いくつかの異なる英語の意味を有する。ウェブスターの辞書（Webster's Dictionary）では、「カウント（count）」という単語は、５つの主要な意味と、５つの主要な意味の中に１２の小さな意味とを有する。ユーザが検索される単語のためにこれらの意味のうち１つを特定する能力により、検索エンジンによって実行されるよりもさらに著しく高度な検索が可能になる。検索語に対する一致がない場合であってさえ、検討されたターゲットソースでのコンテキストの用語により、本発明の局面を具体化する検索エンジンが意味のある検索結果を返すことが可能になるかもしれない。ウェブスターの辞書では、単語「コート（court）」は以下のように定義される：
主要見出し語：court
発音：「kOrt」「kort」
機能：名詞
使用法：しばしば限定詞
語源：中英語、古フランス語、ラテン語のｃｏｈｏｒｔ−、ｃｏｈｏｒｓから、囲い、グループ、従者、ｃｏ−＋−ｈｏｒｔ、−ｈｏｒｓ（ｈｏｒｔｕｓ（庭）と同類）、ＹＡＲＤの項参照
１ａ：国王または同種の権力者の住宅または敷地：１ｂ：国家の議員および高官の公式な集会：１ｃ：統治権力者である国王、高官、顧問：１ｄ：国王の家族および従者：１ｅ：国王の行う謁見式
２ａ（１）：通常は囲いのある土地によって囲まれた領主の邸宅または大きな建物：２ａ（２）：ＭＯＴＥＬ２ｂ：１つの建物によって境界された、または複数の建物によって完全にもしくは部分的に囲まれた空き地：２ｃ：ボールを用いるさまざまなゲーム（ローンテニス、ハンドボール、またはバスケットボールなど）のうち１つを行うために壁で囲まれ、または印がつけられた四辺形の空間；さらに：このようなコートの一区分：２ｄ：通りに面して１つの開口しかない広い小路
３ａ：司法業務の執行のための公式な集団：３ｂ：このような裁判所の公判＜court is now adjourned（ここで休廷します）＞３ｃ：司法行政のための場所（執務室）：３ｄ：公判の裁判官；さらに：判断または評価する部局または機関＜rest our case in the courtof world opinion…L.H.Marks（我々の案件は世論の評価に任せよう…L.H.マークス）＞４ａ：立法機関または行政機関の議会または理事会：４ｂ：国会、議会
５：機嫌をとり、または敵意を払拭することを意図した行為または態度：敬意＜pay court to the king（王へのご機嫌伺い）＞。

このように、「カウント（Count）」という単語は、１つ以上の連想エントリを検索エンジンに与えることにより検索中に解決され得る、いくつかの異なる辞書的な意味を有する。これを可能にするために、これらの異なる辞書的な意味の各々が連想データベースの表の行として与えられ、各行は辞書的な意味と関係し、またはユーザの心の中で所望の辞書的な意味から連想される１つ以上の連想エントリを包含する。本発明の実施例によれば、ユーザは、検索語に加えて、連想エントリを入力し、それはたとえば意味および／または全体的なコンテキスト（たとえば技術的な領域、産業、政府省庁など）のフィールドを含んでもよい。そのような連想エントリにより、検索エンジンが、与えられた検索語であってその連想エントリがユーザが与える連想エントリに対応する検索語の辞書的な意味にまで、検索の範囲を限定したり拡張したりすることにより、検索の範囲を狭めることが可能になる。代替的には、検索エンジンは、連想によって作られた「スコア」に対する寄与度に部分的に基づいて、各解決案に点数を与えてもよい。ユーザが入力した連想エントリ、およびユーザにとっての以前の成功した検索に基づいて、階層的なカテゴリがさらに構築されてもよい。さらに、本発明の実施例による検索エンジンが検索を実行するとき、それは１つ以上の公知の階層的カテゴリを選択するようユーザに促すことができる。これらの公知の階層的カテゴリは、以前に連想データベース４０２に蒔かれたかもしれず、かつ／または以前に成功した検索の以前に入力された連想エントリであったかもしれない。次いで、検索が成功する結果となった、ユーザが与えた連想エントリが連想データベース４０２に加えられ、次の検索で利用可能になり得る。ユーザは、検索に成功した結果が与えられれば、ユーザのプロフィルの一部として覚えられ、今後用いられ得る新しい階層的カテゴリを生成するようさらに促されてもよい。これは、日本語または中国語の漢字で有効であるように、ローマ文字検索エンジンにも有効な戦略である。ユーザのプロフィルは、上述されるようにデータベース４０２に以前の個人的検索の結果を格納することができ、またユーザの目的を決定するのを助けるために以前の連想エントリを用いるよう構成され得ることに注意されたい。ユーザはそのような過去の連想エントリおよび階層的カテゴリを許容したり排除したりする機会をも与えられ得る。

検索の結果は、たとえば、関連性（連想エントリのいくつ／いくらが、ページ、文書または参考ヒットに見つかるか）および強さ（最も高い優先順位の連想エントリの量）を含み得る基準に従って分析されてもよい。

以前に記述された実施例では、ユーザが検索語に加えて与えた連想エントリは、単語、および／または、音、もしくは、検索語と関係し、かつ／またはユーザの心の中でこれに関連付けられる他の入力であってもよい。検索語および連想エントリの組合わせの各々は並行して検索されてもよい。たとえば、ユーザは、所望の検索語に対して５つの連想エントリを入力し、また他の方法で与えるように促されてもよい。代替的には、ユーザは、所望の検索語に対する自分の連想エントリとしてカテゴリ（たとえば動物、野菜、または鉱物）を与えるように促されてもよい。たとえば、検索語が「作業犬（working dog）」である場合、ユーザが入力する連想エントリは、たとえば「犬の（canine）」、「狩り（hunting）」および「スパニエル（spaniel）」を含んでもよい。

ユーザのための連想データベース４０２の内容に基づいて、検索エンジンはまた、与えられた検索語および／または連想エントリに関する１つ以上の質問に対する回答についてユーザを促すよう構成されてもよい。たとえば、検索エンジンはたとえばその大きさ「それはパン入れよりも大きいか？」といった検索語の何らかの特性に関する追加情報についてユーザを促すよう構成されてもよいし、または、たとえば、検索語が物理的な結果を有するか否か決定するようにユーザに促してもよい。検索エンジンは、検索語および連想エントリに基づいて、階層的カテゴリが現在のセッション中にユーザが与えたものであっても以前のセッション中にユーザが与えたものであっても、そのようなカテゴリを上下に検索することができる。

検索エンジンは、検索を絞るため、検索語の分類および／またはメンバーシップについてユーザを促すよう構成されてもよい。たとえば、本発明の実施例によれば、この検索エンジンは、連想エントリとして検索語の特性を入力するか、または以前に入力された連想エントリをさらに特徴付けるよう、ユーザに促してもよい。たとえば、検索語が「大きい（big）」であって関連付けられた単語が「破壊（destruction）」および「損傷（damage）」である場合、ユーザは検索語および／または連想エントリの１つ以上の特性を入力するように促されてもよい。たとえば、怪物、嵐、および恐竜が、これらはすべて「大きい」ので、たとえ大きくなければわずかな関係しかないとしても、（それらはすべて通った跡に損傷の跡を残すので）検索され得る。

本発明の実施例による検索エンジンはまた、単語の一定の連想および／またはクラスタを排除するよう構成され得る。たとえば、この検索エンジンのユーザは、一定の排他的な連想エントリが、検索されている品目を特徴付けないように、特定してもよい。この態様で、階層的カテゴリが存在する場合、ユーザは検索エンジンに一定の階層的経路を切取らせ（すなわち検索せず）、かつ／または、排他的な意味と関係する意味に関係する、かつ／またはそれらを含む文書を検索しないようにさせてもよい。たとえば、ユーザは、「作業犬」の検索語を特定し、「寒い気候（cold weather）」「そり（sled）」などの連想エントリを特定し、連想エントリ「サモエド犬（Samoyed）」が含められないような条件を含めることができる。それに応答して、検索エンジンは、作業犬、寒い気候およびそりに関連付けられているが、犬のサモエド種を特定する検索結果を含まないページおよび文書を検索する。

同じ態様で、検索エンジンは、検索語および連想エントリと一致する結果について階層的経路を上下に検索するよう構成されてもよい。カテゴリ階層の全体部分は積極的に検索に含まれても検索から排除されてもよい。

図１０は、本発明の実施例が実現され得るコンピュータシステム１０００のブロック図を示す。コンピュータシステム１０００は、情報を通信するためのバス１００１または他の通信機構と、情報を処理するためにバス１００１と結合された１つ以上のプロセッサ１００２とを含む。コンピュータシステム１０００は、情報およびプロセッサ１００２によって実行される命令を記憶するためにバス１００１に結合されたランダムアクセスメモリ（ＲＡＭ）または他のダイナミック記憶装置１００４（メインメモリと呼ばれる）をさらに含む。メインメモリ１００４は、さらに、プロセッサ１００２による命令の実行中に一時的変数または他の中間情報を記憶するために用いられ得る。コンピュータシステム１０００はさらに読出し専用メモリ（ＲＯＭ）および／または、プロセッサ１００２のための静的情報および命令を記憶するためにバス１００１に結合された他の静的記憶装置１００６を含む。磁気ディスクまたは光ディスクなどのデータ保存装置１００７は、情報および命令を記憶するためにバス１００１に結合される。コンピュータシステム１０００はまた、コンピュータユーザに情報を表示するための表示装置１０２１にバス１００１を介して結合されてもよい。英数字および他のキーを含む英数字入力装置１０２２は、プロセッサ１００２に情報およびコマンド選択を通信するために典型的にはバス１００１に結合される。別の種類のユーザ入力装置は、プロセッサ１００２に方向情報およびコマンド選択を通信するための、および表示装置１０２１上のカーソルの動きを制御するための、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御機器１０２３である。口頭の入力を与えるためにマイクロホンが用いられてもよく、１０２５で示されるように、ユーザの身振りまたは符号言語を入力するためにカメラが用いられてもよい。

ローマ文字および非ローマ文字を入力し検索するための方法およびシステムを可能にするために、本発明の実施例は、コンピュータシステム１０００の使用および／または複数のそのようなコンピュータシステムに関係する。１つの実施例によれば、ここに記述された方法とシステムは、メモリ１００４に包含される命令のシーケンスを実行するプロセッサ１００２に応答して、１つ以上のコンピュータシステム１０００によって与えられ得る。そのような命令は、データ保存装置１００７などの別のコンピュータ可読媒体からメモリ１００４へ読出されてもよい。メモリ１００４に包含される命令のシーケンスの実行はプロセッサ１００２にステップを実行させ、ここに記述した機能を有する。代替実施例では、本発明を実現するソフトウェア命令の代わりに、またはその命令と組合わせて、ハードワイヤードの回路が用いられてもよい。このように、本発明は、ハードウェア回路およびソフトウェアのいかなる特定の組合わせにも限定されない。

前述の詳細な説明は本発明の好ましい実施例について記述しているが、上記の説明は例示的であって開示された発明を限定するものではないことが理解される。当業者は他の代替実施例を認識することができ、そのような実施例はすべて本発明の範囲内にあると認められる。

Claims

アルファベットと異なる文字であり、ユーザが知らない１つ以上の予め定められた非ローマアルファベット文字を含む文書を検索するための方法をコンピュータに実現させるためのプログラムであって、前記プログラムは、前記コンピュータに、
所望の非ローマアルファベット文字の発音の入力を受けるステップと、
前記コンピュータのユーザから、前記所望の非ローマアルファベット文字から連想する少なくとも１つの連想単語または句の入力を受けるステップと、
その発音が与えられた発音に一致し、かつ前記少なくとも１つの連想単語または句のうち１つ以上と関連付けられる１つ以上の候補文字の連想データベースからの検索をさせるステップと、
候補文字の数が１を超える場合に追加的な連想単語または句を与え、ただ１つの候補文字が検索されるまで前記検索をさせるステップを繰返すステップと、
前記ただ１つの候補文字を含み得る文書についてサーチを行なわせるステップと、
追加的な予め定められた非ローマアルファベット文字のための追加的な候補文字を検索するために、発音の入力を受ける前記ステップに連続的に戻るステップとを実行させ、
前記ユーザから入力される連想単語または句の少なくとも１つは、前記１つ以上の予め定められた非ローマアルファベット文字の意味とは無関係である、プログラム。
前記発音は音声発音である、請求項１に記載のプログラム。
与えられた連想単語または句が前記予め定められた文字と現在関連付けられていない場合、与えられた連想単語または句を前記予め定められた文字に関連付けて、前記受取った連想単語または句を前記連想データベースに格納するステップを、前記コンピュータにさらに実行させる、請求項１に記載のプログラム。
与えられた連想単語または句が前記連想データベースに現在存在しない場合、前記与えられた連想単語または句を前記連想データベースに加えるステップを前記コンピュータに実行させる、請求項１に記載のプログラム。
発音の入力を受ける前記ステップは、日本語の文字である非ローマアルファベット文字で実行される、請求項１に記載のプログラム。
発音の入力を受ける前記ステップは中国語の文字である非ローマアルファベット文字で実行される、請求項１に記載のプログラム。
発音の入力を受ける前記ステップは朝鮮語の文字である非ローマアルファベット文字で実行される、請求項１に記載のプログラム。
発音の入力を受ける前記ステップはヘブライ語の文字である非ローマアルファベット文字で実行される、請求項１に記載のプログラム。
発音の入力を受ける前記ステップはアラビア語の文字である非ローマアルファベット文字で実行される、請求項１に記載のプログラム。
前記検索をさせるステップは、複数の行を有する連想表を含む連想データベースで実行され、各行は、ただ１つの異なる非ローマアルファベット文字、前記ただ１つの非ローマアルファベット文字のローマアルファベット発音、および前記ただ１つの非ローマアルファベット文字に関連付けられ得る複数の単語または句を含む、請求項１に記載のプログラム。
発音の入力を受ける前記ステップは、前記連想データベースに結合されたコンピュータへの音声入力を介して実行される、請求項１に記載のプログラム。
発音の入力を受ける前記ステップは、前記連想データベースに結合されたコンピュータへのキーボード入力を介して実行される、請求項１に記載のプログラム。
発音の入力を受ける前記ステップは、前記連想データベースに結合されたコンピュータへのマシン画像を介して実行される、請求項１に記載のプログラム。
前記検索をさせるステップは、ログインしているユーザについて個別化された連想から少なくとも１つの候補文字の前記検索をさせるよう、ログインするステップをさらに含む、請求項１に記載のプログラム。
サーチをさせる前記ステップは、文書についてコンピュータネットワークのサーチをさせるステップを含む、請求項１に記載のプログラム。
連想単語または句の入力を受ける前記ステップは、予め定められた非ローマアルファベット文字と同じ言語の連想単語または句で実行される、請求項１に記載のプログラム。
連想単語または句の入力を受ける前記ステップは、予め定められた非ローマアルファベット文字とは異なる言語の連想単語または句で実行される、請求項１に記載のプログラム。
発音の入力を受ける前記ステップの発音は音声アルファベットを用いるよう構成されている、請求項１に記載のプログラム。
前記検索をさせるステップは、たとえばローマ文字、非ローマアルファベット文字、絵もしくは音楽、および任意のコンピュータ読取り可能なファイルのうち少なくとも１つの検索をさせるよう構成されている、請求項１に記載のプログラム。