JP5512614B2 - 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム - Google Patents

非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム Download PDF

Info

Publication number
JP5512614B2
JP5512614B2 JP2011176001A JP2011176001A JP5512614B2 JP 5512614 B2 JP5512614 B2 JP 5512614B2 JP 2011176001 A JP2011176001 A JP 2011176001A JP 2011176001 A JP2011176001 A JP 2011176001A JP 5512614 B2 JP5512614 B2 JP 5512614B2
Authority
JP
Japan
Prior art keywords
associative
character
user
characters
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011176001A
Other languages
English (en)
Other versions
JP2012038320A (ja
Inventor
ジョンソン,リチャード・シィ
Original Assignee
オラクル・インターナショナル・コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オラクル・インターナショナル・コーポレイション filed Critical オラクル・インターナショナル・コーポレイション
Publication of JP2012038320A publication Critical patent/JP2012038320A/ja
Application granted granted Critical
Publication of JP5512614B2 publication Critical patent/JP5512614B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/018Input/output arrangements for oriental characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

発明の背景
発明の分野
本発明は、文書ならびにウェブおよび他のデータオブジェクト、画像、および記号オブジェクトまたは概念検索のために中国語および日本語の文字を入力するための、コンピュータで実現される方法とシステムとに関する。
関連技術の説明
中国語および日本語の文字をコンピュータに入力することに関連する基本的な問題は、単に、正式な中国語の技術文書または政府文書に必要な約4万の文字は言うに及ばず、日本語の新聞で見られる何千もの文字を収容するようにはキーボードを十分に大きく作ることができないことである。同じ問題は他の言語でも起こり得る。さらに、(中国語、日本語、およびいくらかの朝鮮語の)文字ベースのウェブサイトの数が増大していることは、このような文字の適切な入力方法なしにこれらのウェブサイトの検索を極めて困難にしている。さらに、文字を得ること、およびそれを検索することさえ、検索が実行されている文字の特定の例が分離されたことを意味するわけではない。アラビア語またはヘブライ語などの他の言語は、現在の方法による手動入力にはうまく適合されていない文字または構文および文体を有する。次善の策は存在するが、うまく機能しているものはない。従来の検索システムは所望の結果を返すかもしれないが、代わらず何度も、所望の結果を返すのと同程度に多く、所望でない結果を返す。
発明の分野
日本人は音声入力を好むが、言語欠陥または言語障害、アクセント、発音、(ある単語や文字が別の単語または文字に置換えられる)誤り、方言、第2言語または後続言語に関係した問題は残存する。最近の音声認識システムでは、機械が正確にユーザの発話を書き写せるようになるまで長いトレーニング期間が必要である。さらに、多くの場合、許容できる認識レベルで機械が作動できるようにするために、ユーザが正しい言葉遣いを駆使するようトレーニングする必要がある。
まず日本語を書く形式については、最も古い一般的な方法は、ユーザが所望の文字(または文字のクラスタを意味する句)の音声表記をキーボードに入力する(ローマ字(Romaji)すなわちローマアルファベット(Roman alphabet)を用いた日本語文字(Japanese characters)の音声訳、または日本の音声文字である仮名)ことである。同様に発音される文字がすべてスクリーンに示され、ユーザは次にディスプレイ上に提示された同様に発音される文字の中から選び出すよう求められる。このプロセスは遅く、面倒で、必ずしも所望の文字を生じるとは限らない。
近年の解決法では、ユーザが、話し言葉から文字へのソフトウェア/機械翻訳を用いて、話された日本語または中国語を書取ることが必要である。次にユーザは結果を編集したり話を繰返したり、または結果を確認しなければならない。しかしながら、発話を用いる現在の方法は、すべての潜在的なユーザに対して適切な速度、精度および適合性を欠くと考えられる。同様に、ローマ字発音を入力するキーボード方法にもっぱら依存する従来の方法は、遅く、厄介で、直観に反するものであると考えられる。最後に、これらの従来の方法は、多くの候補文字のうち1つを選択する必要があることにより、またはユーザが自分の話を繰返す必要があることにより、ユーザの思考脈略をしばしば中断する。しばしば、ユーザは候補文字を認識しないことがあり、したがって候補文字の中から適切な文字を選択することができない。さらに、これらの方法では、しばしばユーザは所望の文字を確実にタイミングよく選択することができない。
これらの欠点は、このような非ローマアルファベット文字を包含するウェブサイトを検索する目的でウェブ検索エンジンにその文字を入力しようと試みるとき、さらに明らかとなる。したがって、ユーザが検索エンジンに非ローマアルファベット文字を入力すること、およびその入力された文字で検索することが容易にできるような方法およびシステムも必要である。
発明の概要
本発明は、ある実施例によれば、1組の非ローマアルファベット文字から所望の非ローマアルファベット文字を選択する、コンピュータで実現される方法である。以下の単語「連想」の使用はすべて、本発明の特定のユーザの心の中の連想を指す。この方法は、その組の各非ローマアルファベット文字について、前記各非ローマアルファベット文字に関連付けられたローマアルファベットの音声訳と前記各非ローマアルファベット文字に関連付けられた複数のエントリとを含む連想データベースを与えるステップと、所望の非ローマアルファベット文字の音声訳と所望の非ローマアルファベット文字に関連付けられた少なくとも1つのエントリとを受取るステップと、連想データベースにアクセスして、受取った音声訳と少なくとも1つの受取った連想エントリとに関連付けられたその組のそれらの文字を候補文字として特定するステップと、候補文字の数が1を超える場合に追加的な連想エントリを受取り、多くの候補文字がただ1つの候補文字に狭められるまでアクセスし特定するステップを繰返すステップと、そのただ1つの候補文字を所望の非ローマアルファベット文字として与えるステップとを含み得る。
他の実施例によれば、1つ以上の連想エントリは所望の文字の意味とは無関係であってもよい。関連付けられたデータベースにおける1つ以上の連想エントリはユーザが与えるものでもよい。受取った連想エントリが所望の文字と現在関連付けられていない場合、この方法は、その受取った連想エントリを所望の文字に関連付け、受取った連想エントリを連想データベースに格納するステップをさらに含んでもよい。受取った連想エントリが連想データベースに現在存在しない場合、この方法は、その受取った連想エントリを連想データベースに加えるステップを実行するステップをさらに含んでもよい。与えるステップは、(たとえば)日本語、中国語、朝鮮語、ヘブライ語および/またはアラビア語の文字を含む非ローマ文字の組で実行することができる。与えるステップは、複数の行を有する連想表を含む連想データベースで行なわれてもよく、各行は、その組のただ1つの非ローマアルファベット文字、そのただ1つの非ローマアルファベット文字のローマアルファベット音声訳、およびそのただ1つの非ローマ文字に関連付けられ得る複数のエントリを含む。受取るステップは、音声入力、キーボード入力、および/または、(たとえば)連想データベースに結合されたコンピュータへのマシン画像(machine vision)を介して行なわれてもよい。連想データベースを個別化するステップは、連想データベースが、各ユーザについて、各前記ユーザから受取った連想エントリを包含するように実行されてもよい。この方法は、アクセスし特定するステップをさほど反復せずにただ1つの候補文字に至るこれらの受取った連想エントリが、アクセスし特定するステップを比較的多く反復してただ1つの候補文字に至る連想エントリよりも高くランク付けされ得るように、連想エントリを連想データベースにおいて順序付けるステップをさらに含んでもよい。この方法は、与えられた非ローマアルファベット文字を含み得る文書についてコンピュータネットワーク(たとえばインターネットまたは企業イントラネットなど)を検索するステップをさらに含んでもよい。受取るステップは、所望の非ローマアルファベット文字と同じ言語の連想エントリで行なわれてもよい。受取るステップは、所望の非ローマアルファベット文字とは異なる言語の連想エントリで行なわれてもよい。この方法は、複数の非ローマアルファベット文字を選択するために音声訳を受取るステップに連続的に戻るステップをさらに含んでもよい。
別の実施例によれば、本発明は機械読取り可能な媒体であって、そこに命令のシーケンスを表わすデータが格納され、計算装置によって実行されると、以下のステップを実行することによって、その計算装置が1組の非ローマ文字から所望の非ローマアルファベット文字を選択するようにさせ、そのステップは、その組の各非ローマアルファベット文字について、各前記非ローマアルファベット文字に関連付けられ得るローマアルファベット音声(または日本語の仮名もしくは他の音声アルファベットの)訳と、各前記非ローマアルファベット文字に関連付けられ得る複数のエントリとを含み得る連想データベースを与えるステップと、所望の非ローマアルファベット文字の音声訳と所望の非ローマアルファベット文字に関連付けられた少なくとも1つの連想エントリとを受取るステップと、連想データベースにアクセスして、受取った音声訳と少なくとも1つの受取った連想エントリとに関連付けられ得るその組のそれらの文字を候補文字として特定するステップと、候補文字の数が1を超える場合に追加的な連想エントリを受取り、多くの候補文字がただ1つの候補文字に狭められるまでアクセスし特定するステップを繰返すステップと、そのただ1つの候補文字を所望の非ローマアルファベット文字として与えるステップとを含み得る。
本発明は、さらに別の実施例によれば、1組の非ローマ文字から所望の非ローマアルファベット文字を選択するためのコンピュータシステムであって、コンピュータシステムは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに結合された少なくとも1つのデータ記憶装置と、前記少なくとも1つのプロセッサによって生じる複数のプロセスとを含み、当該プロセスは、下記のための処理論理を含む:その組の各非ローマアルファベット文字について、各前記非ローマアルファベット文字に関連付けられ得るローマアルファベット音声訳と各前記非ローマアルファベット文字に関連付けられ得る複数のエントリとを含み得る連想データベースを与えることと、所望の非ローマアルファベット文字の音声訳と所望の非ローマアルファベット文字に関連付けられた少なくとも1つの連想エントリとを受取ることと、連想データベースにアクセスして、受取った音声訳と少なくとも1つの受取った連想エントリとに関連付けられ得るその組のそれらの文字を候補文字として特定することと、候補文字の数が1を超える場合に追加的な連想エントリを受取り、多くの候補文字がただ1つの候補文字に狭められるまでアクセスし特定するステップを繰返すことと、ただ1つの候補文字を所望の非ローマアルファベット文字として与えることである。
本発明のさらに別の実施例は、ユーザが知らないかもしれない1つ以上の予め定められた非ローマアルファベット文字を含み得る文書を検索する、コンピュータで実現される方法である。このような方法は、所望の非ローマアルファベット文字の発音を任意の音声表現rendering(たとえば日本語の仮名もしくは朝鮮語の中国式でないアルファベット文字など)または記号入力(たとえば符号言語(sign languageなど)で与えるステップと、ユーザが所望の非ローマアルファベット文字から連想する少なくとも1つの連想エントリを与えるステップと、その発音が与えられた発音と一致する、かつ少なくとも1つの連想エントリのうち1つ以上と関連付けられる1つ以上の候補文字の連想データベースからの検索をさせるステップと、候補文字の数が1を超える場合に追加的な連想エントリを与え、ただ1つの候補文字が検索されるまで検索をさせるステップを繰返すステップと、そのただ1つの候補文字を含み得る文書について検索が実行されるようにするステップとを含み得る。連想を用いることが、検索が行なわれている文字の出現すべてを掘り出すのではなく、その特定の文字の所望の例にまで検索を狭めるのを助けることが期待される。
他の実施例によれば、発音を与えるステップにおいて、発音は(たとえば)音声発音であってもよい。連想エントリを与えるステップにおいて、連想エントリの少なくとも1つは、予め定められた文字の(たとえば辞書的な)意味とは無関係であってもよく、所与のユーザの任意の連想であってもよい。与えられた連想エントリが予め定められた文字と現在関連付けられていない場合、この方法は、与えられた連想エントリを予め定められた文字に関連付けて、受取った連想エントリを連想データベースに格納するステップをさらに含んでもよい。与えられた連想エントリが連想データベースに現在存在しない場合、この方法は、与えられた連想エントリを連想データベースに加えるステップを含んでもよい。発音を与えるステップは、たとえばいくつかの可能な言語を示すと、日本語、中国語、朝鮮語、ヘブライ語、またはアラビア語などの文字である、非ローマ文字で行なわれてもよい。検索をさせるステップは、複数の行を有する連想表を含む連想データベースで行なわれてもよく、各行は、ただ1つの異なる非ローマアルファベット文字、そのただ1つの非ローマアルファベット文字のローマアルファベット発音、およびそのただ1つの非ローマ文字に関連付けられ得る複数のエントリを含む。与えるステップは、(たとえば)音声入力、キーボード入力、および/または、連想データベースに結合されたコンピュータへのマシン画像を介して行なわれてもよい。この方法は、検索をさせるステップが、ログインしているユーザについて個別化された連想から少なくとも1つの候補文字の検索をさせるよう、ログインするステップをさらに含んでもよい。サーチをさせるステップは、文書についてコンピュータネットワークの検索をさせてもよい。連想エントリを与えるステップは、予め定められた非ローマアルファベット文字と同じまたは異なる言語の連想エントリで行なわれてもよい。この方法は、追加的な予め定められた非ローマアルファベット文字のための追加的な候補文字を検索するために発音を与えるステップに連続的に戻るステップをさらに含んでもよい。発音を与えるステップの発音は、いかなる音声アルファベットも用いるよう構成され得る。サーチをさせるステップは、たとえばローマ文字、非ローマ文字、絵(picture)もしくは音楽などの、いかなるコンピュータ可読ファイルまたはデータの検索もさせるよう構成されてもよい。
さらに別の実施例によれば、本発明は、ユーザが、文書、絵、記号、概念またはデータオブジェクト(本願明細書において集合的に、コンピュータネットワークにわたる、または検索に用いられているコンピュータ内のローカル記憶装置内の「文書」と呼ぶ)を検索するための、コンピュータで実現される方法として見ることができる。この方法は、検索語を受取るステップと、少なくとも1つの連想エントリを受取るステップとを含むことができ、少なくとも1つの連想エントリは検索語と関係し、連想データベースを参照するステップを含み、連想データベースは複数の辞書的な意味と各辞書な意味についての少なくとも1つの連想エントリとを格納し、各連想エントリはその対応する辞書的な意味と関係し、さらに、受取った連想エントリを1つ以上の格納された連想エントリおよび対応する辞書的な意味と一致させるステップと、検索語、一致した格納された辞書的な意味、および連想エントリと関係するかまたは包含する文書についてコンピュータネットワークを検索するステップとを含み得る。この方法は、サーチするステップが成功すると、受取った少なくとも1つの連想エントリを連想データベースに加えるステップをさらに含んでもよい。この方法は、たとえばカテゴリ、特性、および/またはメンバーシップなどの追加情報を与えるようにユーザに促すステップをさらに含んでもよい。この方法は、サーチするステップが、受取った排他的な連想エントリに対応する検索語の1つ以上の辞書的な意味を含むかまたは関係する文書を検索しないように、排他的な連想エントリをユーザから受取るステップをさらに含んでもよい。
ローマ字音訳「けん(ken)」を有するいくつかの漢字についての関連を示す表である。 ローマ字音訳「きたい(kitai)」を有するいくつかの漢字についての関連を示す表である。 ローマ字音訳「きり(kiri)」を有するいくつかの漢字についての関連を示す表である。 本発明の実施例による連想データベースが進行し得る例示的な態様を示す図である。 本発明の実施例による連想データベースの例示的な表を示す図である。 本発明の実施例による文字を入力するための方法のフロー図を示す図である。 本発明の実施例による、連想データベースが個別化され得る例示的な態様を示す図である。 本発明の実施例を使用する例示的な検索エンジンを示す図である。 本発明の実施例による図7の検索エンジンによって返された結果を示す図である。 本発明の実施例による本発明の実施例が実行され得るコンピュータを示す図である。
発明の説明
日本語および多くの中国語の方言のように、その書く形式がローマアルファベットに依存しない言語を母語とする人であっても、典型的には手で再生することができるよりはるかに多くの文字を視覚によって認識する。本発明の実施例は、ユーザが所望の文字がどんなものであったかかすかな曖昧な記憶しか持たない場合でさえ、所望の非ローマ文字の一意の選択を可能にする。そうしながら、本発明の実施例は、音声的な発音および1つ以上の連想エントリを与えることにより、ユーザが実際に有するより明らかに優れた文字を書く能力および技能を示すことを可能にする。そのような入力は、一連のキーボードを打つこと、話し言葉、および/または他のコンピュータ認識可能な入力形式(たとえばマシン画像など)を通してなされ得る。そうすることで、本発明の実施例は、ユーザが実際に知っている(またはキーボードを打つことをすべて再構築することにより実際に作り出すことができる)よりも多くの文字をうまく入力することを支援する。本発明の実施例は、文書の構成および(たとえばGoogle(登録商標)、Yahoo(登録商標)などを含む)検索エンジンにおいて有益であり、非ローマアルファベットによって書く形式を用いて発行された文書および検索ウェブサイトを走査し検索することができる。
以下の図面および説明の書かれた部分では、日本語の書き言葉の漢字(kanji)に重点をおいている。しかしながら、本発明の実施例は、この文章が書かれているローマアルファベットに依存しない、他のすべての書く形式表現に等しく適用可能である。たとえば、本発明の実施例は、たとえば多くの中国語の方言、アラビア語の形式、およびヘブライ語に容易に拡張できる。したがって、本発明で主張される実施例は、ローマアルファベットに依存しないこれらのすべての書く形式表現、および、検索のための、ローマアルファベットを含むがこれに限定されないあらゆる文字システムにおける単語の特定の例を、ローマ文字または任意の音声表現におけるその関連語とともに包含することが明らかに意図される。
ここで図面を見ると、図1は、「けん(ken)」のローマ字音訳を有するいくつかの漢字(Kanji characters)の連想を示す表である。図1では、ローマ字音訳が102で示され、漢字は番号104によって参照される列に示され、連想は106に見られる。これらの漢字は、「同義語(dougigo)」すなわち同様に発音される日本語文字(Japanese characters)として知られている。図1では、「けん(ken)」は、漢字104の発音方法のローマ字版である。すなわち、それらの音訳である。各漢字104に隣接するのは、漢字104から連想されるいくつかの(この例では英語の)、その意味が漢字と関係しているエントリ(この例では単語)である。連想106は、文字104の言語に対応する話し言葉を含むいかなる言語であってもよい。たとえば、連想106は日本語であってもよい。連想エントリおよび意味106は、本発明の実施例によれば、文化やその結果としての単語/文字連想を共有する、その言語(この場合は日本語)を母語として話す人によく知られた単語および概念を含み得る。したがって、本発明の実施例によれば、連想エントリ106は、所与の漢字についての対応する辞書的なエントリに包含された単語のみならず他の単語、概念、および/または短い句、典型的なユーザが対応する漢字から連想し得る(たとえば)音をも含み得る。たとえば、図1の中の第5列は漢字108を示し、その辞書的なエントリは「権利(right)」、「道義的に正しい(morally good)」であるが、そのローマ字音訳が「けん(ken)」である図1の第5列の記号108の連想エントリ106のリストは、ユーザがその文字から連想し得るさらに他の単語、概念、および/または、短い句を含んでいてもよい。たとえば、漢字108から連想され得るエントリはさらに、たとえこれらの単語がそれぞれ日本語で固有の漢字記号を有するとしても、「権力(Power)」「権威(Authority)」「影響(Influence)」、「正しくない(Wrong)」および「特権(Privilege)」という単語を含み得る。本発明の実施例によれば、所与の非ローマアルファベット文字と連想エントリは、その文字に正確に対応する英語であってもよく、その基礎をなす文字と密接に関係する意味を有してもよく、その基礎をなす文字と遠い関係にしかない意味を有してもよく、または、その非ローマ文字の容認された意味とは全く無関係であってもよい。本発明の別の局面によれば、連想エントリは単語である必要は全くないが、ユーザが所望の文字から連想するものの音声表記、および/または、機械読取り可能な媒体に格納されアクセスされ得る任意の機械認識可能なユーザの明示であり得る。たとえば、連想エントリは、そのユーザの明示が電子的に表現されて得る限り、ユーザが作り出した音、動き、または身振りの表現を含んでもよい。実際、発話、身振り、符号言語、キーボード入力、高い、または低い調子の発話、アクセント、強調、および/または他の発語または行為が連想エントリとして捉えられ、記録され、用いられ得、所望の文字を見つける。経験に基づいた連想表を、多様なキーボード、発話、および他の入力からリレーショナル連想データベース402に構築することにより、特定の文字との関連付けが可能になる。このような入力を用いることによって、ユーザは素早く所望の文字を選択することができ、その文字は、文書を構成するため、または所望の文字を包含する1つ以上の文書の検索の基礎を形成するために、容易に用いられ得る。本発明によれば、文書は、テキスト文書、または、HTTP要求などのクライアントからの要求に応じてサーバ(ウェブサーバなど)によって生成されたXMLもしくはHTML文書(たとえばウェブページなど)といった、いかなるコンピュータ可読ファイルを含んでもよい。このようなHTML文書は、クライアント側で解像され得る画像および/または他の豊富なデータソースへの参照を含んでいてもよく、クライアントは、埋込まれた画像、音、Java(登録商標)Scriptコードの断片などを得るためには追加的な要求を出さなければならない。従来の翻訳による発話指向の文字選択とは異なり、また従来の発音に基づいたキーボード選択とも異なって、本発明の実施例は、所望の文字の選択に際して各種のユーザ入力を別の要因として利用する。この方法は文書オーサリングまたはより複雑な検索のための一連の文字を構築するために繰返されてもよい。
本発明の実施例によれば、少なくとも1人のユーザが自分の心の中で文字(図1の漢字108など)と連想エントリとの間に連想を形成したことで足りる。たとえば、ユーザが文字108から単語「月(Moon)」を連想した場合、単語「月」が明らかに文字108と無関係であるにもかかわらず、その単語は文字108と関連付けられることができる。
同様に、図2の第1列の漢字208は、辞書では「気体(Gas)」または「蒸気(Vapor)」を意味するとして定義され得る。したがって、文字208のローマ字音訳「きたい(kitai)」とともに、連想エントリとしてこれらの意味がリストに記載され得る。しかしながら、ユーザはこの漢字208から他の連想を形成し得る。これらの連想のうちいくつかは、同じ文化、育ち、大衆文化、および教育を経験してきた他の人と共有され得る一方、その他の連想のは類似の状況にある小さな集団の人にのみ、または一人の人にのみ共有されるかもしれない。たとえば、「空気(Air)」、「爆発する(Explode)」、「CO2」または「ボパール(Bhopal)」といった単語が、多くのユーザの心の中で文字208から連想されるかもしれない。文字208を検索するとき、ユーザはそのローマ字音訳「きたい(kitai)」を想起し、またそこに対応する1つ以上の連想エントリを与えることができる。図3は追加的な漢字、これらに共通のそれぞれのローマ字音訳(この場合は「きり(kiri)」)、およびそこから連想され得るいくつかのエントリを示す。
本発明の実施例は、たとえばオラクル社(Oracle Corporation)のリレーショナルデータベースマネジメントシステムRDMSを含む連想データベース402を含む。データベース402は1組の非ローマアルファベット文字、それぞれの音声発音または他の音訳、および1つ以上の連想エントリを格納することができる。ここで開発された実施例では、データベース402に格納された非ローマアルファベット文字は漢字であって、それぞれの音訳はローマ字音訳である。他の実施例は他の非ローマアルファベット文字および他の発音または音訳を含む。
図4は、本発明の実施例による、連想データベース402に予め種を蒔く(preseed)例示的な態様を示す。データベース402は、複数のレコードを含む1つ以上の表を含み得る。代表的なレコードは404で示される。各レコードはデータベース402に行として格納され得る。本発明の実施例によれば、1組以上の非ローマ文字(たとえば40,000程度の漢字)、それらのローマ字音訳(またはたとえば音声発音)、および漢字−ローマ字音訳のそれぞれの対に対する1つ以上の連想エントリを、データベース402に予め蒔くことができる。408で示唆されるように、連想データベース402に予め種を蒔くために、既存のデータベース、コンパイルcompilationおよび/または辞書が有用となり得る。本発明の実施例はさらに、漢字の各々について1つ以上の連想エントリをデータベース402に予め蒔くことを求める。図4に示されるように、この予め種を蒔くプロセスは、本発明のユーザと予測される人々を多少とも(たとえば教育、文化的な背景において)代表すると考えられる複数の参加者と面接することを含んでもよい。このような参加者は、図4において参照番号410、414および418で示される。たとえば、面接するプロセスは、参加者に漢字およびそのローマ字音訳を示して、各漢字から自由に連想するよう求めることを含んでもよい。図4の例では、漢字406は、日英辞書では「切符(Ticket)」、「クーポン(Coupon)」、「債券(Bond)」および「証明書(Certificate)」といった単語に対応するとして挙げられ得る。漢字406のこれらの一般的な意味の各々は、その音訳「けん(ken)」とともに、予め蒔かれた連想エントリとしてレコード404に含まれることができる。本発明の実施例によれば、データベース402のレコードのうち1つ以上は、以下のように選択され得る追加的な連想エントリを各レコードに含み得る。各参加者410−418は漢字406から自由に連想するよう求められ得る。その結果、参加者は、吹出し412、416および420によって示唆されるようないくつかの異なる連想を思いつくであろう。たとえば、文字406を示され、音訳「けん(ken)」を見たり/聞いたりすると、参加者410はこの文字から「切符」、「許可(Permit)」「証明書」、「債券」、「ピンク(Pink)」および「クーポン」といった単語を連想し得る。これらの連想は連想候補を形成する。他の参加者414および418の連想候補も示される。参加者全員について一致する連想候補が太字で示される。本発明の実施例によれば、最多の参加者によって作られた連想候補が追加的な予め蒔かれる連想エントリとして選択されて、レコード404に含まれることができる。たとえば、参加者は、文字406から「証明書」、「債券」、「ピンク」および「クーポン」といった単語を連想し、この連想候補が連想単語として既にレコード404に含まれていてもよい。これらはレコード404に複写される必要はない。しかしながら、2人以上の参加者が文字406から「スピード違反(speeding)」、「コンサート(concert)」、「交通(Traffic)」といった単語を連想した。これらの連想に十分な(かつ選択可能な)数の参加者が応答した場合、図1に示されるように、この連想も文字406のレコードに含まれてもよい。連想候補が連想エントリとしてレコード404に含められるために選択される態様は完全に選択可能である。たとえば、連想候補のどれが各レコードに含められるよう選択されるかを決定するために、多数アルゴリズムが用いられてもよい。
自由な連想の求めに応じ、参加者410が「切符」、「債券」、「証明書」および「クーポン」に加えて「許可」「ピンク」の単語を文字406から連想したことに注意されたい。しかしながら、これらの連想候補が十分な数の参加者によって共有されなかったので、これらの連想候補は連想エントリとしてレコード404に含まれるよう選択されなかった。同様に、連想候補「レシート(Receipt)」、「公文書(Official Document)」および「金銭(Money)」は、十分な数の参加者によって共有されず、したがって連想エント
リとしてレコード404に含まれるよう選択されなかった。同様に、参加者418が思いついた単語「記録(Record)」、「橋本(Hashimoto)」、および「卒業証書(Diploma)」も選択されなかった。これらの入力は種蒔きの目的のためには一般的なデータベースに含まれ得ないが、それを入力した人の使用のための、データベースのユーザ固有の部分においては保持されることに注意されたい。ここでの意図は、任意の試みられた連想候補を、一般的なデータベース、または多数のユーザを有する中央データベースがある場合は、その連想候補を採用したその特定のユーザにだけ見られるようなデータベースのいずれかに蓄積することである。データベースにログインしたユーザの各々は、次に利用可能な連想の異なる組を有する。共通の連想の組は、元来から種を蒔かれたものに加えて、元の種蒔きされたストア(store)に追加されたアルゴリズムで選択された追加的な連想であり、および、最後に、一般的なデータベースに含めるためにアルゴリズムがタブをつけない、ユーザに特有の変わった連想であろう。
上記より、連想エントリが、文字406の辞書的な、または一般に了解された意味に対して直接の意味的関係を有する必要がないことが認識され得る。レコード404に含むためには、十分な数の参加者が、その連想候補が心の中で文字406と何らかの関係があるものとして挙げれば十分である。このようにして、たとえば連想候補「コンサート」が連想エントリとしてレコード404に含められたのである。
図5は、本発明の実施例による連想データベース402の例示的な連想表を示す。4つの表が図5に示される。第1のそのような表502は日本語表であり、第2の表504は標準中国語表であり、第3の表506は広東語表であり、第4の表508は上海語表である。実際には、連想データベース402にはこのような連想表が1つしか含まれていないか、またはさらに多くのこのような連想表が含まれていてもよい。たとえば連想表は連想表502のように体系付けられてもよいが、このように表を体系づける必要はない。図5に示されるように、および本発明の実施例によれば、表502の各行はレコードであり、各レコードは複数の列を含む。第1の列は非ローマアルファベット文字(この場合は漢字)、または文字に対応するコード(たとえば40,000程度の漢字のうち1つに対応する2バイトの単語など)を記憶することができる。別の列は、たとえば、文字のローマ字音訳またはその他の音声発音を記憶してもよい。各レコードは次に、たとえば図4に関連して詳述され、以後記述されるような態様で選択され得る1つ以上の連想エントリを含んでもよい。図5は単に概念図にすぎず、連想データベース402内の連想表の物理的構成が図5に示されるようである必要はなく、効率または他の要件を最適化するために必要に応じて変更され得ることが理解される。
中国語の方言は多いが書かれる漢字の一般的なリストは1つだけである。しかしながら所与の文字は代替的な伝統的または近代的な簡略形式を有し得る。いずれにしても、それは方言にかかわらず同じである。書かれる漢字を用いてアメリカの符号言語を表現することさえできる。その文字は必ずしも特定の音声的に対応するものと関係しない。したがって、多様な方言を話す人にとって本発明の実施例が有用であるようにするには、これらの特定の方言の各々を話す人を含めるように連想表を与えることが必要であり、本発明はそのために実現される、たとえば、中国の書かれる漢字はすべての中国語の連想表にわたって共有され得るが、そのローマアルファベット音訳は、これらの文字の各々についての連想エントリと同じく、異なり得る。実際、中国語の方言の各連想表において連想エントリは異なり得る。なぜならば、方言間に差異があるからだけでなく、このような方言を母語として話す人々の、および本発明の局面を具体化するアプリケーションの予想されるユーザの、文化、教育、および社会的背景が異なるからである。
日本語および多くの中国語の方言以外の言語に対して追加的な表が与えられ、埋められ得ることが理解される。上述のように、連想表は、アラビア語、ヘブライ語、朝鮮語、または他の、書く形式に非ローマアルファベット文字を用いる言語のために開発され得る。
図6は、本発明の実施例による、1組の非ローマ文字から所望の非ローマアルファベット文字を選択する方法のフロー図である。方法はS61から始まり、そこでユーザは所望の非ローマアルファベットのローマアルファベット音訳(またはたとえば音声発音)を入力するよう促され得る。図示する目的のために、本発明がそれに限定的ではないことが理解されるが、この方法はここでは日本の漢字に関して説明される。したがって、ステップS62は、本発明の局面を具体化するアプリケーションを実行するコンピュータに所望の漢字のローマ字音訳を入力する(または他の方法で与える)ようユーザに促す。本発明の実施例はコンピュータキーボードによるユーザ入力に限定されず、(音声認識技術を用いる)話し言葉、(光学式文字認識技術を用いる)書き言葉、(たとえばマシン画像およびパターン認識技術を用いる)視覚的入力などの任意の形式、またはコンピュータが認識可能な事実上すべてのデータ入力形式性(たとえば音訳、音声発音および/または連想エントリを含む)のユーザ入力に構成されてもよい。本発明の実施例を具体化するコンピュータには、たとえばいくつかの可能性を挙げれば、手または身体の身振りなど、符号言語を認識するための手段が与えられてもよい。本発明の実施例は、たとえば身体的または精神的に障害のある人のために開発された多くの機械対話型手段で作動するよう適合されてもよい。
ステップS62で要求されるように、所望の漢字のローマ字音訳を入力すると、次に、入力されたローマ字音訳がなんらかの漢字に対応するかが判断される。もし対応しなければ、ユーザは、再試行して別のローマ字音訳または以前に入力したものの変形を入力するよう促され得る。しかしながら、ステップS63で示されるように、入力されたローマ字音訳が1つの漢字のみに対応する場合、方法はステップS67に移り、その唯一の漢字が入力される。ユーザ確認ステップがステップS67の前に加えられて、ユーザが与えたローマ字音訳に応答して与えられたそのただ1つの漢字が所望の(たとえば正しい)ものであることをユーザに確認する。与えられた漢字が所望の文字でない場合、ユーザはステップS62に戻って再試行することができる。さらに、検索では、正しい漢字だが間違った使用法が返される場合、ユーザは異なる連想で再試行してもよい。
しかしながら、入力されたローマ字音訳が1つを超える漢字(図1−図3の音訳「けん(ken)」、「きたい(kitai)」および「きり(kiri)」の場合などのように)に対応する場合、方法はステップS63からS64へ進んでもよい。そこで、コンピュータシステムはユーザに対して候補漢字を表示するか、他の方法で与えてもよい。しかしながら、ユーザが連想エントリを構成していたり与えていたりする間に複数の候補文字を表示することがあまりにユーザの気を散らすこととなるならば、ステップS64は省略されてもよい。本願明細書に記述され、図面で示される連想エントリは、示されるように英単語である必要はない。たとえば、日本語を母語として話す人にとっては、連想エントリは、ユーザが所望の文字から連想したものの音声(仮名)形式であり得る。したがって、下記に詳述されるように、連想エントリはいかなる言語および/またはいかなる形式性でも規定され得る。候補文字は、ユーザによって与えられたローマ字音訳に対応する漢字である。たとえば、図1に示される文字は、ローマ字音訳「けん(ken)」を入力するユーザに応答して、漢字候補としてユーザに表示され得る。次いで、ユーザは、漢字候補のうちの1つを所望の漢字として直接に選択する機会を与えられ得る。しかしながら、本発明の実施例によれば、ユーザは、漢字候補のフィールドを1つのみに狭めるような試行において、1つ以上の連想エントリをコンピュータに与えることができる。したがって、ステップS65に示されるように、コンピュータは、たとえば図4および図5に示されるような1つ以上の連想エントリをユーザに促すことができる。ステップS66では、与えられた連想エントリが漢字候補のフィールドを実際に1つにまで狭めるか否かが判断される。狭めない場合、ユーザは、1つ以上の追加的な連想エントリを与えるように促され、方法はステップS65に戻ることができる。ただ1つの漢字候補のみが残る場合、ステップS67によって示唆されるように、その唯一の残った漢字候補はユーザが求める漢字であるはずである。そうでなければ、そのプロセスが繰返されてもよい。方法はステップS69で終了する。
本発明の実施例は、連想表(図5参照)に予め種が蒔かれる場合に限定されない。すなわち、たとえば図4に示される態様で他の人によって選択された連想エントリで埋められる場合である。実際、本発明の実施例は、本願明細書に記述した非ローマアルファベト文字の選択システムがそのユーザから学習することができるようにすることによって、より強化された機能を獲得し得る。確かに、本願明細書に記述された非ローマアルファベット文字選択方法およびシステムは、集合の中のユーザから学習し得るだけでなく、個人ユーザから学習し適合するよう構成されてもよい。いかなる2人のユーザも同一の背景を有するとは考えられないので、これは望ましいことである。そのかわり、異なる背景(教育的、社会的、文化的背景など)は必然的にユーザに異なる連想および心の中のイメージを形成させ、したがって、異なる漢字から異なるエントリを連想させる。したがって、1人のユーザにとっては意味があり、直感し得る、所与の漢字からの所与のエントリまたは単語の連想は、同様の状況にある人であっても、別のユーザにとっては意味をなさず、直感されないかもしれない(その可能性が高い)。
少し図4に戻ると、410、414および418で示された、連想データベースに種を蒔くために用いられた参加者は、ローマ字音訳「けん(ken)」について「証明書」および「スピード違反」などのいくつかの連想を共有した。しかしながら、参加者418は、漢字406および音訳「けん(ken)」408から「橋本」を連想したが、恐らくは418のみが知る理由でそうしたのである。同様に、同じ漢字406に対して、参加者410によって「ピンク」という連想単語が与えられた。これらの連想が連想データベース402において予め種が蒔かれた連想エントリとして包含されるための選択基準に一致しなかった一方で、しかしながらこれらの連想は参加者410、418には完全に意味がわかるものであった。このように、本発明の実施例によって、連想表(図5参照)は有利にこの文字選択システムの各ユーザのためにカスタマイズされることができる。するとこれらのユーザはこれらの同じ連想を思いついて所望の文字を選択することができる。
図7は、本発明の実施例によって連想データベース402がこの文字選択方法およびシステムの各ユーザのために個別化され得る、例示的な態様を示す。3人のユーザが示される。すなわち、ユーザ702のアリス(Alice)、ユーザ710のボブ(Bob)、およびユーザ718のチャーリー(Charlie)である。本発明の実施例によれば、連想データベース402は、図4に関して示され、記述された態様で、予め種を蒔かれ得る。関連付けられたデータベース402は、さらに、そのユーザによって与えられる連想エントリをそこに含めることにより拡張され得る。示されるように、アリスについての文字406のレコードは、予め蒔かれた連想エントリに加えて、アリスが文字406および/または音訳404から連想するエントリを含み得る。704で示されるように、アリスが文字406から連想する連想エントリは、「用紙(Form)」、「応募(Application)」および「場外馬券投票(Off-Track Betting)」である。したがって、これらのユーザ固有の連想は、連想データベース402における文字406のレコードに含まれる。したがって、連想データベース402は、708で示されるように、文字406が提示されるとアリスが行う連想によって個別化されることができる。したがってこの文字選択方法およびシステムは、各ユーザが、選択された文字に選択されたエントリを関連付けるようにシステムをトレーニングする、トレーニングコンポーネントを含めることができる。この態様で、ユーザ710は、712で示されるように、同じ漢字406からエントリ「記録」および「Satai」を連想し得る。たとえば、連想エントリ「Satai」は、ユーザ710のボブにとってのみ有用であって他のユーザには有用ではないかもしれない。しかしながら、この連想エントリ「Satai」はボブにとっては最も有効な連想かもしれない。なぜならば、このような連想の背景にある理由にかかわらず、この単語が、ボブが文字406について最も密接に関連付ける単語であり得るからである。ユーザ718であるチャーリーは、文字406から金融関連用語を連想してもよく、720で示されるように、これは彼の文字406から連想するエントリの選択に反映されている。次いで、参照番号708、716および724で示されるように、これらの個別の連想はユーザ個人の個別化された連想データベースに組入れられる。これらは別個のデータベースか、または連想データベース402に統合されてもよい。システムがユーザを区別できるように(たとえば)ログイン手順が実現されてもよい。
本発明の別の実施例によれば、複数のユーザに単一の連想データベース402のみが与えられてもよい。その場合、たとえば、関連付けられたエントリまたは発音は、最も成功した連想エントリ(すなわち、結果としてただ1つの文字の選択をした連想エントリ、または最も少ない数の連想エントリを用いて所望の文字の選択に成功に至った連想エントリ)が、それほど成功しなかったエントリの前に現われるよう互いに順序付けられてもよい。さらに、連想エントリは、連想データベース内の効率的な二分探索を可能にするよう順序付けられてもよい。別の実施例によれば、しばしば用いられる、かつ/または、所望の文字の選択の成功に至る連想エントリだけがデータベースに残ることができる。用いられないか、または効率的に所望の文字の選択に至らない連想エントリは、所望の文字の連想データベースにおけるレコードから間引かれてもよい。この態様で、連想データベース402は結局ユーザの好みの連想によってのみ、または主にそれにより、すなわち、最も成功した連想エントリによって占められるようになり得る。連想データベース402がさらに、音訳自体が二分探索を受け得るような仕分け順序で並べられるよう順序付けられ得ることに注意されたい。連想表402におけるすべてのエントリには迅速なアクセスのために索引が付けられてもよい。
ユーザの使用パターンを監視することによって、本発明の実施例はユーザの選択を予測し、文字選択プロセスの性能を高めてもよい。上記に詳述されるようにデータベース402を修正することによって、連想データベース402は、短期間の経過(たとえば数週間の大量使用)後に高度に個別的になり得る。格納されたユーザプロフィルの実現により、図7の708、716および724で示唆されるように、個人ユーザが自分の「個別的になった」連想データベース402にアクセスすることが可能になる。
図4に関して説明されるように、本発明の実施例は別々のトレーニングコンポーネントを含み得る。しかしながら、本発明の実施例はさらに、別々のトレーニングセッションに依存しない、より統合されたトレーニング機能を含む。実際、この文字選択システムおよび方法は、事実上、ユーザが失敗した連想から学習するよう形成されてもよい。たとえばユーザが、ステップS65のプロンプトに応答して連想エントリをシステムに与えるとき、ユーザは連想データベースの漢字のどれにでもない連想エントリを与えることがあり得る。その後は、システムは連想データベース402のいかなるレコードにも与えられた連想エントリを一致させることができないので、このように与えられた連想エントリは漢字候補のフィールドを狭めるのに有効ではない。するとステップS66への回答は「No」であるので、システムはステップS65に戻り、1つ以上の追加の連想エントリを与えるようにユーザに促す。結局ユーザは、候補文字のフィールドを実際にただ1つにまで狭めるような連想エントリをシステムに与えなければならず、それがステップS67で選択された所望の漢字となる。プロセスが、ユーザが与えた連想エントリを用いてただ1つの漢字を選択することに成功したので、ステップS68で示されるように、関連付けられるデータベース402は更新され、以前には格納されていなかった、ユーザが与えたこれらの連想エントリを連想データベースに含めることができる。次いで、これらの新しい連想エントリは、ステップS67で選択された漢字に対応するレコードに格納されることができる。ユーザが同じ漢字の選択を次に試みる時には、新しく追加された連想エントリは所望の漢字を選択するのに、または少なくとも漢字候補のフィールドを狭める(数を少なくする)のに有効となり得る。検索している状況において、ユーザが、用いられた連想を与えられると、ユーザの音声的な表現および与えられた連想によって決定される所望の参照を見つける可能性がさらに高い。
連想データベース402の表が各漢字について複数の連想エントリを有し得るので、いくつかの連想エントリは2つ以上のレコードに共通であることが予測できる。すなわち、2つ以上の漢字に関連付けられている。その場合、候補文字の数(ユーザに与えられるかもしれないし、与えられないかもしれない)は1を超え、それは、そのレコードが共通の連想エントリを包含するような文字の数を表わす。これを解決し、かつ候補文字の数を1にまでふるい分けるために、ユーザは1つ以上の追加の連想エントリを与えてもよく、それがこのような共通の連想エントリを包含するレコードの数を減じなければならない。ユーザが追加的な連想エントリを与え、それらのエントリが候補文字のかつてなく縮小していく母集団に加えられると、その数は非常に素早くただ1つの候補文字となる。
本発明の実施例は検索エンジンとして構成されてもよく、または、検索の効能を増大してよりユーザに関連した結果を返すことにより、既存の検索技術を補い、強化するよう構成されてもよい。図8は、本発明の実施例を採用する例示的かつ例証となる検索エンジンを示す。検索エンジンは、たとえば企業ネットワーク検索エンジンとして配備されるかその中にもしくは組込まれ、またはウェブ検索エンジンとして配備され得る。その検索は、文書、データベースエントリ、絵に付けられたラベルもしくはテキスト、単語、文字、絵、または本願明細書に集合的に「文書」と呼ぶあらゆる説明のデータオブジェクトについてなされる。図8に示されるユーザインタフェースの実現例で示されるように、上述のように、ユーザは、標準ブラウザ(たとえば)800を介して、所望の非ローマアルファベット文字の発音(たとえば音声発音であり得る)または音訳を入力するように802において促され得る。ユーザはさらに、テキストボックス804に1つ以上の連想エントリを入力するよう促されてもよい。この場合、ユーザによって入力された音訳は「けん(ken)」であり、ユーザによってテキストボックス804に入力された連想エントリは、「剣(Sword)」、「刃(Blade)」および「ジェット リー(Jet Li)」である。本願明細書では連想エントリは英語で示されるが、連想エントリは、所望の文字の言語(この場合は日本語)を含むいかなる言語で入力されてもよいことが理解される。一旦ユーザが音訳および連想エントリの両方を入力し終えると、ユーザは例示的なテキスト「漢字を探す」を有するボタン806をクリックするか他の方法で選択することができる。入力された音訳および入力された連想エントリがただ1つの候補文字に対応すると仮定すると、図9の例示的なスクリーンが現われ得る。ユーザの入力に応答して、検索エンジンは、ユーザが入力した音訳および連想エントリを包含するレコードに包含される漢字について連想データベースを検索することができる。この場合、唯一の漢字候補906が返される。次いで、ユーザはこの文字を受取って、902においてネットワーク(たとえばインターネットなど)全体にわたって文字の例を見つけるように検索エンジンに命じてもよく、またはテキストボックス804に追加的な連想エントリを加えてもよく、ボタン904の選択によって以前そこに包含されていた連想エントリを新しい連想エントリに置き換えることを決定してもよい。さらに代替的には、ユーザに2つ以上の候補文字が提示されてもよく、ユーザが自分の求める文字を認識している場合は、追加的な連想エントリを与える代わりに、これらの示されたものの中から所望の文字を単に指すか、他の方法で選択してもよい。上述のように、多くのユーザが、自ら再生することができるよりもはるかに多くの漢字を認識する。本発明の実施例はこのような能力をうまく利用する。
代替的には、単一の漢字で検索する代わりに、ユーザは本願明細書に記述された方法を反復して用いて、このような(漢字または他の)文字の検索列を構築し、たとえば文字ベースのウェブサイトおよび/または企業イントラネットを検索する際に使用してもよい。本発明の実施例の他の用途は、効率的に買い手と売り手とを適合させるために、ウェブベースのオークションのための品目を特定することを含み得る。
本発明の実施例は、文書を作成する目的のため、検索の指定のため、および/またはアプリケーションプログラムを制御し、それに寄与するために、容易に習得される、効率のよい(performant)、かつ柔軟な、特定の非ローマアルファベット文字(たとえば日本や中国の漢字など)にアクセスする方法およびシステムを与える。本発明の実施例は、関連付けられた文字を備えるすべての種々様々のデータベースに対応することができる。たとえば、中国語は多くの話し言葉を有する単一の書き言葉であるが、共通の漢字が2つ以上の方言と関連付けられるように連想データベースを構成することができる。たとえば、共通に理解されるが異なった発音をされる構成言語の文字にアクセスするために、クレオール(Creole)(2つ以上の言語の方言の組合わせ)が用いられてもよい。文字アクセスの従来の手段と異なり、本発明の実施例は、ソフトウェア購入者に販売されているアプリケーションそのものに埋込まれてもよく、任意の特定のハードウェアにリンクされる必要はない。
検索語の「コンテキスト」およびそのコンテキストがいかに確立され得るかは、すべての高度な検索アルゴリズムの基礎である。本発明の実施例はいかなる書き言葉の検索エンジンにも適用可能である。事実、本発明の実施例は、文字ベースの文書生成および検索の他にも有用性が見られる。たとえば本発明の実施例は、検索エンジンにこのようなコンテキストを与えることによって、検索エンジンが検索をする人の検索目的に最も近い用語をヒットし、他のすべてを排除することを可能にする。ユーザは、本発明の局面を検索エンジンに用いて、いくつかのヒットのスコアを他と相対して高めるためにコンテキストを与えることにより、検索の有効性および効率を増大させることができる。コンテキストを与えることはまた、望ましくない用語を排除するのにも有効であり得、それにより、ユーザが興味を持つ可能性が最も高い検索結果にまで検索結果をふるい分ける。下記に詳述されるように、本発明の実施例は、その書き言葉にローマ文字が用いられるか非ローマ文字が用いられるかにかかわらず、いかなる言語の検索エンジンにも適用可能である。
下記に記述される実施例は、既存の検索エンジンおよび技術が、成功した検索の履歴のコンパイル、リンクの頻度、または他のウェブ検索、データベース検索、もしくは単なるテキスト文書検索の公知の手段を伴うか否かを問わず、これらの既存の検索エンジンおよび技術の代わりに、またはこれに加えて、用いられ得ることが理解されるべきである。
本発明の実施例によれば、検索を始めるために、ユーザはたとえば英語(またはたとえば自分の母語)などのいかなる言語でも、1つ以上の検索語を口頭で入力し、タイプし、または他の方法で与えることができる。すると与えられた検索語は同音異字リストに分けられ、上述の方法が用いられて、与えられた検索語は、単語、文字、または書き言葉の組に分けられ得る。検索語の指定に用いられる言語のデータベース402を基準にした言語が何であっても、話される応答およびキーとなる応答が交互になることにより、検索語の辞書的な意味のリストへの最初の指定が素早く決定される。
与えられた検索語の辞書的な意味はいくつかの辞書的な意味を含み得る。たとえば、英単語「カウント(count)」は、いくつかの異なる英語の意味を有する。ウェブスターの辞書(Webster's Dictionary)では、「カウント(count)」という単語は、5つの主要な意味と、5つの主要な意味の中に12の小さな意味とを有する。ユーザが検索される単語のためにこれらの意味のうち1つを特定する能力により、検索エンジンによって実行されるよりもさらに著しく高度な検索が可能になる。検索語に対する一致がない場合であってさえ、検討されたターゲットソースでのコンテキストの用語により、本発明の局面を具体化する検索エンジンが意味のある検索結果を返すことが可能になるかもしれない。ウェブスターの辞書では、単語「コート(court)」は以下のように定義される:
主要見出し語:court
発音:「kOrt」「kort」
機能:名詞
使用法:しばしば限定詞
語源:中英語、古フランス語、ラテン語のcohort−、cohorsから、囲い、グループ、従者、co−+−hort、−hors(hortus(庭)と同類)、YARDの項参照
1a:国王または同種の権力者の住宅または敷地:1b:国家の議員および高官の公式な集会:1c:統治権力者である国王、高官、顧問:1d:国王の家族および従者:1e:国王の行う謁見式
2a(1):通常は囲いのある土地によって囲まれた領主の邸宅または大きな建物:2a(2):MOTEL 2b:1つの建物によって境界された、または複数の建物によって完全にもしくは部分的に囲まれた空き地:2c:ボールを用いるさまざまなゲーム(ローンテニス、ハンドボール、またはバスケットボールなど)のうち1つを行うために壁で囲まれ、または印がつけられた四辺形の空間;さらに:このようなコートの一区分:2d:通りに面して1つの開口しかない広い小路
3a:司法業務の執行のための公式な集団:3b:このような裁判所の公判<court is now adjourned(ここで休廷します)>3c:司法行政のための場所(執務室):3d:公判の裁判官;さらに:判断または評価する部局または機関<rest our case in the courtof world opinion…L.H.Marks(我々の案件は世論の評価に任せよう…L.H.マークス)>4a:立法機関または行政機関の議会または理事会:4b:国会、議会
5:機嫌をとり、または敵意を払拭することを意図した行為または態度:敬意<pay court to the king(王へのご機嫌伺い)>。
このように、「カウント(Count)」という単語は、1つ以上の連想エントリを検索エンジンに与えることにより検索中に解決され得る、いくつかの異なる辞書的な意味を有する。これを可能にするために、これらの異なる辞書的な意味の各々が連想データベースの表の行として与えられ、各行は辞書的な意味と関係し、またはユーザの心の中で所望の辞書的な意味から連想される1つ以上の連想エントリを包含する。本発明の実施例によれば、ユーザは、検索語に加えて、連想エントリを入力し、それはたとえば意味および/または全体的なコンテキスト(たとえば技術的な領域、産業、政府省庁など)のフィールドを含んでもよい。そのような連想エントリにより、検索エンジンが、与えられた検索語であってその連想エントリがユーザが与える連想エントリに対応する検索語の辞書的な意味にまで、検索の範囲を限定したり拡張したりすることにより、検索の範囲を狭めることが可能になる。代替的には、検索エンジンは、連想によって作られた「スコア」に対する寄与度に部分的に基づいて、各解決案に点数を与えてもよい。ユーザが入力した連想エントリ、およびユーザにとっての以前の成功した検索に基づいて、階層的なカテゴリがさらに構築されてもよい。さらに、本発明の実施例による検索エンジンが検索を実行するとき、それは1つ以上の公知の階層的カテゴリを選択するようユーザに促すことができる。これらの公知の階層的カテゴリは、以前に連想データベース402に蒔かれたかもしれず、かつ/または以前に成功した検索の以前に入力された連想エントリであったかもしれない。次いで、検索が成功する結果となった、ユーザが与えた連想エントリが連想データベース402に加えられ、次の検索で利用可能になり得る。ユーザは、検索に成功した結果が与えられれば、ユーザのプロフィルの一部として覚えられ、今後用いられ得る新しい階層的カテゴリを生成するようさらに促されてもよい。これは、日本語または中国語の漢字で有効であるように、ローマ文字検索エンジンにも有効な戦略である。ユーザのプロフィルは、上述されるようにデータベース402に以前の個人的検索の結果を格納することができ、またユーザの目的を決定するのを助けるために以前の連想エントリを用いるよう構成され得ることに注意されたい。ユーザはそのような過去の連想エントリおよび階層的カテゴリを許容したり排除したりする機会をも与えられ得る。
検索の結果は、たとえば、関連性(連想エントリのいくつ/いくらが、ページ、文書または参考ヒットに見つかるか)および強さ(最も高い優先順位の連想エントリの量)を含み得る基準に従って分析されてもよい。
以前に記述された実施例では、ユーザが検索語に加えて与えた連想エントリは、単語、および/または、音、もしくは、検索語と関係し、かつ/またはユーザの心の中でこれに関連付けられる他の入力であってもよい。検索語および連想エントリの組合わせの各々は並行して検索されてもよい。たとえば、ユーザは、所望の検索語に対して5つの連想エントリを入力し、また他の方法で与えるように促されてもよい。代替的には、ユーザは、所望の検索語に対する自分の連想エントリとしてカテゴリ(たとえば動物、野菜、または鉱物)を与えるように促されてもよい。たとえば、検索語が「作業犬(working dog)」である場合、ユーザが入力する連想エントリは、たとえば「犬の(canine)」、「狩り(hunting)」および「スパニエル(spaniel)」を含んでもよい。
ユーザのための連想データベース402の内容に基づいて、検索エンジンはまた、与えられた検索語および/または連想エントリに関する1つ以上の質問に対する回答についてユーザを促すよう構成されてもよい。たとえば、検索エンジンはたとえばその大きさ「それはパン入れよりも大きいか?」といった検索語の何らかの特性に関する追加情報についてユーザを促すよう構成されてもよいし、または、たとえば、検索語が物理的な結果を有するか否か決定するようにユーザに促してもよい。検索エンジンは、検索語および連想エントリに基づいて、階層的カテゴリが現在のセッション中にユーザが与えたものであっても以前のセッション中にユーザが与えたものであっても、そのようなカテゴリを上下に検索することができる。
検索エンジンは、検索を絞るため、検索語の分類および/またはメンバーシップについてユーザを促すよう構成されてもよい。たとえば、本発明の実施例によれば、この検索エンジンは、連想エントリとして検索語の特性を入力するか、または以前に入力された連想エントリをさらに特徴付けるよう、ユーザに促してもよい。たとえば、検索語が「大きい(big)」であって関連付けられた単語が「破壊(destruction)」および「損傷(damage)」である場合、ユーザは検索語および/または連想エントリの1つ以上の特性を入力するように促されてもよい。たとえば、怪物、嵐、および恐竜が、これらはすべて「大きい」ので、たとえ大きくなければわずかな関係しかないとしても、(それらはすべて通った跡に損傷の跡を残すので)検索され得る。
本発明の実施例による検索エンジンはまた、単語の一定の連想および/またはクラスタを排除するよう構成され得る。たとえば、この検索エンジンのユーザは、一定の排他的な連想エントリが、検索されている品目を特徴付けないように、特定してもよい。この態様で、階層的カテゴリが存在する場合、ユーザは検索エンジンに一定の階層的経路を切取らせ(すなわち検索せず)、かつ/または、排他的な意味と関係する意味に関係する、かつ/またはそれらを含む文書を検索しないようにさせてもよい。たとえば、ユーザは、「作業犬」の検索語を特定し、「寒い気候(cold weather)」「そり(sled)」などの連想エントリを特定し、連想エントリ「サモエド犬(Samoyed)」が含められないような条件を含めることができる。それに応答して、検索エンジンは、作業犬、寒い気候およびそりに関連付けられているが、犬のサモエド種を特定する検索結果を含まないページおよび文書を検索する。
同じ態様で、検索エンジンは、検索語および連想エントリと一致する結果について階層的経路を上下に検索するよう構成されてもよい。カテゴリ階層の全体部分は積極的に検索に含まれても検索から排除されてもよい。
図10は、本発明の実施例が実現され得るコンピュータシステム1000のブロック図を示す。コンピュータシステム1000は、情報を通信するためのバス1001または他の通信機構と、情報を処理するためにバス1001と結合された1つ以上のプロセッサ1002とを含む。コンピュータシステム1000は、情報およびプロセッサ1002によって実行される命令を記憶するためにバス1001に結合されたランダムアクセスメモリ(RAM)または他のダイナミック記憶装置1004(メインメモリと呼ばれる)をさらに含む。メインメモリ1004は、さらに、プロセッサ1002による命令の実行中に一時的変数または他の中間情報を記憶するために用いられ得る。コンピュータシステム1000はさらに読出し専用メモリ(ROM)および/または、プロセッサ1002のための静的情報および命令を記憶するためにバス1001に結合された他の静的記憶装置1006を含む。磁気ディスクまたは光ディスクなどのデータ保存装置1007は、情報および命令を記憶するためにバス1001に結合される。コンピュータシステム1000はまた、コンピュータユーザに情報を表示するための表示装置1021にバス1001を介して結合されてもよい。英数字および他のキーを含む英数字入力装置1022は、プロセッサ1002に情報およびコマンド選択を通信するために典型的にはバス1001に結合される。別の種類のユーザ入力装置は、プロセッサ1002に方向情報およびコマンド選択を通信するための、および表示装置1021上のカーソルの動きを制御するための、マウス、トラックボール、またはカーソル方向キーなどのカーソル制御機器1023である。口頭の入力を与えるためにマイクロホンが用いられてもよく、1025で示されるように、ユーザの身振りまたは符号言語を入力するためにカメラが用いられてもよい。
ローマ文字および非ローマ文字を入力し検索するための方法およびシステムを可能にするために、本発明の実施例は、コンピュータシステム1000の使用および/または複数のそのようなコンピュータシステムに関係する。1つの実施例によれば、ここに記述された方法とシステムは、メモリ1004に包含される命令のシーケンスを実行するプロセッサ1002に応答して、1つ以上のコンピュータシステム1000によって与えられ得る。そのような命令は、データ保存装置1007などの別のコンピュータ可読媒体からメモリ1004へ読出されてもよい。メモリ1004に包含される命令のシーケンスの実行はプロセッサ1002にステップを実行させ、ここに記述した機能を有する。代替実施例では、本発明を実現するソフトウェア命令の代わりに、またはその命令と組合わせて、ハードワイヤードの回路が用いられてもよい。このように、本発明は、ハードウェア回路およびソフトウェアのいかなる特定の組合わせにも限定されない。
前述の詳細な説明は本発明の好ましい実施例について記述しているが、上記の説明は例示的であって開示された発明を限定するものではないことが理解される。当業者は他の代替実施例を認識することができ、そのような実施例はすべて本発明の範囲内にあると認められる。

Claims (19)

  1. アルファベットと異なる文字であり、ユーザが知らない1つ以上の予め定められた非ローマアルファベット文字を含む文書を検索するための方法をコンピュータに実現させるためのプログラムであって、前記プログラムは、前記コンピュータに、
    所望の非ローマアルファベット文字の発音の入力を受けるステップと、
    前記コンピュータのユーザから、前記所望の非ローマアルファベット文字から連想する少なくとも1つの連想単語または句の入力を受けるステップと、
    その発音が与えられた発音に一致し、かつ前記少なくとも1つの連想単語または句のうち1つ以上と関連付けられる1つ以上の候補文字の連想データベースからの検索をさせるステップと、
    候補文字の数が1を超える場合に追加的な連想単語または句を与え、ただ1つの候補文字が検索されるまで前記検索をさせるステップを繰返すステップと、
    前記ただ1つの候補文字を含み得る文書についてサーチを行なわせるステップと、
    追加的な予め定められた非ローマアルファベット文字のための追加的な候補文字を検索するために、発音の入力を受ける前記ステップに連続的に戻るステップとを実行させ、
    前記ユーザから入力される連想単語または句の少なくとも1つは、前記1つ以上の予め定められた非ローマアルファベット文字の意味とは無関係である、プログラム。
  2. 前記発音は音声発音である、請求項1に記載のプログラム。
  3. 与えられた連想単語または句が前記予め定められた文字と現在関連付けられていない場合、与えられた連想単語または句を前記予め定められた文字に関連付けて、前記受取った連想単語または句を前記連想データベースに格納するステップを、前記コンピュータにさらに実行させる、請求項1に記載のプログラム。
  4. 与えられた連想単語または句が前記連想データベースに現在存在しない場合、前記与えられた連想単語または句を前記連想データベースに加えるステップを前記コンピュータに実行させる、請求項1に記載のプログラム。
  5. 発音の入力を受ける前記ステップは、日本語の文字である非ローマアルファベット文字で実行される、請求項1に記載のプログラム。
  6. 発音の入力を受ける前記ステップは中国語の文字である非ローマアルファベット文字で実行される、請求項1に記載のプログラム。
  7. 発音の入力を受ける前記ステップは朝鮮語の文字である非ローマアルファベット文字で実行される、請求項1に記載のプログラム。
  8. 発音の入力を受ける前記ステップはヘブライ語の文字である非ローマアルファベット文字で実行される、請求項1に記載のプログラム。
  9. 発音の入力を受ける前記ステップはアラビア語の文字である非ローマアルファベット文字で実行される、請求項1に記載のプログラム。
  10. 前記検索をさせるステップは、複数の行を有する連想表を含む連想データベースで実行され、各行は、ただ1つの異なる非ローマアルファベット文字、前記ただ1つの非ローマアルファベット文字のローマアルファベット発音、および前記ただ1つの非ローマアルファベット文字に関連付けられ得る複数の単語または句を含む、請求項1に記載のプログラム。
  11. 発音の入力を受ける前記ステップは、前記連想データベースに結合されたコンピュータへの音声入力を介して実行される、請求項1に記載のプログラム。
  12. 発音の入力を受ける前記ステップは、前記連想データベースに結合されたコンピュータへのキーボード入力を介して実行される、請求項1に記載のプログラム。
  13. 発音の入力を受ける前記ステップは、前記連想データベースに結合されたコンピュータへのマシン画像を介して実行される、請求項1に記載のプログラム。
  14. 前記検索をさせるステップは、ログインしているユーザについて個別化された連想から少なくとも1つの候補文字の前記検索をさせるよう、ログインするステップをさらに含む、請求項1に記載のプログラム。
  15. サーチをさせる前記ステップは、文書についてコンピュータネットワークのサーチをさせるステップを含む、請求項1に記載のプログラム。
  16. 連想単語または句の入力を受ける前記ステップは、予め定められた非ローマアルファベット文字と同じ言語の連想単語または句で実行される、請求項1に記載のプログラム。
  17. 連想単語または句の入力を受ける前記ステップは、予め定められた非ローマアルファベット文字とは異なる言語の連想単語または句で実行される、請求項1に記載のプログラム。
  18. 発音の入力を受ける前記ステップの発音は音声アルファベットを用いるよう構成されている、請求項1に記載のプログラム。
  19. 前記検索をさせるステップは、たとえばローマ文字、非ローマアルファベット文字、絵もしくは音楽、および任意のコンピュータ読取り可能なファイルのうち少なくとも1つの検索をさせるよう構成されている、請求項1に記載のプログラム。
JP2011176001A 2004-10-20 2011-08-11 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム Active JP5512614B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/969,488 US7376648B2 (en) 2004-10-20 2004-10-20 Computer-implemented methods and systems for entering and searching for non-Roman-alphabet characters and related search systems
US10/969,488 2004-10-20

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2007537871A Division JP4825216B2 (ja) 2004-10-20 2005-05-10 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム

Publications (2)

Publication Number Publication Date
JP2012038320A JP2012038320A (ja) 2012-02-23
JP5512614B2 true JP5512614B2 (ja) 2014-06-04

Family

ID=34979029

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007537871A Active JP4825216B2 (ja) 2004-10-20 2005-05-10 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム
JP2011176001A Active JP5512614B2 (ja) 2004-10-20 2011-08-11 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2007537871A Active JP4825216B2 (ja) 2004-10-20 2005-05-10 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム

Country Status (7)

Country Link
US (1) US7376648B2 (ja)
EP (1) EP1810184A1 (ja)
JP (2) JP4825216B2 (ja)
CN (1) CN101084500B (ja)
AU (1) AU2005296294A1 (ja)
CA (1) CA2584816A1 (ja)
WO (1) WO2006043988A1 (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6636848B1 (en) * 2000-05-31 2003-10-21 International Business Machines Corporation Information search using knowledge agents
US20050010391A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Chinese character / Pin Yin / English translator
US20050010392A1 (en) * 2003-07-10 2005-01-13 International Business Machines Corporation Traditional Chinese / simplified Chinese character translator
US20050027547A1 (en) * 2003-07-31 2005-02-03 International Business Machines Corporation Chinese / Pin Yin / english dictionary
US8137105B2 (en) 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US7516062B2 (en) * 2005-04-19 2009-04-07 International Business Machines Corporation Language converter with enhanced search capability
JP4058057B2 (ja) * 2005-04-26 2008-03-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
US20060293890A1 (en) * 2005-06-28 2006-12-28 Avaya Technology Corp. Speech recognition assisted autocompletion of composite characters
US8249873B2 (en) * 2005-08-12 2012-08-21 Avaya Inc. Tonal correction of speech
US20070050188A1 (en) * 2005-08-26 2007-03-01 Avaya Technology Corp. Tone contour transformation of speech
WO2007051246A1 (en) * 2005-11-02 2007-05-10 Listed Ventures Ltd Method and system for encoding languages
SG133419A1 (en) * 2005-12-12 2007-07-30 Creative Tech Ltd A method and apparatus for accessing a digital file from a collection of digital files
US7496693B2 (en) * 2006-03-17 2009-02-24 Microsoft Corporation Wireless enabled speech recognition (SR) portable device including a programmable user trained SR profile for transmission to external SR enabled PC
JP2008152670A (ja) * 2006-12-19 2008-07-03 Fujitsu Ltd 翻訳文入力支援プログラム、該プログラムを記録した記憶媒体、翻訳文入力支援装置、および翻訳文入力支援方法
CN101231636B (zh) * 2007-01-25 2013-09-25 北京搜狗科技发展有限公司 一种便捷的信息搜索方法、***及一种输入法***
US20090037403A1 (en) * 2007-07-31 2009-02-05 Microsoft Corporation Generalized location identification
US20090058820A1 (en) * 2007-09-04 2009-03-05 Microsoft Corporation Flick-based in situ search from ink, text, or an empty selection region
CN101408873A (zh) * 2007-10-09 2009-04-15 劳英杰 全范围语义信息综合认知***及其应用
WO2009049049A1 (en) * 2007-10-09 2009-04-16 Language Analytics Llc Method and system for adaptive transliteration
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
EP2120130A1 (en) * 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US8364462B2 (en) * 2008-06-25 2013-01-29 Microsoft Corporation Cross lingual location search
US8457441B2 (en) * 2008-06-25 2013-06-04 Microsoft Corporation Fast approximate spatial representations for informal retrieval
JP5372148B2 (ja) * 2008-07-03 2013-12-18 ニュアンス コミュニケーションズ,インコーポレイテッド モバイルデバイス上で日本語テキストを処理する方法およびシステム
US8745051B2 (en) * 2008-07-03 2014-06-03 Google Inc. Resource locator suggestions from input character sequence
US8874443B2 (en) * 2008-08-27 2014-10-28 Robert Bosch Gmbh System and method for generating natural language phrases from user utterances in dialog systems
JP2010055235A (ja) * 2008-08-27 2010-03-11 Fujitsu Ltd 翻訳支援プログラム、及び該システム
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US20100199228A1 (en) * 2009-01-30 2010-08-05 Microsoft Corporation Gesture Keyboarding
JP5558772B2 (ja) * 2009-10-08 2014-07-23 東レエンジニアリング株式会社 マイクロニードルシートのスタンパー及びその製造方法とそれを用いたマイクロニードルの製造方法
US8612206B2 (en) * 2009-12-08 2013-12-17 Microsoft Corporation Transliterating semitic languages including diacritics
US9009021B2 (en) 2010-01-18 2015-04-14 Google Inc. Automatic transliteration of a record in a first language to a word in a second language
US11062615B1 (en) * 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
JP2014517428A (ja) * 2011-06-24 2014-07-17 グーグル・インコーポレーテッド 検索クエリのソース言語を検出すること
US9727892B1 (en) * 2011-10-28 2017-08-08 Google Inc. Determining related search terms for a domain
US9519631B2 (en) * 2012-03-30 2016-12-13 Microsoft Technology Licensing, Llc Semantic diff and automerge
JP5741542B2 (ja) * 2012-09-20 2015-07-01 カシオ計算機株式会社 情報表示制御装置、情報表示制御方法、およびプログラム
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
WO2014087704A1 (ja) * 2012-12-06 2014-06-12 楽天株式会社 入力支援装置、入力支援方法、及び入力支援プログラム
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
JP6483433B2 (ja) * 2014-12-25 2019-03-13 Dynabook株式会社 システム及び電子機器
CN105469783B (zh) * 2015-11-12 2019-06-21 深圳Tcl数字技术有限公司 音频识别方法及装置
JP2019066917A (ja) * 2017-09-28 2019-04-25 京セラドキュメントソリューションズ株式会社 電子機器、及び翻訳支援方法
CN108133012B (zh) * 2017-12-22 2022-01-18 新奥(中国)燃气投资有限公司 一种标签设置方法及装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57501254A (ja) * 1980-08-01 1982-07-15
US4498143A (en) * 1981-11-12 1985-02-05 Stanislaus Strzelecki Method of and apparatus for forming ideograms
US4565459A (en) * 1984-06-04 1986-01-21 Dilucia Gilbert Phonetic Chinese printing apparatus
US5497319A (en) * 1990-12-31 1996-03-05 Trans-Link International Corp. Machine translation and telecommunications system
US5659769A (en) * 1993-02-19 1997-08-19 Apple Computer, Inc. Text services manager
US5432948A (en) * 1993-04-26 1995-07-11 Taligent, Inc. Object-oriented rule-based text input transliteration system
US5410306A (en) * 1993-10-27 1995-04-25 Ye; Liana X. Chinese phrasal stepcode
SG42314A1 (en) * 1995-01-30 1997-08-15 Mitsubishi Electric Corp Language processing apparatus and method
GB2314183A (en) * 1996-06-14 1997-12-17 Sharp Kk Accessing a database
US5966637A (en) * 1996-11-12 1999-10-12 Thomson Consumer Electronics, Inc. System and method for receiving and rendering multi-lingual text on a set top box
US5918206A (en) * 1996-12-02 1999-06-29 Microsoft Corporation Audibly outputting multi-byte characters to a visually-impaired user
US6351726B1 (en) 1996-12-02 2002-02-26 Microsoft Corporation Method and system for unambiguously inputting multi-byte characters into a computer from a braille input device
US5978799A (en) * 1997-01-30 1999-11-02 Hirsch; G. Scott Search engine including query database, user profile database, information templates and email facility
FI105601B (fi) * 1997-02-04 2000-09-15 Nokia Mobile Phones Ltd Käyttökielestä riippuva kirjainten syöttö numeronäppäimillä
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
US6377966B1 (en) * 1997-10-22 2002-04-23 Flashpoint Technology, Inc. Graphical interface to select characters representing phonetic articulation and no articulation groups
US6170000B1 (en) * 1998-08-26 2001-01-02 Nokia Mobile Phones Ltd. User interface, and associated method, permitting entry of Hangul sound symbols
JP3930168B2 (ja) * 1998-11-12 2007-06-13 日本電信電話株式会社 文書検索方法、装置および文書検索プログラムを記録した記録媒体
US6421680B1 (en) * 1998-12-15 2002-07-16 International Business Machines Corporation Method, system and computer program product for case and character-encoding insensitive searching of international databases
JP3444223B2 (ja) * 1999-03-19 2003-09-08 日本電気株式会社 データベース登録装置
US6636238B1 (en) * 1999-04-20 2003-10-21 International Business Machines Corporation System and method for linking an audio stream with accompanying text material
WO2000079436A2 (en) 1999-06-24 2000-12-28 Simpli.Com Search engine interface
US6562078B1 (en) * 1999-06-29 2003-05-13 Microsoft Corporation Arrangement and method for inputting non-alphabetic language
AU1039301A (en) * 1999-10-29 2001-05-08 British Telecommunications Public Limited Company Method and apparatus for processing queries
AU2001249777A1 (en) * 2000-03-31 2001-10-15 Amikai, Inc. Method and apparatus for providing multilingual translation over a network
US6890180B2 (en) * 2000-09-18 2005-05-10 Creative Action Llc Phonetic transliteration card display
US20020083029A1 (en) * 2000-10-23 2002-06-27 Chun Won Ho Virtual domain name system using the user's preferred language for the internet
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
FI20010644A (fi) * 2001-03-28 2002-09-29 Nokia Corp Merkkisekvenssin kielen määrittäminen
US20040044791A1 (en) * 2001-05-22 2004-03-04 Pouzzner Daniel G. Internationalized domain name system with iterative conversion
DE10126835B4 (de) * 2001-06-01 2004-04-29 Siemens Dematic Ag Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache
JP2003288360A (ja) * 2002-03-28 2003-10-10 Toshiba Corp 言語横断情報検索装置及び方法
JP4064748B2 (ja) * 2002-07-22 2008-03-19 アルパイン株式会社 音声発生装置、音声発生方法及びナビゲーション装置
US7039625B2 (en) * 2002-11-22 2006-05-02 International Business Machines Corporation International information search and delivery system providing search results personalized to a particular natural language
US7636083B2 (en) * 2004-02-20 2009-12-22 Tegic Communications, Inc. Method and apparatus for text input in various languages
US7415411B2 (en) * 2004-03-04 2008-08-19 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers

Also Published As

Publication number Publication date
US7376648B2 (en) 2008-05-20
JP4825216B2 (ja) 2011-11-30
JP2008517399A (ja) 2008-05-22
WO2006043988A1 (en) 2006-04-27
CN101084500A (zh) 2007-12-05
US20060089928A1 (en) 2006-04-27
CN101084500B (zh) 2010-05-12
CA2584816A1 (en) 2006-04-27
JP2012038320A (ja) 2012-02-23
EP1810184A1 (en) 2007-07-25
AU2005296294A1 (en) 2006-04-27

Similar Documents

Publication Publication Date Title
JP5512614B2 (ja) 非ローマアルファベット文字を入力し検索するためのコンピュータで実現される方法およびシステム、ならびに関連する検索システム
Dash Corpus linguistics: An introduction
US20070112554A1 (en) System of interactive dictionary
Fraser et, al.(2015)
Joyce Constructing a Large-Scale Database of Japanese Word Associations.
Manning et al. Kirrkirr: Software for browsing and visual exploration of a structured Warlpiri dictionary
Brato The historical corpus of English in Ghana (HiCE Ghana)
US20230004720A1 (en) Logos Communication Platform
Glassman et al. Hector: Connecting words with definitions
Nasir et al. Use of present tense in online university prospectus
Mahoney Tachypaedia Byzantina: The Suda on line as collaborative encyclopedia
Aizouky Arabic-English Google Translation Evaluation and Arabic Sentiment Analysis
Miyazaki et al. Development of a corpus-based web application to support writing technical documents in english
Neumann et al. Mining natural language answers from the web
Dash AND LANGUAGE TECHNOLOGY
Drew Elizabeth Couper-Kuhlen & Margret Selting (eds.), Prosody in conversation: Interactional studies. Cambridge & New York: Cambridge University Press, 1996. Pp. xii, 471. Hb $74.95.
Hedden Indexing specialties: web sites
Fraser The feminisation of agentives in French and Spanish speaking countries: a cross-linguistic and cross-continental comparison
Sussex David Crystal, English as a global language. Cambridge & New York: Cambridge University Press, 1997. Pp. x, 150. Hb $9.95.
Ashby Aidan Coveney, Variability in spoken French: A sociolinguistic study of interrogation and negation. Exeter, UK: Elm Bank, 1996. Pp. 271. Pb£ 24.99.
Silverman Teun A. van Dijk (ed.), Discourse as social interaction.(Discourse studies: A multidisciplinary introduction, 2.) London (UK) & Thousand Oaks (CA): Sage, 1997. Pp. xii, 324. Hb 28.95.
Dorian Padraig Ó Riagáin, Language policy and social reproduction: Ireland 1893–1993.(Oxford studies in language contact.) Oxford: Clarendon Press; New York: Oxford University Press, 1997. Pp. xi, 297. Hb£ 42.50, $80.00.
Odijk STEVIN programme project results
Murthy Natural Language Processing
Santiago-Irizarry Ana Celia Zentella, Growing up bilingual: Puerto Rican children in New York. Oxford (UK) & Cambridge (MA): Blackwell, 1997. Pp. ix, 323. Pb $24.95.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140326

R150 Certificate of patent or registration of utility model

Ref document number: 5512614

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250