JP4960461B2

JP4960461B2 - ウェブベースのコロケーション誤りの校正

Info

Publication number: JP4960461B2
Application number: JP2009540463A
Authority: JP
Inventors: ガオチァンフェン; ビー．ドランウィリアム; ホンシャオ−ウェン; チョウミン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2006-12-05
Filing date: 2007-12-05
Publication date: 2012-06-27
Anticipated expiration: 2027-12-05
Also published as: US7774193B2; RU2458391C2; WO2008070750A1; AU2007329362A1; KR20090084818A; IL198054A0; EP2102761A4; EP2102761A1; CN101568918A; MX2009004891A; TW200846939A; US20080133444A1; NO20092498L; JP2010511966A; BRPI0719257A2; RU2009121432A; CN101568918B; CA2665600A1; KR101279759B1

Description

本発明は、ウェブベースのコロケーション誤りを校正する方法およびシステムに関する。

２つの異なる言語間の翻訳は、個々の単語の意味が使用の文脈によって制約されるという難しい事態をしばしば伴う。人が自分の母国語ではない第二言語を学習するとき、正しく翻訳したように思われるのに、ネイティブスピーカーの間の典型的な使用において、特定のグループまたはコロケーションでは実際は使用されない単語が選択されることが一般的には多い。そのようなコロケーションは、理論的な意味では構文的にまたは文法的に正しいが、通常の使用からは外れており、ネイティブスピーカーにとっては本能的に奇妙にまたはぎこちなく思われるであろう。ある言語における単語の組合せは、しばしば単一の語彙項目を形成する設定パターンに一致し、同様の意味を持ち、同様の文法的関係で並べられる単語のグループでさえ、その言語のネイティブの使用範囲内のどの語彙項目にも入らないことがあり得る。これはその語彙項目が、代替の使用からその言語を制約するものであるとネイティブスピーカーが明確に事前に考えるかどうかに関わらない。

例えば、第二言語として英語を学習する者は、「ｓｔｒｏｎｇ」および「ｐｏｗｅｒｆｕｌ」を自分の母国語では１単語の２つの代替の翻訳とみなし、「ｔｏｍａｋｅ」および「ｔｏｄｏ」を異なる単語の２つの代替の翻訳であるとみなすかもしれない。英語の使用にそれほど経験が無い学習者は、「Ｉｈａｄａｃｕｐｏｆｓｔｒｏｎｇｔｅａ」よりむしろ「Ｉｈａｄａｃｕｐｏｆｐｏｗｅｒｆｕｌｔｅａ」と書くことがあり、また、「Ｉｍａｄｅａｐｌａｎ」の代わりに「Ｉｄｉｄａｐｌａｎ」と書くことがある。コロケーションの同様の誤りは、自分がネイティブスピーカーでない任意の他の言語を学習中のどの言語のネイティブスピーカーも示す特徴である。そのような誤った単語のコロケーションは、典型的には長期間のその言語での文脈経験および対話実践の後でのみ避けることができ、典型的には辞書または他のタイプの素早く簡単にアクセスできる言語リファレンスを使用して解決することはできない。

上記の説明は、一般的な背景情報のために提供するものであり、請求される主題の範囲を決定する助けとして使用されることは意図していない。

方法、コンピュータシステムおよびコンピュータシステム用の実行可能命令を符号化するソフトウェアを含む様々な実施形態において、コロケーション誤りを、ウェブ等のローカルなコーパスおよびネットワークベースのコーパスを使用して自動的に校正することが可能である。例えば、例示の一方法によると、テキストサンプルからの１つまたは複数のコロケーションをウェブのコンテンツ等のコーパスと比較する。そのコロケーションは、それらがコーパス内で好ましくないかどうかが特定される。また、出力装置を介して、コロケーションがコーパス内で好ましくないかどうかについての表示が提供される。追加のステップとしては、次いで、潜在的に適切な単語コロケーションを検索すること、および、ユーザ出力を介してそれらを提供すること等がある。

上述した説明は、以下の「発明を実施するための形態」でさらに述べる概念を選択して簡略化した形式で紹介するために提供するものである。上述した説明は、請求の主題の重要な特徴または主要な特徴を確認することを意図していない。また、請求の主題の範囲を決定する補助として使用されることを意図してもいない。本請求の主題は、上述した任意のまたは全ての不都合を解決する実施に限定されない。

例示の実施形態による方法を可能にするコンピュータシステムのためのユーザインターフェースを示す図である。例示の実施形態による方法のフローチャートを示す図である。例示の実施形態による方法のフローチャートを示す図である。例示の実施形態による方法を可能にするコンピュータシステムのためのユーザインターフェースを示す図である。幾つかの実施形態が実施され得るコンピュータ環境のブロック図である。幾つかの実施形態が実施され得る別のコンピュータ環境のブロック図である。

図１は、例示の実施形態による、コロケーション誤りの校正の方法を可能にするコンピュータシステムのためのコロケーション誤りの校正インターフェース１０を示す。コロケーション誤りの校正インターフェース１０は、例えば、コンピュータシステム、およびコンピュータシステムにより実行可能に構成される実行可能命令を含む実施形態、ならびに方法の実施形態を可能にするコンテキストを例示する。以下の説明は、種々の例示の実施形態のさらなる詳細を提供する。ある例示の配置および付された名前、ならびにコンピュータ実施方法により比較されるテキストのサンプルが、この図面および後に続く図面に含まれるが、それらは、本明細書および請求の範囲に与えられる、様々な広い意味を例示し表示することを意図するものである。

図１の例示の実施形態において、コロケーション誤りの校正インターフェース１０は、ソフトウェアプリケーションに関連するグラフィックディスプレイパネル、すなわちコンピュータのモニタ等の出力装置上で、グラフィカルユーザインターフェースにおいて一度に開くことが出来る多くのグラフィックディスプレイパネルの１つを構成する。第二言語としての英語（ＥＳＬ）を学習する学習者が入力した、校正用テキストサンプルを対象としている例示の一実施形態を参照すると、コロケーション誤りの校正インターフェース１０は、タイトルバー１２内で「ＥＳＬ校正」と名前が付されている。ＥＳＬは、コロケーション誤り校正の例示の一実施形態についての典型的なアプリケーションを提供するが、それは、誤りのあるコロケーションが、第二言語としての英語を学習する中級の学習者による誤りの多くを占めることが分かっているためである。

ＥＳＬ校正アプリケーションの例示の実施形態は、以下の説明において繰り返し参照されるが、単なる例であり、他の実施形態の広い範囲に適用できる広義の原理を示すことが理解されるべきである。例えば、以下に、図１に示すコロケーション誤りの校正インターフェース１０を伴わずに動作する他の実施形態が記載され、その一方、さらに他の実施形態は、第二言語として任意の他の言語を学習する学習者を対象とし、また、他の実施形態は、例えば、自分の母国語を習得するために学習する子供に対象をより絞ることができる。

コロケーション誤りの校正インターフェース１０は、その上部に、２つの異なるタスクモードに対応する２つのタブを含む。２つのタブとは、「ＥＳＬ文のロード」と名前が付されたタブ１１（この場合も、特定のＥＳＬ対象実施形態を対象とする）、および「クエリーの実行」と名前が付されたタブ１３である。図１は、「ＥＳＬ文のロード」のタブ１１が選択されたユーザインターフェース１０を、ディスプレイ上の関連するボタン、見出し、テキストボックス、および他のユーザインターフェース要素（または「ウィジェット」）と共に示す。図４は、「クエリーの実行」のタブ１３が選択されたコロケーション誤りの校正インターフェース１０と、ディスプレイ上のそのタスクに関連するユーザインターフェース要素とを示すが、その説明はさらに以下で行う。

「ＥＳＬ文のロード」のタブ１１の下のユーザインターフェースパネルは、様々な対話型の入力および出力ユーザインターフェース要素を含み、順次これらについて以下で説明する。これらは、通常、「文の分析」というタイトル見出しを有する上部分と、「コロケーションの分析」というタイトル見出しを有する下部分に分割される。

「文の分析」部分の上部に沿って、インターフェース要素の行があり、「構文解析済みファイルからのロード」ボタン１５、「生ファイルからのロード」ボタン１７、図では「Ｖ−Ｎコロケーション」（以下で説明する）と現在書かれているコンボ・ボックス１９の前に「コロケーションタイプ」と書かれた見出し、および、「コロケーションの抽出」ボタン２１がある。それらのウィジェットの下には、左右および上下のスクロールバー２２、２４、ならびに「元の文」と書かれたタイトルバー２０を有する、テキストボックス２３がある。その下には、「構文解析済みの文」という見出しのテキストボックス２５がある。通常、これらのインターフェース要素は、誤り校正のために、テキストサンプルから文章をロードして、それらをネットワーク上で入手可能なコンテンツのコロケーションとの比較のために準備する、ユーザ機能を可能にする。

テキストボックス２３は、ＥＳＬ学習者により書かれた文書等のテキストサンプルからの多数のサンプル文を含む。テキストボックス２３上の上下スクロールバー２４のトラフ（trough）内にある圧縮されたサイズのスクロールサム２６が示すように、現在表示される文章は、テキストボックスに現在ロードされている文章の全体のリストのごく一部であり、ユーザはこのリストに、スクロールサム２６を移動させることによってアクセスできる。テキストボックス２３に表示される文章は、第二言語として英語を学習する中級の学習者が犯しやすい典型的な間違いを表す。それらは、「Ｉｄｉｄａｐｌａｎ」、「Ｉｈａｖｅｒｅｃｏｇｎｉｚｅｄｔｈｉｓｐｅｒｓｏｎｆｏｒｙｅａｒｓ」、および「Ｉｈａｄａｃｕｐｏｆｐｏｗｅｒｆｕｌｔｅａ」などである。

これらの文章は、「構文解析済みファイルからのロード」ボタン１５または「生ファイルからのロード」ボタン１７のどちらかを選択することにより、ユーザが処理を開始した後に、別のアプリケーションで開かれた文書から手動でロードされるか、または、別の一文書または多数の文書から、ＥＳＬタイプの誤りを有するものとして自動的に選択され、インポートされる。別の実施形態において、ワードプロセッシングアプリケーション等の異なるアプリケーションは、ＥＳＬ校正トリガ有するが、これはデフォルトでアクティブであり得、ＥＳＬタイプの誤りがワードプロセッシングプログラム内に入力されるテキスト内で検出された時に、自動的にコロケーション誤りの校正インターフェース１０の利用を推奨するパネルを立ち上げることができる。

ボタン１５および１７により示唆されるように、テキストサンプルは、アプリケーションにより取り上げられるときには、すでに構文解析はなされているかもしれないし、なされていないかもしれない。テキストサンプルがまだ構文解析されていない場合は、例えば、追加のステップが行われる前のローディングの後に構文解析され得る。構文解析された文が、テキストボックス２５に示される。特に、これは、テキストボックス２３に示される第二の文の構文解析済みのバージョンであり、周りを局所的にハイライトされ、ユーザにより、例えば、マウスで左クリックすることより、もしくはライトペンでタップすることにより、または何らかの他のユーザ入力機構により、選択されていることを示す。

構文解析は、自然言語処理および自然言語理解における開発の盛んな分野である。構文解析は、例えば、品詞タグ付け、チャンキング、およびセマンティックラベリング等のタスクを含むことが出来る。図１に示される実施形態において、テキストボックス２５内の文は、品詞タグ付け、およびチャンキングがなされている。他の実施形態は、何らかの非西欧の言語に対してより絞った対象とするものを含み、単語分割等の構文解析タスクの他の組合せを含むことが出来る。

テキストボックス２５内の構文解析済みの文において、元の文の各単語には、そのすぐ後に斜線（すなわち、右上がりスラッシュ）が続き、その単語に割り当てられる２または３文字の品詞タグからその単語を分離する。品詞タグ対して幾つかの例示のオプションを以下に挙げる。文の終わりのピリオドも、自身の斜線を伴い別のピリオドからそれを分離し、品詞タグと同等のタグの働きをし、句読点の機能を示す。１つまたは２つの（若しくは、他の例ではそれ以上の）グループにおける文中の単語も、各括弧で囲まれた組の内部の先頭に２文字のチャンクタイプのラベルを有する、チャンクの境界に対応する括弧で囲まれる。この文において表示された品詞タグは、人称代名詞を表す「ＰＲＰ」、三人称単数形以外の現在形の動詞を表す「ＶＢＰ」、過去分詞形の動詞を表す「ＶＢＮ」、限定詞を表す「ＤＴ」、単数形普通名詞または代替可能普通名詞を表す「ＮＮ」、前置詞または従属禁止命令（subordinating injunction）を表す「ＩＮ」、および複数形の普通名詞を表す「ＮＮＳ」を含む。例示の実施形態による品詞タグの例示のリストは、以下のように提供されるが、一方で、異なる定義および多かれ少なかれ特異性を伴う品詞タグの他のスキームが、他の実施形態において使用され得る。幾つかのタグを、現在の例示の実施形態について、英語において例示する。

表１：品詞タグの例示のリスト
１．ＣＣ − 等位接続詞（例えば、「ａｎｄ」、「ｂｕｔ」、「ｎｏｒ」、「ｏｒ」、「ｙｅｔ」、「ｐｌｕｓ」、「ｍｉｎｕｓ」、「ｔｉｍｅｓ」、「ｏｖｅｒ」（分割にも同様に使用される））
２．ＣＤ − 基数
３．ＤＴ − 限定詞（冠詞および不定限定詞、例えば、「ａ」、「ａｎ」、「ｅｖｅｒｙ」、「ｎｏ」（冠詞として）、「ｔｈｅ」、および、例えば、「ａｎｏｔｈｅｒ」、「ａｎｙ」、「ｓｏｍｅ」、「ｅａｃｈ」、「ｅｉｔｈｅｒ」、「ｎｅｉｔｈｅｒ」、「ｔｈａｔ」、「ｔｈｅｓｅ」、「ｔｈｉｓ」、「ｔｈｏｓｅ」、ある使用での「ａｌｌ」、「ｔｈｅｙ」を含む）
４．ＥＸ − 存在を表す語「ｔｈｅｒｅ」
５．ＦＷ − 外国語
６．ＩＮ − 前置詞または従属禁止命令
７．ＪＪ − 形容詞
８．ＪＪＲ − 形容詞比較級
９．ＪＪＳ − 形容詞最上級
１０．ＬＳ − リスト項目マーカ
１１．ＭＤ − 法動詞（例えば、「ｃａｎ」、「ｃｏｕｌｄ」、「ｍａｙ」、「ｍｉｇｈｔ」、「ｍｕｓｔ」、「ｓｈａｌｌ」、「ｓｈｏｕｌｄ」、「ｗｉｌｌ」、「ｗｏｕｌｄ」）
１２．ＮＮ − 単数形普通名詞、または代替可能普通名詞
１３．ＮＮＳ − 複数形普通名詞
１４．ＮＮＰ − 単数形固有名詞
１５．ＮＮＰＳ − 複数形固有名詞
１６．ＰＤＴ − 前限定詞
１７．ＰＯＳ − 所有格語尾
１８．ＰＲＰ − 人称代名詞
１９．ＰＲＰ＄ − 所有代名詞（例えば、「’ｓ」、「ｓ’」「’」）
２０．ＲＢ − 副詞
２１．ＲＢＲ − 副詞比較級
２２．ＲＢＳ − 副詞最上級
２３．ＲＰ − 不変化詞
２４．ＳＹＭ − 記号
２５．ＴＯ − 「Ｔｏ」
２６．ＵＨ − 感嘆詞
２７．ＶＢ − 動詞、原形
２８．ＶＢＤ − 動詞、過去形
２９．ＶＢＧ − 動詞、動名詞または現在分詞
３０．ＶＢＮ − 動詞、過去分詞
３１．ＶＢＰ − 動詞、三人称単数形以外の現在形
３２．ＶＢＺ − 動詞、三人称単数形現在形
３３．ＷＤＴ − Ｗｈ限定詞
３４．ＷＰ − Ｗｈ代名詞
３５．ＷＰ＄ − Ｗｈ代名詞所有格（「ｗｈｏｓｅ」）
３６．ＷＲＢ − Ｗｈ副詞

テキストボックス２５内の構文解析済みの文に表示されるような構文解析されたテキストサンプルも、この図示においてはチャンキングされている。ここでは、括弧の対が、定義された各チャンクを囲み、チャンクタイプが各括弧の組の中身の先頭にラベルで示されている。チャンキングは、表面的で局所的な情報に基づき実行されることが可能な、比較的扱いやすい構文解析タスクである。チャンキングによって、文章を重複しない区分に分割して、各チャンクが１つの重要な主要語をこれに関連する単語と共に含むようにする。チャンキングは、従って、文をフレーズに分割することと考えられるが、具体的には、本例示の実施形態においては、フレーズの重複を防ぐために定義可能な最小のフレーズ単位に文を分割すると考えられる。チャンキングは、テキストの統語構造、並びにフレーズ間の関係または依存を識別可能になるようにする。例えば、１つの名詞句は、動詞句の主語であり得、また、第２の名詞句は動詞句の目的語であり得る。

図１における例示のチャンクは、この良い例を提供する。第１のチャンクは、名詞句を表すＮＰがラベル付けされ、唯一の重要な主要語、文の主語である「Ｉ」に基づいている。第２のチャンクは、動詞句を表すＶＰがラベル付けされ、「ｈａｖｅ」および「ｒｅｃｏｇｎｉｚｅｄ」を含み、この２つの個々の動詞は一緒になって、動詞「ｔｏｒｅｃｏｇｎｉｚｅ」の過去分詞形式の統合概念を形成する。第３のチャンクは、別のＮＰすなわち名詞句であり、主要語「ｐｅｒｓｏｎ」を、関連しサポートする単語と共に含み、文の目的語として単一概念「ｔｈｉｓｐｅｒｓｏｎ」を形成する。前置詞句を表すＰＰがラベル付けされた第４のチャンク、および別の名詞句を表すＮＰがラベル付けされた第５のチャンクは、それぞれ単一の単語を含む。ピリオドは、ピリオドとしてタグが付けられるが、チャンクからは除外される。

コロケーション誤りの校正インターフェース１０に関連する、またはコロケーション誤りの校正インターフェース１０によって利用される構文解析システムは、自然言語処理の当業者にはよく知られるような方法で、正確にまた確実に品詞タグ付けおよびチャンキングを自動的に実行するように作りこむことが可能である。

「ＥＳＬ文のロード」タブ１１の下のユーザインターフェースパネルの下部分は、タイトル見出し「コロケーションの分析」が付けられ、１組のテキストボックス２７、２９、３１および３３を含み、それぞれ、タイトルバーおよび少なくとも１つのスクロールバーと共に示される。テキストボックス２７のタイトルバーには、「ＥＳＬコロケーション」と書かれ、テキストボックスは、テキストボックス２５の文からの２つの連語配列されるチャンクである、動詞句「ｈａｖｅｒｅｃｏｇｎｉｚｅｄ」、および文の目的語である名詞句「ｔｈｉｓｐｅｒｓｏｎ」を含むように示される。品詞タグならびにチャンキングラベルおよび括弧と共に示されるように、連語配列されるフレーズは「［ＶＰｈａｖｅ／ＶＢＰｒｅｃｏｇｎｉｚｅｄ／ＶＢＮ］［ＮＰｔｈｉｓ／ＤＴｐｅｒｓｏｎ／ＮＮ］」と書かれる。コロケーションタイプ・コンボ・ボックス１９が、動詞句およびそれに続く名詞句が互いに隣り合うように配置されるコロケーションを表示する選択肢である「Ｖ−Ｎコロケーション」に設定されているため、このコロケーションが、テキストボックス２７内に与えられる。この設定に対応するコロケーションは、テキストボックス２５の文から抽出されている。

テキストボックス２９は、タイトルバーに示されるように、コロケーション候補を含む。コロケーション候補は、テキストボックス２７内のコロケーションと同じ名詞句「ｔｈｉｓｐｅｒｓｏｎ」を有するが、名詞句に先行する様々な異なる過去分詞形の動詞を有する。これらの候補の動詞は、過去分詞の形式で動詞句内の「ｈａｖｅ」に続けて、動詞の主要語として、「ｒｅｃｏｇｎｉｚｅｄ」を置換する候補である。これには、「ｋｎｏｗｎ」、「ａｄｍｉｔｔｅｄ」、「ｔｈｏｕｇｈｔ」等が含まれる。元のコロケーションをコーパスのコンテンツと比較することにより、元のコロケーションがコーパスのコンテンツには少ないかまたは存在せず、従って好ましくなく、誤りであったらしいということが明らかになったため、これらの候補は元のコロケーションを含まない。

コロケーション誤りの校正インターフェース１０、または、これに関連するかもしくはこれと共に使用されるアプリケーションは、従って、元のコロケーションがコーパスのコンテンツには好ましくなく、誤りであったらしいということを表示することができる。この表示を、例えば、図１の例示の実施形態のように、ユーザがテキストボックス３３で見られるようにすることができる。テキストボックス３３は、そのタイトルバーが示唆するように、コロケーションステータスを示す。これは、このコロケーションがコーパスのコンテンツには好ましくないか、または誤りであったらしいということを表示し、好ましくないと判明したコロケーション内の置換される候補である動詞の主要語の下に波線３２をつける。ユーザは、例えば、所望の置換コロケーションの上でダブルクリックすることなどにより、テキストボックス２９内のコロケーション候補の１つを選択し、好ましくないと表示されたコロケーションと置換することができる。この表示は、また、例えば、別個のワードプロセッシングプログラム、ネットワークナビゲーションプログラム、または他のアプリケーション内で、不適切なコロケーションにマークを付けること等により提供することができる。このようなマーク付けは、好ましくない、または誤ったコロケーションを、明るい色の波線などでハイライトしたり、または下線をつけたりすることにより、ユーザの注意を引くことができる。

テキストボックス２９内のコロケーション候補は、テキストボックス２７内のコロケーションを大きなコーパス内の利用可能なコンテンツと比較した結果として提供される。これは、ローカルなコーパス、および／または、分散リソース上でホストされるコンテンツ、およびこの例示の実施形態のワールドワイドウェブのようなネットワーク上でアクセス可能なコンテンツを含む、ネットワークベースのコーパスを含むことができる。他の実施形態においては、コーパスは、他の利用可能なネットワークのコンテンツ、例えば、イントラネット、広域ネットワーク、ローカルエリアネットワーク、または何らかの他のタイプのネットワーク等のコンテンツを含むことができる。ウェブをコーパスとして使用するウェブ検索由来のコンテンツは、例えばウォールストリートジャーナルコーパス等の、従来のコーパスの検索と一緒に使用することができる。従来のコーパス内におけるコロケーションの存在は、ウェブコンテンツにおけるコロケーションの存在と比べて特に重きを置かれるが、これはコーパスが、コーパスに比べてより広い様々なソース、およびよりカジュアルな書き物の内包を含み得るウェブコンテンツと比較すると、比較的に一貫して適切な使用を保証するためである。しかし、ウェブコンテンツは、任意の利用可能な従来の言語使用のコーパスに比べて、その膨大な量において十分な利点を提供する。テキストサンプル内の任意の所与のコロケーションに対応する適切なコロケーションは、従来のコーパスにはあまり存在しない。一方、少なくとも英語では、適切な使用で存在し得る任意の単語のコロケーションであればほとんどウェブ上で、または、以下でさらに説明するように、コロケーションに基づく異なるクエリー語の柔軟な検索により明らかになり得る、少なくとも構造的に等価のコロケーションを見出すことが可能であることが分かっている。また、少なくとも、例えば、第二言語としての英語を学習する学習者からの典型的なテキストサンプルに見られる、ほとんどの誤ったコロケーションに対する、適切な置換コロケーションは、ウェブで見出すことが可能であることが分かっている。ウェブ検索において特定の文またはコロケーションが見つからないということは、その文またはコロケーションが誤りであるということのより高い確信をもたらす。類似の代替コロケーションが対象のコロケーションより非常に高い頻度で現れるかどうかを確認して検索結果を評価しても良く、結果として誤りであるにもかかわらずコロケーションがウェブ上に存在する可能性のあることが、そのようにして明らかになるだろう。

本明細書書の作成時においては、ウェブで利用可能なほとんどのテキストのコンテンツは英語である。現在の人の言語の多くは、ウェブ上ではほとんど利用可能でなく、幾つかの共通で話される言語でさえ、ウェブコンテンツ内に現れることは比較的少ない。例えば、ヒンディー語は、現在世界で３番目に広く話されている言語であるが、そのウェブコンテンツは、話す人がその千分の一に満たないアイスランド語のものより少ないことが、少なくとも１つの調査で分かった。コロケーション誤りの校正の有効性は、校正されるべきテキストサンプル内のコロケーションに対する比較の基盤として利用可能な、コーパスのサンプルのサイズに部分的に依存する。従って、英語のテキストサンプルの校正には必要とされないであろう異なる言語において、ウェブベースのコロケーション誤りの校正には、特別な方法が使用されるであろう。

これらには、例えば、特に、テキストサンプルの言語に一致する対象言語のコンテンツに対する、ターゲティングもしくはスクリーニング、または、ウェブもしくはネットワーク上でアクセスされる他のコンテンツに加えて、比較の基盤として使用されるコーパスに対して、特別のネットワーク、コーパス、もしくはデジタル化されたライブラリを使用することが含まれる。これらの方法は、例えば、ユニコードに符号化されていないコンテンツにインデックスを付け、かつ検索することが可能な検索ユーティリティを使用すること、または、特別のキャラクタ符号化スキームもしくは変換フォーマットを使用して非標準符号化フォーマットのコンテンツを読み、インデックを付け、検索できるようにすることを含む。ローマ字（アルファベット）以外の筆記体系を使用する言語の大量のコンテンツは、幾つかの言語のウェブ上の大多数のコンテンツでさえも、非標準符号化フォーマットで存在するため、これらの非標準符号化フォーマットにインデックスをつけて検索することが可能な検索は、他のものよりも非常に多くのコンテンツを生じさせる傾向がある。これらのような方法は、種々の実施形態に従って、可能な最大範囲の言語に適用されるように、ウェブベースのコロケーション校正システムの性能に寄与する。

ウェブコンテンツが検索されることを強制し、またはそれにバイアスをかける追加の方策は、ＵＲＬのカテゴリまたは分類についての選好を適用することを含み得る。幾つかのＵＲＬは、具体的には、そのコンテンツが大量のライブラリまたは信頼できる適切な言語の使用のコーパスを含むことが知られている場合、選好する検索のため、および／または、このコンテンツ内で見出されるコロケーションにより重きを置くため、特別に列記され得る。これは、また、検索に選好的にバイアスをかけること、またはトップレベルドメイン（ＴＬＤ）に基づき検索結果に重きを置くことを含む。例えば、追加の検索順序、または結果重み付けが、「ｃｏｍ」または「ｏｒｇ」ではなく、「ｅｄｕ」または「ｇｏｖ」のＴＬＤを有するＵＲＬに対して適用され得る。英語以外の言語に対するコロケーション校正に関する検索では、対象の言語のウェブコンテンツについてのスクリーニング検索は、対象の言語が公用語であるかまたは実質的に使用されている国に割り当てられる国コードＴＬＤに基づく検索または重みに、バイアスをかけることまたはそれらを制限することを含み得る。例えば、フランス語のテキストサンプルを校正することを対象とするコロケーション校正アプリケーションは、「ｆｒ」、「ｂｅ」、「ｃｈ」もしくは「ｃａ」（それぞれフランス、ベルギー、スイスおよびカナダの国コードＴＬＤ）といったＴＬＤ、または、他の公式もしくは実質的にフランス語圏の国に属する、他の国コードＴＬＤを伴うウェブサイトで見出されるウェブコンテンツの検索に対して、バイアスをかけまたは制限することが可能である。

テキストボックス３１は、コロケーション内で「ｔｈｉｓｐｅｒｓｏｎ」に先行する動詞句の主要語を形成するコーパスのコンテンツ内において見出される、全ての利用可能な動詞の長いリストの一部を示す。スクロールバーの何分の一かのサイズである、テキストボックス３１の右側の上下スクロールバー内のスクロールサムにより示されるように、リストは、現在図１に示すテキストボックス３１内に見える、利用可能な動詞の一部分より極めて長い。テキストボックス３１にリストアップされる利用可能なコロケーションのほとんどが、テキストボックス２９でのリストアップのように、コロケーション候補として選択されなかったが、それはこれらのコロケーションが、元のコロケーションと一致すること、およびそれを修正された形式で元の意味を与えるコロケーションと置換することの、考え得る正当性の基準の組に基づく、ファジーマッチのスコアリングスキームにおいてそれほど高いスコアを取れなかったからである。

テキストボックス２７内のコロケーションを比較し、コーパスのコンテンツ内でそのコロケーションが好ましくないかどうかを特定し、およびそのコロケーションに対して推奨する置換を提供する例示の方法が、残りの図面を参照してさらに詳細に説明される。

図２は、図１に示すコロケーション誤りの校正インターフェース１０の態様に類似する特定の態様である、例示の実施形態に従って、コロケーション校正方法５０のフローチャートを示す。方法５０の中心的なステップが、図２のフローチャート内に実線で輪郭を描いて示される。これらは、ウェブ検索のクエリー語として、コロケーションを含むコンテンツを提示することなどによって、テキストサンプルからの１つまたは複数のコロケーションをコーパスと比較するステップ５１、コロケーションがコーパスにおいて好ましくないかどうかを特定するステップ５３、および、コロケーションが好ましくないかどうかの表示を、出力装置を介して提供するステップ５５を含む。再帰的なフローチャートの矢印で示すように、ステップ５１および５３は繰り返し連続して実行され、テキストサンプルからのコロケーションとコーパスとの異なる種類の比較を実行することができ、その異なる種類の比較により示されるように、コロケーションがコーパスにおいて好ましくないかどうかを特定する。

ステップ５１、５３、および５５は、点線で輪郭を描いて表示されるように、追加のステップを伴い、追加のステップが先行するか、または追加のステップが後に続くことができる。これらは、例えば、ステップ６１に示されるように、ユーザ入力もしくは選択または他の形式のテキストサンプルの指示を受け取ることなどにより、テキスト内の単語コロケーションの特定または指示を受け取ることを含む。それはまた、デフォルトの特徴を持ち、人によるテキスト入力を伴うワードプロセッシングアプリケーションまたは何らかの他のソフトウェアアプリケーションにおいて、誤ったコロケーションまたは非ネイティブの使用の他の指示に対して、入力が監視され、かつスクリーニングされ、また、ステップ６３に示されるように、そのような指示が見つかれば追加のステップが始動される。テキストサンプルは、また、ステップ６５に示されるように、また図１に関連して例示的に説明されるように、構文解析されるが、例えば、本方法の他の実施形態は、既に構文解析済みのテキストサンプルに適用してもよい。

ステップ６７に示されるように、特定のタイプのコロケーションは、特に対象とされてコーパスと比較される。このステップは、コーパスと比較すること、および追加のコロケーション誤りの校正ステップを実行することのために、動詞−名詞コロケーション、前置詞−名詞コロケーション、形容詞−名詞コロケーション、または、動詞−副詞コロケーション等のコロケーションを選択することを含む。コロケーションのこれらの個々のカテゴリの任意の１つは、幾つかの実施形態において限定的に使用され得るが、任意のまたは全てのこれらのコロケーションタイプ、および／または追加のコロケーションタイプは、他の実施形態で使用され得る。ステップ６７においてリストアップされる４つのコロケーションタイプを使用することが、典型的な非ネイティブの言語ユーザが犯すて全てのコロケーションの誤りの相当な部分を占めるということが分かっている。これらの特定のコロケーションタイプを選択することは、例えば、ステップ６５に示されるように、または図１に関連して説明されるように、事前の構文解析ステップによって、テキストサンプル内の品詞を最初に特定することを含む。

コロケーションが、コーパスにおいて好ましくないかどうかを特定するステップ５３は，異なるフォーマットのコロケーションに基づく様々な個々のクエリー語に対して、繰り返し実行され使用された全てのクエリー語に基づいて、コーパスと比較されるコロケーションがそのコーパスのコンテンツにおいて好ましくないかどうかの最終的な判定の形式とすることができる。

例示の一実施形態は、図３のフローチャートにおける類似のステップ３５１および３５３にさらに示される。この実施形態において、図２のステップ５１に示されるようにテキストサンプルからのコロケーションをコーパスと比較することは、ファジーマッチの方策を含めることができる。この比較は、図３においてステップ３６１、３６３、３６５、および３６７にそれぞれ示されるように、コロケーションを含む完全な文、要約された文（reduced sentence）、一対のチャンク、または一対の単語を含むクエリー語に対してコーパスを検索することを含むものである。要約された文とは、コロケーションを含む文から付属部分を取り除くことによって形成されるものであるが、ここで付属部分とは、例示の実施形態において、文中のコロケーションの保存には必要ではないと事前に定義され、文から選択された単語である。例えば、誤ったコロケーションの文「Ｉｈａｖｅｒｅｃｏｇｎｉｚｅｄｔｈｉｓｐｅｒｓｏｎｆｏｒｙｅａｒｓ」に基づく要約された文のクエリー・テンプレートは、「ｈａｖｅｒｅｃｏｇｎｉｚｅｄｔｈｉｓｐｅｒｓｏｎ」であり得る。チャンクの対および単語の対のクエリー語は、特定の単語またはコロケーションを含むチャンクが直接隣り合っているか、または、例えばそれらを引き離す１つまたは２つ程度の他の単語を伴う、同一の文内で近接する事前に選択された範囲の中にあるというものである。ファジーマッチ検索における、要約された文の検索、チャンクの対の検索、および単語の対の検索は、異なっているが等価な単語の順番であるという結果も検出し、または特定の機能語および他のタイプの単語に対してプレースホルダを使用する。その結果、例えば、「ｒｅｃｏｇｎｉｚｅｔｈｉｓｐｅｒｓｏｎ」と「ｒｅｃｏｇｎｉｚｅｔｈａｔｐｅｒｓｏｎ」とは、ファジーマッチでは等価とみなされる。

コロケーションを含むクエリー語が、コーパス内にクエリー語のファジーマッチが有意に存在することを示す、事前に選択された閾値一致スコアより上のスコアをとれない場合、コロケーションは、好ましくないと評価され得る。図２のステップ５３に示されるように、コロケーションがコーパスにおいて好ましくないかどうかを特定することは、クエリー語に対して異なるタイプの検索を実行することを含むことができ、これは、図３のステップ３７１およびステップ３７３のそれぞれに示されるように、文または要約された文の一致を検索すること、または、図３のステップ３７５およびステップ３７７のそれぞれに示されるように、チャンクの対もしくは単語の対に対して見出す一致のための閾値のスコアを評価することを含む。文および要約された文が、非常に特有のものであるため、それらの内の１つに対する１つの一致または少数の一致で、コロケーションが好ましいもの、または誤りでないものとして示されるには十分であると考えることができる。チャンクの対または単語の対の一致は、これらがそれほど不自然ではなく、より一般的であるため、その言語の専門家ではないユーザが書いたウェブコンテンツが比較的まれに残っていることにより、誤りである場合でも、少なくとも幾つかの検索結果で見付つかることは大いに予測できる。従って、本実施形態によると、チャンクの対および単語の対の一致に対してより高い閾値を設定することができる。この閾値は、指示されたチャンクまたは単語の対の、相対的な普及（prevalence）を示すのに十分であり、コーパスにおいて相対的に少量の、好ましくない単語コロケーションと予想される指示ではなく、通常の使用に対応する単語コロケーションを示すものである。

一致スコアは、特定の累積スコアを、例えばチャンクの対または単語の対の一致の存在それぞれに割り当てる基本カウンタを含み、十分な一致が見付かり最小合計スコアを達成する場合、好ましくないものよりもより適切なコロケーションを単に示す。異なるクエリーを有する結果についてのスコアは、組み合わせられ、より特定されたクエリー語にさらに重み付けし、例えば、例示として、チャンクの対の一致のカウント当りに、単語の対の一致のカウント当り１０倍の重み付けをする。要約された文または全文もまた、コロケーションステータスを判定するのに、それ独自では十分ではなく、一致スコアの評価に含まれ得る。例えば、テキストサンプルからのコロケーションの対を含む要約された文で見付けられた各一致は、チャンクの対当りの２０倍の一致重み付けのスコア、および単語の対当り２００倍の重み付けのスコアが割り当てられ得る。一致または一致スコアを評価するのにどんな方法が使用されても、その処理は、ステップ３５５において終了し、そのステップ３５５はステップ３８１に示されるように、コロケーションが好ましくないという表示、またはステップ３８３に示されるように、コロケーションが好ましいという表示を提供する。

異なるクエリー・テンプレートの重み付け、および普通の使用のコロケーションを、好ましくないコロケーションから区別するために使用される閾値一致スコアは、コロケーション校正ソフトウェアの開発者またはユーザオプションとしてエンドユーザにより、より大きいまたはより小さい検出感度に調整または調節することができる。ユーザは、閾値を低く下げて処理を早くしたいかもしれないが、問題のあるまたは不明確な好ましくない少数のコロケーションがくぐり抜ける可能性が大きい。またはユーザは、もっと完璧なものを求め、閾値を高く設定することができる。場合によっては注目すべきコロケーションを調べることに、より多くの時間を費やし、そのコロケーションが任意の可能性のある置換語に比較的類似した使用がなされていることが分かるということにもかかわらず、より良く確実にいかなる誤ったコロケーションもテキストサンプルから取り除くであろう。

図３におけるクエリー語の順番は、より特有のものから、より一般的なもの、およびより制約されないものへと進むため、各連続するステップからの検索結果を収集することに、前のステップより時間がかかりやすい。検索結果を戻す全てのステップは、ほんの一瞬を必要とすると思われるが、システムの性能はさらにより高効率化され、一致の十分な表示が見付かると、すぐに次第に時間がかかってゆく残りのステップを経由することなく、ステップ３５１およびステップ３５３の処理を終了することにより、全体の時間を減らす。所定の文または要約された文に対して多くの一致が見付けられた場合、例えば、チャンクの対または単語の対の検索を実行するために必要な比較的長い瞬間を費やすことを、回避することが出来る。異なるクエリー語を使用する同一のコロケーションの検索は、従って、クエリー語の１つが、コロケーションに一致する事前に選択された閾値を満たす検索結果を与えるまで、または、コロケーションを含む全てのクエリー語が、事前に選択された閾値を満たすことなく使用されるまで、連続して続行される。

図２に示されるさらなるステップに戻り、例示の一実施形態によると、特定のコロケーションが好ましくないかどうかの表示が与えられた後、ステップ７１、７３、７５および７７に示されるように、コロケーション誤りの校正アプリケーションが作動して、さらに、候補の置換語を検索および提供して、誤ったコロケーションを修正する。これは、ステップ７１に示されるように、１つまたは複数の好ましくないコロケーション内の１つまたは複数の単語を置換するワイルドカードを用いて、クエリー語を作成することを含み得る。ワイルドカードは、誤っている可能性があることが示される疑わしい単語の代わりに、クエリー語の中に挿入されるオープンなプレースホルダとして役立つことができ、ここで、プレースホルダは、検索されているコーパス内の、クエリー語の残りの部分の疑わしい単語の位置に挿入される任意の単語に対応する。ワイルドカードは、単語の１つを、誤りが疑われる単語の代わりとなる、アスタリスク等の記号と置き換えることによって検索に使用するができる。

単語コロケーションリファレンスは、ステップ７３に示されるように、ワイルドカード要素を含むもの等の、可能性のあるコロケーション候補を提供するクエリー語に対して検索されることができる。単語コロケーションリファレンスは、さらに、ウェブまたは別のネットワークベースのもしくはローカルなコーパスであることが可能であり、また、例えばウェブの検索結果をスクリーニングして単語コロケーション辞書に含まれないコロケーションを削除することなどによって、特別の単語コロケーション辞書リファレンスを含むことができる。

次に、コロケーションリファレンスの検索は、ワイルドカードプレースホルダを表す記号の代わりに、任意の単語またはフレーズを使用するテキストの区分を有する結果を戻すことができる。例えば、図１のコロケーション候補のテキストボックス２９を再度参照すると、そこにリストアップされる幾つかのコロケーション候補は、全てフレーズ「ｔｈｉｓｐｅｒｓｏｎ」に先行するワイルドカード記号を用いたワイルドカード検索から戻されたものである。検索語は、例えば「＊ｔｈｉｓｐｅｒｓｏｎ」であり、ここでアスタリスク「＊」はワイルドカードを形成し、検索結果は、「ｋｎｏｗｎｔｈｉｓｐｅｒｓｏｎ」、「ａｄｍｉｔｔｅｄｔｈｉｓｐｅｒｓｏｎ」、「ｔｈｏｕｇｈｔｔｈｉｓｐｅｒｓｏｎ」などを含む。検索ツールによりワイルドカードの単語を示すのに使用される記号の選択は、任意であり、アンパサンド、クエスチョン・マーク、またはその他が適当であろう。

ワイルドカードは、同一のコロケーションに基づく一連のクエリー語のそれぞれに使用され、より大きく制約されたものからより小さく制約されたものへ、コロケーションに基づく一連のクエリー・テンプレートを順次通って進み、元々なされていたのと同様に対象のコロケーションの正当性または好ましくない程度を評価する。例えば、誤ったコロケーションの文「Ｉｈａｖｅｒｅｃｏｇｎｉｚｅｄｔｈｉｓｐｅｒｓｏｎｆｏｒｙｅａｒｓ」に対して、一連のワイルドカードクエリー語が含むことができるものは、完全な文であって、ワイルドカードでコロケーション内の動詞を置き換えたもの、すなわち「Ｉｈａｖｅ＊ｔｈｉｓｐｅｒｓｏｎｆｏｒｙｅａｒｓ」、要約された文の形式に基づく１つまたは複数のクエリー語、すなわち「Ｉｈａｖｅ＊ｔｈｉｓｐｅｒｓｏｎ」、「ｈａｖｅ＊ｔｈｉｓｐｅｒｓｏｎｆｏｒｙｅａｒｓ」、「Ｉｈａｖｅ＊ｔｈｉｓｐｅｒｓｏｎ」、コロケーションを含有するチャンクの対に基づく１つまたは複数のクエリー語、すなわち「＊ｔｈｉｓｐｅｒｓｏｎｆｏｒｙｅａｒｓ」、「＊ｔｈｉｓｐｅｒｓｏｎ」、および、直接隣り合っているもの、または、１つ程度の中間の単語によって引き離されるような近接したもの、例えば「＊〜ｐｅｒｓｏｎ」、として検索されるいずれかの、単語の対としてのコロケーションに対する、１つまたは複数のクエリー語である。ここで波線「〜」は、例示の一実施形態において、任意に選択されているが、検索ツールによって、近接するプレースホルダとして解釈される。このプレースホルダは、ゼロもしくは１つまたは場合によっては複数の単語をその場所において表すことが可能で、ワイルドカードおよび特別の単語を引き離すことを示している。従って、ワイルドカードをクエリー語内で使用することは、テキストサンプルからのコロケーションを、ウェブ上、または他のネットワークベースのもしくはローカルなコーパスで利用可能なコンテンツ内の、潜在的に類似のコロケーションと、様々なレベルで比較するための効果的な方法の１つの例示を提供する。

限定される組の選好的な候補に制限される特別なワイルドカードを使用することもでき、または、結果がスクリーニングされるコロケーションリファレンスが、好ましいコロケーション候補の表示を含むことができる。例えば、特定のコロケーション候補は、好ましくはテキストサンプルの筆者の母国語からの逆翻訳の処理に基づく。ユーザが、自分の母国語を入力するという選択ができるか、または、コロケーション校正ソフトウェアが、筆者の母国語を示すような文章サンプル内の手掛かりを評価するツールを使用することができ、例えば、ソフトウェアはユーザに母国語を確認するよう指示する。他の手掛かりには、例えば、コンピュータ上にインストールされた他のソフトウェアで使用されている言語オプション、またはコンピュータの物理的な場所を示すものが考えられる。例えば、ソフトウェアが、オペレーティングシステムを中国語バージョンで作動させているコンピュータ上で、作動していることを検出した場合、または、ソフトウェアが、物理的には北京にあるものとリファレンスが示すサーバを介して、コンピュータがインターネットに接続していることを検出し、一方でテキストサンプルが英語である場合、ソフトウェアは、選好的な処理または優先処理を、ネイティブの中国語話者に典型的であるコロケーション候補に割り当てる。

筆者の母国語が分かっている場合、コロケーション校正ソフトウェアは、誤ったコロケーションが、筆者の母国語を文章サンプルの母国語でない言語へ不適切にマッピングすることに基づくかどうかを考慮することができる。これには、例えば、母国語の文法規則を母国語でない言語に適用するといったマッピングエラー、偽同族語または間違ったグループの言語（ｆａｌｓｅｆｒｉｅｎｄ）の誤用、母国語が複数形を区別しない場合に複数形を省略すること等が含まれ得る。

例えば、「Ｉｈａｖｅｒｅｃｏｇｎｉｚｅｄｔｈｉｓｐｅｒｓｏｎｆｏｒｙｅａｒｓ」を含むテキストサンプルの筆者が、ネイティブの中国語話者であると表示される。コロケーション校正ソフトウェアは、この表示に応答して、これを中国語に翻訳して入力し英語に戻された候補の翻訳をチェックすることができる。「Ｔｏｒｅｃｏｇｎｉｚｅ」は（漢語ピンイン(hanyu pinyin)で与えると）標準中国語の単語

に翻訳され得るが、英語では「ｔｏｒｅｃｏｇｎｉｚｅ」または「ｔｏｋｎｏｗ」として翻訳される単語である。従って、逆翻訳は「ｋｎｏｗ」が「ｒｅｃｏｇｎｉｚｅ」の考え得る置換の候補であることを示し、「Ｉｈａｖｅｋｎｏｗｎｔｈｉｓｐｅｒｓｏｎｆｏｒｙｅａｒｓ」を与える。別の例として、ネイティブのフランス語話者であると示される筆者による英語のテキストサンプルが、「Ｉｃｏｍｍａｎｄｅｄｔｈｅｆａｉｔｈａｎｄｏｎｉｏｎｓ」という文を含み、「ｃｏｍｍａｎｄｅｄ」および「ｆａｉｔｈ」の両方に好ましくない単語コロケーションのタグが付けられている。これは、フランス語で

と翻訳され、

が適切に「ｏｒｄｅｒｅｄ」として逆翻訳され、「ｌｅｆｏｉ」が「ｌｅｆｏｉｅ」と綴りが直され「ｔｈｅｌｉｖｅｒ」として逆翻訳し、よってソフトウェアは、検索結果により生成される任意の他のものの中のこれらのコロケーション候補を優先させ、追加の重み付けをし、置換のコロケーション候補を示唆し、文「Ｉｏｒｄｅｒｅｄｔｈｅｌｉｖｅｒａｎｄｏｎｉｏｎｓ」を与えることができる。

いずれの場合も、母国語からの逆翻訳を使用して、まず候補置換語の検索を制限し、またはそれをコロケーションリファレンスとして使用して、検索によって生成される可能性のある置換候補の間で評価し、および優先付けする。

ステップ７３に示されるように、クエリー語に対して単語コロケーションリファレンスを検索した後、本例示の実施形態においては、ステップ７５を実行し、ワイルドカードを置換する候補の単語の割合が比較的高い検索の結果を特定する。これにより、例示の一実施形態において、コロケーションを含む１文全体、要約された文、チャンクの対、または単語の対に対する一致を与える検索結果の間で、異なる重み付けが異なる一致のタイプに対して再度使用される。合計スコアは、各タイプのクエリー語からのスコア成分の重み付けされた和であり得、ここで各スコア成分は、例えばそのクエリー語の検索結果の数と、そのクエリー語に割り当てられる重みの積である。このような方法を使用する比較的高い合計スコアは、本例示の実施形態において、ワイルドカードを置換する候補の単語の比較的高い割合の効果的な基準として解釈され、誤ったコロケーションを修正するための考え得る可能性として役立つ。

ワイルドカードは、特にクエリー語内の品詞またはチャンクタイプのある部分を対象とする。例えば、動詞−名詞コロケーションに基づく１組のクエリー語内で、各コロケーションの動詞は、ある組のクエリー語のワイルドカードで置換され、また各コロケーションの名詞は、別の組のクエリー語のワイルドカードで置換され得る。前置詞−名詞コロケーションでは、特に前置詞は、ワイルドカードでの置換のために選択されるコロケーションの一部であり得るが、それは、意図される文の意味に名詞がより大きく関連し、また選択される特定の前置詞が、より一般的にその言語の中間学習者による誤ったコロケーション使用をされやすいからである。前置詞−名詞コロケーションに基づき、前置詞をクエリー語内のワイルドカードによる置換の対象とすることは、従って、所望の置換コロケーションを生成するために必要な時間を少なくする方策をサポートすることができる。同様に、ワイルドカードは、形容詞−名詞コロケーション内の形容詞および動詞−副詞コロケーション内の副詞として選好的に選択されるが、それは、この場合もやはり、意図される意味に、名詞および動詞がより固定されやすく、一方、形容詞および副詞が、それらが修飾する名詞および動詞よりも誤ったコロケーションに陥りやすいからである。品詞またはチャンクタイプの他の特定の部分は、他の実施形態において、クエリー語内のワイルドカードによる選好的なまたは限定的な置換に対して選択される。

検索結果の中で、疑わしい単語よりも有意に大きな割合を有する可能性のある置換語は、コロケーションの明らかに好ましくない部分に対して置換を示唆するものとして示され得る。これは、適切な単語コロケーションの辞書、または上記で説明したように、筆者の母国語に基づき示唆される逆翻訳との相互参照等のコロケーションリファレンスに含めるための、コロケーションと可能性のある置換語の相互参照の後でなされる。

検索の結果は、１つまたは幾つかの可能性のあるコロケーションの候補の単語であって、最高の一致スコアを有することが判明するような単語を有するが、図２のステップ７７に示されるように、潜在的に適切な単語コロケーションとしてユーザ出力を介して与えることができる。これは、図１のテキストボックス２９に表示されるコロケーション候補に類似し、例えば、ユーザがコロケーション候補の１つを選択し、誤りであると表示されるコロケーションを置換することが可能になる。時には、単一のコロケーションが、誤ったコロケーションに対する適切な置換としての可能性を十分に良好に示すであろう。これは、図４に示す場合である。

図４は、例示の実施形態による、コロケーション校正方法を可能にするコンピュータシステムのユーザインターフェース４１０を示す。ユーザインターフェース４１０は、その上部に図１のコロケーション誤りの校正インターフェース１０と同じタブを含む。具体的には、「ＥＳＬ文のロード」と名前が付されたタブ１１（この場合も、例示的に特定のＥＳＬの実施形態を対象とする）、および「クエリーの実行」と名前が付されたタブ１３である。図１は、「ＥＳＬ文のロード」のタブ１１が選択されたユーザインターフェース１０を示すが、図４は、タブ１３が選択されたユーザインターフェース４１０を、ディスプレイ上の関連するボタン、見出し、テキストボックス、および他のユーザインターフェース要素と共に示す。これらは、「ＥＳＬ構文解析済みの文」と名前が付された上部分と、「クエリーのレベル」と名前が付された下部分に分割される。ユーザインターフェース４１０は、コロケーション誤りの校正の例示の実施形態をサポートし、特定のタイプのクエリーに関わり、それらのクエリーで実行された検索の結果をユーザインターフェースを介して提供することを対象とする。

上部の「ＥＳＬ構文解析済みの文」部分は、図１のテキストボックス２５と類似のテキストボックス２５を含み、テキストボックス２５は、ここでは同じ構文解析済みの文を含む。この部分は、また、構文解析済みの文テキストボックス２５の下にボタンの行４１を含む。これらは、構文解析済みの文に基づき検索を実行する、様々な異なる例示のクエリー・テンプレートのためのボタンを含む。特に、本例示の実施形態においては、上記の説明によると、「クエリーの作成」、例えば完全な文または要約された文に対して、異なる文に基づくクエリーを参照する「Ｓ−クエリーＩの提示」および「Ｓ−クエリーＩＩの提示」、異なるタイプのチャンクの対のクエリーについての「Ｃ−クエリーＩの提示」および「Ｃ−クエリーＩＩの提示」、並びに、コロケーションの個々の単語の対に基づくクエリーについての「Ｗ−クエリーの提示」、という名前が付されたボタンがある。

ユーザインターフェース４１０の下部分は、現在の置換コロケーション候補の単語に対して呼び出され得るいくつかのクエリーの結果のテキストボックスの例示として、文レベルのクエリー用のテキストボックス４３、チャンクの第１のレベルのクエリー用のテキストボックス４５、およびチャンクの第２のレベルのクエリー用のテキストボックス４７を含む。各テキストボックス４３、４５および４７は、また、そのコロケーション候補のクエリー検索結果のヒット数、および、右側に、各クエリーのタイプに対応するコーパスからの幾つかのクエリー検索結果を表示する別個のテキストボックスとともに表示されている。その図により示唆されるように、本例示の例においては、校正されているコロケーションにおいて各クエリー・テンプレートのレベルで、「ｋｎｏｗｎ」が「ｒｅｃｏｇｎｉｚｅｄ」の適切な置換語として強く表示される。これは、クエリー・テンプレートの段階的なスキームが与えた冗長性が、この場合は、１つの特定の置換候補に対する説得力のあるケースを提示するには十分すぎたことを例示する。次に、ユーザは、自分の所望の各クエリー・テンプレートのヒット数を考慮し、置換コロケーション候補の１つを選択して、これが対応する好ましくない単語コロケーションを置換することができる。

図１および図４は、専用のアプリケーションの実施形態に関連するグラフィックディスプレイパネルを示すが、別の例示の実施形態は、ワードプロセッシングプログラム、ウェブブラウザ、Ｅメールアプリケーション、プレゼンテーションプログラム、または、テキストもしくは自然言語の別の形式のユーザ入力を伴う他のアプリケーション等の、別のアプリケーションと接続して機能しえる。そのような他のプログラムまたはアプリケーションは、別個の誤りコロケーション校正プログラムの実施形態と協働するか、または、例えば誤りコロケーション校正の実施形態から成る、それ自身のモジュールを含むことができる。コロケーション誤りの校正ツールは、異なる実施形態においては、例えば他のアプリケーションのツールメニューの下でアクセス可能であり、または別の例として、ユーザが単語の上で右クリックするとポップアップメニュー内の選択肢としてアクセス可能であり得る。

さらに別の動作モードにおいて、他のプログラムは、誤りコロケーション校正モジュールまたはプログラムを、デフォルトの設定で自動的に作動させることができ、また、誤りのある、または好ましくないコロケーションを、モニタ上の単語に付けられるマーキングを用いて自動的に表示することができる。マーキングは、例えばコロケーションの下で青いギザギザの線の形式をとり、そのコロケーションを誤りのあるまたは好ましくないものとして示すことができる。さらに別の動作モードにおいて、別個のモジュールまたはプログラムが作動し、例えば、ユーザ入力が、ユーザがその入力言語のネイティブユーザではないことを示すものを含むかどうかを検出し、非ネイティブの使用の表示は、誤りコロケーションモジュールまたはプログラムの起動のトリガとなる。

図５は、種々の実施形態を実装可能な適切なコンピュータシステム環境１００の一例を例示する。例えば、種々の実施形態は、ソフトウェアアプリケーション、モジュール、または、コンピュータシステム環境１００により実行可能な、およびコンピュータシステム環境１００を構成して異なる実施形態に含まれる種々のタスクまたは方法を実行させる、他の形式の命令として実装される。コロケーション誤りの校正の実施形態を具現化するソフトウェアアプリケーションまたはモジュールは、任意の様々なプログラミング言語もしくはスクリプト言語、またはプログラミング環境もしくはスクリプト環境で開発され得る。例えば、Ｃ＃、Ｆ＃、Ｃ＋＋、Ｃ、Ｐａｓｃａｌ、ＶｉｓｕａｌＢａｓｉｃ、Ｊａｖａ（登録商標）、Ｊａｖａ（登録商標）Ｓｃｒｉｐｔ、Ｄｅｌｐｈｉ、Ｅｉｆｆｅｌ、Ｎｅｍｅｒｌｅ、Ｐｅｒｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｒｕｂｙ、ＶｉｓｕａｌＦｏｘＰｒｏ、Ｌｕａ、または任意の他のプログラミング言語で書くことができる。また新しいプログラミング言語および他の形式の作成可能命令の開発が続けられ、そこではさらなる実施形態が容易に開発され得るということも想定される。

例示の一実施形態によると、コンピュータシステム環境１００は、テキスト内の単語コロケーションの表示を受け取るのに応答して、コロケーション誤りの校正タスクを実行するように構成され得る。次に、コンピュータシステム環境１００は、表示される単語コロケーションに関連する１つまたは複数のクエリー・テンプレートのそれぞれに対して、ウェブ検索を実行することができる。使用される種々のクエリー・テンプレートは、文、要約された文、チャンクの対、および／または個々の単語の対を含むが、これらの内の任意のものが単語コロケーションを含み得る。コンピュータシステム環境１００は、次に、各クエリー・テンプレートに対するウェブ検索の結果が、単語コロケーションが通常の使用に対応していることを示すかどうか、または、それが好ましくないかもしくは考え得る誤りを示しているかどうかを評価することができる。通常の使用がなされているかどうかは、文を含むクエリー・テンプレートが正確に一致すること、または事前に選択された閾値より大きい一致スコアによって示すことができる。次に、システムは、ユーザが認識可能な出力装置を介したコンピュータシステム環境１００の出力の一部として、コロケーション誤りの校正方法の実施形態の結果として、単語コロケーションが通常の使用に対応するか、または好ましくないため誤った使用であるとして示されるかどうかを示すことができる。

図５に示すコンピュータシステム環境１００は、種々の実施形態を実行し、種々の実施形態からの出力を提供する、適切なコンピュータ環境の一例に過ぎず、請求される主題の使用または機能の範囲に任意の制限を示唆することは意図されていない。コンピュータ環境は、例としての動作環境１００に示されるコンポーネントの任意の１つまたは組合せに関して依存も要求も有するものとして解釈されるべきではない。

実施形態は、多数の他の汎用もしくは専用のコンピュータシステム環境または構成で作動する。種々の実施形態の使用に適切な、既知のコンピュータシステム、環境、および／または構成の例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話技術システム、任意の上記のシステムまたはデバイスを含む分散コンピュータ環境等を含むが、これに限定されない。

実施形態は、プログラムモジュール等の、コンピュータによって実行されるコンピュータ実行可能命令の一般的なコンテキストで説明され得る。一般に、プログラムモジュールは、特定のタスクを実行し、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造等を含む。幾つかの実施形態は、通信ネットワークを通じてリンクされるリモート処理装置によりタスクが実行される、分散コンピュータ環境において実践されるように設計される。分散コンピュータ環境において、プログラムモジュールは、メモリストレージデバイスを含む、ローカルおよびリモート両方のコンピュータ記憶媒体内に置かれる。本明細書に記載されるように、そのような実行可能命令は、媒体に格納され、コンピュータシステムの１つまたは複数のコンポーネントによって読み込まれ実行されることが可能にであり、それによって新しい能力を有するコンピュータシステム構成する。

図５を参照すると、幾つかの実施形態を実装する例としてのシステムは、コンピュータ１１０の形式の汎用のコンピューティングデバイスを含む。コンピュータ１１０のコンポーネントは、プロセシングユニット１２０、システムメモリ１３０、および、システムメモリを含む種々のシステムコンポーネントをプロセシングユニット１２０に連結するシステムバス１２１を含むことができるが、これに限定されない。システムバス１２１は、メモリバスまたはメモリコントローラ、周辺機器用バス、および任意の様々なバスアーキテクチャを使用するローカルバスを含む、任意の数タイプのバス構造である。限定ではなく例として、上記アーキテクチャは、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロ・チャネル・アーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、および、メザニンバスとしても既知のＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バスを含む。

コンピュータ１１０は、典型的には、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセスでき、揮発性および不揮発性媒体、着脱可能および着脱不可能な媒体の両方を含む、任意の利用可能な媒体であることが可能である。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータ等の情報を格納する任意の方法または技術で実施される、揮発性および不揮発性、着脱可能なおよび着脱不可能の両方の媒体を含む。コンピュータ記憶媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリ、もしくは他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、もしくは他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ、もしくは他の磁気ストレージデバイス、または、所望の情報を格納するのに使用でき、コンピュータ１１０によってアクセスできる任意の他の媒体が含まれるが、これに限定されない。通信媒体は、典型的には、搬送波または他の転送機構などの変調されたデータ信号内のコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを具現化し、任意の情報配信媒体を含む。用語「変調されたデータ信号」は、信号内で情報を符号化する方法でその特性の１つまたは複数を設定または変更された信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークまたは直接配線接続などの有線媒体と、音響、ＲＦ、赤外線、および他の無線媒体などの無線媒体を含む。上記の任意の組合せも、コンピュータ可読媒体の範囲に含まれるべきである。

システムメモリ１３０は、読み出し専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２等の揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動中などに、コンピュータ１１０内の要素の間での情報の転送を助ける基本ルーチンを含む基本入出力システム１３３（ＢＩＯＳ）が、典型的にはＲＯＭ１３１に格納される。ＲＡＭ１３２は、典型的には、プロセシングユニット１２０に即座にアクセス可能、かつ／またはプロセシングユニット１２０によって現在作動中のデータおよび／またはプログラムモジュールを含む。限定ではなく例として、図５に、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７を例示する。

コンピュータ１１０は、また、他の着脱可能／着脱不可能の、揮発性／不揮発性のコンピュータ記憶媒体も含むことができる。単に例として、図５は、着脱不可能な不揮発性磁気記憶媒体から読み取りまたはこれに書き込むハードディスクドライブ１４１、着脱可能な不揮発性磁気ディスク１５２から読み取りまたはこれに書き込む磁気ディスクドライブ１５１、および、ＣＤ−ＲＯＭまたは他の光媒体などの着脱可能な不揮発性光ディスク１５６から読み取りまたはこれに書き込む光ディスクドライブ１５５を示す。例示的な動作環境で使用できる他の着脱可能／着脱不可能の、揮発性／不揮発性のコンピュータ記憶媒体は、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭ等を含むが、これに限定されない。ハードディスクドライブ１４１は、通常は、インターフェース１４０等の着脱不可能なメモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、典型的には、インターフェース１５０などの着脱可能なメモリインターフェースによってシステムバス１２１に接続される。

上で説明し、図５に示されたドライブおよびそれに関連するコンピュータ記憶媒体は、コンピュータ１１０のコンピュータ可読命令、データ構造、プログラムモジュール、および他のデータのストレージを提供する。図５において、例えば、ハードディスクドライブ１４１が、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を格納するものとして図示されている。これらのコンポーネントを、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同一のまたは異なるもののいずれかとすることができることに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７は、ここで、最低限でも異なるコピーであることを示すために異なる符号を与えられている。

ユーザは、キーボード１６２、マイク１６３、および、一般にマウス、トラックボール、またはタッチパッドのようなポインティングデバイス１６１などの入力装置を介して、コンピュータ１１０にコマンドおよび情報を入力することができる。他の入力装置（図示せず）は、ジョイスティック、ゲームパッド、衛星放送用パラボラアンテナ、スキャナ等、を含むことができる。これらおよび他の入力装置は、しばしば、システムバスに連結されるユーザ入力インターフェース１６０を介してプロセシングユニット１２０に接続されるが、パラレルポート、ゲームポート、またはＵＳＢ（ｕｎｉｖｅｒｓａｌｓｅｒｉａｌｂｕｓ）等の他のインターフェースおよびバス構造によって接続することができる。モニタ１９１または他のタイプのディスプレイ装置は、また、ビデオインターフェース１９０等のインターフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータはまた、スピーカー１９７およびプリンタ１９６等の他の周辺出力装置を含み得るが、これらは出力周辺インターフェース１９５を介して接続され得る。

コンピュータ１１０は、リモートコンピュータ１８０等の１つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境で動作する。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の一般的なネットワークノードであり得、典型的には、コンピュータ１１０に関して上記した要素の多くまたはすべてを含む。図５に示される論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含むこともできる。そのようなネットワーク環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットでは一般的なものである。

ＬＡＮネットワーク環境で使用される場合、コンピュータ１１０は、ネットワークインターフェースまたはネットワークアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーク環境で使用される場合、コンピュータ１１０は、典型的には、インターネットなどのＷＡＮ１７３を介する通信を確立する、モデム１７２または他の手段を含む。モデム１７２は、内蔵または外付けであり得るが、ユーザ入力インターフェース１６０または他の適正な機構を介してシステムバス１２１に接続され得る。ネットワーク化された環境では、コンピュータ１１０に関連して示されるプログラムモジュールまたはその一部を、リモートメモリストレージデバイスに格納することができる。限定ではなく例として、図５は、リモートコンピュータ１８０に存在するものとしてリモートアプリケーションプログラム１８５を示す。図示のネットワーク接続は例示的であり、コンピュータの間の通信リンクを確立する他の手段を使用できることは理解されるであろう。

図６は、別の例示の実施形態による、一般的なモバイルコンピューティング環境のブロック図を示す。この環境は、モバイルコンピューティングデバイスと、そのモバイルコンピューティングデバイスにより読み取り可能であり、モバイルコンピューティングデバイスにより実行可能な実行可能命令を含む媒体とを含む。例示の実施形態によると、図６は、モバイルデバイス２０１を含むモバイルコンピューティングシステム２００のブロック図を示す。モバイルデバイス２０１は、マイクロプロセッサ２０２、メモリ２０４、入出力（Ｉ／Ｏ）コンポーネント２０６、および、リモートコンピュータまたは他のモバイルデバイスと通信するための通信インターフェース２０８を含む。一実施形態において、上述の構成コンポーネントは通信のために適切なバス２１０を介してお互いに連結される。

メモリ２０４は、バッテリバックアップモジュール（図示せず）を有するランダムアクセスメモリ（ＲＡＭ）等の不揮発性電子メモリとして実装され、モバイルデバイス２００への総電源がシャットダウンされた場合に、メモリ２０４に格納された情報が消えないようにする。メモリ２０４の一部は、例示的には、プログラム実行用のアドレス可能メモリとして割り付けられ、メモリ２０４の他の部分は、例示的には、格納のために使用されディスクドライブ上の格納をシミュレートする。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、ならびにオブジェクトストア２１６を含む。動作中、オペレーティングシステム２１２は、例示的には、プロセッサ２０２によってメモリ２０４から実行される。オペレーティングシステム２１２は、例示の一実施形態において、本件特許出願人から市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドのオペレーティングシステムである。オペレーティングシステム２１２は、例示的には、モバイルデバイス用に設計され、一組の露出されたアプリケーションプログラミングインターフェースおよび方法を介して、アプリケーション２１４により利用されることが可能なデータベースの特性を実装する。オブジェクトストア２１６内のオブジェクトは、少なくとも部分的に、露出されたアプリケーションプログラミングインターフェースおよび方法への呼び出しに応答して、アプリケーション２１４およびオペレーティングシステム２１２により保持される。

通信インターフェース２０８は、モバイルデバイス２００が情報を送受信することを可能にする多数の装置および技術を表す。その装置には、２、３例を挙げると、有線および無線のモデム、衛星放送受信機、および、放送チューナが含まれる。モバイルデバイス２００は、また、直接コンピュータに接続され、これとデータ交換することが可能である。そのような場合、通信インターフェース２０８は、赤外線トランシーバー、またはシリアルもしくはパラレルの通信接続であり得、それらは全てストリーミング情報を転送することが可能である。

入出力コンポーネント２０６には、タッチセンサ式スクリーン、ボタン、ローラ、およびマイク等の様々な入力装置が含まれ、同様に、オーディオジェネレータ、バイブレーティングデバイス、およびディスプレイを含む様々な出力装置が含まれる。上記に挙げた装置は、例示のためのものであり、モバイルデバイス２００上に全てが存在することが必要なわけではない。加えて、他の入出力装置を、モバイルデバイス２００に取り付けるか、またはモバイルデバイス２００に見付けることができる。

モバイルコンピューティングシステム２００はまた、ネットワーク２２０を含む。モバイルコンピューティングデバイス２０１は、例示的には、例えばインターネット、広域ネットワーク、またはローカルエリアネットワークのような、ネットワーク２２０との無線通信を、通信インターフェース２０８と無線インターフェース２２２との間の適切なプロトコルの電磁信号２９９の送受信により行う。無線インターフェース２２２は、例えば無線ハブもしくは携帯電話アンテナであり得、または任意の他の信号インターフェースであり得る。無線インターフェース２２２は、例示的にコンピューティングリソース２２４および２２６で表される、多様な追加のコンピューティングリソースへの、ネットワーク２２０を介したアクセスを提供する。当然、任意の場所の任意の数のコンピューティングデバイスが、ネットワーク２２０との通信接続を行うことができる。幾つかの例示の実施形態において、コンピューティングデバイス２０１は、コンピューティングデバイス２０１が母国語でない言語校正クエリーおよび他のタスクを実行可能にする実行可能命令のような、メモリコンポーネント２０４の媒体上に格納される実行可能命令の使用が可能にされる。

本主題が、構造の特徴および／または方法論的な動作に特有の言葉で記載されたが、添付の特許請求の範囲で定義される主題は、必ずしも上述の特有の特徴または動作に限定されないことは理解されよう。むしろ、上述の特有の特徴および動作は、本主題を実現するための例示の形として開示される。特別な例として、用語「コンピュータ」、「コンピューティングデバイス」または「コンピュータシステム」は、本明細書において便宜上、時に単独で使用されることがあるが、これらのそれぞれは、任意のコンピューティングデバイス、コンピュータシステム、コンピュータ環境、モバイルデバイス、または他の情報処理コンポーネントもしくはコンテキストに言及し、任意の個々の解釈に限定されないことがよく理解されるであろう。別の特別な例として、多くの実施形態が、特許出願時には広く知られた例示の要素で提示されるが、コンピュータ技術における多くの新しい手法が、ユーザインターフェース、ユーザ入力方法、コンピュータ環境、およびコンピューティング方法等の態様において、異なる実施形態の要素に影響を及ぼすであろうこと、および、特許請求の範囲により定義される要素が、これらおよび他の革新的な進歩に従って具現化される一方で、依然として本明細書の特許請求の範囲により定義される要素に一致しかつその要素に包含されたままであろうことが想定される。

Claims

コンピュータシステムにより実行する方法であって、
テキストサンプルに品詞タグ付けるステップであって、コーパスと比較される１つまたは複数のコロケーションは、動詞−名詞コロケーション、前置詞−名詞コロケーション、形容詞−名詞コロケーション、および動詞−副詞コロケーションの少なくとも１つを含むものが前記テキストサンプルから選択されるステップと、
前記テキストサンプルからの前記１つまたは複数のコロケーションをコーパスと比較するステップであって、前記１つまたは複数のコロケーションのそれぞれを含む１つまたは複数のクエリー語を使用して、１つまたは複数のウェブ検索を実行するステップを含み、検索が実行される前記１つまたは複数のコロケーションのそれぞれに対して、前記クエリー語の１つが、前記コロケーションに一致するよう事前に選択された閾値を満たす検索結果を与えるまで、または事前に選択された閾値を満たすことなく、前記コロケーションを含む前記クエリー語の全てが使用されるまで、前記コロケーションを含む前記１つまたは複数のクエリー語のそれぞれに対して検索が実行されるステップと、
前記コロケーションが、前記コーパス内で好ましくないかどうかを特定するステップであって、前記コロケーションが前記コーパス内で見出されない場合、または、前記コロケーションが、前記コーパス内に前記コロケーションのファジーマッチが有意に存在することを示す、事前に選択された閾値一致スコアより上のスコアを取れない場合、前記コロケーションは好ましくないと特定するステップと、
前記コロケーションが好ましくないかどうかの表示を、出力装置を介して提供するステップと、
１つの前記好ましくないコロケーション内の１つの単語を置換するワイルドカードを用いて、１つまたは複数のクエリー語を作成するステップと、
前記クエリー語に対して単語コロケーションリファレンスを検索するステップと、
前記ワイルドカードを置換する候補の単語の割合が比較的高い検索結果を特定するステップと、
前記候補の単語を有する前記検索結果を、前記出力装置を介して潜在的に適切な単語コロケーションとして与えるステップと
を含むことを特徴とする方法。
前記コーパスが、ウェブ上のコンテンツを含むことを特徴とする請求項１に記載の方法。
前記コーパスが、ネットワーク上でアクセス可能なコンテンツを含むことを特徴とする請求項１に記載の方法。
検索が実行されるコロケーションのそれぞれに対して、前記コロケーションを含むクエリー語が、前記コーパス内に前記クエリー語のファジーマッチが有意に存在することを示す、事前に選択された閾値一致スコアより上のスコアを取れない場合、前記コロケーションは好ましくないことを特徴とする請求項１に記載の方法。
少なくとも１つの前記クエリー語が、前記コロケーションを含む文を含むことを特徴とする請求項１に記載の方法。
少なくとも１つの前記クエリー語が、前記コロケーションを含む要約された文を含み、前記要約された文が、前記コロケーションを含む文から付属部分を取り除くことによって形成されることを特徴とする請求項１に記載の方法。
少なくとも１つのクエリー語が、前記コロケーションを含むチャンクの対を含むことを特徴とする請求項１に記載の方法。
少なくとも１つのクエリー語が、前記コロケーションを含む単語の対を含むことを特徴とする請求項１に記載の方法。
前記テキストサンプルは、対象の言語であり、前記方法は、前記コーパスをスクリーニングして前記コロケーションを前記対象の言語で表示されるコンテンツのみと比較するステップをさらに含むことを特徴とする請求項１に記載の方法。
前記クエリー語が、１つまたは複数の文テンプレート、チャンク・テンプレート、および単語テンプレートを含み、候補の単語を含む検索結果の割合に、文テンプレートに対しては最も高く、チャンク・テンプレートに対してはそれより低く、および単語テンプレートに対しては最も低い、クエリー・テンプレートの重み付けを乗ずることにより、前記ワイルドカードを置換する候補の単語の割合が比較的高い検索の結果を評価することを特徴とする請求項１に記載の方法。
前記クエリー語が、１つまたは複数の動詞−名詞コロケーション、前置詞−名詞コロケーション、形容詞−名詞コロケーション、および動詞−副詞コロケーションを含み、前記ワイルドカードが、動詞−名詞コロケーション中の動詞、動詞−名詞コロケーション中の名詞、前置詞−名詞コロケーション中の前置詞、形容詞−名詞コロケーション中の形容詞、または動詞−副詞コロケーション中の副詞として選択されることを特徴とする請求項１に記載の方法。
ユーザが、潜在的に適切な単語コロケーションの１つを選択して、これが対応する好ましくない単語コロケーションを置換することを可能にするステップをさらに含むことを特徴とする請求項１に記載の方法。
コンピュータシステムによって実行可能な命令を記憶したコンピュータ読み取り可能記憶媒体であって、前記命令が、請求項１乃至１２のいずれかに記載の方法を前記コンピュータシステムに実行させることを特徴とするコンピュータ読み取り可能記憶媒体。
コンピュータシステムであって、前記コンピュータシステムに記憶されたコンピュータ実行可能命令が前記コンピュータシステムの処理装置によって実行されると、請求項１乃至１２のいずれかに記載の方法を実行するように構成されたことを特徴とするコンピュータシステム。