JP2000200291A - 選択された文字列をテキスト内で自動検出する方法 - Google Patents
選択された文字列をテキスト内で自動検出する方法Info
- Publication number
- JP2000200291A JP2000200291A JP11362051A JP36205199A JP2000200291A JP 2000200291 A JP2000200291 A JP 2000200291A JP 11362051 A JP11362051 A JP 11362051A JP 36205199 A JP36205199 A JP 36205199A JP 2000200291 A JP2000200291 A JP 2000200291A
- Authority
- JP
- Japan
- Prior art keywords
- string
- text
- box
- iteration
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
るための、より簡単な方法の提供。 【解決手段】 本発明の方法は、選択列のリスト12の
いずれかと一致する文字列を検出するためにテキスト1
0の自動サーチを行い、この自動サーチの処理は、各々
がテキスト内に始点を有する一連の反復を有し、この一
連の反復は、反復の始点の後に選択列のリストのいずれ
かと一致し且つ推定される列の終わりで終わる文字列が
続くか否かを決定するステップと、一連の反復のうちの
次の反復のための、推定される列の始めである始点を検
出するステップとを有する。
Description
文字列を検出する技術に関する。
ュメント内の選択された単語に対する翻訳を提供する技
術を開示している。未解読のドキュメント画像が画像ユ
ニットに区分され、画像の特徴や手でつけたマークに基
づいて、単語のような重要な(有意の)画像ユニットが
識別される。例えば、ユーザは、ドキュメント内の難し
い又は知らない単語にマークできる。次に、重要な画像
ユニットは、光学的文字認識(OCR)技術によって解
読され、解読された単語を用いて、データベース内の翻
訳にアクセスすることができる。次に、ドキュメントの
コピーが、重要な単語の反対側の余白に翻訳をつけられ
てプリントされる。
の読書装置に適用可能な技術を開示している。ユーザ
は、キーワードリストのキーワードを指定することがで
きる。次に、OCR技術等によって、ユーザが指定した
キーワードをドキュメント内で検出することができ、そ
のキーワードの周囲の領域は重要であるとして識別され
る。OCR技術を用いて重要な単語を解読でき、補足的
なデータを検索して、点字や合成音声にしてユーザに提
供することができる。
単語、複数単語表現、又は他の文字列をテキスト内で自
動的に検出する際に生じる問題を扱う。自動文字列検索
は、テキスト内における選択された文字列の存在、位
置、及び頻度に関する情報を用いる様々なアプリケーシ
ョンにおいて有用である。例えば、あるアプリケーショ
ンは、テキスト内に生じる各選択文字列と関連づけられ
た、翻訳、ハイパーテキストリンク、又は他の注釈を、
挿入してもよい。
書(general lexicon)、品詞の曖昧性除去プログラム(di
sambiguator)、及び構文解析プログラムのような、精密
な言語ツールを用いるものであったならば、このシステ
ムは、メモリ集約的及び計算集約的なものとなり、処理
が遅く、高価であろう。更に、システムがより複雑に作
られない限り、このシステムは、1つの言語及びおそら
くは用語法の1つの領域に特定されるであろう。本明細
書では、これらの問題をまとめて、“複雑さの問題(com
plexity problems)”と呼ぶ。
文字列を検出するための新技術の発見に基づいている。
この新技術は、より簡単な自動文字列検出を提供し、複
雑さの問題を緩和する。この技術は、テキストを自動的
にサーチして、選択された文字列のリストのうちのいず
れかと一致する、テキスト内の文字列を検出する。その
際に、この技術は、各々がテキスト内に始点を有する一
連の反復を行う。各反復は、その始点の後に、選択され
た文字列のいずれかと一致する文字列が続いているか否
か、及びその文字列が推定される文字列の終わり(即
ち、後述するトークンの区切りで終わる場所)で終わる
か否かを決定する。次に、その反復は、推定される文字
列の始め(即ち、後述するトークンの区切りで始まる場
所)にある次の反復の始点を検出する。
に、推定される文字列の終わりで終わる一致文字列が続
くか否かを決定する操作を行う。各反復は、次の反復の
始点として、推定される文字列の始めを検出する操作も
行う。これらの操作は、両方とも、既に利用可能又は容
易に構成可能なツールを用いて、非常に迅速に行うこと
ができる。従って、この新技術は、簡単で速い自動文字
列検索プログラムを得るために、すぐに実現可能であ
る。
するには、例えば、この新技術は、有限状態トークナイ
ザー(tokenizer)を用いるなどして、ワードセパレータ
のような推定されるトークンの区切りを検出するための
トークン化を行うことができる。単語及び複数単語表現
でいえるように、各選択列がトークンの区切りで始まる
場所及び終わる場所で、トークン化は、推定される文字
列の始めと終わりとを検出する。
を決定するために、この新技術は、選択文字列の辞書と
して、更に、有限状態変換器(FST)又は有限状態オ
ートマトン(FSA)のような有限状態データ構造を用
いることができる。有限状態データ構造は、受入れ可能
な文字列の照合後にアクセスされる受諾データを含んで
もよい。従って、受諾データは、その文字列が受入れ可
能であることを示す。FSTは、選択された文字列だけ
を受入れるレベルを有してもよく、FSAも同様に選択
された文字列だけを受入れることができる。
データ構造及びトークナイザにアクセスでき、各文字を
順次探索して照合する。文字の照合のあらゆる失敗及び
アクセスされるあらゆる受諾データに基づいて、この技
術は、始点の後に、推定される文字列の終わりで終わる
受入れ可能文字列が続くか否かを決定することができ
る。
推定される文字列の終わりで終わる場合、この新技術
は、一致文字列に関係する操作を行うか否かを決定でき
る。例えば、この新技術は、始点で始まる最長の一致文
字列だけに、そのような操作を行うことを決定できる。
は、この新技術は、FSTの文字列照合レベルに、始点
に続く文字列を与えることができる。文字列が受入れ可
能である場合は、FSTは、情報出力レベルで、その文
字列に関係する情報出力を与えることができる。例え
ば、情報出力は、受諾された文字列に注釈をつけるため
に又は受諾された文字列に関係する別の操作を行うため
に有用な情報であってもよく、又はそのような情報にア
クセスするためのアクセスデータであってもよい。
続く文字列を提供してもよい。文字列がFSAによって
受諾された場合は、この技術は、この文字列がマッピン
グされる相手方の数値を入手できる。次に、この新技術
は、相手方の数値を用いて、受諾された文字列に関係す
る情報にアクセスできる。
の注釈、関連情報にアクセスするためのハイパーリンク
又は他のハンドル(handle)、関連ドキュメントにアクセ
スするための任意の対話的な補助、又は一致文字列と関
連づけられた他の情報を入手することが挙げられる。関
連情報が注釈である場合は、操作は、注釈をテキスト中
に挿入してもよい。
テキストデータ、選択文字列のリストを定義するリスト
データ、及び、リストのいずれかと一致する文字列を検
出するためにテキストを自動サーチするために上述のよ
うに反復を行うプロセッサを含むシステムとして実施可
能である。
トデータ、及び記憶媒体アクセス装置を含むシステムに
用いるための製品としても実施可能である。この製品
は、記憶媒体並びに記憶媒体によって格納されるリスト
データ及び命令データを含んでもよい。このシステムの
プロセッサは、命令データによって示される命令を実行
する際に、上述のように反復を行う。
令データを含む転送データを、ネットワークを介して第
2の装置へと転送するための、第1の装置を操作する方
法としても実施可能である。
トークナイザー及び辞書といった、簡単で安価な言語リ
ソースを用いて実現できるので、有利である。更に、ト
ークン化は迅速な予備段階であり、辞書参照も速いの
で、この新技術は、速い操作に適している。この新技術
は、形態的な解析に依存する文字列検出技術と比べて、
特に速い。この新技術は、単に選択された単語のトーク
ナイザー及び辞書を生成することによって、用語の新た
な領域に、又は新たな言語に、容易に適応させることが
可能である。
ーチするので、対象外の文字列を検出することは稀なこ
とでも有利である。この新技術の計算的に単純な実施例
は、選択文字列の1つの発生の検出に失敗することはめ
ったにない。
れた、プリントされた、又は音声を書き表した形態で現
われる、離散的要素のことである。従って、今日の英語
における文字は、アルファベット及び数字の要素だけで
はなく、句読点、分音符、ブランク、スペース、大文字
表記、表化(タブ)及び他の形式文字、数学及び論理記
号、及び、書かれた、プリントされた、又は音声を書き
表した英語に用いられる他の要素も含む。より一般的に
は、文字は、英数字の要素に加えて、音声、表意文字、
又は絵文字の要素も含み得る。
す値を有するデータ項目である。英語によく用いられる
1バイト文字コードセットはASCIIと呼ばれるものであ
るが、他にも、西欧言語用のISO8859-1及びコードペ
ージ(Codepage)850 等のASCIIのスーパーセット、中国
語等の言語用の2バイト及び3バイト文字コード、UNIC
ODEの2バイト及び4バイトバージョン、全文字セット
の統合を試みる文字コードセットを含む、多くの文字コ
ードセットが存在する。
(単語)”、及び“セパレータ”又は“区切り”という
概念は密接に関係している。つまり、“セパレータ”又
は“区切り”(又は“ワードセパレータ”又は“ワード
(単語)区切り”)は、単語を区分する基準(“区切り
基準”)を満たす1つ以上の要素の文字列であり、一
方、“ワード(単語)”は、各々が文字又は文字の組合
わせである1つ以上の要素の文字列であって、文字列の
内部に、適用可能な区切り基準に従うセパレータを含ま
ない。仏語及び英語のような言語に適用可能な区切り基
準は、しばしば、1つ以上のスペースの列をワードセパ
レータとして扱う。正確に綴られた単語に加えて、略
語、頭字語、短縮語、綴り間違い及び無意味な単語、公
式(formula)及び方程式(equation)を含む数学及び論理
表現、区切り基準を満たさない句読記号の組み合わせ
(点線、署名の線、“スマイリー”等)、及び、意味論
的な意味があろうとなかろうと、他の様々なタイプの文
字列は、全て、適用可能な基準におけるセパレーターを
内部に含まない場合には、この定義の下では単語になり
得る。更に、ある区切り基準の下では、SGML及びX
MLのタグ、並びに、ハイパーリンクや書式等に関係す
る他のそのような文字列も、単語として扱われる。単語
は意味的な単位でなければならないという観念から、こ
の意味を区別するために、区切り基準を適用することに
よって得られた単語を、本明細書では“トークン”と呼
ぶことがあり、トークンの間の区切りを“トークンの区
切り”と呼ぶことがある。
て、テキストを複数のトークンに分けることである。
“トークナイザー”は、本明細書では、テキストのトー
クン化に用いることができるデータ構造、プログラム、
オブジェクト、又は装置を意味する。
示す。
列を自動検出するかを模式的に示すフロー図である。
示されており、その中には、 “abc”、“defg”、“hi
j”、“klmnop”、及び“qrs”という5つの単語が存在
する。各単語は、前後を、“ ”で表されているスペー
ス文字又は他のワードセパレータで括られている。図1
の簡単な例では、各ワードセパレータの直前の位置は、
推定される文字列の終わりであり、各ワードセパレータ
の直後の位置は、推定される文字列の始めである。
g hij klmnop”、及び“qrs”の4つの文字列として
示されている、選択文字列のリストである。この4つの
うちで、1番目、2番目、及び4番目は単独の単語であ
り、3番目は、2番目の選択文字列でもある単語で始ま
る複数単語表現(MWE)である。
12の選択文字列を自動検出する際に行うことができる
一連の反復を示している。1つの反復内の各反復又は二
者択一は、数値、又は数値+文字の識別子、即ち1、2、
2A、2B、3A、3B、及び3Cによって識別される。n番目の
反復は、その反復の始点(“SP-n”という形式で示
す)、少なくとも1つの一致(“M-n”)又は不一致
(“NoM-n”)決定、及び次の反復の少なくとも1つの
始点(“SP-(n+1)”)を含む。
1)を、単語“abc”に先行する1つ目のワードセパレー
タの直後に有する。たとえリスト12内に“ab”があっ
ても、テキスト10内での、その(文字列の)終わりが
推定される文字列の終わりの点ではないので、これは一
致決定を生じない。次の推定される文字列の終わりの点
は次の文字の直後であるが、 “abc”はリスト12内に
ないので、反復1は不一致決定(NoM-1)を行う。次に、
反復1は、示されるように、単語“abc”に続くワードセ
パレータの直後で、反復2の始点を検出する。
照合後の第1の、及びMWE“defg hij klmop” 照合
後の第2の、2つの一致決定(M-2A及びM-2B)を行うこ
とができ、(その単語とMWEは)それぞれ、テキスト
10内の推定される文字列の終わり、ワードセパレータ
の直前で終わる。実施例によっては、いずれの一致文字
列(“defg”及び“defg hij klmop”)も検出された
こととして扱われてよく、サーチを適切に継続してよ
い。
々が推定される文字列の始めである、3つの可能な始点
(SP-3A、SP-3B、及びSP-3C)を示している。1つ目(S
P-3A)は、反復2の始点(SP-2)から前進することによ
って検出される最初のワードセパレータの直後、又は1
つ目の一致決定(M-2A)の後であり、2つ目(SP-3B)
は、2つ目の一致決定(M-2B)から後退することによっ
て検出される最初のワードセパレータの直後であり、3
つ目(SP-3C)は、2つ目の一致決定(M-2B)から前進
することによって検出される最初のワードセパレータの
直後である。
列を選択する場合は、サーチは2つ目の一致決定(M-2
B)から続く。しかし、この実施例がどのように次の反
復の始点を検出するかによって、第3の反復は可能な始
点(SP-3A、SP-3B、及びSP-3C)のどれからでも始まり
得る。
に、1つ目の始点(SP-3A)で開始する。リスト12内
の選択された単語に“h”で始まる単語はないので、反
復3Aは不一致決定(NoM-3A)を行う。次に、反復3Aは、
示されるように、単語“hij”に続くワードセパレータ
の直後で、反復4の始点(SP-4A)を検出する。
れるように、2つ目の始点(SP-3B)で開始する。リス
ト12内の選択された単語に“k”で始まる単語はない
ので、反復3Bも不一致決定(NoM-3B)を行う。次に、反
復3Bは、示されるように、単語“klmnop”に続くワード
セパレータの直後で、反復4の始点(SP-4B)を検出す
る。
ト10内の推定される文字列の終わり、ワードセパレー
タの直前、で終わる単語“qrs”の照合後に一致決定(M
-3C)を行う。次に、反復3Cは、示されるように、単語
“qrs”に続くワードセパレータの直後で、反復4の始点
(SP-4C)を検出する。
特徴を示している。各反復はテキスト内に始点を有す
る。各反復は、その始点の後に、選択文字列のいずれか
と一致し、推定される文字列の終わりで終わる文字列が
続くか否かを決定する。各反復は、推定される文字列の
始めで、次の反復の始点を検出する。
々、ボックス50及びボックス52内の一般的な処理を
含む。ボックス50の処理は、テキスト内の反復の始点
の後に、選択文字列のリストのいずれかと一致し、推定
される文字列の終わりで終わる文字列が続くか否かを決
定する。次にボックス52の処理は、推定される文字列
の始めで、次の反復の始点を検出する。
の反復の前に、点線のボックス54で示されるように、
最初の始点を検出する付加的な処理が行われてもよく、
随意的に、ボックス50及びボックス52の後から延び
る点線で示されるように、次の反復の始点を検出して又
は検出せずに終了する最後の反復が続いてもよい。
るために接続されているとともにメモリ76のデータに
アクセスするために接続されている、プロセッサ72を
含む。プロセッサ72は、データ入力回路78を介して
データを受取るためにも接続されており、データ入力回
路78は、示されるように、メモリ80、記憶媒体アク
セス装置82、又はネットワーク84への接続から受け
取ったデータを供給することができる。従って、プロセ
ッサ72は、パーソナルコンピュータ、ワークステーシ
ョン、又はサーバの中央処理装置(CPU)、又は示さ
れるような接続を有する他の任意の処理装置であってよ
い。
きの文字コード等の、任意の適切な形態をとってよい。
テキスト74は、ユーザ入力回路(図示せず)、メモリ
76、又はデータ入力回路78を含む任意の適切なソー
スから入手されてよい。
介してデータを提供するために接続されてもよく、デー
タ出力回路86は、データ入力回路78がデータを受け
取ることができる構成要素と類似の構成要素への接続を
介して、又はディスプレイ及びプリンタ等の他の出力装
置への接続を介して、データを供給してもよい。
って供給されるデータ本体90は、選択文字列リスト9
2及び命令データ94を含む。選択文字列リスト92
は、例えば、有限状態データ構造のような、文字列のリ
ストを示すための任意の適切な構造であってよい。
行する際に、可能ならばリスト92をメモリ76にロー
ドした後、プロセッサ72は、リスト92内の選択文字
列のいずれかと一致する文字列を検出するために、テキ
スト74を自動サーチする。その際、プロセッサ72は
一連の反復を行い、その中の各反復は、その始点の後
に、推定される文字列の終わりで終わる一致文字列が続
くか否かを決定する。更に、各反復は、推定される文字
列の始めで、次の反復の始点を検出する。
78がプロセッサ72に提供するデータを取り出し得る
3つの可能なソース、即ち、メモリ80、記憶媒体アク
セス装置82、及びネットワーク84を示している。
クセスメモリ(RAM)又は読み取り専用メモリ(RO
M)を含む任意の従来のメモリ、又は任意の種類の周辺
又は遠隔記憶装置であってよい。
以上のテープ、ディスケット、又はフロッピーディスク
の組のような磁気媒体、1つ以上のCD−ROMのセッ
トのような光学媒体、又はデータを記憶するための他の
任意の適切な媒体であり得る記憶媒体96にアクセスす
るための、ドライブ又は他の適切な装置又は回路であっ
てよい。記憶媒体96は、装置70の一部、サーバ又は
他の周辺又は遠隔記憶装置の一部、又はソフトウェア製
品であってよい。これらの場合の各々において、記憶媒
体96は装置内で使用可能な1つの製品である。
ータ本体を供給できる。装置100内のプロセッサ10
2は、ネットワーク84を介してネットワーク接続回路
104、及びデータ入力回路78を通じて、プロセッサ
72との接続を確立できる。どちらのプロセッサが接続
を開始してもよく、接続は任意の適切なプロトコルで確
立されてよい。次に、プロセッサ102はメモリ106
に記憶されているデータ本体にアクセスし、ネットワー
ク84を介して、データ本体をプロセッサ72に転送で
きる。プロセッサ72は、データ本体をメモリ76又は
どこか他の場所に格納でき、次に、選択文字列のいずれ
かと一致する文字列を検出するためにテキスト74を自
動サーチするための命令を実行できる。
トと一致する文字列を検出するためにテキストを自動サ
ーチするための、様々な装置で、多くの方法で実施され
てよい。以下に述べる実施例は、C(言語の)ソースコ
ード及び他の標準プログラミング言語のソースコードか
らコンパイルされたコードを実行する、Solarisの元で
動くSunワークステーションで実施された。
ステーションの中央処理装置(CPU)122を含み、
CPU122は、画像を表示するためのディスプレイ1
24と、ユーザからの信号を供給するためのキーボード
126及びマウス128とに接続されている。CPU1
22は、メモリ130にアクセスできるようにも接続さ
れており、メモリ130は、示されるように、プログラ
ムメモリ132及びデータメモリ134を含む。
るルーチンは、幾つかの主要機能にグループ化でき、そ
のうちの2つ、即ち、辞書生成ルーチン140及びサー
チ/注釈ルーチン142が示されている。図4は、デー
タメモリ134に格納されるとともにプログラムメモリ
132内のルーチンの実行中にCPU122によってア
クセスされる、幾つかのデータ項目、即ち、選択表現1
50、辞書152、トークン化オートマトン154、入
力テキスト156、注釈つきテキスト158、及び雑デ
ータ項目160も示しており、そのうちの幾つかについ
ては後述する。
プロセッサ122は、選択表現150を受け取って格納
できる。選択表現150は、キーボード126を用いて
タイプしても、マウス128を用いてディスプレイ12
4に表示されるリストから選択しても、データメモリ1
34の中のファイル又は他の場所から取り出しても、又
は他の適切な方法で入手してもよい。次に、プロセッサ
122は、MWEと単独の単語との両方を含み得る選択
表現150を用いて、有限状態辞書152を生成でき
る。有限状態辞書152は、多くのタイプの有限状態デ
ータ構造の1つであってよく、選択表現150に含まれ
る表現だけを受け入れる。従って、有限状態辞書152
は、図3のリスト92の実施例であり、図3に示される
ように、或いは、システム120の外部のソースからデ
ータ入力回路を介して受け取られてもよい。
トン154も、システム120の外部のソースから入手
できる。トークン化オートマトン154を生成すること
は可能であり、本発明の範囲に含まれるが、これまでに
作られている実施例は、他の目的のために生成された、
従来の有限状態オートマトントークナイザーを用いる。
米国特許第5,721,939号等に、FSAトークナイザーを
生成し、用いるための、様々な技術が述べられている。
従って、プロセッサ122は、図3に関係して上述され
たように、データ入力回路からトークン化オートマトン
154を受け取ってもよく、それをデータメモリ134
に格納してもよい。
ト156を独立して入手及び格納できる。或いは、プロ
セッサ122は、データメモリ134に1つのバッファ
(の容量)を越える文字コードを格納せずに、入力テキ
スト156をリアルタイムで受け取って、サーチ及び注
釈づけを行ってもよい。
に、プロセッサ122は、入力テキスト156、有限状
態辞書152、及びトークン化オートマトン154を用
いて、選択表現150のいずれかと一致する、入力テキ
スト156内の文字列を自動サーチできる。従って、サ
ーチ/注釈ルーチン142は、図2のボックス50及び
ボックス52の処理を実施するとともに、図3の命令9
4の実施例である。
注釈ルーチン142は、一致文字列に関係する操作を行
うか否かの決定もする。詳細には、ルーチン142は、
入力テキスト156に、一致文字列と関連する注釈を挿
入することによる、注釈づけを行うか否かを決定する。
注釈は、辞書152内でアクセスされた情報、雑データ
項目160内でアクセスされた情報、又は他の場所から
入手された情報を含んでよい。従って、ルーチン142
は、注釈つきテキスト156を生成し、注釈つきテキス
ト156を、ディスプレイ124に表示するなどして、
出力として供給することができる。
0から、多くの異なる方法で有限状態辞書152を生成
し得る。後述する、辞書の2つの広いカテゴリーは、有
限状態変換器(FST)及び有限状態オートマトン(F
SA)であり、どちらも有限状態データ構造の例であ
る。
Conference on Computational Lingistics、Coling 94
(1994年、日本の京都で開催)講演集の406頁から411頁
の、カルツネン(Karttunen, L.)の“字句変換器の構成
(Constructing Lexical Transducers)”に記載されてい
るような技術を用いて、2レベルFSTを生成してもよ
い。FSTの一方のレベルは全ての選択表現150を受
け入れてもよく、他方のレベルは複数の異なる種類の任
意の出力を供給し得る。例えば、選択表現150は、表
現の表面形態を含んでもよく、FSTの出力レベルは、
各表現の基本形態を、品詞などの辞書特性に関する情報
と共に与えてもよい。又は、出力レベルは、各選択表現
に、翻訳、URL、又は関連情報にアクセスするための
他のハンドル等のような注釈を与えてもよい。又は、出
力レベルは、注釈又は他の関連情報へのアクセスに用い
るための索引を与えてもよい。
5,754,847号に記載されているような、単語/数値マッピ
ングを行うのに用いることができるFSA(W/N FS
A)を生成してもよい。W/N FSAは、任意の選択表
現150でアクセスされた際に、その表現に固有の数値
を与えてもよい。次に、この数値を用いて、注釈等の関
連情報にアクセスできる。W/N FSAは、全ての選択
表現を受け入れてもよく、又は、後述するように、表現
の基本形態を入手するFSTと組み合わせて用いられる
場合は、基本形態だけを受け入れてもよい。
つの実施例でプロセッサ122が行い得る全般的な処理
を示している。この実施例では、各反復は、まず、文字
列と辞書152との照合を試み、照合に失敗した場合
は、トークナイザー154を用いて次の反復の始点を検
出する。この実施例では、辞書152は決定的であるこ
ととし、各状態が、各文字に対して、最大で1つの出力
変換(outgoing transition)を有する。
56又は入力テキスト156へのアクセスに用いること
ができるハンドルを受け取ることで開始し、これは、サ
ーチ/注釈ルーチン142に対する呼出しの一部であっ
てもよい。ボックス200の処理は、入力テキスト15
6内の、例えば最初の文字のような適切な位置で(処理
を)開始するために、始点の初期化も行う。
スト156の各文字について行われる反復ループを開始
する。以下の説明から理解できるように、文字レベル反
復は、各々が入力テキスト156内に始点を有する列レ
ベル反復にグループ化できる。幾つかの列レベル反復
は、入力テキスト156からの文字列が辞書152内の
選択表現の1つと一致することを決定し、一方、他の列
レベル反復は、文字列が選択表現のどれとも一致しない
ことを決定する。
入力テキスト156の次の文字を得ることによって開始
する。次に、ボックス210の処理は、ボックス204
で得た文字を用いて、辞書152にアクセスする。文字
が、列レベル反復の最初の文字である場合は、ボックス
210の処理は、その文字と辞書152の開始状態の出
力変換との照合を試みる。文字が、列レベル反復におい
て続きの文字である場合は、ボックス210の処理は、
その文字と、前の文字レベル反復から生じた辞書152
のカレント(現在の)状態の出力変換との照合を試み
る。
字の照合に成功した場合は、ボックス212の処理は、
雑データ項目160内のデータのスタック及び他の項目
を、後で使用するために更新する。辞書152がFST
である場合は、最後の列レベル反復が完了したので、ス
タックはFSTの入力文字列及び出力文字列の両方を保
持できる。辞書152がW/N FSAである場合は、最
後の列レベル反復が完了したので、スタックはFSAへ
の入力文字列を保持できるとともに、マッピングのため
に文字列の終わりのカウントも保持できる。
が受け入れ可能であるか否か、つまり選択表現150の
1つであるか否かを決定するとともに、入力テキスト1
56内で、その後に推定される文字列の終わりが続くか
否かを決定する。カレント文字列が受け入れ可能である
か否かを決定するために、ボックス214の処理は、ボ
ックス210で照合変換をとることによって達した状態
が、その状態と関連づけられた受諾データによって示す
ことができるように、受け入れ可能文字列に続くことが
できる状態になったか否かを決定してもよい。カレント
文字列の後に推定される文字列の終わりが続くか否かを
決定するために、ボックス214の処理はトークナイザ
ー154を用いてもよいが、しかしそれは他の技術ほど
効率的ではないかもしれない。例えば、辞書152は、
受け入れ可能文字列を終わらせる各状態の後に、入力テ
キスト156の、スペース又は句読点のような推定され
る文字列の終わりにあたる、次の文字をチェックできる
分岐を含んでもよい。又は、そのような状態に達した後
で、雑データ項目160内の特化されたデータ構造にア
クセスして、入力テキスト156内のトークンの区切り
又は他の推定される文字列の終わりをチェックしてもよ
い。
ない場合、又はその後に推定される文字列の終わりが続
かない場合は、カレント文字レベル反復は完了され、ボ
ックス202で、次の文字レベル反復が開始する。
の後に推定される文字列の終わりが続く場合は、カレン
ト文字列は注釈に適切であり得るので、ボックス216
の処理はカレント文字列を保存する。ボックス216の
処理は、入力テキスト156内におけるカレント文字列
の終わりの位置のような他の関連データも保存してもよ
い。次に、ボックス202で、次の文字レベル反復が開
始する。
が入力テキスト156内の文字の照合に失敗するまで、
上述のように続く。つまり、一致する文字列の終わりに
達したならば、列レベル反復を完了してよい。
で文字列が保存されたか否かに基づいて分岐する。そう
である(即ち、保存された)場合は、カレント列レベル
反復の始点の後に、選択表現150の1つと一致する少
なくとも1つの文字列が続き、そのうちの最長の文字列
は、最後に保存された文字列である。従って、ボックス
222の処理は、適切である場合には注釈をつけ、入力
テキスト156内のカレント位置を保存された文字列の
終わりに戻す。
ス222内の処理は、例えば、出力文字列、又は出力文
字列のデータを用いてアクセスされる注釈から、直接注
釈を挿入することを含んでもよい。辞書152がW/N
FSAである場合は、ボックス222の処理は、保存さ
れた文字列がマッピングされた数値を用いてアクセスさ
れる注釈を挿入することを含んでもよい。いずれの場合
も、注釈は、入力テキスト内の保存された文字列の後に
続くか、又は他の適切な方法で、保存された文字列と関
連づけられてよい。実際には、保存された文字列を注釈
で置換してもよい。
るか否かを決定するための基準の適用も含んでよい。例
えば、FST出力又はW/N FSTからの数値が注釈を
含まない場合は、基準は、注釈が不適切であると決定し
てもよい。他の基準としては、同じ文字列が前に注釈を
つけられたか否か等に基づいてもよい。
単数のような異なる表面形態を含む場合は、問題が生じ
得る。異なる表面形態は、異なる索引を有することがで
きるが、同じ注釈を有することはできない。従って、表
面形態の索引を、どうにかして、注釈にアクセスするた
めの同じ索引に変換する必要があろう。
書152は、単語及びMWEの表面形態である選択表現
を受け取って、それに対する基本形態又は見出し語を品
詞と共に与える、見出し語分類(lemmatizing)FSTで
あってもよい。従って、注釈をつけるか否かの決定は、
部分的に品詞に依存してもよい。この変形例では、雑デ
ータ項目160は、辞書152によって与えられた各見
出し語を数値にマッピングする、単語/数値マッピング
FSAを含むことができる。その数値を用いて、任意の
対応する表面形態の注釈にアクセスすることができる。
ボックス216において保存された文字列は、照合され
た選択表現の1つの基本形態を示すことができる。従っ
て、ボックス222の処理は、基本形態を用いて選択表
現の注釈にアクセスすることができる。
がない場合は、カレント列レベル反復の始点の後には一
致文字列が続いていない。ボックス224の処理は、単
に、カレント位置をカレント列レベル反復の始点に戻
す。
は、トークナイザー154を用いて、入力テキスト15
6内のカレント位置の後ろの、次の推定される文字列の
始めを検出し、次の列レベル反復の始点をその位置に更
新する。最後に、各列レベル反復が終わる前に、ボック
ス228の処理は、例えば、辞書152及びトークナイ
ザー154の開始状態に戻り、もしあれば、スタック及
びマッピングカウントをクリアする等のような、次の列
レベル反復に備えるために必要な任意の操作を行う。
が処理されたら、ボックス230の処理は、この時点で
ボックス222で挿入された任意の注釈を含む注釈つき
テキスト158を戻す。次に、注釈つきテキスト158
を、任意の適切な方法でディスプレイ124に表示でき
る。例えば、各選択表現を、他の単語とは異なる色で表
示するようにして強調表示でき、強調表示された表現を
選択するユーザからの信号に応答して表示されるHTM
Lページを含むHTMLファイルにリンクできる。基本
形態を入手し、それを用いて注釈への数値の索引を得る
変形例では、表示は、更に、テキスト内に生じる選択表
現のリスト、各表現の基本形態、及びHTMLファイル
へのアクセスに用いられた基本形態の数値の索引も含む
ことが可能である。各基本形態のHTMLページは、従
来の技術を用いて、基本形態に関係する画像又は他の注
釈から自動的に生成でき、基本形態に注釈がついていな
い場合は、空白ページ又は適切なエラーメッセージを有
するページとすることができる。
の実施例でプロセッサ122が行い得る全般的な処理を
示す。この実施例では、外側の反復ループがトークン化
を行い、その後、内側の反復ループがトークンの文字列
と辞書152との照合を試みる。照合に失敗した場合
は、前の始点の後の次のトークンの区切りを次の始点と
して用いる。この実施例でも、辞書152は決定的であ
ることとし、各文字について各状態は最大で1つの出力
変換を有する。
56又は入力テキスト156へのアクセスに用いること
ができるハンドルを受け取ることで開始し、これは、サ
ーチ/注釈ルーチン142に対する呼出しの一部であっ
てもよい。ボックス250の処理は、入力テキスト15
6内の、例えば最初の文字のような適切な位置で開始す
るために、始点の初期化も行う。
化を行う外側の反復ループを開始する。以下の説明から
理解できるように、外側の反復は、各々が入力テキスト
156内に始点を有する列レベル反復にグループ化でき
る。幾つかの列レベル反復は、入力テキスト156から
の文字列が辞書152内の選択表現の1つと一致するこ
とを決定し、一方、他の列レベル反復は、文字列が選択
表現のどれとも一致しないことを決定する。
キスト156の次の文字からトークン化することにより
開始する。ボックス254の処理がトークンの区切りに
達すると、次に、検出されたトークンが、ボックス26
0で開始する一連の内側反復での更なる処理のために、
得られる。
文字を得、次に、ボックス270の処理は、ボックス2
62で得た文字を用いて辞書152にアクセスする。ボ
ックス270の処理は、その文字と辞書152のカレン
ト状態の出力変換との照合を試み、ちょうど新しい列レ
ベル反復が開始するところであれば、それが開始状態に
なるが、そうでない場合は、前の変換から生じたカレン
ト状態になる。
字の照合に成功する場合は、ボックス272の処理は、
図5のボックス212と同様に、後で用いるために、雑
データ項目160内のデータのスタック及び他の項目を
更新する。
がトークンの終わりにあるか否かを決定する。そうでな
い場合は、カレント内側反復は完了され、ボックス26
0で次の内側反復が開始する。
レント内側反復はカレント外側反復の最後でもある。ボ
ックス252で次の外側反復を開始する前に、ボックス
276の処理は、カレント文字列が受け入れ可能である
か否か、つまり、選択表現150の1つであるか否かを
決定する。カレント文字列が受け入れ可能であるか否か
を決定するために、ボックス276の処理は、ボックス
270で照合変換を得ることによって達した状態が、そ
の状態と関連づけられた受諾データによって示すことが
できる、受け入れ可能文字列に続くことができる状態に
なったか否かを決定してもよい。
ークンの終わりにある場合は、カレント文字列は注釈に
適切であり得るので、ボックス278の処理は、カレン
ト文字列を保存する。ボックス278の処理は、他の関
連データも保存してよい。次に、トークンの終わりに達
したので、ボックス252で次の外側反復が開始する。
処理が入力テキスト156内の文字の照合に失敗するま
で、上述のように続く。つまり、おそらくは1つを越え
るトークンを有する文字列である、一致する文字列の終
わりに達したので、列レベル反復を完了することができ
る。
で文字列が保存されたか否かに基づいて分岐する。そう
である場合は、カレント列レベル反復の始点の後に、選
択表現150の1つと一致する少なくとも1つの文字列
が続き、そのうちの最長の文字列は、最後に保存された
文字列である。従って、ボックス282の処理は、図5
のボックス222に関連して上述したように、適切であ
る場合には注釈をつける。いずれの場合にも、ボックス
284の処理は、次の列レベル反復の始点を、カレント
始点の後の、ボックス254で検出された、最初のトー
クンの区切りに設定する。ボックス284の処理も、例
えば、辞書152及びトークナイザー154の開始状態
に戻り、もしあれば、スタック及びマッピングカウント
をクリアする等のような、次の列レベル反復に備えるた
めに必要な任意の操作を行うことができる。
が処理されたら、ボックス290の処理は、図5のボッ
クス230と同様に、注釈つきテキスト158を戻す。
“辞書優先サーチ”及び“トークナイザー優先サーチ”
と呼ばれる2つの別々の手法に従うが、これらは本発明
の実施に用いられ得る広いクラスの技術の2つの例にす
ぎない。これらの例では、トークナイザーを用いるよう
な推定される文字列の終わりのサーチ、及び、辞書を用
いるような照合サーチは、一致するとともに推定される
文字列の終わりで終わる文字列を検出するようにして、
一緒に行われる。上述した特定の技術は、更に、推定さ
れる文字列の終わりで終わる最長一致文字列を検出する
が、本発明は、多くの他の技術を用いて実施されてもよ
く、最長一致文字列をサーチする必要はない。
ストのいずれかと一致するか否かを決定するために、F
ST(“専用字句変換器”と呼んでもよい)のような有
限状態辞書及びW/N FSAを用いる。詳細には、上述
の実施例は、決定的有限状態辞書を用いる。しかしなが
ら、本発明は、文字列が他の方法で一致するか否かを決
定するように実施されてもよく、適切な後方追跡(backt
racking)技術を用いて、非決定的有限状態辞書を用いて
もよい。上述の実施例は正確な一致を必要とするが、本
発明は、より弱い照合基準を用いて実施されてもよい。
が行われる装置と同じ装置で生成することができるが、
選択文字列のリストを定義する辞書又は他のリソース
は、異なる場所で又は異なる時に用意されてもよく、任
意の適切な方法で、サーチを行っている装置に供給され
てもよい。更に、上述のサーチは、サーチ要求を受信す
る装置で行われるのではなく、クライアント/サーバプ
ロトコルを介するなどして、入力されたテキストに応答
して、遠隔で行われてもよい。
るために、簡単な通常表現で定義された予め存在するト
ークン化オートマトンを用いるが、本発明は、トークン
の区切り以外の特徴を検出する有限状態データ構造にア
クセスすることによって、特別に生成されたトークン化
オートマトンにアクセスすることによって、又は適切な
アルゴリズムを適用することによって、照合に用いられ
る有限状態辞書の付加的な変換及び状態を追跡するよう
な他の方法で、始点を検出するように実施されてもよ
い。更に、上述の実施例は、次の反復の始点を検出する
ために、前の反復の始点から前進するが、次の反復の始
点は、上述の図1に幾つか示されているカレント位置又
は他の位置で始まるように検出されてもよく、前進では
なく後退することによって検出されてもよい。
トンを構成することは可能かもしれないが、時間及び空
間の問題を生じるであろう。従って、コンパクトで速度
の速いものにするためには、トークナイザー及び辞書を
別々に用いるのが有利なようである。
択表現及び一致文字列を含み、推定される文字列の始め
と終わりとを検出するトークン化オートマトン及び他の
様々な技術を用いて、推定される単語の始めと終わりと
を検出する。MWEは、例えば、日付、相互参照、又は
公知の単語のシーケンス又は特定のパターンの数値を有
する他の表現を含んでもよい。しかしながら、本発明
は、単語及びMWEに限定されるものではなく、文字列
が一致する文又はSGMLやXMLのタグのような他の
タイプの選択表現のサーチに適用されてもよい。また、
推定される文字列の始め及び終わりは、照合される文字
列及び選択表現のタイプに適した任意の方法で検出され
てよい。
入手されてよく、例えば、技術表現のリスト、ある会社
又は所与の領域の特殊な表現のリスト、固有名詞のリス
ト、科学的な参照又は引用、又は他のドキュメントとの
相互参照、又は、ロゴにリンクするための又はフォント
を変更するための適切な登録名のような、ハイパーリン
クを設定されそうな参照のリスト、法律用語のような定
義された用語のリスト、“see”のような相互参照の一
部として出現しそうな単語のリスト、法的な警告のよう
な特殊なテキストの表現のリスト、又は他の任意のその
ようなリストであってよい。
キストに注釈をつけるが、例えば、各一致文字列をその
翻訳又は更新されたバージョンと置換すること、一致す
る文字列が検出されるロケーション又はドキュメントの
識別子を保存すること、及び各一致文字列を強調表示す
ることを含む、一致する文字列に関係する他の様々な操
作を行ってもよい。他の操作の例の幾つかは、本発明の
適用例に関係して後述される。
な方法で挿入されてよく、注釈自体も、例えば、(形態
構文的又は意味的情報を与えるタグがある又はない)翻
訳、定義、領域識別子、ハイパーリンク、又は対話的な
補助や、ヘルプスクリーン、画像、図、指示、オンライ
ンマルチメディアドキュメント等のような関連情報への
アクセスを提供するための他のデータ項目を含む、広い
範囲の様々な形態をとってよい。所与の1つの表現に対
して1つを越える注釈が与えられてもよい。注釈をつけ
るか否かの決定は、例えば、隣接する単語、タイトルの
ようなドキュメント内での位置、又は、SGMLタグに
よって示される強調表示のような表示方法等のような基
準に基づいて、自動的に行うことができる。注釈をつけ
るか否かの決定を、自動的に行わずに、ユーザに可能な
選択肢を表示し、ユーザが選択した選択肢を示す信号を
受け取ることによって、対話的に行ってもよい。
語の注釈を入手したが、本発明は、仏語及び英語以外
の、推定される文字列の始まり及び終わりが検出可能な
他の言語にも適用できる。
略されても、又は異なる方法で行われてもよい。例え
ば、データは、スタックではなくデータ構造に保存され
てもよい。
くの場合に修正されてよい。例えば、上述のように先に
トークン化を行ったり、先に辞書検索を行ったりするの
ではなく、文字列の各文字を同時に用いて有限状態辞書
内及びトークン化オートマトン内の変換を行ってもよ
い。
注釈づけを行うように適用できる。
(1つ以上の言語への)翻訳、定義へのポインタ、ヘル
プスクリーン、絵、又は任意の関連マルチメディアドキ
ュメントのような、特別な情報の注釈をつける、オンラ
インアプリケーションを提供してもよい。注釈は、WW
Wアプリケーションのハイパーリンクであってもよく、
又は技術マニュアル等のオンラインドキュメントを調べ
るため、ユーザに技術用語の翻訳を提供するため、又は
指示、図等、或いはそれらの組み合わせにアクセスする
ための、対話的補助であってもよい。
キュメントは、FSTの1つのレベルによって認識され
るキーワードによって索引でき、FSTは出力として、
ネットワークを介して送られるドキュメントを含む、索
引されたドキュメントへのポインタを与えてもよい。
あるが、それでもやはり非母国語話者にとっては(内容
の)把握が困難かもしれないので、技術用語の翻訳は有
用なアプリケーションである。技術用語の翻訳を提供す
るアプリケーションは、多言語の用語法データベースか
ら用意された有限状態辞書を用いることができる。プロ
トタイプ(試作品)では、既に存在する、様々な領域か
らの数千語を収録したバイリンガルの用語法データベー
スを用いて、複数のFSTを生成した。そのうちのどれ
を反転して対の言語のFSTを生成してもよい。
うな、より一般的な複数単語表現に拡張されてもよく、
翻訳システムへの有用な予備ステップとしての役割を果
たすことができよう。
WEの両方を含む1組の選択表現セットを用いて、各表
現を基本形態にマッピングするFSTを生成した。各基
本形態には索引が与えられ、各基本形態をその索引にマ
ッピングするためのマッピングデータ構造も生成され
た。適切な索引を用いて、基本形態に関係する画像にア
クセスできるようにした。注釈は、画像へのハイパーテ
キストリンクを与えた。
を行うことができ、プリント前に注釈を追加できる、デ
ジタルコピー機に適用されてもよい。
riter)に適用されてもよい。
チャ(Xerox Linguistic Development Architecture: Xe
LDA)のような開発環境に適用されてもよい。
列を検出するために、どのようにテキストを自動サーチ
するかを示す模式的なフロー図である。
列を検出するための、テキストの自動サーチの全般的な
処理を示すフロー図である。
成要素を示す模式的な図である。
式的な図である。
けの、1つの方法を示すフロー図である。
けの、別の方法を示すフロー図である。
Claims (1)
- 【請求項1】 選択された文字列をテキスト内で自動検
出する方法であって、 (A)選択列のリストのいずれかと一致する文字列を検出
するためにテキストの自動サーチを行い、 前記自動サーチの処理は、各々がテキスト内に始点を有
する一連の反復を有する、選択された文字列をテキスト
内で自動検出する方法であって、 前記一連の反復は、 (A1)反復の始点の後に、前記選択列のリストのいずれか
と一致し、且つ推定される列の終わりで終わる文字列が
続くか否かを決定するステップと、 (A2) 前記一連の反復において、次の反復のために、推
定される列の始めである始点を検出するステップと、 を有する、一連の反復である、 選択された文字列をテキスト内で自動検出する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/222,549 US6269189B1 (en) | 1998-12-29 | 1998-12-29 | Finding selected character strings in text and providing information relating to the selected character strings |
US222549 | 1998-12-29 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2000200291A true JP2000200291A (ja) | 2000-07-18 |
JP2000200291A5 JP2000200291A5 (ja) | 2007-05-10 |
JP4544674B2 JP4544674B2 (ja) | 2010-09-15 |
Family
ID=22832668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP36205199A Expired - Fee Related JP4544674B2 (ja) | 1998-12-29 | 1999-12-21 | 選択文字列に関連する情報を提供するシステム |
Country Status (2)
Country | Link |
---|---|
US (1) | US6269189B1 (ja) |
JP (1) | JP4544674B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226362A (zh) * | 2023-05-06 | 2023-06-06 | 湖南德雅曼达科技有限公司 | 一种提升搜索医院名称准确度的分词方法 |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
DE19725790A1 (de) * | 1997-06-18 | 1998-12-24 | Fischer Gmbh Gert | Verfahren zum selektiven Erfassen und Auslesen einer Zeichenkette |
US7143350B2 (en) * | 1999-06-30 | 2006-11-28 | Microsoft Corporation | Method and system for character sequence checking according to a selected language |
US6341306B1 (en) * | 1999-08-13 | 2002-01-22 | Atomica Corporation | Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm |
US6626960B1 (en) * | 1999-09-01 | 2003-09-30 | International Business Machines Corporation | Method, system, and program for generating a table to determine boundaries between characters |
US7127500B1 (en) * | 1999-11-10 | 2006-10-24 | Oclc Online Computer Library Center, Inc. | Retrieval of digital objects by redirection of controlled vocabulary searches |
CN1302030B (zh) * | 1999-12-24 | 2010-04-21 | 纽昂斯通讯公司 | 词义消歧的机器翻译方法和*** |
US7092871B2 (en) * | 2000-07-20 | 2006-08-15 | Microsoft Corporation | Tokenizer for a natural language processing system |
US6748123B1 (en) * | 2000-08-30 | 2004-06-08 | International Business Machines Corporation | Displaying multi-line fields for key-in |
US7328211B2 (en) * | 2000-09-21 | 2008-02-05 | Jpmorgan Chase Bank, N.A. | System and methods for improved linguistic pattern matching |
KR20010025567A (ko) * | 2001-01-06 | 2001-04-06 | 정용석 | 로고 도메인을 이용한 인터넷 사이트 접속방법 |
US7024624B2 (en) * | 2002-01-07 | 2006-04-04 | Kenneth James Hintz | Lexicon-based new idea detector |
US7103749B2 (en) * | 2002-02-01 | 2006-09-05 | John Fairweather | System and method for managing memory |
US7451143B2 (en) * | 2002-08-28 | 2008-11-11 | Cisco Technology, Inc. | Programmable rule processing apparatus for conducting high speed contextual searches and characterizations of patterns in data |
US7596553B2 (en) * | 2002-10-11 | 2009-09-29 | Avaya Inc. | String matching using data bit masks |
US7464254B2 (en) * | 2003-01-09 | 2008-12-09 | Cisco Technology, Inc. | Programmable processor apparatus integrating dedicated search registers and dedicated state machine registers with associated execution hardware to support rapid application of rulesets to data |
US8255417B2 (en) * | 2003-05-20 | 2012-08-28 | Google Inc. | System and method for providing definitions |
AU2003300437A1 (en) | 2003-12-30 | 2005-08-03 | Google Inc. | Methods and systems for text segmentation |
US8799401B1 (en) * | 2004-07-08 | 2014-08-05 | Amazon Technologies, Inc. | System and method for providing supplemental information relevant to selected content in media |
US7299407B2 (en) * | 2004-08-24 | 2007-11-20 | International Business Machines Corporation | Marking and annotating electronic documents |
US7680648B2 (en) * | 2004-09-30 | 2010-03-16 | Google Inc. | Methods and systems for improving text segmentation |
US8051096B1 (en) | 2004-09-30 | 2011-11-01 | Google Inc. | Methods and systems for augmenting a token lexicon |
US7996208B2 (en) | 2004-09-30 | 2011-08-09 | Google Inc. | Methods and systems for selecting a language for text segmentation |
JP2006277103A (ja) * | 2005-03-28 | 2006-10-12 | Fuji Xerox Co Ltd | 文書翻訳方法および文書翻訳装置 |
US8428358B2 (en) * | 2005-05-31 | 2013-04-23 | Microsoft Corporation | Radical-base classification of East Asian handwriting |
US7987087B2 (en) * | 2005-06-15 | 2011-07-26 | Xerox Corporation | Method and system for improved software localization |
US7706520B1 (en) * | 2005-11-08 | 2010-04-27 | Liveops, Inc. | System and method for facilitating transcription of audio recordings, with auditing |
US7849399B2 (en) * | 2007-06-29 | 2010-12-07 | Walter Hoffmann | Method and system for tracking authorship of content in data |
US8666729B1 (en) * | 2010-02-10 | 2014-03-04 | West Corporation | Processing natural language grammar |
US8463053B1 (en) | 2008-08-08 | 2013-06-11 | The Research Foundation Of State University Of New York | Enhanced max margin learning on multimodal data mining in a multimedia database |
US8374873B2 (en) * | 2008-08-12 | 2013-02-12 | Morphism, Llc | Training and applying prosody models |
US8180164B2 (en) * | 2008-12-16 | 2012-05-15 | Xerox Corporation | OCR-guided text tokenization of digital images |
BRPI0922481A2 (pt) | 2008-12-19 | 2018-06-05 | Fiber Composites Llc | compósitos madeira-plásticos utilizando capstocks de ionômero e métodos de fabricação |
US20130159919A1 (en) * | 2011-12-19 | 2013-06-20 | Gabriel Leydon | Systems and Methods for Identifying and Suggesting Emoticons |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US8996353B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996355B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for reviewing histories of text messages from multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US8990068B2 (en) | 2013-02-08 | 2015-03-24 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
EP2858323A1 (en) * | 2013-10-01 | 2015-04-08 | Enyx SA | A method and a device for decoding data streams in reconfigurable platforms |
US9128930B2 (en) * | 2013-10-31 | 2015-09-08 | Tencent Technology (Shenzhen) Company Limited | Method, device and system for providing language service |
JP6403417B2 (ja) * | 2014-04-23 | 2018-10-10 | 株式会社キーエンス | 携帯型光学式読取装置、該携帯型光学式読取装置を用いる光学式読取方法、及びコンピュータプログラム |
US9043196B1 (en) * | 2014-07-07 | 2015-05-26 | Machine Zone, Inc. | Systems and methods for identifying and suggesting emoticons |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
US10339923B2 (en) | 2016-09-09 | 2019-07-02 | International Business Machines Corporation | Ranking based on speech pattern detection |
JP6737117B2 (ja) * | 2016-10-07 | 2020-08-05 | 富士通株式会社 | 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 |
US10572760B1 (en) * | 2017-11-13 | 2020-02-25 | Amazon Technologies, Inc. | Image text localization |
CN110020140B (zh) * | 2017-11-15 | 2023-02-21 | 腾讯科技(深圳)有限公司 | 推荐内容显示方法、装置及*** |
US11636100B2 (en) | 2020-11-27 | 2023-04-25 | Verizon Patent And Licensing Inc. | Systems and methods for compression-based search engine |
US20220284190A1 (en) * | 2021-03-02 | 2022-09-08 | Microsoft Technology Licensing, Llc | Tokenizing alphanumeric text through use of finite state machines |
CN113609352B (zh) * | 2021-08-03 | 2023-08-04 | 北京恒安嘉新安全技术有限公司 | 字符串检索方法、装置、计算机设备及存储介质 |
CN116306526B (zh) * | 2023-03-10 | 2024-01-02 | 北京麦克斯泰科技有限公司 | 一种根据文本下标标记对应富文本的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02504439A (ja) * | 1988-05-27 | 1990-12-13 | コダック・リミテッド | データ処理システムにおける文書操作 |
US5377281A (en) * | 1992-03-18 | 1994-12-27 | At&T Corp. | Knowledge-based character recognition |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US5488719A (en) * | 1991-12-30 | 1996-01-30 | Xerox Corporation | System for categorizing character strings using acceptability and category information contained in ending substrings |
JP2000514214A (ja) * | 1996-04-23 | 2000-10-24 | ロゴヴィスタ株式会社 | 自動自然言語翻訳 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2945692B2 (ja) | 1988-05-27 | 1999-09-06 | コダック・リミテッド | 注釈可能なイメージを処理するデータ処理システム |
CA2078423C (en) | 1991-11-19 | 1997-01-14 | Per-Kristian Halvorsen | Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information |
US6073097A (en) * | 1992-11-13 | 2000-06-06 | Dragon Systems, Inc. | Speech recognition system which selects one of a plurality of vocabulary models |
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
US5721939A (en) | 1995-08-03 | 1998-02-24 | Xerox Corporation | Method and apparatus for tokenizing text |
JP2001503540A (ja) | 1996-06-14 | 2001-03-13 | ロゴヴィスタ株式会社 | アノテートされたテキストの自動翻訳 |
JPH1078963A (ja) | 1996-08-01 | 1998-03-24 | Hewlett Packard Co <Hp> | 文書注記方法 |
-
1998
- 1998-12-29 US US09/222,549 patent/US6269189B1/en not_active Expired - Lifetime
-
1999
- 1999-12-21 JP JP36205199A patent/JP4544674B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02504439A (ja) * | 1988-05-27 | 1990-12-13 | コダック・リミテッド | データ処理システムにおける文書操作 |
US5488719A (en) * | 1991-12-30 | 1996-01-30 | Xerox Corporation | System for categorizing character strings using acceptability and category information contained in ending substrings |
US5377281A (en) * | 1992-03-18 | 1994-12-27 | At&T Corp. | Knowledge-based character recognition |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
JP2000514214A (ja) * | 1996-04-23 | 2000-10-24 | ロゴヴィスタ株式会社 | 自動自然言語翻訳 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116226362A (zh) * | 2023-05-06 | 2023-06-06 | 湖南德雅曼达科技有限公司 | 一种提升搜索医院名称准确度的分词方法 |
CN116226362B (zh) * | 2023-05-06 | 2023-07-18 | 湖南德雅曼达科技有限公司 | 一种提升搜索医院名称准确度的分词方法 |
Also Published As
Publication number | Publication date |
---|---|
US6269189B1 (en) | 2001-07-31 |
JP4544674B2 (ja) | 2010-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4544674B2 (ja) | 選択文字列に関連する情報を提供するシステム | |
US6393389B1 (en) | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions | |
US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
JP3220560B2 (ja) | 機械翻訳装置 | |
JP3300866B2 (ja) | テキスト処理システムにより使用されるテキストを準備する方法及び装置 | |
US7243305B2 (en) | Spelling and grammar checking system | |
US5680628A (en) | Method and apparatus for automated search and retrieval process | |
US8060357B2 (en) | Linguistic user interface | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
WO2001084376A2 (en) | System for answering natural language questions | |
US20070011160A1 (en) | Literacy automation software | |
EP0813160B1 (en) | Apparatus for and method of accessing a database | |
JP2815714B2 (ja) | 翻訳装置 | |
KR100404320B1 (ko) | 문장 자동 색인 방법 | |
JP3949874B2 (ja) | 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム | |
JP3696765B2 (ja) | 辞書作成装置、辞書作成方法、辞書作成プログラムを記録したコンピュータで読取可能な記録媒体および翻訳装置 | |
Takeda et al. | CRITAC—An experimental system for Japanese text proofreading | |
JPH04330565A (ja) | 自然言語処理システム | |
JPH07141381A (ja) | 電子辞書表示装置 | |
JPH0232467A (ja) | 機械翻訳方式 | |
JP2752025B2 (ja) | 機械翻訳装置 | |
JPH0973454A (ja) | 文書作成装置及び文書作成方法 | |
JP2839419B2 (ja) | イディオム登録機能を持つ機械翻訳装置 | |
Bol'shakov | Automatic error correction in inflected languages | |
JPH06187329A (ja) | 自然言語処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100113 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100601 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100629 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130709 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |