TW501029B

TW501029B - A method of retrieving data and data retrieving apparatus

Info

Publication number: TW501029B
Application number: TW089114457A
Authority: TW
Inventors: Yasuki Iizuka; Tomoko Fujita; Chuichi Kikuchi
Original assignee: Matsushita Electric Ind Co Ltd
Priority date: 1999-07-19
Filing date: 2000-07-19
Publication date: 2002-09-01
Also published as: US6546401B1; KR20010015368A; JP2001034623A; KR100451978B1; JP3636941B2; CN1281191A

Description

501029 經濟部智慧財產局員工消費合作社印製作 A7 五、發明說明（l ) 旦本發明係有關於在實施利用電子計算機之機械翻譯或大！文書檢索、正文（Text)自動摘要等之自然語言處理系統之前處理.解析部中，用t士丄用以執仃情報（資訊）檢索之方法及其衣置，特別X，不會遺漏檢索，且可減少檢索雜訊者。所謂全文檢索系統，係從蓄存之正文資料中，檢索利用者所減之文字列者。為了實現全文檢索，有各種方法，但代表性的有，如長尾真他著、「言語情報處理(語言資訊處理）」岩波書店（1998)p.72〜77中所言及，以下之二種。其中之-，係從正文資料製作單語索引，且由單語索引’檢索利用者所指定之文字列（檢索語）者；另外，係從正文貧料製作文字列索引，且由文字列索引，檢索檢索語之方式。製作單语索引之方式，係用以製作出現在正文中，全部之索引。如日語之膠著語之場合，因單語之境界不清楚，叙係使用子典，進行構詞分析（m〇rph〇l^ical &⑽丨》,sk)，將正文分割成單語單位後，製作其全部之單語之索引。例如，對「東京都品川區」之正文，可製成例如：「東京」、「東京都」、「品川」、「品川區」之4種索引。檢索時’當指定「東京」或「品川區」之檢索語的場合，可以上述指定之方式檢索索引；或，指定「東京都品川區」之複合語時，可利用構詞分析，分解檢索語，且對各語，進行檢索。如此，可利用文章中之任意的單語，進行檢索。又，為減少單語索引之量，有採用包含某單箏之較長單語私紙張尺度適用中國國家標準 -----J---^---------I---訂-------•線 (請先閱讀背面之注意事項再填寫本頁) 4 B7 五、發明說明（2 / 為索引之方式。在上例中，因「東京，故僅以「東亨都冼力表果不」有闕分割成單心ΠΓ寺開平·4118公_ 式，除構同分析外，亦有利用統計手 ==中渡合白/ 規化解之構詞境界特幻情報處理會自然言語處理研究會U3-3(1996)等）。另外用以製作文宇列索引之方式，係用以製作對正文中之全部的連續N文字于、又子之索引（n-gram index)者。N大多使用2。例如，餅「垂丄于東不都品川區」之正文，製作2 組之索引時，可f成厂「文子「，成東不」、「京都」、「都品」、「品川」、川區」，5種索引。利用圖式，更詳細說明用以製作文字列索引之方式的例。第22圖係表示f玄方丨& 飞勺表下文子列索引之製作過程的圖。明①實施丨i、」之正々」弋正文，可製成由「本發」、「發明 ①」、「Φ實丨、r杏浐 Γ 月 Μ也」、施（i」、「、」之2文字所構成之7種文字列之舍u 口、叮稱成索引’且分別寫入文書號碼及出現文字之位置（文字位置）。斟入〜直）對全部之文書，製作此種索引，且文字列分類記憶該等索引。 a檢索時’例如’檢索「本發明」，則對於「本發」、「 :」之2種文字列’進行索引之檢索，可判定發現之索引，是否為連續出現者。用以衣作文子列索弓1之方式，具有不必進行構詞分析之特徵。 …、而，使用早語索弓1之方式，在製作索引時，必需將頁訂列依線經濟部智慧財產局員工消費合作社印製發

本紙張尺度義巾_ ^:標準（eNs)A4 —- (210x297 公釐） A7 B7 五、發明說明（經濟部智慧財產局員工消費合作社印製 :文分割成單語’其分割之精度，即，不正確分料語 R精度。亦析，分割正文時，分析^ 檢索之虞。使用構詞分 …般而言’語言通常是流動性的，二:而單語’故必須經常更新構詞分㈣字典。〜新的又，依對象之文書不同，當變更對象文堂日士使亦會不同，象文曰蚪，必須調整字典。亦即，料庫、或經濟專用資料庫，字典之調整即不^ j且，不論如何注意，準備字典，在構詞分析中，月匕否二可能會遭遇未知語，即未記載於字典之單語，由未兵-之出現’會大幅降低構詞分析之精度。 •皆於此右抓用由統計手法所產生之單語分割，表面上雖不會有未知語之問題，但單語分割精度並不能達到 1⑽％，殘留有同樣之問題。進而在構5司分析中，為提高其精度，亦有採取依肩於文脈之分析，彳曰士絲、— 仁此種獲雜之處理，會將長文中所出句子與短文中所出現之句子，分解成不同之單語列。另外’使用文字列索引之方式，因不需單語分割里上.iC不會產生遺漏檢索。然❻，例如，以「京都索時，正文中之「東京都」之部份，亦會被檢出等，含希望外之結果（―般稱為檢·訊)。對於此種問題’在特開平10-307835號公報中具有單語索引與文字索引者，依場合而區分之方式，右採取此種構造，則會加大檢索索引。又，若以減少資不於 (請先閱讀背面之注意事項再填寫本頁) 現之而揭但訂------|!線| 本紙張尺度細家標準(CNS)A4規格（210 x 297公爱） 6 五 B7 發明說明（4 ) 之模式檢索，則會產生遣 §ιί^. ^ 遢漏檢索，若要不產生遺漏檢f , 則雜訊會增多，本質上， '解決問題°即使’同時檢索花費:Γ 增長檢索時間，對於結果之合成，亦需 I祕為知技術之課題，其目的在供一種情報檢索方法及實 .、挺任 έ及貝轭該方法之裝置，該方法融合單 0口索引方式與文字歹舍索引方式，藉此，可防止遺漏檢索，且可降低檢索雜訊。 Μ 、於此II用本發明之情報檢索方法，將檢索對象正文，分：成單語單位，從分割成單語單位之正文，製作具有不：语之區切的單語資訊’文字數為Ν之具有單語資訊文子歹J索引’攸遠具有單語資訊之文字列索引，利用文字列檢索或單語檢索、或文字列檢索及單語檢索，檢索檢索表訂位又，在本發明之情報檢索裝置，設置·· 杈索對象貝料記憶單元’用以記憶檢索對象正文，· 正文分割單元，用以將檢索對象正文，分割成單語單正文單居分剔正文記憶單元，用以儲存分割成單語單位之具有單語資訊之文字列索引製作單元，用以從分割成單語單位之正文，製作具有表示單語之區切的單語資訊，文字數為N之具有單語資訊之文字列索引；具有單語資訊之文字列索引記憶單元，用以記憶製成本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 501029 A7 五、發明說明（5 ) 部智慧員工消費印之具有單語資訊之文字列索引；及，具有單語資訊之文字列索引檢索單元，係利用具有單語資訊之文字列索引，執行檢索語之文字列檢索或單語2 索、或文字列檢索與單語檢索。 ° 因此’在-個裝置中，利用-個索引，可執行單語檢索及文字列檢索，且可防止遺漏檢索，並可減低檢索雜訊: 〔發明之實施形態〕本發明之申請專利範圍第丨項所記載之發明，係在以全文檢索正文資料之情報檢索方法中，將檢索對象正文’分割成單語單位；從分割成單語單位之正文，製作具有表示單語之區切的單語資訊，文字數為Ν之具有單二訊=文字列索引；從該具有單語資訊之文字列索引，= 文子列檢索或單語檢索、或文字列檢索與單語檢索，檢索檢索語者’利用一個具有單語資訊之文字列索引，可執行 =索與文字繼’且可防止遺漏檢索，並可減低檢 :請專利範圍第2項所記載之發明，係對象正文之單語之前，付與單語始端記號，付與單語終端記號，早。之後輩……… 索對象正文’分割成單語 t卢及t以早語單位之正文，製作具有表示單語始端及早语終端記號之單語資訊，文字數為N之具有單，五貧訊之文字列索引者，八有早- 少檢索雜訊。㈣別早语之始端與終端，可減申請專利_3項所記載之發明，係在具有單語資請用正資丨本紙張—用

五、發明說明（6 ) 说之文字列索引，對於第1文字，當在該文字之前，有單邊始端€號之場合’具有表示該情事之單語資訊，·當在該文=之後，有單語終端記號之場合，具有表示該情事之單浯貝訊’對於第2文字以後，當僅在該文字之後，有單語 =端記號之場合，具有表示該情事之單語資訊者，因減少弟2文字以後之始端資訊’在不影響檢索速度下，可縮小索引又，因在第1文字具有始端資訊及終端資訊，故亦可對應僅1文字之檢索語之檢索。申請專利範圍第4項所記載之發明，係從具有單語資 Λ之文字列索引，配合用以發現檢索語之單語的單語檢索，及用以發現檢索語之文字列的文字列檢索，執行檢索者，對於各檢索語’可同時執行：用以發現該單語之單語檢索；及將單語視為文字列之文字列檢索。〜申請專利範圍第5項所記載之發明，係將檢索語之文字歹】刀剎成文字數Ν之部份檢索文字列，從該具有單語貧訊之文字列索引，檢索與各部份檢索文字列一致之文字列：當檢索出之各文字列’在檢索對象正文上，具有連續哇枯，則判斷該檢索語之文字列，為被檢索出者；當檢索 /、I 3 4檢索語之最初文字的部份檢索文字列、或包含該 ¥索浯之最後文字的部份檢索文字列一致之文字列的場合，在判斷材料中，加入該最初之文字前或該最後之文字後的單語資訊，判斷一致性，藉此，檢索檢索語之單語者，可同時執行單語檢索與文字列檢索。申清專利範圍第6項所記載之發明，係利用單語檢 Μ--------^------— (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製

501029 A7 濟部智慧局員工消費合作社印製五、發明說明（7 ) 從具有單語資訊之文字列索引，檢索：與檢索語之單語完全-致之單語；與檢索語之單語完全一致及前方一致之單語；錢索語之單語完全一致及後方一致之單語；與檢索 -之單僅則方-致之單語；或’與檢索語之單語僅後方 -致之單語者，選擇最初文字前之單語資訊或最後文字後之單語資訊，作為-致性之判斷材料，藉此，可形成各種之單語檢索。申請專利範圍第7項所記載之發明，係從分割成單語早位之該正文，刪除不要語之前後的單語資訊，製作且有早語資訊之文字列索引者，在單語檢索中，不會單獨檢不要語部份，可減少檢索雜訊。申請專利範圍第8項所記載之發明，係從分割成單早位，檢索對象正文，刪除不要語之前的單語始端記號及不要語之後的單語終端記號，且從分割成該單語單位之正文’ ^作具有單語資訊之文字列索引者，可製作去除不语之喊的單語f訊之具有單語資訊之文字列索引。 =專利範圍第9項所記載之發明，係選擇不能單獨 ^為仏索對象語之單語’作為不要語者，可減少單語檢索日守之檢索雜訊。 .、申請專利範圍第1〇項所記載之發明，係根據單狂之 ^^決^不要語者，W助詞、助動詞 '感動詞等，作為不要§吾。申請專利範圍第η項所記載之發明，係選擇由平假名 -文子或平假名二文字所構成之罩語，作為不要語者索語及要線品可張尺度適財關家標準（CNS):規格⑽χ挪公髮- 五、發明說明（8) 減少檢索雜訊。 …職固弟12項所記載之發明，係根據輸至檢旁對象正文資料巾之單語Μ現解，蚊料不要語之写語者，可有效地減少檢索雜訊。項所㈣之發明，係從具有單語^ 訊之文字财引，檢索與包含檢索語之最初文字的部份相索文字列或包含檢索語之最後文字的部份檢索文字列一穷之文字列的場合’在判斷材料中’加入表示最初文字之甫 1 單語始Γ己號之單語資訊或表示最後文字之後的單語约知。己號之早而判斷_致性；當檢索與其他之部伤檢索文字列—致之文字列的場合，在判斷材料中，不加Λ 卜吾育訊者’亦可單語檢索，如「繪0具」之挾有不要語「0」之單語。經濟部智慧財產局員工消費合作社印製 π申：專利範圍第Μ項所記載之發明，係從分割成單語之h索對象正文’去除接頭辭之後的單語終端記號及妾尾辭之前的單語始端記號，且從分割成該單語單位之正文：製作具有單語資訊之文字列索引者，不會單獨檢索接 :辭或接尾辭’作為單語’可減少檢索雜訊…益論在是否付有接頭辭或接尾辭，均可檢索，故可防止遺漏檢索。申請相制第15項所記載之發明，係㈣單語之品 :接=作為接頭辭及接尾辭之語者，可—律決定接頭辭申請專利範_16項耽狀”.，㈣為接尾辭之 x 297公釐）本紙張尺度義準（CNS)A4規格（2i 501029

I 五、發明說明（9) π係根據在榀索對象貧料中，該語出現於數字之後的頻率决疋者出現於數值之後的語，數值之單位的可能性較高。申請專利範圍第17項所記載之發明，係根據檢索語之檢索結果，將對檢索對象正文之檢索語的適合度數值化，且根據獲得之數值，對各檢索對象正文付與順序，並依該順序排列提示各檢索對象正文者，對使用者而言，可從必要之檢索結果，開始察看。申請專利範18項所記載之發明，係配合用以發現檢索語之單語的單語檢索，及用以發現單語之文字列的文字列檢索，從檢索對象正文，執行各檢索語之檢索，並將該雙方之檢索結果，付與加權並分別數值化者，適當地評價兩方之檢索結果’藉此，可以有效地閱覽檢索結果，並可防止遺漏檢索之發生。申請專利範圍第項所記載之發明，係對利用單語檢索之檢索結果，付與比利用文字列檢索之檢索結果，較大之加權’並作數值化處理，使利用單語檢索發現檢索語之檢索對象正文’比僅利用文字列檢索發現檢索語之文字之檢索對象正文’付與較上位之順序者，可付與順序，有效閱覽檢索結果。、申請專利範圍㈣項所記載之發明，料㈣單語檢索’從檢索對象正文’檢索與檢索語之單語完全一致之語、前方-致之單語或後方_致之單語時的檢索結果，別付與不同之加權，並作數值化處理者，可付與順序，列以單分以本紙張尺度適財國國家標準（CNS)A4規格(210 X 297公楚一發明說明（10 ) 有效閱覽檢索結果。 =專㈣圍第21項所記載之發明，係對利用單語檢 c结果’付與不同之加權’並作數值化處理，使檢索r在與檢索語之單語完全一致之單語、前方一致之單後方-致之單語之間’指定順位時，對發現第丨順立之早語的檢索對象正文’付與最上位之順序：對發現第 2順位之單㈣檢索縣正文，付與其次之财；對僅發現第3順位之單語的檢索對象正文，付與再其次之順序者，可付與順序，以有效閱覽檢索結果。申請專利範㈣22項所記載之發明，料各種檢索結果，付與不同之加權，並作數值化處理，使在發現第】順位之早语的檢索對象正文之間’依第〗順位之單語的檢索數較多之順序，付與順序；在發現第2順位之單語的檢索對象正文之間，依第2順位之單語的檢索數較多之順序，付與順序：在僅發現第3順位之單語的檢索對象正文之間，依第3順位之單語的檢索數較多之順序，付與順序；且，在僅利用文字列檢索發現檢索語之文字列的檢索對象正文之間’依該文字列之檢索數較多之順序，付與順序者，可付與順序，以有㈣覽檢索、结果，又，為防止遺漏檢索，故可留下檢索之適合度較低之檢索結果。申請專利範圍第23項所記載之發明，係根據：利用單語檢索檢索出之，與檢索語之單語完全一致之單語、前方 -致之單語、或後方一致之單語的檢索數，與利用文字列檢索檢索出之檢索語之文字列的檢索數之比，估計檢索對發明說明（11 ) 象正文之單語分割文之順序者，當對度下降。之精度，並使該精度反映於檢索對象正正文付與順料，可修正單語分割之精語之項所記載之發明，係洲多數檢索二結合’付與檢索語之場合，對各檢索語之檢索結仃數值化’亚整合該等結果，對檢索縣正文付 ^順序者’在由多數之檢索語之邏輯結合所構成之檢索式的場合’可付與順序’以有效閱覽檢索結果。申請專利範圍第25項所記載之發明，係用以全文檢索正文貧料之情報檢索裝置中，包含·· 檢索對象資料記憶單元，用以記憶檢索對象正文；位.正文㈣單元’用以將檢索對象正文，分割成單語單單。。刀正文屺憶單元，用以儲存分割成單語單位之正文；八有單資讯之文字列索引製作單元，用以從分割成單-單位之正文’製作具有表示單語之區切的單語資訊，文字數為N之具有單語資訊之文字列索引；一有單貝讯之文字列索引記憶單元，用以記憶製成之具有單語資訊之文字列索引；及，具有單語資訊之文字列索引檢索單元，係利用具有單 -貝。fl之文字列索引，執行檢索語之文字列檢索或單語檢索、或文子列與單語之檢索者，以_個裝置，實現單語檢索與文字列檢索，可防止遺漏檢索，且可減低檢索。 501029 五、發明說明（η) 圍弟26項所記載之發明，係正元，利用在包含於檢索料正文之單語之前，料單^ 端記號，在單語之後，付與。。正文，八宝〜· 。己號’而將檢索對象制作」\…’且’具有單語資訊之文字列索引 -乍早一“!成單語單位之正文，製成具有住 :端:己號及單語終端記號之單語資訊，文字數為N之二早语貝讯之文字列索引者，藉由區別單語之始端與終端，可減少單語檢索之檢索雜訊。申請專利範㈣27項所記载之發明，係具有單語資訊單元’作為單語資訊’係對具有單語資 :之文字列索引之第1文字，在該文字之前，具有單語始 ^己號之場合，設有心表㈣情事之單語資訊，且在該 ^子之後’具有單語終端記號之場合，設有用以表示該情事之單語資訊；對於第2文字以後，僅在該文字之後，1 有單語終端記號之場合，設有心表示該情事之單語資訊、口減v第2文字以後之始端資訊，不會影響檢索速度，了縮小索引’且在第！文字具有始端資訊及終端資訊，藉此，可執行1文字之檢索語的單語檢索。經濟部智慧財產局員工消費合作社印製申請專觀®㈣項所記載n係具有單語資訊之文字列索引檢索單元’利用具有單語資訊之文字列索引:配合：用以發現檢索語之單語的單語檢索，及用以發現=索#之文字㈣文字列檢索，執行財者，對於各檢索可同日τ執行用以發現該單語之單語檢索及將單語視為文字列之文字列檢索。本紙張尺度適用中國國家標準（CNS)A4規格⑽χ挪公愛） 501029 語字文之 A7 五、發明說明（13 ) 利耙圍弟29項所記載之發明之文字列索引檢索單元，從、有早。。貝。fl 索，將檢索語之文；、有早5。資訊之文字列索引檢

==檢索文字列-致之文字列，當檢索出之I 文上’具有連續性時，判斷檢索之文子列為被檢索出者，當檢索與包含檢索語之最初= 列或包含檢索語之最後文字的部份檢索子列時’在判斷材料中，加入該最初文字前或最後文字之後的單語資訊，而判斷一致性，藉此，索檢索，吾之早語者，可同時執行單語檢索與文字列檢索申請專利範圍第3〇钱記狀發明，係具有單語資訊之文字列索引檢索單元，利用單語檢索，檢索：與檢索語之早語完全一致之單語、與檢索語之單語完全-致及前方 :致之單語、與檢索語之單語完全—致及後方一致之單語、與檢索語之單語僅前方一致之單語、或與檢索語之單 =僅後方-致之I語者，選擇最初文字之前的單語資訊或最後文字之後的單語資訊’作為一致性之判斷材料，藉此，可執行各種單語檢索。申請專利範圍第31項所記載之發明，設有：不要語區切刪除果元，係用以刪除，付於分割成單語單位之正文的單語始端記號及單語終端記號之中，不能單獨成為檢索對象^之不要a吾之兩後的單語始端記號及單語終端記號者，在單語檢索中，可以不單獨檢索不要語部份，且可減少檢索雜訊。 ^紙張尺度適用中國國家標準（CNS)A4規格（21G X 297公釐— -----^------------I -------- (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 501029 五、發明說明（Η) 申請專利範圍第32項對於包含在檢索對象正文之單 ^ ’正文分割單元，可對象語之單語，不分割成單_者:=:=為檢索以不單獨檢索 ““索中’ 由咬奎” &且可減少檢索雜訊。申明專利範圍第33項所切刪除單元，俜用卜 x明’設有··接辭語區單語始端記號及單語炊端卞节夕士 &早°°早位之正文的端記號及接尾辭之、接頭辭之後的單語終接毛辭之刚的早語始端記號者頭辭或接尾辭作為單語，可減 :早㈣索接 ^疋否付有接雌或接絲，均可單語料，故可防止运漏檢索。申請專利範圍第34項之發明，正文分割單元，對於包含在檢索對象正文之接頭辭，僅付與單語始端記號，對於接尾辭1付與單語終端記號者，不需刪除接辭語區切。申請專利範圍第3 5項之發明，設有·· 檢索結果數值化單元，係用以由檢索之適合度，將檢索結果作數值化處理；及，經濟部智慧財產局員工消費合作社印製檢索結果順序化單元，係根據檢索結果數值化單元付與各檢索對象正文之檢索結果的數值，付與各檢索對象正文之順序’ 使用者可依需要之順序，有效地觀察檢索結果。申請專利範圍第36項所記載之發明，檢索結果數值化單元，對於利用單語檢索之檢索結果，付與較利用文字列檢索之檢索結果大的加權，並做數值化處理，使利用單語 17 本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） A7 經濟部智慧財產局員工消費合作社印製五、發明說明（I5 ) 檢㈣現檢索語之檢索對象正文，較㈣敎字列檢索發現檢索語之文字列的檢索對象正文，位於較上位之順序’ 檢索結果順序化單元，可對正文付與順序，供使用從而要之檢索結果，依序觀察。一申請專利範圍第37項所記載之發明，檢索結果數值化 L疋’對於制單語檢索，從檢索對象正文，檢出：與檢 ,、語之單語完全一致之單語、前方一致之單語、或後方一致之早語時之檢索結果，分別付與不同之加權，並做數值化處理，因此，檢索結果順序化單元，可對正文付鱼順序，供使用者從需要之檢索結果，依序觀察。、、 …申請專利範㈣38項所記狀發明，檢索結果數值化早凡，對於利用單語檢索之檢索結果，付與不同之加權，並做數值化處理，檢索時，當在與檢索語之單往完全一之單語'前方一致之單語'及後方一致之單語之間，指〜順位時，對發現第】順位之單語的檢索對象正文，付與最上位之順序；對發現第2順位之單語的檢索對象正文，與其次之触；對僅發現第3順位之單語的檢㈣象正文. 付與再其次之順位，因此，檢索結果順序化單元，可對正文付與順序’供使用者從需要之檢索結果，依序觀察。一申請專㈣圍㈣項所記載之發明，檢索結果數值化早疋，對各種檢索結果，付與不同之加權，並作數值化處理，使在發現第1順位之單語的檢索對象正文之間，依順位之單語的檢索數較多之順序，付與順序；在發現W 順位之單語的檢索對象正文之間，依第2順位之單語的檢致定付第1 第2

’ I----- ! t*!--· I (請先閱讀背面之注意事項再填寫本頁) 五、發明說明（l6 ) :數較多之順序，付與順序；在僅發現第3順位< 平㈣檢索對象正文之間，依第3順位之單語的檢索數較多之沖序付與順序，因此，檢索結果順序化單元，可對正文利 ”頃序供使用者從需要之檢索結果，依序觀察。又，為方止m漏才双索，對於檢索之適合度較低之檢索結果，亦付與較下位之順序，可供觀察。申凊專利Ιέ®第40項所記載之發明，檢索結果順序化早凡，根據··利用單語檢索財出之，與㈣語之單語完全-致之單語、前方_致之單語、錢方_致之單語的檢索數，與利用文字列檢索檢索出之檢索語之文字列的檢索數之比’估計檢索對象正文之單語分割之精度，並使該精度反映於檢索對象正文之順序，當對正文付與順序時，可修正單語分割之精度降低。以下，利用圖式說明本發明之實施形態。 (第1實施形態）經濟部智慧財產局員工消費合作社印製如第1圖所不，第丨實施形態之情報檢索裝置，包含：檢索對象資料記憶單元101，係用以儲存檢索對象之正文貝料，正文分割單元丨02，係用以將檢索對象之正文資料，分割成單語；單語分割正文記憶單元103，係用以保存分割成單語單位之正文資料；具有單語資訊之文字列索引製作單元104，係以分割成單語單位之正文為基礎，製作具有單語資訊之文字列索引；具有單語資訊之文字列索引記本紙張尺度適用中國國定德進ίΓΓΝΚ、Δ/ί iB 44，01Λ u 501029 A7 等則石馬五、發明說明憶單元H)W系用以記憶製成之索引；及，具有單語資吼之文字列索引檢索單元106，係利用具有單語立：列索引，進行檢索。子該情報檢索裝置，利用電腦所構成。檢索對象資料記 W卜單語分割正文記憶單元1〇3、及，具有單語資说之文字列索引記憶單it 1G5，可利用電腦之記憶裝硬碟裝置實現。其他之單元，可由電狀料機構構成: 该實施形態之檢索對象為文書，儲存於檢索對象資料記憶單元1G1 °每—文書’分別附與檢索對象文書號碼之號碼，並儲存。當給予檢索對象文字列（檢索條们，包含该文字列之文書號碼，或文書中之位置’或文書號與文書中之位置，利用檢索而特定。利用具有單語資訊之文字列索引製作單元104所製成之具有單語資訊之文字列索m含單語分割點資訊之文字列索引。文字列索引’係集合檢索對象資料中之全部的長度N之文字列的索引，係'習知料全文檢索使用者。具有單語資訊之文字列索引’基本上係作成文字列索引之形式者’但於其各文字之前後’附加有用以表示單語之分割點的單語資訊者。文字列索引之長度N，可取！以上之整數值’但在以下之說明中，係以N=2之場合為例，詳細說明。有關如上構成之全文檢索裝置，茲說明其動作。利用第2圖，表示全體之流程。全體之流程，可大略分成資料之登錄處理與檢索處理。資料之登錄處理，可分成：正文 — · .—----^---------^ (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製

五、發明說明（π) 之單語分割處理（步驟2〇1);及，索引製作處理（步驟202)。首先，說明資料登錄處理。 _第2圖之步驟201之正文分割處理，係利用正文分割單凡102 ’將儲存於檢索對象資料記憶單元1G1之全部檢索对象資料，分割成單語單位，並良存於單語分割正文記憶單凡103之處理。分割可採用構詞分析、或由統計性手法所產生之單語分財。單語分財法，並無特別限定。利用正文分割處理，可將如第3圖之3〇1的正文，分^ ^如第3圖之3〇2。於此，為方便計，使用單語分割記號^ 貫際上，在正文中，亦有可能出？見記號Τ，故在正文中， :要含有記號，V.·’㈣正文中，含人不出現之特殊文字杈式，或以適於分割之資料形成式表現。第2圖之步驟202之索引製作處理，係利用具有單任資訊之文字列索引製作單元104 ,從儲存於單語分割正文亏己憶單元1〇3之全部資料，製作具有單語資訊之文字列索引，且儲存於具有單語資訊之文字列索引記憶單元1〇5之處理對於全部之文書’返覆進行步驟2〇ι與步驟加。利用第3圖’以索引之文字列長Ν=2之場合以例，說明該具有單語資訊之文字列索引。如第3圖之3〇2所示，從分割之正文，取出長度2之全部的文字列，則可取出：「本發」、「發明」、「明①」、「❼實」、「實施」、「施以」、「丨汰、」. 之7種。以各該文字列’製作索引。在索引中，如習知之方式（第22圖），分別記錄：文字列、文書號碼、文字位置，此外，亦附加有關該文字列接於何種單語境界之資 501029 工五、發明說明（l9 本紙張尺度適用巧國家標準(CNS)A4規格(2£ A7 B7 訊是否接於單語之境界的單語資訊，包含：之前，具有單語境界（單語區切）；在第—文字與第二文^ 之間’具有單語境界；在第二文字之後，具有單，之資訊’如何具有該單語資訊，依實現方法而異。舉· 言，在第4圖中，利用以0或1表現之旗標的形式，保有言! 三種資訊。「本發」之場合，如Γ/本/發」，在第一文字「本之f，及，在第一文字「本」與第二文字「發」之：，具有早吾i兄界，在第二文字之後，無單語境界，故旗標為「110」。如此，在以旗標表示單語資訊之場合，於表現資訊時，僅需1位元，故可縮小索引。如此衣成之索引，以文字列作為關鍵字分類，且利用散列（Hash)化表管理，並以僅給第一文字、或第一文字第 :文字’即可檢索之形式，預先儲存於具有單語資訊之文字列索引記憶單元105。其次’說明第2圖之檢索處理(步驟2〇3)。於第5圖表示檢索處理之詳細流程。具有單語資訊之文字列索引檢索單元1〇6，可實現·· U)中間一致：不辯識單語境界之習知的文字列全文檢索功能； (2)單語檢索：辯識單語境界之全文檢索功能，之二種類的檢索方法。在單語檢索中，可以有以下5種檢索方法，即，檢索完全一致之單語的場令之「完全一致」； x 297公釐）

J . MW------— It--------- (請先閱讀背面之注意事項再填寫本頁) 501029

五、發明說明（2〇) 經濟部智慧財產局員 X 消費合作社印製組合檢索完全—致之單語及前方-致之單語的場合之「包含完全-致之前方-纟」；組合檢索完全一致之單語及後方-致之單語的場合之「包含完全—致之後.方—致」：檢索不包含完全-致之單語僅前方一致之單語的場合之「不包含完全-致之前方一致」；及，檢索不包含完全一致之單語僅後方-致之單語的場合之「以含致之金方一致」。百先’說明完全-致之場合的檢索方法。步驟5G1 ·以索引之文字列的長度（在例令為2) ’從前面開始分割檢索文字列’並記憶各文字列從最初之文字起，從第幾文字開始。分解後之檢索文字列，稱為部份檢索文字列。例如，將檢索文字列「全文檢索裝置」，分割成「全文」、「檢索、「駐要 -從 . 、 = '、衣置」二種之部份檢索文字列，分別成為從最初之文字故g 〇# 人子起弟（h虎、弟2號、第4號。此時，以 N不能切割檢索文字列之場合，可分割成部份重疊，且以部份檢索文字列之集合_定要能含蓋原來之全部檢索文字列之方式，取出N文字之組，，「檢索文字列」之單語，可分割成「檢索」、「文字」、「字列」，並分別為第〇號、第2號、第3號。此時，亦可分解成「檢索」、「索文」、「字列」，但，最好是盡可能分割成較小之探索空間。步驟502 :對於利用步驟5〇1取出之全部的部份檢索文字列’檢索具有單語資訊之文字列索引，且取出該當之文字列有關k大里之索引檢索目的語之方法，可以使用既知之方法。當取出該該當之文字列時，換索文字列為 m I本紙張尺度適用中_家標準χ 297公爱

----------- — (請先閱讀背面之注意事項再填寫本頁) 訂· •線 501029 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明（21 ) 之全文牙双索裝置」之場合，對田、才方；其取初之部份檢索文< 列「全文」，參照索引之第—文 … _ 又子為早浯之開始的旗標，旗標不成立者，即為不該杏。π 本—「哀田同時，對於其最後之部份抬索文字列「裝置」，參照索引之楚 ^ ^ 系5丨之弟二文字是否為單語之奸束的旗標，旗標不成立者，即為不該當。對於其他之部份檢索文字列（於此例，為文字列「檢索」），僅發現文字之一致’即不調查旗標。步驟5〇3:對於如此取出之索引，調查索引之檢索對象文書號碼與文書中之文字列的位置，以評價連續性。檢索文字列為「全文檢索裝置」之場合，「全文」、「檢索」、 :裝置」為相同文書號碼，文字列「全文」之出現位置為弟X文字時，文字列「檢索」之出現位置為第文字、文子列「裝置」之出現位置為第χ+4文字之場合，即判斷該文書中含有「全文檢索裝置」之單語。以上係完全一致之場合的檢索方法，對於前方一致等之檢索，可利用第6圖所示表之方式，進行步驟5〇2之索引與部份檢索文字列之照合處理，而實現。完全一致係檢索文字列之第一文字為單語之開始，而才双索文子列之隶後文子為單語之結束。此可在部份檢索文子列與索引之照合時’利用索引之旗標確認。 ^包含完全一致之前方一致，係確認僅檢索文字列之第一文字為單語之開始。包含完全一致之後方一致，係確認僅檢索文字列之最後的文字為單語之結束。本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）

iw I n I *1 I I I - I I I f請先閱讀背面之注意亊項再填寫本頁) -—ms 訂---------線- 501029

五、發明說明（22 工不包含凡全一致之丽方一致，係確認檢索文字列之第文字為單語之開始，而檢索文字列之最後的文字不為單語之結束。不包含7L全一致之後方一致，係確認檢索文字列之第 -文子不為單語之開始，而檢索文字列之最後的文字為單 S吾之結束。中間致，係然視單語之開始或結束，而作照合之作。中間一致，因不辯識單語之境界，與習知之全文檢索一樣，可檢索任意之文字列。藉由如此之照合處理，可減低檢索雜訊。又，於此敘述了長檢索文字列之例，但於檢索文字列為一文字，或一文字之場合，利用上述索引構造，亦可支應各種檢索要求。如上述，在本實施形態之情報檢索裝置，正文分割單元102將檢索對象資料分割成單語；然後，具有單語資訊之文字列索引製作單元104，製作具有單語之開始與結束之資訊的文字列索引之具有單語資訊之文字列索引；具有單語資訊之文字列索引檢索單元1〇6，檢索該索引；藉此，利用一個裝置可實現單語檢索及全文檢索。利用個裝置貫現單語檢索及全文檢索，故可適時靈活使用檢索方式，選擇降低檢索雜訊之完全一致檢索（單語檢索），且因不會遺漏檢索，故可選擇中間一致檢索，此外’可適時選擇前方一致或後方一致。 -------------裝 — II 訂·！ ·線 rtt先閱磧背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製

經濟部智慧財產局員工消費合作社印製

501029 五、發明說明（23) 進而’因基本hx全文檢索作為基礎，故即使檢索戈字列為複合語之場合，亦不需將檢索文字列分割成單語。

因此，在索引製作時及檢索時，不會發生變更分割基準，而檢索失敗之問題。 J 又單扣“素與全文檢索，使用一個索引，故與分別使用索引之方式相比，可減少索引量，因此，可縮小探索空間，而增大其實用效果。 (第2實施形態）第2實施形態之情報檢索裝置，刪除位於索引之文字歹j的不要扣之月ij後的單語區切，藉此，降低單語檢索之檢索雜訊。如第7圖所示’該裝置包含：不要語區切刪除單元ι〇7 , 係用以從正文分割單元102所分割之文字列，刪除不要語之雨後的單語區切。其他之構造，與第】實施形態⑻圖）無異。該不要語區切刪除單元107，由電腦之計算機構所構成。以下說明該全文檢索裝置之動作。第8圖表示全體之流程。全體之流程，可大略分為資料之登錄處理與檢索處理。資料之登錄處理，可分為：正文之單語分割處理（步驟801);不要語區切刪除處理（步驟8〇2);索引製作處理（步驟803)。第8圖之步驟8〇1(正文分割處理），與第！實施形態之步驟201之正文分割處理一樣，正文分割單元ι〇2分割正文’但分—割之正文並非單純地區切成單語，而係以明示單本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐）

26 501029

濟部智慧財產局員工消費社印製語之始端與終端之形式區切。例如，第9圖之9〇1所示「本發明0實施ii、」之正文’區切成如第9圖之9〇2。 “於此，方便上使用單語始端記號“[”及單語終端記號“]”。實際上’在正文中’亦有可能出現該等記號，故：正文中’不加入記號’而以加入不出現於正文之特殊文字碼、或適於分割之資料形式表現。第8圖之步驟8G2(不要語區切刪除處理），不要語區切刪除單元107，從區切後之正文中，刪除非作為檢索之對象語之語(不要語)之前後的單語始端記號及單語終端記號。有關欺不要語，係如習知之方法，準備不要語辭典，找出不要語。又’其他之方法，有使用品詞資訊者，助詞、助動詞、指示詞、判定詞、接續詞、感動詞等為不要語。進而’亦有以下之方法’並非利用構詞分析，而係利用 j手法，執行單語分割之場合，並不使用品詞資訊，故平假名之一文字，或平假名之二文字作為不要語。又，有，tf*!df法等，以單語之出現頻率，判斷單語之重要度以特定不要語，利用該等方法，可判定不要語。第9圖之902之單語分割後之正文中，被視為不要者，為「0K」、「、」。單語分割結果之正文，利用步驟8〇2，刪除不要語月後的單語始終端記號之結果，為第9圖之9〇3。單語「① 統以亦語之 ^-------I -------^ (請先閱讀背面之注意事項再填寫本頁) ii 丨、「被刪除。在第8圖之步驟803(索引製作處理），與第丨實施形態之索引製作處理一樣，具有單語資訊之文字列索引製作單本紙張尺度適用中國國家標準（cns)A4規格⑵“挪公爱 501029 A7 五、發明說明（25

I 員工消費 =’係用以製作索引者，但單語資訊應變更成可辯識早b之始端與終端者。始嗎在=貪訊中’有以下之資訊：第一文字為單語之開 :二！字為。單語之結束嗎；第二文字為單語之開始，…，弟一文子為皁語之結束嗎？如何保有該等資訊，依趣現方法而異。在第1〇圖’舉例而言，以旗標之形式，保Λ 第一文字為單語之開始嗎9第一文字為單語之結束嗎9第文子為早語之結束嗎?之三種資訊。因做成旗標，故在 :貢訊上’僅需要!位元，可縮小索引…因僅第一又 ^保有單語之始端與終端之資訊，故檢索語村對應於僅 ^字之場合的檢索。因保有第_文字之始端資訊與第二文子之終端資訊’故在檢索文字列為二文字之場合，僅利用一種類之索引的檢索，即可完成檢索。因減少第二文之始端資訊，故不會影響檢索速度，而可縮小索引。第8圖之步驟801至步驟8〇3之處理’返覆執行登錄全部文書。第8圖之步驟804(檢索處理），與第〗實施形態之處一樣’檢索時’係檢查單語始端或單語終端，以變更檢早語境界後之處理，藉此，實現檢索處理。利用以上之處理，刪除不要語之單語區切時，即不苜因早語檢索（完全-致檢索等）單獨選出該不要語，可減少檢索雜訊。然而，纟中間_致檢索（文字列檢索）時，此不要浯亦會被選出，故不會遺漏檢索，可發現任意之文列0 有表文字之線查會種字印本紙張尺心用中國國家標準（CNS)A4 ^格⑽χ 297公髮）五、發明說明（26) 進而，利用單語檢索（完全一致檢索等），、可檢索包含之文子列。檢索第9圖之例所示之「本發明①實施之文字列。在該文字列中，包含不要語之「❼」，但 ?本::明之早語檢索(完全一致等)，不會將檢索文字列分 ^成㈣單位’分割成依存於索引之敎字之長度而檢，、，猎此，檢視檢索文字列之最初與最後之文字，是否分別與單語之始端、單語之終端一致。亦即，利用習知之單語檢索，檢索「本發明⑦實施」，則從「本發明0實施」之中’僅取出單語之「本發明」、「實施」，從單語索引中，僅檢索該等單語，因此，會有檢索「本發額實施」之情事。又，利用簡 &早語之位置關係之照合的單語檢索方式，則會檢索「本备明」與「實施」出現在分離處所之文書。然而，利用本發明之方法，進行發明；> 實施」之 =列的文字列檢索，則會檢查在f料料之「本發明0 貝知」之前後，是否有單語區切（不檢查其中間之單語區切）’故被視為不要語之語，亦可正確地反映於檢索。例如，以「京㈣町」檢索時，利用習知之單語檢索， :成為「京都」與「町」之娜檢索，而檢出大量的結 =利用單純之文字列全文檢索(中間—致)，亦會檢出「東去㈣町田市」’但利用本發明之方式，可正確地檢出「京都”」’且可刪除「東京都”田市」之㈣。此種特徵，具有可彌補單語分割錯誤之如下的效果。例如，將正文 501029 A7 B7 五、發明說明（27 f «繪①具0色丨i綠S。分割成單語時，會將本來應分割成〔f①〕〔繪0具〕〔①〕〔色錯誤分割成〕〔綠〕之處’ i 德胪〜T ，、〕〔色〕〔ίί〕〔綠〕〔S〕 :要語’並刪除其前後之區切記號之結果， …繪〕0〔具〕0〔色〕丨“綠K。利用習知之單語檢索技術，僅製作會製成「泠丨「1 「么Γ 口之早„口京引，星」具」色」「綠」4種索引。因此，以、，、」早語檢索時，依檢索方式 ' 飞之不同，可能會不能檢出文’或U「社具」「繪^具」等之錯誤正文。此㈣語分割之精度，對料精度產^良:。然而’利用本發明之方式，如上述之說明，對本正文亦可檢出「繪（7)且宋，、」之文子列，僅調查其前後，即，在〔< =有單語始端’在〔具〕之後，有單語終端，而不中間是什麼’故利用單語檢索，亦可正確地檢出中間包含被視為不要語之語。又在本貝把形癌，說明了’在步驟8〇 !，正文分正文分割成單語後，在步獅2,不要語區切刪 107刪除不要語前後之單語區切，的二階段之方式，但’若正文分割單元可辯識不要語且分割的話，不輸;出要之單語始端終端記號，以—階段，可完成該處理。有明正文分割單元辯識不要語之方法’有：使用品詞資訊之方成則該訂之繪〕調在線不有關本紙張尺fit用中“豕標準（CNS)A4規格⑽χ_2^^ A7

法，或，將一文字平假名判斷為不要之方法。。如上所述，本實施形態，在步驟8〇2，不要語區切刪除單元1G7，並非刪除不要語本身，而係僅刪除不要語前後之單語始終端記號。藉此，單語檢索不會單獨檢出不要語部份，但檢索語包含不要語之場合，可正確檢出，且可刪減單語檢索中之雜訊。與其同時，可執抒補正單語分割之精度惡劣後之單語檢索，其實用性之效果甚大。 (第3實施形態）第3實施形態之情報檢索裝置，刪除位於索引文字列之接頭語或接尾語之前後的單語區切，藉此，減少單語檢索中之檢索雜訊。如第U圖所示，該裝置包含：接辭語區切删除單元 108,係從正文分割單元1()2所分割文字列，刪除附加於接辭語之區切的一方。其他之構造，與第2實施形態(第7圖無異。該接辭語區切刪除單元108，由電腦之計算機構所構成。又，所謂接辭語，係指接頭辭與接尾辭。以下，說明該全文檢索裝置之動作。第丨2圖表示全體之流程。全體之流程，可大略區分為：資料之登錄處㈣檢索處理。資料之登錄處理可分為：正文之單語分割處理 (步驟12G1);不要語區切刪除處理（步驟12G2);接辭任區切刪除處理（步驟削）；及，索引製作處理（步㈣〇4)— 第_之步驟12(Π(正文分割處理）、步驟m2(不要語區切刪除處理），與第2實施形態相同。第12圖之步驟1203(接辭語區切刪除處理），係接 501029 A7 五、發明說明（29 ) 區=刪除早几⑽，從單語之中，刪除接辭語之區切的一 ^伤接頭辭之场合，係冊j除接頭辭之後的單語終端記號，· 接尾辭之場合，係刪除接尾辭之前的單語始端記號。利用第13圖之例，加以說明，第13⑷圖之正文，區切成單語’並刪除不要語之單語區切，形成第_)圖。於此，「東京都」之「都」為接尾辭；「前知事」之「前」‘ 為接頭辭刪除㈣之單語始端記號，或單語終端記號，則可得到第13(c)圖。第12圖之步驟丨204(索引製作處理），與第2實施形態中之處理一樣。步驟1201至步驟1204之處理，係返覆於各登錄文書。第12圖之步驟12〇5的檢索處理，與第2實施形態中之處理一樣。〜利用以上之處理，刪除接辭語之單語區切後之場合，利用單語檢索(完全-致檢索），並不會單獨檢出接辭語本身，故可減少檢索雜訊。然而，接辭語所連接之單語，不論是單語單獨，或接辭語連接之形式，均可單語檢:。經濟部智慧財產局員工消費合作社印製使用第14圖，說明該樣式。對第13圖之例的2文「東京都0前知事0青島氏」，以「東京」檢索之場合，如第Μ⑷ 圖，因在「東京」之前後，具有單語始端記號與單語終端記號，故可以完全一致檢出。又，對相同之正文，以「東京都」檢索之場合，如第14(b)圖，因在r東亨都、，後’具有單語始端記號與單語終端記號，故可以完入至檢出。此係因利用本發明之方式，在檢索處理時，i視其 501029

五、發明說明（3〇 ) 經濟部智慧財產局員工消費合作社印製間存有何種單語區切記號。然而，以具有「都會」之音的「都」檢索相同正文之場合，如第14(〇圖，因「都」之 w，無單語始端記號，故並非檢出完全一致。而是檢出後方一致或中間-致。當然，以「京都」檢索時，如第14(: 圖’亦非檢出完全一致。又，在本實施形態’說明了，在步驟12〇1，正文分判單元102將正文分割成單語後，在步驟12〇3，接辭語區切刪除單元108刪除接辭語前後之單語區切，的二階段之方式，但，若正文分割單元可辯識接辭語且分割的話，不輸出不要之單語始端終端記號，以_階段，可完成該處理。』有關正文分割單元辯識接辭語之方法，可使用品詞資訊。又，在統計性之單語分割中，在單語之境界不明確之场合，僅湘單語始端記號，或單語終端記號，分割不明確之部份，藉此，吸收單語分割之錯誤，而可成為更高精度之檢索。如上所述，在本實施形態，在步驟1203，接辭語區切刪除單元108，僅刪除接辭語前後之單語始終端記號，並非刪除接辭浯本身。藉此，單語檢索並非單獨檢出接辭語部份，但可正確地檢出檢索語包含接辭語之場合及不包含接辭語之場合，且可刪除單語檢索中之雜訊。又，该索引，其索引大小與第1實施形態相同，且可吻合於包含接辭語之場合與不包含之場合的複數模樣。又，在單语分剔中，即使不能以高精度區切，若僅以單浯之始端、單語之終端，可區切的話，即可以是修正 ----I-----I-----線 (請先閱讀背面之注意事項再填寫本頁)

501029 A7 五、發明說明（31 ) 語分割之精度的惡劣程度後之單語檢索，可增大其實用效果。曰 ^ & (第4實施形態）第4實施形態之情報檢索裝置，對檢索語所檢索之多數文書’付與表示與檢索語之適合程度的順位，並提如第15圖所示，該裝置包含··檢索結果數值化單元 110,係對檢索後之文書，付與表示與檢索語之適合程度的數值；A，檢索結果順序化單位U1，係將付與數值之文書，依其數值順序排列。其他之構造，與第3實施形態（苐 11圖）無異。檢索結果數值化單元及檢索結果順序化單1, 係由電腦之計算機構所構成。以下，說明該全文檢索裝置之動作。全體之流程與第 3實施形態之第12圖一樣，可大略區分為··資料之登錄處理，及，檢索處理。資料之登錄處理，可分為：正文之單語分割處理；不要語區切刪除處理；接辭語區切刪除處理，· 及’索引製作處理，該等處理，分別與第3實施形態之對應處理相同。第16圖表示檢索處理之詳細流程。具有單語資訊之文字列索引檢索單元1〇6，可實現以下二種類之檢索方法，即， (1) 中間一致··不辯識單語境界之習知文字列全文檢索功能； (2) 單語檢索：辯識單語境界之全文檢索功能。在單語檢索，雖有以下5種類之檢索方法，？P，完全一致；包 501029 A7 32 五、發明說明（含完全-致之前方-致；包含完全—致之後方—致：不包含完全-致之前方-致;不包含完全—致之後方一致，但，以完全一致之％合的檢索方法做說明。步驟16〇1:與第1實施形態之第5圖之步驟50卜樣，分解處理檢索文字列，並取出部份檢索文字列。步驟麗：對取出之全部的部份檢索文字列，檢索具有單語資訊之文字列索引，並取出該當者。該處理與第！實施形態之第5圖之步驟502不同’在該時點，還不檢查單語之始端·終端等。之文步驟1603 :對於如此取出之索引，與第1實施形態第5圖之步驟503-樣，調查索引之檢索對象文書號碼與、書中文字列之位置，並評價連續性。檢索文字列為「全文檢索裝置」之場合，「全文」、「檢索」、「裝置」為相同文書號碼，文字列「全文」之出現位置為第χ文字時，文字列「檢索」之出現位置為第x+2文字，文字列「裝置」之出現位置為第x+4文字之場合，則判斷在該文書中，含有「全文檢索裝置」之文字列。經濟部智慧財產局員工消費合作社印製步驟1604 :對各發現之文字列，判斷該文字列係完全一致，或不包含完全一致之中間一致（雖包含檢索語之文字列，但與檢索語並不完全一致）。第丨5圖之檢索結果數值化單元110，對發現之文字列，在完全一致之場合，給與得點χ點；在不包含完全一致之中間一致之場合，給與侍點y點。χ、y之具體的得點之給與方法，另外說明。檢查結果數值化單元110，對包含發現之苯字列的各文書， 35 本紙張尺度適用中國國家標準（CNS)A4規格⑵Q x 297公爱）五、發明說明（33) =得點’並算出各文書之得點。以後，將詳細說明集計步驟1605:利用到前步驟為止之處理，對各文金，仏二:：15圖之檢索結果順序化單元⑴，依彳:點：七、文-順序’且以此作為檢查結果。㈣以上’完成一次之檢索處理’檢索結果數值化處理之方去=’步驟16G4中之’對發現之文字列之得點的給 :方法財文書之得㈣集針方法有多數之實現方法。以下對3種方法，舉例說明。第1方法例，有關得點X,y之給與方法，係給與滿足之任意正整數。舉例而言’x=2，y=1。集計方面，即使在=書之中、’含有多數之檢索文字列，僅取文字列之得點的取大者JE作為該文書之得點。如此，對以完全一致檢出之文書’給與得點2 ;對於以不包含完全—致之中間一致檢出之文書，給與得點1。以第17圖為例說明，以檢索語「京都」，指定完全一致之檢索時’第Π⑻圖之文書，「京都」之部份，有域完全一致，且「東京都」之部份，亦有2處中間一致。然而’文書之得點’僅取完全一致之!處’給與2點。另外，第17(h)圖之文書’於多數之「東京都」的部份，為中間一致，文書之得點為1點。以文書之得點順序，分類該文書，則如第18圖所示，在檢索結果之上位，會出現以完全一致檢出者；於下位，會出現僅以中間一致檢出者。一般而言，檢索系統之使用本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公爱五、發明說明（34) 者，會從上位開始閱覽，故以無單語完全一致所產生之雜訊者，作為檢索結果，可首先利用，另外，若利用至下位之中間一致之結果，則可防止遺漏檢索。第2方法例’將第丨方法所用之得點x、y之給與方法，做成如下。在步驟1603，對檢出之各文書，求出於一文書中包含檢索文字列之如。而且，超越^最大數字之數: 為u ’則設定X成為可滿足 x=uxy之正整數。簡單而言’可以為x=u，y=i。利用第19圖，第20圖，以指定完全一致之場合為例，加以說明。第20圖左端之5種文書’含有如第_所示之内容，在以「京都」檢索之場合，分別以完全-致與（不包含完全-致之)中間一致’檢出者。在各文書中，其檢出數之合計為…中最大者為文書2之t=8。因此，將超越該數值（t=8)之數值9，設定為χ，且》,^ !。利用集計，當在文書中含有多數之檢索文字列時，各文字列之得點的和，即完士-致處所數X χ點+僅中間一致處所處x y點，作為該文書之得點。在第20圖中，x=9，，計算各文書之得點。以文書之得點順序分類’將以完全一致檢出者，置於檢索結果之上位’·將僅以中間一致檢出者，置於下位，且形成不同之族群’其臨界值為〖之最大值。而且，以完全 -致檢出之族群，及’僅以中間一致檢出之族群，均以檢出數分類…般而言，包含較多檢索文字列之文t，為= 本紙張尺¥適用國冢標準（CNS)A4規格⑽x 297公髮 501029

間發明說明（要文書’或者’檢索者將其視純靠近目的文* 因此，將以完全-致檢出較多單語之 :曰’ 此’可方便:吏用者，且不會發生遺漏檢索：位’错步成二异僅方式，其結果係’以完全-致檢*者之族群，形成於上位，僅以中間一 ^ 致松出之私群，形成於下位，不需區分族群之處理，斟 t 次對各方矢群分類等之處理次之分類，即可分離該等族群，其若更詳細觀察，對完全一致之… 為^之取大值。丁凡王致之各個數，形成族群，例如形成如下之形式··在包含3個完全一致之文書中，從中 -致較多者’依順序排列；在包含2個完全一致從中間一致較多者，依順序排列。曰在此例’指定完全一致之場合，分類分成完全—致族群；及，不包含完全一致之中間一致族群，但若將得點之給與方法，變更如下：完全一致、前方一致、不包含後方—致之中間—致之得點 y = 1 完全一致之得點 x=uxuXuXuXy 鈾方一致之得點 v = u X U X y - 後方一致之得點 w = u X y 則可實現依完全一致、前方一致、後方一致、中間一致之順序顯示。因此，可利用在檢出處所之文字列前後是否有單語區切，調整得點。又，指定前方一致或後方一致之場合，·亦可利用上述之方法计具’且’指定不包含完全一致之前方—致，咬不 * ------------—-------- (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 501029 A7 B7 經濟部智慧財產局員工消費合作社印製五、發明說明（包含完全一致之後方一致時’利用得點之給與方法，使上述之順位變更，以降低完全一致者，藉此可實現。第3方法例，有關文書之得點計算，以完全一致檢出之文字列的數，與以中間一致檢出之文字列的數之比，作為參考。或，以完全一致檢出之文書的數，與以中間一致檢出之文書的數之比，作為參考。在資料全體，完全一致之文字列的數為n個；在資料全體，中間一致之文字列的數為m個時，因中間一致包含完全一致，故11與111之關係，下式一定成立。 m 文書數之場合’同樣之關係亦成立。使用此種11與111之比的方法例，如第21(a)圖所示，η m之比，較大時，可認為，完全一致之文字列，與僅中致文子列，為不同者，並非單語分割之錯誤，而使其果反映於得點集計。另外，如第2 1 (b)圖所示，其比較小時，可認為，間一致者可能是單語分割之錯誤，而使其可能性反映於得點集計。例如，以「京都」檢索某資料庫時，因完全一致與間一致之比，如第21(a)圖，故可預想，僅中間一致之子列與完全一致之文字列，為不同之單語。實際上，完全-致檢索時，可檢出「京都」，以中間一致檢索時可檢出「京都」與「東京都」，故成為此種比。在其他例以「人參」檢索時，亦成為如第21(a)圖之比，故可預想 1本紙張纽顧㈣驛辟（CNS)A4 36 與会士中中文以 — — — — — — — — — — — — 喔 I I 1 I I 祖 1 ^^ 1111111 ^^ (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明（37 ) 僅中間一致之文字列與完全一致之文字列，為不同之單語。實際上，以完全一致檢索時，可檢出蔬菜之「人參（胡蘿蔔）」，以中間一致檢索時，可檢出「人參」、「外國人參加」、「10人參加」、「婦人參與」等，故成為此種比。> 另外，以「今朝」檢索相同之資料庫，因完全一致與令間一致之比，如第21(b)圖，故可預想中間一致與完ς 一致係相同單語。實際上，對「今朝方①氣溫、」之2王以「今朝」之完全一致，檢索時，並不能檢出「今朝方」之部份’而可以中間—致檢出，此可被視為相同單語。」使此種比，反映於得點集計，例如，在文書中，完全一致士之處所的數為Ρ，不完全—致僅中間_致之處所的數為q犄，和第二方法例同樣地定義χ、y、α為定數，若文書之得點為 ’ pXxX a X Log(m/n) + y X q 則可反映上述之比。得點X、y之給與方法，與第二計算方法例一樣，對在步驟1603檢出之各文書’求出在-文書中包含檢索文字列之數t。而且，將超越1中最大數字之數？ ’設定為X，設為1。以文書之得點順序分類，則認為重要者，置於檢索結果之上位；而作為遺漏檢索對策之文書，置於下位。其順位，雖不像第二計算方法例，將以完全一致檢出之族群與僅乂中間致檢出之族群，明確地分離，但其順序反映單語分割之精度，對使用者而言，更方便。 297公釐） ]- --------^—------線· f靖先閱讀背面之注意事項再填寫本頁) A7五、發明說明（38 ) 在以上所舉之例中，雖說明了，指定完全一致之場合 ^•’僅利用完全-致之檢出數與中間一致之檢出數的比之例子，但並不限定於此，亦可應用前方一致或後方一致之檢出數’估計單語分割精度。與第一计异方法例一樣，在指定：前方一致或後方一致、不包含凡全一致之前方一致、或不包含完全一致之後方一致之場合，亦可利用調整上述得點之給與，方法與計算式’變更順位而實現。又，在次上二種計算方法例，係以一個關鍵字之場合做说明，但私疋_個以上關鍵字，並以邏輯運算子結合之 %合，亦可應用實現。邏輯結合多數之關鍵字的場合，上述之文書得點正規化，將邏輯運算子之結合，變換為書得點之算術運算之各種方法，已被提出，可應用該等法實現。如上所述，在本實施形態，具有單語資訊之文字列引栝索單tl 106，無區別地檢索文字列·單語；檢索結數值化單元11 〇，將結果數值化；檢索結果順序化單元η 1 將結果分類，藉此，可將刪除了檢索雜訊之、结果，置於上位，且將中間一致之結果，置於下位，因此，可防止遺漏 f索之發生。即使單語分割之精度並非1〇〇%，亦可降低遺漏檢索及檢索雜訊，而增大其實用效果。人由以上之說明可知，利用本發明之情報檢索方法及情報檢索裝置’以_個索引，可同時實現單語檢索與文字檢索，不需重覆具有二種索引’故可加速檢索，並可縮使文方索果列小 (請先閱讀背面之注意事項再填寫本頁) 裝 .線· 本紙張尺度適用r®國家標準（cns)a4規格⑽x 297公爱） jyj i\)Ay A7 B7 五、發明說明（39 索引空間。又’同時執行單語料與文字列檢索使結果順序化。如此之一種檢索’可、可抑制檢索雜訊，且可防止遺漏檢索。圖式之簡單說明第1圖係表不本發明之第一實施形態之情報檢索裝置之構成的方塊圖；第2圖係表示本發明之動作的流程圖；第圖係表不本發明之第一實施形態之索引製作處理之過程的模式圖； ""圖ίτ、表示本發明第一實施形態之具有單語資訊之文字列索引之構造例之模式圖；、第5圖係表示本發之流程圖；弟6圖係表示本發檢核項目之表；之第一實施形態之情報檢索裝置明之第一實施形態之檢索處理流程明之第一實施形態之各檢索方式之 ----1--------------訂-- ---丨—丨 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製第7圖係表示本發之構成的方塊圖；明之第二實施形態之情報檢索裝置第8圖係表示本發明之第二實施形態之情報檢索裝置之動作的流程圖；第9圖係表示本發明之第二實施形態之索引製作處理之過程的模式圖；〜第10圖係表示本發明之第二實施形態之具有單語資訊本紐尺度顧+目目家標準（CNS)A4規格（210 X 297*^1"

經濟部智慧財產局員工消費合作社印製之文字列索引之構造例的模式圖；第11圖係表示本發明之第=者之構成的方塊圖：之情報檢索裝置第12圖係表示本發明之第二之動作的流程圖；之情報檢索裝置第13(a)〜（C)圖係表示本發語區切刪除處理之動作的概”；M 之接辭第14⑷〜⑷圖係表示本發明之第三實雜訊刪減效果之概念圖；〜、之松索第1 5圖係表示本發明之第之構成的方塊圖; w之情報檢索裝置第16圖係表示本發明之第四實施形態之情報檢索裝置之動作的流程圖； …弟17(a)〜⑻圖係表示本發明之第四實施形態之第一計算方法例之得點集計之樣子的概念圖；第18圖係表示本發明之第四實施形態之第—計算方法例之檢索結果之順序化的樣子之概念圖；第19圖係用以說明本發明之第四實施形態之第二計算方法例之得點f計與檢索結果之順序化的樣子之文書例；第20圖係表示本發明之第四實施形態之第二計算方法例之得點集計與檢索結果之順序化的樣子之概念圖；第21 (a) (b)圖係表示用以本發明之第四實施形態之第二計异方法例之得點集計的文書集合之關係的模式圖；第22圖係表示習知之情報檢索裝置之索引製作處理之過程的模式圖。本紙張尺度適用中國國家標準規格（210 X 297公釐） 43 -----------II ^--------^---------^ (請先閱讀背面之注意事項再填寫本頁) 501029 A7 B7_ 五、發明說明（41 ) 元件標號對照表 101…檢索對象資料記憶單元 102…正文分割單元 103…單語分割正文記憶單元 104…具有單語資訊之文字列索引製作單元 105…具有單語資訊之文字列索引記憶單元 106…具有單語資訊之文字列索引檢索單元 107…不要語區切刪除單元 108…接辭語區切刪除單元 110…檢索結果數值化單元 111…檢索結果順序化單元 ----「---*—-----------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐） 44

Claims

六、申請專利範圍丨·-種情報檢索方法，係心全文㈣正文f料者4 龍在於：將檢索對象正文，”成單語單位：從: s吾早位之前述正文，製作具有用以表示單往之 =早語資訊之文字數為R具有單語資訊之文字 i索引’利用文字列檢索或單語檢前述具有單語資訊之文字列索引，檢索二=方攸 2·如申請專·圍第丨項所記載之情報檢索方法；盆中，檢索對象正文之單語之前，具有單語始端二象之後’具有單語終端記號，藉此，將檢索對象正文，分割成單語單位：且從分割成單語單位 =正文，製作具有心表示該單語始端記號終知記號之單語資訊的文字數為Ν之該具有單語資訊之文字列索引。、 3·如申料職圍第"所記載之情報㈣方法；其中，在该具有單語資訊之文字列索引對於第I文字，當在 :亥文字之前，有單語始端記號之場合，具有表示該情事之單語資訊；當在該文字之後，有單語終端記號 %合’具有表示該情事之單語資訊；對於第2文字以後當僅在該文字之後’有單語終端記號之場合，具有示該情事之單語資訊。 (如申請專利範圍第卜2或3項所記載之情報檢索方法其十，從該具有單語資訊之文字列索引，配合用以現料語之單語的單語檢索，及用以發現該檢索語文子列的文字列檢索，執行檢索。訂之表發之 5氏張尺度_中關家鮮（CNS)A4規格（21。X 297^57 501029 經濟部智慧財產局員工消費合作社印製

申請專利範圍 5·如申請專利範㈣4項所記載之情報檢索方法；立中， ^檢索語之文字列，分割成文字數N之部份檢索文 ::，從該具有單語資訊之文字列索引，檢索與各部伤k索文字列一致之文字列，當檢索出之各文字列，在檢索對象正文上，具有連續性時，則判斷該檢索語〇文字列’為被檢索出者；當檢索與包含該檢索語之取初文字的部份檢索文字列、或包含該檢索語之最後文字的部份檢索文字列一致之文字列的場合，在判材料中’加入該最初之文字前或該最後之文字後的語資訊，判斷一致性’藉此，檢索檢索語之單語。 6.如申請專利範圍第5項所記載之情報檢索方法：其中利用該單語檢索，從該具有單語資訊之文字列索引檢索：與檢索語之單語完全—致之單語；與檢索語單語完全-致及前方-致之單語；與檢索語之單語王致及後方一致之單言吾；與檢索語之單語僅前方致之單語；或，與檢索語之單語僅後方一致之單語（ 7·如申請專利範圍第！項所記載之情報檢索方法；其口中從分割成單語單位之該正文，刪除不要語之前後的單語資訊’製作該具有單語資訊之文字列索引。 8·如申。月專利|巳圍第2項所記載之情報檢索方法：其中， k分割成單語單位之該檢索對象正文，冊】除不要語之月’J的該單語始.端記號及不要語之後的該單語終端唬’且從該>割成單語單位之正A，製作該具有單資訊之文字列索引。斷單之完該記 Μ--------1---------線 (請先閱讀背面之注意事項再填寫本頁) 本紙張又⑦中國國家標準（CNS)A4規格（21Q x 297公爱 46 六、申請專利範圍 9_ :申請專利範圍第7或8項所記載之情中，選擇不能單獨成為檢索對象 =法，·其亜纽。平°。，作為該不要語。其 H).如申請專利範圍第7或8項所記載中’根據單語之品詞資訊，決定該不要二方法 ":申圍第7或8項所記載之情報: 中，選擇由平假名1 忐，其語，作為該不要語。又名—文字所構成之單 1申=專利刪7物所記載之情報定m至檢索縣正文f料中之單語”: 决疋作為該不要語之單語。干 13.Γ申請專職圍第5項所記載之情報檢索方法；其中，攸该具有單語資訊之文字列 ^ ^ ^ ^ 、狀索/、包含該檢索 =之取初文子的部份檢索文字列或包含該檢索語之最子的部份檢索文字列—致之文字列的場合，在判斷材料t，加入表示該最初文字之前的單語始端記號之早語資訊或表示該最後文字之後的單語終端記號之經濟部智慧財產局員工消費合作社印製早語貧訊’而判斷一致性：當檢索與其他之部份檢索文字列一致之文字列的場合，在判斷材料中，不加入該單語資訊。 14.如申請專利範圍第2項所記載之情報檢索方法；其中，從分割成單語單位之該檢索對象正文，去除接頭辭之後的該單語終端記號及接尾辭之前的該單語始端記唬，且從分割成該單語單位之前述正文，製作該具有 47 本紙張&㈣用中國國家標準（CNS)A4規格⑵〇 X 297公髮）

、申請專利範圍單語資訊之文字列索引。 π.如申料利範圍第14項所記狀情報檢索根據單語之品詞，決定作為該接頭辭及接尾n ’ 16·如申請專利範圍第14項所記載之情報檢索方法^中，作為《尾辭之語，係根據在檢索對象資料中，該語出現於數字之後的頻率決定。 Λ 正 i7·如申請專㈣㈣1項所記載之情報檢索方法1中，根據檢索語之檢索結果，將對檢索對象正文之的適合度數值化，根據獲得之數值，對各檢索對象口文付與順序，並依該順序排列提示各檢索對象正文。執加 18.如申請㈣範„17顧記狀情報檢索方法；並中，配合用以發現檢索語之單語的單語檢索，及用以發現 :亥早語之文字列的文字列檢索，從檢索對象正文，行各檢索語之檢索，並將該雙方之檢索結果，付與權並分別數值化。 Κ如申請專利範圍第18項所記載之情報檢索方法；其中對利用單4檢索之檢索結果，付與比利用文字列檢經濟部智慧財產局員工消費合作社印製索用字才双索、、Ό果較大之加權，並作數值化處理，使利單語檢索發現檢索語之檢索對象正文，比僅利用文^ 列檢索發現檢索語之文字列之檢索對象正文，付與較上位之順序。 2〇.如申請專利範圍第19項所記載之情報檢索方法；其中，對利用單語檢索，從檢索對象正文，檢索與檢索語之單^ 7〇全一致之單語、前方一致之單語或後方一致之

A8 B8 C8 D8 、申凊專利範圍單語時的檢索結果，分別付與不同之加權，並作數值化處理。 21.如申請專利範圍第20項所記載之情報檢索方法：其中，對利用早語檢索之檢索結果，付與不同之加權，並作數，化處理，使檢索時，在與檢索語之單語完全一致單月）方致之單語、及後方一致之單語之間，指定社時，對發現第1順位之單語的檢索對象正文，付與瑕m序；對發現第2輕之單語的檢索對象正文’付與其次之·;對僅發現第3順位之單語的檢索對象正文，付與再其次之順序。 22·如申請專利範圍第21項所記載之情報檢索方法；其中，對各種檢索結果，付與不同之加權，並作數值化處理’ 使在發現該第1順位之單語的檢索對象正文之間，依該弟1順位之單語的檢索數較多之順序，付與順序；在發現該第2順位之單語的檢索對象正文之間，依該第2順位之早语的檢索數較多之順序，付與順序；在僅發現該Γ順位之單語的檢索對象正文之間，依該第3順之早语的檢索數較多之順序，付與順序；且，在僅用該文字列檢索，發現檢索語之文字列的檢索對象文之間，依該文字列之檢索數較多之順序，付盘順序 23.如申請專利範圍第Π項所記載之情報檢索方法;、其中根據：利用該單語檢索檢索出之，與檢索語之單往全一致之單語、前方-致之單語、或後方：致S 的檢索數’與利用該文字列檢索檢索出之檢索』五之 # I I I I I訂線位利正完語文本紙張尺度適用中國國家標準（CNS)A4規格（210x297公釐 501029

經濟部智慧財產局員工消費合作社印製申請專利範圍子列的檢索數之比，估計檢索對象正文之單語分割之精度，並使該精度反映於檢索對象正文之順序。从如申請專利範圍第17項至第23項中之任一項所記载之情報檢索方法；其中，利用多數檢索語之邏輯,士人，付與檢索語之場合，對各檢索語之檢索結果，執行兮數值化，並整合㈣結果，對㈣對象正文付與順序。 25· -種情報檢索裝置’係用以全文檢索正文資料者，包含：檢索對象資料記憶單元，用以記憶檢"象正文；正文分割單元，用以將檢索對象正文，分割成單語單位；早語分割正文記憶單元，用以儲存分割成單語單位之該正文； —有單語資訊之文字列索引製作單元，用以從分割成單語單位之該正文，製作具有表示單語之區切的單語資訊，文字數為N之具有單語f訊之文字列索引；具有單語資訊之文字列索引記憶單元，用以記憶製成之該具有單語資訊之文字列索引；及，具有單語資訊之文字列索引檢索單元，係利用該具有單語資訊之文字列索引，執行檢索語之文字列檢索、或單語檢索、或文字列與單語之檢索。 26.如申明專利|巳圍第25項所記載之情報檢索裝置；其中， 4正文分剔單兀’利用在包含於檢索對象正文之單語之4付與單語始端記號，在單語之後，付與單語終

經濟部智慧財產局員工消費合作社印製 A8 B8 C8 D8 六、申請專利範圍端記號，而將該檢索對象正文，分割成單語單位，且，該，有單語資訊之文字列索5U作單元，從分割成單 -早位之該正文’製成具有表示該單語始端記號及單語終端記號之單語資訊，文字數為μ具有單語資訊之文字列索引。 27. 如申租專利砣圍第26項所記載之情報檢索裝置：其中，該具有單語資訊之文字列索引製作單元，作為該單任資訊’係對該具有單語資訊之文字列索引之第ι文字，在該文字之前，具有單語始端記號之場合’設有用以表示該情事之單語資訊，且在該文字之後’具有單語終端記號之場合，設有用以表示該情事之單語資訊；對於”文字錢，僅在該文字讀，具有單語終端記號之％合，設有用以表示該情事之單語資訊。 28. 如申靖專利犯圍第25項所記載之情報檢索裝置；其中，該具有單語資訊之文字列索引檢索單元’利用該具有單語！訊之文字列索引，配合：用以發現檢索語之單語的單語檢索，及用以發現該檢索語之文字列的文字列檢索，執行檢索。 29·如申請專利範圍第28項所記載之情報檢索裝置；其中，該具有單語資訊之文字列索引檢索單元，從該具有單語資訊之文字列索引檢索’將檢索語之文字列分割成文字數Ν之部份檢索文字列’且與各部份檢索文字列致之文字列，當檢索出之各文字列，在檢索對象正文上一有連續性時’判斷該檢索語之文字列為被檢本紙張尺度適用中國國家標準(CNS)A4規格（210 x 297公爱）

-I- n H ϋ κ ·1 一：0*· * n n i n n ϋ I I I n n n n ϋ It n I I I n ϋ n n d I ϋ I - (請先閱讀背面之注意事項再填寫本頁) C8 一 DB In 經濟部智慧財產局員工消費合作社印制衣 —. " uum —————— 申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 索出者’當檢索與包含該檢索語之最初文字的部份檢索文字列或包含該檢索語之最後文字的部份檢索文字列一致之文字列時，在判斷材料中，加入該最初文字之前或該最後文字之後的單語資訊，而判斷一致性，藉此’檢索檢索語之單語。 3〇·如申請專利範圍第29項所記載之情報檢索裝置；其中，該具有單語資訊之文字列索引檢索單元，利用該單語才双索’彳双索·與檢索語之單語完全一致之單語、與檢索語之單語完全一致及前方一致之單語、與檢索語之單語完全一致及後方一致之單語、與檢索語之單語僅前方一致之單語、或與檢索語之單語僅後方一致之單語。 3 1 ·如申请專利範圍第26項所記載之情報檢索裝置；其中，包含不要語區切刪除單元，係用以刪除，付於分割成單語單位之該正文的前述單語始端記號及單語終端記號之中，不能單獨成為檢索對象語之不要語之前後的該單語始端記號及單語終端記號。 32·如申請專利範圍第25項所記載之情報檢索裝置；其中，該正文分割單元，對於包含在檢索對象正文之單語之中不此單獨成為檢索對象語之單語，不分割成單語單位。〇 33·如申凊專利範圍第26項所記載之情報檢索裝置；其中，包含·接辭έ吾區切刪除單元，係用以刪除，付於分割成單浯單位之該正文的前述單語始端記號及單語終 52 本紙張尺度適用中國國家標準（CNS)A4規格（21〇 x 297公爱) 記號之中，接頭辭之後的單注早^、、冬知圮號及接尾辭之）的單語始端記號。牦如申請專利範圍第26項所記載之情報檢索裝置：其中该正文分割單元，對於包含在檢索對象正文之接頭辭僅付與該單語始端記號， L對於接尾辭，僅付與該單I 終端記號。 35.如申請專利範圍第26項所記載之情報檢索裝置:立中包含：檢索結果數值化單元，係用以由檢索之適合度，將檢索結果作數值化處理；及，。檢索結果順序化單元，係根據該檢索結果數值化單元付與各檢索對象正文之檢索結果的數值’付與各檢索對象正文之順序。 •如申明專利範圍第3D項所記載之情報檢索裝置；其中，該檢索結果數值化單元，對於利用單語檢索之檢索結果，付與較利用文字列檢索之檢索結果大的加權，並僅數值化處理，使利用單語檢索發現檢索語之檢索對象正文，較僅利用文字列檢索發現檢索語之文字列的才双索對象正文，位於較上位之順序。 •如申明專利範圍第3 5項所記載之情報檢索裝置；其中，該檢索結果數值化單元，對於利用單語檢索，從檢索對象正文，檢出：與檢索語之單語完全一致之單語、前方一致之單語或後方一致之單語時之結果，分別付與不同之加權，並做數值化處理。申請專利範圍 J8.如申請專利範圍第37項所記載之情報檢索裝置：其中，該檢索結果數值化單元，對於利用單語檢索之檢索結果，付與不同之加權，並做數值化處理，檢索時，當在與檢索語之單語完全一致之單語、前方一致之單語、及後方一致之單語之間，指定順位時，對發現第1順位之單語的檢索對象正文，付與最上位之順序：對發現第2順位之單語的檢索對象正文，付與其:欠之順位·對僅發現第3順位之單語的檢索對象正文，付與再其次之順位。 39·如申請專利範圍第38項所記載之情報檢索裝置；其中，該檢索結果數值化單元，對各種檢索結果，付與不同之加權並作數值化處理，使在發現該第1順位之單語的‘索對象正文之間，依該第i順位之單語的檢索數較夕之順序’付與順序；在發現該第2順位之單語的檢索對象正文之間，依該第2順位之單語的檢索數較多之順序’付與順序；在僅發現該第3順位之單語的檢索對象正文之間，依該第3順位之單語的檢索數較多之順序，付”順序，且，在僅利用該文字列檢索，發現檢索語之文字列之檢索對象正文之間，依該文字列之檢索數較多之順序，付與順序。〇·如申明專利聋巳圍第35項所記載之情報檢索裝置；其中，該檢索結果順序化單元，根據：利用該單語檢索檢索，之，與檢索語之單語完全一致之單語、前方一致之單或後方一致之單語的檢索數，與利用該文字列申請專利範圍 ::索出之檢索語之文字列的檢索數之比，估計檢茱對象正文之單語分割之索對象正文之順序。亚使該精度反映於檢經濟部智慧財產局員工消費合作社印製本紙張尺度適用中國國家標準（CNS)A4規格（210 X 297公釐 •----U---^-----··-------訂-丨 (請先閱讀背面之注意事項再填寫本頁) -線丨#丨 —·!ιλ___I I I _____________ 55