TW501029B - A method of retrieving data and data retrieving apparatus - Google Patents
A method of retrieving data and data retrieving apparatus Download PDFInfo
- Publication number
- TW501029B TW501029B TW089114457A TW89114457A TW501029B TW 501029 B TW501029 B TW 501029B TW 089114457 A TW089114457 A TW 089114457A TW 89114457 A TW89114457 A TW 89114457A TW 501029 B TW501029 B TW 501029B
- Authority
- TW
- Taiwan
- Prior art keywords
- search
- monolingual
- text
- information
- word
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
501029 經濟部智慧財產局員工消費合作社印製 作 A7 五、發明說明(l ) 旦本發明係有關於在實施利用電子計算機之機械翻譯或 大!文書檢索、正文(Text)自動摘要等之自然語言處理系 統之前處理.解析部中,用t士丄 用以執仃情報(資訊)檢索之方法 及其衣置,特別X,不會遺漏檢索,且可減少檢索雜訊者。 所謂全文檢索系統,係從蓄存之正文資料中,檢索利 用者所減之文字列者。為了實現全文檢索,有各種方法, 但代表性的有,如長尾真他著、「言語情報處理(語言資訊 處理)」岩波書店(1998)p.72〜77中所言及,以下之二種。 其中之-,係從正文資料製作單語索引,且由單語索 引’檢索利用者所指定之文字列(檢索語)者;另外,係從 正文貧料製作文字列索引,且由文字列索引,檢索檢索語 之方式。 製作單语索引之方式,係用以製作出現在正文中,全 部之索引。如日語之膠著語之場合,因單語之境界不清楚, 叙係使用子典,進行構詞分析(m〇rph〇l^ical &⑽丨》,sk), 將正文分割成單語單位後,製作其全部之單語之索引。例 如,對「東京都品川區」之正文,可製成例如:「東京」、 「東京都」、「品川」、「品川區」之4種索引。 檢索時’當指定「東京」或「品川區」之檢索語的場 合,可以上述指定之方式檢索索引;或,指定「東京都品 川區」之複合語時,可利用構詞分析,分解檢索語,且對 各語,進行檢索。 如此,可利用文章中之任意的單語,進行檢索。又, 為減少單語索引之量,有採用包含某單箏之較長單語 私紙張尺度適用中國國家標準 -----J---^---------I---訂-------•線 (請先閱讀背面之注意事項再填寫本頁) 4 B7 五、發明說明(2 / 為索引之方式。在上例中,因「東京 , 故僅以「東亨都冼力表 果不」 有闕分割成單心ΠΓ寺開平·4118公_ 式,除構同分析外,亦有利用統計手 ==中渡 合白/ 規化解之構詞境界特幻情報處理 會自然言語處理研究會U3-3(1996)等)。 另外用以製作文宇列索引之方式,係用以製作對正 文中之全部的連續N文字 于 、又子之索引(n-gram index)者。N大多 使用2。例如,餅「垂丄 于東不都品川區」之正文,製作2 組之索引時,可f成厂「 文子 「, 成東不」、「京都」、「都品」、「品川」、 川區」,5種索引。 利用圖式,更詳細說明用以製作文字列索引之方式的 例。第22圖係表示f玄方丨& 飞勺 表下文子列索引之製作過程的圖。 明①實施丨i、」之正々 」弋正文,可製成由「本發」、「發明 ①」、「Φ實丨、r杏浐 Γ 月 Μ也」、施(i」、「、」之2文字所構成 之7種文字列之舍u 口、 叮稱成 索引’且分別寫入文書號碼及出現文字 之位置(文字位置)。斟入 〜 直)對全部之文書,製作此種索引,且 文字列分類記憶該等索引。 a檢索時’例如’檢索「本發明」,則對於「本發」、「 :」之2種文字列’進行索引之檢索,可判定發現之索引, 是否為連續出現者。 用以衣作文子列索弓1之方式,具有不必進行構詞分析 之特徵。 …、而,使用早語索弓1之方式,在製作索引時,必需將 頁 訂 列 依 線 經濟部智慧財產局員工消費合作社印製 發
本紙張尺度義巾_ ^:標準(eNs)A4 —- (210x297 公釐) A7 B7 五、發明說明( 經濟部智慧財產局員工消費合作社印製 :文分割成單語’其分割之精度, 即,不正確分料語 R精度。亦 析,分割正文時,分析^ 檢索之虞。使用構詞分 …般而言’語言通常是流動性的, 二:而 單語’故必須經常更新構詞分㈣字典。〜新的 又,依對象之文書不同, 當變更對象文堂日士 使 亦會不同, 象文曰蚪,必須調整字典。亦即, 料庫、或經濟專用資料庫,字典之調整即不^ j且,不論如何注意,準備字典,在構詞分析中, 月匕否二可能會遭遇未知語,即未記載於字典之單語,由 未兵-之出現’會大幅降低構詞分析之精度。 •皆於此右抓用由統計手法所產生之單語分割,表 面上雖不會有未知語之問題,但單語分割精度並不能達到 1⑽%,殘留有同樣之問題。 進而在構5司分析中,為提高其精度,亦有採取依肩 於文脈之分析,彳曰士絲、— 仁此種獲雜之處理,會將長文中所出 句子與短文中所出現之句子,分解成不同之單語列。 另外’使用文字列索引之方式,因不需單語分割 里上.iC不會產生遺漏檢索。然❻,例如,以「京都 索時,正文中之「東京都」之部份,亦會被檢出等, 含希望外之結果(―般稱為檢·訊)。 對於此種問題’在特開平10-307835號公報中 具有單語索引與文字索引者,依場合而區分之方式, 右採取此種構造,則會加大檢索索引。又,若以減少 資 不 於 (請先閱讀背面之注意事項再填寫本頁) 現之 而 揭 但 訂------|!線| 本紙張尺度細家標準(CNS)A4規格(210 x 297公爱) 6 五 B7 發明說明(4 ) 之模式檢索,則會產生遣 §ιί^. ^ 遢漏檢索,若要不產生遺漏檢f , 則雜訊會增多,本質上, '解決問題°即使’同時檢索 花費:Γ 增長檢索時間,對於結果之合成,亦需 I祕為知技術之課題,其目的在 供一種情報檢索方法及實 .、挺 任 έ及貝轭該方法之裝置,該方法融合單 0口索引方式與文字歹舍 索引方式,藉此,可防止遺漏檢索, 且可降低檢索雜訊。 Μ 、於此II用本發明之情報檢索方法,將檢索對象正文, 分:成單語單位,從分割成單語單位之正文,製作具有 不:语之區切的單語資訊’文字數為Ν之具有單語資訊 文子歹J索引’攸遠具有單語資訊之文字列索引,利用文字 列檢索或單語檢索、或文字列檢索及單語檢索,檢索檢索 表 訂 位 又,在本發明之情報檢索裝置,設置·· 杈索對象貝料記憶單元’用以記憶檢索對象正文,· 正文分割單元,用以將檢索對象正文,分割成單語單 正文 單居分剔正文記憶單元,用以儲存分割成單語單位 之 具有單語資訊之文字列索引製作單元,用以從分割成 單語單位之正文,製作具有表示單語之區切的單語資訊, 文字數為N之具有單語資訊之文字列索引; 具有單語資訊之文字列索引記憶單元,用以記憶製成 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 501029 A7 五、發明說明(5 ) 部 智 慧 員 工 消 費 印 之具有單語資訊之文字列索引;及, 具有單語資訊之文字列索引檢索單元,係利用具有單 語資訊之文字列索引,執行檢索語之文字列檢索或單語2 索、或文字列檢索與單語檢索。 ° 因此’在-個裝置中,利用-個索引,可執行單語檢 索及文字列檢索,且可防止遺漏檢索,並可減低檢索雜訊: 〔發明之實施形態〕 本發明之申請專利範圍第丨項所記載之發明,係在 以全文檢索正文資料之情報檢索方法中,將檢索對象正 文’分割成單語單位;從分割成單語單位之正文,製作具 有表示單語之區切的單語資訊,文字數為Ν之具有單二 訊=文字列索引;從該具有單語資訊之文字列索引,= 文子列檢索或單語檢索、或文字列檢索與單語檢索,檢索 檢索語者’利用一個具有單語資訊之文字列索引,可執行 =索與文字繼’且可防止遺漏檢索,並可減低檢 :請專利範圍第2項所記載之發明,係 對象正文之單語之前,付與單語始端記號, 付與單語終端記號, 早。之後 輩……… 索對象正文’分割成單語 t卢及t以早語單位之正文,製作具有表示單語始端 及早语終端記號之單語資訊,文字數為N之具有單,五 貧訊之文字列索引者, 八有早- 少檢索雜訊。㈣別早语之始端與終端,可減申請專利_3項所記載之發明,係在具有單語資 請 用 正 資 丨本紙張—用
五、發明說明(6 ) 说之文字列索引,對於第1文字,當在該文字之前,有單 邊始端€號之場合’具有表示該情事之單語資訊,·當在該 文=之後,有單語終端記號之場合,具有表示該情事之單 浯貝訊’對於第2文字以後,當僅在該文字之後,有單語 =端記號之場合,具有表示該情事之單語資訊者,因減少 弟2文字以後之始端資訊’在不影響檢索速度下,可縮小 索引又,因在第1文字具有始端資訊及終端資訊,故亦 可對應僅1文字之檢索語之檢索。 申請專利範圍第4項所記載之發明,係從具有單語資 Λ之文字列索引,配合用以發現檢索語之單語的單語檢 索,及用以發現檢索語之文字列的文字列檢索,執行檢索 者,對於各檢索語’可同時執行:用以發現該單語之單語 檢索;及將單語視為文字列之文字列檢索。 〜申請專利範圍第5項所記載之發明,係將檢索語之文 字歹】刀剎成文字數Ν之部份檢索文字列,從該具有單語 貧訊之文字列索引,檢索與各部份檢索文字列一致之文字 列:當檢索出之各文字列’在檢索對象正文上,具有連續 哇枯,則判斷該檢索語之文字列,為被檢索出者;當檢索 /、I 3 4檢索語之最初文字的部份檢索文字列、或包含該 ¥索浯之最後文字的部份檢索文字列一致之文字列的場 合,在判斷材料中,加入該最初之文字前或該最後之文字 後的單語資訊,判斷一致性,藉此,檢索檢索語之單語者, 可同時執行單語檢索與文字列檢索。 申清專利範圍第6項所記載之發明,係利用單語檢 Μ--------^------— (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製
501029 A7 濟 部 智 慧 局 員 工 消 費 合 作 社 印 製 五、發明說明(7 ) 從具有單語資訊之文字列索引,檢索:與檢索語之單語完 全-致之單語;與檢索語之單語完全一致及前方一致之單 語;錢索語之單語完全一致及後方一致之單語;與檢索 -之單僅則方-致之單語;或’與檢索語之單語僅後方 -致之單語者,選擇最初文字前之單語資訊或最後文字後 之單語資訊,作為-致性之判斷材料,藉此,可形成各種 之單語檢索。 申請專利範圍第7項所記載之發明,係從分割成單語 早位之該正文,刪除不要語之前後的單語資訊,製作且有 早語資訊之文字列索引者,在單語檢索中,不會單獨檢 不要語部份,可減少檢索雜訊。 申請專利範圍第8項所記載之發明,係從分割成單 早位,檢索對象正文,刪除不要語之前的單語始端記號及 不要語之後的單語終端記號,且從分割成該單語單位之正 文’ ^作具有單語資訊之文字列索引者,可製作去除不 语之喊的單語f訊之具有單語資訊之文字列索引。 =專利範圍第9項所記載之發明,係選擇不能單獨 ^為仏索對象語之單語’作為不要語者,可減少單語檢索 日守之檢索雜訊。 .、 申請專利範圍第1〇項所記載之發明,係根據單狂之 ^^決^不要語者,W助詞、助動詞 '感動詞等, 作為不要§吾。 申請專利範圍第η項所記載之發明,係選擇由平假名 -文子或平假名二文字所構成之罩語,作為不要語者 索 語 及 要 線 品 可 張尺度適財關家標準(CNS):規格⑽χ挪公髮- 五、發明說明(8) 減少檢索雜訊。 …職固弟12項所記載之發明,係根據輸至檢旁 對象正文資料巾之單語Μ現解,蚊料不要語之写 語者,可有效地減少檢索雜訊。 項所㈣之發明,係從具有單語^ 訊之文字财引,檢索與包含檢索語之最初文字的部份相 索文字列或包含檢索語之最後文字的部份檢索文字列一穷 之文字列的場合’在判斷材料中’加入表示最初文字之甫 1 單語始Γ己號之單語資訊或表示最後文字之後的單語约 知。己號之早而判斷_致性;當檢索與其他之部伤 檢索文字列—致之文字列的場合,在判斷材料中,不加Λ 卜吾育訊者’亦可單語檢索,如「繪0具」之挾有不要語 「0」之單語。 經濟部智慧財產局員工消費合作社印製 π申:專利範圍第Μ項所記載之發明,係從分割成單語 之h索對象正文’去除接頭辭之後的單語終端記號及 妾尾辭之前的單語始端記號,且從分割成該單語單位之正 文:製作具有單語資訊之文字列索引者,不會單獨檢索接 :辭或接尾辭’作為單語’可減少檢索雜訊…益論在 是否付有接頭辭或接尾辭,均可檢索,故可防止遺 漏檢索。 申請相制第15項所記載之發明,係㈣單語之品 :接=作為接頭辭及接尾辭之語者,可—律決定接頭辭 申請專利範_16項耽狀”.,㈣為接尾辭之 x 297公釐) 本紙張尺度義準(CNS)A4規格(2i 501029
I 五、發明說明(9) π係根據在榀索對象貧料中,該語出現於數字之後的頻 率决疋者出現於數值之後的語,數值之單位的可能性較 高。 申請專利範圍第17項所記載之發明,係根據檢索語之 檢索結果,將對檢索對象正文之檢索語的適合度數值化, 且根據獲得之數值,對各檢索對象正文付與順序,並依該 順序排列提示各檢索對象正文者,對使用者而言,可從必 要之檢索結果,開始察看。 申請專利範18項所記載之發明,係配合用以發現 檢索語之單語的單語檢索,及用以發現單語之文字列的文 字列檢索,從檢索對象正文,執行各檢索語之檢索,並將 該雙方之檢索結果,付與加權並分別數值化者,適當地評 價兩方之檢索結果’藉此,可以有效地閱覽檢索結果,並 可防止遺漏檢索之發生。 申請專利範圍第項所記載之發明,係對利用單語檢 索之檢索結果,付與比利用文字列檢索之檢索結果,較大 之加權’並作數值化處理,使利用單語檢索發現檢索語之 檢索對象正文’比僅利用文字列檢索發現檢索語之文字 之檢索對象正文’付與較上位之順序者,可付與順序, 有效閱覽檢索結果。 、申請專利範圍㈣項所記載之發明,料㈣單語檢 索’從檢索對象正文’檢索與檢索語之單語完全一致之 語、前方-致之單語或後方_致之單語時的檢索結果, 別付與不同之加權,並作數值化處理者,可付與順序, 列 以 單分 以 本紙張尺度適財國國家標準(CNS)A4規格(210 X 297公楚一 發明說明(10 ) 有效閱覽檢索結果。 =專㈣圍第21項所記載之發明,係對利用單語檢 c结果’付與不同之加權’並作數值化處理,使檢 索r在與檢索語之單語完全一致之單語、前方一致之單 後方-致之單語之間’指定順位時,對發現第丨順 立之早語的檢索對象正文’付與最上位之順序:對發現第 2順位之單㈣檢索縣正文,付與其次之财;對僅發 現第3順位之單語的檢索對象正文,付與再其次之順序者, 可付與順序,以有效閱覽檢索結果。 申請專利範㈣22項所記載之發明,料各種檢索結 果,付與不同之加權,並作數值化處理,使在發現第】順 位之早语的檢索對象正文之間’依第〗順位之單語的檢索 數較多之順序,付與順序;在發現第2順位之單語的檢索 對象正文之間,依第2順位之單語的檢索數較多之順序, 付與順序:在僅發現第3順位之單語的檢索對象正文之間, 依第3順位之單語的檢索數較多之順序,付與順序;且, 在僅利用文字列檢索發現檢索語之文字列的檢索對象正文 之間’依該文字列之檢索數較多之順序,付與順序者,可 付與順序,以有㈣覽檢索、结果,又,為防止遺漏檢索, 故可留下檢索之適合度較低之檢索結果。 申請專利範圍第23項所記載之發明,係根據:利用單 語檢索檢索出之,與檢索語之單語完全一致之單語、前方 -致之單語、或後方一致之單語的檢索數,與利用文字列 檢索檢索出之檢索語之文字列的檢索數之比,估計檢索對 發明說明(11 ) 象正文之單語分割 文之順序者,當對 度下降。 之精度,並使該精度反映於檢索對象正 正文付與順料,可修正單語分割之精 語之項所記載之發明,係洲多數檢索 二結合’付與檢索語之場合,對各檢索語之檢索結 仃數值化’亚整合該等結果,對檢索縣正文付 ^順序者’在由多數之檢索語之邏輯結合所構成之檢索式 的場合’可付與順序’以有效閱覽檢索結果。 申請專利範圍第25項所記載之發明,係用以全文檢索 正文貧料之情報檢索裝置中,包含·· 檢索對象資料記憶單元,用以記憶檢索對象正文; 位.正文㈣單元’用以將檢索對象正文,分割成單語單 單。。刀正文屺憶單元,用以儲存分割成單語單位之 正文; 八有單資讯之文字列索引製作單元,用以從分割成 單-單位之正文’製作具有表示單語之區切的單語資訊, 文字數為N之具有單語資訊之文字列索引; 一有單貝讯之文字列索引記憶單元,用以記憶製成 之具有單語資訊之文字列索引;及, 具有單語資訊之文字列索引檢索單元,係利用具有單 -貝。fl之文字列索引,執行檢索語之文字列檢索或單語檢 索、或文子列與單語之檢索者,以_個裝置,實現單語檢 索與文字列檢索,可防止遺漏檢索,且可減低檢索。 501029 五、發明說明(η) 圍弟26項所記載之發明,係正 元,利用在包含於檢索料正文之單語之前,料單^ 端記號,在單語之後,付與 。。 正文,八宝〜· 。己號’而將檢索對象 制作」\…’且’具有單語資訊之文字列索引 -乍早一“!成單語單位之正文,製成具有 住 :端:己號及單語終端記號之單語資訊,文字數為N之二 早语貝讯之文字列索引者,藉由區別單語之始端與終端, 可減少單語檢索之檢索雜訊。 申請專利範㈣27項所記载之發明,係具有單語資訊 單元’作為單語資訊’係對具有單語資 :之文字列索引之第1文字,在該文字之前,具有單語始 ^己號之場合,設有心表㈣情事之單語資訊,且在該 ^子之後’具有單語終端記號之場合,設有用以表示該情 事之單語資訊;對於第2文字以後,僅在該文字之後,1 有單語終端記號之場合,設有心表示該情事之單語資訊 、口減v第2文字以後之始端資訊,不會影響檢索速度, 了縮小索引’且在第!文字具有始端資訊及終端資訊,藉 此,可執行1文字之檢索語的單語檢索。 經濟部智慧財產局員工消費合作社印製 申請專觀®㈣項所記載n係具有單語資訊 之文字列索引檢索單元’利用具有單語資訊之文字列索 引:配合:用以發現檢索語之單語的單語檢索,及用以發 現=索#之文字㈣文字列檢索,執行財者,對於各檢 索可同日τ執行用以發現該單語之單語檢索及將單語視 為文字列之文字列檢索。 本紙張尺度適用中國國家標準(CNS)A4規格⑽χ挪公愛) 501029 語 字 文 之 A7 五、發明說明(13 ) 利耙圍弟29項所記載之發明 之文字列索引檢索單元,從 、有早。。貝。fl 索,將檢索語之文 ;、有早5。資訊之文字列索引檢
==檢索文字列-致之文字列,當檢索出之I 文上’具有連續性時,判斷檢索 之文子列為被檢索出者,當檢索與包含檢索語之最初= 列或包含檢索語之最後文字的部份檢索 子列時’在判斷材料中,加入該最初文字 前或最後文字之後的單語資訊,而判斷一致性,藉此, 索檢索,吾之早語者,可同時執行單語檢索與文字列檢索 申請專利範圍第3〇钱記狀發明,係具有單語資訊 之文字列索引檢索單元,利用單語檢索,檢索:與檢索語 之早語完全一致之單語、與檢索語之單語完全-致及前方 :致之單語、與檢索語之單語完全—致及後方一致之單 語、與檢索語之單語僅前方一致之單語、或與檢索語之單 =僅後方-致之I語者,選擇最初文字之前的單語資訊或 最後文字之後的單語資訊’作為一致性之判斷材料,藉此, 可執行各種單語檢索。 申請專利範圍第31項所記載之發明,設有:不要語區 切刪除果元,係用以刪除,付於分割成單語單位之正文的 單語始端記號及單語終端記號之中,不能單獨成為檢索對 象^之不要a吾之兩後的單語始端記號及單語終端記號者, 在單語檢索中,可以不單獨檢索不要語部份,且可減少檢 索雜訊。 ^紙張尺度適用中國國家標準(CNS)A4規格(21G X 297公釐— -----^------------I -------- (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 501029 五、發明說明(Η) 申請專利範圍第32項 對於包含在檢索對象正文之單 ^ ’正文分割單元, 可 對象語之單語,不分割成單_者:=:=為檢索 以不單獨檢索 ““索中’ 由咬奎” &且可減少檢索雜訊。 申明專利範圍第33項所 切刪除單元,俜用 卜 x明’設有··接辭語區 單語始端記號及單語炊端卞节夕士 &早°°早位之正文的 端記號及接尾辭之、 接頭辭之後的單語終 接毛辭之刚的早語始端記號者 頭辭或接尾辭作為單語,可減 :早㈣索接 ^疋否付有接雌或接絲,均可單語料,故可防止 运漏檢索。 申請專利範圍第34項之發明,正文分割單元,對於包 含在檢索對象正文之接頭辭,僅付與單語始端記號,對於 接尾辭1付與單語終端記號者,不需刪除接辭語區切。 申請專利範圍第3 5項之發明,設有·· 檢索結果數值化單元,係用以由檢索之適合度,將檢 索結果作數值化處理;及, 經濟部智慧財產局員工消費合作社印製 檢索結果順序化單元,係根據檢索結果數值化單元付 與各檢索對象正文之檢索結果的數值,付與各檢索對象正 文之順序’ 使用者可依需要之順序,有效地觀察檢索結果。 申請專利範圍第36項所記載之發明,檢索結果數值化 單元,對於利用單語檢索之檢索結果,付與較利用文字列 檢索之檢索結果大的加權,並做數值化處理,使利用單語 17 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) A7 經濟部智慧財產局員工消費合作社印製 五、發明說明(I5 ) 檢㈣現檢索語之檢索對象正文,較㈣敎字列檢索發 現檢索語之文字列的檢索對象正文,位於較上位之順序’ 檢索結果順序化單元,可對正文付與順序,供使用 從而要之檢索結果,依序觀察。 一申請專利範圍第37項所記載之發明,檢索結果數值化 L疋’對於制單語檢索,從檢索對象正文,檢出:與檢 ,、語之單語完全一致之單語、前方一致之單語、或後方一 致之早語時之檢索結果,分別付與不同之加權,並做數值 化處理,因此,檢索結果順序化單元,可對正文付鱼順序, 供使用者從需要之檢索結果,依序觀察。 、、 …申請專利範㈣38項所記狀發明,檢索結果數值化 早凡,對於利用單語檢索之檢索結果,付與不同之加權, 並做數值化處理,檢索時,當在與檢索語之單往完全一 之單語'前方一致之單語'及後方一致之單語之間,指〜 順位時,對發現第】順位之單語的檢索對象正文,付與最 上位之順序;對發現第2順位之單語的檢索對象正文, 與其次之触;對僅發現第3順位之單語的檢㈣象正文. 付與再其次之順位,因此,檢索結果順序化單元,可對正 文付與順序’供使用者從需要之檢索結果,依序觀察。 一申請專㈣圍㈣項所記載之發明,檢索結果數值化 早疋,對各種檢索結果,付與不同之加權,並作數值化處 理,使在發現第1順位之單語的檢索對象正文之間,依 順位之單語的檢索數較多之順序,付與順序;在發現W 順位之單語的檢索對象正文之間,依第2順位之單語的檢 致 定 付 第1 第2
’ I----- ! t*!--· I (請先閱讀背面之注意事項再填寫本頁) 五、發明說明(l6 ) :數較多之順序,付與順序;在僅發現第3順位< 平㈣ 檢索對象正文之間,依第3順位之單語的檢索數較多之沖 序付與順序,因此,檢索結果順序化單元,可對正文利 ”頃序供使用者從需要之檢索結果,依序觀察。又,為 方止m漏才双索,對於檢索之適合度較低之檢索結果,亦付 與較下位之順序,可供觀察。 申凊專利Ιέ®第40項所記載之發明,檢索結果順序化 早凡,根據··利用單語檢索財出之,與㈣語之單語完 全-致之單語、前方_致之單語、錢方_致之單語的檢 索數,與利用文字列檢索檢索出之檢索語之文字列的檢索 數之比’估計檢索對象正文之單語分割之精度,並使該精 度反映於檢索對象正文之順序,當對正文付與順序時,可 修正單語分割之精度降低。 以下,利用圖式說明本發明之實施形態。 (第1實施形態) 經濟部智慧財產局員工消費合作社印製 如第1圖所不,第丨實施形態之情報檢索裝置,包含: 檢索對象資料記憶單元101,係用以儲存檢索對象之正文 貝料,正文分割單元丨02,係用以將檢索對象之正文資料, 分割成單語;單語分割正文記憶單元103,係用以保存分 割成單語單位之正文資料;具有單語資訊之文字列索引製 作單元104,係以分割成單語單位之正文為基礎,製作具 有單語資訊之文字列索引;具有單語資訊之文字列索引記 本紙張尺度適用中國國定德進ίΓΓΝΚ、Δ/ί iB 44,01Λ u 501029 A7 等 則 石馬 五、發明說明 憶單元H)W系用以記憶製成之索引;及,具有單語資吼 之文字列索引檢索單元106,係利用具有單語 立: 列索引,進行檢索。 子 該情報檢索裝置,利用電腦所構成。檢索對象資料記 W卜單語分割正文記憶單元1〇3、及,具有單語資 说之文字列索引記憶單it 1G5,可利用電腦之記憶裝 硬碟裝置實現。其他之單元,可由電狀料機構構成: 该實施形態之檢索對象為文書,儲存於檢索對象資料 記憶單元1G1 °每—文書’分別附與檢索對象文書號碼 之號碼,並儲存。當給予檢索對象文字列(檢索條们, 包含该文字列之文書號碼,或文書中之位置’或文書號 與文書中之位置,利用檢索而特定。 利用具有單語資訊之文字列索引製作單元104所製成 之具有單語資訊之文字列索m含單語分割點資訊之 文字列索引。文字列索引’係集合檢索對象資料中之全部 的長度N之文字列的索引,係'習知料全文檢索使用者。 具有單語資訊之文字列索引’基本上係作成文字列索引之 形式者’但於其各文字之前後’附加有用以表示單語之分 割點的單語資訊者。文字列索引之長度N,可取!以上之 整數值’但在以下之說明中,係以N=2之場合為例,詳 細說明。 有關如上構成之全文檢索裝置,茲說明其動作。利用 第2圖,表示全體之流程。全體之流程,可大略分成資料 之登錄處理與檢索處理。資料之登錄處理,可分成:正文 — · .—----^---------^ (請先閲讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製
五、發明說明(π) 之單語分割處理(步驟2〇1);及,索引製作處理(步驟202)。 首先,說明資料登錄處理。 _第2圖之步驟201之正文分割處理,係利用正文分割單 凡102 ’將儲存於檢索對象資料記憶單元1G1之全部檢索对 象資料,分割成單語單位,並良存於單語分割正文記憶單 凡103之處理。分割可採用構詞分析、或由統計性手法所 產生之單語分財。單語分財法,並無特別限定。 利用正文分割處理,可將如第3圖之3〇1的正文,分^ ^如第3圖之3〇2。於此,為方便計,使用單語分割記號^ 貫際上,在正文中,亦有可能出?見記號Τ,故在正文中, :要含有記號,V.·’㈣正文中,含人不出現之特殊文字 杈式,或以適於分割之資料形成式表現。 第2圖之步驟202之索引製作處理,係利用具有單任資 訊之文字列索引製作單元104 ,從儲存於單語分割正文亏己 憶單元1〇3之全部資料,製作具有單語資訊之文字列索引, 且儲存於具有單語資訊之文字列索引記憶單元1〇5之處 理對於全部之文書’返覆進行步驟2〇ι與步驟加。 利用第3圖’以索引之文字列長Ν=2之場合以例,說 明該具有單語資訊之文字列索引。如第3圖之3〇2所示,從 分割之正文,取出長度2之全部的文字列,則可取出:「本 發」、「發明」、「明①」、「❼實」、「實施」、「施以」、「丨汰、」. 之7種。以各該文字列’製作索引。在索引中,如習知之 方式(第22圖),分別記錄:文字列、文書號碼、文字位置, 此外,亦附加有關該文字列接於何種單語境界之 資 501029 工 五、發明說明(l9 本紙張尺度適用巧國家標準(CNS)A4規格(2£ A7 B7 訊 是否接於單語之境界的單語資訊,包含: 之前,具有單語境界(單語區切);在第—文字與第二文^ 之間’具有單語境界;在第二文字之後,具有單, 之資訊’如何具有該單語資訊,依實現方法而異。舉· 言,在第4圖中,利用以0或1表現之旗標的形式,保有言! 三種資訊。「本發」之場合,如Γ/本/發」,在第一文字「本 之f,及,在第一文字「本」與第二文字「發」之:,具 有早吾i兄界,在第二文字之後,無單語境界,故旗標為 「110」。 如此,在以旗標表示單語資訊之場合,於表現資訊時, 僅需1位元,故可縮小索引。 如此衣成之索引,以文字列作為關鍵字分類,且利用 散列(Hash)化表管理,並以僅給第一文字、或第一文字第 :文字’即可檢索之形式,預先儲存於具有單語資訊之文 字列索引記憶單元105。 其次’說明第2圖之檢索處理(步驟2〇3)。 於第5圖表示檢索處理之詳細流程。 具有單語資訊之文字列索引檢索單元1〇6,可實現·· U)中間一致:不辯識單語境界之習知的文字列全文 檢索功能; (2)單語檢索:辯識單語境界之全文檢索功能, 之二種類的檢索方法。在單語檢索中,可以有以下5種檢 索方法,即,檢索完全一致之單語的場令之「完全一致」; x 297公釐)
J . MW------— It--------- (請先閱讀背面之注意事項再填寫本頁) 501029
五、發明說明(2〇) 經 濟 部 智 慧 財 產 局 員 X 消 費 合 作 社 印 製 組合檢索完全—致之單語及前方-致之單語的場合之「包 含完全-致之前方-纟」;組合檢索完全一致之單語及後 方-致之單語的場合之「包含完全—致之後.方—致」:檢 索不包含完全-致之單語僅前方一致之單語的場合之「不 包含完全-致之前方一致」;及,檢索不包含完全一致之 單語僅後方-致之單語的場合之「以含致之金方 一致」。 百先’說明完全-致之場合的檢索方法。 步驟5G1 ·以索引之文字列的長度(在例令為2) ’從前 面開始分割檢索文字列’並記憶各文字列從最初之文字 起,從第幾文字開始。分解後之檢索文字列,稱為部份檢 索文字列。例如,將檢索文字列「全文檢索裝置」,分割 成「全文」、「檢索 、「駐要 -從 . 、 = '、衣置」二種之部份檢索文字列,分 別成為從最初之文字故g 〇# 人子起弟(h虎、弟2號、第4號。此時,以 N不能切割檢索文字列之場合,可分割成部份重疊,且以 部份檢索文字列之集合_定要能含蓋原來之全部檢索文字 列之方式,取出N文字之組,,「檢索文字列」之單 語,可分割成「檢索」、「文字」、「字列」,並分別為第〇號、 第2號、第3號。此時,亦可分解成「檢索」、「索文」、「字 列」,但,最好是盡可能分割成較小之探索空間。步驟502 :對於利用步驟5〇1取出之全部的部份檢索文字列’檢索具有單語資訊之文字列索引,且取出該當之文 字列有關k大里之索引檢索目的語之方法,可以使用既 知之方法。當取出該該當之文字列時,換索文字列為 m I本紙張尺度適用中_家標準χ 297公爱
----------- — (請先閱讀背面之注意事項再填寫本頁) 訂· •線 501029 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(21 ) 之全文牙双索裝置」之場合,對 田、 才方;其取初之部份檢索文< 列「全文」,參照索引之第—文 … _ 又子為早浯之開始的旗標, 旗標不成立者,即為不該杏。π 本—「 哀田同時,對於其最後之部份抬 索文字列「裝置」,參照索引之楚 ^ ^ 系5丨之弟二文字是否為單語之奸 束的旗標,旗標不成立者,即為不該當。對於其他之部份 檢索文字列(於此例,為文字列「檢索」),僅發現文字之 一致’即不調查旗標。 步驟5〇3:對於如此取出之索引,調查索引之檢索對 象文書號碼與文書中之文字列的位置,以評價連續性。檢 索文字列為「全文檢索裝置」之場合,「全文」、「檢索」、 :裝置」為相同文書號碼,文字列「全文」之出現位置為 弟X文字時,文字列「檢索」之出現位置為第文字、 文子列「裝置」之出現位置為第χ+4文字之場合,即判斷 該文書中含有「全文檢索裝置」之單語。 以上係完全一致之場合的檢索方法,對於前方一致等 之檢索,可利用第6圖所示表之方式,進行步驟5〇2之索引 與部份檢索文字列之照合處理,而實現。 完全一致係檢索文字列之第一文字為單語之開始,而 才双索文子列之隶後文子為單語之結束。此可在部份檢索文 子列與索引之照合時’利用索引之旗標確認。 ^包含完全一致之前方一致,係確認僅檢索文字列之第 一文字為單語之開始。 包含完全一致之後方一致,係確認僅檢索文字列之最 後的文字為單語之結束。 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
iw I n I *1 I I I - I I I f請先閱讀背面之注意亊項再填寫本頁) -—ms 訂---------線- 501029
五、發明說明(22 工 不包含凡全一致之丽方一致,係確認檢索文字列之第 文字為單語之開始,而檢索文字列之最後的文字不為單 語之結束。 不包含7L全一致之後方一致,係確認檢索文字列之第 -文子不為單語之開始,而檢索文字列之最後的文字為單 S吾之結束。 中間致,係然視單語之開始或結束,而作照合之 作。 中間一致,因不辯識單語之境界,與習知之全文檢索 一樣,可檢索任意之文字列。 藉由如此之照合處理,可減低檢索雜訊。 又,於此敘述了長檢索文字列之例,但於檢索文字列 為一文字,或一文字之場合,利用上述索引構造,亦可支 應各種檢索要求。 如上述,在本實施形態之情報檢索裝置,正文分割單 元102將檢索對象資料分割成單語;然後,具有單語資訊 之文字列索引製作單元104,製作具有單語之開始與結束 之資訊的文字列索引之具有單語資訊之文字列索引;具有 單語資訊之文字列索引檢索單元1〇6,檢索該索引;藉此, 利用一個裝置可實現單語檢索及全文檢索。 利用個裝置貫現單語檢索及全文檢索,故可適時靈 活使用檢索方式,選擇降低檢索雜訊之完全一致檢索(單 語檢索),且因不會遺漏檢索,故可選擇中間一致檢索, 此外’可適時選擇前方一致或後方一致。 -------------裝 — II 訂·! ·線 rtt先閱磧背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製
經濟部智慧財產局員工消費合作社印製
501029 五、發明說明(23) 進而’因基本hx全文檢索作為基礎,故即使檢索戈 字列為複合語之場合,亦不需將檢索文字列分割成單語。
因此,在索引製作時及檢索時,不會發生變更分割基準, 而檢索失敗之問題。 J 又單扣“素與全文檢索,使用一個索引,故與分別 使用索引之方式相比,可減少索引量,因此,可縮小探索 空間,而增大其實用效果。 (第2實施形態) 第2實施形態之情報檢索裝置,刪除位於索引之文字 歹j的不要扣之月ij後的單語區切,藉此,降低單語檢索之檢 索雜訊。 如第7圖所示’該裝置包含:不要語區切刪除單元ι〇7 , 係用以從正文分割單元102所分割之文字列,刪除不要語 之雨後的單語區切。其他之構造,與第】實施形態⑻圖) 無異。該不要語區切刪除單元107,由電腦之計算機構所 構成。 以下說明該全文檢索裝置之動作。第8圖表示全體之 流程。全體之流程,可大略分為資料之登錄處理與檢索處 理。資料之登錄處理,可分為:正文之單語分割處理(步 驟801);不要語區切刪除處理(步驟8〇2);索引製作處理(步 驟803)。 第8圖之步驟8〇1(正文分割處理),與第!實施形態之 步驟201之正文分割處理一樣,正文分割單元ι〇2分割正 文’但分—割之正文並非單純地區切成單語,而係以明示單 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
26 501029
濟 部 智 慧 財 產 局 員 工 消 費 社 印 製 語之始端與終端之形式區切。例如,第9圖之9〇1所示「本 發明0實施ii、」之正文’區切成如第9圖之9〇2。 “於此,方便上使用單語始端記號“[”及單語終端記 號“]”。實際上’在正文中’亦有可能出現該等記號, 故:正文中’不加入記號’而以加入不出現於正文之特殊 文字碼、或適於分割之資料形式表現。 第8圖之步驟8G2(不要語區切刪除處理),不要語區切 刪除單元107,從區切後之正文中,刪除非作為檢索之對 象語之語(不要語)之前後的單語始端記號及單語終端記 號。有關欺不要語,係如習知之方法,準備不要語辭典, 找出不要語。又’其他之方法,有使用品詞資訊者,助詞、 助動詞、指示詞、判定詞、接續詞、感動詞等為不要語。 進而’亦有以下之方法’並非利用構詞分析,而係利用 j手法,執行單語分割之場合,並不使用品詞資訊,故 平假名之一文字,或平假名之二文字作為不要語。又, 有,tf*!df法等,以單語之出現頻率,判斷單語之重要度 以特定不要語,利用該等方法,可判定不要語。 第9圖之902之單語分割後之正文中,被視為不要者,為「0K」、「、」。 單語分割結果之正文,利用步驟8〇2,刪除不要語 月後的單語始終端記號之結果,為第9圖之9〇3。單語「① 統 以 亦 語 之 ^-------I -------^ (請先閱讀背面之注意事項再填寫本頁) ii 丨、「 被刪除。 在第8圖之步驟803(索引製作處理),與第丨實施形態 之索引製作處理一樣,具有單語資訊之文字列索引製作單 本紙張尺度適用中國國家標準(cns)A4規格⑵“挪公爱 501029 A7 五、發明說明(25
I 員 工 消 費 =’係用以製作索引者,但單語資訊應變更成可辯識 早b之始端與終端者。 始嗎在=貪訊中’有以下之資訊:第一文字為單語之開 :二!字為。單語之結束嗎;第二文字為單語之開始 ,…,弟一文子為皁語之結束嗎?如何保有該等資訊,依趣 現方法而異。在第1〇圖’舉例而言,以旗標之形式,保Λ 第一文字為單語之開始嗎9第一文字為單語之結束嗎9第 文子為早語之結束嗎?之三種資訊。因做成旗標,故在 :貢訊上’僅需要!位元,可縮小索引…因僅第一又 ^保有單語之始端與終端之資訊,故檢索語村對應於僅 ^字之場合的檢索。因保有第_文字之始端資訊與第二 文子之終端資訊’故在檢索文字列為二文字之場合,僅利 用一種類之索引的檢索,即可完成檢索。因減少第二文 之始端資訊,故不會影響檢索速度,而可縮小索引。 第8圖之步驟801至步驟8〇3之處理’返覆執行登錄 全部文書。 第8圖之步驟804(檢索處理),與第〗實施形態之處 一樣’檢索時’係檢查單語始端或單語終端,以變更檢 早語境界後之處理,藉此,實現檢索處理。 利用以上之處理,刪除不要語之單語區切時,即不苜 因早語檢索(完全-致檢索等)單獨選出該不要語,可減少 檢索雜訊。然而,纟中間_致檢索(文字列檢索)時,此 不要浯亦會被選出,故不會遺漏檢索,可發現任意之文 列0 有 表 文 字 之 線 查 會 種 字 印 本紙張尺心用中國國家標準(CNS)A4 ^格⑽χ 297公髮) 五 、發明說明(26) 進而,利用單語檢索(完全一致檢索等),、可檢索包含 之文子列。檢索第9圖之例所示之「本發明①實施 之文字列。在該文字列中,包含不要語之「❼」,但 ?本::明之早語檢索(完全一致等),不會將檢索文字列分 ^成㈣單位’分割成依存於索引之敎字之長度而檢 ,、,猎此,檢視檢索文字列之最初與最後之文字,是否分 別與單語之始端、單語之終端一致。 亦即,利用習知之單語檢索,檢索「本發明⑦實施」, 則從「本發明0實施」之中’僅取出單語之「本發明」、「實 施」,從單語索引中,僅檢索該等單語,因此,會有檢索 「本發額實施」之情事。又,利用簡 &早語之位置關係之照合的單語檢索方式,則會檢索「本 备明」與「實施」出現在分離處所之文書。 然而,利用本發明之方法,進行發明;> 實施」之 =列的文字列檢索,則會檢查在f料料之「本發明0 貝知」之前後,是否有單語區切(不檢查其中間之單語區 切)’故被視為不要語之語,亦可正確地反映於檢索。 例如,以「京㈣町」檢索時,利用習知之單語檢索, :成為「京都」與「町」之娜檢索,而檢出大量的結 =利用單純之文字列全文檢索(中間—致),亦會檢出「東 去㈣町田市」’但利用本發明之方式,可正確地檢出「京 都”」’且可刪除「東京都”田市」之㈣。 此種特徵,具有可彌補單語分割錯誤之如下的效果。 例如,將正文 501029 A7 B7 五、發明說明(27 f «繪①具0色丨i綠S。 分割成單語時,會將本來應分割成 〔f①〕〔繪0具〕〔①〕〔色 錯誤分割成 〕〔綠〕之處’ i 德胪〜T ,、 〕〔色〕〔ίί〕〔綠〕〔S〕 :要語’並刪除其前後之區切記號之結果, …繪〕0〔具〕0〔色〕丨“綠K。 利用習知之單語檢索技術,僅製作 會製成「泠丨「1 「么Γ 口之早„口京引, 星 」具」色」「綠」4種索引。因此,以、 ,、」早語檢索時,依檢索方式 ' 飞之不同,可能會不能檢出 文’或U「社具」「繪^具」等之錯誤正文。 此㈣語分割之精度,對料精度產^良:。然而’利用本發明之方式,如上述之說明,對本正文 亦可檢出「繪(7)且 宋 ,、」之文子列,僅調查其前後,即,在〔< =有單語始端’在〔具〕之後,有單語終端,而不 中間是什麼’故利用單語檢索,亦可正確地檢出 中間包含被視為不要語之語。 又在本貝把形癌,說明了’在步驟8〇 !,正文分 正文分割成單語後,在步獅2,不要語區切刪 107刪除不要語前後之單語區切,的二階段之方式, 但’若正文分割單元可辯識不要語且分割的話,不輸;出 要之單語始端終端記號,以—階段,可完成該處理。有明 正文分割單元辯識不要語之方法’有:使用品詞資訊之方 成 則 該 訂 之 繪〕 調 在 線 不 有關 本紙張尺fit用中“豕標準(CNS)A4規格⑽χ_2^^ A7
法,或,將一文字平假名判斷為不要之方法。 。如上所述,本實施形態,在步驟8〇2,不要語區切刪 除單元1G7,並非刪除不要語本身,而係僅刪除不要語前 後之單語始終端記號。藉此,單語檢索不會單獨檢出不要 語部份,但檢索語包含不要語之場合,可正確檢出,且可 刪減單語檢索中之雜訊。與其同時,可執抒補正單語分割 之精度惡劣後之單語檢索,其實用性之效果甚大。 (第3實施形態) 第3實施形態之情報檢索裝置,刪除位於索引文字列 之接頭語或接尾語之前後的單語區切,藉此,減少單語檢 索中之檢索雜訊。 如第U圖所示,該裝置包含:接辭語區切删除單元 108,係從正文分割單元1()2所分割文字列,刪除附加於接 辭語之區切的一方。其他之構造,與第2實施形態(第7圖 無異。該接辭語區切刪除單元108,由電腦之計算機構所 構成。又,所謂接辭語,係指接頭辭與接尾辭。 以下,說明該全文檢索裝置之動作。第丨2圖表示全體 之流程。全體之流程,可大略區分為:資料之登錄處㈣ 檢索處理。資料之登錄處理可分為:正文之單語分割處理 (步驟12G1);不要語區切刪除處理(步驟12G2);接辭任區 切刪除處理(步驟削);及,索引製作處理(步㈣〇4)— 第_之步驟12(Π(正文分割處理)、步驟m2(不要 語區切刪除處理),與第2實施形態相同。 第12圖之步驟1203(接辭語區切刪除處理),係接 501029 A7 五、發明說明(29 ) 區=刪除早几⑽,從單語之中,刪除接辭語之區切的一 ^伤接頭辭之场合,係冊j除接頭辭之後的單語終端記號,· 接尾辭之場合,係刪除接尾辭之前的單語始端記號。 利用第13圖之例,加以說明,第13⑷圖之正文,區 切成單語’並刪除不要語之單語區切,形成第_)圖。 於此,「東京都」之「都」為接尾辭;「前知事」之「前」‘ 為接頭辭刪除㈣之單語始端記號,或單語終端記號, 則可得到第13(c)圖。 第12圖之步驟丨204(索引製作處理),與第2實施形態 中之處理一樣。步驟1201至步驟1204之處理,係返覆於各 登錄文書。 第12圖之步驟12〇5的檢索處理,與第2實施形態中之 處理一樣。 〜 利用以上之處理,刪除接辭語之單語區切後之場合, 利用單語檢索(完全-致檢索),並不會單獨檢出接辭語本 身,故可減少檢索雜訊。然而,接辭語所連接之單語,不 論是單語單獨,或接辭語連接之形式,均可單語檢:。 經濟部智慧財產局員工消費合作社印製 使用第14圖,說明該樣式。對第13圖之例的2文「東 京都0前知事0青島氏」,以「東京」檢索之場合,如第Μ⑷ 圖,因在「東京」之前後,具有單語始端記號與單語終端 記號,故可以完全一致檢出。又,對相同之正文,以「東 京都」檢索之場合,如第14(b)圖,因在r東亨都 、, 後’具有單語始端記號與單語終端記號,故可以完入至 檢出。此係因利用本發明之方式,在檢索處理時,i視其 501029
五、發明說明(3〇 ) 經濟部智慧財產局員工消費合作社印製 間存有何種單語區切記號。然而,以具有「都會」之音的 「都」檢索相同正文之場合,如第14(〇圖,因「都」之 w,無單語始端記號,故並非檢出完全一致。而是檢出後 方一致或中間-致。當然,以「京都」檢索時,如第14(: 圖’亦非檢出完全一致。 又,在本實施形態’說明了,在步驟12〇1,正文分判 單元102將正文分割成單語後,在步驟12〇3,接辭語區切 刪除單元108刪除接辭語前後之單語區切,的二階段之方 式,但,若正文分割單元可辯識接辭語且分割的話,不輸 出不要之單語始端終端記號,以_階段,可完成該處理。』 有關正文分割單元辯識接辭語之方法,可使用品詞資訊。 又,在統計性之單語分割中,在單語之境界不明確之 场合,僅湘單語始端記號,或單語終端記號,分割不明 確之部份,藉此,吸收單語分割之錯誤,而可成為更高精 度之檢索。 如上所述,在本實施形態,在步驟1203,接辭語區切 刪除單元108,僅刪除接辭語前後之單語始終端記號,並 非刪除接辭浯本身。藉此,單語檢索並非單獨檢出接辭語 部份,但可正確地檢出檢索語包含接辭語之場合及不包含 接辭語之場合,且可刪除單語檢索中之雜訊。 又,该索引,其索引大小與第1實施形態相同,且可 吻合於包含接辭語之場合與不包含之場合的複數模樣。 又,在單语分剔中,即使不能以高精度區切,若僅以 單浯之始端、單語之終端,可區切的話,即可以是修正 ----I-----I-----線 (請先閱讀背面之注意事項再填寫本頁)
501029 A7 五、發明說明(31 ) 語分割之精度的惡劣程度後之單語檢索,可增大其實用效 果。 曰 ^ & (第4實施形態) 第4實施形態之情報檢索裝置,對檢索語所檢索之多 數文書’付與表示與檢索語之適合程度的順位,並提 如第15圖所示,該裝置包含··檢索結果數值化單元 110,係對檢索後之文書,付與表示與檢索語之適合程度 的數值;A,檢索結果順序化單位U1,係將付與數值之 文書,依其數值順序排列。其他之構造,與第3實施形態(苐 11圖)無異。檢索結果數值化單元及檢索結果順序化單1, 係由電腦之計算機構所構成。 以下,說明該全文檢索裝置之動作。全體之流程與第 3實施形態之第12圖一樣,可大略區分為··資料之登錄處 理,及,檢索處理。資料之登錄處理,可分為:正文之單 語分割處理;不要語區切刪除處理;接辭語區切刪除處理,· 及’索引製作處理,該等處理,分別與第3實施形態之對 應處理相同。 第16圖表示檢索處理之詳細流程。 具有單語資訊之文字列索引檢索單元1〇6,可實現以 下二種類之檢索方法,即, (1) 中間一致··不辯識單語境界之習知文字列全文檢 索功能; (2) 單語檢索:辯識單語境界之全文檢索功能。在單 語檢索,雖有以下5種類之檢索方法,?P,完全一致;包 501029 A7 32 五、發明說明( 含完全-致之前方-致;包含完全—致之後方—致:不包 含完全-致之前方-致;不包含完全—致之後方一致,但, 以完全一致之%合的檢索方法做說明。 步驟16〇1:與第1實施形態之第5圖之步驟50卜樣, 分解處理檢索文字列,並取出部份檢索文字列。 步驟麗:對取出之全部的部份檢索文字列,檢索具 有單語資訊之文字列索引,並取出該當者。該處理與第! 實施形態之第5圖之步驟502不同’在該時點,還不檢查單 語之始端·終端等。 之 文 步驟1603 :對於如此取出之索引,與第1實施形態 第5圖之步驟503-樣,調查索引之檢索對象文書號碼與、 書中文字列之位置,並評價連續性。檢索文字列為「全文 檢索裝置」之場合,「全文」、「檢索」、「裝置」為相同文 書號碼,文字列「全文」之出現位置為第χ文字時,文字 列「檢索」之出現位置為第x+2文字,文字列「裝置」之 出現位置為第x+4文字之場合,則判斷在該文書中,含有 「全文檢索裝置」之文字列。 經濟部智慧財產局員工消費合作社印製 步驟1604 :對各發現之文字列,判斷該文字列係完全 一致,或不包含完全一致之中間一致(雖包含檢索語之文 字列,但與檢索語並不完全一致)。第丨5圖之檢索結果數 值化單元110,對發現之文字列,在完全一致之場合,給 與得點χ點;在不包含完全一致之中間一致之場合,給與 侍點y點。χ、y之具體的得點之給與方法,另外說明。檢 查結果數值化單元110,對包含發現之苯字列的各文書, 35 本紙張尺度適用中國國家標準(CNS)A4規格⑵Q x 297公爱) 五、發明說明(33) =得點’並算出各文書之得點。以後,將詳細說明集計 步驟1605:利用到前步驟為止之處理,對各文金,仏 二::15圖之檢索結果順序化單元⑴,依彳:點: 七、文-順序’且以此作為檢查結果。 ㈣以上’完成一次之檢索處理’檢索結果數值化處理之 方去=’步驟16G4中之’對發現之文字列之得點的給 :方法財文書之得㈣集針方法有多數之實現方法。 以下對3種方法,舉例說明。 第1方法例,有關得點X,y之給與方法,係給與滿足 之任意正整數。舉例而言’x=2,y=1。集計方面,即使 在=書之中、’含有多數之檢索文字列,僅取文字列之得點 的取大者JE作為該文書之得點。如此,對以完全一致檢 出之文書’給與得點2 ;對於以不包含完全—致之中間一 致檢出之文書,給與得點1。 以第17圖為例說明,以檢索語「京都」,指定完全一 致之檢索時’第Π⑻圖之文書,「京都」之部份,有域 完全一致,且「東京都」之部份,亦有2處中間一致。然 而’文書之得點’僅取完全一致之!處’給與2點。另外, 第17(h)圖之文書’於多數之「東京都」的部份,為中間 一致,文書之得點為1點。 以文書之得點順序,分類該文書,則如第18圖所示, 在檢索結果之上位,會出現以完全一致檢出者;於下位, 會出現僅以中間一致檢出者。一般而言,檢索系統之使用 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公爱 五、發明說明(34) 者,會從上位開始閱覽,故以無單語完全一致所產生之雜 訊者,作為檢索結果,可首先利用,另外,若利用至下位 之中間一致之結果,則可防止遺漏檢索。 第2方法例’將第丨方法所用之得點x、y之給與方法, 做成如下。在步驟1603,對檢出之各文書,求出於一文書 中包含檢索文字列之如。而且,超越^最大數字之數: 為u ’則設定X成為可滿足 x=uxy之正整數。簡單而言’可以為x=u,y=i。 利用第19圖,第20圖,以指定完全一致之場合為例, 加以說明。第20圖左端之5種文書’含有如第_所示之 内容,在以「京都」檢索之場合,分別以完全-致與(不 包含完全-致之)中間一致’檢出者。在各文書中,其檢 出數之合計為…中最大者為文書2之t=8。因此,將超越 該數值(t=8)之數值9,設定為χ,且》,^ !。 利用集計,當在文書中含有多數之檢索文字列時,各 文字列之得點的和,即 完士-致處所數X χ點+僅中間一致處所處x y點 ,作為該文書之得點。在第20圖中,x=9,,計算各 文書之得點。 以文書之得點順序分類’將以完全一致檢出者,置於 檢索結果之上位’·將僅以中間一致檢出者,置於下位,且 形成不同之族群’其臨界值為〖之最大值。而且,以完全 -致檢出之族群,及’僅以中間一致檢出之族群,均以檢 出數分類…般而言,包含較多檢索文字列之文t,為= 本紙張尺¥適用國冢標準(CNS)A4規格⑽x 297公髮 501029
間 發明說明( 要文書’或者’檢索者將其視純靠近目的文* 因此,將以完全-致檢出較多單語之 :曰’ 此’可方便:吏用者,且不會發生遺漏檢索:位’错 步成二异僅方式,其結果係’以完全-致檢*者之族群, 形成於上位,僅以中間一 ^ 致松出之私群,形成於下位, 不需區分族群之處理,斟 t 次對各方矢群分類等之處理 次之分類,即可分離該等族群,其 若更詳細觀察,對完全一致之… 為^之取大值。 丁凡王致之各個數,形成族群,例如 形成如下之形式··在包含3個完全一致之文書中,從中 -致較多者’依順序排列;在包含2個完全一致 從中間一致較多者,依順序排列。 曰 在此例’指定完全一致之場合,分類分成完全—致族 群;及,不包含完全一致之中間一致族群,但若將得點之 給與方法,變更如下: 完全一致、前方一致、不包含後方—致之中間—致之 得點 y = 1 完全一致之得點 x=uxuXuXuXy 鈾方一致之得點 v = u X U X y - 後方一致之得點 w = u X y 則可實現依完全一致、前方一致、後方一致、中間一致之 順序顯示。因此,可利用在檢出處所之文字列前後是否有 單語區切,調整得點。 又,指定前方一致或後方一致之場合,·亦可利用上述 之方法计具’且’指定不包含完全一致之前方—致,咬不 * ------------—-------- (請先閱讀背面之注意事項再填寫本頁) 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 501029 A7 B7 經 濟 部 智 慧 財 產 局 員 工 消 費 合 作 社 印 製 五、發明說明( 包含完全一致之後方一致時’利用得點之給與方法,使上 述之順位變更,以降低完全一致者,藉此可實現。 第3方法例,有關文書之得點計算,以完全一致檢出 之文字列的數,與以中間一致檢出之文字列的數之比,作 為參考。或,以完全一致檢出之文書的數,與以中間一致 檢出之文書的數之比,作為參考。 在資料全體,完全一致之文字列的數為n個;在資料 全體,中間一致之文字列的數為m個時,因中間一致包含 完全一致,故11與111之關係,下式一定成立。 m 文書數之場合’同樣之關係亦成立。 使用此種11與111之比的方法例,如第21(a)圖所示,η m之比,較大時,可認為,完全一致之文字列,與僅中 致文子列,為不同者,並非單語分割之錯誤,而使其 果反映於得點集計。 另外,如第2 1 (b)圖所示,其比較小時,可認為, 間一致者可能是單語分割之錯誤,而使其可能性反映於得 點集計。 例如,以「京都」檢索某資料庫時,因完全一致與 間一致之比,如第21(a)圖,故可預想,僅中間一致之 子列與完全一致之文字列,為不同之單語。實際上, 完全-致檢索時,可檢出「京都」,以中間一致檢索時 可檢出「京都」與「東京都」,故成為此種比。在其他例 以「人參」檢索時,亦成為如第21(a)圖之比,故可預想 1本紙張纽顧㈣驛辟(CNS)A4 36 與 会士 中 中 文 以 — — — — — — — — — — — — 喔 I I 1 I I 祖 1 ^^ 1111111 ^^ (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 A7 五、發明說明(37 ) 僅中間一致之文字列與完全一致之文字列,為不同之單 語。實際上,以完全一致檢索時,可檢出蔬菜之「人參(胡 蘿蔔)」,以中間一致檢索時,可檢出「人參」、「外國人參 加」、「10人參加」、「婦人參與」等,故成為此種比。> 另外,以「今朝」檢索相同之資料庫,因完全一致與 令間一致之比,如第21(b)圖,故可預想中間一致與完ς 一致係相同單語。實際上,對「今朝方①氣溫、」之2王 以「今朝」之完全一致,檢索時,並不能檢出「今朝方」 之部份’而可以中間—致檢出,此可被視為相同單語。」 使此種比,反映於得點集計,例如,在文書中,完全 一致士之處所的數為Ρ,不完全—致僅中間_致之處所的數 為q犄,和第二方法例同樣地定義χ、y、α為定數,若文 書之得點為 ’ pXxX a X Log(m/n) + y X q 則可反映上述之比。 得點X、y之給與方法,與第二計算方法例一樣,對在 步驟1603檢出之各文書’求出在-文書中包含檢索文字列 之數t。而且,將超越1中最大數字之數? ’設定為X, 設為1。 以文書之得點順序分類,則認為重要者,置於檢索結 果之上位;而作為遺漏檢索對策之文書,置於下位。其順 位,雖不像第二計算方法例,將以完全一致檢出之族群與 僅乂中間致檢出之族群,明確地分離,但其順序反映單 語分割之精度,對使用者而言,更方便。 297公釐) ]- --------^—------線· f靖先閱讀背面之注意事項再填寫本頁) A7五、發明說明(38 ) 在以上所舉之例中,雖說明了,指定完全一致之場合 ^•’僅利用完全-致之檢出數與中間一致之檢出數的比之 例子,但並不限定於此,亦可應用前方一致或後方一致之 檢出數’估計單語分割精度。 與第一计异方法例一樣,在指定:前方一致或後方一 致、不包含凡全一致之前方一致、或不包含完全一致之後 方一致之場合,亦可利用調整上述得點之給與,方法與計算 式’變更順位而實現。 又,在次上二種計算方法例,係以一個關鍵字之場合 做说明,但私疋_個以上關鍵字,並以邏輯運算子結合之 %合,亦可應用實現。邏輯結合多數之關鍵字的場合, 上述之文書得點正規化,將邏輯運算子之結合,變換為 書得點之算術運算之各種方法,已被提出,可應用該等 法實現。 如上所述,在本實施形態,具有單語資訊之文字列 引栝索單tl 106,無區別地檢索文字列·單語;檢索結 數值化單元11 〇,將結果數值化;檢索結果順序化單元η 1 將結果分類,藉此,可將刪除了檢索雜訊之、结果,置於上 位,且將中間一致之結果,置於下位,因此,可防止遺漏 f索之發生。即使單語分割之精度並非1〇〇%,亦可降低 遺漏檢索及檢索雜訊,而增大其實用效果。 人由以上之說明可知,利用本發明之情報檢索方法及情 報檢索裝置’以_個索引,可同時實現單語檢索與文字 檢索,不需重覆具有二種索引’故可加速檢索,並可縮 使 文 方 索 果 列 小 (請先閱讀背面之注意事項再填寫本頁) 裝 .線· 本紙張尺度適用r®國家標準(cns)a4規格⑽x 297公爱) jyj i\)Ay A7 B7 五、發明說明(39 索引空間。 又’同時執行單語料與文字列檢索 使結果順序化。 如此 之一種檢索’可 、 可抑制檢索雜訊,且可防止遺漏檢索。 圖式之簡單說明 第1圖係表不本發明之第一實施形態之情報檢索裝置 之構成的方塊圖; 第2圖係表示本發明 之動作的流程圖; 第圖係表不本發明之第一實施形態之索引製作處理 之過程的模式圖; ""圖ίτ、表示本發明第一實施形態之具有單語資訊之 文字列索引之構造例之模式圖; 、 第5圖係表示本發 之流程圖; 弟6圖係表示本發 檢核項目之表; 之第一實施形態之情報檢索裝置 明之第一實施形態之檢索處理流程 明之第一實施形態之各檢索方式之 ----1--------------訂-- ---丨—丨 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 第7圖係表示本發 之構成的方塊圖; 明之第二實施形態之情報檢索裝置 第8圖係表示本發明之第二實施形態之情報檢索裝置 之動作的流程圖; 第9圖係表示本發明之第二實施形態之索引製作處理 之過程的模式圖; 〜 第10圖係表示本發明之第二實施形態之具有單語資 訊 本紐尺度顧+目目家標準(CNS)A4規格(210 X 297*^1"
經濟部智慧財產局員工消費合作社印製 之文字列索引之構造例的模式圖; 第11圖係表示本發明之第=者 之構成的方塊圖: 之情報檢索裝置 第12圖係表示本發明之第二 之動作的流程圖; 之情報檢索裝置 第13(a)〜(C)圖係表示本發 語區切刪除處理之動作的概”;M 之接辭 第14⑷〜⑷圖係表示本發明之第三實 雜訊刪減效果之概念圖; 〜、之松索 第1 5圖係表示本發明之第 之構成的方塊圖; w之情報檢索裝置 第16圖係表示本發明之第四實施形態之情報檢索裝置 之動作的流程圖; …弟17(a)〜⑻圖係表示本發明之第四實施形態之第一 計算方法例之得點集計之樣子的概念圖; 第18圖係表示本發明之第四實施形態之第—計算方法 例之檢索結果之順序化的樣子之概念圖; 第19圖係用以說明本發明之第四實施形態之第二計算 方法例之得點f計與檢索結果之順序化的樣子之文書例; 第20圖係表示本發明之第四實施形態之第二計算方法 例之得點集計與檢索結果之順序化的樣子之概念圖; 第21 (a) (b)圖係表示用以本發明之第四實施形態之 第二計异方法例之得點集計的文書集合之關係的模式圖; 第22圖係表示習知之情報檢索裝置之索引製作處理之 過程的模式圖。 本紙張尺度適用中國國家標準規格(210 X 297公釐) 43 -----------II ^--------^---------^ (請先閱讀背面之注意事項再填寫本頁) 501029 A7 B7_ 五、發明說明(41 ) 元件標號對照表 101…檢索對象資料記憶單元 102…正文分割單元 103…單語分割正文記憶單元 104…具有單語資訊之文字列索引製作單元 105…具有單語資訊之文字列索引記憶單元 106…具有單語資訊之文字列索引檢索單元 107…不要語區切刪除單元 108…接辭語區切刪除單元 110…檢索結果數值化單元 111…檢索結果順序化單元 ----「---*—-----------訂---------線 (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 44
Claims (1)
- 六 、申請專利範圍 丨·-種情報檢索方法,係心全文㈣正文f料者4 龍在於:將檢索對象正文,”成單語單位:從: s吾早位之前述正文,製作具有用以表示單往之 =早語資訊之文字數為R具有單語資訊之文字 i索引’利用文字列檢索或單語檢 前述具有單語資訊之文字列索引,檢索二=方攸 2·如申請專·圍第丨項所記載之情報檢索方法;盆中, 檢索對象正文之單語之前,具有單語始端 二象之後’具有單語終端記號,藉此,將檢 索對象正文,分割成單語單位:且從分割成單語單位 =正文,製作具有心表示該單語始端記號 終知記號之單語資訊的文字數為Ν之該具有單語資訊 之文字列索引。 、 3·如申料職圍第"所記載之情報㈣方法;其中, 在该具有單語資訊之文字列索引對於第I文字,當在 :亥文字之前,有單語始端記號之場合,具有表示該情 事之單語資訊;當在該文字之後,有單語終端記號 %合’具有表示該情事之單語資訊;對於第2文字以後 當僅在該文字之後’有單語終端記號之場合,具有 示該情事之單語資訊。 (如申請專利範圍第卜2或3項所記載之情報檢索方法 其十,從該具有單語資訊之文字列索引,配合用以 現料語之單語的單語檢索,及用以發現該檢索語 文子列的文字列檢索,執行檢索。 訂 之 表 發 之 5氏張尺度_中關家鮮(CNS)A4規格(21。X 297^57 501029 經濟部智慧財產局員工消費合作社印製申請專利範圍 5·如申請專利範㈣4項所記載之情報檢索方法;立中, ^檢索語之文字列,分割成文字數N之部份檢索文 ::,從該具有單語資訊之文字列索引,檢索與各部 伤k索文字列一致之文字列,當檢索出之各文字列, 在檢索對象正文上,具有連續性時,則判斷該檢索語 〇文字列’為被檢索出者;當檢索與包含該檢索語之 取初文字的部份檢索文字列、或包含該檢索語之最後 文字的部份檢索文字列一致之文字列的場合,在判 材料中’加入該最初之文字前或該最後之文字後的 語資訊,判斷一致性’藉此,檢索檢索語之單語。 6.如申請專利範圍第5項所記載之情報檢索方法:其中 利用該單語檢索,從該具有單語資訊之文字列索引 檢索:與檢索語之單語完全—致之單語;與檢索語 單語完全-致及前方-致之單語;與檢索語之單語 王致及後方一致之單言吾;與檢索語之單語僅前方 致之單語;或,與檢索語之單語僅後方一致之單語( 7·如申請專利範圍第!項所記載之情報檢索方法;其口中 從分割成單語單位之該正文,刪除不要語之前後的 單語資訊’製作該具有單語資訊之文字列索引。 8·如申。月專利|巳圍第2項所記載之情報檢索方法:其中, k分割成單語單位之該檢索對象正文,冊】除不要語之 月’J的該單語始.端記號及不要語之後的該單語終端 唬’且從該>割成單語單位之正A,製作該具有單 資訊之文字列索引。 斷 單 之 完 該 記 Μ--------1---------線 (請先閱讀背面之注意事項再填寫本頁) 本紙張又⑦中國國家標準(CNS)A4規格(21Q x 297公爱 46 六、申請專利範圍 9_ :申請專利範圍第7或8項所記載之情 中,選擇不能單獨成為檢索對象 =法,·其 亜纽。 平°。,作為該不 要語。 其 H).如申請專利範圍第7或8項所記載 中’根據單語之品詞資訊,決定該不要二方法 ":申圍第7或8項所記載之情報: 中,選擇由平假名1 忐,其 語,作為該不要語。 又名—文字所構成之單 1申=專利刪7物所記載之情報 定m至檢索縣正文f料中之單語”: 决疋作為該不要語之單語。 干 13.Γ申請專職圍第5項所記載之情報檢索方法;其中, 攸该具有單語資訊之文字列 ^ ^ ^ ^ 、 狀索/、包含該檢索 =之取初文子的部份檢索文字列或包含該檢索語之最 子的部份檢索文字列—致之文字列的場合,在判 斷材料t,加入表示該最初文字之前的單語始端記號 之早語資訊或表示該最後文字之後的單語終端記號之 經濟部智慧財產局員工消費合作社印製 早語貧訊’而判斷一致性:當檢索與其他之部份檢索 文字列一致之文字列的場合,在判斷材料中,不加入 該單語資訊。 14.如申請專利範圍第2項所記載之情報檢索方法;其中, 從分割成單語單位之該檢索對象正文,去除接頭辭之 後的該單語終端記號及接尾辭之前的該單語始端記 唬,且從分割成該單語單位之前述正文,製作該具有 47 本紙張&㈣用中國國家標準(CNS)A4規格⑵〇 X 297公髮)、申請專利範圍 單語資訊之文字列索引。 π.如申料利範圍第14項所記狀情報檢索 根據單語之品詞,決定作為該接頭辭及接尾n ’ 16·如申請專利範圍第14項所記載之情報檢索方法^中, 作為《尾辭之語,係根據在檢索對象資料中,該語 出現於數字之後的頻率決定。 Λ 正 i7·如申請專㈣㈣1項所記載之情報檢索方法1中, 根據檢索語之檢索結果,將對檢索對象正文之 的適合度數值化,根據獲得之數值,對各檢索對象口 文付與順序,並依該順序排列提示各檢索對象正文。 執 加 18.如申請㈣範„17顧記狀情報檢索方法;並中, 配合用以發現檢索語之單語的單語檢索,及用以發現 :亥早語之文字列的文字列檢索,從檢索對象正文, 行各檢索語之檢索,並將該雙方之檢索結果,付與 權並分別數值化。 Κ如申請專利範圍第18項所記載之情報檢索方法;其中 對利用單4檢索之檢索結果,付與比利用文字列檢 經濟部智慧財產局員工消費合作社印製 索 用 字 才双索、、Ό果較大之加權,並作數值化處理,使利 單語檢索發現檢索語之檢索對象正文,比僅利用文^ 列檢索發現檢索語之文字列之檢索對象正文,付與較 上位之順序。 2〇.如申請專利範圍第19項所記載之情報檢索方法;其中, 對利用單語檢索,從檢索對象正文,檢索與檢索語之 單^ 7〇全一致之單語、前方一致之單語或後方一致之A8 B8 C8 D8 、申凊專利範圍 單語時的檢索結果,分別付與不同之加權,並作數值 化處理。 21.如申請專利範圍第20項所記載之情報檢索方法:其中, 對利用早語檢索之檢索結果,付與不同之加權,並作 數,化處理,使檢索時,在與檢索語之單語完全一致 單月)方致之單語、及後方一致之單語之間, 指定社時,對發現第1順位之單語的檢索對象正文, 付與瑕m序;對發現第2輕之單語的檢索對象 正文’付與其次之·;對僅發現第3順位之單語的檢 索對象正文,付與再其次之順序。 22·如申請專利範圍第21項所記載之情報檢索方法;其中, 對各種檢索結果,付與不同之加權,並作數值化處理’ 使在發現該第1順位之單語的檢索對象正文之間,依該 弟1順位之單語的檢索數較多之順序,付與順序;在發 現該第2順位之單語的檢索對象正文之間,依該第2順 位之早语的檢索數較多之順序,付與順序;在僅發現 該Γ順位之單語的檢索對象正文之間,依該第3順 之早语的檢索數較多之順序,付與順序;且,在僅 用該文字列檢索,發現檢索語之文字列的檢索對象 文之間,依該文字列之檢索數較多之順序,付盘順序 23.如申請專利範圍第Π項所記載之情報檢索方法;、其中 根據:利用該單語檢索檢索出之,與檢索語之單往 全一致之單語、前方-致之單語、或後方:致S 的檢索數’與利用該文字列檢索檢索出之檢索』五之 # I I I I I訂 線 位 利 正 完 語 文 本紙張尺度適用中國國家標準(CNS)A4規格(210x297公釐 501029經濟部智慧財產局員工消費合作社印製 申請專利範圍 子列的檢索數之比,估計檢索對象正文之單語分割之 精度,並使該精度反映於檢索對象正文之順序。 从如申請專利範圍第17項至第23項中之任一項所記载之 情報檢索方法;其中,利用多數檢索語之邏輯,士人, 付與檢索語之場合,對各檢索語之檢索結果,執行兮 數值化,並整合㈣結果,對㈣對象正文付與順序。 25· -種情報檢索裝置’係用以全文檢索正文資料者,包 含: 檢索對象資料記憶單元,用以記憶檢"象正文; 正文分割單元,用以將檢索對象正文,分割成單 語單位; 早語分割正文記憶單元,用以儲存分割成單語單 位之該正文; —有單語資訊之文字列索引製作單元,用以從分 割成單語單位之該正文,製作具有表示單語之區切的 單語資訊,文字數為N之具有單語f訊之文字列索引; 具有單語資訊之文字列索引記憶單元,用以記憶 製成之該具有單語資訊之文字列索引;及, 具有單語資訊之文字列索引檢索單元,係利用該 具有單語資訊之文字列索引,執行檢索語之文字列檢 索、或單語檢索、或文字列與單語之檢索。 26.如申明專利|巳圍第25項所記載之情報檢索裝置;其中, 4正文分剔單兀’利用在包含於檢索對象正文之單語 之4付與單語始端記號,在單語之後,付與單語終經濟部智慧財產局員工消費合作社印製 A8 B8 C8 D8 六、申請專利範圍 端記號,而將該檢索對象正文,分割成單語單位,且, 該,有單語資訊之文字列索5U作單元,從分割成單 -早位之該正文’製成具有表示該單語始端記號及單 語終端記號之單語資訊,文字數為μ具有單語資訊 之文字列索引。 27. 如申租專利砣圍第26項所記載之情報檢索裝置:其中, 該具有單語資訊之文字列索引製作單元,作為該單任 資訊’係對該具有單語資訊之文字列索引之第ι文字, 在該文字之前,具有單語始端記號之場合’設有用以 表示該情事之單語資訊,且在該文字之後’具有單語 終端記號之場合,設有用以表示該情事之單語資訊; 對於”文字錢,僅在該文字讀,具有單語終端記 號之%合,設有用以表示該情事之單語資訊。 28. 如申靖專利犯圍第25項所記載之情報檢索裝置;其中, 該具有單語資訊之文字列索引檢索單元’利用該具有 單語!訊之文字列索引,配合:用以發現檢索語之單 語的單語檢索,及用以發現該檢索語之文字列的文字 列檢索,執行檢索。 29·如申請專利範圍第28項所記載之情報檢索裝置;其中, 該具有單語資訊之文字列索引檢索單元,從該具有單 語資訊之文字列索引檢索’將檢索語之文字列分割成 文字數Ν之部份檢索文字列’且與各部份檢索文字列 致之文字列,當檢索出之各文字列,在檢索對象正 文上一有連續性時’判斷該檢索語之文字列為被檢 本紙張尺度適用中國國家標準(CNS)A4規格(210 x 297公爱)-I- n H ϋ κ ·1 一:0*· * n n i n n ϋ I I I n n n n ϋ It n I I I n ϋ n n d I ϋ I - (請先閱讀背面之注意事項再填寫本頁) C8 一 DB In 經濟部智慧財產局員工消費合作社印制衣 —. " uum —————— 申請專利範圍 (請先閱讀背面之注意事項再填寫本頁) 索出者’當檢索與包含該檢索語之最初文字的部份檢 索文字列或包含該檢索語之最後文字的部份檢索文字 列一致之文字列時,在判斷材料中,加入該最初文字 之前或該最後文字之後的單語資訊,而判斷一致性, 藉此’檢索檢索語之單語。 3〇·如申請專利範圍第29項所記載之情報檢索裝置;其中, 該具有單語資訊之文字列索引檢索單元,利用該單語 才双索’彳双索·與檢索語之單語完全一致之單語、與檢 索語之單語完全一致及前方一致之單語、與檢索語之 單語完全一致及後方一致之單語、與檢索語之單語僅 前方一致之單語、或與檢索語之單語僅後方一致之單 語。 3 1 ·如申请專利範圍第26項所記載之情報檢索裝置;其中, 包含不要語區切刪除單元,係用以刪除,付於分割成 單語單位之該正文的前述單語始端記號及單語終端記 號之中,不能單獨成為檢索對象語之不要語之前後的 該單語始端記號及單語終端記號。 32·如申請專利範圍第25項所記載之情報檢索裝置;其中, 該正文分割單元,對於包含在檢索對象正文之單語之 中不此單獨成為檢索對象語之單語,不分割成單語 單位。 〇 33·如申凊專利範圍第26項所記載之情報檢索裝置;其中, 包含·接辭έ吾區切刪除單元,係用以刪除,付於分割 成單浯單位之該正文的前述單語始端記號及單語終 52 本紙張尺度適用中國國家標準(CNS)A4規格(21〇 x 297公爱) 記號之中,接頭辭之後的單注 早^、、冬知圮號及接尾辭之) 的單語始端記號。 牦如申請專利範圍第26項所記載之情報檢索裝置:其中 该正文分割單元,對於包含在檢索對象正文之接頭辭 僅付與該單語始端記號, L對於接尾辭,僅付與該單I 終端記號。 35.如申請專利範圍第26項所記載之情報檢索裝置:立中 包含: 檢索結果數值化單元,係用以由檢索之適合度, 將檢索結果作數值化處理;及, 。檢索結果順序化單元,係根據該檢索結果數值化 單元付與各檢索對象正文之檢索結果的數值’付與各 檢索對象正文之順序。 •如申明專利範圍第3D項所記載之情報檢索裝置;其中, 該檢索結果數值化單元,對於利用單語檢索之檢索結 果,付與較利用文字列檢索之檢索結果大的加權,並 僅數值化處理,使利用單語檢索發現檢索語之檢索對 象正文,較僅利用文字列檢索發現檢索語之文字列的 才双索對象正文,位於較上位之順序。 •如申明專利範圍第3 5項所記載之情報檢索裝置;其中, 該檢索結果數值化單元,對於利用單語檢索,從檢索 對象正文,檢出:與檢索語之單語完全一致之單語、 前方一致之單語或後方一致之單語時之結果,分別付 與不同之加權,並做數值化處理。 申請專利範圍 J8.如申請專利範圍第37項所記載之情報檢索裝置:其中, 該檢索結果數值化單元,對於利用單語檢索之檢索結 果,付與不同之加權,並做數值化處理,檢索時,當 在與檢索語之單語完全一致之單語、前方一致之單語、 及後方一致之單語之間,指定順位時,對發現第1順位 之單語的檢索對象正文,付與最上位之順序:對發現 第2順位之單語的檢索對象正文,付與其:欠之順位·對 僅發現第3順位之單語的檢索對象正文,付與再其次之 順位。 39·如申請專利範圍第38項所記載之情報檢索裝置;其中, 該檢索結果數值化單元,對各種檢索結果,付與不同 之加權並作數值化處理,使在發現該第1順位之單語 的‘索對象正文之間,依該第i順位之單語的檢索數較 夕之順序’付與順序;在發現該第2順位之單語的檢索 對象正文之間,依該第2順位之單語的檢索數較多之順 序’付與順序;在僅發現該第3順位之單語的檢索對象 正文之間,依該第3順位之單語的檢索數較多之順序, 付”順序,且,在僅利用該文字列檢索,發現檢索語 之文字列之檢索對象正文之間,依該文字列之檢索數 較多之順序,付與順序。 〇·如申明專利聋巳圍第35項所記載之情報檢索裝置;其中, 該檢索結果順序化單元,根據:利用該單語檢索檢索 ,之,與檢索語之單語完全一致之單語、前方一致之 單 或後方一致之單語的檢索數,與利用該文字列 申請專利範圍 ::索出之檢索語之文字列的檢索數之比,估計檢 茱對象正文之單語分割之 索對象正文之順序。亚使該精度反映於檢 經濟部智慧財產局員工消費合作社印製 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐 •----U---^-----··-------訂-丨 (請先閱讀背面之注意事項再填寫本頁) -線丨#丨 —·!ιλ___I I I _____________ 55
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP20486799A JP3636941B2 (ja) | 1999-07-19 | 1999-07-19 | 情報検索方法と情報検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW501029B true TW501029B (en) | 2002-09-01 |
Family
ID=16497725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW089114457A TW501029B (en) | 1999-07-19 | 2000-07-19 | A method of retrieving data and data retrieving apparatus |
Country Status (5)
Country | Link |
---|---|
US (1) | US6546401B1 (zh) |
JP (1) | JP3636941B2 (zh) |
KR (1) | KR100451978B1 (zh) |
CN (1) | CN1281191A (zh) |
TW (1) | TW501029B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4342753B2 (ja) * | 2001-08-10 | 2009-10-14 | 株式会社リコー | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
JP2005056338A (ja) * | 2003-08-07 | 2005-03-03 | Mitsubishi Electric Corp | 情報収集検索装置 |
KR101057997B1 (ko) * | 2003-11-27 | 2011-08-19 | 삼성전자주식회사 | 최초 문자를 이용하는 검색 엔진 및 검색 방법 |
JP3978221B2 (ja) | 2003-12-26 | 2007-09-19 | 松下電器産業株式会社 | 辞書作成装置および辞書作成方法 |
US7624018B2 (en) * | 2004-03-12 | 2009-11-24 | Microsoft Corporation | Speech recognition using categories and speech prefixing |
JP4037859B2 (ja) * | 2004-09-29 | 2008-01-23 | 株式会社東芝 | 全文検索システム及び方法 |
JP4549839B2 (ja) * | 2004-12-20 | 2010-09-22 | 大日本印刷株式会社 | 検索装置および方法 |
CN1645374A (zh) * | 2005-01-17 | 2005-07-27 | 徐文新 | 位标记字符串检索技术 |
JP4651402B2 (ja) * | 2005-02-08 | 2011-03-16 | クラリオン株式会社 | 車載情報端末 |
JP5010885B2 (ja) * | 2006-09-29 | 2012-08-29 | 株式会社ジャストシステム | 文書検索装置、文書検索方法および文書検索プログラム |
CN103136190B (zh) * | 2007-12-06 | 2015-10-28 | 谷歌公司 | Cjk姓名检测 |
JP5224851B2 (ja) | 2008-02-27 | 2013-07-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索エンジン、検索システム、検索方法およびプログラム |
CN101430680B (zh) | 2008-12-31 | 2011-01-19 | 阿里巴巴集团控股有限公司 | 一种无词边界标记语言文本的分词序列选择方法及*** |
JP5285491B2 (ja) * | 2009-04-10 | 2013-09-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、 |
KR101127012B1 (ko) * | 2009-06-10 | 2012-03-26 | 현대엠엔소프트 주식회사 | 문자열 검색 장치 및 방법 |
JP5272919B2 (ja) * | 2009-06-18 | 2013-08-28 | 株式会社デンソー | 施設検索表示装置 |
JP5382651B2 (ja) * | 2009-09-09 | 2014-01-08 | 独立行政法人情報通信研究機構 | 単語対取得装置、単語対取得方法、およびプログラム |
CN102770863B (zh) * | 2010-02-24 | 2014-12-17 | 三菱电机株式会社 | 检索装置以及检索方法 |
KR101105652B1 (ko) | 2010-02-26 | 2012-01-18 | 인하대학교 산학협력단 | 금지문자열 불포함 결정을 위한 방향 그래프 생성 방법 |
JP5494066B2 (ja) * | 2010-03-17 | 2014-05-14 | 富士通株式会社 | 検索装置、検索方法および検索プログラム |
JP5508953B2 (ja) * | 2010-06-28 | 2014-06-04 | 株式会社日立ソリューションズ | 文書処理装置及びプログラム |
JP5648360B2 (ja) * | 2010-08-09 | 2015-01-07 | 富士通株式会社 | 文字列検索装置、文字列検索方法および文字列検索プログラム |
JP5640578B2 (ja) * | 2010-09-03 | 2014-12-17 | 日本電気株式会社 | 文書処理装置、文書処理方法、及び、プログラム |
KR101192439B1 (ko) | 2010-11-22 | 2012-10-17 | 고려대학교 산학협력단 | 디지털 콘텐츠 검색 장치 및 방법 |
CN102541960A (zh) * | 2010-12-31 | 2012-07-04 | 北大方正集团有限公司 | 一种模糊检索的方法及装置 |
WO2013121810A1 (ja) * | 2012-02-16 | 2013-08-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキストの文書を解析する装置、プログラムおよび方法 |
CN103631784B (zh) * | 2012-08-21 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 页面内容检索方法和*** |
TWI578175B (zh) * | 2012-12-31 | 2017-04-11 | 威盛電子股份有限公司 | 檢索方法、檢索系統以及自然語言理解系統 |
EP2851896A1 (en) | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
US9601108B2 (en) | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
JP5930228B2 (ja) | 2014-02-25 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、方法及びプログラム |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
JP2017004127A (ja) * | 2015-06-05 | 2017-01-05 | 富士通株式会社 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
CN106933938A (zh) * | 2015-12-30 | 2017-07-07 | 唯溥思株式会社 | 利用多字节编码的文献检索方法及文献索引方法 |
WO2017126057A1 (ja) * | 2016-01-20 | 2017-07-27 | 株式会社日立製作所 | 情報検索方法 |
JP6880956B2 (ja) | 2017-04-10 | 2021-06-02 | 富士通株式会社 | 解析プログラム、解析方法および解析装置 |
WO2018217671A1 (en) * | 2017-05-23 | 2018-11-29 | Floyd Design, LLC | Headboard assembly for modular bed frame |
CN109657109A (zh) * | 2018-11-23 | 2019-04-19 | 山东中创软件商用中间件股份有限公司 | 一种文档中指定单词查找方法、装置、设备以及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3022079B2 (ja) | 1993-08-18 | 2000-03-15 | 凸版印刷株式会社 | 全文データベースシステム |
US5799268A (en) * | 1994-09-28 | 1998-08-25 | Apple Computer, Inc. | Method for extracting knowledge from online documentation and creating a glossary, index, help database or the like |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
JPH10307835A (ja) | 1997-05-08 | 1998-11-17 | Canon Inc | 情報処理装置及びその方法 |
JP3143079B2 (ja) | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
US6081774A (en) * | 1997-08-22 | 2000-06-27 | Novell, Inc. | Natural language information retrieval system and method |
JP3696745B2 (ja) * | 1999-02-09 | 2005-09-21 | 株式会社日立製作所 | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 |
-
1999
- 1999-07-19 JP JP20486799A patent/JP3636941B2/ja not_active Expired - Fee Related
-
2000
- 2000-07-17 US US09/618,055 patent/US6546401B1/en not_active Expired - Fee Related
- 2000-07-19 CN CN00121645A patent/CN1281191A/zh active Pending
- 2000-07-19 KR KR10-2000-0041311A patent/KR100451978B1/ko not_active IP Right Cessation
- 2000-07-19 TW TW089114457A patent/TW501029B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US6546401B1 (en) | 2003-04-08 |
KR20010015368A (ko) | 2001-02-26 |
JP2001034623A (ja) | 2001-02-09 |
KR100451978B1 (ko) | 2004-10-08 |
JP3636941B2 (ja) | 2005-04-06 |
CN1281191A (zh) | 2001-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW501029B (en) | A method of retrieving data and data retrieving apparatus | |
US5278980A (en) | Iterative technique for phrase query formation and an information retrieval system employing same | |
CA2726576C (en) | Financial event and relationship extraction | |
Bizzoni et al. | Bigrams and BiLSTMs two neural networks for sequential metaphor detection | |
Syed et al. | Lexicon based sentiment analysis of Urdu text using SentiUnits | |
Jabbar et al. | A survey on Urdu and Urdu like language stemmers and stemming techniques | |
JP2006004399A (ja) | 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法 | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
Patil et al. | Issues and challenges in marathi named entity recognition | |
Widyantoro et al. | Citation sentence identification and classification for related work summarization | |
Eiselt et al. | A two-step named entity recognizer for open-domain search queries | |
Wang et al. | A joint chinese named entity recognition and disambiguation system | |
Bhat | Morpheme segmentation for kannada standing on the shoulder of giants | |
Taghizadeh et al. | NSURL-2019 task 7: Named entity recognition (NER) in Farsi | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
Hellwig | Morphological disambiguation of classical Sanskrit | |
Johri et al. | Experts’ retrieval with multiword-enhanced author topic model | |
JP2003323425A (ja) | 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム | |
Spasic | FlexiTerm: a more efficient implementation of flexible multi-word term recognition | |
Khokhlova et al. | Studying Word Sketches for Russian. | |
Traboulsi | A local grammar for proper names | |
Colton | Text classification using Python | |
Tirasaroj et al. | The effect of answer patterns for supervised named entity recognition in Thai | |
JP2002366556A (ja) | 情報検索方法 | |
Sharma et al. | Named Entity Based Answer Extraction form Hindi Text Corpus Using n-grams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |