TW201619853A - 檢索過濾方法及其處理裝置 - Google Patents

檢索過濾方法及其處理裝置 Download PDF

Info

Publication number
TW201619853A
TW201619853A TW103140556A TW103140556A TW201619853A TW 201619853 A TW201619853 A TW 201619853A TW 103140556 A TW103140556 A TW 103140556A TW 103140556 A TW103140556 A TW 103140556A TW 201619853 A TW201619853 A TW 201619853A
Authority
TW
Taiwan
Prior art keywords
word
keyword
grouping
search
result
Prior art date
Application number
TW103140556A
Other languages
English (en)
Inventor
呂俊宏
潘金谷
李宜勳
陳泰宏
Original Assignee
財團法人資訊工業策進會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 財團法人資訊工業策進會 filed Critical 財團法人資訊工業策進會
Priority to TW103140556A priority Critical patent/TW201619853A/zh
Priority to CN201410709075.7A priority patent/CN105701119A/zh
Priority to US14/566,675 priority patent/US20160147894A1/en
Publication of TW201619853A publication Critical patent/TW201619853A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明提供一種檢索過濾方法。所述檢索過濾方法包括以下步驟:接收關鍵字詞;根據關鍵字詞,經由搜尋引擎於網路上進行檢索以得到初步檢索結果,且搜尋對應關鍵字詞的相關字詞;依據初步檢索結果,對相關字詞進行分群,並產生分群結果,分群結果包括至少一分群群組;輸出分群結果以供使用者從其中選擇一分群群組;依據被選擇的分群群組,對初步檢索結果進行過濾以產生對應的檢索過濾結果。

Description

檢索過濾方法及其處理裝置
本發明係關於一種檢索過濾方法,且特別是一種可對檢索結果進行分群並提供給使用者選擇的檢索過濾方法及使用其的處理裝置。
隨著科技的發展與成長,網路已成為生活中不可或缺的一部份。網路的普及帶動了資訊的迅速流動與大量累積,資訊的取得大多仰賴網路。由於網路資訊的傳遞與累積快速成長,網路資訊所包括的內容也大幅增加。
為了從龐大的網路資訊中獲取所需的資料,使用者通常會搭配Google、Yahoo奇摩或百度等公共搜尋引擎。使用者可於搜尋引擎提供的搜尋列中輸入關鍵字詞。透過資料的檢索技術,對搜尋引擎資料庫的內容進行檢索,並將檢索結果提供給使用者。
然而,目前的檢索技術對於使用者來說還是有許多不方便的地方。其原因在於,現今網路資訊的資料量龐大,所涵蓋的資訊五花八門,導致使用者必須要精準地輸入關鍵字詞才能獲得關聯性高的搜尋結果。換句話說,若使用者輸入的關鍵字詞不夠準確,搜尋引擎所檢索出的檢索結果將包含許多關聯性低的內容文章或網頁,導致使用者無法取得所欲的資訊。此外,即使使用者輸入的關鍵字詞準確,也仍會因為檢索出來的內容文章或網頁過多而導致無法逐一瀏覽,且並不完全符合使用者所需,因此需要一種 檢索過濾方法,將初步檢索得到的內容文章或網頁來做進一步分類,讓使用者可以容易找到其所需要的內容文章或網頁。
本發明實施例提供一種檢索過濾方法。所述檢索過濾方法適用於處理裝置。所述檢索過濾方法包括以下步驟:步驟A:接收關鍵字詞;步驟B:根據關鍵字詞,經由搜尋引擎於網路上進行檢索以得到初步檢索結果,初步檢索結果包含有複數個網頁,且搜尋與對應關鍵字詞的至少一相關字詞;步驟C:依據初步檢索結果,對相關字詞進行分群,並產生分群結果,分群結果包括至少一分群群組;步驟D:輸出分群結果以供使用者從其中選擇一分群群組;步驟E:依據被選擇的分群群組,對初步檢索結果進行過濾以產生對應的檢索過濾結果。
本發明實施例提供一種處理裝置。所述處理裝置包括相關字詞產生模組以及分群單元。相關字詞產生模組用以接收使用者輸入的關鍵字詞,並經由搜尋引擎於網路上進行檢索以得到初步檢索結果,且搜尋與對應該關鍵字詞的至少一相關字詞。初步檢索結果包含有複數個網頁。分群單元電性連接於相關字詞產生模組。分群單元用以依據初步檢索結果對相關字詞進行分群,並產生分群結果。分群結果包括至少一分群群組。分群單元輸出分群結果至操作介面以供使用者從其中選擇一分群群組。處理裝置依據被選擇的分群群組,對初步檢索結果進行過濾以產生對應的檢索過濾結果。
綜上所述,本發明實施例所提供的檢索過濾方法及使用其的處理裝置可依據初步檢索結果對相關字詞進行分群,以產生分群結果。使用者可依需求從分群結果中選擇想要的分群群組,使得初步檢索結果可以進一步地被過濾,並產生使用者想要的檢索過濾結果。
為使能更進一步瞭解本發明之特徵及技術內容,請參閱以下有關本發明之詳細說明與附圖,但是此等說明與所附圖式僅係用來說明本發明,而非對本發明的權利範圍作任何的限制。
1‧‧‧處理裝置
2‧‧‧操作介面
3‧‧‧搜尋引擎
10‧‧‧相關字詞產生模組
101‧‧‧可能關聯字產生單元
102‧‧‧關聯字詞產生單元
103‧‧‧同義字詞產生單元
111‧‧‧分群單元
S201~S208‧‧‧步驟流程
S301~S309‧‧‧步驟流程
S401~S405‧‧‧步驟流程
S501~S505‧‧‧步驟流程
圖1A是本發明實施例之處理裝置的示意圖。
圖1B是本發明另一實施例之處理裝置的示意圖。
圖2是本發明實施例之檢索過濾方法的流程圖。
圖3是本發明實施例之產生相關字詞的流程圖。
圖4是本發明實施例之產生同義字詞的流程圖。
圖5是本發明實施例之產生分群結果的流程圖。
在下文將參看隨附圖式更充分地描述各種例示性實施例,在隨附圖式中展示一些例示性實施例。然而,本發明概念可能以許多不同形式來體現,且不應解釋為限於本文中所闡述之例示性實施例。確切而言,提供此等例示性實施例使得本發明將為詳盡且完整,且將向熟習此項技術者充分傳達本發明概念的範疇。在諸圖式中,可能為了清楚而誇示層及區之大小及相對大小。類似數字始終指示類似元件。
應理解,雖然本文中可能使用術語第一、第二、第三等來描述各種元件或信號等,但此等元件或信號不應受此等術語限制。此等術語乃用以區分一元件與另一元件,或者一信號與另一信號。另外,如本文中所使用,術語「或」視實際情況可能包括相關聯之列出項目中之任一者或者多者之所有組合。
請參閱圖1A,圖1A是本發明一實施例之處理裝置的示意圖。處理裝置1適用於任一搜尋引擎或推薦系統,例如Google、Yahoo奇摩或百度等搜尋引擎的處理器。處理裝置1包括相關字詞產生 模組10以及分群單元111。相關字詞產生模組10接收使用者輸入的關鍵字詞,並經由搜尋引擎2於網路上進行檢索以得到初步檢索結果,且搜尋與對應關鍵字詞的至少一相關字詞。初步檢索結果通常包含有複數個網頁等資料。分群單元111電性連接於相關字詞產生模組10,可依據初步檢索結果對相關字詞進行分群,然後產生分群結果。分群結果可能包括一個或複數個分群群組。分群單元111輸出分群結果至操作介面3進行顯示,且提供給使用者從複數個分群群組中選擇一分群群組。處理裝置1再依據被選擇的分群群組,對初步檢索結果(亦即前述所檢索到的複數個網頁)進行過濾,以產生對應的檢索過濾結果。
圖1B是本發明另一實施例之處理裝置的示意圖。在此實施例中,處理裝置1、相關字詞產生模組10以及分群單元111如前所述,而相關字詞產生模組10更包括可能關聯字詞產生單元101、關聯字詞產生單元102以及同義字詞產生單元103。可能關聯字詞產生單元101電性連接於搜尋引擎3、關聯字詞產生單元102以及同義字詞產生單元103。關聯字詞產生單元102電性連接於分群單元111。同義字詞產生單元103電性連接於分群單元111。分群單元111電性連接於操作介面2。
可能關聯字詞產生單元101用接收搜尋引擎產生的初步檢索結果,初步檢索結果包含了複數個網頁等資料。接著,可能關聯字詞產生單元101自複數個網頁中的複數個內容文章中獲得內容文章各自對應的至少一可能關聯字詞。前述的內容文章可以是在網頁中的任何文字。
關聯字詞產生單元102用以根據使用者輸入的關鍵字詞與可能關聯字詞於內容文章中同時出現於同一句子的次數產生相關字詞。當關鍵字詞與可能關聯字詞同時出現於同一句子的次數大於第一門檻值時,可能關聯字詞被列為相關字詞。相關字詞係指關鍵字詞的同義字詞、與關鍵字詞相關的關聯字詞、或是同一內容 文章中常共同出現於同一句子的字詞。
同義字詞產生單元103用以根據關鍵字詞與可能關聯字詞於內容文章中同時出現於同一句子的次數產生候補字詞。當關鍵字詞與可能關聯字詞同時出現於同一句子的次數小於第二門檻值、且大於第三門檻值時,可能關聯字詞被判定為關鍵字詞的候補字詞。接著,同義字詞產生單元103再進一步判斷候補字詞是否為關鍵字詞的同義字詞或反義字詞。至於如何判斷候補字詞是否為關鍵字詞的同義字詞或反義字詞的流程將詳述於後面段落。
當使用者欲自網路上搜尋資料時,使用者透過操作介面2上的搜尋列中輸入關鍵字詞。搜尋引擎3接收關鍵字詞後,於網路上進行檢索以得到初步檢索結果。接著,搜尋引擎3將初步檢索結果輸出至相關字詞產生模組10,使得相關字詞產生模組10根據初步檢索結果去搜尋對應關鍵字詞的相關字詞。
進一步說,相關字詞產生模組10之可能關聯字詞產生單元101接收初步檢索結果後,根據初步檢索結果內複數個網頁中的複數個內容文章,獲得內容文章各自對應的可能關聯字詞。可能關聯字詞產生單元101接著將可能關聯字詞輸出給關聯字詞產生單元102以及同義字詞產生單元103。
關聯字詞產生單元102計算關鍵字詞與每一個可能關聯字詞於對應的內容文章中同時出現於同一句子的次數,並根據計算結果判斷關鍵字詞與每一個可能關聯字詞的關聯性。舉例來說,關聯字詞產生單元102先自複數個可能關聯字詞中選擇一個可能關聯字詞(例如第一可能關聯字詞)。當關鍵字詞與第一可能關聯字詞於對應的內容文章中同時出現於同一句子的次數大於第一門檻值時,代表第一可能關聯字詞與關鍵字詞的關聯性高。此時,關聯字詞產生單元102判斷第一可能關聯字詞為與關鍵字詞相關的關聯字詞,並將第一可能關聯字詞列為相關字詞。需注意的是,本發明實施例並不限制第一門檻值的數值,使用者可自行設計第一 門檻值以判斷可能關聯字詞與關鍵字詞的關聯性,或是依據習知類似技術中的相關資料來產生。
接著,關聯字詞產生單元102不重複地自複數個可能關聯字詞中選擇另一個可能關聯字詞(例如第二可能關聯字詞),並判斷第二可能關聯字詞與關鍵字詞的關聯性。重複上述步驟,直到所有的可能關聯字詞都被關聯字詞產生單元102選擇過。簡而言之,關聯字詞產生單元102能夠判斷複數個可能關聯字詞中哪一些可能關聯字詞與關鍵字詞的關聯性高,並將與關鍵字詞的關聯性高的可能關聯字列為關鍵字詞的相關字詞。
同義字詞產生單元103計算關鍵字詞與每一個可能關聯字詞於對應的內容文章中同時出現於同一句子的次數,並根據計算結果判斷關鍵字詞與每一個可能關聯字詞的關聯性。同義字詞產生單元103假設關鍵字詞不會與其同義字詞或反義字詞同時出現於同一句子,因此,同義字詞產生單元103判斷與關鍵字詞關聯性低的可能關聯字詞為關鍵字詞的同義字詞或反義字詞。
舉例來說,同義字詞產生單元103先自複數個可能關聯字詞中選擇一個可能關聯字詞(例如第一可能關聯字詞)。當關鍵字詞與第一可能關聯字詞於對應的內容文章中同時出現於同一句子的次數小於第二門檻值、且大於第三門檻值時,代表第一可能關聯字詞與關鍵字詞的關聯性低,其中第二門檻值小於第一門檻值,且第三門檻值小於第二門檻值。此時,同義字詞產生單元103判斷第一可能關聯字詞為關鍵字詞的候補字詞。需注意的是,本發明並不限制第二門檻值與第三門檻值的數值,使用者可自行設計第二門檻值與第三門檻值以判斷可能關聯字詞與關鍵字詞的關聯性,或是依據習知類似技術中的相關資料來產生。
值得一提的是,於本發明實施例中,同義字詞產生單元103係根據第二門檻值與第三門檻值來判斷可能關聯字詞是否為關鍵字詞的候補字詞。然而,本發明並不限定於此。於其他實施例中, 同義字詞產生單元103亦可不設定第二門檻值與第三門檻值,而是直接將與關鍵字詞於對應的內容文章中同時出現於同一句子的次數小於第一門檻值的可能關聯字詞判定為候補字詞。
接著,同義字詞產生單元103進一步判斷候補字詞是否為關鍵字詞的同義字詞或反義字詞。同義字詞產生單元103根據關鍵字詞與候補字詞的詞性以及關鍵字詞與候補字詞所在的句子的文句結構,來判斷候補字詞是否為關鍵字詞的同義字詞或反義字詞。舉例來說,使用者輸入的關鍵字詞為「車」,且關鍵字詞所在的句子為「駕駛一輛紅色的車」。接著,同義字詞產生單元103搜尋候補字詞所在的句子,並獲得對應的句子為「開一輛白色的跑車」。同義字詞產生單元103先判定關鍵字詞「車」為名詞,且與關鍵字詞「車」相關聯的動詞與形容詞分別為「駕駛」與「紅色的」。同義字詞產生單元103根據兩個句子的文具結構,判斷與候補字詞「跑車」相關聯的動詞與形容詞分別為「開」與「白色的」。由於兩個句子係使用類似的動詞「駕駛」與「開」,且兩個句子使用類似的形容詞「紅色的」與「白色的」來修飾名詞,據此,同義字詞產生單元103將候補字詞「跑車」判定為關鍵字詞「車」的同義字詞。
當候補字詞被判斷為關鍵字詞的同義字詞時,同義字詞產生單元103將同義字詞列為相關字詞。當候補字詞被判斷為關鍵字詞的反義字詞時,同義字詞產生單元103不將反義字詞列為相關字詞。
由上述內容可知,關聯字詞產生單元102能夠找出與關鍵字詞相關的關聯字詞,且同義字詞產生單元103能夠找出關鍵字詞的同義字詞。分群單元111接收關聯字詞產生單元102輸出的關聯字詞與同義字詞產生單元103輸出的同義字詞,進而獲得對關鍵字詞的相關字詞。
分群單元111將關鍵字詞與相關字詞向量化,使得關鍵字詞 與相關字詞被轉換成可計算的數據向量。根據向量化後的關鍵字詞與相關字詞,分群單元111分別計算關鍵字詞與所有相關字詞彼此間的距離值。附帶一提,距離值係利用餘弦相似度(Cosine Similarity)去測量兩數據向量之間的距離,作為衡量兩數據向量間之相似度的依據。有關將關鍵字詞與相關字詞向量化的技術以及計算兩數據向量間的距離值的詳細計算方式為所屬技術領域具通常知識者常用的技術,故在此不再贅述。根據計算出的距離值,分群單元111對關鍵字詞與相關字詞進行分群,以產生分群結果,其中分群結果包括至少一分群群組。舉例來說,當關鍵字詞與其中一個相關字詞(例如第一相關字詞)的距離值接近於關鍵字詞與另外一個相關字詞(例如第二相關字詞)的距離值時,分群單元111將第一相關字詞與第二相關字詞分到同一個分群群組。
分群單元111輸出分群結果至操作介面2,以供使用者從分群結果中選擇一個分群群組。依據被選擇的分群群組,搜尋引擎對初步檢索結果進行過濾以產生對應的檢索過濾結果。
值得一提的是,處理裝置1還能夠將使用者所選擇的分群群組記錄於個人化模組(圖1未繪示)。個人化模組設置於處理裝置1中,其透過記錄使用者每一次所選擇的分群群組,進而推斷使用者進行檢索時的喜好,以作為使用者的個人化設定。如此一來,下一次使用者進行檢索時,個人化模組能夠依據使用者的個人化設定自動地過濾掉部份網頁,使得初步檢索結果更貼近於使用者的喜好。
當然,本發明實施例並不限定處理裝置1一定要進行個人化設定。使用者亦可自行選擇是否要開啟個人化設定的功能。除此之外,個人化模組還能夠記錄多個使用者的個人化設定。也就是說,使用者在開始檢索前,可先透過操作介面2登入自己的帳號。個人化模組便可依據不同的帳號記錄不同的個人化設定。在下一次檢索時,個人化模組再根據對應目前帳號的個人化設定去對初 步檢索結果進行過濾。
舉例來說,使用者先輸入關鍵字詞「珍珠」。搜尋引擎3根據關鍵字詞「珍珠」進行檢索,並得到對應的初步檢索結果。可能關聯字詞產生單元101根據初步檢索結果,搜尋出對應關鍵字詞「珍珠」的可能關聯字詞。關聯字詞產生單元102與同義字詞產生單元103分別根據關鍵字詞「珍珠」與可能關聯字詞於對應的內容文章中同時出現於同一句子的次數產生相關字詞,例如相關字詞「玉」、「和闐玉」、「翡翠」、「手環」、「珍珠奶茶」以及「面膜」。
分群單元111將關鍵字詞「珍珠」與相關字詞「玉」、「和闐玉」、「翡翠」、「手環」、「珍珠奶茶」以及「面膜」向量化,並分別計算關鍵字詞「珍珠」與相關字詞「玉」、「和闐玉」、「翡翠」、「手環」、「珍珠奶茶」以及「面膜」彼此間的距離值。依據計算出的距離值,分群單元111將相關字詞「玉」、「和闐玉」、「翡翠」以及「手環」分類到分群群組「首飾」,將相關字詞「珍珠奶茶」分類到分群群組「食品」,且將相關字詞「面膜」分類到分群群組「化妝品」。
最後,分群單元111將分群群組「首飾」、「食品」以及「化妝品」輸出至操作介面2,以供使用者選擇其中一個分群群組。若使用者選擇分群群組「首飾」,則搜尋引擎將過濾分群群組「食品」以及「化妝品」所對應的網頁,僅呈現分群群組「首飾」所對應的網頁給使用者。
同時,個人化模組記錄使用者所選擇的分群群組「首飾」。如此一來,下一次使用者進行檢索時,個人化模組將會控制搜尋引擎優先地呈現對應分群群組「首飾」的網頁,或是自動地過濾掉對應分群群組「首飾」以外的網頁,使得初步檢索結果更貼近於使用者的喜好。
請參閱圖2,圖2是本發明實施例之檢索過濾方法的流程圖。 檢索過濾方法適用於前述的處理裝置1。於步驟S201,開始檢索過濾方法。於步驟S202,接收使用者輸入的關鍵字詞。於步驟S203,根據關鍵字詞,經由搜尋引擎於網路上進行檢索以得到初步檢索結果。初步檢索結果包含有複數個網頁等資料。接著,依據初步檢索結果搜尋與對應關鍵字詞的至少一相關字詞。
於步驟S204,依據初步檢索結果,對相關字詞進行分群,並產生分群結果,分群結果包括至少一分群群組。於步驟S205,輸出分群結果以供使用者從其中選擇想要的分群群組。於步驟S206,使用者由分群結果選擇想要的分群群組。於步驟S207,依據被選擇的分群群組,對初步檢索結果進行過濾以產生對應的檢索過濾結果。於步驟S208,結束檢索過濾方法。
請參閱圖3,圖3是本發明實施例之產生相關字詞的流程圖。於步驟S301,承接自圖2的步驟S203,開始搜尋對應關鍵字詞的相關字詞。於步驟S302,依據複數個網頁中的複數個內容文章獲得內容文章各自對應的至少一可能關聯字詞。內容文章可以是在網頁中的任何文字。於步驟S303,計算關鍵詞與可能關聯字詞於對應的內容文章中同時出現於同一句子的次數。
於步驟S304,判斷關鍵詞與可能關聯字詞於對應的內容文章中同時出現於同一句子的次數是否大於第一門檻值。若關鍵詞與可能關聯字詞於對應的內容文章中同時出現於同一句子的次數大於第一門檻值,進入步驟S305。反之,則進入步驟S306。如同前面所述,本發明實施例並不限制第一門檻值的數值,使用者可自行設計第一門檻值以判斷可能關聯字詞與關鍵字詞的關聯性,或是依據習知類似技術中的相關資料來產生。於步驟S305,可能關聯字詞被列為關鍵字詞的相關字詞。
於步驟S306,判斷關鍵字詞與可能關聯字詞於同一內容文章中同時出現於同一句子的次數是否小於第二門檻值且大於第三門檻值。若關鍵字詞與可能關聯字詞於同一內容文章中同時出現於 同一句子的次數小於第二門檻值且大於第三門檻值,進入步驟S307。反之,則進入步驟S309。如同前面所述,本發明並不限制第二門檻值與第三門檻值的數值,使用者可自行設計第二門檻值與第三門檻值以判斷可能關聯字詞與關鍵字詞的關聯性,或是依據習知類似技術中的相關資料來產生。於步驟S307,可能關聯字詞被列為關鍵字詞的候補字詞。於步驟S308,根據候補字詞找出關鍵字詞的同義字詞。於步驟S309,結束搜尋對應關鍵字詞的相關字詞。
請參閱圖4,圖4是本發明實施例之產生同義字詞的流程圖。 於步驟S401,承接自圖3之步驟S308,開始根據候補字詞找出關鍵字詞的同義字詞。於步驟S402,根據關鍵字詞與候補字詞的詞性以及關鍵字詞與候補字詞所在的句子的文句結構,來判斷候補字詞是否為關鍵字詞的同義字詞或反義字詞。判斷候補字詞是否為關鍵字詞的同義字詞或反義字詞的方法類似於前述實施例,於此不再多加冗述。當候補字詞被判斷為關鍵字詞的同義字詞,進入步驟S403。反之,則進入步驟S404。
於步驟S403,當候補字詞被判斷為關鍵字詞的同義字詞時,將同義字詞列為相關字詞。於步驟S404,當候補字詞被判斷為關鍵字詞的反義字詞時,不將反義字詞列為相關字詞。於步驟S405,結束根據候補字詞找出關鍵字詞的同義字詞。
請參閱圖5,圖5是本發明實施例之產生分群結果的流程圖。於步驟S501,承接自圖2的步驟S204,開始對關鍵字詞進行分群。於步驟S502,將關鍵字詞與相關字詞向量化。於步驟S503,根據向量化後的關鍵字詞與相關字詞分別計算關鍵字詞與相關字詞彼此間的距離值。有關將關鍵字詞與相關字詞向量化的技術以及計算兩數據向量間的距離值的詳細計算方式為所屬技術領域具通常知識者常用的技術,故在此不再贅述。於步驟S504,根據距離值對關鍵字詞與相關字詞進行分群,以產生分群結果。於步驟S505, 結束對關鍵字詞進行分群。
綜上所述,本發明實施例所提供的檢索過濾方法及使用其的處理裝置可依據初步檢索結果對相關字詞進行分群,以產生分群結果。使用者可依需求從分群結果中選擇想要的分群群組,使得初步檢索結果可以進一步地被過濾,並產生使用者想要的檢索過濾結果。
本發明實施例所提供的檢索過濾方法還能夠根據關鍵字詞與可能關聯字詞於對應的內容文章中同時出現於同一句子的次數來判斷可能關聯字詞是關鍵字詞的關聯字詞、同義字詞或是反義字詞。相較於現有的技術,本發明實施例所提供的檢索過濾方法能夠更加精準地找出對應關鍵字詞的相關字詞。
另一方面,本發明實施例所提供的處理裝置更包括了個人化模組。透過設置個人化模組,使用者進行檢索所得到的初步檢索結果能夠更貼近於使用者的喜好。如此一來,使用者便可不花費太多時間在關連性較低的網頁上,並直接獲得想要的資訊。
以上所述,僅為本發明最佳之具體實施例,惟本發明之特徵並不侷限於此,任何熟悉該項技藝者在本發明之領域內,可輕易思及之變化或修飾,皆可涵蓋在以下本案之專利範圍。
S201~S208‧‧‧步驟流程

Claims (15)

  1. 一種檢索過濾方法,適用於一處理裝置,包括以下步驟:步驟A:接收一關鍵字詞;步驟B:根據該關鍵字詞,經由一搜尋引擎於一網路上進行檢索以得到一初步檢索結果,該初步檢索結果包含有複數個網頁,且搜尋與對應該關鍵字詞的至少一相關字詞;步驟C:依據該初步檢索結果,對該相關字詞進行分群,並產生一分群結果,該分群結果包括至少一分群群組;步驟D:輸出該分群結果以供一使用者從其中選擇一分群群組;以及步驟E:依據該被選擇的分群群組,對該初步檢索結果進行過濾以產生對應的一檢索過濾結果。
  2. 如請求項第1項所述之檢索過濾方法,其中步驟B的步驟更包括:步驟B-1:該複數個網頁中,分別包含有複數個內容文章;步驟B-2:獲得該些內容文章各自對應的至少一可能關聯字詞;以及步驟B-3:計算該關鍵字詞與該可能關聯字詞於該內容文章中同時出現於同一句子的次數,其中,當該關鍵字詞與該可能關聯字詞同時出現於同一句子的次數大於一第一門檻值時,該可能關聯字詞被列為該相關字詞。
  3. 如請求項第2項所述之檢索過濾方法,其中步驟B的步驟更包括:步驟B-4:當該關鍵字詞與該可能關聯字詞同時出現於同一句子的次數小於一第二門檻值、且大於一第三門檻值時,該可能關聯字詞被判定為該關鍵字詞的一候補字詞,根據該關鍵字詞與該候補字詞的一詞性以及該關鍵字詞與該候補字詞所在的該句子的一文句結構,來判斷該候補字詞是 否為該關鍵字詞的一同義字詞或一反義字詞,當該候補字詞被判斷為該關鍵字詞的該同義字詞時,將該同義字詞列為該相關字詞,當該候補字詞被判斷為該關鍵字詞的該反義字詞時,不將該反義字詞列為該相關字詞。
  4. 如請求項第2項所述之檢索過濾方法,其中該相關字詞係該關鍵字詞的一同義字詞、與該關鍵字詞相關的一關聯字詞、或是同一內容文章中常共同出現於同一句子的一字詞。
  5. 如請求項第1項所述之檢索過濾方法,其中步驟C的步驟更包括:步驟C-1:將該關鍵字詞與該相關字詞向量化;步驟C-2:根據向量化後的該關鍵字詞與該相關字詞分別計算該關鍵字詞與該相關字詞彼此間的一距離值;步驟C-3:根據該些距離值對該關鍵字詞與該相關字詞進行分群,以產生該分群結果。
  6. 如請求項第1項所述之檢索過濾方法,其中步驟E的步驟更包括:步驟E-1:記錄該使用者所選擇的該分群群組,以作為該使用者的一個人化設定。
  7. 如請求項第1項所述之檢索過濾方法,其中該處理裝置適用於任一搜尋引擎或一推薦系統。
  8. 一種處理裝置,包括:一相關字詞產生模組,用以接收一使用者輸入的一關鍵字詞,並經由一搜尋引擎於一網路上進行檢索以得到一初步檢索結果,且搜尋與對應該關鍵字詞的至少一相關字詞,其中該初步檢索結果包含有複數個網頁;以及一分群單元,電性連接於該相關字詞產生模組,用以依據該初步檢索結果對該相關字詞進行分群,並產生一分群結果,該分群結果包括至少一分群群組; 其中,該分群單元輸出該分群結果至一操作介面以供該使用者從其中選擇一該分群群組,該搜尋引擎依據該被選擇的分群群組,對該初步檢索結果進行過濾以產生對應的一檢索過濾結果。
  9. 如請求項第8項所述之處理裝置,其中該相關字詞產生模組包括:一可能關聯字產生單元,電性連接於該搜尋引擎,用以自該複數個網頁中的複數個內容文章中獲得該些內容文章各自對應的至少一可能關聯字詞。
  10. 如請求項第9項所述之處理裝置,其中該相關字詞產生模組包括:一關聯字詞產生單元,電性連接於該可能關聯字產生單元,用以根據該關鍵字詞與該可能關聯字詞於該內容文章中同時出現於同一句子的次數產生該相關字詞,其中當該關鍵字詞與該可能關聯字詞同時出現於同一句子的次數大於一第一門檻值時,該可能關聯字詞被列為該相關字詞。
  11. 如請求項第9項所述之處理裝置,其中該相關字詞產生模組包括:一同義字詞產生單元,電性連接於該可能關聯字產生單元,用以根據該關鍵字詞與該可能關聯字詞於該內容文章中同時出現於同一句子的次數產生一候補字詞,當該關鍵字詞與該可能關聯字詞同時出現於同一句子的次數小於一第二門檻值、且大於一第三門檻值時,該可能關聯字詞被判定為該關鍵字詞的該候補字詞;其中,該同義字詞產生單元根據該關鍵字詞與該候補字詞的一詞性以及該關鍵字詞與該候補字詞所在的該句子的一文句結構,來判斷該候補字詞是否為該關鍵字詞的一同義字詞或一反義字詞,當該候補字詞被判斷為該關鍵字詞的該 同義字詞時,將該同義字詞列為該相關字詞,當該候補字詞被判斷為該關鍵字詞的該反義字詞時,不將該反義字詞列為該相關字詞。
  12. 如請求項第9項所述之處理裝置,其中該相關字詞係該關鍵字詞的一同義字詞、與該關鍵字詞相關的一關聯字詞、或是同一內容文章中常共同出現於同一句子的一字詞。
  13. 如請求項第8項所述之處理裝置,其中該分群單元將該關鍵字詞與該相關字詞向量化,並根據向量化後的該關鍵字詞與該相關字詞分別計算該關鍵字詞與該相關字詞彼此間的一距離值,接著根據該些距離值對該關鍵字詞與該相關字詞進行分群,以產生該分群結果。
  14. 如請求項第8項所述之處理裝置,其中該處理裝置記錄該使用者所選擇的該分群群組,以作為該使用者的一個人化設定。
  15. 如請求項第8項所述之處理裝置,其中該處理裝置適用於任一搜尋引擎或一推薦系統。
TW103140556A 2014-11-21 2014-11-21 檢索過濾方法及其處理裝置 TW201619853A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
TW103140556A TW201619853A (zh) 2014-11-21 2014-11-21 檢索過濾方法及其處理裝置
CN201410709075.7A CN105701119A (zh) 2014-11-21 2014-11-28 检索过滤方法及其处理装置
US14/566,675 US20160147894A1 (en) 2014-11-21 2014-12-10 Method and system for filtering search results

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW103140556A TW201619853A (zh) 2014-11-21 2014-11-21 檢索過濾方法及其處理裝置

Publications (1)

Publication Number Publication Date
TW201619853A true TW201619853A (zh) 2016-06-01

Family

ID=56010467

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103140556A TW201619853A (zh) 2014-11-21 2014-11-21 檢索過濾方法及其處理裝置

Country Status (3)

Country Link
US (1) US20160147894A1 (zh)
CN (1) CN105701119A (zh)
TW (1) TW201619853A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484859A (zh) * 2016-09-30 2017-03-08 维沃移动通信有限公司 一种关联词展现方法和装置
JP2019067194A (ja) * 2017-10-02 2019-04-25 Soinnホールディングス合同会社 自律学習装置、自律学習方法及びプログラム
KR20210102617A (ko) * 2020-02-12 2021-08-20 삼성전자주식회사 전자 장치 및 그 제어 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050283473A1 (en) * 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
WO2006011819A1 (en) * 2004-07-30 2006-02-02 Eurekster, Inc. Adaptive search engine
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
US9817902B2 (en) * 2006-10-27 2017-11-14 Netseer Acquisition, Inc. Methods and apparatus for matching relevant content to user intention
CN100535906C (zh) * 2007-06-28 2009-09-02 北京交通大学 融合伪相关反馈与检索技术的自动图像标注方法
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
CN101539918A (zh) * 2008-03-19 2009-09-23 天下互联(北京)科技有限公司 一种互联网搜索方法及***
KR101052631B1 (ko) * 2009-01-29 2011-07-28 성균관대학교산학협력단 동시 발생빈도를 이용한 검색어에 대한 연관어 제공 방법 및 이를 이용한 장치
US8843368B2 (en) * 2009-08-17 2014-09-23 At&T Intellectual Property I, L.P. Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment
US20120150862A1 (en) * 2010-12-13 2012-06-14 Xerox Corporation System and method for augmenting an index entry with related words in a document and searching an index for related keywords
CN102646103B (zh) * 2011-02-18 2016-03-16 腾讯科技(深圳)有限公司 检索词的聚类方法和装置
JP2017134761A (ja) * 2016-01-29 2017-08-03 トヨタ自動車株式会社 情報処理装置

Also Published As

Publication number Publication date
CN105701119A (zh) 2016-06-22
US20160147894A1 (en) 2016-05-26

Similar Documents

Publication Publication Date Title
US9348900B2 (en) Generating an answer from multiple pipelines using clustering
US9230009B2 (en) Routing of questions to appropriately trained question and answer system pipelines using clustering
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
US9817908B2 (en) Systems and methods for news event organization
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
KR102170206B1 (ko) 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
EP2251795A2 (en) Disambiguation and tagging of entities
WO2015043077A1 (zh) 语义信息获取方法及其关键词扩展方法和检索方法及***
JP7252914B2 (ja) 検索提案を提供する方法、装置、機器及び媒体
JP2017509049A (ja) 検索結果におけるコヒーレントな質問回答
WO2019108793A1 (en) Recommender methods and systems for patent processing
KR102150908B1 (ko) 자연어 질의해석 방법 및 시스템
WO2016178337A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
TW201619853A (zh) 檢索過濾方法及其處理裝置
TW201239645A (en) Recommendation method and recommender system using dynamic language model
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
CN108140034B (zh) 使用主题模型基于接收的词项选择内容项目
JP2016081265A (ja) 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム
KR101602342B1 (ko) 의미 태깅된 자연어 질의의 의도에 부합하는 정보 추출 및 제공 방법 및 시스템
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
KR100703193B1 (ko) 비음수 행렬 인수분해를 이용한 문서요약 장치 및 방법