KR101389148B1 - Suggesting and refining user input based on original user input - Google Patents
Suggesting and refining user input based on original user input Download PDFInfo
- Publication number
- KR101389148B1 KR101389148B1 KR1020077028339A KR20077028339A KR101389148B1 KR 101389148 B1 KR101389148 B1 KR 101389148B1 KR 1020077028339 A KR1020077028339 A KR 1020077028339A KR 20077028339 A KR20077028339 A KR 20077028339A KR 101389148 B1 KR101389148 B1 KR 101389148B1
- Authority
- KR
- South Korea
- Prior art keywords
- query
- terms
- alternative
- original
- compound word
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90324—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
검색 질의와 같은 오리지널 유저 입력에 기초하여 변형/정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 개시된다. 이 방법은 로마계 언어 및/또는 중국어와 같은 비-로마계 언어에 대해 구현될 수도 있다. 일반적으로, 이 방법은 오리지널 유저 입력을 수신하고 그 내부의 핵심 용어를 식별하는 단계, 유사성 매트릭스에 따라서 오리지널 입력의 핵심 용어(들) 를 다른 용어로 대체함으로써 및/또는 하나의 단어 시퀀스가 다른 하나의 시퀀스의 서브스트링인 확대/축소 표에 따라서 오리지널 입력의 단어 시퀀스를 다른 단어 시퀀스로 대체함으로써 잠재 대안적인 입력을 결정하는 단계, 및 예를 들어, 대안적인 입력의 가능성이 적어도 오리지널 입력의 가능성인 소정의 기준에 따라서 가장 적절한 대안적인 입력을 선택하는 단계를 포함한다. 사전-컴퓨팅된 오리지널 유저 입력과 해당 대안적인 입력을 포함하는 캐시를 제공할 수도 있다.A system and method are disclosed for generating modified / refined user input based on original user input, such as a search query. This method may be implemented for non-Roman languages such as Roman and / or Chinese. In general, the method receives original user input and identifies key terms therein, by replacing key term (s) of the original input with another term in accordance with a similarity matrix and / or one word sequence is another Determining a potential alternative input by replacing the word sequence of the original input with another word sequence according to a zoom table that is a substring of the sequence of s, and for example, the likelihood of the alternative input being at least the probability of the original input. Selecting the most appropriate alternative input according to a predetermined criterion. A cache may be provided that includes pre-computed original user inputs and corresponding alternative inputs.
오리지널 유저 입력, 대안적인 유저 입력, 잠재 대안적인 유저 입력 Original user input, alternative user input, potential alternative user input
Description
본 발명은, 일반적으로, 대안적인 유저 입력의 생성에 관한 것이다. 더욱 상세하게는, 검색 질의 (search query) 와 같은 오리지널 유저 입력에 기초하여 변형 또는 정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 개시된다.The present invention generally relates to the generation of alternative user inputs. More specifically, systems and methods are disclosed for generating modified or refined user input based on original user input, such as a search query.
수많은 유저들이 주어진 검색 세션 도중에 그들의 오리지널 검색 질의를 종종, 때때로 반복적으로 변형 또는 정제한다. 예를 들어, 유저는 오리지널 검색 질의를 더욱 구체적인 검색 질의, 더욱 광범위한 검색 질의, 및/또는 소정의 검색 결과가 생성될 때까지 대안적인 질의 용어를 이용하는 검색 질의로 변형할 수도 있다. 유저 검색 질의 정제는, 로마계 언어, 예를 들어, 영어로의 질의뿐만 아니라 비-로마계 언어, 예를 들어, 중국어, 일본어, 한국어 (CJK), 태국어 등으로의 질의로도 생성한다. 오리지널 검색 질의가 양호한 일련의 검색 결과를 산출하지 않았을 때, 예를 들어, 검색 질의가 너무 구체적이거나 또는 너무 광범위한 경우, 또는 부적절한 용어가 검색 질의에 이용된 경우, 유저는 그들의 검색 질의를 일반적으로 변형 또는 정제한다. 예를 들어, 하나 이상의 검색 용어가 모호하고, 반환된 도큐먼트의 일부가, 유저가 의도한 검색 용어의 의미와는 다른 모호한 검색 용어의 의미와 관련되는 경우, 및/또는 유저가 검색 용어의 수많은 양태 중에 주어진 검색 용어의 오직 하나의 양태에만 관련되는 경우에, 오리지널 유저 검색 질의는 너무 많은 부적절한 결과를 산출할 수도 있다. 또한, 오리지널 유저 검색 질의는, 유저가 소정의 검색 용어와 관련된 개념만을 검색할 때, 너무 많은 부적절한 결과를 산출할 수도 있다.Numerous users often modify or refine their original search queries often, often during a given search session. For example, a user may transform the original search query into a more specific search query, a broader search query, and / or a search query using alternative query terms until a given search result is generated. User search query refinements are generated not only in queries in the Roman language, for example English, but also in queries in non-Roman languages, for example, Chinese, Japanese, Korean (CJK), Thai, and the like. When the original search query did not yield a good set of search results, for example, if the search query was too specific or too broad, or if inappropriate terms were used in the search query, the user would typically modify their search query. Or purified. For example, if one or more of the search terms are ambiguous, and a portion of the document returned relates to the meaning of an ambiguous search term that is different from the meaning of the search term intended by the user, and / or the user has numerous aspects of the search term. If only one aspect of a given search term is given, then the original user search query may yield too many inappropriate results. In addition, the original user search query may yield too many inappropriate results when the user searches only concepts related to a given search term.
수많은 검색 엔진은 유저의 오리지널 검색 질의와 관련된 제안된 검색 질의의 목록을 제안한다. 예를 들어, 유저의 오리지널 검색 질의가 "Amazon" 이면, 검색 엔진은 "Amazon.com", "Amazon Rainforest", 및 "Amazon River" 와 같은 대안적인 관련 검색 질의를 제안할 수도 있다. 검색 질의 제안은 CJK 유저와 같은 비-로마계 언어 유저에 대해 특히 유용할 수도 있다. 구체적으로, 비-로마계 언어는 일반적으로 문자의 큰 세트를 가지고, 각각의 문자는 종래의 로마계 키보드를 사용하여 수개의 키스트로크 (keystroke) 를 요구할 수도 있기 때문에, 비-로마계 언어 유저들은 변형된 검색 질의를 타이핑함으로써 제안된 검색 질의를 클릭하거나 또는 선택하는 것을 선호할 수도 있다. 예를 들어, 수많은 중국어 유저들이 중국어 문자를 입력하기 위해 병음 (phonetic spelling) 을 이용한다. 통상, 종래의 병음 입력 시스템은 병음 입력을 변환하고, 유저가 중국어 문자의 의도된 세트를 선택할 수도 있는 후보 중국어 문자 세트의 목록을 제공한다. 명백하게, 복수의-단계 입력 프로세스는 지루할 수도 있고 시간을 낭비하는 것일 수도 있다.Many search engines offer a list of suggested search queries related to the user's original search query. For example, if a user's original search query is "Amazon", the search engine may suggest alternative related search queries such as "Amazon.com", "Amazon Rainforest", and "Amazon River". Search query suggestions may be particularly useful for non-Roman language users, such as CJK users. Specifically, non-Roman language users generally have a large set of characters, and each character may require several keystrokes using a conventional Roman keyboard. You may prefer to click or select the proposed search query by typing the modified search query. For example, many Chinese users use phonetic spelling to enter Chinese characters. Conventional Pinyin input systems typically convert the Pinyin input and provide a list of candidate Chinese character sets from which the user may select an intended set of Chinese characters. Obviously, the multi-step input process may be tedious and time consuming.
또한, 검색 질의 제안은 로마계 언어 유저에 대해 유용할 수도 있다. Yahoo, Teoma, Alta Vista, Askjeeves, AllTheWeb, 및 Baidu 와 같은 수많은 검색 엔진은 관련 검색, 질의 정제, 또는 질의 클러스터링 형태의 피쳐 (feature) 를 제시한다.Search query suggestions may also be useful for Roman-speaking users. Numerous search engines such as Yahoo, Teoma, Alta Vista, Askjeeves, AllTheWeb, and Baidu present features in the form of related searches, query refining, or query clustering.
검색 질의와 같이 오리지널 유저 입력에 기초하여 변형된 또는 정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 개시된다. 본 발명은, 프로세스, 장치, 시스템, 디바이스, 방법, 또는, 프로그램 명령이 광 또는 전자 통신선을 통해서 전송되는 컴퓨터 판독가능 저장 매체 또는 컴퓨터 네트워크와 같은 컴퓨터 판독가능 매체를 포함하는 수많은 방법으로 구현될 수 있다는 것이 명시된다. 일반적으로, 용어 컴퓨터는 개인 휴대용 정보 단말기 (PDA), 셀룰러폰, 및 네트워크 스위치와 같은 컴퓨팅 파워를 가지는 임의의 디바이스를 지칭한다. 본 발명의 몇몇 독창적인 실시형태가 이하 설명된다.Systems and methods are disclosed for generating modified or refined user input based on original user input, such as a search query. The invention may be embodied in a number of ways including a computer readable medium such as a computer readable storage medium or computer network in which a process, apparatus, system, device, method, or program instruction is transmitted over an optical or electronic communication line. It is specified. In general, the term computer refers to any device having computing power, such as a personal digital assistant (PDA), cellular phone, and network switch. Some inventive embodiments of the invention are described below.
중국어와 같은 비-로마계 언어로의 질의에 대해 이 방법이 적용될 수도 있다. 일반적으로, 이 방법은 오리지널 유저 입력에서의 핵심 용어를 수신 및 식별하는 단계, 유사성 매트릭스에 따라서 오리지널 입력에서의 핵심 용어(들)을 다른 용어로 대체함으로써 잠재 대안적인 유저 입력을 결정하는 단계 및/또는 확대/축소 표에 따라서 일 시퀀스가 다른 시퀀스의 서브스트링인, 오리지널 입력에서 단어의 시퀀스를 단어의 다른 시퀀스로 대체하는 단계, 잠재 대안적인 유저 입력의 가능성을 컴퓨팅하는 단계, 예를 들어, 각각의 선택된 대안적인 유저 입력의 가능성이 적어도 오리지널 유저 입력의 가능성인, 소정의 기준에 따라서 가장 적절한 대안적인 유저 입력을 선택하는 단계를 포함한다. 또한, 이 방법은 오리지널 유저 입력이 제안된 대안적인 유저 입력의 사전-컴퓨팅된 캐시에 있는지의 여부를 결정하고, 만약 그렇다면, 사전-컴퓨팅된 캐시에 저장된 사전-컴퓨팅된 가장 적절한 대안적인 유저 입력을 출력하는 단계를 포함할 수도 있다.This method may be applied to queries in non-Roman languages such as Chinese. In general, the method comprises receiving and identifying key terms in the original user input, determining potential alternative user inputs by replacing key term (s) in the original input with other terms in accordance with the similarity matrix and / or Or replacing a sequence of words in the original input with another sequence of words, where one sequence is a substring of another sequence in accordance with a zoom table, computing the potential for alternative user input, eg, each Selecting the most appropriate alternative user input according to a predetermined criterion, wherein the probability of the selected alternative user input of is at least the probability of the original user input. In addition, the method determines whether the original user input is in the pre-computed cache of the proposed alternative user input, and if so, retrieves the pre-computed most appropriate alternative user input stored in the pre-computed cache. It may also include the step of outputting.
유사성 매트릭스는, 코퍼스를 이용하여 생성될 수도 있고, 매우 높은 유사성을 가질 수도 있는 "New York" 및 "Los Angeles" 와 같은 관용어를 포함하는 2 개의 유사 용어들 사이에서, 각 쌍의 대응 용어 (New 와 Los 및 York 와 Angeles) 가 높은 유사성을 가지지 않더라도, 유사값을 가질 수도 있다. 일 실시형태에서, 유사성 매트릭스는 코퍼스에서 단어들에 대한 피쳐 벡터를 구성하고, 그 피쳐 벡터를 이용하여 2 개의 단어/관용어 사이에서 유사값을 결정함으로써 생성될 수 있다.The similarity matrix may be generated using a corpus, and between two similar terms, including idioms such as "New York" and "Los Angeles," which may be generated using a corpus, and may have very high similarities, each pair of corresponding terms (New And Los and York and Angeles) may have similarity, even if they do not have high similarity. In one embodiment, the similarity matrix may be generated by constructing a feature vector for words in the corpus and using the feature vector to determine similarity values between two words / idioms.
확대/축소 표는 유저 입력 데이터베이스로부터 생성될 수도 있고, 용어의 각 쌍의 시퀀스와 관련된 빈도값을 가질 수도 있다. 일 실시형태에서, 확대/축소 표는 빈도수가 높은 단어 시퀀스를 결정하고, 비-관용구 (non-phrasal) 단어 시퀀스를 필터링하고, 빈도수로서 각 시퀀스의 용어와 카운트를 조합함으로써 생성될 수도 있다. 설명을 위해, 확대/축소 표에서 엔트리의 예는 "The United States of America" 및 "United States" 일 수도 있다.The zoom table may be generated from a user input database and may have a frequency value associated with the sequence of each pair of terms. In one embodiment, the zoom table may be generated by determining a high frequency word sequence, filtering non-phrasal word sequences, and combining the term and count of each sequence as a frequency. For illustrative purposes, examples of entries in the zoom table may be "The United States of America" and "United States".
잠재 대안적인 유저 입력의 가능성은: (a) 오리지널 유저 입력과 잠재 대안적인 유저 입력 사이의 관련성, (b) 잠재 대안적인 유저 입력이 유저에 의해 선택될 확률, 및 (c) 잠재 대안적인 유저 입력에 대한 위치의 스코어 중 하나 이상을 결정함으로써 컴퓨팅될 수도 있다. 특히, 오리지널 유저 입력과 잠재 대안적인 유저 입력 사이의 관련성이 오리지널 유저 입력과 잠재 대안적인 유저 입력의 정렬된 용어들 사이에서 상관값을 이용하여 결정될 수도 있다.The likelihood of latent alternative user input is: (a) the relationship between the original and latent alternative user input, (b) the probability that the latent alternative user input is selected by the user, and (c) the latent alternative user input. It may be computed by determining one or more of the scores of locations for. In particular, the association between the original user input and the potential alternative user input may be determined using a correlation value between the sorted terms of the original user and the potential alternative user input.
다른 실시형태에서, 대안적인 유저 입력을 제안하기 위한 시스템은 일반적으로 하나 이상의 핵심 용어를 가지는 오리지널 유저 입력을 수신하고, 오리지널 유저 입력의 핵심 용어를 식별하고, (a) 2 개의 용어 사이에서 유사값을 갖는 유사성 매트릭스에 따라서 대안적인 용어와 오리지널 유저 입력의 하나 이상의 핵심 용어를 대체하는 단계 및 (b) 하나의 시퀀스는 대안적인 시퀀스의 서브스트링이고, 용어의 각각의 시퀀스와 조합된 빈도값을 갖는 확대/축소 표에 따라서 단어의 대안적인 시퀀스를 갖는 오리지널 유저 입력의 단어의 시퀀스를 대체시키는 단계, 중 하나 이상의 단계를 수행함으로써 잠재 대안적인 유저 입력을 결정하고, 잠재 대안적인 유저 입력의 가능성을 컴퓨팅하고, 소정의 기준에 따라서 가장 적절한 대안적인 유저 입력을 선택 및 출력하도록 구성된 제안/정제 서버를 포함한다.In another embodiment, a system for suggesting alternative user input generally receives original user input having one or more key terms, identifies key terms of the original user input, and (a) a similarity value between the two terms. Substituting one or more key terms of the alternative term and the original user input according to a similarity matrix with (b) one sequence is a substring of the alternative sequence and has a frequency value combined with each sequence of terms. Replacing the sequence of words of the original user input having an alternative sequence of words according to the zoom table to determine one or more of the potential alternative user inputs by performing one or more of the steps, and computing the potential for potential alternative user inputs. Select the most appropriate alternative user input according to predetermined criteria, and It includes a suggestion / purification server configured to output.
다른 실시형태에서, 대안적인 유저 입력을 제안하기 위한 컴퓨터 프로그램 제품은 컴퓨터 시스템과 관련되어 이용되고, 컴퓨터 프로세서상에서 실행가능한 명령이 저장된 컴퓨터 판독가능 저장 매체를 포함한다. 이 명령은, 오리지널 유저 입력의 핵심 용어를 수신 및 식별하는 기능, 유사성 매트릭스에 따른 대안적인 용어와 오리지널 입력의 핵심 용어(들)을 대체함으로써 잠재 대안적인 유저 입력을 결정하는 기능 및/또는 확대/축소 표에 따라서, 일 시퀀스는 대안적인 시퀀스의 서브스트링인, 단어의 대안적인 시퀀스와 오리지널 입력의 단어의 시퀀스를 대체하는 기능, 잠재 대안적인 유저 입력의 가능성을 컴퓨팅하고 부가적으로 잠재 대안적인 유저 입력과 예측된 유저 충족을 컴퓨팅하는 기능, 예를 들어, 각각의 선택된 대안적인 유저 입력의 가능성은 적어도 오리지널 유저 입력의 가능성인 소정의 기준에 따라 가장 적절한 대안적인 유저 입력을 선택하는 기능을 일반적으로 포함할 수도 있다.In another embodiment, a computer program product for suggesting alternative user input is utilized in connection with a computer system and includes a computer readable storage medium having stored thereon instructions executable on a computer processor. This command may be used to receive and identify key terms of the original user input, to determine potential alternative user inputs by substituting alternative terms according to the similarity matrix and key term (s) of the original input and / or augmentation / According to the reduced table, one sequence is a substring of an alternative sequence, the ability to replace an alternative sequence of words and a sequence of words of the original input, computing the likelihood of potential alternative user input and additionally the potential alternative user. The ability to compute input and predicted user satisfaction, for example, the likelihood of each selected alternative user input is generally a function of selecting the most appropriate alternative user input according to a predetermined criterion that is at least a possibility of original user input. It may also include.
시스템 및 방법을 구현하는 어플리케이션은 검색 엔진 상에서와 같이 서버 사이트 상에서 구현될 수도 있고, 또는, 유저의 컴퓨터와 같은 클라이언트 사이트 상에서 구현되어, 예를 들어, 다운로드되어, 제안된 대안적인 입력을 제공하고 또는 검색 엔진과 같은 원격 서버와 상호작용할 수도 있다.Applications implementing the systems and methods may be implemented on a server site, such as on a search engine, or may be implemented on a client site, such as a user's computer, for example, downloaded to provide a suggested alternative input, or You can also interact with remote servers such as search engines.
본 발명이 이러한 특징 및 다른 특징과 이점은 본 발명의 예시 원리의 방법으로 설명하는 이하의 상세한 설명 및 첨부된 도면에서 더욱 상세하게 설명된다.These and other features and advantages of the present invention are described in more detail in the following detailed description and the accompanying drawings, which are described by way of exemplary principles of the invention.
본 발명은 첨부된 도면과 관련하여 이하 상세한 설명으로 용이하게 이해되며, 동일한 참조 수치는 동일한 구조 엘리먼트를 지칭한다.BRIEF DESCRIPTION OF THE DRAWINGS The present invention is easily understood by the following detailed description in conjunction with the accompanying drawings, wherein like reference numerals refer to like structural elements.
도 1a 는 유저 검색 질의와 같은 제안된 변형/정제된 유저 입력을 생성시키기 위한 예시적인 시스템의 블록도이다.1A is a block diagram of an example system for generating proposed modified / refined user input, such as a user search query.
도 1b 는 제안-정제 서버의 유사 단어 추출기에 의해 유사성 매트릭스를 생성시키기 위한 프로세스를 도시하는 블록도이다.1B is a block diagram illustrating a process for generating a similarity matrix by a similar word extractor of a suggestion-purification server.
도 1c 는 제안-정제 서버의 확대/축소 표 생성기에 의해 확대/축소 표를 생성시키기 위한 프로세스를 도시하는 블록도이다.1C is a block diagram illustrating a process for generating a zoom table by a zoom table generator of a suggestion-purification server.
도 1d 는 제안-정제 서버의 세션 파서 (session parser) 에 의해 초기의 변형/정제 캐시를 생성시키기 위한 프로세스를 도시하는 블록도이다.FIG. 1D is a block diagram illustrating a process for creating an initial variant / purification cache by a session parser of a suggestion-purification server.
도 2a 는 도 1a 에 도시된 시스템에 의해 구현될 수도 있는 변형/정제 유저 입력을 생성시키기 위한 예시적인 프로세스를 도시하는 플로우차트이다.FIG. 2A is a flowchart illustrating an example process for generating modification / purification user input that may be implemented by the system shown in FIG. 1A.
도 2b 는 도 1a 에 도시된 시스템에 의해 구현될 수도 있는 유저 질의와 같은 제안된 변형/정제된 제어 입력을 생성시키기 위한 예시적인 프로세스를 도시하는 플로우차트이다.FIG. 2B is a flowchart illustrating an example process for generating a proposed modified / refined control input, such as a user query, which may be implemented by the system shown in FIG. 1A.
도 3 은 오리지널 유저 질의를 파싱하여 생성된 예시적인 질의 래티스 도면이다.3 is an exemplary query lattice diagram generated by parsing an original user query.
도 4 는 질의 용어의 대체에 의해 제안된 변형/정제된 질의를 생성하는데 이용하기 위한 유사성 매트릭스를 구성하기 위한 예시적인 프로세스를 도시하는 플로우차트이다.4 is a flowchart illustrating an example process for constructing a similarity matrix for use in generating modified / refined queries proposed by the substitution of query terms.
도 5 는 예시적인 텍스트에서 생성된 용어 "communities" 에 대한 표 목록 피쳐 및 해당 카운트이다.5 is a table listing feature and corresponding count for the term “communities” generated in the example text.
도 6 은 코퍼스로부터 생성된 용어 "communities" 에 대한 표 목록 예시 피쳐 및 해당 카운트이다.6 is a table listing example feature and corresponding count for the term “communities” generated from a corpus.
도 7 은 제안된 변형/정제 질의를 생성시키기 위해 용어를 대체하는데 이용하기 위한 예시적인 유사성 매트릭스이다.7 is an example similarity matrix for use in replacing terms to generate a proposed modification / purification query.
도 8 은 질의의 복합어를 대체함으로써 제안된 변형/정제 질의를 생성시키기 위해 이용되는 복합어 쌍의 추출/축소 표를 구성하기 위한 예시적인 프로세스를 도시하는 플로우차트이다.8 is a flowchart illustrating an example process for constructing an extraction / reduction table of compound word pairs used to generate a proposed variant / purification query by replacing compound words in a query.
도 9 는 제안된 변형/정제 질의를 생성시키기 위해 질의의 복합어를 대체하 는데 이용하는 확대/축소 표의 몇몇 예시적인 엔트리를 도시하는 표이다.9 is a table showing some example entries in a zoom table used to replace compound words in a query to create a proposed variant / purification query.
도 10 은 제안된 변형/정제 질의의 스코어를 결정하기 위한 예시적인 프로세스를 도시하는 플로우차트이다.10 is a flowchart illustrating an example process for determining the score of a proposed modification / purification query.
도 11 은 용어 2 개의 질의 Q 및 Q' 의 정렬 매핑의 예를 도시하는 도면이다.11 is a diagram illustrating an example of alignment mapping of the terms two queries Q and Q '.
도 12 는 검출된 신규의 엔티티에 대한 상관값을 생성시키기 위한 예시적인 프로세스를 도시하는 플로우차트이다.12 is a flowchart illustrating an example process for generating a correlation value for a detected new entity.
검색 질의와 같은 오리지널 유저 입력에 기초하여 변형 또는 정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 개시된다. 단지 명료함을 목적으로, 본 명세서에 설명된 예는 중국어 질의 입력의 용어로만 일반적으로 표현된다는 것이 명시된다. 그러나, 정제/변형 유저 입력을 제안하기 위한 시스템 및 방법은 일본어, 한국어, 태국어 등과 같은 대안적인 비-로마계 언어뿐만 아니라 로마계 언어에 대해 유사하게 적용가능할 수도 있다. 또한, 정제/변형된 유저 입력을 제안하기 위한 시스템 및 방법은 다른 비-질의 유저 입력에 대해 유사하게 적용가능할 수도 있다. 이하의 설명은 당업자가 본 발명을 구성하고 이용하도록 표현된다. 구체적인 실시형태 및 어플리케이션의 설명이 예로서만 제공되고, 당업자에게는 다양한 변형이 용이하게 명백하다. 본 발명에 정의된 일반적인 원리는 본 발명의 취지 및 범위를 벗어나지 않고 다른 실시형태 및 어플리케이션에 적용될 수도 있다. 따라서, 본 발명은 본 명세서에 개시된 원리 및 특징과 일관되는 수많은 대안, 변형 및 등가물을 포함하는 가장 넓은 범위에 따른다. 명백함을 위해, 본 발명에 관련된 기술적 분야에 알려진 기술적인 재료에 관련된 설명은 본 발명을 불필요하게 모호하게 하지 않기 위해 상세하게 설명되지 않는다.Systems and methods are disclosed for generating modified or refined user input based on original user input, such as a search query. For purposes of clarity only, it is specified that the examples described herein are generally expressed only in terms of Chinese query input. However, systems and methods for suggesting tablet / modified user input may be similarly applicable to Roman languages as well as alternative non-Roman languages such as Japanese, Korean, Thai, and the like. In addition, systems and methods for suggesting refined / modified user input may be similarly applicable to other non-quality user input. The following description is expressed to enable those skilled in the art to make and use the invention. Descriptions of specific embodiments and applications are provided by way of example only, and various modifications are readily apparent to those skilled in the art. The general principles defined in the invention may be applied to other embodiments and applications without departing from the spirit and scope of the invention. Accordingly, the present invention is to be accorded the widest scope encompassing numerous alternatives, modifications, and equivalents consistent with the principles and features disclosed herein. For clarity, descriptions relating to technical materials known in the technical field related to the present invention are not described in detail in order not to unnecessarily obscure the present invention.
이 시스템 및 방법은 유저 질의의 용어들 사이의 유저의 질의 히스토리 및 관계에 기초하여, 질의와 같이 오리지널 유저 입력에 기초한 변형 또는 정제된 유저 입력을 생성하기 위한 것이다. 시스템 및 방법은 신규의 명칭 엔티티 (예를 들어, 적절한 명칭, 영화, 노래 및 제품 등의 명칭) 및 용어들 사이의 관계를 포함하는 신규의 용어를 추출하기 위한 시스템 및 방법을 포함할 수도 있다. 본 명세서에 설명된 시스템 및 방법은 질의 (또는 대안적인 유저 입력) 정제를 생성하는데 이용 적절하지만, 뉴스 기사 분류, 스펠링 정정, 매체 검색 및 분절 (segmentation) 과 같은 많은 대안적인 어플리케이션에 적합할 수도 있다. 수많은 유저에 대해, 초기 검색 질의는 종종 가장 적절한 검색 질의가 아니고, 따라서 유저는 주어진 검색 세션 도중에 검색 질의를, 종종 여러번, 변형 또는 정제한다.This system and method is for generating modified or refined user input based on original user input, such as a query, based on the user's query history and relationships between terms of the user query. The systems and methods may include systems and methods for extracting new terms, including new name entities (eg, names such as appropriate names, movies, songs, and products) and relationships between terms. The systems and methods described herein are suitable for use in generating query (or alternative user input) tablets, but may be suitable for many alternative applications, such as news article classification, spelling correction, media retrieval, and segmentation. . For many users, the initial search query is often not the most appropriate search query, so the user modifies or refines the search query, often several times, during a given search session.
도 1a 는 유저 검색 질의 (22) 와 같은 오리지널 유저 입력으로부터 제안된 변형/정제 입력 (26) 을 생성시키기 위한 예시적인 시스템 (20) 의 블록도이다. 일반적으로, 시스템 (20) 은 다양한 데이터 소스로부터 유래될 수도 있는 확률을 이용하여 제안된 변형/정제된 질의 (26) 를 생성하는 제안/정제 서버 (24) 를 포함한다. 다양한 데이터 소스의 예는 사전-컴퓨팅된 질의 제안 또는 정제의 캐시를 저장하는 부가적인 제안/정제 캐시 (36) 를 포함한다. 제안/정제 캐시 (36) 는 제안/정제 서버 (24) 의 세션 파서 (24C) 에 의해 초기에 생성될 수도 있다. 다른 데이터 소스로는 제안/정제 서버 (24) 의 유사 단어 추출기 (24A) 에 의해 생성될 수도 있는 유사성 매트릭스 (38) 및 확대/축소 표 생성기 (24B) 에 의해 생성될 수도 있는 확대/축소 표 (39) 일 수도 있다. 유사성 매트릭스 (38) 및 확대/축소 표 (39) 는 일반적으로 용어들 사이 및/또는 용어의 시퀀스 사이의 관계와 대략 비슷하다. 시스템 (20) 은 유사성 매트릭스 (38) 및/또는 확대/축소 표 (39) 를 주기적으로 업데이트 및/또는 재생성시킬 수도 있다. 제안/정제 서버 (24) 의 유사 단어 추출기 (24A), 확대/축소 표 생성기 (24B), 및 세션 파서 (24C) 는 각각 도 1b 내지 도 1d 을 참조하여 이하 상세하게 설명된다.1A is a block diagram of an
도 1b 는 유사 단어 추출기 (24A) 에 의해 유사성 매트릭스 (38) 를 생성시키기 위한 프로세스를 도시하는 블록도이다. 도시된 바와 같이, 유사 단어 추출기 (24A) 는 유사성 매트릭스 (38) 를 생성시키기 위해 다양한 데이터 소스를 이용할 수도 있다. 유사 단어 추출기 (24A) 에 의해 이용된 데이터 소스의 예는 웹 코퍼스 (30; 예를 들어, 뉴스, 웹 페이지, 및 앵커 (anchor) 텍스트 정보) 와 같은 코퍼스, 질의 및 질의 로그 (32) 에 저장된 것과 같은 관련 유저 선택, 및/또는 각각의 주어진 세션에 질의의 히스토리를 포함할 수도 있는 세션 데이터 (34) 를 포함한다. 또한, 웹 코퍼스 (30) 는 앵커 텍스트 정보를 포함할 수도 있다. 질의 로그 (32) 는 유저 질의의 로그만이 아니라 유저에 의해 이루어진 검색 결과 선택을 포함할 수도 있고, 또한, 유저가 예를 들어 검색 결과로 반환하기 전에 선택된 검색 결과에 머무른 기간도 포함할 수도 있다.1B is a block diagram illustrating a process for generating
도 1c 는 확대/축소 표 생성기 (24B) 에 의해 확대/축소 표 (39) 를 생성시키기 위한 프로세스를 도시하는 블록도이다. 도시된 바와 같이, 확대/축소 표 생성기 (24B) 는 확대/축소 표 (39) 를 생성시키기 위한 데이터 소스로서 질의 로그 (32) 및/또는 세션 데이터 (34) 를 이용할 수도 있다. 도 1d 는 세션 파서 (24C) 에 의해 초기 변형/정제 캐시 (36a) 를 생성시키기 위한 프로세스를 도시하는 블록도이다. 도시된 바와 같이, 세션 파서 (24C) 는 초기 변형/정제 캐시 (36a) 를 생성시키기 위한 그 데이터 소스로서 세션 데이터 (34) 를 이용할 수도 있다.1C is a block diagram illustrating a process for generating a zoom table 39 by a
도 2a 및 도 2b 는 제안/정제 서버 (24) 에 의해 수행될 수도 있는 예시적인 프로세스를 도시하는 플로우차트이다. 특히, 도 2a 는 도 1a 에 도시된 시스템 (20) 에 의해 구현될 수도 있는 변형/정제 유저 입력 캐시를 생성시키기 위한 예시적인 프로세스 (40) 를 도시하는 플로우차트이다. 블록 (41) 에서, 초기 변형/정제 캐시는 세션 파서를 사용하여 세션 데이터로부터 생성될 수 있다. 상술된 바와 같이, 세션 데이터는 질의 세션 또는 각각의 주어진 유저 입력의 질의 히스토리를 포함할 수도 있다. 다음으로, 프로세스 (40) 는, 블록 (42) 에서, 가장 공통적인 유저 입력, 예를 들어, 질의의 소정의 수의 각각에 대해 블록 (43 내지 48) 을 포함하는 루프로 진입한다. 특히, 블록 (43) 에서, 프로세스는 캐시의 제안된 변형/정제된 질의의 검색을 수행한다. 블록 (43) 에서의 검색은 제안 (1, 2,...M) 을 초래할 수도 있다.2A and 2B are flowcharts illustrating an example process that may be performed by the suggestion /
변형/정제 캐시에서 각각의 유저 입력 또는 질의 엔트리는 제안된 질의의 소정의 수 N 의 목록을 포함한다. 따라서, 제안 M+1, M+2...N 을 생성시키기 위해, 즉, 각각의 질의에 대한 제안된 질의를 충족시키기 위해서는, 블록 (44 내지 47) 이 또한 수행될 수도 있다. 특히, 블록 (44 및 45) 에서, 부가적으로 제안된 변형/정제 (대안적인) 질의를 생성시키기 위해 확대된 질의 래티스가 (개념적으로) 구성될 수도 있다. 블록 (44) 은 용어 대체 질의 변형/정제 방법을 일반적으로 나타내고, 블록 (45) 는 확대/축소 질의 변형/정제 방법을 일반적으로 나타낸다. 구체적으로, 블록 (44) 에서, 확대된 질의 래티스는 유사 용어의 유사성 매트릭스를 사용하여 오리지널 질의 용어를 유사 용어로 대체함으로써 이루어질 수도 있다. 용어 대체는 유사 단어 또는 용어를 오리지널 질의의 단어 또는 (관용어를 포함하는) 용어로 대체한다. 유사 용어는 동의어 또는 근사 동의어 (예를 들어, 공동체와 이웃), 두문자어, 및/또는 동일한 구문/의미 카테고리 (예를 들어, Toyota 및 Honda, Dell 및 HP, DVD 및 디지털 카메라, 및 Nokia 및 Motorola) 를 포함할 수도 있다.Each user input or query entry in the modification / purification cache contains a list of a predetermined number N of proposed queries. Thus, blocks 44-47 may also be performed to generate proposals M + 1, M + 2 ... N, i.e., to satisfy the proposed query for each query. In particular, at
블록 (45) 에서, 확대된 질의 래티스는 복합어 쌍의 확대/축소 표를 이용하여 오리지널 질의의 용어를 추가/삭제함으로써 부가적으로 및/또는 대안적으로 구성할 수도 있다. 특히, 확대/축소 표의 각각의 엔트리는, 하나의 복합어가 대안적인 서브스트링인, 예를 들어, T1T2<=>T1T2T3, 및 T4T5T6<=>T4T5 인 복합어의 쌍이다. 중국어 복합어 쌍의 예는 상하이와 상하이 도시뿐만 아니라 텔레비전 및 텔레비전 세트를 포함한다. 복합어 쌍은 모호한 용어 및 그들의 명백한 콘텍스 트 (예를 들어, Amazon 및 Amazon rain forest 및/또는 Amazon.com), 개념 및 그 정의 (예를 들어, 셀과 스템 셀 및/또는 셀 폰), 용어와 그 속성 (예를 들어, 컴퓨터 및 메모리, 하드 디스크 드라이브, 및/또는 DVD 드라이브), 및 명칭 (예를 들어, 사람들, 회사 등의 명칭) 및 이들에 해당하는 액티비티, 직업, 제품 등 (예를 들어, 톰 행크스와 포레스트 검프와 같은 영화배우-영화, 애플사와 아이팟과 같은 회사-제품, 빌 게이츠와 마이크로소프트 또는 CEO 와 같은, 사람-회사 또는 직함, 저자-북, 가수-노래 등) 을 포함할 수도 있다.At
확대된 질의 래티스가 다양한 대안적인 패스를 포함하도록 구성된 후, 확대된 질의 래티스에서의 소정의 수의 가장 좋은 질의에 대한 패스와 스코어는 블록 (46) 에서 잠재 제안된 질의로서 식별된다. 블록 (47) 에서, 오리지널 공통 유저 질의의 스코어가 컴퓨팅되어, 스코어가 적어도 오리지널 공통 유저 질의의 스코어인 잠재 제안된 질의만이 제안된 변형/정제된 질의로서 제공된다. 스코어는 유저에 의해 선택되거나 의도된 질의인 소정의 질의 (오리지널 또는 잠재 제안된 질의) 의 가능성을 나타낼 수도 있다. 스코어가 적어도 오리지널 공통 유저 질의의 스코어인 질의가 변형/정제 캐시에 제안 목록 엔트리를 채우기 위해 제안된 변형/정제된 질의로서 제공될 수 있다. 그 결과의 제안된 질의는 사전-컴퓨팅된 변형/정제 질의 캐시에 저장될 수도 있다. 프로세스 (40) 또는 루프가 블록 (42 내지 49) 을 포함한다는 것은 변형/정제 캐시를 업데이트하기 위해 주기적으로 반복될 수도 있다는 것을 나타낸다.After the expanded query lattice is configured to include various alternative passes, the passes and scores for any number of the best queries in the expanded query lattice are identified as potential proposed queries in
도 2b 는, 도 1a 에 도시된 시스템 (20) 에 의해 구현될 수도 있는 것과 같이, 유저 질의와 같은 제안된 변형/정제 유저 입력을 생성시키기 위한 예시적인 프로세스 (50) 를 도시하는 플로우차트이다. 블록 (51) 에서, 유저 질의와 같은 유저 입력이 수신된다. 판별 블록 (52) 에서, 블록 (51) 에서 수신된 오리지널 유저 입력은 부가적인 사전-컴퓨팅된 변형/정제 캐시의 엔트리와 비교될 수도 있다. 판별 블록 (52) 에서, 오리지널 유저 질의가 제안/정제 캐시에 있는 것으로 결정되면, 블록 (53) 에서, 사이즈 N 의 질의 제안 목록은 사전-컴퓨팅된 변형/정제 캐시로부터 N 사전-컴퓨팅된 질의 제안에 대해 적어도 부분적으로 채워진다. 판별 블록 (54) 에서, 제안 목록이 채워져 있다고 결정되면, 프로세스 (50) 는 종료된다. 제안 목록이 사전에 정의된 사이즈 N, 예를 들어, 10 개의 제안 또는 단일의 가장 좋은 제안일 수도 있다는 것이 명시된다. 이와 다르게, 판별 블록 (54) 에서, 제안 목록이 채워지지 않다고 결정되면, 다음으로, 프로세스 (50) 는 블록 (55 및 56) 으로 계속된다. 유사하게, 판별 블록 (52) 에서, 오리지널 유저 질의가 제안/정제 캐시 내에 있지 않다고 결정되면, 프로세스는 블록 (55 및 56) 으로 또한 계속된다. 블록 (55 내지 58) 은 도 2a 를 참조하여 설명된 것과 같이 블록 (44 내지 47) 과 유사하다는 것이 명시된다. 따라서, 유사한 내용에 대한 설명은 명백함을 목적으로 본 명세서에 반복되지 않는다.FIG. 2B is a flowchart illustrating an
블록 (55 및 56) 에서, 확대된 질의 래티스는 제안된 변형/정제된 (대안적인) 질의를 생성시키기 위해 (개념적으로) 구성된다. 확대된 질의 래티스가 다양한 대안적인 패스를 포함하도록 구성된 후, 확대된 질의 래티스의 가장 좋은 질의의 소정의 수에 대한 패스 및 스코어는 블록 (57) 에서의 잠재 제안된 질의로서 식별된다. 블록 (58) 에서, 오리지널 유저 질의의 스코어가 컴퓨팅되어, 스코어가 적어도 오리지널 유저 질의의 스코어인 잠재 제안된 질의만이 제안된 변형/정제된 질의로서 제공된다. 스코어가 적어도 오리지널 유저 질의의 스코어인 질의는 제안된 변형/정제된 질의로서 유저에게 제공되어 제안 목록 및 제안 목록의 나머지를 채울 수 있다. 도시되지 않았지만, 단일의 가장 좋은 질의가 이와 다르게 제공될 수도 있다. 또한, 오리지널 유저 질의 및 그 결과물인 제안된 질의는 사전-컴퓨팅된 변형/정제된 질의 캐시에 부가적으로 저장될 수도 있다.At
제안된 변형/정제된 유저 입력을 생성시키기 위해 도 2a 및 도 2b 를 참조하여 상기 도시되고 설명된 것과 같은 프로세스 (40 및 50) 의 다양한 블록들은 이하 상세하게 설명된다.Various blocks of
도 3 은 예시적인 확대된 질의 래티스 도면을 도시한다. 도시된 바와 같이, 오리지널 질의는 다양한 핵심 단어 또는 용어 T1, T2, T3, T4 및 비-핵심 단어 또는 용어 s1, s2, s3 을 포함할 수도 있다. 예를 들어, 중국어 질의 "sina (중국의 포털 사이트) 의 URL" 에서, 핵심 용어 또는 엔티티는 "URL" 이기보다는 "sina" 이다. 일반적으로, 비-핵심 용어는 중지 단어를 또한 포함한다. 비-중지 단어는 일반적으로 예를 들어, 웹 코퍼스와 같은 코퍼스에서 30 개의 가장 자주 발생하는 중국어 단어 또는 100 개의 가장 자주 발생하는 영어 단어로서 정의될 수도 있다.3 shows an exemplary enlarged query lattice diagram. As shown, the original query may include various key words or terms T 1 , T 2 , T 3 , T 4 and non-core words or terms s 1 , s 2 , s 3 . For example, in the Chinese query "URL of sina (the portal site of China)", the key term or entity is "sina" rather than "URL". In general, non-core terms also include stop words. Non-stop words may generally be defined as, for example, the 30 most frequently occurring Chinese words or the 100 most frequently occurring English words in a corpus, such as the web corpus.
오리지널 질의의 핵심 엔티티가 식별된 후에, 하나 이상의 질의 변형 또는 정제 방법, 예를 들어, 용어 대체 및/또는 확대/축소가 확대된 질의 래티스를 구축하도록 적용될 수 있다. 전술된 바와 같이, 용어 대체는 핵심 엔티티 (core entity) 와 유사한 단어 및/또는 용어 (예를 들어, 동의어 또는 근사 동의어) 및 예를 들어, 유사성 매트릭스를 이용하여 식별될 수도 있는 단어 및/또는 용어의 대체를 지칭한다. 설명을 위해, 도 3 은 확대된 질의 래티스가 용어 T1 을 T1' 또는 T1'' 로 대체하고 및/또는 용어 T4 를 T4' 로 대체함으로써 구축될 수도 있다는 것을 설명한다.After the key entities of the original query have been identified, one or more query modification or refinement methods, eg, term substitution and / or zoom, can be applied to build an expanded query lattice. As mentioned above, term substitution is a word and / or term that may be identified using similar words and / or terms (eg, synonyms or approximate synonyms) and, for example, a similarity matrix, to a core entity. Refers to the substitution of. For illustrative purposes, FIG. 3 illustrates that an expanded query lattice may be constructed by replacing the term T 1 with T 1 ′ or T 1 ″ and / or replacing the term T 4 with T 4 ′.
전술한 바와 같이, 확대/축소는, 예를 들어, 복합어의 확대/축소 표를 이용하여 오리지널 질의로부터 핵심 엔티티의 일부를 삭제하거나 핵심 엔티티를 추가하는 것을 지칭한다. 설명을 위해, 복합어의 확대/축소 표는 복합어 T1T2 및 T1T2T5 의 쌍에 대한 표 엔트리를 포함할 수도 있어서, 도 3 의 오리지널 질의의 복합어 T1T2 는 복합어 T1T2T5 (즉, 신규 용어 T5 의 추가) 로 대체되어 확대된 질의 래티스상에 더 구축될 수도 있다. 유사하게, 복합어의 확대/축소 표는 복합어 T2T3T4 및 T3T4 의 쌍에 대한 표 엔트리를 포함할 수도 있어서, 도 3 의 오리지널 질의의 복합어 T2T3T4 는 복합어 T3T4 (즉, 핵심 엔티티 T2 의 삭제) 와 대체되어 확대된 질의 래티스상에 더 구축될 수도 있다.As mentioned above, zooming refers to deleting some of the key entities or adding key entities from the original query, for example using a zoom table of compound words. For illustrative purposes, the zoom table of compound words may include table entries for pairs of compound words T 1 T 2 and T 1 T 2 T 5 , where compound word T 1 T 2 of the original query of FIG. 3 is compound word T 1. It may be further built on an expanded query lattice by being replaced by T 2 T 5 (ie, addition of the new term T 5 ). Similarly, the zoom table of compound words may include table entries for pairs of compound words T 2 T 3 T 4 and T 3 T 4 , such that compound word T 2 T 3 T 4 of the original query of FIG. It may be further built on an expanded query lattice in place of 3 T 4 (ie, deletion of the core entity T 2 ).
유사 용어의 유사성 매트릭스를 생성시키기 위한 일 예시적인 방법이 도 4 내지 도 7 을 참조하여 상세하게 설명된다. 도 4 는 질의 용어의 대체로 인해 제안된 변형/정제된 질의를 생성하는데 이용하는 유사성 매트릭스를 구성하기 위한 예시적인 프로세스 (60) 를 도시하는 플로우차트이다. 유사성 매트릭스는 단어 또는 용어 w 의 각각의 쌍 사이의 분포 단어 유사성의 매트릭스일 수도 있다. 각각의 단어 w 에 대한 분포 단어 유사성은 코퍼스, 예를 들어, 웹 페이지에서의 각각의 단어 w 에 대한 피쳐 벡터를 구성하고, 각각의 피쳐 벡터 사이의 각도의 코사인으로서 단어의 각 쌍들 사이의 유사성을 결정함으로써 획득될 수도 있다. 단어 또는 용어의 피쳐는 단어 또는 용어의 모든 생성시에 주변 단어를 포함할 수도 있다.One exemplary method for generating a similarity matrix of similar terms is described in detail with reference to FIGS. 4 to 7. 4 is a flowchart illustrating an
피쳐 벡터와 유사성 매트릭스의 구성의 일 예가 도 4 를 참조하여 나타나고, 다양한 다른 피쳐 벡터와 유사성 매트릭스 구성 방법이 유사하게 사용될 수도 있다. 특히, 블록 (62) 에서, 피쳐 벡터에서의 각각의 피쳐 f 에 대한 카운트와 함께, 웹 코퍼스와 같은 코퍼스의 각각의 단어/용어 w 에 대한 피쳐 벡터가 구성된다. 단어/용어 w 의 피쳐는 제 1 비-중지 단어까지 단어/용어 w 이전 및 이후에 생성하는 단어를 포함할 수도 있다. 설명을 목적으로, "Because communities assess at different percentages of fair market value, the only way to compare tax rates among communities is by using equalized rates" 라는 문장이 주어지고, 단어 communities 의 피쳐 및 그 해당 공동-생성 카운트가 도 5 의 표에 리스트된다. 주어진 단어의 대안적인 형태, 예를 들어, "community" 및 "communities" 와 같은 단수와 복수 또는 "walk", "walking" 및 "walked" 와 같은 서로 대안적인 시제를 가지는 언어에서, 시스템은, 분리된 단어이지만 일반적으로 유사한 용어로서 단어의 상이한 형태를 처리할 수도 있다는 것이 명시된다. 주어진 단어의 상이한 형태의 이러한 처리는 통상적으로 예를 들어, 중국어의 경우에서와 같이 이러한 차이를 가지지 않는 언어에 대해서는 적절하지 않을 수도 있다. 또한, 접두사 "L:" 또는 "R:" 를 가지는 피쳐는 단어 w 의 좌측 또는 우측에 각각 나타나는 단어이다. 이 실시형태에서, 단어 w 의 주어진 순간의 각각의 좌측 및 우측의 하나 이상의 피쳐의 카운트의 합계는 1 이다. 예를 들어, 단어 "communities" 의 제 1 순간에, 좌측 및 우측 피쳐 각각은 카운트 1 이 할당된다. 또한, 단어 "communities" 에 인접하는 하나 이상의 중지 단어 예를 들어 "between", "is", 및 "by" 가 있을 때, 단어 "communities" 의 주어진 순간의 각 측에 대한 피쳐의 카운트는 동일하게 분할되고 이에 따라 조각으로서 컴퓨팅될 수 있다. 단어 "communities" 의 제 2 순간에서, 2 개의 좌측 피쳐가 있고, 각각의 좌측 피쳐는 카운트 0.5 가 할당된다. 유사하게, 단어 "communities" 의 제 2 순간에서, 2 개의 우측 피쳐가 있어서, 각각의 우측 피쳐는 0.33 의 카운트가 할당된다.An example of the configuration of the feature vector and the similarity matrix is shown with reference to FIG. 4, and various other feature vectors and the similarity matrix construction method may be similarly used. In particular, at
다시 도 4 를 참조하여, 블록 (64) 에서, 피쳐 벡터의 각각의 피쳐 f 의 값은 단어 w 와 피쳐 f 사이의 포인트-와이즈 상호 정보 MI 로서 결정될 수도 있다. 포인트-와이즈 상호 정보 MI 의 값이 이용되기 때문에, 예를 들어, 중지 단어와 같이 자주 생성하는 단어는 더욱 높은 카운트를 가지는 경향이 있고, 이러한 단어는 의미적으로 무의미한 단어이다. 따라서, 피쳐의 카운트가 피쳐의 중요성의 우수한 표시자가 아닐 수도 있기 때문에, 단어 w 와 피쳐 f 사이의 포인트-와이즈 상호 정보 MI (w, f) 가 피쳐 f 의 값으로서 이용될 수도 있다. 포인트-와이즈 상호 정보 MI (w, f) 는 w 와 f 의 관찰된 결합 확률 사이의 비율인, P(w,f), w 의 기대 확률인 P(w), f 의 기대확률인 P(f) 대수로서 정의될 수도 있고, 이들이 독립적인 경우에는, Referring again to FIG. 4, at
에서와 같이 동시에 생성할 수도 있는데, 피쳐 P(f) 와 단어 P(w) 의 확률 (예를 들어, 상대적인 빈도) 이 예를 들어 코퍼스의 그들의 각각의 확률을 이용하여 결정될 수도 있다. 예로서, 도 6 은 예시적인 피쳐 및 웹 포커스로부터 생성된 용어 "communities" 에 대한 해당 확률을 나열한 표이다. 도 6 에 도시된 피쳐 벡터 표는 단어 "communities" 의 피쳐의 서브세트 뿐만 아니라 피쳐와 단어 "communities" 사이의 상호 정보 및 확률을 리스팅한다. 피쳐 벡터는 공정하게 클 수 있다는 것이 명시된다. 예를 들어, 코퍼스로부터 추출된 단어 communities 의 피쳐의 풀 세트는 대략 2,000 엘리먼트를 포함한다.It is also possible to generate simultaneously, as in, where the probability (eg, relative frequency) of the feature P (f) and the word P (w) may be determined using their respective probability of the corpus, for example. By way of example, FIG. 6 is a table listing corresponding probabilities for the term “communities” generated from exemplary features and web focus. The feature vector table shown in FIG. 6 lists a subset of features of the word "communities" as well as the mutual information and probabilities between the feature and the word "communities". It is specified that the feature vector can be fairly large. For example, the full set of features of the word communities extracted from the corpus contains approximately 2,000 elements.
도 4 를 다시 참조하여, 블록 (66) 에서, 2 개의 단어와 관용구 w1 및 w2 사이의 유사성 측정 또는 값 sim 은 피쳐 벡터의 피쳐의 값을 이용하여 이들의 피쳐 벡터 사이의 각도의 코사인으로서 결정될 수도 있다. 특히, 2 개의 용어 또는 단어 w1 및 w2 사이의 유사값 sim 은 Referring again to FIG. 4, at
로서 정의될 수 있고, 여기서, w1 및 w2 의 피쳐 벡터는 각각 (f11, f12..., f1n) 및 (f21, f22..., f2n) 로 표현된다.Where the feature vectors of w 1 and w 2 are represented by (f 11 , f 12 ... F 1n ) and (f 21 , f 22 ..., F 2n ), respectively.
블록 (68) 에서, 유사성 매트릭스가 용어의 단어의 각 쌍에 대한 유사값으로부터 구성되고, 질의 용어를 유사 용어와 대체함으로써 제안된 변형/정제된 질의를 생성하는데 이용될 수도 있다. 특히, 유사값은 예를 들어 잠재 제안 질의에 대한 스코어를 결정하는데 이용될 수도 있다. 유사성 매트릭스는 주기적으로 재컴퓨팅될 수도 있고, 및/또는 용어, 예를 들어, 신규로 식별된 용어에 대한 유사값은 이 매트릭스에 추가될 수도 있다. 도 7 은 제안된 변형/정제된 질의를 생성시키기 위한 유사 용어를 대체하는데 이용될 수도 있는 예시적으로 유사성 매트릭스이다.At
나타난 용어 대체 질의 변형/정제 방법에 적용되는 유사성 매트릭스를 생성시키기 위한 예시적인 방법, 확대/축소 질의 변형/정제 방법에 적용되는 복합어 쌍의 확대/축소 표를 생성시키기 위한 예시적인 방법이 이하 도 8 내지 도 11 을 참조하여 더욱 상세하게 설명된다. 도 8 은 복합어의 쌍의 추출/축소 표를 구성하기 위한 예시적인 프로세스 (70) 를 설명하는 플로우차트이다. 전술한 바와 같이, 확대/축소 표의 각각의 엔트리는 복합어 쌍이고, 하나의 복합어는 대안적인 하나의 서브스트링이며, 질의가 확대/축소 표의 엔트리에서 하나의 복합어 쌍인 복합어를 포함하는 경우에, 이 복합어는 래티스를 확대하는 복합어 쌍 엔트리의 다른 복합어에 의해 대체될 수도 있다. 이상적으로, 추출/축소 표의 각각의 복합어는 의미있는 관용어일 수도 있다. 예로서, 복합어 쌍은 Shanghai 와 Shanghai City 또는 television 과 television set 일 수도 있다. 전술한 바와 같이, 복합어 쌍은, 예를 들어, 모호한 용어와 그 명백한 콘텍스트 (예를 들어, Amazon 과 Amazon rain forest), 사람들의 이름과 그 해당 액티비티, 용어의 속성, 개념의 정제, 배우, 작가, 제품, 사람-위치 등을 포함할 수도 있다.An example method for generating a similarity matrix applied to the term substitution query modification / purification method shown, and an example method for generating a zoom table of compound word pairs applied to the zoom query modification / purification method are shown in FIG. 8. This will be described in more detail with reference to FIG. 11. 8 is a flowchart illustrating an
블록 (71) 에서, 질의 로그의 질의 (또는 유저 입력의 대안적인 데이터베이스) 는 그 질의에 대한 전반적인 확률을 최대화하는 단어 시퀀스로 세분화될 수도 있다. 특히, 중국어 단어는 스페이스 또는 그 외 브레이크로 명백하게 묘사될 필요가 없기 때문에, 질의는 브레이크를 갖지 않은 중국어 문자의 스트링일 수도 있고, 분절이 문자의 시퀀스를 단어의 시퀀스로 분할하도록 이용될 수도 있다. 단어의 시퀀스는, 단어의 확률의 제품이 문자의 시퀀스의 모든 가능한 분할들 중에서 최대가 될 수도 있다. 명백하게, 블록 (71) 은 인접하는 단어들 사이의 묘사가 있는 영어와 같은 특정 언어에 대해서는 수행할 필요가 없다.At
복합어/관용어를 식별하기 위해, 빈도수가 높은 단어 시퀀스 또는 n-그램 (n 시퀀스의 시퀀스) 가 블록 (72) 에서 식별된다. 블록 (72) 에서, 단어 시퀀스에서 단어의 모든 인접하는 쌍이 빈도수가 높은 n-그램인 단어 시퀀스의 카운트는 임의의 길이의 빈도수가 높은 단어 시퀀스를 식별하도록 구성된다. 빈도수가 높은 단어 시퀀스는 복합어일 수도 있고 복합어가 아닐 수도 있다는 것이 명시된다. 예를 들어, 빈도수가 높은 단어 시퀀스의 일부가 복합어이고, 다른 시퀀스들은 비-관용어 또는 비-복합어 시퀀스일 수도 있다.To identify the compound / idiom, a high frequency word sequence or n-gram (sequence of n sequence) is identified at
블록 (73) 에서, 비-관용어 시퀀스는 (동일한 질의일 필요는 없는) 질의의 최소수의 시작뿐만 아니라 종료시에 나타나도록 복합어/관용어를 요구함으로써 식별된다. 질의의 최소수는 1 이상의 임의의 수일 수도 있지만, 통상적으로 1 보다 훨씬 큰, 예를 들어, 50 또는 100 이다.In
블록 (74) 에서, 웹 코퍼스와 같은 코퍼스에서 각각의 n-그램에 대한 피쳐 벡터는 피쳐 벡터의 각각의 피쳐 f 에 대한 카운트와 함께 구성된다. 블록 (75) 에서, 피쳐 벡터의 각각의 피쳐 f 의 값은 n-그램과 피쳐 f 사이의 포인트-와이즈 상호 정보 MI 로서 결정될 수도 있다. 블록 (76) 에서, 2 개의 n-그램 사이의 유사성 측정 또는 값 sim 은 피쳐 벡터에서 피쳐의 값을 사용하여 그 피쳐 벡터들 사이의 값의 코사인으로서 결정될 수도 있다. 도 4 를 참조하여 전술된 바와 같이, 블록 (74, 75 및 76) 은 프로세스 (60) 의 각각의 블록 (62, 64 및 66) 과 유사하다는 것이 명시된다. 따라서, 유사한 내용에 대한 설명은 명료성을 위해 반복되지 않는다.In
그 후, 확대/축소 표는 복합어 쌍으로서 구성될 수도 있고, 여기서 일 복합어는 블록 (77) 에서 다른 복합어의 서브스트링이다. 또한, 복합어의 카운트는 확대/축소 표에서 결정되고 저장될 수 있다.The zoom table may then be configured as a compound word pair, where one compound word is a substring of another compound word at
도 9 는 제안된 변형/정제 질의를 생성시키기 위해 질의에서 복합어를 대체하는데 이용되는 확대/축소 표의 몇몇 예시적인 엔트리를 설명하는 표이다. 도시된 바와 같이, 확대/축소 표의 각각의 로우는 2 개의 복합어 또는, 하나의 복합어가 다른 복합어의 서브스트링인 단어 시퀀스를 포함한다. 또한, 각각의 복합어는, 예를 들어, 질의 로그 또는 몇몇 대안적인 유저 입력 데이터베이스로부터 결정될 수도 있는 카운트 (또는 대안적인 빈도값) 와 조합된다. 카운트는 데이터베이스의 크기를 감소시키기 위해 컷-오프로서 이용될 수도 있고 및/또는 예를 들어, 로그 (카운트) 를 이용함으로써, 용어 또는 복합어에 대한 비중을 결정하기 위해 적어도 일부에서 이용될 수도 있다. 도 2a 및 도 2b 를 참조하여 전술된 바와 같이, 질의 래티스가 용어를 대체함으로써 및 또는 오리지널 질의에 용어를 추가/삭제함으로써 확대되고, N 가장 적절한 질의의 패스 및 스코어는 잠재 제안된 질의로서 확대된 래티스로부터 결정된다. 도 10 은, 예를 들어, 확대된 질의 래티스에서의 패스와 같은 제안된 변형/정제된 질의의 스코어를 결정하기 위한 예시적인 프로세스 (80) 를 도시하는 플로우차트이다.9 is a table illustrating some example entries of a zoom table used to replace compound words in a query to generate a proposed variant / purification query. As shown, each row of the zoom table includes a word sequence in which two compound words or one compound word is a substring of another compound word. In addition, each compound word is combined with a count (or alternative frequency value) that may be determined, for example, from a query log or some alternative user input database. The count may be used as a cut-off to reduce the size of the database and / or at least in part to determine specific gravity for a term or compound word, for example by using a log (count). As described above with reference to FIGS. 2A and 2B, the query lattice is expanded by replacing terms and / or by adding / deleting terms to the original query, and the path and score of the N most appropriate query is expanded as a potential proposed query. Determined from lattice. 10 is a flowchart showing an
질의 제안의 결정은 현재 질의 세션에서 사전의 질의에 기초하여 예측 문제로서 처리될 수 있다. 현재 검색 세션에서 질의의 히스토리 Q1, Q2,..., Qn-1 가 주어지면, 유저가 어떤 다음 질의 Qn 를 선택할 가능성이 가장 높은지에 대한 예측이 이루어질 수도 있다. 제안된 또는 예측된 다음 질의 Qn 는 현재 세션의 질의 질의의 히스토리 Q1, Q2,..., Qn-1 에 관련되어야할 뿐만 아니라 우수한 검색 결과를 산출해야만 한다. 검색 결과가 얼마나 우수한지를 측정하는 방법은, 예를 들어, 클릭 위치 (유저가 선택하는 검색 결과의 위치) 및 클릭 기간 (얼마나 오래 유저가 선택된 검색 결과 페이지에서 머무르는지의 기간) 의 함수일 수도 있다.Determination of the query proposal may be treated as a prediction problem based on prior queries in the current query session. Given the history of the queries Q 1 , Q 2 , ..., Q n-1 in the current search session, a prediction may be made as to which next query Q n is most likely to be selected by the user. The proposed or predicted next query Q n should not only be related to the history Q 1 , Q 2 , ..., Q n-1 of the query query of the current session, but also should yield excellent search results. The method of measuring how good the search results are may be, for example, a function of the click location (the location of the search result the user selects) and the click period (how long the user stays on the selected search results page).
일 실시형태에서, 각각의 잠재 제안된 질의에 대한 스코어는 오브젝트 함수 F 의 값으로서 결정될 수 있는데,In one embodiment, the score for each potential proposed query can be determined as the value of the object function F,
F(Q, Q1,..., Qn -1)=Rel(Q, Q1,..., Qn -1)*Click(Q)*Position(Q) 이고;F (Q, Q 1 , ..., Q n -1 ) = Rel (Q, Q 1 , ..., Q n -1 ) * Click (Q) * Position (Q);
여기서, Rel(Q, Q1,..., Qn -1) 는 질의의 히스토리 Q, Q1,..., Qn -1 와 후보 제안된 질의 Q 사이의 관련성이고;Where Rel (Q, Q 1 , ..., Q n -1 ) is the relationship between the history Q, Q 1 , ..., Q n -1 of the query and the candidate proposed query Q;
Click(Q) 는, 후보 제안된 질의 Q 가 유저에 의해 선택될 확률이고; 및Click (Q) is the probability that the candidate proposed query Q is selected by the user; And
Position(Q) 는 클릭될 질의 Q 가 제안된 캔디데이트에 대한 검색 결과의 위치이다.Position (Q) is the position of the search result for the candy date for which the query Q to be clicked is proposed.
도 2 를 참조하여 전술한 바와 같이, 하나 이상의 제안된 또는 예측된 다음 질의 Q 가 유저에게 제공될 수 있다. 따라서, 가장 적절한 N 제안 다음 질의 (예를 들어, 확대된 질의 래티스에서의 패스) 는 가장 높은 오브젝트 함수값을 가지는 N 질의이고, 가장 적절하게 (예를 들어, 가장 가능성이 높게) 제안된 다음 질의는 오브젝트 함수 F:As described above with reference to FIG. 2, one or more proposed or predicted next queries Q may be provided to the user. Thus, the most appropriate N proposal next query (e.g., a pass in an enlarged query lattice) is the N query with the highest object function value, and the most appropriate (e.g. most likely) proposed next query. Is an object function F:
Qn=ArgMax_Q{F(Q, Q1,...,Qn -1)} Q n = ArgMax_Q {F (Q, Q 1 , ..., Q n -1 )}
의 값을 최대화하는 질의로서 표현될 수 있다.It can be expressed as a query that maximizes the value of.
각각의 잠재 제안된 또는 예측된 다음 질의 Q (90) 에 대한 스코어의 결정은 도 10 의 플로우차트에 도시된다. 블록 (82) 에서, 예측된 질의 Q 와 현재 세션의 유저 질의의 히스토리 Q1,...,Qn-1 사이의 관련성 Rel (Q, Q1,...,Qn-1) 이 질의의 정렬된 용어의 상관관계를 이용하여 결정된다. 특히, 관련성 함수 Rel 을 추정하기 위해, 오리지널 질의 Q 의 용어 또는 핵심 엔티티가 식별된다. 핵심 엔티티 사이의 상관관계를 이용하여, 2 개의 질의 Q 와 Q' 사이의 관련성 Rel (Q, Q') 은 그 핵심 엔티티의 상광관계로부터 유래될 수 있다. 특히, 관련성 Rel (Q, Q') 은:Determination of the score for each potential proposed or predicted
Rel(Q, Q')=Max_fProd_{i=1}^kCor(Ti,Ti')*w(Ti)Rel (Q, Q ') = Max_fProd_ {i = 1} ^ kCor (T i , T i ') * w (T i )
로서 표현될 수 있고, 여기서:Can be expressed as:
정렬 함수 f=f(T1, T2,...Tk, T1', T2',...,Tk') 는, 관련 질의 Q 와 Q' 의 용어를 매핑하고, 예를 들어, {T1,...Tk, e} 와 {T1',...,Tk'} 사이의 매핑, 도 11 에 도시된 일 예는;The sort function f = f (T 1 , T 2 , ... T k , T 1 ', T 2 ', ..., T k ') maps the terms of the related query Q and Q', For example, a mapping between {T 1 , ... T k , e} and {T 1 ', ..., T k '}, an example shown in FIG. 11;
Cor(Ti, Ti') 는 용어 Ti, Ti' 사이의 상관관계이고, 실제 수의 벡터이며;Cor (T i , T i ') is the correlation between the terms T i , T i ' and is a vector of actual numbers;
Q=T1, T2,...Tk (임의의 용어 T1 가 무의미한 용어 (empty term) e 일 수도 있는 질의 Q 의 핵심 엔티티);Q = T 1 , T 2 , ... T k (key entity of query Q, where any term T 1 may be an empty term e);
Q'=T1', T2',...,Tk' (임의의 용어 Ti' 가 엠티 용어 e 일 수도 있는 질의 Q' 의 핵심 엔티티); 및Q '= T 1 ', T 2 ', ..., T k ' (key entity of query Q ', where any term T i ' may be an empty term e); And
w(Ti) 는 용어 Ti 의 중요성, 예를 들어, Ti 에 대한 TF/IDF 이고, 여기서 TF 는 용어 출현 빈도 (용어의 카운트) 를 나타내고, IDF 는 전환된 도큐먼트 빈도를 나타낸다.w (T i ) is the importance of the term T i , for example TF / IDF for T i , where TF indicates the frequency of occurrence of the term (count of terms) and IDF indicates the converted document frequency.
다음으로, 블록 (84) 에서, 질의 Q 가 유저에 의해 선택될 확률, Click(Q) 이 예를 들어, 클릭 기간 또는 표준화된 클릭 기간으로부터 결정된다. 블록 (86) 에서, 예측된 질의 Q 에 대한 위치 스코어, Position(Q) 은 예를 들어, 클릭 위치, 표준화된 클릭 위치, 또는 전환된 클릭 위치로부터 결정된다. 마지막으로, 블록 (88) 에서, 잠재 제안된 또는 예측된 다음 질의 Q 에 대한 오브젝트 함수 F 의 값은 전술한 바와 같이 블록 (82, 84, 및 86) 의 결과로부터 결정된다.Next, at
2 개의 질의 사이의 관련성을 결정하는데 이용된 상관값 Cor(Ti, Ti') 의 결정은 도 12 를 참조하여 더욱 상세하게 설명된다. 특히, 도 12 는 용어의 쌍 또는 코어 엔티티 T, T' 사이의 상관값을 생성시키기 위한 예시적인 프로세스 (90) 를 설명하는 플로우차트이다. 블록 (92) 에서, 신규의 코어 엔티티는 상호 정보를 이용하여 코퍼스, 예를 들어, 웹 페이지 및 유저 질의로부터 식별될 수도 있다. 블록 (92) 의 일 도시적인 구현에서, Motorola 가 엔티티이고, "Motorola announced", "Motorola cell phone", 및 "buy Motorola" 뿐만 아니라 "Nokia announced", "Nokia cell phone" 및 "buy Nokia" 가 코퍼스 내에 있으면, 다음으로, Nokia 도 또한 엔티티로서 식별된다. 오프-더-쉘프 사전이 종래의 핵심 엔티티를 제공할 수 있지만, 수많은 신규의 핵심 엔티티가 어휘에 종종 소개된다는 것이 명시된다. 신규의 핵심 엔티티의 예는 적절한 명칭, 예를 들어, 사람들 및 회사 명칭, 제품 모델, 영화 및 음악 제목 등과 같은 다양한 다른 신규의 단어 및 관용어를 포함한다.The determination of the correlation value Cor (T i , T i ') used to determine the association between the two queries is described in more detail with reference to FIG. In particular, FIG. 12 is a flowchart describing an
블록 (94) 에서, 핵심 엔티티 T, T' 쌍 사이의 상관값은 예를 들어, 질의 로그, 웹 페이지 및 앵커 텍스트를 이용하여 결정될 수 있다. 2 개의 코어 엔티티 T1 및 T2 사이의 상관관계는 실수의 벡터의 함수로서 정의될 수도 있다:In
Cor(T1, T2)=f(w1, w2,...,wn)Cor (T 1 , T 2 ) = f (w 1 , w 2 , ..., w n )
여기서, w1, w2,...,wn 는 특정의 사전-결정된 관계의 비중이다. 사전-결정된 관계의 예는 (1) 동의어, 두문자어 및 반의어, (2) Shanghai 대 Shanghai City, television 대 television machine 와 같은 복합 관용어, (3) 예를 들어, Toyota 와 Honda 와 같은 동일한 구문/의미 카테고리의 용어, (4) 모호한 용어와 그의 명백한 콘텍스트, (5) 예를 들어, Oprah 와 토크 쇼 호스트와 같은 사람 이름과 그 해당 활동, (6) 예를 들어, 컴퓨터와 메모리와 같은 용어의 속성, (7) 예를 들어, Amazon 과 Amazon River, Amazon Rain Forrest, 및 Amazon.com 과 같은 개념의 정제, (8) 예를 들어, 톰 행크스와 포레스트 검프 및 빌 게이츠와 CEO 와 같은 영화 배우, 책-저자, 회사-제품, 개인-위치 등을 포함한다.Where w 1 , w 2 , ..., w n are the specific gravity of a particular predetermined relationship. Examples of pre-determined relationships include (1) synonyms, acronyms and antonyms, (2) complex idioms such as Shanghai versus Shanghai City, television to television machine, and (3) the same syntax / meaning category, for example Toyota and Honda. Terms, (4) ambiguous terms and their apparent context, (5) names of persons such as Oprah and talk show hosts and their corresponding activities, (6) attributes of terms such as computers and memory, (7) For example, refining concepts such as Amazon and Amazon River, Amazon Rain Forrest, and Amazon.com; (8) For example, movie actors and books such as Tom Hanks and Forest Gump and Bill Gates and CEO. Author, company-product, personal-location, etc.
블록 (96) 에서, 상관 벡터 Cor(T1, T2) 의 값은 [0-1] 로 표준화될 수도 있다.In
변형된 또는 정제된 유저 입력을 생성시키기 위한 시스템 및 방법이 유저가 선택할 가능성이 높은 상위 결과를 생성하고 및/또는 유저가 이용할 가능성이 높은 질의를 제안할 수 있다. 이 시스템 및 방법은 2 개의 질의 사이에서 상관관계를 양에 대해 측정한다. 명백하게, 2 개의 질의가 임의의 공통 용어 또는 동의어를 가질 필요는 없다. 예를 들어, 노래 "Now and Forever" 의 mp3 파일에 대한 "Now and Forever' mp3" 의 오리지널 질의 (예를 들어, 중국어로) 는 예를 들 어, 동일한 아티스트에 의한 다른 노래 또는 앨범뿐만 아니라 "CoCoLee" (이 노래의 가수) 를 포함할 수도 있다. 따라서, 제안된 질의는, 단순히 오리지널 질의의 확장이 아닐 수도 있지만, 예를 들어, 유저가 선택할 가능성이 있는 검색 결과와 같은 더 나은 검색 결과를 가지는 질의일 수도 있다. 일 예에서, 제안된 질의는 오리지널 질의가 짧고 모호한 질의 센스 명확성을 달성하는 질의를 포함할 수도 있다. 다른 예로서, 제안된 질의는, 오리지널 질의가 길 수도 있고 및/또는 상호배타적인 용어를 포함할 수도 있는 더욱 짧은 질의로 오리지널 질의를 분리하는 질의를 포함할 수도 있다.Systems and methods for generating modified or refined user input may generate higher results that the user is likely to select and / or suggest queries that are more likely to be used by the user. This system and method measures the amount of correlation between two queries. Clearly, the two queries need not have any common terms or synonyms. For example, an original query of "Now and Forever 'mp3" (for example, in Chinese) for an mp3 file of song "Now and Forever" could be, for example, "as well as other songs or albums by the same artist. CoCoLee "(singer of this song). Thus, the proposed query may not be simply an extension of the original query, but may be a query with better search results, for example, a search result that the user may choose. In one example, the proposed query may include a query in which the original query achieves short and ambiguous query sense clarity. As another example, the proposed query may include a query that separates the original query into shorter queries, which may be long and / or include mutually exclusive terms.
본 발명의 예시적인 실시형태가 본 명세서에 설명되고 도시되며, 이들은 설명을 위한 것이며 본 발명의 취지 및 범위를 벗어나지 않고 변형이 이루어질 수 있다는 것이 명시된다. 따라서, 본 발명의 범위는 수정될 수도 있고, 본 발명의 실시형태로서 구체적인 실시형태의 설명으로 통합되는 각각의 특허청구범위를 가지는 이하의 특허청구범위의 용어로만 정의되도록 의도록 의도된다.Exemplary embodiments of the invention have been described and illustrated herein, which are for the purpose of description and it is specified that modifications can be made without departing from the spirit and scope of the invention. Accordingly, the scope of the present invention may be modified and is intended to be defined only by the terms of the following claims, which have respective claims, which are incorporated into the description of specific embodiments as embodiments of the invention.
Claims (29)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/122,873 US8438142B2 (en) | 2005-05-04 | 2005-05-04 | Suggesting and refining user input based on original user input |
US11/122,873 | 2005-05-04 | ||
PCT/US2006/016787 WO2006121702A1 (en) | 2005-05-04 | 2006-05-04 | Suggesting and refining user input based on original user input |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080008400A KR20080008400A (en) | 2008-01-23 |
KR101389148B1 true KR101389148B1 (en) | 2014-04-24 |
Family
ID=36781555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020077028339A KR101389148B1 (en) | 2005-05-04 | 2006-05-04 | Suggesting and refining user input based on original user input |
Country Status (6)
Country | Link |
---|---|
US (3) | US8438142B2 (en) |
EP (1) | EP1877939A1 (en) |
JP (1) | JP5203934B2 (en) |
KR (1) | KR101389148B1 (en) |
CN (2) | CN101297291A (en) |
WO (1) | WO2006121702A1 (en) |
Families Citing this family (216)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8590013B2 (en) | 2002-02-25 | 2013-11-19 | C. S. Lee Crawford | Method of managing and communicating data pertaining to software applications for processor-based devices comprising wireless communication circuitry |
US7346839B2 (en) * | 2003-09-30 | 2008-03-18 | Google Inc. | Information retrieval based on historical data |
US8612208B2 (en) | 2004-04-07 | 2013-12-17 | Oracle Otc Subsidiary Llc | Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query |
US7747601B2 (en) | 2006-08-14 | 2010-06-29 | Inquira, Inc. | Method and apparatus for identifying and classifying query intent |
US8082264B2 (en) * | 2004-04-07 | 2011-12-20 | Inquira, Inc. | Automated scheme for identifying user intent in real-time |
US7865495B1 (en) * | 2004-10-06 | 2011-01-04 | Shopzilla, Inc. | Word deletion for searches |
US8438142B2 (en) | 2005-05-04 | 2013-05-07 | Google Inc. | Suggesting and refining user input based on original user input |
US7647312B2 (en) * | 2005-05-12 | 2010-01-12 | Microsoft Corporation | System and method for automatic generation of suggested inline search terms |
US7752220B2 (en) * | 2005-08-10 | 2010-07-06 | Yahoo! Inc. | Alternative search query processing in a term bidding system |
US7634462B2 (en) * | 2005-08-10 | 2009-12-15 | Yahoo! Inc. | System and method for determining alternate search queries |
US8832100B2 (en) | 2005-09-14 | 2014-09-09 | Millennial Media, Inc. | User transaction history influenced search results |
US8805339B2 (en) | 2005-09-14 | 2014-08-12 | Millennial Media, Inc. | Categorization of a mobile user profile based on browse and viewing behavior |
US20070198485A1 (en) * | 2005-09-14 | 2007-08-23 | Jorey Ramer | Mobile search service discovery |
US10592930B2 (en) | 2005-09-14 | 2020-03-17 | Millenial Media, LLC | Syndication of a behavioral profile using a monetization platform |
US8238888B2 (en) | 2006-09-13 | 2012-08-07 | Jumptap, Inc. | Methods and systems for mobile coupon placement |
US9076175B2 (en) | 2005-09-14 | 2015-07-07 | Millennial Media, Inc. | Mobile comparison shopping |
US20110313853A1 (en) | 2005-09-14 | 2011-12-22 | Jorey Ramer | System for targeting advertising content to a plurality of mobile communication facilities |
US8229914B2 (en) | 2005-09-14 | 2012-07-24 | Jumptap, Inc. | Mobile content spidering and compatibility determination |
US8615719B2 (en) | 2005-09-14 | 2013-12-24 | Jumptap, Inc. | Managing sponsored content for delivery to mobile communication facilities |
US8819659B2 (en) | 2005-09-14 | 2014-08-26 | Millennial Media, Inc. | Mobile search service instant activation |
US8156128B2 (en) | 2005-09-14 | 2012-04-10 | Jumptap, Inc. | Contextual mobile content placement on a mobile communication facility |
US7702318B2 (en) | 2005-09-14 | 2010-04-20 | Jumptap, Inc. | Presentation of sponsored content based on mobile transaction event |
US7769764B2 (en) | 2005-09-14 | 2010-08-03 | Jumptap, Inc. | Mobile advertisement syndication |
US9058406B2 (en) | 2005-09-14 | 2015-06-16 | Millennial Media, Inc. | Management of multiple advertising inventories using a monetization platform |
US8311888B2 (en) | 2005-09-14 | 2012-11-13 | Jumptap, Inc. | Revenue models associated with syndication of a behavioral profile using a monetization platform |
US8209344B2 (en) | 2005-09-14 | 2012-06-26 | Jumptap, Inc. | Embedding sponsored content in mobile applications |
US8290810B2 (en) | 2005-09-14 | 2012-10-16 | Jumptap, Inc. | Realtime surveying within mobile sponsored content |
US8515400B2 (en) | 2005-09-14 | 2013-08-20 | Jumptap, Inc. | System for targeting advertising content to a plurality of mobile communication facilities |
US7912458B2 (en) | 2005-09-14 | 2011-03-22 | Jumptap, Inc. | Interaction analysis and prioritization of mobile content |
US8302030B2 (en) | 2005-09-14 | 2012-10-30 | Jumptap, Inc. | Management of multiple advertising inventories using a monetization platform |
US7660581B2 (en) | 2005-09-14 | 2010-02-09 | Jumptap, Inc. | Managing sponsored content based on usage history |
US8812526B2 (en) | 2005-09-14 | 2014-08-19 | Millennial Media, Inc. | Mobile content cross-inventory yield optimization |
US8503995B2 (en) | 2005-09-14 | 2013-08-06 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US7577665B2 (en) | 2005-09-14 | 2009-08-18 | Jumptap, Inc. | User characteristic influenced search results |
US8364521B2 (en) | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Rendering targeted advertisement on mobile communication facilities |
US7676394B2 (en) | 2005-09-14 | 2010-03-09 | Jumptap, Inc. | Dynamic bidding and expected value |
US8131271B2 (en) | 2005-11-05 | 2012-03-06 | Jumptap, Inc. | Categorization of a mobile user profile based on browse behavior |
US8660891B2 (en) | 2005-11-01 | 2014-02-25 | Millennial Media | Interactive mobile advertisement banners |
US8103545B2 (en) | 2005-09-14 | 2012-01-24 | Jumptap, Inc. | Managing payment for sponsored content presented to mobile communication facilities |
US10038756B2 (en) | 2005-09-14 | 2018-07-31 | Millenial Media LLC | Managing sponsored content based on device characteristics |
US9471925B2 (en) | 2005-09-14 | 2016-10-18 | Millennial Media Llc | Increasing mobile interactivity |
US8195133B2 (en) | 2005-09-14 | 2012-06-05 | Jumptap, Inc. | Mobile dynamic advertisement creation and placement |
US8989718B2 (en) | 2005-09-14 | 2015-03-24 | Millennial Media, Inc. | Idle screen advertising |
US9201979B2 (en) | 2005-09-14 | 2015-12-01 | Millennial Media, Inc. | Syndication of a behavioral profile associated with an availability condition using a monetization platform |
US8364540B2 (en) | 2005-09-14 | 2013-01-29 | Jumptap, Inc. | Contextual targeting of content using a monetization platform |
US10911894B2 (en) | 2005-09-14 | 2021-02-02 | Verizon Media Inc. | Use of dynamic content generation parameters based on previous performance of those parameters |
US7752209B2 (en) | 2005-09-14 | 2010-07-06 | Jumptap, Inc. | Presenting sponsored content on a mobile communication facility |
US9703892B2 (en) | 2005-09-14 | 2017-07-11 | Millennial Media Llc | Predictive text completion for a mobile communication facility |
US7860871B2 (en) | 2005-09-14 | 2010-12-28 | Jumptap, Inc. | User history influenced search results |
US8688671B2 (en) | 2005-09-14 | 2014-04-01 | Millennial Media | Managing sponsored content based on geographic region |
US8666376B2 (en) | 2005-09-14 | 2014-03-04 | Millennial Media | Location based mobile shopping affinity program |
US8027879B2 (en) | 2005-11-05 | 2011-09-27 | Jumptap, Inc. | Exclusivity bidding for mobile sponsored content |
US8312021B2 (en) * | 2005-09-16 | 2012-11-13 | Palo Alto Research Center Incorporated | Generalized latent semantic analysis |
US8175585B2 (en) | 2005-11-05 | 2012-05-08 | Jumptap, Inc. | System for targeting advertising content to a plurality of mobile communication facilities |
US8571999B2 (en) | 2005-11-14 | 2013-10-29 | C. S. Lee Crawford | Method of conducting operations for a social network application including activity list generation |
US8429184B2 (en) | 2005-12-05 | 2013-04-23 | Collarity Inc. | Generation of refinement terms for search queries |
US8903810B2 (en) | 2005-12-05 | 2014-12-02 | Collarity, Inc. | Techniques for ranking search results |
US20080126079A1 (en) * | 2006-01-20 | 2008-05-29 | Research In Motion Limited | Handheld electronic device with automatic text generation |
US7676460B2 (en) * | 2006-03-03 | 2010-03-09 | International Business Machines Corporation | Techniques for providing suggestions for creating a search query |
US7921099B2 (en) * | 2006-05-10 | 2011-04-05 | Inquira, Inc. | Guided navigation system |
US8781813B2 (en) | 2006-08-14 | 2014-07-15 | Oracle Otc Subsidiary Llc | Intent management tool for identifying concepts associated with a plurality of users' queries |
US7921154B2 (en) * | 2006-08-17 | 2011-04-05 | Flash Widgets, L.L.C. | System and method of live data search on a mobile device |
KR100837750B1 (en) * | 2006-08-25 | 2008-06-13 | 엔에이치엔(주) | Method for searching chinese language using tone signs and system for executing the method |
US7747607B2 (en) * | 2006-09-21 | 2010-06-29 | Yahoo! Inc. | Determining logically-related sub-strings of a string |
US9037581B1 (en) | 2006-09-29 | 2015-05-19 | Google Inc. | Personalized search result ranking |
US8442972B2 (en) | 2006-10-11 | 2013-05-14 | Collarity, Inc. | Negative associations for search results ranking and refinement |
US7739264B2 (en) * | 2006-11-15 | 2010-06-15 | Yahoo! Inc. | System and method for generating substitutable queries on the basis of one or more features |
US8095476B2 (en) * | 2006-11-27 | 2012-01-10 | Inquira, Inc. | Automated support scheme for electronic forms |
US8024319B2 (en) * | 2007-01-25 | 2011-09-20 | Microsoft Corporation | Finite-state model for processing web queries |
US20080228700A1 (en) | 2007-03-16 | 2008-09-18 | Expanse Networks, Inc. | Attribute Combination Discovery |
US7917528B1 (en) * | 2007-04-02 | 2011-03-29 | Google Inc. | Contextual display of query refinements |
US8074234B2 (en) * | 2007-04-16 | 2011-12-06 | Microsoft Corporation | Web service platform for keyword technologies |
KR20080096005A (en) * | 2007-04-26 | 2008-10-30 | 엔에이치엔(주) | Method for providing keyword depending on a range of providing keyword and system thereof |
JP2009031931A (en) * | 2007-07-25 | 2009-02-12 | Univ Waseda | Search word clustering device, method, program and recording medium |
US8086441B1 (en) * | 2007-07-27 | 2011-12-27 | Sonicwall, Inc. | Efficient string search |
US20090043752A1 (en) | 2007-08-08 | 2009-02-12 | Expanse Networks, Inc. | Predicting Side Effect Attributes |
US7822732B2 (en) * | 2007-08-13 | 2010-10-26 | Chandra Bodapati | Method and system to enable domain specific search |
CN101159967B (en) * | 2007-10-29 | 2011-08-31 | ***通信集团设计院有限公司 | Method and device for using drive test data for propagation model revision |
US7945525B2 (en) * | 2007-11-09 | 2011-05-17 | International Business Machines Corporation | Methods for obtaining improved text similarity measures which replace similar characters with a string pattern representation by using a semantic data tree |
US8725756B1 (en) * | 2007-11-12 | 2014-05-13 | Google Inc. | Session-based query suggestions |
US8019748B1 (en) | 2007-11-14 | 2011-09-13 | Google Inc. | Web search refinement |
US7953746B1 (en) * | 2007-12-07 | 2011-05-31 | Google Inc. | Contextual query revision |
US10176827B2 (en) | 2008-01-15 | 2019-01-08 | Verint Americas Inc. | Active lab |
US8224845B2 (en) * | 2008-01-21 | 2012-07-17 | International Business Machines Corporation | Transaction prediction modeling method |
US20090187540A1 (en) * | 2008-01-22 | 2009-07-23 | Microsoft Corporation | Prediction of informational interests |
US8122011B1 (en) | 2008-03-12 | 2012-02-21 | Google Inc. | Identifying sibling queries |
US7958136B1 (en) * | 2008-03-18 | 2011-06-07 | Google Inc. | Systems and methods for identifying similar documents |
US8832135B2 (en) * | 2008-05-02 | 2014-09-09 | Verint Systems, Ltd. | Method and system for database query term suggestion |
JP2010003015A (en) * | 2008-06-18 | 2010-01-07 | Hitachi Software Eng Co Ltd | Document search system |
US8438178B2 (en) | 2008-06-26 | 2013-05-07 | Collarity Inc. | Interactions among online digital identities |
US8521731B2 (en) | 2008-07-09 | 2013-08-27 | Yahoo! Inc. | Systems and methods for query expansion in sponsored search |
US8200509B2 (en) | 2008-09-10 | 2012-06-12 | Expanse Networks, Inc. | Masked data record access |
US7917438B2 (en) * | 2008-09-10 | 2011-03-29 | Expanse Networks, Inc. | System for secure mobile healthcare selection |
US9092517B2 (en) * | 2008-09-23 | 2015-07-28 | Microsoft Technology Licensing, Llc | Generating synonyms based on query log data |
JP5387577B2 (en) * | 2008-09-25 | 2014-01-15 | 日本電気株式会社 | Information analysis apparatus, information analysis method, and program |
US8156111B2 (en) * | 2008-11-24 | 2012-04-10 | Yahoo! Inc. | Identifying and expanding implicitly temporally qualified queries |
US10489434B2 (en) | 2008-12-12 | 2019-11-26 | Verint Americas Inc. | Leveraging concepts with information retrieval techniques and knowledge bases |
US20100169262A1 (en) * | 2008-12-30 | 2010-07-01 | Expanse Networks, Inc. | Mobile Device for Pangenetic Web |
US8386519B2 (en) | 2008-12-30 | 2013-02-26 | Expanse Networks, Inc. | Pangenetic web item recommendation system |
US8108406B2 (en) | 2008-12-30 | 2012-01-31 | Expanse Networks, Inc. | Pangenetic web user behavior prediction system |
US9659257B2 (en) * | 2009-01-12 | 2017-05-23 | Alphatrac, Inc. | Predictive cueing |
CN101464897A (en) * | 2009-01-12 | 2009-06-24 | 阿里巴巴集团控股有限公司 | Word matching and information query method and device |
US9330165B2 (en) * | 2009-02-13 | 2016-05-03 | Microsoft Technology Licensing, Llc | Context-aware query suggestion by mining log data |
JP5129194B2 (en) * | 2009-05-20 | 2013-01-23 | ヤフー株式会社 | Product search device |
US8943094B2 (en) | 2009-09-22 | 2015-01-27 | Next It Corporation | Apparatus, system, and method for natural language processing |
US8494852B2 (en) * | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
JP5786718B2 (en) * | 2010-01-19 | 2015-09-30 | 日本電気株式会社 | Trend information search device, trend information search method and program |
US8875038B2 (en) | 2010-01-19 | 2014-10-28 | Collarity, Inc. | Anchoring for content synchronization |
CN102193939B (en) * | 2010-03-10 | 2016-04-06 | 阿里巴巴集团控股有限公司 | The implementation method of information navigation, information navigation server and information handling system |
US9165065B2 (en) * | 2010-03-26 | 2015-10-20 | Paypal Inc. | Terminology management database |
US20110258212A1 (en) * | 2010-04-14 | 2011-10-20 | Microsoft Corporation | Automatic query suggestion generation using sub-queries |
US9600566B2 (en) | 2010-05-14 | 2017-03-21 | Microsoft Technology Licensing, Llc | Identifying entity synonyms |
US20110314001A1 (en) * | 2010-06-18 | 2011-12-22 | Microsoft Corporation | Performing query expansion based upon statistical analysis of structured data |
US8751520B1 (en) * | 2010-06-23 | 2014-06-10 | Google Inc. | Query suggestions with high utility |
US8560562B2 (en) * | 2010-07-22 | 2013-10-15 | Google Inc. | Predictive query suggestion caching |
EP2423830A1 (en) * | 2010-08-25 | 2012-02-29 | Omikron Data Quality GmbH | Method for searching through a number of databases and search engine |
CN102385577A (en) * | 2010-08-27 | 2012-03-21 | 腾讯科技(深圳)有限公司 | Searching method and system |
US8838453B2 (en) * | 2010-08-31 | 2014-09-16 | Red Hat, Inc. | Interactive input method |
SG188191A1 (en) * | 2010-09-27 | 2013-04-30 | Exxonmobil Upstream Res Co | Simultaneous source encoding and source separation as a practical solution for full wavefield inversion |
US9122744B2 (en) | 2010-10-11 | 2015-09-01 | Next It Corporation | System and method for providing distributed intelligent assistance |
WO2012054712A1 (en) * | 2010-10-21 | 2012-04-26 | Hewlett-Packard Development Company, L.P. | Searching multiple data sources using a mobile computing device |
US8448089B2 (en) | 2010-10-26 | 2013-05-21 | Microsoft Corporation | Context-aware user input prediction |
EP2639705B1 (en) * | 2010-11-10 | 2016-04-13 | Rakuten, Inc. | Related-word registration device, information processing device, related-word registration method, program for related-word registration device, and recording medium |
US9098569B1 (en) * | 2010-12-10 | 2015-08-04 | Amazon Technologies, Inc. | Generating suggested search queries |
CN102567408B (en) | 2010-12-31 | 2014-06-04 | 阿里巴巴集团控股有限公司 | Method and device for recommending search keyword |
US20120179705A1 (en) * | 2011-01-11 | 2012-07-12 | Microsoft Corporation | Query reformulation in association with a search box |
US20120185332A1 (en) * | 2011-01-14 | 2012-07-19 | Google Inc. | Serving Advertisements Based on Article Availability |
US20120233140A1 (en) * | 2011-03-09 | 2012-09-13 | Microsoft Corporation | Context-aware query alteration |
US8983995B2 (en) | 2011-04-15 | 2015-03-17 | Microsoft Corporation | Interactive semantic query suggestion for content search |
WO2012143839A1 (en) * | 2011-04-19 | 2012-10-26 | Greyling Abraham Carel | A computerized system and a method for processing and building search strings |
EP2707818B1 (en) * | 2011-05-10 | 2015-08-05 | deCarta Inc. | Systems and methods for performing search and retrieval of electronic documents using a big index |
US8972240B2 (en) * | 2011-05-19 | 2015-03-03 | Microsoft Corporation | User-modifiable word lattice display for editing documents and search queries |
WO2012159245A1 (en) * | 2011-05-20 | 2012-11-29 | Microsoft Corporation | Displaying key pinyins |
CN102262660B (en) * | 2011-07-15 | 2013-05-29 | 北京百度网讯科技有限公司 | Method and device implemented by computer and used for obtaining search result |
US9058362B2 (en) | 2011-07-26 | 2015-06-16 | 24/7 Customer, Inc. | Method and apparatus for predictive enrichment of search in an enterprise |
CN102306171B (en) * | 2011-08-22 | 2016-07-06 | 百度在线网络技术(北京)有限公司 | A kind of for providing network to access suggestion and the method and apparatus of web search suggestion |
US20130054632A1 (en) * | 2011-08-30 | 2013-02-28 | Google Inc. | Caching Input Suggestions |
CN103814375B (en) * | 2011-09-29 | 2015-04-22 | 乐天株式会社 | Information processing device and information processing method |
US9652556B2 (en) | 2011-10-05 | 2017-05-16 | Google Inc. | Search suggestions based on viewport content |
US10013152B2 (en) | 2011-10-05 | 2018-07-03 | Google Llc | Content selection disambiguation |
CN102368262B (en) * | 2011-10-14 | 2013-05-29 | 北京百度网讯科技有限公司 | Method and equipment for providing searching suggestions corresponding to query sequence |
US9189550B2 (en) * | 2011-11-17 | 2015-11-17 | Microsoft Technology Licensing, Llc | Query refinement in a browser toolbar |
US9836177B2 (en) | 2011-12-30 | 2017-12-05 | Next IT Innovation Labs, LLC | Providing variable responses in a virtual-assistant environment |
CN102419776A (en) * | 2011-12-31 | 2012-04-18 | 北京百度网讯科技有限公司 | Method and equipment for meeting multi-dimensional search requirement of user |
US9152698B1 (en) | 2012-01-03 | 2015-10-06 | Google Inc. | Substitute term identification based on over-represented terms identification |
US9141672B1 (en) | 2012-01-25 | 2015-09-22 | Google Inc. | Click or skip evaluation of query term optionalization rule |
EP2817738B1 (en) * | 2012-02-22 | 2022-06-22 | Nokia Technologies Oy | Predictive service access |
US9690264B2 (en) | 2012-02-22 | 2017-06-27 | Nokia Technologies Oy | System, and a method for providing a prediction for controlling a system |
US8745019B2 (en) | 2012-03-05 | 2014-06-03 | Microsoft Corporation | Robust discovery of entity synonyms using query logs |
US20130238636A1 (en) * | 2012-03-06 | 2013-09-12 | Salesforce.Com, Inc. | Suggesting access-controlled related queries |
US9223537B2 (en) | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
US11023520B1 (en) | 2012-06-01 | 2021-06-01 | Google Llc | Background audio identification for query disambiguation |
US10032131B2 (en) | 2012-06-20 | 2018-07-24 | Microsoft Technology Licensing, Llc | Data services for enterprises leveraging search system data assets |
US9594831B2 (en) | 2012-06-22 | 2017-03-14 | Microsoft Technology Licensing, Llc | Targeted disambiguation of named entities |
CN103577401A (en) * | 2012-07-18 | 2014-02-12 | 腾讯科技(深圳)有限公司 | Mobile terminal searching method and system |
CN103577416B (en) * | 2012-07-20 | 2017-09-22 | 阿里巴巴集团控股有限公司 | Expanding query method and system |
US9128915B2 (en) * | 2012-08-03 | 2015-09-08 | Oracle International Corporation | System and method for utilizing multiple encodings to identify similar language characters |
US9135912B1 (en) * | 2012-08-15 | 2015-09-15 | Google Inc. | Updating phonetic dictionaries |
US9229924B2 (en) | 2012-08-24 | 2016-01-05 | Microsoft Technology Licensing, Llc | Word detection and domain dictionary recommendation |
US9536049B2 (en) | 2012-09-07 | 2017-01-03 | Next It Corporation | Conversational virtual healthcare assistant |
US9146966B1 (en) | 2012-10-04 | 2015-09-29 | Google Inc. | Click or skip evaluation of proximity rules |
US10102333B2 (en) | 2013-01-21 | 2018-10-16 | International Business Machines Corporation | Feature selection for efficient epistasis modeling for phenotype prediction |
US9471881B2 (en) * | 2013-01-21 | 2016-10-18 | International Business Machines Corporation | Transductive feature selection with maximum-relevancy and minimum-redundancy criteria |
US9218420B1 (en) | 2013-02-26 | 2015-12-22 | Google Inc. | Detecting new businesses with unrecognized query terms |
US9619046B2 (en) * | 2013-02-27 | 2017-04-11 | Facebook, Inc. | Determining phrase objects based on received user input context information |
US10445115B2 (en) | 2013-04-18 | 2019-10-15 | Verint Americas Inc. | Virtual assistant focused user interfaces |
US9122376B1 (en) * | 2013-04-18 | 2015-09-01 | Google Inc. | System for improving autocompletion of text input |
KR101332757B1 (en) * | 2013-05-16 | 2013-11-25 | 주식회사 큐키 | Type correction method for word or letters without deletion input and device for implementing the method |
US9256687B2 (en) | 2013-06-28 | 2016-02-09 | International Business Machines Corporation | Augmenting search results with interactive search matrix |
US9342592B2 (en) | 2013-07-29 | 2016-05-17 | Workday, Inc. | Method for systematic mass normalization of titles |
US9886950B2 (en) * | 2013-09-08 | 2018-02-06 | Intel Corporation | Automatic generation of domain models for virtual personal assistants |
US11210705B1 (en) * | 2013-10-18 | 2021-12-28 | United Services Automobile Association (Usaa) | System and method for transmitting direct advertising information to an augmented reality device |
JP2017504105A (en) * | 2013-12-02 | 2017-02-02 | キューベース リミテッド ライアビリティ カンパニー | System and method for in-memory database search |
US10176256B1 (en) * | 2013-12-23 | 2019-01-08 | BroadbandTV, Corp | Title rating and improvement process and system |
US10088972B2 (en) | 2013-12-31 | 2018-10-02 | Verint Americas Inc. | Virtual assistant conversations |
CN104899214B (en) | 2014-03-06 | 2018-05-22 | 阿里巴巴集团控股有限公司 | A kind of data processing method and system established input and suggested |
JP5627061B1 (en) * | 2014-03-07 | 2014-11-19 | 楽天株式会社 | SEARCH DEVICE, SEARCH METHOD, PROGRAM, AND STORAGE MEDIUM |
CN104978314B (en) * | 2014-04-01 | 2019-05-14 | 深圳市腾讯计算机***有限公司 | Media content recommendations method and device |
WO2015162719A1 (en) * | 2014-04-23 | 2015-10-29 | 楽天株式会社 | Information provision device, information provision method, program, and recording medium |
CN104090963A (en) * | 2014-07-14 | 2014-10-08 | 百度在线网络技术(北京)有限公司 | Search information recommendation method and device |
US9798801B2 (en) | 2014-07-16 | 2017-10-24 | Microsoft Technology Licensing, Llc | Observation-based query interpretation model modification |
US20160071517A1 (en) | 2014-09-09 | 2016-03-10 | Next It Corporation | Evaluating Conversation Data based on Risk Factors |
CN104361010A (en) * | 2014-10-11 | 2015-02-18 | 北京中搜网络技术股份有限公司 | Automatic classification method for correcting news classification |
CN104462595B (en) * | 2014-12-29 | 2019-03-19 | 北京奇虎科技有限公司 | Search engine system and the method that multimedia element is embedded in search result items |
US10339165B2 (en) * | 2015-02-27 | 2019-07-02 | Walmart Apollo, Llc | System, method, and non-transitory computer-readable storage media for generating synonyms of a search query |
EP3089159B1 (en) | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
CN104991656B (en) * | 2015-06-11 | 2018-12-21 | 浦江开丰广告设计有限公司 | A method of input Chinese phrase |
US11899728B2 (en) | 2015-10-05 | 2024-02-13 | Yahoo Assets Llc | Methods, systems and techniques for ranking personalized and generic search query suggestions |
US11836169B2 (en) * | 2015-10-05 | 2023-12-05 | Yahoo Assets Llc | Methods, systems and techniques for providing search query suggestions based on non-personal data and user personal data according to availability of user personal data |
EP3232336A4 (en) * | 2015-12-01 | 2018-03-21 | Huawei Technologies Co., Ltd. | Method and device for recognizing stop word |
US11379538B1 (en) | 2016-05-19 | 2022-07-05 | Artemis Intelligence Llc | Systems and methods for automatically identifying unmet technical needs and/or technical problems |
US10474704B2 (en) | 2016-06-27 | 2019-11-12 | International Business Machines Corporation | Recommending documents sets based on a similar set of correlated features |
CN106126758B (en) * | 2016-08-30 | 2021-01-05 | 西安航空学院 | Cloud system for information processing and information evaluation |
US20180068232A1 (en) * | 2016-09-07 | 2018-03-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Expert-assisted online-learning for media similarity |
TWI645303B (en) * | 2016-12-21 | 2018-12-21 | 財團法人工業技術研究院 | Method for verifying string, method for expanding string and method for training verification model |
US11392651B1 (en) | 2017-04-14 | 2022-07-19 | Artemis Intelligence Llc | Systems and methods for automatically identifying unmet technical needs and/or technical problems |
GB201713728D0 (en) * | 2017-08-25 | 2017-10-11 | Just Eat Holding Ltd | System and method of language processing |
US11100169B2 (en) | 2017-10-06 | 2021-08-24 | Target Brands, Inc. | Alternative query suggestion in electronic searching |
US11416503B2 (en) | 2018-02-09 | 2022-08-16 | Microsoft Technology Licensing, Llc | Mining data for generating consumable collaboration events |
EP3769238A4 (en) | 2018-03-19 | 2022-01-26 | Coffing, Daniel L. | Processing natural language arguments and propositions |
JP7059727B2 (en) * | 2018-03-19 | 2022-04-26 | 株式会社リコー | Electronics, search methods, and programs |
US10853332B2 (en) * | 2018-04-19 | 2020-12-01 | Microsoft Technology Licensing, Llc | Discovering schema using anchor attributes |
EP3579125A1 (en) | 2018-06-05 | 2019-12-11 | Sap Se | System, computer-implemented method and computer program product for information retrieval |
US10860631B1 (en) * | 2018-06-21 | 2020-12-08 | Intuit Inc. | Searching and scoring using phrases and/or multiple words |
US10943059B2 (en) * | 2018-06-27 | 2021-03-09 | Microsoft Technology Licensing, Llc | Document editing models and management |
EP3847643A4 (en) | 2018-09-06 | 2022-04-20 | Coffing, Daniel L. | System for providing dialogue guidance |
US11568175B2 (en) | 2018-09-07 | 2023-01-31 | Verint Americas Inc. | Dynamic intent classification based on environment variables |
US11743268B2 (en) | 2018-09-14 | 2023-08-29 | Daniel L. Coffing | Fact management system |
US11232264B2 (en) | 2018-10-19 | 2022-01-25 | Verint Americas Inc. | Natural language processing with non-ontological hierarchy models |
US11196863B2 (en) | 2018-10-24 | 2021-12-07 | Verint Americas Inc. | Method and system for virtual assistant conversations |
US11144560B2 (en) | 2019-08-23 | 2021-10-12 | International Business Machines Corporation | Utilizing unsumbitted user input data for improved task performance |
US11829716B2 (en) * | 2019-09-06 | 2023-11-28 | International Business Machines Corporation | Suggestion of an output candidate |
CN111222058B (en) * | 2020-01-06 | 2021-04-16 | 百度在线网络技术(北京)有限公司 | Method, device, equipment and computer storage medium for query automatic completion |
JP2021192142A (en) * | 2020-06-05 | 2021-12-16 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
US11762916B1 (en) | 2020-08-17 | 2023-09-19 | Artemis Intelligence Llc | User interface for identifying unmet technical needs and/or technical problems |
US11416554B2 (en) * | 2020-09-10 | 2022-08-16 | Coupang Corp. | Generating context relevant search results |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006225A (en) * | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6314419B1 (en) * | 1999-06-04 | 2001-11-06 | Oracle Corporation | Methods and apparatus for generating query feedback based on co-occurrence patterns |
US20030149704A1 (en) * | 2002-02-05 | 2003-08-07 | Hitachi, Inc. | Similarity-based search method by relevance feedback |
Family Cites Families (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5331554A (en) * | 1992-12-10 | 1994-07-19 | Ricoh Corporation | Method and apparatus for semantic pattern matching for text retrieval |
WO1996041281A1 (en) | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
US6006221A (en) * | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US6182066B1 (en) * | 1997-11-26 | 2001-01-30 | International Business Machines Corp. | Category processing of query topics and electronic document content topics |
US6345244B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically aligning translations in a translation-memory system |
US6411950B1 (en) * | 1998-11-30 | 2002-06-25 | Compaq Information Technologies Group, Lp | Dynamic query expansion |
US7287018B2 (en) * | 1999-01-29 | 2007-10-23 | Canon Kabushiki Kaisha | Browsing electronically-accessible resources |
CN1343337B (en) * | 1999-03-05 | 2013-03-20 | 佳能株式会社 | Method and device for producing annotation data including phonemes data and decoded word |
US6510406B1 (en) * | 1999-03-23 | 2003-01-21 | Mathsoft, Inc. | Inverse inference engine for high performance web search |
US6571234B1 (en) * | 1999-05-11 | 2003-05-27 | Prophet Financial Systems, Inc. | System and method for managing online message board |
US6611825B1 (en) * | 1999-06-09 | 2003-08-26 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
WO2000079436A2 (en) | 1999-06-24 | 2000-12-28 | Simpli.Com | Search engine interface |
US7089236B1 (en) * | 1999-06-24 | 2006-08-08 | Search 123.Com, Inc. | Search engine interface |
US6882970B1 (en) * | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
US6757646B2 (en) * | 2000-03-22 | 2004-06-29 | Insightful Corporation | Extended functionality for an inverse inference engine based web search |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
US6633868B1 (en) * | 2000-07-28 | 2003-10-14 | Shermann Loyall Min | System and method for context-based document retrieval |
EP1182581B1 (en) * | 2000-08-18 | 2005-01-26 | Exalead | Searching tool and process for unified search using categories and keywords |
US20030217052A1 (en) * | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
US20020103798A1 (en) * | 2001-02-01 | 2002-08-01 | Abrol Mani S. | Adaptive document ranking method based on user behavior |
US7269546B2 (en) * | 2001-05-09 | 2007-09-11 | International Business Machines Corporation | System and method of finding documents related to other documents and of finding related words in response to a query to refine a search |
JP3918531B2 (en) | 2001-11-29 | 2007-05-23 | 株式会社日立製作所 | Similar document search method and system |
US6961719B1 (en) * | 2002-01-07 | 2005-11-01 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Hybrid neural network and support vector machine method for optimization |
WO2003085551A1 (en) * | 2002-04-05 | 2003-10-16 | Hyperwave Software Forschungs- Und Entwicklungs Gmbh | Data visualization system |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
GB2388940A (en) * | 2002-05-22 | 2003-11-26 | Sharp Kk | Method and apparatus for the correction or improvement of word usage |
EP1860579A1 (en) | 2002-08-30 | 2007-11-28 | Sony Deutschland Gmbh | Method to split a multiuser profile |
US20040086185A1 (en) * | 2002-10-31 | 2004-05-06 | Eastman Kodak Company | Method and system for multiple cue integration |
US7287025B2 (en) | 2003-02-12 | 2007-10-23 | Microsoft Corporation | Systems and methods for query expansion |
US6947930B2 (en) * | 2003-03-21 | 2005-09-20 | Overture Services, Inc. | Systems and methods for interactive search query refinement |
US7563748B2 (en) | 2003-06-23 | 2009-07-21 | Cognis Ip Management Gmbh | Alcohol alkoxylate carriers for pesticide active ingredients |
US8856163B2 (en) * | 2003-07-28 | 2014-10-07 | Google Inc. | System and method for providing a user interface with search query broadening |
US8086619B2 (en) | 2003-09-05 | 2011-12-27 | Google Inc. | System and method for providing search query refinements |
JP4292922B2 (en) * | 2003-09-09 | 2009-07-08 | 株式会社日立製作所 | Document search system and method |
US20050076003A1 (en) * | 2003-10-06 | 2005-04-07 | Dubose Paul A. | Method and apparatus for delivering personalized search results |
US7231375B2 (en) * | 2003-10-10 | 2007-06-12 | Microsoft Corporation | Computer aided query to task mapping |
US20050149496A1 (en) * | 2003-12-22 | 2005-07-07 | Verity, Inc. | System and method for dynamic context-sensitive federated search of multiple information repositories |
US7739262B2 (en) * | 2004-03-19 | 2010-06-15 | Microsoft Corporation | Enforcing currency and consistency constraints in database query processing |
US7689585B2 (en) * | 2004-04-15 | 2010-03-30 | Microsoft Corporation | Reinforced clustering of multi-type data objects for search term suggestion |
US7428529B2 (en) * | 2004-04-15 | 2008-09-23 | Microsoft Corporation | Term suggestion for multi-sense query |
US20050289463A1 (en) * | 2004-06-23 | 2005-12-29 | Google Inc., A Delaware Corporation | Systems and methods for spell correction of non-roman characters and words |
US20060106769A1 (en) * | 2004-11-12 | 2006-05-18 | Gibbs Kevin A | Method and system for autocompletion for languages having ideographs and phonetic characters |
US20060112091A1 (en) * | 2004-11-24 | 2006-05-25 | Harbinger Associates, Llc | Method and system for obtaining collection of variants of search query subjects |
US7698270B2 (en) * | 2004-12-29 | 2010-04-13 | Baynote, Inc. | Method and apparatus for identifying, extracting, capturing, and leveraging expertise and knowledge |
US7636714B1 (en) * | 2005-03-31 | 2009-12-22 | Google Inc. | Determining query term synonyms within query context |
US20080195601A1 (en) * | 2005-04-14 | 2008-08-14 | The Regents Of The University Of California | Method For Information Retrieval |
US8438142B2 (en) | 2005-05-04 | 2013-05-07 | Google Inc. | Suggesting and refining user input based on original user input |
US7627564B2 (en) | 2005-06-21 | 2009-12-01 | Microsoft Corporation | High scale adaptive search systems and methods |
JP4333745B2 (en) * | 2007-01-15 | 2009-09-16 | 株式会社デンソー | Electronic control unit |
US7603348B2 (en) | 2007-01-26 | 2009-10-13 | Yahoo! Inc. | System for classifying a search query |
US20080256056A1 (en) | 2007-04-10 | 2008-10-16 | Yahoo! Inc. | System for building a data structure representing a network of users and advertisers |
US8086504B1 (en) | 2007-09-06 | 2011-12-27 | Amazon Technologies, Inc. | Tag suggestions based on item metadata |
US8583670B2 (en) | 2007-10-04 | 2013-11-12 | Microsoft Corporation | Query suggestions for no result web searches |
US8019748B1 (en) | 2007-11-14 | 2011-09-13 | Google Inc. | Web search refinement |
US20090171929A1 (en) | 2007-12-26 | 2009-07-02 | Microsoft Corporation | Toward optimized query suggeston: user interfaces and algorithms |
US20090248510A1 (en) | 2008-03-31 | 2009-10-01 | Yahoo! Inc. | Information retrieval using dynamic guided navigation |
US20090248669A1 (en) | 2008-04-01 | 2009-10-01 | Nitin Mangesh Shetti | Method and system for organizing information |
US20100185644A1 (en) | 2009-01-21 | 2010-07-22 | Microsoft Corporatoin | Automatic search suggestions from client-side, browser, history cache |
US8452794B2 (en) | 2009-02-11 | 2013-05-28 | Microsoft Corporation | Visual and textual query suggestion |
US9330165B2 (en) | 2009-02-13 | 2016-05-03 | Microsoft Technology Licensing, Llc | Context-aware query suggestion by mining log data |
US8275759B2 (en) | 2009-02-24 | 2012-09-25 | Microsoft Corporation | Contextual query suggestion in result pages |
-
2005
- 2005-05-04 US US11/122,873 patent/US8438142B2/en active Active
-
2006
- 2006-05-04 EP EP06769954A patent/EP1877939A1/en not_active Withdrawn
- 2006-05-04 CN CNA2006800219402A patent/CN101297291A/en active Pending
- 2006-05-04 JP JP2008510125A patent/JP5203934B2/en active Active
- 2006-05-04 WO PCT/US2006/016787 patent/WO2006121702A1/en active Application Filing
- 2006-05-04 CN CN201210199408.7A patent/CN102945237B/en active Active
- 2006-05-04 KR KR1020077028339A patent/KR101389148B1/en active IP Right Grant
-
2012
- 2012-09-13 US US13/615,518 patent/US9020924B2/en active Active
-
2015
- 2015-04-14 US US14/686,555 patent/US9411906B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006225A (en) * | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6314419B1 (en) * | 1999-06-04 | 2001-11-06 | Oracle Corporation | Methods and apparatus for generating query feedback based on co-occurrence patterns |
US20030149704A1 (en) * | 2002-02-05 | 2003-08-07 | Hitachi, Inc. | Similarity-based search method by relevance feedback |
Also Published As
Publication number | Publication date |
---|---|
US20060253427A1 (en) | 2006-11-09 |
JP5203934B2 (en) | 2013-06-05 |
US9411906B2 (en) | 2016-08-09 |
US8438142B2 (en) | 2013-05-07 |
WO2006121702A1 (en) | 2006-11-16 |
KR20080008400A (en) | 2008-01-23 |
US20130103696A1 (en) | 2013-04-25 |
CN101297291A (en) | 2008-10-29 |
CN102945237A (en) | 2013-02-27 |
US9020924B2 (en) | 2015-04-28 |
US20150220547A1 (en) | 2015-08-06 |
EP1877939A1 (en) | 2008-01-16 |
CN102945237B (en) | 2016-08-10 |
JP2008541233A (en) | 2008-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101389148B1 (en) | Suggesting and refining user input based on original user input | |
US9594850B2 (en) | Method and system utilizing a personalized user model to develop a search request | |
US8731901B2 (en) | Context aware back-transliteration and translation of names and common phrases using web resources | |
US8301633B2 (en) | System and method for semantic search | |
US8126897B2 (en) | Unified inverted index for video passage retrieval | |
US8280721B2 (en) | Efficiently representing word sense probabilities | |
IL107482A (en) | Method for resolution of natural-language queries against full-text databases | |
WO2008098507A1 (en) | An input method of combining words intelligently, input method system and renewing method | |
Bian et al. | Cross‐language information access to multilingual collections on the internet | |
US20200210491A1 (en) | Computer-Implemented Method of Domain-Specific Full-Text Document Search | |
Liu et al. | Information retrieval and Web search | |
KR20080085165A (en) | Multi-word word wheeling | |
Liu et al. | Generating keyword queries for natural language queries to alleviate lexical chasm problem | |
CN111460177B (en) | Video expression search method and device, storage medium and computer equipment | |
US20220121694A1 (en) | Semantic search and response | |
Conover et al. | Pangloss: Fast entity linking in noisy text environments | |
Tsapatsoulis | Web image indexing using WICE and a learning-free language model | |
Tang et al. | A method of chinese and thai cross-lingual query expansion based on comparable corpus | |
Song et al. | Cross-Language Record Linkage by Exploiting Semantic Matching of Textual Metadata | |
Yoo et al. | A Semantic Search Model Using Word Embedding, POS Tagging, and Named Entity Recognition | |
Bai et al. | Web-scale semantic ranking | |
Zhang et al. | Fusion of multiple features and ranking SVM for web-based English-Chinese OOV term translation | |
CN114730318A (en) | Information processing device, information processing method, and information processing program | |
Jothilakshmi et al. | An approach for semantic query expansion based on maximum entropy-hidden Markov model | |
AU6552399A (en) | Method for resolution of natural-language queries against full-text databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170411 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180404 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190409 Year of fee payment: 6 |