RU2363983C2 - Системы и способы для поиска с использованием запросов, написанных на языке и/или наборе символов, отличном от такового, для целевых страниц - Google Patents

Системы и способы для поиска с использованием запросов, написанных на языке и/или наборе символов, отличном от такового, для целевых страниц Download PDF

Info

Publication number
RU2363983C2
RU2363983C2 RU2006114696/09A RU2006114696A RU2363983C2 RU 2363983 C2 RU2363983 C2 RU 2363983C2 RU 2006114696/09 A RU2006114696/09 A RU 2006114696/09A RU 2006114696 A RU2006114696 A RU 2006114696A RU 2363983 C2 RU2363983 C2 RU 2363983C2
Authority
RU
Russia
Prior art keywords
format
term
text
terms
written
Prior art date
Application number
RU2006114696/09A
Other languages
English (en)
Other versions
RU2006114696A (ru
Inventor
Вибху МИТТАЛ (US)
Вибху МИТТАЛ
Джей М. ПОНТЕ (US)
Джей М. ПОНТЕ
Мехран САХАМИ (US)
Мехран САХАМИ
Санджей ГХЕМАВАТ (US)
Санджей ГХЕМАВАТ
Джон А. БАУЭР (US)
Джон А. БАУЭР
Original Assignee
Гугл Инк.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Гугл Инк. filed Critical Гугл Инк.
Publication of RU2006114696A publication Critical patent/RU2006114696A/ru
Application granted granted Critical
Publication of RU2363983C2 publication Critical patent/RU2363983C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

Изобретение относится к поиску и выборке информации. Техническим результатом является обеспечение возможности выполнения поиска с использованием запросов, написанных в наборе символов или языке, который отличается от набора символов или языка документов, которые необходимо найти, и получения релевантных результатов поиска. Для этого принимают последовательность неоднозначных компонентов информации от пользователя и переводят в одну или более соответствующие последовательности менее неоднозначных компонентов информации. Эти последовательности менее неоднозначной информации предоставляются как входные данные в поисковую машину. Результаты поиска получаются от поисковой машины и представляются пользователю. Перевод между этими наборами символов и/или языками может быть выполнен посредством исследования использования терминов в выровненном тексте. Вероятности могут быть ассоциативно связаны с каждым возможным переводом. К этим вероятностям могут быть сделаны уточнения посредством исследования взаимодействий пользователя с результатами поиска. 7 н. и 38 з.п. ф-лы, 16 ил.

Description

Перекрестная ссылка на родственные заявки
Эта заявка является частичным продолжением Патентной заявки США серийный номер 09/748,431, озаглавленной «METHODS AND APPARATUS FOR PROVIDING SEARCH RESULTS IN RESPONSE TO AN AMBIGUOUS SEARCH QUERY» (Способы и устройство для предоставления результатов поиска в ответ на неоднозначный поисковый запрос), зарегистрированной 26 декабря 2000 г., которая притязает на приоритет по 35 U.S.C. §119(e), Предварительной патентной заявки США серийный номер 60/216,530, озаглавленной «DATA ENTRY AND SEARCH FOR HANDHELD DEVICES» (Ввод и поиск данных для карманных компьютеров), зарегистрированной 6 июля 2000 г., обе настоящим полностью включены в данный документ посредством ссылки.
1. Область техники, к которой относится изобретение
Настоящее изобретение в целом относится к поиску и выборке информации. Более конкретно, раскрываются системы и способы для выполнения поиска с использованием запросов, которые написаны в наборе символов или языке, который отличается от набора символов или языка, по меньшей мере, некоторых документов, которые необходимо найти.
2. Уровень техники
Большинство поисковых машин функционируют при допущении, что конечный пользователь вводит поисковые запросы, используя что-то наподобие стандартной клавиатуры, где ввод буквенно-цифровых последовательностей не является трудным. Поскольку маленькие устройства становятся более распространенными, это допущение не всегда обосновано. Например, пользователи могут запрашивать поисковые машины, используя радиотелефон, который поддерживает стандарт WAP (протокол приложений для беспроводной связи). Устройства, например радиотелефоны, обычно имеют интерфейс ввода данных, в котором конкретное воздействие пользователем (например, нажатие клавиши) может соответствовать более чем одному буквенно-цифровому символу. Подробное описание архитектуры WAP доступно на («WAP 100 Спецификация архитектуры протокола приложений для беспроводной связи»).
В обычном случае пользователь WAP перемещается к странице поискового запроса, представляемого с помощью формы, в которую они вводят свой поисковый запрос. С обычными способами пользователю может потребоваться нажать множество клавиш, чтобы выбрать конкретную букву. На стандартной клавишной панели телефона, например, пользователь выбрал бы букву «b» посредством нажатия клавиши «2» дважды или выбрал бы букву «s» посредством нажатия клавиши «4» четыре раза. Соответственно, чтобы ввести запрос для «ben smith» пользователю обычно было бы необходимо ввести следующую последовательность нажатий клавиш: 223366077776444844, которая отображается в буквы следующим образом:
22→b
33→e
66→n
0→пробел
7777→s
6→m
444→i
8→t
44→h
После того как пользователь ввел свой поисковый запрос, поисковая машина принимает слово или слова от пользователя и обрабатывает почти таким же способом, как если бы она приняла запрос от веб-обозревателя настольной системы, в котором пользователь использует стандартную клавиатуру.
Как можно увидеть из предшествующего примера, эта форма ввода данных неэффективна в том, что она требует восемнадцать нажатий клавиш, чтобы ввести девять буквенно-цифровых символов (включая пробел), соответствующих «ben smith».
Схожие трудности могут возникать при вводе с клавиатуры запросов, используя клавиатуры с нецелевым языком. Например, текст на японском языке может выражаться, используя множество различных наборов символов, включая хирагану, катакану и кандзи, ни один из которых не вводится легко, используя обычную клавиатуру ASCII (Американский стандартный код для обмена информацией), основанную на латинском алфавите. В подобной ситуации пользователь часто воспользуется текстовым процессором, например Ichitaro, изготовленным JustSystem Corp., город Токушима, Япония, который может преобразовывать текст, написанный на ромадзи (фонетическое отображение японского языка латинским алфавитом), в катакану, хирагану и кандзи. Используя текстовый процессор, пользователь может печатать запрос в ромадзи и затем вырезать и вставить переведенный текст из экрана текстового процессора в поисковое окно в веб-обозревателе. Недостатком данного подхода является то, что он может быть относительно медленным и утомительным и требует от пользователя иметь доступ к копии текстового процессора, что может быть невыполнимым вследствие стоимости и/или ограничений памяти.
Следовательно, остается потребность в способах и устройстве для предоставления релевантных результатов поиска в ответ на неоднозначный поисковый запрос.
Раскрытие изобретения
Способы и устройство в соответствии с настоящим изобретением, как реализуются и в общих чертах описываются в данном документе, обеспечивают релевантные результаты поиска в ответ на неоднозначный поисковый запрос. В соответствии с изобретением такой способ включает в себя приём последовательности неоднозначных компонентов информации от пользователя. Способ получает информацию отображения, которая отображает неоднозначные компоненты информации в менее неоднозначные компоненты информации. Эта информация отображения используется для перевода последовательности неоднозначных компонентов информации в одну или более соответствующие последовательности менее неоднозначных компонентов информации. Одна или более этих последовательностей менее неоднозначной информации предоставляются как входные данные в поисковую машину. Результаты поиска получаются от поисковой машины и представляются пользователю.
Кроме этого, раскрываются системы и способы для выполнения поисков с использованием запросов, которые выражаются в наборах символов или языках, которые отличаются от набора символов или языка, по меньшей мере, некоторых документов, которые необходимо найти. Варианты осуществления настоящего изобретения позволяют пользователям печатать запросы, используя стандартные устройства ввода (например, клавиатуры ASCII), переводить им запросы в релевантные формы на сервере (например, перевести запрос, написанный на ромадзи, в катакану, хирагану и/или кандзи) и принимать результаты поиска на основе преобразованных форм.
Следует принимать во внимание, что настоящее изобретение может быть реализовано многочисленными способами, включая, например, процесс, устройство, систему, механизм, способ или машинно-читаемый носитель, например, машинно-читаемый носитель информации, несущую или вычислительную сеть, в которой программные команды передаются по оптическим или электронными линиям связи. Некоторые изобретательские варианты осуществления описываются ниже.
В одном из вариантов осуществления описывается способ для автоматического перевода терминов запроса из одного языка и/или набора символов в другой. Первое множество текста привязки, содержащего данный термин запроса, идентифицируется как множество документов (например, веб-страниц), на которые указывает текст привязки. Затем идентифицируется второе множество текста привязи, написанное во втором формате и указывающее на то же множество документов. Второе множество текста привязки затем анализируется, чтобы получить вероятность того, что представление данного термина запроса в первом формате соответствует представлению данного термина запроса во втором формате.
В другом варианте осуществления создается вероятностный словарь, который отображает термины, написанные в первом формате (например, языке и/или наборе символов), во второй формат (например, другой язык и/или набор символов). Вероятностный словарь используется для перевода запроса, написанного в первом формате, во второй формат. Переведенный запрос затем используется для выполнения поиска, результаты которого возвращаются пользователю. В некоторых вариантах осуществления пользовательское взаимодействие с результатами поиска может отслеживаться и использоваться для обновления вероятностей в вероятностном словаре. Также в некоторых вариантах осуществления сам запрос мог бы быть расширен до поиска, чтобы включать в себя альтернативный язык и/или отображения набора символов.
В еще одном варианте осуществления описывается способ для создания вероятностного словаря. Вероятностный словарь может использоваться для перевода терминов в первом формате во второй формат. Словарь создается предпочтительно почленно посредством идентификации текста привязки или других данных, содержащих термин. Затем данные, которые выровнены с текстом привязки или другими данными, анализируются для определения вероятности, с которой данный термин в первом формате отображается в один или более терминов во втором формате.
В еще одном варианте осуществления предоставленный на первом языке или наборе символов запрос переводится на второй язык или набор символов посредством сравнения текста привязки, который содержит один или более терминов запроса и написан на первом языке или наборе символов, с текстом привязки, который соответствует первому тексту привязки и написан на втором языке или наборе символов.
В другом варианте осуществления предоставляется компьютерный программный продукт для перевода термина, написанного в первом формате, во второй формат. Компьютерный программный продукт работает, чтобы заставить компьютерную систему идентифицировать выровненный текст привязки и определить вероятность того, что представление данного термина в первом формате соответствует одному или более терминов во втором формате.
В другом варианте осуществления предоставляется способ для выполнения поисков, используя потенциально неоднозначные запросы. Когда пользователь вводит запрос в первом формате, он переводится в группу из одного или более вариантов, написанных во втором формате. Затем выполняется поиск, используя переведенные варианты, и ответная информация возвращается пользователю. Например, первый формат мог бы содержать последовательность цифр, введенных с использованием клавишной панели телефона, и второй формат мог бы содержать буквенно-цифровой текст (например, английский, ромадзи, ромадза, пиньинь (система транслитерации китайских иероглифов буквами английского алфавита) или т.п.). В некоторых вариантах осуществления выбирается группа из одного или более вариантов посредством отбрасывания переведенных вариантов, которые не появляются в предопределенном лексиконе и/или которые содержат предопределенные маловероятные сочетания символов. В некоторых вариантах осуществления используется вероятностный словарь, чтобы дополнительно перевести группу из одного или более вариантов в третий формат, до того как выполнится поиск. Например, вероятностный словарь может использоваться для перевода группы одного или более вариантов из ромадзи, ромадза или пиньинь в кандзи, катакану, хирагану, хангыль, хандза или традиционные китайские символы, а затем может быть выполнен поиск с использованием переведенных вариантов.
Эти и другие признаки и преимущества настоящего изобретения будут представлены более обстоятельно в последующем подробном описании и сопроводительных рисунках, которые иллюстрируют принципы изобретения с целью примера.
Краткое описание чертежей
Сопроводительные чертежи, которые содержатся и составляют часть данного подробного описания, иллюстрируют варианты осуществления изобретения и вместе с описанием служат, чтобы объяснить преимущества и принципы изобретения. На чертежах:
Фиг. 1 иллюстрирует блок-схему системы, в которой могут быть реализованы способы и устройство, в соответствии с настоящим изобретением;
Фиг. 2 иллюстрирует блок-схему клиентского устройства в соответствии с изобретением;
Фиг. 3 иллюстрирует диаграмму, изображающую три документа;
Фиг. 4А иллюстрирует стандартный буквенно-цифровой индекс;
Фиг. 4B иллюстрирует блок-схему алгоритма для предоставления результатов поиска в ответ на стандартный буквенно-цифровой поисковый запрос;
Фиг. 5А иллюстрирует блок-схему алгоритма в соответствии с изобретением для предоставления результатов поиска в ответ на неоднозначный поисковый запрос;
Фиг. 5B иллюстрирует диаграмму для отображения буквенно-цифровой информации в цифровую информацию;
Фиг. 6 иллюстрирует другую блок-схему алгоритма в соответствии с изобретением, для предоставления результатов поиска в ответ на неоднозначный поисковый запрос;
Фиг. 7 иллюстрирует способ для выполнения поиска в соответствии с вариантами осуществления настоящего изобретения;
Фиг. 8 иллюстрирует вероятностный словарь переводов набора символов;
Фиг. 9 иллюстрирует использование параллельного текста привязки для построения вероятностного словаря;
Фиг. 10 иллюстрирует коллекцию документов, связанных с использованием текста привязки;
Фиг. 11А и 11В иллюстрируют вычисление возможных переводов на основе текста привязки, показанного на фиг. 10;
Фиг. 12 показывает распределение вероятности, ассоциативно связанной с пояснительным переводом слова.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Сейчас будет сделана подробная ссылка на варианты осуществления настоящего изобретения, как проиллюстрировано на сопроводительных чертежах. Одни и те же номера ссылок могут использоваться на чертежах и в последующем описании, чтобы ссылаться на те же или подобные части. Последующее описание представляется для предоставления возможности любому специалисту в данной области техники сделать и использовать основу изобретения для работы. Описания отдельных вариантов осуществления и приложений предоставляются только в качестве примеров, и различные модификации будут очевидны специалистам в данной области техники. Например, хотя многие из примеров описываются в контексте веб-страниц Интернета, следует понимать, что варианты осуществления настоящего изобретения могут использоваться для поиска других типов документов и/или информации, например книг, газет, журналов и т.п. Аналогично, хотя многие из примеров описывают перевод текста на японском языке из ромадзи в катакану, хирагану и/или кандзи ради иллюстрации, специалисты в данной области техники примут во внимание, что системы и способы настоящего изобретения могут применяться к любому подходящему переводу. Например, без ограничений варианты осуществления настоящего изобретения могли бы использоваться для поиска текста, написанного, например, в традиционных китайских символах или корейском хангыле или хандза, на основе запросов, принятых в каком-нибудь другом формате (например, пиньин или ромадза). Общие принципы, описанные в этом документе, могут применяться к другим вариантам осуществления и приложениям без отклонения от сущности и объема изобретения. Таким образом, настоящему изобретению нужно согласовываться с самым широким объемом, охватывающим многочисленные альтернативы, модификации и эквиваленты в соответствии с принципами и признаками, раскрытыми в этом документе. С целью ясности подробности, относящиеся к техническому материалу, который известен в областях, относящихся к изобретению, не описаны подробно с тем, чтобы излишне не затруднять понимание настоящего изобретения.
А. Обзор
Способы и устройство в соответствии с изобретением позволяют пользователю представить неоднозначный поисковый запрос и принять результаты поиска с потенциально устраненной неоднозначностью. В одном из вариантов осуществления последовательность цифр, принятая от пользователя стандартной клавишной панели телефона, переводится в множество потенциально соответствующих буквенно-цифровых последовательностей. Эти потенциально соответствующие буквенно-цифровые последовательности предоставляются как входные данные в обычную поисковую машину, используя булево выражение «OR» (ИЛИ). Этим способом поисковая машина используется, чтобы помочь ограничить результаты поиска до тех, в которых пользователь, вероятно, был заинтересован.
B. Архитектура
Фиг. 1 иллюстрирует систему 100, в которой могут реализовываться способы и устройство в соответствии с настоящим изобретением. Система 100 может включать в себя множество клиентских устройств 110, соединенных с множеством серверов 120 и 130 через сеть 140. Сеть 140 может включать в себя локальную сеть (LAN), глобальную сеть (WAN), телефонную сеть, например коммутируемую телефонную сеть общего пользования (PSTN), корпоративную сеть, Интернет либо сочетания сетей. Два клиентских устройства 110 и три сервера 120 и 130 проиллюстрированы подключенными к сети 140 для упрощения. На практике может быть больше либо меньше клиентских устройств и серверов. Также в некоторых случаях клиентское устройство может выполнять функции сервера, а сервер может выполнять функции клиентского устройства.
Клиентские устройства 110 могут включать в себя устройства, например мэйнфреймы, мини-компьютеры, персональные компьютеры, портативные компьютеры, персональные цифровые помощники или т.п., допускающие подключение к сети 140. Клиентские устройства 110 могут передавать данные по сети 140 или принимать данные от сети 140 посредством проводного, беспроводного или оптического соединения.
Фиг. 2 иллюстрирует примерное клиентское устройство 110 в соответствии с настоящим изобретением. Клиентское устройство 110 может включать в себя шину 210, процессор 220, основную память 230, постоянное запоминающее устройство 240 (ROM), запоминающее устройство 250, устройство 260 ввода, устройство 270 вывода и интерфейс 280 связи.
Шина 210 может включать в себя одну или более стандартных шин, которые допускают обмен информацией между компонентами клиентского устройства 110. Процессор 220 может включать в себя любой тип обычного процессора или микропроцессора, который интерпретирует и исполняет команды. Основная память 230 может включать в себя оперативное запоминающее устройство (RAM) или другой тип динамического запоминающего устройства, которое хранит информацию и команды для исполнения процессором 220. ROM 240 может включать в себя обычное устройство ROM или другой тип статического запоминающего устройства, которое хранит статическую информацию и команды для пользования процессором 220. Запоминающее устройство 250 может включать в себя магнитный и/или оптический носитель информации и его соответствующий привод.
Устройство 260 ввода может включать в себя один или более стандартных механизмов, которые позволяют пользователю вводить информацию в клиентское устройство 110, например клавиатуру, мышь, перо, механизмы распознавания голоса и/или биометрические и т.д. Устройство 270 вывода может включать в себя один или более стандартных механизмов, которые выводят информацию пользователю, включая дисплей, принтер, динамик и т.д. Интерфейс 280 связи может включать в себя любой механизм, подобный приемопередатчику, который дает возможность клиентскому устройству 110 обмениваться информацией с другими устройствами и/или системами. Например, интерфейс 280 связи может включать в себя механизмы для обмена информацией с другим устройством или системой через сеть, например сеть 140.
Как будет подробно описано ниже, клиентские устройства 110 в соответствии с настоящим изобретением выполняют определенные связанные с поиском операции. Клиентские устройства 110 могут выполнять эти операции в ответ на исполняемые процессором 220 программные команды, содержащиеся на машинно-читаемом носителе, например, памяти 230. Машинно-читаемый носитель может быть определен как одно или более запоминающих устройств и/или несущих волн. Программные команды могут считываться в память 230 из другого машинно-читаемого носителя, например запоминающего устройства 250, или из другого устройства через интерфейс 280 связи. Программные команды, содержащиеся в памяти 230, заставляют процессор 220 выполнять относящиеся к поиску действия, описанные ниже. В качестве альтернативы может использоваться аппаратно реализованная схема вместо или в сочетании с программными командами, чтобы реализовывать процессы в соответствии с настоящим изобретением. Таким образом, настоящее изобретение не ограничивается каким-либо особым сочетанием аппаратно реализованной схемы и программного обеспечения.
Серверы 120 и 130 могут включать в себя один или более типов вычислительных систем, например мэйнфрейм, мини-компьютер или персональный компьютер, допускающих соединение с сетью 140, чтобы предоставить возможность серверам 120 и 130 обмениваться информацией с клиентским устройством 110. В альтернативных реализациях серверы 120 и 130 могут включать в себя механизмы для прямого соединения с одним или более клиентскими устройствами 110. Серверы 120 и 130 могут передавать данные по сети 140 или принимать данные от сети 140 посредством проводного, беспроводного или оптического соединения.
Серверы могут быть сконфигурированы способом, схожим с описанным выше в отношении к фиг. 2 для клиентского устройства 110. В реализации в соответствии с настоящим изобретением сервер 120 может включать в себя поисковую машину 125, используемую клиентскими устройствами 110. Серверы 130 могут хранить документы (или веб-страницы), доступные посредством клиентских устройств 110.
С. Архитектурный процесс
Фиг. 3 иллюстрирует диаграмму, изображающую три документа, которые могут храниться, например, в одном из серверов 130.
Первый документ (Документ 1) содержит два элемента - «car repair» (ремонт машины) и «car rental» (прокат машины) и нумеруется «3» внизу. Второй документ (Документ 2) содержит элемент «video rental» (прокат видео). Третий документ (Документ 3) содержит три элемента - «wine» (вино), «champagne» (шампанское) и «bar items» (предметы бара) и включает в себя связь (или ссылку) на Документ 2.
Для пояснительной простоты документы, показанные на фиг. 3, содержат только буквенно-цифровые последовательности информации (например, «car» (машина), «repair» (ремонт), «wine» (вино) и т.д.). Специалисты в данной области техники признают, тем не менее, что в других ситуациях документы могли бы содержать другие типы информации, например фонетическую или аудиовизуальную информацию.
Фиг. 4А иллюстрирует стандартный буквенно-цифровой индекс на основе документов, показанных на фиг. 3. Первый столбец индекса содержит список буквенно-цифровых терминов и второй столбец содержит список документов, соответствующих этим терминам. Некоторые термины, например буквенно-цифровой термин «3», соответствуют только (например, появляются в) одному документу - в этом случае Документу 1. Другие термины, например «rental» (прокат), соответствуют множеству документов - в данном случае Документам 1 и 2.
Фиг. 4B иллюстрирует, как обычная поисковая машина, например поисковая машина 125, использовала бы индекс, проиллюстрированный на фиг 4а, чтобы предоставить результаты поиска в ответ на буквенно-цифровой поисковый запрос. Буквенно-цифровой поисковый запрос может быть сформирован с использованием любой традиционной методики. С целью иллюстрации фиг. 4b изображает два буквенно-цифровых запроса: «car» (машина) и «wine» (вино). При традиционном походе поисковая машина 125 принимает буквенно-цифровой запрос, например «car» (этап 410), и использует буквенно-цифровой индекс для определения, какие документы соответствуют тому запросу (этап 420). В этом примере обычная поисковая машина 125 использовала бы индекс, проиллюстрированный на фиг. 4А, чтобы определить, что «car» соответствует Документу 1, и вернула бы Документ 1 (или ссылку на него) пользователю в качестве результата поиска. Подобным образом обычная поисковая машина определила бы, что «wine» соответствует Документу 3 и вернула бы Документ 3 (или ссылку на него) пользователю (этап 430).
Фиг. 5А иллюстрирует блок-схему алгоритма в соответствии с изобретением, предпочтительной методики для предоставления результатов поиска в ответ на цифровой поисковый запрос на основе документов и индекса, показанных на фиг. 3 и 4а соответственно. Для облегчения пояснения фиг. 5А описывает особую методику для обработки цифрового запроса на основе отображения стандартной телефонной трубки; но специалисты в данной области техники признают, что могут использоваться другие методики в соответствии с изобретением.
На этапе 510 последовательность «227» (состоящая из цифровых компонентов «2», «2» и «7») принимается от пользователя. На этапе 520 получается информация о том, как цифровые компоненты отображаются в буквы. Допуская, что пользователь ввел информацию со стандартной клавишной панели телефона, эта информация отображения показывается на фиг. 5B. Как показано на фиг. 5B, буквы «a», «b» и «c» каждая отображаются в цифру «1», буквы «p», «q», «r» и «s» каждая отображаются в цифру «7» и так далее.
На этапе 530, используя информацию отображения, последовательность «227» переводится в ее возможные буквенно-цифровые эквиваленты. На основе информации, показанной на фиг. 5B, существует 36 возможных сочетаний букв, которые соответствуют последовательности «227», включая следующие: aap, bap, cap, abp, bbp, … bar … car … ccs. Если цифры включаются в возможные сочетания (например, «аа7»), существовало бы 80 возможных сочетаний. Вместо формирования всех возможных буквенно-цифровых эквивалентов, может быть желательным ограничить сформированные эквиваленты на основе некоторого лексикона. Например, желательно сформировать только те буквенно-цифровые эквиваленты, которые фигурируют в словаре, протоколе предыдущих поисковых запросов поисковой машины и т.д.; или иным способом ограничить буквенно-цифровые эквиваленты посредством использования известных статистических методик (например, вероятность появления определенных слов вместе).
На этапе 540 эти буквенно-цифровые эквиваленты предоставляются в качестве входных данных обычной поисковой машине, например, как описаны в отношении фиг. 4А и 4B, используя логическую операцию «OR». Например, поисковый запрос, предоставленный поисковой машине, мог быть «aap OR bap OR cap OR abp … OR bar … OR car». Хотя все возможные буквенно-цифровые эквиваленты могут предоставляться поисковой машине, вместо этого может использоваться подмножество посредством использования традиционных методик для исключения эквивалентов, которые должны маловероятно предполагаться. Например, можно сформировать ограниченный список возможных сочетаний посредством использования методик, которые черпают вероятностную информацию об использовании букв или слов: можно игнорировать сочетания, которые начинаются с «qt», но включать (и предпочитать) сочетания, которые начинаются с «qu».
На этапе 550 результаты поиска получаются от поисковой машины. Поскольку термины, например «aap» и «abp» не встречаются в индексе поисковой машины, они эффективно игнорируются. Действительно, единственными терминами, содержащимися в индексе, показанном на фиг. 4B, являются «car» и «bar» и поэтому возвращенными результатами поиска являются только те, которые соответствуют Документам 1 и 3. На этапе 560 эти результаты поиска представляются пользователю. Результаты поиска могут представляться в том же порядке, что и предоставленном поисковой машиной, либо могут быть переупорядочены на основе соображений, таких как язык пользователя. Допуская, что пользователь был заинтересован только в документах, содержащих термин «bar», пользователь примет нежелательный результат (Документ 3) в дополнение к желательному результату (Документ 1). Это может быть приемлемой издержкой, однако с выгодой для пользователя, которому необходимо нажать только три клавиши, чтобы сформулировать поисковый запрос.
Фиг. 6 иллюстрирует другую блок-схему алгоритма в соответствии с изобретением, предпочтительной методики для предоставления результатов поиска в ответ на цифровой поисковый запрос, на основе документов и индекса, показанных на фиг. 3 и 4А соответственно. Эта блок-схема алгоритма демонстрирует, как увеличение размера принятой последовательности может помочь ограничить результаты поиска до желаемых пользователем. Для облегчения пояснения фиг. 6 снова описывает особую методику для обработки цифрового запроса на основе отображения стандартной телефонной трубки; но специалисты в данной области техники признают, что могут использоваться другие методики в соответствии с изобретением.
На этапе 610 последовательность «227 48367» (состоящая из цифровых компонентов «2», «2», «7», «4», «8», «3», «6», «7») принимается от пользователя. Для пояснения последовательность «227» будет называться «цифровым словом», а вся последовательность «227 48367» будет называться «цифровой фразой». Возможные буквенно-цифровые эквиваленты цифрового слова будут называться «буквенными словами», а возможные буквенно-цифровые эквиваленты цифровой фразы буду называться «буквенными фразами».
На этапе 620 получается информация о том, как цифровые компоненты отображаются в буквы. Допуская, что та же информация отображения используется, как показано на фиг. 5B, на этапе 630 цифровая фраза «227 48367» переводится в потенциально соответствующие буквенные фразы. На основе информации, показанной на фиг. 5B, 5С существует 11664 возможных буквенных фраз, которые соответствуют последовательности «227 48367».
На этапе 640 эти буквенные фразы предоставляются в качестве входных данных обычной поисковой машине, например, как описано в отношении фиг. 4А и 4B, используя логическую операцию «OR». Например, поисковый запрос, предоставленный поисковой машине, мог бы быть «"`aap gtdmp` OR `aap htdmp` … OR `bar items` … OR `car items`». Хотя все возможные буквенные фразы могут предоставляться поисковой машине, вместо этого может использоваться подмножество посредством применения традиционных методик для исключения буквенных фраз, которые должны маловероятно предполагаться.
На этапе 650 результаты поиска получаются от поисковой машины. Так как многие поисковые машины спроектированы для ранжирования высоко тех документов, которые содержат точно искомую фразу, Документ 3 был бы, вероятно, наивысшим ранжированным результатом поиска (то есть потому, что он содержит точную фразу «bar items»). Никакой другой документ в примере не содержит одну из остальных буквенных фраз, сформированных на этапе 620. Более того, многие поисковые машины понижают вес (либо исключают) результатов поиска, которые содержат отдельные части фразы, но не всю фразу. Например, Документ 1 был бы понижен в весе или исключен, так как он содержит буквенное слово «car», которое соответствует первой части буквенной фразы, но он не содержит какое-нибудь буквенное слово, которое соответствует второй части буквенной фразы. Наконец, буквенные фразы, такие как «aap htdmp», эффективно игнорируются, поскольку они не содержат буквенных слов, которые встречаются в индексе поисковой машины.
На этапе 660 результаты поиска представляются пользователю. В показанном примере первый результат, показанный пользователю, был бы Документ 3, который, вероятно, является наиболее релевантным запросу пользователя. Документ 1 может быть исключен совсем, так как он не содержит одну из возможных буквенных фраз. Таким образом, пользователь обеспечивается наиболее релевантными результатами поиска.
Несмотря на то, что приведенные выше описания по отношению к фиг. 5 и 6 сделаны в отношении к приёму цифровой информации и отображению ее в буквенно-цифровую информацию, специалисты в данной области техники признают, что другие реализации возможны в соответствии с изобретением. Например, вместо приёма последовательности цифр, соответствующих клавишам, нажатым пользователем, принятая последовательность может состоять из первых букв, соответствующих клавишам, нажатым пользователем. Другими словами, вместо приёма «227» принятой последовательностью может быть «аар». В соответствии с изобретением эквивалентные буквенные последовательности, сформированные на этапах 530 или 630, могут тогда быть другими буквенными последовательностями (например «bar»), которые соответствуют «аар». Безусловно, принятая последовательность может содержать фонетический, аудиовизуальный или любой другой тип компонентов информации.
Невзирая на форму, в которой принимается последовательность, обычно предпочитается, что принятую последовательность необходимо перевести в последовательность, которая соответствует формату, в котором информация хранится в индексе поисковой машины. Например, если индекс поисковой машины хранится в буквенно-цифровом формате, принятую последовательность следует перевести в буквенно-цифровые последовательности.
Более того, обычно предпочитается, чтобы методика отображения, которая используется для перевода принятой последовательности компонентов информации, была той же методикой, что применяется на пользовательском устройстве для отображения пользовательского ввода в информацию, сформированную устройством. Однако могут быть случаи, где предпочтительно использовать другую методику отображения, нежели используется для ввода пользователя.
Варианты осуществления настоящего изобретения также могут дать пользователям возможность выполнять поиски, введенные с использованием клавиатур с нецелевым языком. Например, веб-страница, содержащая текст на японском языке, может быть написана на кандзи, тогда как пользователь, пытающийся искать эту страницу, может иметь доступ только к стандартной клавиатуре ASCII (либо трубке) на основе латинского алфавита.
Фиг. 7 иллюстрирует способ для выполнения подобного поиска. Как показано на фиг. 7, пользователь печатает запрос, используя стандартное устройство ввода (например, клавиатуру ASCII, телефонную трубку и т.д.), и отправляет запрос поисковой машине. Запрос может быть написан в наборе символов (например, ромадзи), который отличается от набора символов, в котором написаны некоторые из ответных документов (например, кандзи). Поисковая машина принимает запрос (этап 702), переводит его в релевантную форму(ы) (этап 704) и выполняет поиск документов, являющихся ответными на переведенный запрос, используя, например, традиционные методики поиска (этап 706). Поисковая машина затем возвращает список ответных документов (и/или копии самих документов) пользователю (этап 708). Например, результаты могут быть возвращены пользователю способом, похожим на описанный выше применительно к фиг. 6.
Как показано на фиг. 7, пользовательский запрос переводится предпочтительно на сервере поисковой машины в противоположность клиенту, соответственно, освобождая пользователя от необходимости приобретать специализированное программное обеспечение для выполнения перевода. Однако будет принято во внимание, что в других вариантах осуществления часть или весь перевод мог бы выполняться на клиенте. Кроме того, в некоторых вариантах осуществления запрос может вводиться с использованием устройства, такого как клавишная панель телефона. В таких вариантах осуществления исходный цифровой запрос может сначала быть преобразован в буквенно-цифровую форму (например, ромадзи), используя методики отображения, описанные выше применительно к фиг. 5 и 6, включая, например, применение лексикона и/или вероятностных методик для отбрасывания маловероятных отображений (например, отображений, которые включают в себя сочетания букв, которые не встречаются в ромадзи). Как только буквенно-цифровой перевод запроса получен, могут выполняться остальные этапы, показанные на фиг. 7 (то есть 704, 706 и 708).
Перевод запроса из одного набора символов или языка в другой (то есть этап 704 на фиг. 7) может выполняться различными путями. Одной из методик является использование обычного статического словаря значений слов или переводов, чтобы отобразить каждый термин в запросе в соответствующий термин в целевом языке или наборе символов. Однако проблема с этим подходом в том, что он будет часто выдавать неточные результаты, так как слова часто являются неоднозначными и запросы часто будут слишком короткими, чтобы обеспечить адекватные контекстные ключи для разрешения этой двусмысленности. Например, слово «bank» (банк) может относиться к речному берегу, финансовому учреждению или маневру самолета, соответственно, теоретически затрудняя безошибочный перевод. Кроме того, если словарь относительно небольшой и/или часто обновляется, он может не содержать элементы для всех терминов, с которыми может столкнуться поисковая машина, например редко используемые слова, жаргон, идиомы, имена собственные и т.п.
Варианты осуществления настоящего изобретения могут использоваться для преодоления или улучшения части или всех этих проблем посредством использования вероятностного словаря для перевода терминов запроса из одного языка или набора символов (например, ASCII) в другой (например, кандзи). В предпочтительном варианте осуществления вероятностный словарь отображает одно множество терминов в другое множество терминов и ассоциативно связывает вероятность с каждым из отображений. Для удобства «термин» или «маркер» будет относиться к словам, фразам и/или (в большинстве случаев) последовательностям из одного или более символов, которые могут включать пробелы.
Фиг. 8 показывает пример вероятностного словаря 800, такого как описан выше. Пример вероятностного словаря 800, показанный на фиг. 8, отображает слова, написанные на ромадзи (представление на латинском алфавите японского языка), в слова, написанные на кандзи (нелатинский, основанный на идеограммах набор японских символов). Чтобы облегчить объяснение, фиг. 8 изображает термины ромадзи как «<term>romaji» и термины кандзи как «<term>kanji». Будет принято во внимание, что в реальном словаре ромадзи-кандзи использовались бы реальные термины ромадзи и кандзи вместо английских переводов, показанных на фиг. 8. Соответственно, будет принято во внимание, что фиг. 8 предоставляется для облегчения объяснения вариантов осуществления настоящего изобретения и не для иллюстрации фактических характеристик и значения текста на японском языке.
Словарь 800 содержит элементы 808, 810, 812, 814 для различных терминов 802 ромадзи. Словарь также содержит возможные представления 804 каждого из этих терминов в кандзи вместе с соответствующей вероятностью 806, что каждое такое представление является правильным. Например, термин «bank» ромадзи может отображаться в термин кандзи, означающий «steep slope» (крутой откос) с вероятностью 0,3, в термин, означающий «financial institution», с вероятностью 0,4 и в термин, означающий «airplane maneuver», с вероятностью 0,2. С вероятностью 0,1 термин может отображаться в «other» (другое), что является просто общим способом предоставления возможности каждому термину отображаться в термины, которых может не быть в словаре.
Следует принять во внимание, что пример, показанный на фиг. 8, создан для иллюстрации, что данный термин (например, слово «bank») в первом наборе символов или языке может отображаться в более чем один термин в другом наборе символов или языке. Специалисты в данной области техники, тем не менее, примут во внимание, что тогда, как ради ясности, отдельный пример на фиг. 8 иллюстрирует этот принцип, используя английские слова и значения, фактическое представление ромадзи слова «bank», например, может не быть неоднозначным таким же образом, как его английский эквивалент (например, может не быть неоднозначности в ромадзи между словом для финансового учреждения и словом для маневра самолета). Также следует принять во внимание, что для того, чтобы облегчить понимание, показанный на фиг. 8 словарь упрощен в других отношениях в той же степени. Например, реальный вероятностный словарь мог бы содержать гораздо больше возможных отображений для каждого термина или мог бы содержать только отображения, которые превышают предопределенный порог вероятности.
Предпочтительные варианты осуществления настоящего изобретения используют такой вероятностный словарь для перевода запросов, выраженных на одном языке и/или наборе символов, в другой язык и/или набор символов, тем самым предоставляя пользователям возможность найти документы, написанные в другом наборе символов и/или языке, чем их исходный запрос. Например, если пользователь вводит запрос для «cars» (машины) на ромадзи, вероятностный словарь может использоваться для отображения термина ромадзи для «cars», например, в термин кандзи для «cars». Таким образом, пользователи могут искать документы, относящиеся к их запросам, даже если набор символов запросов (например, ромадзи) и набор символов совпадающих документов (например, кандзи) не являются одинаковыми. Подчеркиваем, что в этом конкретном примере реальный язык запроса не меняется (и ромадзи, и кандзи используются для выражения японского языка), только кодировка символов.
В качестве еще одного примера термин «tired» (уставший) в английском ASCII может отображаться в термин «müde» (уставший) на немецком языке, используя кодировку символов Latin 1, так как символа умляут не существует в ASCII. Подчеркнем, что в этом примере словарь обеспечивает и перевод в другой язык (английский в немецкий), и перевод в другую кодировку символов (ASCII в Latin 1).
В предпочтительных вариантах осуществления словарь отображения, описанный выше, строится автоматическим способом, используя информацию, доступную во всемирной сети совместно со статистическими методиками. Предпочтительные варианты осуществления используют параллельные, выровненные двуязычные своды, например текст привязки, написанный на различных языках и/или наборах символов, чтобы достичь точных переводов. Используя эти данные, предпочтительные варианты осуществления могут создавать словарь из возможных отображений слов. Это может быть сделано, например, путем простого подсчета количества раз, сколько маркер на языке Si (язык оригинала) встречается за то же время, что и маркер Tj (целевой язык) в выровненных текстовых парах (например, привязках, предложениях и т.д.). Будет принято во внимание, однако, что могла бы использоваться любая подходящая методика.
В отсутствие достаточно больших и правильно выровненных множеств данных этот способ может порождать неоднозначные отображения многие-ко-многим. Так, например, можно только определить, что S1 мог бы отображаться в T2, T3, T7 и T8 с некоторой вероятностью. Однако это приемлемо и, как описывается более подробно ниже, в некоторых вариантах осуществления могут быть сделаны дополнительные усовершенствования для увеличения соответствующего правдоподобия каждого из отображений, например, посредством исследования предыдущих запросов пользователя, пользовательского выбора элементов на странице результатов и/или тому подобного.
Фиг. 9 иллюстрирует использование параллельного текста привязки для построения вероятностного словаря. Текст привязки содержит текст, ассоциативно связанный с гиперссылкой между двумя веб-страницами (или местоположениями внутри данной веб-страницы). Например, в языке гипертекстовой разметки (HTML) команда «<A href="http://www. abc.com">Banks and Savings and Loans</A>» отобразит текст «Banks and Savings and Loans» (Банки и Сбережения и Ссуды) как гиперссылку, указывающую на веб-страницу, находящуюся на http:// www.abc.com. Текст «Banks and Savings and Loans», называется текстом привязки и обычно обеспечивает короткое описание веб-страницы, на которую он указывает (например, www.abc.com). Несомненно, текст привязки часто будет обеспечивать более точное описание веб-страницы, чем сама страница, и соответственно может быть особенно полезным в определении свойства веб-страницы, на которую он указывает. Кроме того, использование и распределение слов в тексте привязки часто ближе по смыслу и числу элементов к найденному в запросах пользователя. Также верно то, что многие из привязок, указывающих на данную страницу, будут содержать одинаковый или сильно похожий текст. Например, указывающие на привязки часто скажут просто «Google» или, по меньшей мере, будут использовать этот термин вместе с остальным текстом. Соответственно, посредством исследования всех привязок, например, катакана, которые указывают на , перевод катакана для «***», может быть выведен с относительно высокой степенью доверия посредством простого поиска термина, который появляется с наибольшей частотой (возможно, после отбрасывания некоторых предопределенных, малоинформативных привязок, например тех, которые просто говорят «click here» (щёлкнуть здесь)). Предпочтительные варианты осуществления настоящего изобретения пользуются преимуществом этих особенностей текста привязки, чтобы обеспечить точные переводы.
Обращаясь к фиг. 9, по приёму запроса, содержащего термин, написанный в первом наборе символов (например, ASCII) (этап 902), сервер идентифицирует множество текста привязки, в котором термин появляется (этап 904). Например, сервер может исследовать индекс всех известных привязок, чтобы идентифицировать те привязки, которые содержат термин. Далее, веб-страницы, на которые указывают те привязки, идентифицируются (этап 906), как и любые привязки, написанные на целевом языке или целевом наборе символов (например, хирагана, катакана и/или кандзи), которые указывают на эти страницы (этап 908). Система теперь будет обладать двумя множествами документов (где текст привязки рассматривается как форма документа). Распределение термина запроса в одном множестве документа (например, привязки, которые содержат исходный запрос ASCII) затем используется для идентификации наиболее вероятных кандидатов на переведенную фразу в другом множестве документа (например, параллельных привязках). Статистические показатели могут вычисляться относительно частоты, с которой появляются термины текста привязки, и эти статистические показатели могут использоваться для определения относительных частот или вероятностей терминов, найденных в тексте привязки, являться правильным переводом исходного запроса (этап 910). Для запросов с множеством слов описанный выше процесс может повторяться для каждого слова или весь запрос может просто рассматриваться как единый термин или могла бы использоваться какая-либо иная подходящая группировка слов. Например, если есть запрос «big houses» (большие дома), словарь возможных переводов мог бы быть построен посредством отыскания выровненного текста привязки, который содержит эту фразу (или, по меньшей мере, одно из слов во фразе). Подобным образом, если запрос содержал более двух терминов, эксперименты для определения подходящего отображения могли быть созданы посредством выбора подходящих подмножеств терминов запроса и формирования результатов для этих терминов.
Преимущество выполнения перевода способом, показанным на фиг. 9, в том, что системе перевода не требуется обладать предварительным знанием отображений между терминами на одном языке или наборе символов и терминами в целевом множестве. Вместо этого отображения могут быть определены динамически на основе массива данных, который доступен для выполнения статистического анализа. Соответственно, например можно обнаружить точные переводы для жаргонных терминов, идиом, имен собственных и т.п. без издержек (например, лингвистический анализ и исследование) связанных с поддержкой обычного статического словаря.
Пояснительный вариант осуществления вышеупомянутых методик перевода будет сейчас описан применительно к фиг. 10-12. В этом предполагается, что пользователь ввел термин запроса «house» и желает получить результаты поиска, написанные на испанском языке (или просто перевод термина запроса). Сервер, следовательно, будет пытаться перевести английский термин «house» в его испанский эквивалент.
Обращаясь к фиг. 10, множество веб-страниц 959, 961, 963, 965 связаны через текст привязки 960, 962, 964, 966 со страницами 972 и 974. Некоторые из страниц и их ассоциативно связанный текст привязки написаны на английском языке (то есть страницы 959a-e и 963a-t) и некоторые написаны на испанском языке (то есть страницы 961a-e и 965a-j). Сервер сначала определяет место всех привязок, которые используют термин «house». Эти привязки могут быть обнаружены, например, посредством поиска индекса текста привязки, сохраненного на сервере. Используя такой индекс, сервер может сначала найти пять привязок 960, которые используют фразу «big house» каждая и указывают на веб-страницу 972. Далее сервер определяет, что есть также пять привязок 962 целевого языка (то есть испанского), которые тоже указывают на страницу 972. В примере, показанном на фиг. 10, эти привязки содержат текст «casa grande». Привязки, которые указывают на одинаковую страницу (например, привязки 960 и привязки 962) или на страницы, обладающие предопределенной связью, к тому же называются «выровненными», где, в более общем случае, выравнивание обычно относится к эквивалентности (или возможной эквивалентности) выровненных терминов.
Фиг. 11А показывает частоту, с которой каждый термин целевого языка появляется в привязках 962 целевого языка. Как показано на фиг. 11А, термины «casa» и «grande» появляются пять раз каждый (то есть один раз в каждой привязке 962). Таким образом, из всех десяти терминов, которые появляются в целевых привязках 962 (то есть два термина на привязку в каждой из пяти привязок), «casa» считается половину (раз) и «grande» считается оставшуюся половину. Соответственно, как показано на фиг. 11А, на этой стадии термин «house» может отображаться либо в «casa», либо в «grande» с равной вероятностью, поскольку оба термина появляются с равной частотой.
Однако, как показано на фиг. 10, система также находит двадцать привязок 964 на английском языке, которые содержат термин «house» и указывают на страницу 974, и десять привязок 966 на испанском языке, содержащих термин «casa» и также указывающих на страницу 974. Как показано на фиг. 11В, термин «house» сейчас будет отображаться в «casa» с вероятностью 0,75 (то есть 15/20) и в «grande» с вероятностью 0,25 (то есть 5/20). Эти вероятности вычисляются посредством простого деления общего количества вхождений каждого термина в привязках целевого языка (то есть пятнадцать в случае «casa») на общее количество терминов, включая дубликаты в привязках целевого языка (то есть двадцать терминов: десять, содержащихся в привязках 962, и десять, содержащихся в привязках 964). В качестве альтернативы, или в дополнение, могли бы использоваться другие методики для вычисления и/или уточнения вероятностей данного перевода или отображения. Например, специалисты в данной области техники примут во внимание, что любая из множества широко известных методик могла бы использоваться для уменьшения дисперсии ошибки оценок вероятности, например байесовские методы, сглаживание гистограммы, сглаживание функции влияния, оценки сокращения и/или другие методики оценки.
Если доступно больше текста привязки, вероятности могли бы быть уточнены еще дальше. Например, итоговое распределение вероятности могло быть схожим с показанным на фиг. 12, на которой «house» отображается с относительно высокой вероятностью в «casa» и его уменьшительную форму «casita», с несколько меньшей вероятностью в термины наподобие «casino» и «mansiуn» (испанское слово, обозначающее особняк), с незначительной вероятностью в термины наподобие «grande». Соответственно, правильный перевод, а также идентификация возможных синонимов могут быть получены без знания языков и/или наборов символов, которые переводятся.
Переведя термины запроса, сервер теперь может запустить поиск, используя перевод. Например, если пользователю нужно было ввести запрос ромадзи для «hotels in Kyoto» (отели в Киото), описанные выше методики могли бы использоваться для предоставления серверу возможности вывести катакана-, хирагана- и кандзи-формы запроса, выполнения поисков, используя те запросы, и предоставления далее объединенных результатов для каждого из тех форм запросов пользователю в соответствующем пользовательском интерфейсе.
Следует принимать во внимание, что пример, описанный применительно к фиг. 10-12, предусматривается с целями иллюстрации, а не ограничения и что многие изменения могли бы быть сделаны в изображенной здесь методологии. Например, различные статистические методики могли бы использоваться для достижения вероятностей и/или модификации могли быть сделаны к основным методикам, описанным выше. Также следует принимать во внимание, что описанная выше методика перевода может просто использоваться для выполнения переводов слов или фраз, введенных пользователем, и не требует использования для выполнения ассоциативно связанного поиска в Интернете или для создания вероятностного словаря. Кроме того, хотя предшествующий пример описывает процесс перевода как возникающий после приёма пользовательского запроса, следует принимать во внимание, что в других вариантах осуществления процесс отображения мог бы выполняться до того, как примется пользовательский запрос. Такие заранее вычисленные отображения могли сохраняться в словаре, таком как описанный на фиг. 8, который затем применялся бы для перевода запросов пользователя, как они принимались. В конечном счете следует понимать, что текст, отличный от выровненного текста привязки, мог бы использоваться для выполнения перевода. Например, выровненные предложения или другие данные могли использоваться похожим образом. Во многих странах существует более одного официального или общепризнанного языка, и газеты и периодические издания часто будут содержать одну и ту же статью, написанную на каждом из этих языков. Эти параллельные переводы могут использоваться тем же образом, что и ранее описанный текст привязки, чтобы подготовить вероятностные словари переводов слов.
Соответственно, предпочтительные варианты осуществления преимущественно дают пользователям возможность вводить поисковые запросы и/или запросы перевода удобным способом (например, используя клавиатуру ASCII) и обеспечивают точный и автоматический перевод и поиск. В некоторых вариантах осуществления дополнительные уточнения могут быть сделаны к основной модели, описанной выше. Например, в некоторых вариантах осуществления предпочтение (взвешивание) может быть дано привязкам, которые содержат некоторое количество терминов, которое схоже с количеством терминов в исходном запросе и/или в других выровненных привязках. Например, в показанной на фиг. 10 системе могло быть задано предпочтение привязкам, которые указывают на страницу 974, поскольку, как и исходный запрос, они содержат один термин каждая. Аналогично, если привязка, содержащая текст «la casa grande», также указывала на страницу 972, ее взвешивание могло быть снижено соответствующим фактором, так как она содержит больше терминов (то есть 3), чем остальные привязки, с которыми она выровнена. Такая схема взвешивания могла быть отражена в вычислении вероятности, показанном на фиг. 11В, путем умножения частот, ассоциативно связанных с этими привязочными терминами, на соответствующий фактор.
Описанный выше процесс перевода также может использоваться для улучшения эффективности поиска как такового. Например, вероятностный словарь может использоваться для расширения запросов оперативно, чтобы включать, например, различные переводы и синонимы исходных терминов запроса. Благодаря расширению запросов пользователя до поиска документов могут выполняться одновременные поиски для тех же «понятий», тем самым увеличивая правдоподобие того, что результаты поиска будут содержать то, что ищет пользователь. В качестве альтернативы, или в дополнение, вероятностный словарь может использоваться для дополнения обычного процесса индексирования документов посредством обеспечения расширений терминов документов. Например, найденные в документе термины могли быть дополнены в индекс документа с переводами из вероятностного словаря, соответственно увеличив вероятность того, что документ будет обнаружен даже поисками, которые не используют строго те же термины, найденные в исходном документе.
Проблема, которая может возникнуть при использовании описанных выше методик перевода, в том, что вследствие немногочисленности данных (например, недостаточно привязок, чтобы окончательно определить, что «casa» отображается в «house») либо недостаточного разнообразия (например, все привязки говорят о том же предмете) система может быть не способной прийти к достаточно точным вероятностным отображениям. Таким образом, в некоторых вариантах осуществления вероятностные отображения могут быть дополнительно улучшены посредством анализа поведения пользователя. Некоторые пояснительные методики описываются ниже.
Например, допустим снова, что сервер желает получить перевод для «house». Тем не менее, допустим, что единственный текст привязки, который может быть найден, содержит либо фразу «big house», либо фразу «casa grande». Вследствие недостаточного разнообразия в тексте привязки вероятностный словарь может прийти к следующим отображениям:
house→casa с вероятностью 0,5
house→grande с вероятностью 0,5
big→casa с вероятностью 0,5
big→grande с вероятностью 0,5
grande→house с вероятностью 0,5
grande→big с вероятностью 0,5
casa→house с вероятностью 0,5
casa→big с вероятностью 0,5
Представим, что теперь пользователь запрашивает поисковую машину с термином «casa». На этом этапе поисковая машина может вернуть страницы, которые содержат термин «casa», и также смешать N результатов, которые содержат только термин «house», и М результатов, которые содержат только термин «big». На практике N и M могут быть скорректированы, чтобы брать в расчет лежащие в основе вероятности отображений, так что относительно маловероятные отображения будут возникать в меньших отображаемых результатах. Если были обнаружены пользователи, на десять раз больше «щелкнувшие» на результаты, содержащие только термин «house», чем они щелкнули на результаты, содержащие только термин «big», вероятности отображения могли, например, быть скорректированы следующим образом:
house→casa с вероятностью 0,9
house→grande с вероятностью 0,1
big→casa с вероятностью 0,1
big→grande с вероятностью 0,9
grande→house с вероятностью 0,1
grande→big с вероятностью 0,9
casa→house с вероятностью 0,9
casa→big с вероятностью 0,1
Отметим, что фактические количества могли зависеть от множества других факторов, например количество пользователей, чьи нажатия принимались в расчет, количество нажатий на страницы, содержащие оба термина, размещение результатов, содержащих данные термины, среди множества результатов и/или т.п. Также следует принимать во внимание, что скорректированные вероятности, данные в этом примере (то есть 0,1 и 0,9), предназначены для пояснительных целей. Специалист в данной области техники примет во внимание, что фактическое взвешивание, установленное на ответную реакцию пользователя, например ту, что описана выше, могло быть реализовано любым подходящим способом.
Также отметим, что вышеупомянутый пример упрощен для облегчения объяснения использования ответной реакции пользователя. Например, в некоторых системах можно будет использовать информацию, полученную от других переводов, чтобы содействовать выполнению данного перевода. Например, в примере, который только что был представлен, даже если термин «house» возникает только в тексте привязки, который говорит «big house», все еще возможно определить, что «house» более уместно отображается в «casa», чем в «grande». Например, если уже определено, что «big» отображается в «grande» с очень высокой вероятностью и на достаточно большом множестве данных (и если допускалось, что текст привязки редко состоит из списка синонимов), то отображению house-to-casa могло быть всё же отдано предпочтение выше отображения house-to-grande, даже если привязки, содержащие «house» или «casa», были неубедительными.
Точность перевода и/или пригодность результатов поиска также может быть улучшена посредством анализа истории сеанса пользовательских запросов. Например, во многих случаях система узнает (например, через cookie-файлы или информацию, сохраненную в учётной записи пользователя на сервере) предыдущие запросы, которые ввел пользователь. Эта предыстория может использоваться для ранжирования возможных значений (смыслов) запросов от этого пользователя, соответственно потенциально устраняя неоднозначность «bank» для относящихся к рыбной ловле запросов от относящихся к пилотированию. Таким образом, этот процесс может использоваться для сужения множества возможных переводов. В некоторых вариантах осуществления система может предложить их посредством отображения их применительно к сообщению, например «Did you mean to search for X» (Вы намеревались искать Х) в интерфейсе пользователя (где «Х» относится к прогнозируемому предпочтению перевода), наряду также с потенциальным отображением на первой странице результатов небольшого количества результатов от каждой из возможных переформулировок. Когда пользователь либо выбирает один из вариантов, предложенных посредством показа «did you mean …», либо один из результатов, представленных на странице результатов, система получит дополнительное основание относительно возможных переводов слова (слов) запроса, а также возможную склонность поиска пользователя. Оба этих сигнала могут затем использоваться системой для обновления оценок правдоподобия для отображений термина (например, в вероятностном словаре) как в общем случае, так и в ориентированном на пользователя случае.
D. Заключение
Как подробно описано выше, способы и системы в соответствии с изобретением могут использоваться для предоставления результатов поиска в ответ на неоднозначные поисковые запросы и/или для перевода терминов в другой набор символов и/или языки. Описано многообразие методик и систем перевода и поиска. Тем не менее, будет принято во внимание, что предшествующее описание представлено для целей объяснения и что многие модификации и изменения возможны в свете вышеприведенных идей или посредством применения на практике изобретения. Например, хотя вышеупомянутое описание основывается на архитектуре «клиент-сервер», специалисты в данной области техники признают, что архитектура равноправных систем может использоваться в соответствии с изобретением. Кроме того, хотя описанная реализация включает в себя программное обеспечение, изобретение может быть реализовано как сочетание аппаратного обеспечения и программного обеспечения или исключительно аппаратного обеспечения. Кроме того, хотя особенности настоящего изобретения описываются как хранящиеся в памяти, специалист в данной области техники примет во внимание, что эти особенности также могут храниться на других типах машинно-читаемых носителей, например внешних запоминающих устройствах наподобие жестких дисков, дискет или компакт-дисков, несущих волнах от Интернета или других формах ОЗУ или ПЗУ. Объем изобретения, в силу вышесказанного, определяется формулой изобретения и ее эквивалентами.

Claims (45)

1. Способ автоматического перевода терминов запроса из одного языка и/или набора символов в другой, содержащий этапы, на которых идентифицируют первое множество текста привязки, написанного в первом формате и содержащего данный термин;
идентифицируют множество документов, на которые указывает первое множество текста привязки;
идентифицируют второе множество текста привязки, написанного во втором формате и указывающего на идентифицированное множество документов;
анализируют второе множество текста привязки, чтобы определить, что представление данного термина в первом формате соответствует представлению данного термина во втором формате.
2. Способ по п.1, в котором первый формат содержит первый набор символов, а второй формат содержит второй набор символов.
3. Способ по п.1, в котором первый формат содержит первый язык, а второй формат содержит второй язык.
4. Способ по п.1, в котором анализ второго множества текста привязки включает в себя идентификацию термина, который появляется наиболее часто во втором множестве текста привязки, и обозначение наиболее часто появляющегося термина как представления данного термина во втором формате.
5. Способ по п.1, в котором анализ второго множества текста привязки содержит этап, на котором вычисляют вероятность того, что данный термин соответствует термину во втором множестве текста привязки.
6. Способ по п.5, в котором вероятность получается с использованием, по меньшей мере, одного из байесовских методов, сглаживания гистограммы, сглаживания функции влияния и оценок сокращения.
7. Способ по п.5, в котором вероятность того, что данный термин соответствует термину во втором множестве текста привязки, получается путем деления количества вхождений термина во втором множестве текста привязки на общее количество вхождений всех терминов во втором множестве текста привязки.
8. Способ по п.1, в котором анализ второго множества текста привязки содержит этап, на котором вычисляют вероятность того, что данный термин соответствует каждому термину во втором множестве текста привязки.
9. Способ по п.1, в котором анализ второго множества текста привязки содержит этап, на котором идентифицируют термин, который появляется наиболее часто во втором множестве текста привязки.
10. Способ по п.2, в котором первый формат выбирается из группы, состоящей из ромадзи, ромадза и пиньинь, и в котором второй набор символов выбирается из группы, состоящей из кандзи, катакана, хирагана, хангыль, хандза и традиционных китайских символов.
11. Способ по п.1, в котором документы содержат веб-страницы.
12. Способ по п.1, дополнительно содержащий этапы, на которых получают запрос, написанный в первом формате и содержащий данный термин; переводят запрос во второй формат, по меньшей мере, частично на основе упомянутого этапа анализа; ищут в базе данных информацию, написанную во втором формате, которая соответствует переведенному запросу.
13. Способ по п.12, в котором этапы выполняются в перечисленном порядке.
14. Способ поиска информации в одном формате с использованием запросов, записанных в другом формате, содержащий этапы, на которых получают запрос от пользователя, написанный в первом формате; переводят запрос во второй формат, используя вероятностный словарь, при этом вероятностный словарь отображает термины из первого формата во второй формат; ищут в базе данных информацию, которая соответствует переведенному запросу; и возвращают пользователю результаты поиска, написанные во втором формате.
15. Способ по п.14, дополнительно содержащий этапы, на которых получают от пользователя варианты выбора результатов поиска; используют упомянутые варианты выбора результатов поиска для модифицирования вероятностного словаря отображений терминов.
16. Способ по п.15, в котором модификация содержит корректировку, по меньшей мере, одной вероятности, ассоциативно связанной, по меньшей мере, с одним отображением в вероятностном словаре.
17. Способ по п.14, в котором этап перевода запроса во второй формат включает в себя расширение запроса.
18. Способ по п.17, в котором расширенный запрос включает в себя альтернативные кодировки терминов запроса.
19. Способ по п.17, в котором расширенный запрос включает в себя альтернативные языковые переводы терминов запроса.
20. Способ по п.17, в котором расширенный запрос включает в себя альтернативные кодировки и альтернативные языковые переводы терминов запроса.
21. Способ по п.18, в котором расширенный запрос включает в себя синонимы альтернативных кодировок терминов запроса.
22. Способ для создания вероятностного словаря, причем упомянутый вероятностный словарь отображает термины в первом формате в термины во втором формате, упомянутый способ содержит этапы, на которых для данного термина идентифицируют первое множество данных в первом формате, которое содержит термин; идентифицируют второе множество данных во втором формате, которое выровнено с первым множеством данных; и анализируют второе множество данных, чтобы определить одну или более вероятностей, с которыми данный термин отображается в один или более терминов во втором множестве данных.
23. Способ по п.22, дополнительно содержащий этап, на котором добавляют данный термин в словарь вместе с одной или более вероятностями, с которыми данный термин отображается в один или более терминов во втором множестве данных.
24. Способ по п.23, дополнительно содержащий этап, на котором повторяют для каждого термина, который нужно добавить в словарь, упомянутые этапы идентификации первого множества данных, идентификации второго множества данных и анализа второго множества данных.
25. Способ по п.22, в котором первое множество данных содержит первое множество текста привязки, указывающего на множество из одной или более веб-страниц, и в котором второе множество данных содержит второе множество текста привязки, указывающего на то же множество из одной или более веб-страниц.
26. Способ по п.22, в котором первое множество данных содержит множество текста, написанного на первом языке, и в котором второе множество данных содержит то же множество текста, написанного на втором языке.
27. Способ по п.22, в котором вероятность, с которой данный термин отображается в термин во втором множестве данных, вычисляется посредством деления количества вхождений термина во втором множестве данных на общее количество терминов во втором множестве данных.
28. Способ по п.22, дополнительно содержащий этап, на котором модифицируют вероятность, с которой данный термин отображается в термин во втором множестве данных, по меньшей мере, частично на основе анализа пользовательского выбора результатов поиска.
29. Способ по п.22, дополнительно содержащий этап, на котором модифицируют вероятность, с которой данный термин отображается в термин во втором множестве данных, по меньшей мере, частично на основе анализа предыдущих пользовательских запросов.
30. Машиночитаемый носитель, содержащий команды, которые, будучи исполненными вычислительной системой, работают, чтобы заставить вычислительную систему выполнить действия, содержащие идентификацию первого множества текста привязки, написанного в первом формате и содержащего данный термин; идентификацию множества веб-страниц, на которые указывает первое множество текста привязки; идентификацию второго множества текста привязки, написанного во втором формате и указывающего на идентифицированное множество веб-страниц; определение вероятности того, что представление данного термина в первом формате соответствует представлению данного термина во втором формате.
31. Машиночитаемый носитель по п.30, дополнительно включающий в себя команды, которые, будучи исполненными вычислительной системой, работают, чтобы заставить вычислительную систему выполнить действия, содержащие модификацию вероятности того, что представление данного термина в первом формате соответствует представлению данного термина во втором формате, по меньшей мере, частично на основе анализа пользовательского выбора результатов поиска.
32. Машиночитаемый носитель по п.30, дополнительно включающий в себя команды, которые, будучи исполненными вычислительной системой, работают, чтобы заставить вычислительную систему выполнить действия, содержащие модификацию вероятности того, что представление данного термина в первом формате соответствует представлению данного термина во втором формате, по меньшей мере, частично на основе анализа предыдущих пользовательских запросов.
33. Машиночитаемый носитель по п.30, в котором вероятность определяется с использованием, по меньшей мере, частично одного из байесовских методов, сглаживания гистограммы, сглаживания функции влияния и оценок сокращения.
34. Способ перевода представленного на первом языке или наборе символов запроса на второй язык или набор символов, содержащий этапы, на которых идентифицируют первую часть текста, написанную в первом формате; идентифицируют вторую часть текста, написанную во втором формате, вторую часть текста, выравниваемую с первой частью текста; создают словарь переводов между терминами в первой части текста и терминами во второй части текста посредством сравнения вхождения терминов в первой части текста с вхождением терминов во второй части текста.
35. Способ по п.34, в котором словарь переводов включает в себя одну или более вероятностей, ассоциативно связанных с переводами.
36. Способ по п.34, в котором первый формат содержит первый набор символов, а второй формат содержит второй набор символов.
37. Способ по п.34, в котором первый формат содержит первый язык, а второй формат содержит второй язык.
38. Способ по п.34, в котором первая часть текста содержит текст привязки, и вторая часть текста содержит текст привязки.
39. Способ для выполнения поисков с использованием потенциально неоднозначных запросов, содержащий этапы, на которых принимают запрос, содержащий, по меньшей мере, один термин запроса, написанный в первом формате; переводят термин запроса во множество вариантов, написанных во втором формате; и используют один или более вариантов для поиска информации, написанной во втором формате, которая является ответной на запрос.
40. Способ по п.39, в котором первый формат содержит последовательность цифр, введенных с клавишной панели телефона; и в котором второй формат содержит буквенно-цифровой текст.
41. Способ по п.39, дополнительно содержащий этап, на котором получают один или более вариантов посредством отбрасывания вариантов в множестве вариантов, которые не являются частью предопределенного лексикона.
42. Способ по п.39, дополнительно содержащий этап, на котором получают один или более вариантов посредством отбрасывания вариантов в множестве вариантов, которые содержат предопределенные маловероятные сочетания символов.
43. Способ по п.39, в котором первый формат содержит буквенно-цифровой текст, написанный в наборе символов, выбранном из группы, состоящей из ромадзи, ромадза и пиньинь, и в котором второй формат содержит буквенно-цифровой текст, написанный в наборе символов, выбранном из группы, состоящей из кандзи, катакана, хирагана, хангыль, хандза и традиционных китайских символов.
44. Способ для выполнения поисков с использованием потенциально неоднозначных запросов, содержащий этапы, на которых принимают цифровой запрос, введенный с клавишной панели телефона; переводят цифровой запрос в группу потенциальных буквенно-цифровых переводов в первом формате; отбрасывают потенциальные переводы, которые определяются как включающие предопределенные маловероятные сочетания символов; переводят оставшиеся буквенно-цифровые переводы из первого формата во второй формат, используя вероятностный словарь; и выполняют поиск, используя буквенно-цифровые переводы во втором формате.
45. Способ по п.44, в котором первый формат содержит текст, написанный в наборе символов, выбранном из группы, состоящей из ромадзи, ромадза и пиньинь, и в котором второй формат содержит текст, написанный в наборе символов, выбранном из группы, состоящей из кандзи, катакана, хирагана, хангыль, хандза и традиционных китайских символов.
RU2006114696/09A 2003-09-30 2004-09-13 Системы и способы для поиска с использованием запросов, написанных на языке и/или наборе символов, отличном от такового, для целевых страниц RU2363983C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/676,724 2003-09-30
US10/676,724 US8706747B2 (en) 2000-07-06 2003-09-30 Systems and methods for searching using queries written in a different character-set and/or language from the target pages

Publications (2)

Publication Number Publication Date
RU2006114696A RU2006114696A (ru) 2007-11-10
RU2363983C2 true RU2363983C2 (ru) 2009-08-10

Family

ID=34422117

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2006114696/09A RU2363983C2 (ru) 2003-09-30 2004-09-13 Системы и способы для поиска с использованием запросов, написанных на языке и/или наборе символов, отличном от такового, для целевых страниц

Country Status (13)

Country Link
US (3) US8706747B2 (ru)
EP (3) EP1676211B1 (ru)
JP (4) JP4717821B2 (ru)
KR (4) KR101140187B1 (ru)
CN (2) CN102236702B (ru)
AT (1) ATE426206T1 (ru)
DE (1) DE602004020086D1 (ru)
ES (1) ES2323786T3 (ru)
HK (1) HK1163846A1 (ru)
PL (1) PL2388709T3 (ru)
RU (1) RU2363983C2 (ru)
TR (1) TR201816343T4 (ru)
WO (1) WO2005033967A2 (ru)

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7136854B2 (en) * 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
CA2371731A1 (en) * 2002-02-12 2003-08-12 Cognos Incorporated Database join disambiguation by grouping
US8055669B1 (en) * 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
CN1890668A (zh) * 2003-12-16 2007-01-03 思比驰盖尔公司 翻译机数据库
US20050138007A1 (en) * 2003-12-22 2005-06-23 International Business Machines Corporation Document enhancement method
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US8825591B1 (en) 2003-12-31 2014-09-02 Symantec Operating Corporation Dynamic storage mechanism
US8655904B2 (en) * 2004-02-11 2014-02-18 Ebay, Inc. Method and system to enhance data integrity in a database
US7836044B2 (en) 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US7487145B1 (en) 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
WO2006005001A2 (en) * 2004-06-29 2006-01-12 Blake Bookstaff Method and system for automated intelligent electronic advertising
US7895218B2 (en) 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
US7499940B1 (en) 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US8122034B2 (en) 2005-06-30 2012-02-21 Veveo, Inc. Method and system for incremental search with reduced text entry where the relevance of results is a dynamically computed function of user input search string character count
US10735576B1 (en) * 2005-07-14 2020-08-04 Binj Laboratories, Inc. Systems and methods for detecting and controlling transmission devices
US7788266B2 (en) 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7737999B2 (en) 2005-08-26 2010-06-15 Veveo, Inc. User interface for visual cooperation between text input and display device
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
US7644054B2 (en) 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US7895223B2 (en) * 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US7729901B2 (en) * 2005-12-13 2010-06-01 Yahoo! Inc. System for classifying words
US8010523B2 (en) 2005-12-30 2011-08-30 Google Inc. Dynamic search box for web browser
US7849144B2 (en) 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
WO2007103938A2 (en) 2006-03-06 2007-09-13 Veveo, Inc. Methods and systems for selecting and presenting content based on learned user preferences
JP5057546B2 (ja) * 2006-03-24 2012-10-24 キヤノン株式会社 文書検索装置および文書検索方法
US8073860B2 (en) 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
US8255376B2 (en) 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
EP3822819A1 (en) 2006-04-20 2021-05-19 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US8732314B2 (en) * 2006-08-21 2014-05-20 Cisco Technology, Inc. Generation of contact information based on associating browsed content to user actions
CA2989780C (en) 2006-09-14 2022-08-09 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
WO2008045690A2 (en) 2006-10-06 2008-04-17 Veveo, Inc. Linear character selection display interface for ambiguous text input
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
WO2008063987A2 (en) 2006-11-13 2008-05-29 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
US8296294B2 (en) 2007-05-25 2012-10-23 Veveo, Inc. Method and system for unified searching across and within multiple documents
US8549424B2 (en) 2007-05-25 2013-10-01 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
ITTO20070508A1 (it) * 2007-07-11 2009-01-12 Selex Communications Spa Procedimento per la codifica di dati numerici in un elaboratore e procedimento per la codifica di strutture dati per la trasmissione in un sistema di telecomunicazioni, basato su detto procedimento di codifica di dati numerici
WO2009039524A1 (en) * 2007-09-21 2009-03-26 Google Inc. Cross-language search
US8725756B1 (en) 2007-11-12 2014-05-13 Google Inc. Session-based query suggestions
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US20090287474A1 (en) * 2008-05-16 2009-11-19 Yahoo! Inc. Web embedded language input arrangement
US8312032B2 (en) 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
WO2010105216A2 (en) 2009-03-13 2010-09-16 Invention Machine Corporation System and method for automatic semantic labeling of natural language texts
US8275604B2 (en) 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
WO2010139277A1 (en) 2009-06-03 2010-12-09 Google Inc. Autocompletion for partially entered query
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US20150261858A1 (en) * 2009-06-29 2015-09-17 Google Inc. System and method of providing information based on street address
US9870572B2 (en) 2009-06-29 2018-01-16 Google Llc System and method of providing information based on street address
KR101083540B1 (ko) * 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
US20110191332A1 (en) 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Updating Locally Cached Content Descriptor Information
US8577915B2 (en) 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
WO2012037726A1 (en) * 2010-09-21 2012-03-29 Google Inc. Generating search query suggestions
US20120167009A1 (en) * 2010-12-22 2012-06-28 Apple Inc. Combining timing and geometry information for typing correction
CN102737015A (zh) * 2011-04-07 2012-10-17 英业达股份有限公司 具即时翻译的写作***及其写作方法
MY159469A (en) * 2011-04-28 2017-01-13 Rakuten Inc Browsing System, Terminal, Image Server, Computer-Readable Recording Medium Recording Program, and Method
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US9313219B1 (en) * 2014-09-03 2016-04-12 Trend Micro Incorporated Detection of repackaged mobile applications
RU2580432C1 (ru) 2014-10-31 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ для обработки запроса от потенциального несанкционированного пользователя на доступ к ресурсу и серверу, используемый в нем
RU2610280C2 (ru) 2014-10-31 2017-02-08 Общество С Ограниченной Ответственностью "Яндекс" Способ авторизации пользователя в сети и сервер, используемый в нем
KR102244110B1 (ko) 2015-02-17 2021-04-26 삼성전자주식회사 이종 언어간 동일성을 판단하는 전자 장치 및 방법
US9762385B1 (en) 2015-07-20 2017-09-12 Trend Micro Incorporated Protection of program code of apps of mobile computing devices
CN105069171B (zh) * 2015-08-31 2018-07-13 百度在线网络技术(北京)有限公司 汉字查询方法和***
CN105335357B (zh) * 2015-11-18 2018-07-06 成都优译信息技术有限公司 翻译***中语料推荐方法
US9916448B1 (en) 2016-01-21 2018-03-13 Trend Micro Incorporated Detection of malicious mobile apps
US10169414B2 (en) 2016-04-26 2019-01-01 International Business Machines Corporation Character matching in text processing
US9760627B1 (en) * 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
US10375576B1 (en) 2016-09-09 2019-08-06 Trend Micro Incorporated Detection of malware apps that hijack app user interfaces
US10614109B2 (en) * 2017-03-29 2020-04-07 International Business Machines Corporation Natural language processing keyword analysis
CN110546603A (zh) * 2017-04-25 2019-12-06 惠普发展公司,有限责任合伙企业 机器学习命令交互
US10831801B2 (en) 2017-05-12 2020-11-10 International Business Machines Corporation Contextual-based high precision search for mail systems
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
CN110111793B (zh) * 2018-02-01 2023-07-14 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
KR102637340B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
US11250221B2 (en) * 2019-03-14 2022-02-15 Sap Se Learning system for contextual interpretation of Japanese words
US11308096B2 (en) 2019-03-29 2022-04-19 Rovi Guides, Inc. Bias quotient measurement and debiasing for recommendation engines
JP7171519B2 (ja) 2019-07-04 2022-11-15 キヤノン株式会社 テレコンバータレンズ、レンズ装置、および、撮像装置
JP7238199B2 (ja) 2019-07-04 2023-03-13 キヤノン株式会社 テレコンバータレンズ、レンズ装置、および、撮像装置
US11227101B2 (en) * 2019-07-05 2022-01-18 Open Text Sa Ulc System and method for document translation in a format agnostic document viewer
CN111368557B (zh) * 2020-03-06 2023-04-07 北京字节跳动网络技术有限公司 视频内容的翻译方法、装置、设备及计算机可读介质
US11458409B2 (en) * 2020-05-27 2022-10-04 Nvidia Corporation Automatic classification and reporting of inappropriate language in online applications
CN112765321A (zh) * 2021-01-22 2021-05-07 中信银行股份有限公司 接口查询方法及装置、设备、计算机可读存储介质
CN114139554B (zh) * 2021-11-23 2024-07-12 成都飞机工业(集团)有限责任公司 一种基于计算机翻译用模糊查询***的翻译方法

Family Cites Families (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674112A (en) * 1985-09-06 1987-06-16 Board Of Regents, The University Of Texas System Character pattern recognition and communications apparatus
US4754474A (en) * 1985-10-21 1988-06-28 Feinson Roy W Interpretive tone telecommunication method and apparatus
DE69032576T2 (de) * 1990-02-27 1999-04-15 Oracle Corp Dynamische Optimierung eines einzelnen relationalen Zugriffs
KR950008022B1 (ko) * 1991-06-19 1995-07-24 가부시끼가이샤 히다찌세이사꾸쇼 문자처리방법 및 장치와 문자입력방법 및 장치
RU2039376C1 (ru) 1991-11-01 1995-07-09 Сергей Станиславович Ковалевский Устройство для информационного поиска
US5535119A (en) 1992-06-11 1996-07-09 Hitachi, Ltd. Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same
US5337347A (en) * 1992-06-25 1994-08-09 International Business Machines Corporation Method and system for progressive database search termination and dynamic information presentation utilizing telephone keypad input
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
GB2272091B (en) 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
JP3919237B2 (ja) * 1994-05-20 2007-05-23 キヤノン株式会社 画像記録再生装置、画像再生装置、及びその方法
US5543789A (en) * 1994-06-24 1996-08-06 Shields Enterprises, Inc. Computerized navigation system
AU3734395A (en) * 1994-10-03 1996-04-26 Helfgott & Karas, P.C. A database accessing system
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5758145A (en) 1995-02-24 1998-05-26 International Business Machines Corporation Method and apparatus for generating dynamic and hybrid sparse indices for workfiles used in SQL queries
JP3571408B2 (ja) 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
EP0834139A4 (en) * 1995-06-07 1998-08-05 Int Language Engineering Corp COMPUTER-ASSISTED TRANSLATION TOOLS
US5701469A (en) 1995-06-07 1997-12-23 Microsoft Corporation Method and system for generating accurate search results using a content-index
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
DE69607472T2 (de) * 1995-07-26 2000-08-24 Tegic Communications Inc System zur unterdrückung der vieldeutigkeit in einer verringerten tastatur
US5634053A (en) * 1995-08-29 1997-05-27 Hughes Aircraft Company Federated information management (FIM) system and method for providing data site filtering and translation for heterogeneous databases
JP3819959B2 (ja) * 1996-03-27 2006-09-13 シャープ株式会社 音声による情報検索装置
US5778157A (en) * 1996-06-17 1998-07-07 Yy Software Corporation System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5845273A (en) 1996-06-27 1998-12-01 Microsoft Corporation Method and apparatus for integrating multiple indexed files
US5878386A (en) * 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US5832480A (en) * 1996-07-12 1998-11-03 International Business Machines Corporation Using canonical forms to develop a dictionary of names in a text
US5953073A (en) * 1996-07-29 1999-09-14 International Business Machines Corp. Method for relating indexing information associated with at least two indexing schemes to facilitate the play-back of user-specified digital video data and a video client incorporating the same
US5745894A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for generating and searching a range-based index of word-locations
US5987446A (en) * 1996-11-12 1999-11-16 U.S. West, Inc. Searching large collections of text using multiple search engines concurrently
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
JPH10247201A (ja) * 1997-03-05 1998-09-14 Nippon Telegr & Teleph Corp <Ntt> 情報評価値付き情報案内システム
US6278992B1 (en) * 1997-03-19 2001-08-21 John Andrew Curtis Search engine using indexing method for storing and retrieving data
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6061718A (en) * 1997-07-23 2000-05-09 Ericsson Inc. Electronic mail delivery system in wired or wireless communications system
US6055528A (en) 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
JP2965010B2 (ja) * 1997-08-30 1999-10-18 日本電気株式会社 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体
PT1018069E (pt) * 1997-09-25 2002-12-31 Tegic Communications Inc Sistema de resolucao de ambiguidade para teclado reduzido
US6026411A (en) * 1997-11-06 2000-02-15 International Business Machines Corporation Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
US5945928A (en) * 1998-01-20 1999-08-31 Tegic Communication, Inc. Reduced keyboard disambiguating system for the Korean language
KR100313462B1 (ko) * 1998-01-23 2001-12-31 윤종용 웹검색엔진에서검색된정보를지역적으로근접한순서대로표시하는방법
US6185558B1 (en) * 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US5974121A (en) * 1998-05-14 1999-10-26 Motorola, Inc. Alphanumeric message composing method using telephone keypad
GB2337611A (en) * 1998-05-20 1999-11-24 Sharp Kk Multilingual document retrieval system
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6470333B1 (en) * 1998-07-24 2002-10-22 Jarg Corporation Knowledge extraction system and method
US6226635B1 (en) * 1998-08-14 2001-05-01 Microsoft Corporation Layered query management
US6370518B1 (en) * 1998-10-05 2002-04-09 Openwave Systems Inc. Method and apparatus for displaying a record from a structured database with minimum keystrokes
US7194679B1 (en) * 1998-10-20 2007-03-20 International Business Machines Corporation Web-based file review system utilizing source and comment files
IE980941A1 (en) * 1998-11-16 2000-05-17 Buy Tel Innovations Ltd A transaction processings system
JP2000163441A (ja) 1998-11-30 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JP3842913B2 (ja) * 1998-12-18 2006-11-08 富士通株式会社 文字通信方法及び文字通信システム
GB2347247A (en) * 1999-02-22 2000-08-30 Nokia Mobile Phones Ltd Communication terminal with predictive editor
US20020038308A1 (en) * 1999-05-27 2002-03-28 Michael Cappi System and method for creating a virtual data warehouse
US6421662B1 (en) * 1999-06-04 2002-07-16 Oracle Corporation Generating and implementing indexes based on criteria set forth in queries
US6598039B1 (en) 1999-06-08 2003-07-22 Albert-Inc. S.A. Natural language interface for searching database
US20010003184A1 (en) * 1999-07-16 2001-06-07 Ching Jamison K. Methods and articles of manufacture for interfacing, advertising and navigating with internet television
CN1176432C (zh) 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和***
US6606486B1 (en) * 1999-07-29 2003-08-12 Ericsson Inc. Word entry method for mobile originated short messages
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6353820B1 (en) * 1999-09-29 2002-03-05 Bull Hn Information Systems Inc. Method and system for using dynamically generated code to perform index record retrieval in certain circumstances in a relational database manager
US6484179B1 (en) 1999-10-25 2002-11-19 Oracle Corporation Storing multidimensional data in a relational database management system
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6675165B1 (en) 2000-02-28 2004-01-06 Barpoint.Com, Inc. Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6714905B1 (en) * 2000-05-02 2004-03-30 Iphrase.Com, Inc. Parsing ambiguous grammar
JP2001325252A (ja) 2000-05-12 2001-11-22 Sony Corp 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体
US6456234B1 (en) 2000-06-07 2002-09-24 William J. Johnson System and method for proactive content delivery by situation location
JP3686312B2 (ja) * 2000-07-05 2005-08-24 日本電信電話株式会社 訳語検索方法、訳語検索装置及び訳語検索プログラムを記録した記録媒体
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7136854B2 (en) * 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US6529903B2 (en) * 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
AU2001272809A1 (en) 2000-07-25 2002-02-05 Cypus Communication terminal capable for searching internet domain name, system and method for searching internet domain name using the same
US6968179B1 (en) 2000-07-27 2005-11-22 Microsoft Corporation Place specific buddy list services
US20020021311A1 (en) * 2000-08-14 2002-02-21 Approximatch Ltd. Data entry using a reduced keyboard
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
GB2366698A (en) * 2000-09-01 2002-03-13 Nokia Mobile Phones Ltd Insertion of pre-stored text strings
JP2002092018A (ja) 2000-09-18 2002-03-29 Nec Software Hokkaido Ltd 片仮名平仮名も含めた検索システム
CA2323856A1 (en) * 2000-10-18 2002-04-18 602531 British Columbia Ltd. Method, system and media for entering data in a personal computing device
US20060149686A1 (en) * 2000-11-30 2006-07-06 Allison Debonnett Method of payment and settlement of goods and services via the INTERNET
US7028306B2 (en) 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
EP1215659A1 (en) * 2000-12-14 2002-06-19 Nokia Corporation Locally distibuted speech recognition system and method of its operation
JP2002215660A (ja) * 2001-01-16 2002-08-02 Mitsubishi Heavy Ind Ltd 検索システム及びこれに用いられるソフトウェア
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
GB0103053D0 (en) * 2001-02-07 2001-03-21 Nokia Mobile Phones Ltd A communication terminal having a predictive text editor application
JP2002251410A (ja) 2001-02-26 2002-09-06 Sharp Corp 情報検索装置、情報検索プログラムおよび情報検索プログラムを記録したコンピュータ読取可能な記録媒体
JP3764058B2 (ja) * 2001-03-01 2006-04-05 株式会社東芝 翻訳装置、翻訳方法及び翻訳プログラム
JP3379090B2 (ja) * 2001-03-02 2003-02-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US7103534B2 (en) * 2001-03-31 2006-09-05 Microsoft Corporation Machine learning contextual approach to word determination for text input via reduced keypad keys
KR20020084739A (ko) 2001-05-02 2002-11-11 이재원 숫자입력을 이용한 인터넷 검색 및 접속 방법
GB0111012D0 (en) * 2001-05-04 2001-06-27 Nokia Corp A communication terminal having a predictive text editor application
US7366712B2 (en) 2001-05-31 2008-04-29 Intel Corporation Information retrieval center gateway
US6947770B2 (en) * 2001-06-22 2005-09-20 Ericsson, Inc. Convenient dialing of names and numbers from a phone without alpha keypad
US20030035519A1 (en) * 2001-08-15 2003-02-20 Warmus James L. Methods and apparatus for accessing web content from a wireless telephone
JP3895955B2 (ja) * 2001-08-24 2007-03-22 株式会社東芝 情報検索方法および情報検索システム
US20030054830A1 (en) * 2001-09-04 2003-03-20 Zi Corporation Navigation system for mobile communication devices
US6944609B2 (en) * 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
KR100501079B1 (ko) 2001-11-12 2005-07-18 주식회사 아이니드 네트워크 기반의 유사어 검색기술 응용시스템 및 방법
US7533093B2 (en) 2001-11-13 2009-05-12 Koninklijke Philips Electronics N.V. Method and apparatus for evaluating the closeness of items in a recommender of such items
US7149550B2 (en) * 2001-11-27 2006-12-12 Nokia Corporation Communication terminal having a text editor application with a word completion feature
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US20030125947A1 (en) * 2002-01-03 2003-07-03 Yudkowsky Michael Allen Network-accessible speaker-dependent voice models of multiple persons
US7565367B2 (en) * 2002-01-15 2009-07-21 Iac Search & Media, Inc. Enhanced popularity ranking
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
DE60204113D1 (de) 2002-03-22 2005-06-16 Sony Ericsson Mobile Comm Ab L Texteingabe in ein elektronisches Kommunikationsgerät
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
JP2004054918A (ja) * 2002-05-30 2004-02-19 Osaka Industrial Promotion Organization 情報処理システム、情報表示装置、コンピュータプログラム、及び記録媒体
US7013154B2 (en) * 2002-06-27 2006-03-14 Motorola, Inc. Mapping text and audio information in text messaging devices and methods therefor
US7103854B2 (en) * 2002-06-27 2006-09-05 Tele Atlas North America, Inc. System and method for associating text and graphical views of map information
WO2004003721A2 (en) * 2002-07-01 2004-01-08 Sony Ericsson Mobile Communications Ab Entering text into an electronic communications device
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US7016895B2 (en) * 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
CA2493443C (en) 2002-07-23 2011-07-19 Research In Motion Limited Systems and methods of building and using custom word lists
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US20040163032A1 (en) * 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry
GB2396529B (en) * 2002-12-20 2005-08-10 Motorola Inc Location-based mobile service provision
AU2002361224A1 (en) * 2002-12-27 2004-07-22 Nokia Corporation Predictive text entry and data compression method for a mobile communication terminal
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
US7159191B2 (en) * 2003-03-03 2007-01-02 Flextronics Sales & Marketing A-P Ltd. Input of data
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
KR100563787B1 (ko) 2003-04-03 2006-03-30 주식회사 시티기술단 단위 옹벽판넬에 설치된 고강도 철근을 커플러로상호연결하여 단면력에 저항토록하면서, 프리스트레스를도입한 단위 옹벽판넬로 이루어진 옹벽조립체 및 이의조립시공방법
KR100515641B1 (ko) 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US8200865B2 (en) * 2003-09-11 2012-06-12 Eatoni Ergonomics, Inc. Efficient method and apparatus for text entry based on trigger sequences
GB2433002A (en) * 2003-09-25 2007-06-06 Canon Europa Nv Processing of Text Data involving an Ambiguous Keyboard and Method thereof.
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US20050114312A1 (en) * 2003-11-26 2005-05-26 Microsoft Corporation Efficient string searches using numeric keypad
US20050188330A1 (en) * 2004-02-20 2005-08-25 Griffin Jason T. Predictive text input system for a mobile communication device
US7293019B2 (en) 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7218249B2 (en) 2004-06-08 2007-05-15 Siemens Communications, Inc. Hand-held communication device having navigation key-based predictive text entry
US8595687B2 (en) 2004-06-23 2013-11-26 Broadcom Corporation Method and system for providing text information in an application framework for a wireless device
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
EP1825395A4 (en) * 2004-10-25 2010-07-07 Yuanhua Tang FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE
US7788266B2 (en) * 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7737999B2 (en) 2005-08-26 2010-06-15 Veveo, Inc. User interface for visual cooperation between text input and display device
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US20070061211A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Preventing mobile communication facility click fraud
US9471925B2 (en) * 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US7647228B2 (en) 2005-11-03 2010-01-12 Apptera, Inc. Method and apparatus for speech processing incorporating user intent
JP2007141123A (ja) * 2005-11-22 2007-06-07 Internatl Business Mach Corp <Ibm> 異なるファイルの同一文字列のリンク
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
DE602006016846D1 (de) * 2005-11-23 2010-10-21 Dun & Bradstreet Inc System und verfahren zum durchsuchen und vergleichen von daten mit ideogrammatischem inhalt
US20070195063A1 (en) * 2006-02-21 2007-08-23 Wagner Paul T Alphanumeric data processing in a telephone
WO2007103938A2 (en) 2006-03-06 2007-09-13 Veveo, Inc. Methods and systems for selecting and presenting content based on learned user preferences
EP3822819A1 (en) * 2006-04-20 2021-05-19 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
CA2989780C (en) * 2006-09-14 2022-08-09 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
KR20100041145A (ko) * 2008-10-13 2010-04-22 삼성전자주식회사 쿼티 키패드를 갖는 휴대 단말기의 발신 방법 및 전화번호 저장 방법
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks

Also Published As

Publication number Publication date
JP2013084306A (ja) 2013-05-09
ATE426206T1 (de) 2009-04-15
DE602004020086D1 (de) 2009-04-30
PL2388709T3 (pl) 2018-12-31
JP5608766B2 (ja) 2014-10-15
CN102236702B (zh) 2013-08-14
EP2388709B1 (en) 2018-08-08
CN102236702A (zh) 2011-11-09
EP2043003A2 (en) 2009-04-01
US20140188454A1 (en) 2014-07-03
US8706747B2 (en) 2014-04-22
EP1676211B1 (en) 2009-03-18
EP1676211A2 (en) 2006-07-05
JP2007507796A (ja) 2007-03-29
KR20060090689A (ko) 2006-08-14
KR20120039755A (ko) 2012-04-25
JP2011090718A (ja) 2011-05-06
JP2010282639A (ja) 2010-12-16
CN1860473A (zh) 2006-11-08
US9734197B2 (en) 2017-08-15
EP2388709A1 (en) 2011-11-23
TR201816343T4 (tr) 2018-11-21
HK1163846A1 (en) 2012-09-14
JP5231491B2 (ja) 2013-07-10
WO2005033967A2 (en) 2005-04-14
KR101242961B1 (ko) 2013-03-12
RU2006114696A (ru) 2007-11-10
KR101140187B1 (ko) 2012-05-02
EP2043003A3 (en) 2009-06-03
US20040261021A1 (en) 2004-12-23
ES2323786T3 (es) 2009-07-24
KR20110117218A (ko) 2011-10-26
JP4717821B2 (ja) 2011-07-06
JP5425820B2 (ja) 2014-02-26
KR20110117219A (ko) 2011-10-26
US20170351673A1 (en) 2017-12-07
KR101261158B1 (ko) 2013-05-09
WO2005033967A3 (en) 2005-10-13

Similar Documents

Publication Publication Date Title
RU2363983C2 (ru) Системы и способы для поиска с использованием запросов, написанных на языке и/или наборе символов, отличном от такового, для целевых страниц
US7136854B2 (en) Methods and apparatus for providing search results in response to an ambiguous search query
US8255376B2 (en) Augmenting queries with synonyms from synonyms map
US8762358B2 (en) Query language determination using query terms and interface language
US8521761B2 (en) Transliteration for query expansion
US7835903B2 (en) Simplifying query terms with transliteration
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
EP2016486A2 (en) Processing of query terms
JP5230664B2 (ja) 類似語検索サーバ及び方法
JPH07319908A (ja) 文書検索方法及び文書検索装置