WO2015147702A1 - Способ и система голосового интерфейса - Google Patents

Способ и система голосового интерфейса Download PDF

Info

Publication number
WO2015147702A1
WO2015147702A1 PCT/RU2015/000176 RU2015000176W WO2015147702A1 WO 2015147702 A1 WO2015147702 A1 WO 2015147702A1 RU 2015000176 W RU2015000176 W RU 2015000176W WO 2015147702 A1 WO2015147702 A1 WO 2015147702A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
request
programs
context
command
Prior art date
Application number
PCT/RU2015/000176
Other languages
English (en)
French (fr)
Inventor
Юрий Михайлович БУРОВ
Константин Николаевич КРЕСТНИКОВ
Андрей Андреевич ГРЯЗНОВ
Original Assignee
Юрий Михайлович БУРОВ
Константин Николаевич КРЕСТНИКОВ
Андрей Андреевич ГРЯЗНОВ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Юрий Михайлович БУРОВ, Константин Николаевич КРЕСТНИКОВ, Андрей Андреевич ГРЯЗНОВ filed Critical Юрий Михайлович БУРОВ
Publication of WO2015147702A1 publication Critical patent/WO2015147702A1/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/70Services for machine-to-machine communication [M2M] or machine type communication [MTC]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • Embodiments of the present invention relate to a method and system of a voice user interface and interaction with these interfaces.
  • An interface is a set of tools, rules, and methods, through which communication is carried out between elements of the system, various programs and devices.
  • methods and rules we mean: means of outputting information from a device (system) to the user — the entire available range of effects on the human body (visual, auditory, tactile, olfactory, and others.), Means of inputting information / commands by the user are now implemented by a variety of various devices . Methods as a set of rules laid down by the device developer, according to which
  • CLI text interface
  • console interface is not “friendly" for users; it requires studying the command syntax and remembering abbreviations, which leads to difficulties in mastering the system management.
  • GUI Graphical user interface
  • GUI Graphical user interface
  • interface elements in which the interface elements (menus, buttons, icons, lists, etc.) presented to the user on the display are made in the form of graphic images.
  • GUI Unlike the command line interface, in the GUI the user has random access (via input devices — keyboard, mouse, joystick, etc.) to all visible display objects (interface elements) and directly manipulates them. Most often, GUI elements are implemented on the basis of metaphors and display their purpose and properties, which facilitates the understanding and development of programs by untrained users.
  • the graphical user interface is part of the user interface and defines the interaction with the user at the level of visualized information.
  • a virtual interlocutor (English chatterbot) is a computer program that is designed to simulate human speech behavior when communicating with one or more users. In relation to virtual interlocutors, the name interlocutor program is also used.
  • IVR Electronic Voice Response
  • Add-ons for the operating system or any other software environment in which they are running are running.
  • An example of such an add-in is Siri (Speech Interpretation and Recognition Interface) -
  • inventions are the lack of interactivity when
  • the multimodal natural language interface allows
  • auxiliary application to perform tasks in another application (auxiliary application) without exiting the current application, opening new windows, etc., or determining in advance during the execution of the current application what actions need to be performed in the auxiliary application.
  • the system recognizes statements and contains an application interface for performing actions related to a match, if the corresponding record is found in the database.
  • the system uses context-sensitive grammars, thereby increasing
  • the system adaptively and interactively “recognizes” words and phrases, and their meanings.
  • the present invention describes the organization of voice
  • the technical result of this invention is to improve the quality of processing voice commands, improving the usability of the voice interface, improved capabilities for integrating new applications with a voice interface, more accurate recognition of meaning
  • a method for processing voice user commands includes the following steps: obtain a list of programs, a list of system commands and their handlers, receive a user request and the current context, process the user request, if the request includes a system command, then immediately execute the processor of this command otherwise, if the request includes a data manipulation command and information about working with data is stored in the context, then the command handler for data, otherwise, the program is searched and executed taking into account the context most suitable for the user's request, then the current context is updated, taking into account the request processed in the previous step, and the user is given a response based on the results of the request processing.
  • the invention is a voice user command processing system comprising one or more command processing devices, one or more data storage devices, one or more programs, where one or more programs are stored on one or more data storage devices and executed on one or more processors, and one or more programs includes the following instructions:: receive a list of programs, a list of system commands and their handlers, process the user’s request, while if the request includes a system command, then immediately execute the handler of this command, otherwise, if the request includes a command to work with data and information about working with data is stored in the context, then the command handler is applied to the data, otherwise search and execute the program taking into account the context, the most suitable for the user's request, after which they update the current context, taking into account the request processed in the previous step, and issue a response to the user based on the results of the request processing.
  • a user request is text obtained by recognizing a user's speech
  • the response to the user is converted into speech using a voice synthesizer
  • the list of programs and their attributes further include: textual description of the program, examples
  • the context further comprises a user model
  • handlers and programs may reside on a remote server
  • the handler has more than one mate
  • the response to the user is synthesized in the form of speech.
  • program attributes are stored in a database
  • values are automatically generated based on the values already entered
  • the context is stored in the database
  • rule-based user query uncertainty is reduced
  • the invention is
  • a user voice command processing device including one or more command processing devices, one or more data storage devices, one or more programs, where one or more programs are stored on one or more data storage devices and executed on one or more processors, one or more programs include the following instructions: get a list of programs, a list of system commands and their handlers, receive a user request and the current context, process the user request, and if the request This turns the system command, then immediately perform the command handler, otherwise, if the request includes a command to work with data and the information about working with data is stored in the context, then the command handler is applied to the data, otherwise they search and execute the program taking into account the context most suitable for the user's request, then update the current context, taking into account
  • the device is configured to
  • the device is configured to
  • the list of programs additionally contains at least the following attributes: name, synonyms, type.
  • the device is configured to
  • the context further comprises a user model
  • the device is configured to store handlers on a remote server.
  • the device is configured to store handlers and programs on a remote server.
  • the handler has more than one response part.
  • the device is configured to store program attributes in a database.
  • the device is configured to
  • the device is configured to store context in a database.
  • the device is configured to
  • This invention can be implemented in the form of a method implemented on a computer, in the form of a system, in the form of a machine-readable medium containing instructions for performing the above method, as well as in the form of a device, incl. computer device.
  • a system is understood to mean a computer system, a computer (electronic computer), CNC (numerical control), PLC (programmable logic controller), computerized control systems and any other electronic devices capable of performing a given, well-defined
  • command processing device an electronic unit or an integrated circuit (microprocessor) that executes machine instructions (programs).
  • the command processing device reads and executes machine instructions (programs) from one or more data storage devices.
  • Data storage devices may include, but are not limited to, hard disks (HDDs), flash memory, ROM (read only memory), solid state drives (SSDs), and optical drives.
  • a machine-readable medium is a storage device that can be, but is not limited to, a hard disk, flash memory,
  • a method for processing voice user commands includes the following steps:
  • a handler is a special procedure or function that is executed when a certain event, condition occurs.
  • system commands are separately distinguished.
  • a set of system commands is a set of standard actions that are applicable in similar situations for different programs.
  • An analogue of such commands in the GUI is, for example, a universal way to close a program in the Windows OS family (the “cross” icon in the upper right corner of the program window). The user, once having studied such a pattern, can further use this knowledge in other programs.
  • systemic are commands that can be used regardless of the program used.
  • shut up command (“shut up”, “shut up”, etc.) forces the current user interaction to stop, unless the user is expected to enter arbitrary text.
  • the list of system commands and their handlers may further comprise a handler priority.
  • Handler priority is a number whose value determines which handler will be preferred when processing this command.
  • the handler with the highest priority value is preferred, in some with the smallest.
  • the handler consists of two parts: a description of the situation (condition 1)
  • a description of the situation can be performed, for example, in the form of a text template for a user’s request.
  • a template is a description of the query text using regular expressions. For example, the “* hello *” template describes all user phrases that contain the word “hello” anywhere in the phrase.
  • the description of the situation may include factors of the previous conversation (for example, some situations can only work if the previous conversation touched on a certain topic).
  • Situation descriptions can also be generated automatically based on statistics, for example, a situation
  • the user asked a question about cars can be determined based on the analysis of a large amount of data automatically obtained when downloading and analyzing questions from any car forum on the Internet.
  • the response part of the handler is the command that needs to be executed. It can be, but not limited to, reproduction of speech (scoring information to the user), sound, video, execution of any
  • the processor may have more than one mate.
  • Handler Sources are Preset Sets
  • handlers user-connected handler sets.
  • the processors can be located on remote servers, while user requests are sent by the client part to the server, the server processes the request and sends the processing results back to the client part.
  • Programs and handlers can be executed, but not limited to, in the form of executable (executable) modules, libraries, scripts.
  • executable module is a file containing machine instructions for execution by a computer or any other
  • a computing device for example, CNC, PLC, computer.
  • Each program has a set of required attributes containing at least “name”, “synonyms”, “type”.
  • the attributes “text description” may be further used, but not limited to.
  • synonyms For example, for the “news” program, it can be “news feeds, news bulletins, news, latest news”.
  • Text description a description of the functionality of the program. This text is used when the user wants to get help.
  • Examples of use - the program may contain a set
  • Type of program a description of the situations in which the program can work. Some programs are applicable only in a specific setting or time of day or for some people. For example, the Smart Home Management program can only be used within the home. Therefore, for each program, a set of restrictions may be indicated where this program is used.
  • synonyms may be any combination of the present invention.
  • Program attributes can be stored in the header of the program file (s).
  • a file header is a special structure, usually located at the beginning of a file, containing service information.
  • attributes may be stored in a database.
  • programs may lack attributes.
  • a user request is voice or text data received from a user.
  • the request is a text string obtained based on a voice command / user transformation.
  • Context is a collection of information about the current conversation.
  • the context may include past user replicas and answers received as a result of processing previous user requests (conversation start log), accumulated user data (user model), information about the world around the known system (weather, important news, time of day, etc.) )
  • Context affects the choice of handler or program in case of ambiguity.
  • the current context when processing the first request, the current context is empty.
  • the context is cleared if the user does not make requests for a long time.
  • the received text query of the user is pre-converted using a set of rules, reducing uncertainty.
  • the data processing command is processed in cases when information is stored in the context that the previous (degree of depth may vary) user request was associated with processing or receiving data. Otherwise, there is a search for other programs and / or handlers that can handle this request.
  • an integral estimate is used, obtained at least, but not limited to, by combining one or a combination of the following factors: matching the situation to the context, relevance of the answer.
  • Integral estimates may vary and do not affect the essence of the invention.
  • Update the current context taking into account the request processed in the previous step;
  • a full recount of the context is carried out, taking into account the changed situation (adding new user requests and obsolete ones), accumulating new knowledge about the user, the situation.
  • the response to the user may

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Данное изобретение описывает технологии организации голосового интерфейса, управления программами посредством голосового интерфейса и организацию обработки пользовательских запросов. Техническим результатом данного изобретения является повышение качества обработки голосовых команд, повышение удобства пользования голосовым интерфейсом, улучшенные возможности по интеграции новых приложений с голосовым интерфейсом, более точное распознавание смысла пользовательских команд.

Description

СПОСОБ И СИСТЕМА ГОЛОСОВОГО ИНТЕРФЕЙСА ОБЛАСТЬ ТЕХНИКИ
Варианты осуществления данного изобретения относятся к способу и системе голосового интерфейса пользователя и взаимодействию с данными интерфейсами.
УРОВЕНЬ ТЕХНИКИ
В настоящее время любое взаимодействие пользователя с устройствами, компьютерными программами, программно-аппаратными комплексами построено с использованием двух наиболее распространенных типов интерфейсов - графическим и консольным.
На основе интерфейса реализуется взаимодействие всех современных информационных систем. Под интерфейсом понимается набор средств, правил и методов, за счет которых осуществляется коммуникация между элементами системы, различными программами и устройствами. Под совокупностью средств, методов и правил подразумевают: средства вывода информации из устройства(системы) пользователю— весь доступный спектр воздействий на организм человека (зрительных, слуховых, тактильных, обонятельных и других.), средства ввода информации/команд пользователем реализуются сейчас множеством всевозможных устройств. Методы как набор правил, заложенных разработчиком устройства, согласно которым
совокупность действий пользователя должна привести к необходимой реакции устройства и выполнению требуемой задачи, и правила эти должны быть достаточно ясны для понимания и легки для запоминания.
Интерфейс командной строки (англ. Command line interface, CLI)—
разновидность текстового интерфейса (CUI) между человеком и
компьютером (или любой другой системой), в котором инструкции компьютеру даются в основном путём ввода с клавиатуры текстовых строк (команд).
Использование консольного интерфейса не является "дружелюбным" для пользователей, требует изучения синтаксиса команд и запоминания сокращений, что приводит к сложностям с освоением управления системой.
Дальнейшим развитием идей взаимодействия с пользователем является графический интерфейс пользователя.
Графический интерфейс пользователя (ГИП), графический пользовательский интерфейс (англ. Graphical user interface, GUI)— разновидность
пользовательского интерфейса, в котором элементы интерфейса (меню, кнопки, значки, списки и т. п.), представленные пользователю на дисплее, исполнены в виде графических изображений.
В отличие от интерфейса командной строки, в GUI пользователь имеет произвольный доступ (с помощью устройств ввода— клавиатуры, мыши, джойстика и т. п.) ко всем видимым экранным объектам (элементам интерфейса) и осуществляет непосредственное манипулирование ими. Чаще всего элементы интерфейса в GUI реализованы на основе метафор и отображают их назначение и свойства, что облегчает понимание и освоение программ неподготовленными пользователями.
Графический интерфейс пользователя является частью пользовательского интерфейса и определяет взаимодействие с пользователем на уровне визуализированной информации.
Любое взаимодействие пользователя с системой посредством консольного или графического интерфейса является несколько искусственным и менее привычным по сравнению с голосовым интерфейсом. Преимуществами голосового интерфейса являются:
• оперативность и естественность; • минимум специальной подготовки пользователя;
• возможность управления объектом в темноте, за пределами его визуальной видимости и доступности (в частности, с использованием существующей телефонной сети);
• возможность использования одновременно ручного (с помощью клавиатуры) и голосового ввода информации;
• обеспечение мобильности оператора при управлении.
В настоящее время существует два основных подхода к построению голосового интерфейса - системы типа IVR и системы, основанные на искусственном интеллекте или по-другому, на принципе виртуального собеседника.
Виртуальный собеседник (англ. chatterbot)— это компьютерная программа, которая создана для имитации речевого поведения человека при общении с одним или несколькими пользователями. По отношению к виртуальным собеседникам употребляется также название программа-собеседник.
IVR (англ. Interactive Voice Response)— система предварительно записанных голосовых сообщений, выполняющая функцию маршрутизации звонков внутри call-центра, пользуясь информацией, вводимой клиентом на клавиатуре телефона с помощью тонального набора.
Существующие системы голосового интерфейса зачастую являются
надстройками над операционной системой или любой другой программной средой, в рамках которой они запущены. Примером такой надстройки может служить Siri (англ. Speech Interpretation and Recognition Interface)—
персональный помощник и вопросно-ответная система, адаптированная для iOS. Данное приложение использует обработку естественной речи, чтобы отвечать на вопросы и давать рекомендации. Недостатками данного
изобретения являются отсутствие должной интерактивности при
взаимодействии с пользователем, отсутствие возможности
з добавления/подключения новых программ с сохранением возможностей голосового интерфейса и отсутствие возможности озвучивания и работы с текстовыми и иными данными, полученными из программ, посредством голосового интерфейса.
Из уровня техники так же известно решение US5748974, ^Multimodal natural language interface for cross-application tasks», International Business Machines Corporation, 05.05.1998. В данном изобретении описан
мультимодальный естественно-языковой интерфейс пользователя,
интерпретирующий запрос пользователя, сочетая естественно-языковой пользовательский ввод с информацией, выбранной из текущего приложения, и отправляющий интерпретированный запрос в надлежащей форме
соответствующему вспомогательному приложению для обработки.
Мультимодальный естественно-языковой интерфейс позволяет
пользователям комбинировать естественно- языковой (разговорный, печатный или рукописный) ввод с выбранными любыми стандартными средствами из приложения запущенного пользователем (текущего
приложения) для выполнения задач в другом приложении (вспомогательное приложение) без выхода из текущего приложения, открытия новых окон и др., или заранее в ходе выполнения текущего приложения определяя какие действия нужно выполнить во вспомогательного приложение.
Недостатком данного изобретения является невозможность его
использования для управления множеством программ, отсутствие учета контекста при обработке запросов, что снижает качество взаимодействия с программами, невозможность управления программами с голосовым интерфейсом.
Так же известно решение US 6499013, interactive user interface using speech recognition and natural language processings One Voice Technologies Inc., 24.12.2002. В данном изобретении описана система и способ
взаимодействия с компьютером при помощи высказываний, обработки речи и обработки естественного языка. Система распознает высказывания и содержит интерфейс приложений для выполнения действий, связанный с совпадением, если соответствующая запись найдена в базе данных. Система использует контекстно-зависимые грамматики, тем самым повышая
распознавание речи и эффективность обработки естественного языка. Кроме того, система адаптивно и в интерактивном режиме "узнает" слова и фразы, и связанные с ними значения.
Недостатком данного изобретения является отсутствие корректного
управления множеством программ, в т.ч. невозможность выполнить команды применительно к уже запущенной программе или ее данным, отсутствие учета контекста при работе с уже запущенными программами, что снижает качество взаимодействия пользователя с приложениями.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Данное изобретение описывает технологии организации голосового
интерфейса, управления программами посредством голосового интерфейса и организацию обработки пользовательских запросов.
Техническим результатом данного изобретения является повышение качества обработки голосовых команд, повышение удобства пользования голосовым интерфейсом, улучшенные возможности по интеграции новых приложений с голосовым интерфейсом, более точное распознавание смысла
пользовательских команд.
Согласно изобретению, способ обработки голосовых пользовательских команд, включает следующие шаги: получают список программ, список системных команд и их обработчиков, получают запрос пользователя и текущий контекст, обрабатывают запрос пользователя, при этом, если запрос включает системную команду, то немедленно выполняют обработчик данной команды, иначе, если запрос включает команду работы с данными и в контексте хранится информация о работе с данными, то выполняют обработчик команды применительно к данным, иначе производят поиск и выполнение программы с учетом контекста, наиболее подходящей под запрос пользователя, после чего обновляют текущий контекст, с учетом обработанного на предыдущем шаге запроса и выдают ответ пользователю на основании результатов обработки запроса.
В одном из вариантов реализации, изобретение представляет собой систему обработки голосовых пользовательских команд, включающую одно или более устройство обработки команд, одно или более устройство хранения данных, одну или более программ, где одна или более программ хранятся на одном или более устройстве хранения данных и исполняются на одном и более процессоре, причем одна или более программ включает следующие инструкции: : получают список программ, список системных команд и их обработчиков, обрабатывают запрос пользователя, при этом, если запрос включает системную команду, то немедленно выполняют обработчик данной команды, иначе, если запрос включает команду работы с данными и в контексте хранится информация о работе с данными, то выполняют обработчик команды применительно к данным, иначе производят поиск и выполнение программы с учетом контекста, наиболее подходящей под запрос пользователя, после чего обновляют текущий контекст, с учетом обработанного на предыдущем шаге запроса и выдают ответ пользователю на основании результатов обработки запроса.
В некоторых вариантах реализации, пользовательский запрос представляет собой текст, полученный путем распознавания речи пользователя;
В некоторых вариантах реализации, ответ пользователю преобразуют в речь с помощью голосового синтезатора;
В некоторых вариантах реализации, список программ и их атрибуты, дополнительно включают: текстовое описание программы, примеры
использования программы;
б В некоторых вариантах реализации, контекст дополнительно содержит модель пользователя;
В некоторых вариантах реализации, обработчики и программы могут располагаться на удаленном сервере;
В некоторых вариантах реализации, обработчик имеет более одной ответной части;
В некоторых вариантах реализации, ответ пользователю синтезируют в форме речи.
В некоторых вариантах реализации, атрибуты программ хранятся в базе данных;
В некоторых вариантах реализации, для атрибута синонимы, значения генерируется автоматически на основе уже введенных значений;
В некоторых вариантах реализации, контекст сохраняется в базе данных;
В некоторых вариантах реализации, уменьшают неопределенность запроса пользователя на основе правил;
В одном из вариантов реализации изобретение представляет собой
устройство обработки голосовых пользовательских команд, включающее одно или более устройство обработки команд, одно или более устройство хранения данных, одну или более программ, где одна или более программ хранятся на одном или более устройстве хранения данных и исполняются на одном и более процессоре, причем одна или более программ включает следующие инструкции: получают список программ, список системных команд и их обработчиков, получают запрос пользователя и текущий контекст, обрабатывают запрос пользователя, при этом, если запрос включает системную команду, то немедленно выполняют обработчик данной команды, иначе, если запрос включает команду работы с данными и в контексте хранится информация о работе с данными, то выполняют обработчик команды применительно к данным, иначе производят поиск и выполнение программы с учетом контекста, наиболее подходящей под запрос пользователя, далее обновляют текущий контекст, с учетом
обработанного на предыдущем шаге запроса, после чего выдают ответ пользователю на основании результатов обработки запроса.
В некоторых реализациях, устройство выполняют с возможностью
получения пользовательского запроса в текстовом виде.
В некоторых реализациях, устройство выполняют с возможностью
получения пользовательского запроса в звуковом виде.
В некоторых реализациях устройства список программ, дополнительно содержит, по крайней мере, следующие атрибуты: название, синонимы, тип.
В некоторых реализациях, устройство выполняют с возможностью
голосового озвучивания ответа пользователю.
В некоторых реализациях устройства контекст дополнительно содержит модель пользователя;
В некоторых реализациях, устройство выполняют с возможностью хранения обработчиков на удаленном сервере.
В некоторых реализациях, устройство выполняют с возможностью хранения обработчиков и программ на удаленном сервере.
В некоторых реализациях устройства обработчик имеет более одной ответной части.
В некоторых реализациях, устройство выполняют с возможностью хранения атрибутов программ в базе данных.
В некоторых реализациях, устройство выполняют с возможностью
автоматического генерирования значения атрибута синонимы на основе уже введенных значений. В некоторых реализациях, устройство выполняют с возможностью хранения контекста в базе данных.
В некоторых реализациях, устройство выполняют с возможностью
уменьшения неопределенности запроса пользователя на основе правил.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Данное изобретение может быть реализовано в виде способа, реализуемого на компьютере, в виде системы, в виде машиночитаемого носителя, содержащего команды для выполнения вышеуказанного способа, а так же в виде устройства, в т.ч. компьютерного устройства.
В данном изобретении под системой подразумевается компьютерная система, ЭВМ (электронно-вычислительная машина), ЧПУ (числовое программное управление), ПЛК (программируемый логический контроллер), компьютеризированные системы управления и любые другие электронные устройства, способные выполнять заданную, чётко определённую
последовательность операций (действий, инструкций).
Под устройством обработки команд подразумевается электронный блок либо интегральная схема (микропроцессор), исполняющая машинные инструкции (программы).
Устройство обработки команд считывает и выполняет машинные инструкции (программы) с одного или более устройства хранения данных. В роли устройства хранения данных могут выступать, но, не ограничиваясь, жесткие диски (HDD), флеш-память, ПЗУ (постоянное запоминающее устройство), твердотельные накопители (SSD), оптические приводы.
Машиночитаемый носитель - это устройство хранения данных, которое может быть, но не ограничиваясь, жестким диском, флеш-памятью,
распределенной сетевой средой или иным устройством, позволяющим хранить и считывать информацию. Способ обработки голосовых пользовательских команд, включает следующие шаги:
Получают список системных команд и их обработчиков;
В данном изобретении присутствуют обработчики команд и программы. Обработчик - это специальная процедура или функция, выполняющаяся при наступлении определенного события, условия.
В рамках изобретения отдельно выделяются системные команды. Набор системных команд представляет собой множество стандартных действий, которые применимы в сходных ситуациях для различных программ.
Аналогом таких команд в GUI является, например, универсальный способ закрытия программы в семействе ОС Windows (пиктограмма «крестик» в правом верхнем углу окна программы). Пользователь, однажды изучив такой паттерн, в дальнейшем может использовать это знание в других программах.
В рамках данного изобретения, системными являются команды, которые могут быть использованы вне зависимости от используемой программы.
Например, команда «замолчи» («умолкни», «заткнись» и т.д.) заставляет прекратить текущее взаимодействие с пользователем, кроме случаев, когда ожидается ввод пользователем произвольного текста.
В некоторых реализациях данного изобретения, список системных команд и их обработчиков может дополнительно содержать приоритет обработчика. Приоритет обработчика - это число, значение которого определяет какому обработчику будет отдано предпочтение при обработке данной команды. В некоторых реализациях, предпочтение отдается обработчику с наибольшим значением приоритета, в некоторых - с наименьшим.
Обработчик состоит из двух частей: описание ситуации (условие
выполнения), в которой данный обработчик может быть применен и действия, которое выполняется в случае, когда обработчик выбран (ответная часть). Описание ситуации может быть выполнено, например, в виде шаблона текста запроса пользователя. Шаблон - это описание текста запроса с использованием регулярных выражений. Например, шаблон «* привет *» описывает все фразы пользователя, которые содержат в себе слово «привет» в любом месте фразы. Также описание ситуации может включать в себя факторы предыдущего разговора (например, некоторые ситуации могут срабатывать только в том случае, если предыдущий разговор затрагивал определенную тему). Описания ситуации также могут генерироваться автоматически на основе статистических данных, например, ситуация
«пользователь задал вопрос про автомобили» может быть определена на основе анализа большого объема данных, автоматически полученного при выгрузке и анализе вопросов с какого-либо автомобильного форума в интернете.
Ответная часть обработчика - это команда, которую необходимо выполнить. Это может быть, но, не ограничиваясь, воспроизведение речи (озвучивание информации пользователю), звука, видео, выполнение какого-либо
программного кода и т.д., функции, процедуры или любой комбинации этих реакций.
В некоторых вариантах реализации изобретения у обработчика может быть более одной ответной части.
Источниками обработчиков являются предустановленные наборы
обработчиков, подключаемые пользователем наборы обработчиков.
В некоторых вариантах реализации изобретения обработчики могут располагаться на удаленных серверах, при этом, пользовательские запросы пересылаются клиентской частью на сервер, сервер производит обработку запроса и отправляет результаты обработки обратно на клиентскую часть.
Программы и обработчики могут быть выполнены, но, не ограничиваясь, в виде исполняемых (исполнимых) модулей, библиотек, скриптов. Здесь и далее исполняемый модуль - это файл, содержащий машинные инструкции для выполнения компьютером или любым другим
вычислительным устройством, например, ЧПУ, ПЛК, ЭВМ.
Получают список программ и их атрибуты, включающие, по крайней мере
• Название;
• Синонимы;
• Тип;
Каждая программа имеет набор обязательных атрибутов, содержащих, по крайней мере, «название», «синонимы», «тип».
В некоторых реализациях данного изобретения могут дополнительно использоваться, но, не ограничиваясь, атрибуты «текстовое описание»
«примеры использования».
Описание возможных атрибутов программ указаны ниже:
1. Название - уникальный идентификатор программы.
2. Синонимы - у названия программы может быть указан набор
синонимов. Например, для программы «новости» это могут быть «новостные ленты, новостные сводки, news, последние известия».
Таким образом, на основании синонимов можно определить, что пользователь хочет взаимодействовать с программой даже в том случае, когда он не называет её явно.
3. Текстовое описание - описание функционала программы. Этот текст используется, когда пользователь хочет получить справочную
информацию о программе или просто говорит о ней.
4. Примеры использования - программа может содержать набор
примеров использования. Этот текст будет использован для генерации ответа в случае, когда пользователь хочет узнать, как пользоваться этой программой. 5. Тип программы - описание, в каких ситуациях программа может работать. Некоторые программы применимы только в определенной обстановке или времени суток или для некоторых людей. Например, программа «управление умным домом» может быть использована только в рамках дома. Поэтому для каждой программы может быть указан набор ограничений, где эта программа используется.
В некоторых вариантах данного изобретения, синонимы могут
генерироваться на основе баз синонимов или других баз знаний в
автоматическом режиме.
Атрибуты программы могут храниться в заголовке файла(ов) программы. Заголовок файла - это специальная структура, обычно располагаемая в начале файла, содержащая сервисную информацию.
В некоторых вариантах осуществления изобретения атрибуты могут храниться в базе данных.
В некоторых вариантах осуществления у программ могут отсутствовать атрибуты.
Получают запрос пользователя и текущий контекст;
Запрос пользователя - это голосовые или текстовые данные, получаемые от пользователя.
В некоторых вариантах реализации запрос представляет собой текстовую строку, полученную на основе преобразования голосовой команды/запроса пользователя.
Для преобразования голосового запроса в текст (TTS, Text-To- Speech), могут использоваться, но, не ограничиваясь, программные средства, библиотеки, модули и аппаратные преобразователи. При этом сущность изобретения не зависит от выбора данных средств. Контекст - это совокупность информации о текущем разговоре. Контекст может включать прошлые реплики пользователя и ответы, полученные в результате обработки предыдущих запросов пользователя (лог начала разговора), накопленные данные о пользователе (модель пользователя), информацию об окружающем мире известную системе (погода, важные новости, время суток и т.п.). Контекст влияет на выбор обработчика или программы в случае неоднозначности.
Для более полной обработки команд/запросов пользователя необходимо учитывать модель пользователя - это данные о себе и своем окружении, которые в процессе общения (работы) пользователь явно или косвенно сообщает системе. Эти данные могут быть накоплены, обработаны и использованы с целью улучшения выбора программы или обработчика.
В некоторых вариантах изобретения при обработке первого запроса текущий контекст является пустым.
Так же в некоторых реализациях изобретения, контекст очищается в случае, если пользователь длительное время не осуществляет запросы.
В некоторых реализациях данного изобретения, полученный текстовый запрос пользователя предварительно преобразует с помощью набора правил, уменьшая неопределенность.
Чтобы уменьшить неопределенность для каждого из языка создают набор правил, которые позволяют стандартизировать текст и уменьшить
комбинаторное количество входящих фраз без изменения смысла. Это возможно за счет избыточности разговорных языков. Например, многие вводные слова, обороты, слова-паразиты, междометья и бранные слова убираются из текста, не потеряв смысла.
Обрабатывают запрос пользователя, при этом: • Если запрос включает системную команду, то немедленно выполняют обработчик данной команды;
• Иначе, если запрос включает команду работы с данными и в контексте хранится информация о работе с данными, то выполняют обработчик команды применительно к данным;
• Иначе производят поиск и выполнение программы с учетом контекста, наиболее подходящей под запрос пользователя;
При обработке команд работающих с данными важным фактором является контекст. Команда работы с данными обрабатывается в случаях, когда в контексте хранится информация о том, что предыдущий (степень глубины может варьироваться) запрос пользователя был связан с обработкой или получением данных. В противном случае происходит поиск других программ и/или обработчиков, позволяющих обработать данный запрос.
Поиск программы подходящей под запрос пользователя может
осуществляться по следующему принципу:
1. Находят все возможные ситуации, которые подходят под запрос
пользователя;
2. Выбирают наилучшую ситуацию исходя из различных оценок.
При определении наилучшей ситуации используют интегральную оценку, полученную, по крайней мере, но, не ограничиваясь, сочетанием одного или комбинации следующих факторов: соответствие ситуации контексту, уместность ответа.
Интегральные оценки могут варьироваться и не влияют на сущность изобретения.
Обновляют текущий контекст, с учетом обработанного на предыдущем шаге запроса; При обновлении производят полный пересчет контекста, с учетом изменившейся ситуации (добавление новых запросов пользователя и устаревания уже имеющихся), накопления новых знаний о пользователе, обстановке.
Выдают ответ пользователю на основании результатов обработки запроса.
В различных реализациях изобретения, ответ пользователю может
выдаваться в текстовом виде, так и синтезироваться в речь.
Специалисту в данной области, очевидно, что конкретные варианты
осуществления способа, системы, устройства голосового интерфейса были описаны здесь в целях иллюстрации, допустимы различные модификации, не выходящие за рамки и сущности объема изобретения.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Способ обработки голосовых пользовательских команд,
включающий следующие шаги:
• Получают список программ, список системных команд и их
обработчиков;
• Получают запрос пользователя и текущий контекст;
• Обрабатывают запрос пользователя, при этом:
• Если запрос включает системную команду, то немедленно выполняют обработчик данной команды;
• Иначе, если запрос включает команду работы с данными и в контексте хранится информация о работе с данными, то выполняют обработчик команды применительно к данным;
• Иначе производят поиск и выполнение программы с учетом контекста, наиболее подходящей под запрос пользователя;
• Обновляют текущий контекст, с учетом обработанного на
предыдущем шаге запроса;
• Выдают ответ пользователю на основании результатов обработки запроса.
2. Способ по п.1, в котором список программ, дополнительно содержит, по крайней мере, следующие атрибуты:
a. Название;
b. Синонимы;
c. Тип;
3. Способ по п.1 , в котором запрос пользователя представляет собой текст, полученный путем распознавания речи пользователя;
4. Способ по п.1 , отличающийся тем, что ответ пользователю
преобразуют в речь с помощью голосового синтезатора;
5. Способ по п.2, в котором, список атрибутов программ дополнительно включает следующие атрибуты:
17
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26) a. текстовое описание программы;
b. примеры использования программы;
6. Способ по п.1 , в котором, контекст дополнительно содержит модель пользователя;
7. Способ по п.1, в котором обработчики и программы могут
располагаться на удаленном сервере;
8. Способ по п.1, в котором обработчик имеет более одной ответной
части;
9. Способ по п.1 , в котором ответ пользователю синтезируют в форме речи.
10. Способ по п.2 или п.5, в котором атрибуты программ хранятся в базе данных;
11. Способ по п.2 или п.5, в котором для атрибута синонимы, значения генерируется автоматически на основе уже введенных значений;
12. Способ по п.1 , в котором контекст сохраняется в базе данных;
13. Способ по п.1, в котором уменьшают неопределенность запроса
пользователя на основе правил;
14. Система обработки голосовых пользовательских команд,
включающая:
a. одно или более устройство обработки команд;
b. одно или более устройство хранения данных;
c. одну или более программ, где одна или более программ хранятся на одном или более устройстве хранения данных и исполняются на одном и более процессоре, причем одна или более программ включает следующие инструкции:
• Получают список программ, список системных команд и их обработчиков;
• Получают запрос пользователя и текущий контекст;
18
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26) • Обрабатывают запрос пользователя, при этом:
Если запрос включает системную команду, то немедленно выполняют обработчик данной команды;
S Иначе, если запрос включает команду работы с
данными и в контексте хранится информация о работе с данными, то выполняют обработчик команды
применительно к данным;
S Иначе производят поиск и выполнение программы с учетом контекста, наиболее подходящей под запрос пользователя;
• Обновляют текущий контекст, с учетом обработанного на
предыдущем шаге запроса;
• Выдают ответ пользователю на основании результатов обработки запроса.
15. Система по п.14, в которой список программ, дополнительно содержит, по крайней мере> следующие атрибуты:
a. Название;
b. Синонимы;
c. Тип;
16. Система по п.14, в которой запрос пользователя представляет собой текст, полученный путем распознавания речи пользователя;
17. Система по п.14, отличающаяся тем, что ответ пользователю
преобразуют в речь с помощью голосового синтезатора;
18. Система по п.15, в которой, список атрибутов программ дополнительно включает следующие атрибуты:
a. текстовое описание программы;
b. примеры использования программы;
19. Система по п.14, в которой, контекст дополнительно содержит модель пользователя;
19
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26)
20. Система по п.14, в которой обработчики и программы могут
располагаться на удаленном сервере;
21. Система по п.14, в которой обработчик имеет более одной ответной части;
-22. Система по п.14, в которой ответ пользователю синтезируют в форме речи;
23. Система по п.15 или п.18, в которой атрибуты программ хранятся в базе данных;
24. Система по п.15 или п.18, в которой для атрибута синонимы, значения генерируется автоматически на основе уже введенных значений;
25. Способ по п.14, в котором контекст сохраняется в базе данных;
26. Способ по п.14, в котором уменьшают неопределенность запроса
пользователя на основе правил;
27. Устройство обработки голосовых пользовательских команд,
включающее:
a. одно или более устройство обработки команд;
b. одно или более устройство хранения данных;
c. одну или более программ, где одна или более программ хранятся на одном или более устройстве хранения данных и исполняются на одном и более процессоре, причем одна или более программ включает следующие инструкции:
• Получают список программ, список системных команд и их
обработчиков;
• Получают запрос пользователя и текущий контекст;
• Обрабатывают запрос пользователя, при этом:
Если запрос включает системную команду, то немедленно выполняют обработчик данной команды;
20
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26) S Иначе, если запрос включает команду работы с данными и в контексте хранится информация о работе с данными, то выполняют обработчик команды применительно к данным;
S Иначе производят поиск и выполнение программы с учетом контекста, наиболее подходящей под запрос пользователя;
• Обновляют текущий контекст, с учетом обработанного на
предыдущем шаге запроса;
• Выдают ответ пользователю на основании результатов обработки запроса.
28. Устройство по п.27, выполненное с возможностью получения
пользовательского запроса в текстовом виде;
29. Устройство по п.27, в котором список программ, дополнительно
содержит, по крайней мере, следующие атрибуты:
a. Название;
b. Синонимы;
c. Тип;
30. Устройство по п.27, выполненное с возможностью голосового
озвучивания ответа пользователю;
31.Устройство по п.27, в котором контекст дополнительно содержит
модель пользователя;
-32. Устройство по п.27, выполненное с возможностью хранения
обработчиков на удаленном сервере;
33. Устройство по п.27, выполненное с возможностью хранения
обработчиков и программ на удаленном сервере;
34. Устройство по п.27, в котором обработчик имеет более одной ответной части;
35. Устройство по п.29, выполненное с возможностью хранения атрибутов программ в базе данных;
36. Устройство по п.29, выполненное с возможностью автоматического генерирования значения атрибута синонимы на основе уже введенных значений;
37. Устройство по п.27, выполненное с возможностью хранения контекста в базе данных;
38. Устройство по п.27, выполненное с возможностью уменьшения
неопределенности запроса пользователя на основе правил;
22
ЗАМЕНЯЮЩИЙ ЛИСТ (ПРАВИЛО 26)
PCT/RU2015/000176 2014-03-28 2015-03-26 Способ и система голосового интерфейса WO2015147702A1 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2014111971/08A RU2014111971A (ru) 2014-03-28 2014-03-28 Способ и система голосового интерфейса
RU2014111971 2014-03-28

Publications (1)

Publication Number Publication Date
WO2015147702A1 true WO2015147702A1 (ru) 2015-10-01

Family

ID=54191280

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/RU2015/000176 WO2015147702A1 (ru) 2014-03-28 2015-03-26 Способ и система голосового интерфейса
PCT/US2015/023417 WO2016159961A1 (en) 2014-03-28 2015-03-30 Voice driven operating system for interfacing with electronic devices

Family Applications After (1)

Application Number Title Priority Date Filing Date
PCT/US2015/023417 WO2016159961A1 (en) 2014-03-28 2015-03-30 Voice driven operating system for interfacing with electronic devices

Country Status (3)

Country Link
US (1) US20150279366A1 (ru)
RU (1) RU2014111971A (ru)
WO (2) WO2015147702A1 (ru)

Families Citing this family (152)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN104702651A (zh) * 2013-12-10 2015-06-10 中国科学院沈阳自动化研究所 一种基于语义的物联网体系架构模型
US9351060B2 (en) 2014-02-14 2016-05-24 Sonic Blocks, Inc. Modular quick-connect A/V system and methods thereof
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP6671379B2 (ja) 2014-10-01 2020-03-25 エクスブレイン・インコーポレーテッド 音声および接続プラットフォーム
US20160171122A1 (en) * 2014-12-10 2016-06-16 Ford Global Technologies, Llc Multimodal search response
US10050868B2 (en) * 2015-01-16 2018-08-14 Sri International Multimodal help agent for network administrator
US10205637B2 (en) 2015-01-27 2019-02-12 Sri International Impact analyzer for a computer network
US10250641B2 (en) 2015-01-27 2019-04-02 Sri International Natural language dialog-based security help agent for network administrator
US10152299B2 (en) * 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10110394B2 (en) * 2015-05-11 2018-10-23 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling the same
KR102498739B1 (ko) * 2015-05-11 2023-02-13 삼성전자주식회사 홈 서버 및 이의 제어 방법
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10541958B2 (en) * 2015-08-05 2020-01-21 Facebook, Inc. Controlling a device cloud
US10567479B2 (en) 2015-08-05 2020-02-18 Facebook, Inc. Managing a device cloud
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10209851B2 (en) 2015-09-18 2019-02-19 Google Llc Management of inactive windows
CN106572418A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种语音助手的扩展设备及其工作方法
US10891106B2 (en) * 2015-10-13 2021-01-12 Google Llc Automatic batch voice commands
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
IL260711B2 (en) * 2016-01-24 2024-02-01 Syed Kamran Hasan Computer security is based on artificial intelligence
US9610476B1 (en) 2016-05-02 2017-04-04 Bao Tran Smart sport device
US20170236223A1 (en) * 2016-02-11 2017-08-17 International Business Machines Corporation Personalized travel planner that identifies surprising events and points of interest
US11768823B2 (en) * 2016-02-17 2023-09-26 Verizon Patent And Licensing Inc. Rules execution system for IoT devices
US10691885B2 (en) * 2016-03-30 2020-06-23 Evernote Corporation Extracting structured data from handwritten and audio notes
US10022613B2 (en) 2016-05-02 2018-07-17 Bao Tran Smart device
US9597567B1 (en) 2016-05-02 2017-03-21 Bao Tran Smart sport device
US10022614B1 (en) 2016-05-02 2018-07-17 Bao Tran Smart device
US10046228B2 (en) 2016-05-02 2018-08-14 Bao Tran Smart device
US9964134B1 (en) 2016-05-03 2018-05-08 Bao Tran Smart IOT sensor having an elongated stress sensor
US9615066B1 (en) 2016-05-03 2017-04-04 Bao Tran Smart lighting and city sensor
CN106055355A (zh) * 2016-05-25 2016-10-26 北京光年无限科技有限公司 一种智能机器人及应用于智能机器人的操作***
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
CN107765838A (zh) * 2016-08-18 2018-03-06 北京北信源软件股份有限公司 人机交互辅助方法及装置
US10521187B2 (en) * 2016-08-31 2019-12-31 Lenovo (Singapore) Pte. Ltd. Presenting visual information on a display
US10503767B2 (en) * 2016-09-13 2019-12-10 Microsoft Technology Licensing, Llc Computerized natural language query intent dispatching
US10540513B2 (en) 2016-09-13 2020-01-21 Microsoft Technology Licensing, Llc Natural language processor extension transmission data protection
EP3494498A4 (en) * 2016-10-03 2019-07-31 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND METHOD FOR CONTROLLING THEREOF
US11488181B2 (en) * 2016-11-01 2022-11-01 International Business Machines Corporation User satisfaction in a service based industry using internet of things (IoT) devices in an IoT network
US11580350B2 (en) * 2016-12-21 2023-02-14 Microsoft Technology Licensing, Llc Systems and methods for an emotionally intelligent chat bot
US10268680B2 (en) 2016-12-30 2019-04-23 Google Llc Context-aware human-to-computer dialog
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10255271B2 (en) * 2017-02-06 2019-04-09 International Business Machines Corporation Disambiguation of the meaning of terms based on context pattern detection
KR101957277B1 (ko) * 2017-02-14 2019-03-12 윤종식 음성 인식을 이용한 코딩시스템 및 코딩방법
US9736268B1 (en) * 2017-02-23 2017-08-15 Thumbtack, Inc. System for generating responses to requests
WO2018158047A1 (en) * 2017-02-28 2018-09-07 Nokia Solutions And Networks Oy IMS-BASED IoT INTERACTION
US10887423B2 (en) * 2017-05-09 2021-01-05 Microsoft Technology Licensing, Llc Personalization of virtual assistant skills based on user profile information
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10529323B2 (en) * 2017-05-19 2020-01-07 UBTECH Robotics Corp. Semantic processing method of robot and semantic processing device
JP2019028753A (ja) * 2017-07-31 2019-02-21 オリンパス株式会社 機器制御装置及び機器制御方法
US20190096397A1 (en) * 2017-09-22 2019-03-28 GM Global Technology Operations LLC Method and apparatus for providing feedback
US10672379B1 (en) * 2017-09-25 2020-06-02 Amazon Technologies, Inc. Systems and methods for selecting a recipient device for communications
US10755051B2 (en) * 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10692498B2 (en) 2017-10-23 2020-06-23 International Business Machines Corporation Question urgency in QA system with visual representation in three dimensional space
US10999733B2 (en) 2017-11-14 2021-05-04 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening device
US10867623B2 (en) 2017-11-14 2020-12-15 Thomas STACHURA Secure and private processing of gestures via video input
US11100913B2 (en) 2017-11-14 2021-08-24 Thomas STACHURA Information security/privacy via a decoupled security cap to an always listening assistant device
US10872607B2 (en) 2017-11-14 2020-12-22 Thomas STACHURA Information choice and security via a decoupled router with an always listening assistant device
US10867054B2 (en) 2017-11-14 2020-12-15 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening assistant device
US10002259B1 (en) 2017-11-14 2018-06-19 Xiao Ming Mai Information security/privacy in an always listening assistant device
US10409916B2 (en) * 2017-12-13 2019-09-10 Dell Products L.P. Natural language processing system
US10455029B2 (en) * 2017-12-29 2019-10-22 Dish Network L.L.C. Internet of things (IOT) device discovery platform
US11150869B2 (en) 2018-02-14 2021-10-19 International Business Machines Corporation Voice command filtering
WO2019161229A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for reconstructing unoccupied 3d space
US11468885B2 (en) 2018-02-15 2022-10-11 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
US20190251966A1 (en) * 2018-02-15 2019-08-15 DMAI, Inc. System and method for prediction based preemptive generation of dialogue content
US10546069B2 (en) * 2018-03-01 2020-01-28 Dell Products L.P. Natural language processing system
CN111373473B (zh) * 2018-03-05 2023-10-20 华为技术有限公司 一种电子设备进行语音识别方法及电子设备
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US20190332948A1 (en) * 2018-04-26 2019-10-31 International Business Machines Corporation Situation-aware cognitive entity
US11200890B2 (en) 2018-05-01 2021-12-14 International Business Machines Corporation Distinguishing voice commands
US11238856B2 (en) 2018-05-01 2022-02-01 International Business Machines Corporation Ignoring trigger words in streamed media content
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487501B2 (en) * 2018-05-16 2022-11-01 Snap Inc. Device control using audio data
US10325596B1 (en) * 2018-05-25 2019-06-18 Bao Tran Voice control of appliances
EP3576084B1 (de) * 2018-05-29 2020-09-30 Christoph Neumann Effiziente dialoggestaltung
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11437029B2 (en) 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US10831870B2 (en) * 2018-08-28 2020-11-10 International Business Machines Corporation Intelligent user identification
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10949228B1 (en) * 2018-09-28 2021-03-16 United Services Automobile Association (Usaa) System and method for controlling the content of a device in response to an audible request
US11714965B2 (en) * 2018-11-09 2023-08-01 Genesys Telecommunications Laboratories, Inc. System and method for model derivation for entity prediction
US11023470B2 (en) 2018-11-14 2021-06-01 International Business Machines Corporation Voice response system for text presentation
CN111290677B (zh) * 2018-12-07 2023-09-19 中电长城(长沙)信息技术有限公司 一种自助设备导航方法及其导航***
CN109710939B (zh) * 2018-12-28 2023-06-09 北京百度网讯科技有限公司 用于确定主题的方法和装置
JP2022523150A (ja) 2019-02-07 2022-04-21 スタフラ,トーマス スマートスピーカ用プライバシデバイス
EP3931720A1 (en) * 2019-02-25 2022-01-05 Liveperson, Inc. Intent-driven contact center
KR20200107058A (ko) * 2019-03-06 2020-09-16 삼성전자주식회사 복수 개의 엔드 포인트가 포함된 플랜들을 처리하는 방법 및 그 방법을 적용한 전자 장치
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN110264791A (zh) * 2019-05-30 2019-09-20 合肥阿拉丁智能科技有限公司 手表机器人智能化自主运行***
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US20200401878A1 (en) 2019-06-19 2020-12-24 International Business Machines Corporation Collaborative real-time solution efficacy
US11195523B2 (en) 2019-07-23 2021-12-07 Microsoft Technology Licensing, Llc Ambiguity resolution with dialogue search history
US11106536B2 (en) * 2019-07-23 2021-08-31 Microsoft Technology Licensing, Llc Error recovery for conversational systems
US11355108B2 (en) 2019-08-20 2022-06-07 International Business Machines Corporation Distinguishing voice commands
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11023220B2 (en) 2019-09-26 2021-06-01 Dell Products L.P. Firmware update with integrated smart sequence and action engine
WO2021118462A1 (en) * 2019-12-09 2021-06-17 Active Intelligence Pte Ltd Context detection
US11983217B2 (en) 2019-12-13 2024-05-14 Google Llc Responding to queries with voice recordings
US11561775B2 (en) 2020-03-30 2023-01-24 Nuance Communications, Inc. Development system and method
WO2021225901A1 (en) * 2020-05-04 2021-11-11 Lingua Robotica, Inc. Techniques for converting natural speech to programming code
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111813491B (zh) * 2020-08-19 2020-12-18 广州汽车集团股份有限公司 一种车载助手的拟人化交互方法、装置及汽车
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
WO2022129064A1 (en) * 2020-12-15 2022-06-23 Koninklijke Philips N.V. Generating encoded data
EP4016369A1 (en) * 2020-12-15 2022-06-22 Koninklijke Philips N.V. Generating encoded data
CN113723079B (zh) * 2021-09-08 2023-10-31 天津大学 针对长距离对话状态追踪的分层建模贡献感知的上下文的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010053969A1 (en) * 2000-03-22 2001-12-20 Wide Roeland Hogenhout Natural language machine interface
US20040260562A1 (en) * 2003-01-30 2004-12-23 Toshihiro Kujirai Speech interaction type arrangements
US20080059195A1 (en) * 2006-08-09 2008-03-06 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US20100250253A1 (en) * 2009-03-27 2010-09-30 Yangmin Shen Context aware, speech-controlled interface and system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7640006B2 (en) * 2001-10-03 2009-12-29 Accenture Global Services Gmbh Directory assistance with multi-modal messaging
US20090006083A1 (en) * 2007-06-30 2009-01-01 Bachand William R Systems And Methods For Spoken Information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010053969A1 (en) * 2000-03-22 2001-12-20 Wide Roeland Hogenhout Natural language machine interface
US20040260562A1 (en) * 2003-01-30 2004-12-23 Toshihiro Kujirai Speech interaction type arrangements
US20080059195A1 (en) * 2006-08-09 2008-03-06 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US20100250253A1 (en) * 2009-03-27 2010-09-30 Yangmin Shen Context aware, speech-controlled interface and system

Also Published As

Publication number Publication date
WO2016159961A1 (en) 2016-10-06
RU2014111971A (ru) 2015-10-10
US20150279366A1 (en) 2015-10-01

Similar Documents

Publication Publication Date Title
WO2015147702A1 (ru) Способ и система голосового интерфейса
JP6912579B2 (ja) 文脈を意識した人間−コンピュータ間対話
JP7063932B2 (ja) 適切なエージェントの自動化アシスタント呼び出し
KR102505597B1 (ko) 어시스턴트 애플리케이션을 위한 음성 사용자 인터페이스 단축
CN111033492B (zh) 为自动化助手提供命令束建议
AU2022221524B2 (en) Tailoring an interactive dialog application based on creator provided content
JP2021099813A (ja) 適切なサードパーティーエージェントへの呼び出し要求を生成および伝送すること
US7349845B2 (en) Method and apparatus for dynamic modification of command weights in a natural language understanding system
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
CN112262430A (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
US20140316764A1 (en) Clarifying natural language input using targeted questions
US10579835B1 (en) Semantic pre-processing of natural language input in a virtual personal assistant
MXPA04005121A (es) Entendimiento sincronico de objeto semantico para interfase altamente interactiva.
MXPA04005122A (es) Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla.
US10713288B2 (en) Natural language content generator
CN111667833A (zh) 基于对话的语音识别
KR102429407B1 (ko) 사용자 구성의 맞춤형 인터렉티브 대화 애플리케이션
CN110060674A (zh) 表格管理方法、装置、终端和存储介质
US11651158B2 (en) Entity resolution for chatbot conversations
US11531821B2 (en) Intent resolution for chatbot conversations with negation and coreferences
US8775459B2 (en) Method and apparatus for robust input interpretation by conversation systems
WO2022071978A1 (en) Configurable conversation engine for executing customizable chatbots
EP3552114A1 (en) Natural language content generator
CN111104118A (zh) 一种基于aiml的自然语言指令执行方法及***
CN117636855A (zh) 设备配置方法、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15768251

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase
122 Ep: pct application non-entry in european phase

Ref document number: 15768251

Country of ref document: EP

Kind code of ref document: A1