RU2530267C2 - Способ коммуникации пользователя с информационной диалоговой системой - Google Patents

Способ коммуникации пользователя с информационной диалоговой системой Download PDF

Info

Publication number
RU2530267C2
RU2530267C2 RU2012150996/08A RU2012150996A RU2530267C2 RU 2530267 C2 RU2530267 C2 RU 2530267C2 RU 2012150996/08 A RU2012150996/08 A RU 2012150996/08A RU 2012150996 A RU2012150996 A RU 2012150996A RU 2530267 C2 RU2530267 C2 RU 2530267C2
Authority
RU
Russia
Prior art keywords
user
response
user input
request
input subsystem
Prior art date
Application number
RU2012150996/08A
Other languages
English (en)
Other versions
RU2012150996A (ru
Inventor
Илья Геннадьевич Гельфенбейн
Ольга Александровна Гельфенбейн
Артем Владимирович Гончарук
Илья Андреевич Платонов
Павел Александрович Сиротин
Original Assignee
Общество с ограниченной ответственностью "Спиктуит"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "Спиктуит" filed Critical Общество с ограниченной ответственностью "Спиктуит"
Priority to RU2012150996/08A priority Critical patent/RU2530267C2/ru
Priority to PCT/IB2012/056955 priority patent/WO2014083389A1/ru
Publication of RU2012150996A publication Critical patent/RU2012150996A/ru
Application granted granted Critical
Publication of RU2530267C2 publication Critical patent/RU2530267C2/ru
Priority to US14/721,012 priority patent/US9564149B2/en
Priority to US15/395,476 priority patent/US10102854B2/en
Priority to US15/720,854 priority patent/USRE47974E1/en
Priority to US16/137,069 priority patent/US10748537B2/en
Priority to US16/990,525 priority patent/US11355117B2/en
Priority to US17/747,707 priority patent/US20220277745A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/18Details of the transformation process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка. Технический результат - возможность взаимодействия с системой посредством ввода текста и использования естественного языка. Способ коммуникации пользователя с информационной диалоговой системой включает в себя: активацию подсистемы пользовательского ввода, получение подсистемой запроса пользователя и преобразование его в текст, обработку диалоговым модулем полученного текста и ответа на запрос, отображение и/или воспроизведение сформированного ответа, причем по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняется автоматическая повторная активация подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса. 15 з.п. ф-лы, 1 ил.

Description

Заявляемое изобретение относится к информационным технологиям, в частности к способу коммуникации пользователя с информационной диалоговой системой, и может быть использовано для организации взаимодействия пользователя с информационной диалоговой системой на основе естественного языка.
На сегодняшний день информационные диалоговые системы получили широкое распространение и используются в различных областях общественной жизни, например для организации автоматической проверки знаний, автоматизированной службы поддержки пользователей, для диагностики заболеваний и прочее. Однако существующие информационные диалоговые системы предназначены для решения задач узкого профиля, то есть они способны поддерживать только диалог на заданную тему. Кроме того, большинство из них не имеет возможности формировать ответ на естественном языке, придавать эмоциональную окраску формируемому ответу, выполнять какие-либо дополнительные действия, в том числе взаимодействовать с другими информационными системами и подсистемами. Наличие таких возможностей позволило бы выполнять не только двухсторонний обмен информацией, инструкциями и командами между пользователем и системой, но и вести полноценный диалог, создавая у пользователя впечатление общения с живым собеседником, а также решать поставленные пользователем задачи гораздо эффективнее. Поэтому на данный момент остается актуальной разработка такого способа коммуникации пользователя с информационной диалоговой системой, который расширил бы возможности взаимодействия пользователя с информационной диалоговой системой.
Ближайшим аналогом заявляемого изобретения является адаптивный естественно-языковой интерфейс и способ получения, интерпретации и выполнения пользовательского ввода на естественном языке, описанные в патенте США № 7216080 (опубл. 08.05.2007). Способ включает ввод пользователем запроса, прием и преобразование запроса пользователя в текст, обработку текста и формирование ответа в виде выходной команды, преобразование выходной команды в исполнительную, выведение исполнительной команды в дополнительную систему и/или подсистемы для исполнения.
К недостаткам описанного решения можно отнести то, что пользователь может вводить запрос только на естественном языке, при этом, в случае возникновения необходимости, у него нет возможности вводить текст с помощью вспомогательных устройств, например клавиатуры. Помимо этого голосовая реплика на запрос пользователя не содержит эмоциональную окраску, отображающую эмоциональное состояние информационной диалоговой системы.
В основу изобретения положена задача разработать способ коммуникации пользователя с информационной диалоговой системой, реализация которого обеспечит возможность упрощения взаимодействия пользователя с информационной диалоговой системой, уменьшение количества необходимых для выполнения коммуникации действий, а также обеспечит возможность взаимодействия с указанной системой не только посредством ввода текста, но и с использованием естественного языка.
Поставленная задача решается тем, что разработанный способ коммуникации пользователя с информационной диалоговой системой включает активацию пользователем подсистемы пользовательского ввода, ввод пользователем запроса, прием и преобразование запроса пользователя в текст подсистемой пользовательского ввода, передачу текста, полученного в результате преобразования запроса диалоговому модулю, обработку диалоговым модулем полученного текста, формирование диалоговым модулем ответа на запрос, передачу ответа пользователю, отображение и/или воспроизведение сформированного ответа, при этом после отображения и/или воспроизведения сформированного ответа выполняют автоматическую активацию подсистемы пользовательского ввода, после чего пользователь выполняет ввод нового или уточняющего запроса.
Информационной диалоговой системой в контексте данной заявки является система, оснащенная подсистемой пользовательского ввода, подсистемой генерации и распознавания голоса, дисплеем и клавиатурой пользовательского устройства, дополнительными кнопками, диалоговым модулем, дополнительными системами и/или подсистемами, профилем пользователя, клиентской памятью и т.п. При этом подсистемой пользовательского ввода является подсистема, содержащая по меньшей мере два компонента, с помощью которых могут быть выполнены прием и преобразование пользовательского ввода. Указанными компонентами являются компонент записи и распознавания голоса, клавиатура, а также подобные указанным устройства, компоненты и средства, сопровождаемые соответствующим программным обеспечением, если таковое необходимо.
Под пользовательским устройством подразумеваются мобильные устройства, такие как ноутбук, нетбук, планшет, мобильные телефоны, смартфоны и подобные устройства, а также стационарные электронные устройства, такие как компьютер и подобные ему устройства.
Под дополнительными кнопками понимаются физические кнопки пользовательского устройства и программные кнопки диалоговой информационной системы. Например, выполнение пользователем нажатия программной кнопки «Микрофон» запускает/отключает компонент записи и распознавания голоса, программной кнопки «Отмена» - отменит выполнение текущей операции, которую выполняют посредством информационной диалоговой системы и т.п. Предполагается наличие других дополнительных функциональных кнопок, которые могут быть реализованы в рамках заявляемого изобретения.
Дополнительными системами и/или подсистемами в контексте данной заявки являются системы работы с функциями устройств пользователя, например система глобального позиционирования.
Профиль пользователя - учетная запись, содержащая настройки, предпочтения, инструкции, информацию пользователя.
Клиентская память хранит информацию о пользователе, взаимодействующем с информационной диалоговой системой.
Под запросом пользователя понимается подаваемая им голосовая команда или вводимый с клавиатуры текст.
При реализации заявляемого способа коммуникации пользователя с информационной диалоговой системой пользователю предоставляется возможность отключения компонента записи и распознавания голоса. Таким образом, пользователь может взаимодействовать с информационной диалоговой системой посредством ввода запросов с клавиатуры.
Предпочтительна реализация способа, при которой автоматическую активацию подсистемы пользовательского ввода факультативно выполняют по истечении заранее заданного диалоговым модулем интервала времени после отображения и/или воспроизведения сформированного ответа.
В случае если ответ, сформированный информационной диалоговой системой, содержит дополнительные результаты, требующие дополнительного времени для прочтения и ознакомления с ними, целесообразно активировать подсистему пользовательского ввода, в частности компонента записи и распознавания голоса по истечении некоторого промежутка времени, при этом деактивация этого компонента может выполняться как пользователем самостоятельно, так и в соответствии с инструкциями, содержащимися в ответе диалогового модуля на запрос. Согласно указанным инструкциям активация компонента записи и распознавания голоса может производиться по истечении заранее заданного диалоговым модулем интервала времени или не производиться вовсе. Кроме того, диалоговым модулем может быть задано значение, насколько долго компонент записи и распознавания голоса должен ожидать ввод пользователем запроса.
Целесообразна такая реализация изобретения, при которой ввод пользователем запроса выполняют посредством голосовой команды и/или с использованием клавиатуры. Таким образом, в ходе ведения диалога с информационной диалоговой системой пользователь имеет возможность осуществления ввода как с помощью голосовой команды, так и путем ввода текста запроса с клавиатуры.
Предпочтительна реализация способа, при которой формирование диалоговым модулем ответа выполняют в виде текста, при этом воспроизведение сформированного ответа дополнительно выполняют посредством подсистемы генерации и воспроизведения голоса, отображение и/или воспроизведение сформированного ответа выполняют посредством голосовой реплики и/или отображения текста на дисплее. Таким образом, после передачи ответа пользователю выполняют отображение текста ответа на дисплее и/или воспроизведение этого текста посредством подсистемы генерации и воспроизведения голоса в виде голосовой реплики.
Целесообразна такая реализация изобретения, при которой обработку диалоговым модулем полученного текста выполняют с использованием дополнительных систем и/или подсистем. В зависимости от содержания запроса, вводимого пользователем для формирования достоверного ответа, может возникнуть необходимость в использовании функций дополнительных систем и/или подсистем, таких как система глобального позиционирования и прочие. Таким образом, обеспечивается формирование точного исчерпывающего ответа на запрос пользователя.
Предпочтительна реализация способа, при которой в формируемый диалоговым модулем ответ на запрос включают дополнительные метаданные, при этом в дополнительные метаданные включают инструкции, направляемые дополнительным системам и/или подсистемам. Указанные дополнительные метаданные являются дополнением к ответу, сформированному диалоговым модулем. Указанные метаданные могут содержать информацию об эмоциональной окраске формируемого ответа информационной диалоговой системы, которую отображают на дисплее и/или воспроизводят посредством подсистемы генерации и воспроизведения голоса, инструкции, направляемые дополнительным системам и/или подсистемам. Таким образом, присутствие каких-либо эмоций в ответе создает у пользователя впечатление общения с живым собеседником, тем самым повышая удобство взаимодействия с информационной диалоговой системой. Кроме того, указанные метаданные могут дополнительно содержать расширения ответов, специфичные для реализации конкретной диалоговой подсистемы.
Формируемый диалоговым модулем ответ также может быть рассмотрен как уточняющий запрос, направленный пользователю, выполняющему взаимодействие с информационной диалоговой системой, или как действие информационной диалоговой системы, сопровождаемое текстом, отображаемым на дисплее, и/или голосовой репликой. Например, пользователь ввел запрос, содержащий команду отправки СМС сообщения. Ответом системы будет выполнение отправки СМС сообщения и текстовое и/или голосовое подтверждение выполнения запроса. Заявляемый способ коммуникации может выполняться циклично, при этом цикл реализации способа завершают по инициативе пользователя. Таким образом, реализуется диалог пользователя с информационной диалоговой системой, то есть каждый раз после получения ответа пользователь вводит новый или уточняющий запрос.
Заявляемое изобретение поясняется при помощи чертежа, где представлена обобщенная блок-схема реализации способа коммуникации пользователя с информационной диалоговой системой.
На чертеже изображена обобщенная блок-схема реализации способа коммуникации пользователя с информационной диалоговой системой, содержащая обязательные для выполнения и опциональные этапы способа коммуникации пользователя с информационной диалоговой системой, такие как:
1 - активация пользователем подсистемы пользовательского ввода и ввод пользователем запроса, при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода;
2 - передача текста, полученного в результате преобразования, диалоговому модулю, после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос;
3 - передача ответа пользователю;
4 - отображение сформированного ответа в виде текста на дисплее;
5 - воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса, после чего выполняют автоматическую активацию подсистемы пользовательского ввода;
6 - нажатие пользователем дополнительных кнопок (например, отключение компонента записи и распознавания голоса);
7 - выполнение соответствующих дополнительным кнопкам действий;
8 - взаимодействие с дополнительными системами и/или подсистемами (отправка диалоговым модулем запроса дополнительной системе и/или подсистеме, обработка системой и/или подсистемой полученного запроса, передача результата диалоговому модулю);
9 - взаимодействие с профилем пользователя (отправка диалоговым модулем запроса, получение информации из профиля пользователя);
10 - взаимодействие с клиентской памятью.
Этапы 6, 7, 8, 9, 10 являются факультативными.
Далее описаны примеры осуществления способа коммуникации пользователя с информационной диалоговой системой.
А) Автоматический запуск компонента записи и распознавания после выполнения отображения и/или воспроизведения сформированного ответа
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом пользователь имеет возможность отключить компонент записи и распознавания голоса. В случае, если ввод следующего запроса пользователь выполняет с помощью клавиатуры, компонент записи и распознавания автоматически деактивируют.
Б) Отключение компонента записи и распознавания голоса
Б 1) Как упоминалось ранее, ответ, формируемый диалоговым модулем, может содержать дополнительные метаданные, на ознакомление с которыми необходимо дополнительное время, следовательно, целесообразно не активировать подсистему пользовательского ввода, в частности компонент записи и распознавания голоса.
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом автоматическую активацию компонента записи и распознавания голоса не выполняют.
Б 2) Как упоминалось ранее, в ответ информационной диалоговой системы могут включать дополнительные метаданные, а в них - инструкции, направляемые дополнительным системам и/или подсистемам. В таком случае целесообразно не активировать компонент записи и распознавания голоса.
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5), при этом автоматическую активацию компонента записи и распознавания голоса не выполняют.
В) Автоматическая активация компонента записи и распознавания голоса по истечении заданного промежутка времени
Как упоминалось ранее, ответ, формируемый диалоговым модулем, может содержать дополнительные метаданные, на ознакомление с которыми необходимо дополнительное время, следовательно, целесообразно активировать подсистему пользовательского ввода, в частности компонента записи и распознавания голоса по истечении некоторого промежутка времени.
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4) и/или воспроизведение сформированного ответа в виде голосовой реплики посредством подсистемы генерации и воспроизведения голоса (5). Затем выполняют автоматическую активацию подсистемы пользовательского ввода, при этом автоматическую активацию компонента записи и распознавания голоса выполняют по истечении заранее заданного диалоговым модулем интервала времени.
Г) Отключение подсистемы генерации и воспроизведения голоса
Как упоминалось ранее, ответ, формируемый диалоговым модулем, может быть отображен и/или воспроизведен. В случае если пользователю достаточно, чтобы ответ был отображен на дисплее в виде текста, воспроизведение ответа не выполняют, и, следовательно, активацию подсистемы генерации и воспроизведения голоса не выполняют.
Пользователь активирует подсистему пользовательского ввода и выполняет ввод запроса (1), при этом выполняют прием и преобразование запроса пользователя в текст посредством подсистемы пользовательского ввода, передачу текста, полученного в результате преобразования, диалоговому модулю (2); после чего посредством диалогового модуля выполняют обработку полученного текста и формирование диалоговым модулем ответа на запрос. Затем выполняют передачу ответа пользователю (3), после чего выполняют отображение сформированного ответа в виде текста на дисплее (4), при этом не выполняют активацию компонента записи и распознавания голоса.
Таким образом, реализация способа коммуникации пользователя с информационной диалоговой системой обеспечивает упрощение взаимодействия пользователя с информационной диалоговой системой, уменьшение количества необходимых для выполнения коммуникации действий, а также обеспечивает возможность взаимодействия с указанной системой не только посредством ввода текста, но и с использованием естественного языка.

Claims (16)

1. Способ функционирования информационной диалоговой системы, включающий этапы:
активации подсистемы пользовательского ввода,
получения подсистемой пользовательского ввода запроса пользователя и преобразования запроса пользователя в текст,
обработки диалоговым модулем полученного текста,
формирования диалоговым модулем ответа на запрос,
отображения и/или воспроизведения сформированного ответа, отличающийся тем, что после отображения и/или воспроизведения сформированного ответа по истечении заранее заданного интервала времени после отображения и/или воспроизведения сформированного ответа выполняют автоматическую повторную активацию подсистемы пользовательского ввода для обеспечения возможности получения нового или уточняющего запроса от пользователя.
2. Способ по п.1, отличающийся тем, что упомянутый интервал времени заранее задан диалоговым модулем.
3. Способ по п.1, отличающийся тем, что информационная диалоговая система выполнена с возможностью приема запроса пользователя, представленного в виде голосовой команды и/или с использованием клавиатуры.
4. Способ по п.1, отличающийся тем, что формирование диалоговым модулем ответа выполняют в виде текста.
5. Способ по п.1, отличающийся тем, что воспроизведение сформированного ответа дополнительно выполняют посредством подсистемы генерации и воспроизведения голоса.
6. Способ по п.1, отличающийся тем, что отображение и/или воспроизведение сформированного ответа выполняют посредством обеспечения звукового сообщения и/или отображения текста на дисплее.
7. Способ по п.1, отличающийся тем, что в формируемый диалоговым модулем ответ на запрос включают дополнительные метаданные.
8. Способ по п.7, отличающийся тем, что в дополнительные метаданные включают инструкции, направляемые дополнительным системам и/или подсистемам.
9. Способ по п.1, отличающийся тем, что этапы способа выполняют циклично.
10. Способ по п.1, отличающийся тем, что активация подсистемы пользовательского ввода осуществляется пользователем при нажатии программной кнопки.
11. Способ по п.1, отличающийся тем, что автоматическую повторную активацию подсистемы пользовательского ввода осуществляют на заранее предопределенный период времени.
12. Способ по п.1, отличающийся тем, что дополнительно содержит этап, на котором деактивируют подсистемы пользовательского ввода после ее автоматической повторной активации.
13. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода и диалоговый модуль выполнены в мобильном телефоне.
14. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода и диалоговый модуль выполнены в портативном или стационарном компьютере.
15. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода содержит компонент записи и распознавания голоса.
16. Способ по п.1, отличающийся тем, что подсистема пользовательского ввода содержит клавиатуру.
RU2012150996/08A 2012-11-28 2012-11-28 Способ коммуникации пользователя с информационной диалоговой системой RU2530267C2 (ru)

Priority Applications (8)

Application Number Priority Date Filing Date Title
RU2012150996/08A RU2530267C2 (ru) 2012-11-28 2012-11-28 Способ коммуникации пользователя с информационной диалоговой системой
PCT/IB2012/056955 WO2014083389A1 (ru) 2012-11-28 2012-12-04 Способ коммуникации пользователя с информационной диалоговой системой
US14/721,012 US9564149B2 (en) 2012-11-28 2015-05-26 Method for user communication with information dialogue system
US15/395,476 US10102854B2 (en) 2012-11-28 2016-12-30 Dialog system with automatic reactivation of speech acquiring mode
US15/720,854 USRE47974E1 (en) 2012-11-28 2017-09-29 Dialog system with automatic reactivation of speech acquiring mode
US16/137,069 US10748537B2 (en) 2012-11-28 2018-09-20 Dialog system with automatic reactivation of speech acquiring mode
US16/990,525 US11355117B2 (en) 2012-11-28 2020-08-11 Dialog system with automatic reactivation of speech acquiring mode
US17/747,707 US20220277745A1 (en) 2012-11-28 2022-05-18 Dialog system with automatic reactivation of speech acquiring mode

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2012150996/08A RU2530267C2 (ru) 2012-11-28 2012-11-28 Способ коммуникации пользователя с информационной диалоговой системой

Publications (2)

Publication Number Publication Date
RU2012150996A RU2012150996A (ru) 2014-06-27
RU2530267C2 true RU2530267C2 (ru) 2014-10-10

Family

ID=50827238

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012150996/08A RU2530267C2 (ru) 2012-11-28 2012-11-28 Способ коммуникации пользователя с информационной диалоговой системой

Country Status (3)

Country Link
US (1) US9564149B2 (ru)
RU (1) RU2530267C2 (ru)
WO (1) WO2014083389A1 (ru)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2705465C2 (ru) * 2014-12-04 2019-11-07 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Классификация типа эмоции для интерактивной диалоговой системы
RU2737598C1 (ru) * 2020-02-04 2020-12-01 Павел Андреевич Морозов Способ формирования оперативной информации на основе формализованной концептуальной модели предметной области
RU2741622C2 (ru) * 2016-04-28 2021-01-29 Масуд АМРИ Система голосового управления

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646611B2 (en) 2014-11-06 2017-05-09 Microsoft Technology Licensing, Llc Context-based actions
US9922098B2 (en) 2014-11-06 2018-03-20 Microsoft Technology Licensing, Llc Context-based search and relevancy generation
US10203933B2 (en) 2014-11-06 2019-02-12 Microsoft Technology Licensing, Llc Context-based command surfacing
US11722598B2 (en) * 2015-01-06 2023-08-08 Cyara Solutions Pty Ltd System and methods for an automated chatbot testing platform
WO2017179262A1 (ja) * 2016-04-12 2017-10-19 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10963493B1 (en) 2017-04-06 2021-03-30 AIBrain Corporation Interactive game with robot system
US10810371B2 (en) 2017-04-06 2020-10-20 AIBrain Corporation Adaptive, interactive, and cognitive reasoner of an autonomous robotic system
US11151992B2 (en) 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
US10839017B2 (en) 2017-04-06 2020-11-17 AIBrain Corporation Adaptive, interactive, and cognitive reasoner of an autonomous robotic system utilizing an advanced memory graph structure
US10929759B2 (en) 2017-04-06 2021-02-23 AIBrain Corporation Intelligent robot software platform
CN110019848A (zh) * 2017-12-22 2019-07-16 深圳市优必选科技有限公司 对话交互方法、装置及机器人
CN109086368A (zh) * 2018-07-20 2018-12-25 吴怡 一种基于人工智能云平台的法律咨询机器人
US11100933B2 (en) 2019-04-17 2021-08-24 Tempus Labs, Inc. Collaborative artificial intelligence method and system
CN112507103A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 任务型对话及模型训练方法、装置、设备和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0028810D0 (en) * 2000-11-25 2001-01-10 Hewlett Packard Co Voice communication concerning a local entity
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US8055713B2 (en) * 2003-11-17 2011-11-08 Hewlett-Packard Development Company, L.P. Email application with user voice interface
ATE415684T1 (de) * 2004-01-29 2008-12-15 Harman Becker Automotive Sys Verfahren und system zur sprachdialogschnittstelle
TWI277948B (en) * 2005-09-02 2007-04-01 Delta Electronics Inc Method and system for template inquiry dialogue system
JP5025353B2 (ja) * 2007-07-03 2012-09-12 ニュアンス コミュニケーションズ,インコーポレイテッド 対話処理装置、対話処理方法及びコンピュータ・プログラム
US8370160B2 (en) * 2007-12-31 2013-02-05 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
WO2011004305A1 (en) * 2009-07-05 2011-01-13 Delegate Communications Ltd. System and method for brokering communication dependent tasks
KR101649911B1 (ko) * 2010-01-04 2016-08-22 삼성전자 주식회사 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법
JP6078964B2 (ja) * 2012-03-26 2017-02-15 富士通株式会社 音声対話システム及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
А.В. Фролов и др., "Синтез и распознавание речи. Современные решения", 14.10.2012, [он-лайн, 08.07.2013], Найдено в Интернет: URL. Ryosuke ISOTANI ey al, " Speech-to-Speech Translation Software on PDAs for Travel Conversation", april 2003, [он-лайн, 08.07.2013], Найдено в Интернет: URL. " Настройка голосовых команд", 1995-2010, [он-лайн, 15.07.2013], Найдено в Интернет: URL. "Использование голосового управления", 1995-2010, [он-лайн, 15.07.2013], Найдено в Интернет: URL *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2705465C2 (ru) * 2014-12-04 2019-11-07 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Классификация типа эмоции для интерактивной диалоговой системы
US10515655B2 (en) 2014-12-04 2019-12-24 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
RU2741622C2 (ru) * 2016-04-28 2021-01-29 Масуд АМРИ Система голосового управления
RU2737598C1 (ru) * 2020-02-04 2020-12-01 Павел Андреевич Морозов Способ формирования оперативной информации на основе формализованной концептуальной модели предметной области

Also Published As

Publication number Publication date
WO2014083389A1 (ru) 2014-06-05
US9564149B2 (en) 2017-02-07
US20150255089A1 (en) 2015-09-10
RU2012150996A (ru) 2014-06-27

Similar Documents

Publication Publication Date Title
RU2530267C2 (ru) Способ коммуникации пользователя с информационной диалоговой системой
US10489112B1 (en) Method for user training of information dialogue system
US11470022B2 (en) Automated assistants with conference capabilities
KR102419513B1 (ko) 캡처된 이미지들과 관련된 메타 데이터 저장
US11735182B2 (en) Multi-modal interaction between users, automated assistants, and other computing services
US20170046124A1 (en) Responding to Human Spoken Audio Based on User Input
US8701020B1 (en) Text chat overlay for video chat
CN110050303B (zh) 基于第三方代理内容的语音到文本转换
KR20210008521A (ko) 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드
JP2023015054A (ja) 自動化アシスタントを呼び出すための動的および/またはコンテキスト固有のホットワード
KR20190139966A (ko) 선택가능한 그래픽 엘리먼트를 통해 자동화된 에이전트로 대화를 초기화하기
JP7297797B2 (ja) 保留を管理するための方法および装置
US20240169989A1 (en) Multimodal responses
JP2023017791A (ja) アシスタントデバイスのディスプレイにレンダリングするコンテンツの選択
US10997963B1 (en) Voice based interaction based on context-based directives
CN117540805A (zh) 数据处理方法、装置、电子设备及存储介质
CN104765686B (zh) 测试应用程序的方法及装置
Omyonga et al. The application of real-time voice recognition to control critical mobile device operations
US20200075002A1 (en) Multimodal responses
US9213695B2 (en) Bridge from machine language interpretation to human language interpretation
US20230343336A1 (en) Multi-modal interaction between users, automated assistants, and other computing services

Legal Events

Date Code Title Description
PD4A Correction of name of patent owner
PC41 Official registration of the transfer of exclusive right

Effective date: 20170417

MM4A The patent is invalid due to non-payment of fees

Effective date: 20191129