KR102360062B1 - 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체 - Google Patents

음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체 Download PDF

Info

Publication number
KR102360062B1
KR102360062B1 KR1020200003285A KR20200003285A KR102360062B1 KR 102360062 B1 KR102360062 B1 KR 102360062B1 KR 1020200003285 A KR1020200003285 A KR 1020200003285A KR 20200003285 A KR20200003285 A KR 20200003285A KR 102360062 B1 KR102360062 B1 KR 102360062B1
Authority
KR
South Korea
Prior art keywords
target
interaction
voice
characteristic information
attribute
Prior art date
Application number
KR1020200003285A
Other languages
English (en)
Other versions
KR20200124595A (ko
Inventor
카이위 리
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200124595A publication Critical patent/KR20200124595A/ko
Application granted granted Critical
Publication of KR102360062B1 publication Critical patent/KR102360062B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/021Optical sensing devices
    • B25J19/023Optical sensing devices including video camera means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/1653Programme controls characterised by the control loop parameters identification, estimation, stiffness, accuracy, error analysis
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Robotics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체를 제공한다. 상기 음성 인터랙션 방법은 지능형 로봇에 응용되고, 상기 음성 인터랙션 방법은 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 단계; 및 상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.

Description

음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체{VOICE INTERACTION METHOD, DEVICE, INTELLIGENT ROBOT AND COMPUTER READABLE STORAGE MEDIUM}
본 발명의 실시예는 로봇 기술 분야에 관한 것으로, 특히, 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
지능형 로봇은 음성 인식의 정확도와 의미 이해 능력이 지속적으로 높아짐에 따라 시장 수요가 증가되어 그 사용도 점점 광범위해지고 있다.
지능형 로봇은 사용자에게 서비스를 제공하는 과정에서 종종 사용자와 음성 인터랙션을 진행하게 된다. 일반적으로 각종 경우, 지능형 로봇은 모두 고정적인 음성 인터랙션 전략을 사용하는데 지능형 로봇이 음성 인터랙션을 진행할 때 사용하는 전략이 매우 단일하여 음성 인터랙션의 효과가 떨어지게 된다.
본 발명의 실시예는 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체를 제공하여 지능형 로봇이 음성 인터랙션을 진행할 때 사용하는 전략이 매우 단일하여 음성 인터랙션의 효과가 떨어지게 되는 문제를 해결하도록 한다.
상술한 과제를 해결하기 위해, 본 발명은 하기와 같이 실현한다.
제1양태에 따르면, 본 발명의 실시예는 지능형 로봇에 응용되는 음성 인터랙션 방법을 제공한다. 상기 음성 인터랙션 방법은,
음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 단계; 및
상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함한다.
제2양태에 따르면, 본 발명의 실시예는 지능형 로봇에 응용되는 음성 인터랙션 장치를 제공한다. 상기 음성 인터랙션 장치는,
음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 획득 모듈; 및
상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 인터랙션 모듈을 포함한다.
제3양태에 따르면, 본 발명의 실시예는 프로세서, 메모리 및 상기 메모리에 저장되고 상기 프로세서에 의해 실행 가능한 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 상기 음성 인터랙션 방법의 단계를 수행하는 지능형 로봇을 제공한다.
제4양태에 따르면, 본 발명의 실시예는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기 음성 인터랙션 방법의 단계를 수행하는 컴퓨터 판독 가능 저장 매체를 제공한다.
본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득하고 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행할 수 있다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.
본 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위해 이하 본 발명의 실시예의 설명에서 사용되는 첨부 도면에 대해 간단히 소개하며 아래에서 설명되는 도면은 발명의 일부 실시예일 뿐 본 발명이 속하는 기술분야의 통상의 기술자에게 있어서 진보성 창출에 힘 쓸 필요없이 이러한 도면으로부터 다른 도면을 얻을 수 있음은 자명하다.
도 1은 본 발명의 실시예에 따른 음성 인터랙션 방법의 제1 흐름도이다.
도 2는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제2 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성 인터랙션 방법의 제3 흐름도이다.
도 4는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제4 흐름도이다.
도 5는 본 발명의 실시예에 따른 음성 인터랙션 장치의 구조 블록도이다.
도 6은 본 발명의 실시예에 따른 지능형 로봇의 구조 모식도이다.
이하, 본 발명의 실시예의 첨부 도면을 참조로 하여 본 발명의 실시예의 기술적 해결 수단에 대해 명확하고 완전하게 설명하고, 설명된 실시예는 본 발명의 부분적 실시예일 뿐 모든 실시예가 아니다. 본 기술분야의 통상의 기술자가 본 발명의 실시예에 따라 진보성 창출에 힘쓸 필요없이 획득한 모든 다른 실시예는 모두 본 발명의 보호범위에 속한다.
도 1을 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제1 흐름도를 도시한 것이다. 도 1에 도시된 바와 같이, 상기 음성 인터랙션 방법은 지능형 로봇에 응용되며, 상기 음성 인터랙션 방법은 하기와 같은 단계를 포함한다.
단계 101에서, 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득한다.
여기서, 인터랙션 대상은 지능형 로봇의 서비스 대상이라고도 할 수 있다.
선택적으로, 대상 특징 정보는,
대상 음성 출력 파라미터, 대상 정서 및 대상 속성 중 적어도 하나를 포함하고,
대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 상기 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함한다.
여기서, 대상 연령 속성은 어린이 속성, 청년 속성, 중년 속성, 노년 속성 등을 포함할 수 있고, 대상 성별 속성은 남성 속성, 여성 속성 등을 포함할 수 있으며, 대상 피부색 속성은 황색 피부 속성, 백색 피부 속성, 검은색 피부 속성 등을 포함할 수 있다.
단계 102에서, 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행한다.
여기서, 음성 출력 파라미터는 음성 방송 속도, 음성 방송 볼륨, 음성 방송 음색 등을 포함하지만 이에 한정되지 않는다.
인터랙션 대상의 대상 특징 정보를 획득한 후, 지능형 로봇은 획득한 대상 특징 정보에 매칭되는 음성 방송 파라미터를 결정할 수 있고, 여기서, 임의의 대상 특징 정보에 매칭되는 음성 방송 파라미터는 해당 대상 특징 정보를 가진 대상에게 보다 우수한 인터랙션 체험을 느낄 수 있는 음성 방송 파라미터를 의미한다. 이로써, 지능형 머신은 결정된 음성 방송 파라미터에 따라 인터랙션 대상과 음성 인터랙션을 진행하는 경우, 인터랙션 대상의 인터랙션 체험이 보장될 수 있고 상응하게 음성 인터랙션 효과도 보장될 수 있다.
본 발명의 실시예에서, 음성 인터랙션 상황에서 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득하여 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라 인터랙션 대상과 음성 인터랙션을 진행할 수 있다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.
선택적으로, 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하는 단계를 포함한다.
여기서, 목표 시간은 기설정된 시간일 수 있거나 지능형 로봇이 램덤으로 결정된 시간일 수 있다. 구체적으로, 목표 시간은 1분, 2분, 5분 또는 다른 시간일 수 있으며 여기서 일일이 열거하지 않는다.
구체적으로, 목표 시간(예를 들어, 2분) 내의 인터랙션 대상의 음성 출력 글자수가 통계된 후에 목표 시간 및 통계된 음성 출력 글자수에 따라 인터랙션 대상이 단위 시간 내의 음성 출력 글자수를 계산하여 얻을 수 있다. 예를 들어, 통계된 음성 출력 글자수에서 2분을 나누면 인터랙션 대상의 1분 내의 음성 출력 글자수를 얻을 수 있다. 그 후, 지능형 로봇은 인터랙션 대상의 단위 시간 내의 음성 출력 글자수를 인터랙션 대상의 대상 어속으로 사용할 수 있다.
인터랙션 대상의 대상 어속을 획득하는 조작은 구현이 매우 편리하다는 것을 알 수 있다.
선택적으로, 지능형 로봇은 카메라를 포함하고,
인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하여 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 단계를 포함한다.
여기서, 지능형 로봇에 포함되는 카메라는 구체적으로 전방 카메라일 수 있다.
구체적으로, 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출한 후 지능형 로봇은 수집한 안면 이미지에 대해 분석을 진행하여 안면 이미지에 예를 들어, 얼굴 찡그림, 얼굴 조임, 긴장한 표정 등과 같은 불안 정서를 나타내는 안면 특징이 존재하는 지를 결정한다. 결정 결과가 존재한다는 결과일 경우에, 지능형 로봇은 인터랙션 대상의 대상 정서가 불안 정서이라고 판정할 수 있고 결정 결과가 존재하지 않을 경우에, 지능형 로봇은 인터랙션 대상의 대상 정서가 불안 정서가 아니라고 판정할 수 있다.
대상 속성도 카메라가 수집한 안면 이미지를 호출하여 분석함으로써 획득할 수 있음에 유의해야 한다.
인터랙션 대상의 대상 정서를 획득하는 조작은 구현이 매우 편리하다는 것을 알 수 있다.
도 2를 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제2 흐름도를 도시한 것이다. 도 2에 도시된 바와 같이, 상기 음성 인터랙션 방법은 지능형 로봇에 응용되며, 상기 음성 인터랙션 방법은 하기와 같은 단계를 포함한다.
단계 201에서, 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하고, 대상 특징 정보는 대상 음성 출력 파라미터를 포함하며 대상 음성 출력 파라미터는 대상 어속을 포함한다.
여기서, 인터랙션 대상은 지능형 로봇의 서비스 대상이라고도 할 수 있다.
대상 음성 출력 파라미터는 대상 어속을 포함하는 외에 대상 볼륨 및 대상 음색 중 적어도 하나를 더 포함할 수 있고 대상 특징 정보는 대상 음성 출력 파라미터를 포함하는 외에 대상 정서 및 대상 속성 중 적어도 하나를 포함할 수 있으며 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어로 하나를 포함할 수 있다는 것에 유의해야 한다.
단계 202에서, 대상 어속에 대응되는 음성 방송 속도를 결정하고,
단계 203에서, 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행한다.
여기서, 대상 어속 범위와 음성 방송 속도 사이의 대응 관계를 지능형 로봇에 미리 저장할 수 있다(이하 설명에 나타나는 대응 관계와 구분하기 위해 이하에서 제1 대응 관계라 일컫는다). 여기서 임의의 대상 어속 범위에 대응되는 음성 방송 속도와 해당 대상 어속 범위 내의 대상 어속은 매우 접근한다.
인터랙션 대상의 대상 특징 정보는 대상 어속을 포함하므로 지능형 로봇은 대상 특징 정보의 대상 어속에 속하는 대상 어속 범위를 먼저 획득할 수 있고, 다음 제1 대응 관계에 따라 획득한 대상 어속 범위에 대응되는 음성 방송 속도를 결정할 수 있으며, 마지막으로 지능형 로봇은 결정된 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행할 수 있다는 것에 유의해야 한다.
구체적으로, 본 발명의 실시예의 지능형 로봇이 공항 내의 안내 서비스 로봇이라고 가정하면 지능형 로봇이 사용자를 위해 안내 서비스를 제공할 경우에 만약 사용자가 정상적인 어속으로 질문하면 지능형 로봇은 정상적인 음성 방송 속도로 사용자의 질문을 대답할 수 있고, 만약 사용자가 비교적 빠른 어속으로 질문할 때 지능형 로봇은 비교적 빠른 음성 방송 속도로 사용자의 질문을 대답할 수 있으며, 만약 사용자가 비교적 느린 어속으로 질문할 때 지능형 로봇은 비교적 느린 음성 방송 속도로 사용자의 질문을 대답할 수 있다.
대상 어속에 대응되는 음성 방송 속도를 결정할 경우, 제1 대응 관계를 지능형 로봇에 미리 저장하지 않을 수도 있는데, 이 경우 지능형 로봇이 대상 어속 자체를 대응되는 음성 방송 속도로 사용하는 것 역시 가능하다는 것에 유의해야 한다.
본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득할 수 있고 대상 특징 정보의 대상 어속에 대응되는 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 대상 어속에 따라, 사용되는 음성 방송 속도를 원활하게 조절할 수 있는데, 인터랙션 대상의 대상 어속이 비교적 빠를 경우에 지능형 로봇의 음성 방송 속도는 비교적 빠르고 인터랙션 대상의 대상 어속이 비교적 느린 경우에 지능형 로봇의 음성 방송 속도는 비교적 느리다. 이는 고정된 음성 방송 속도로 인해 인터랙션 대상의 불편을 일으키는 것을 피할 수 있어 인터랙션 대상의 인터랙션 체험을 향상시키고 음성 인터랙션 효과를 향상시킨다.
도 3을 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제3 흐름도를 도시한 것이다. 도 3에 도시된 바와 같이, 상기 음성 인터랙션 방법은 지능형 로봇에 응용되며, 상기 음성 인터랙션 방법은 하기와 같은 단계를 포함한다.
단계 301에서, 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하고, 대상 특징 정보는 대상 정서를 포함한다.
여기서, 인터랙션 대상은 지능형 로봇의 서비스 대상이라고도 할 수 있다.
대상 특징 정보는 대상 정서를 포함하는 외에 대상 음성 출력 파라미터 및 대상 속성 중 적어도 하나를 더 포함할 수 있고, 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함할 수 있으며, 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어로 하나를 포함할 수 있다는 것에 유의해야 한다.
단계 302에서, 대상 정서가 불안한 정서인 경우, 제1 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하며, 여기서 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠르다.
여기서, 제2 대응 관계를 지능형 로봇에 미리 저장할 수 있고 제2 대응 관계에서 불안 정서와 제1 음성 방송 속도가 대응되고 불안이 아닌 정서와 제2 음성 방송 속도가 대응되며, 또한, 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠르다.
인터랙션 대상의 대상 특징 정보는 대상 정서를 포함하기에 지능형 로봇은 대상 특징 정보의 대상 정서가 불안 정서인지를 판단할 수 있음에 유의해야 한다. 결정 결과가 불안 정서인지의 여부와 상관없이 제2 대응 관계에 따라 지능형 로봇은 대상 특징 정보의 대상 정서에 대응되는 음성 방송 속도를 모두 결정할 수 있으며 다음으로 지능형 로봇은 결정된 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행할 수 있다.
구체적으로, 본 발명의 실시예의 지능형 로봇이 공항 내의 안내 서비스 로봇이라고 가정하면 지능형 로봇이 사용자를 위해 안내 서비스를 제공할 경우에 만약 사용자가 급하게 탑승하려고 하지만 탑승구를 찾지 못하면 사용자는 불안 정서를 느끼게 된다. 이때, 지능형 로봇은 비교적 빠른 음성 방송 속도로 사용자의 질문을 답변하여 사용자로 하여금 최대한 빨리 탑승구를 찾도록 도와준다.
지능형 로봇은 제2 대응 관계를 지능형 로봇에 미리 저장하지 않을 수도 있고 지능형 로봇은 다른 방식으로 대상 정서에 대응되는 음성 방송 속도를 결정할 수 있으며 지능형 로봇으로 하여금 인터랙션 대상이 불안 정서인 경우의 음성 방송 속도가 불안 정서가 아닌 경우의 음성 방송 속도보다 빠르도록 유지하기만 된다는 것에 유의해야 한다.
본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득할 수 있고 대상 특징 정보의 대상 정서에 대응되는 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 대상 정서에 따라, 사용되는 음성 방송 속도를 원활하게 조절할 수 있는데, 인터랙션 대상의 대상 정서가 불안 정서인 경우에 지능형 로봇의 음성 방송 속도는 비교적 빠르고 인터랙션 대상의 대상 정서가 불안 정서가 아닌 경우에 지능형 로봇의 음성 방송 속도는 비교적 느리다. 이는 고정된 음성 방송 속도로 인해 인터랙션 대상의 불편을 일으키는 것을 피할 수 있어 인터랙션 대상의 인터랙션 체험을 향상시키고 음성 인터랙션 효과를 향상시킨다.
도 4를 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제4 흐름도를 도시한 것이다. 도 4에 도시된 바와 같이, 상기 음성 인터랙션 방법은 지능형 로봇에 응용되며, 상기 음성 인터랙션 방법은 하기와 같은 단계를 포함한다.
단계 401에서, 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하고, 여기서 대상 특징 정보는 대상 속성을 포함하고 대상 속성은 대상 연령 속성을 포함한다.
여기서, 인터랙션 대상은 지능형 로봇의 서비스 대상이라고도 할 수 있다.
대상 속성은 대상 연령 속성을 포함하는 외에 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 더 포함할 수 있고 대상 특징 정보는 대상 속성 외에 음성 출력 파라미터 및 대상 정서 중 적어도 하나를 더 포함할 수 있으며, 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어로 하나를 포함할 수 있다는 것에 유의해야 한다.
단계 402에서, 연령 속성에 대응되는 음성 방송 음색을 결정한다.
단계 403에서, 음성 방송 음색으로 인터랙션 대상과 음성 인터랙션을 진행한다.
여기서, 연령 속성 및 음성 방송 음색 사이의 대응 관계를 지능형 로봇에 미리 저장할 수 있다(앞의 설명에 나타나는 대응 관계와 구분하기 위해 이하에서 제3 대응 관계라 일컫는다). 구체적으로, 제3 대응 관계에서, 어린이 속성에 대응되는 음성 방송 음색은 어린이의 여리고 귀여운 음색일 수 있고 중년 속성에 대응되는 음성 방송 음색은 중년인의 우렁차고 성숙된 음색일 수 있으며 노인 속성에 대응되는 음성 방송 음색은 노인의 신중하고 따뜻한 음색일 수 있다. 이 경우, 인터랙션 대상의 대상 특징 정보가 연령 속성을 포함하는 경우에, 지능형 로봇은 제3 대응 관계에 따라 대상 특징 정보의 연령 속성에 대응되는 음성 방송 음색을 결정하고 또한 결정된 음성 방송 음색에 따라 인터랙션 대상과 음성 인터랙션을 진행할 수 있다.
구체적으로, 본 발명의 실시예의 지능형 로봇이 공항 내의 안내 서비스 로봇이라고 가정하면 지능형 로봇이 사용자를 위해 안내 서비스를 제공할 경우에, 만약 질문한 사용자가 어린이이면 지능형 로봇은 여리고 귀여운 음색으로 사용자의 질문을 대답하고 만약 질문한 사용자가 중년인이면 지능형 로봇은 우렁차고 성숙된 음색으로 사용자의 질문을 대답하며 만약 질문한 사용자가 노인이면 지능형 로봇은 신중하고 따뜻한 음색으로 사용자의 질문을 대답한다.
본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득할 수 있고 대상 특징 정보의 대상 연령 속성에 대응되는 음성 방송 음색으로 인터랙션 대상과 음성 인터랙션을 진행한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 대상 연령 속성에 따라, 사용되는 음성 방송 음색을 원활하게 조절하여 인터랙션 과정의 재미를 증가시켜 인터랙션 대상의 인터랙션 체험을 향상시키고 음성 인터랙션 효과를 향상시킬 수 있다.
종합적으로, 종래 기술에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.
도 5를 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 장치(500)의 구조 블록도를 도시한 것이다. 도 4에 도시된 바와 같이, 음성 인터랙션 장치(500)는,
음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 획득 모듈(501); 및
대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행하는 인터랙션 모듈(502)을 포함한다.
선택적으로, 대상 특징 정보는,
대상 음성 출력 파라미터, 대상 정서 및 대상 속성 중 적어도 하나를 포함하고,
여기서, 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함한다.
선택적으로, 대상 특징 정보는 대상 음성 출력 파라미터를 포함하고, 대상 음성 출력 파라미터는 대상 어속을 포함하며,
인터랙션 모듈(502)은,
대상 어속에 대응되는 음성 방송 속도를 결정하는 제1 결정 유닛; 및
음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 제1 인터랙션 유닛을 포함한다.
선택적으로, 대상 특징 정보는 대상 정서를 포함하고,
인터랙션 모듈(502)은 구체적으로,
대상 정서가 불안한 정서인 경우, 제1 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하며,
여기서, 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠르다.
선택적으로, 대상 특징 정보는 대상 속성을 포함하고 대상 속성은 대상 연령 속성을 포함하며,
인터랙션 모듈(502)은,
연령 속성에 대응되는 음성 방송 음색을 결정하는 제2 결정 유닛; 및
음성 방송 음색으로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 제2 인터랙션 유닛을 포함한다.
선택적으로, 획득 모듈(501)은 구체적으로,
기설정된 시간 내에 인터랙션 대상의 음성 출력 글자수를 통계하고 기설정된 시간 및 음성 출력 글자수에 따라 인터랙션 대상의 대상 어속을 계산한다.
선택적으로, 지능형 로봇은 카메라를 포함하고,
획득 모듈(501)은 구체적으로,
카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하여, 안면 이미지에 따라 인터랙션 대상의 대상 정서를 획득한다.
본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득할 수 있고 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.
도 6을 참조하면, 도면에서는 본 발명의 실시예에 따른 지능형 로봇의 구조 모식도를 도시한 것이다. 도 6에 도시된 바와 같이, 지능형 로봇(600)은 프로세서(601), 메모리(603), 사용자 인터페이스(604) 및 버스 인터페이스를 포함한다.
프로세서(601)는 메모리(603)의 프로그램을 판독하며 하기와 같은 과정을 수행한다.
음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하고;
대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행한다.
도 6에서, 구체적으로, 버스 아키텍처는, 프로세서(601)로 대표되는 하나 또는 복수의 프로세서 및 메모리(603)로 대표되는 메모리의 다양한 전기회로에 의해 연결된 임의의 수량의 상호 연결된 버스와 브릿지를 포함할 수 있다. 버스 아키텍처는 주변 장치, 전압 조정기 및 전력 관리 회로 등과 같은 다양한 다른 회로에 더 연결될 수 있으며 이는 본 발명이 속하는 기술분야에서 공지된 것이므로 본 명세서에서는 이에 대해 더 이상 설명하지 않는다. 버스 인터페이스는 인터페이스를 제공한다. 다양한 사용자 기기에 대해 사용자 인터페이스(604)는 필요한 기기의 인터페이스를 외부 접속 및 내부 접속할 수 있고 연결된 기기는 키패드, 디스플레이, 스피커, 마이크, 조이스틱 등을 포함하지만 이에 한정되지 않는다.
프로세서(601)는 버스 아키텍처 관리 및 일반적인 처리를 수행하고 메모리(603)는 프로세서(601)가 조작을 수행할 때 사용되는 데이터를 저장할 수 있다.
선택적으로, 대상 특징 정보는
대상 음성 출력 파라미터, 대상 정서 및 대상 속성 중 적어도 하나를 포함하고,
여기서, 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함한다.
선택적으로, 대상 특징 정보는 대상 음성 출력 파라미터를 포함하고 대상 음성 출력 파라미터는 대상 어속을 포함하며,
프로세서(601)은 구체적으로,
대상 어속에 대응되는 음성 방송 속도를 결정하고,
음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행한다.
선택적으로, 대상 특징 정보는 대상 정서를 포함하고,
선택적으로, 임의의 제2 출력 결과는 각각의 서브 특징 시퀀스에 포함된 각각의 서브 특징에 대응되는 가중치를 더 포함하며,
프로세서(601)는 구체적으로,
대상 정서가 불안 정서인 경우, 제1 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하며,
여기서, 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠르다.
선택적으로, 대상 특징 정보는 대상 속성을 포함하고 대상 속성은 대상 연령 속성을 포함하며,
구체적으로, 프로세서(601)는 구체적으로,
연령 속성에 대응되는 음성 방송 음색을 결정하고,
음성 방송 음색으로 인터랙션 대상과 음성 인터랙션을 진행한다.
선택적으로, 프로세서(601)는 구체적으로,
인터랙션 대상의 기설정된 시간 내의 음성 출력 글자수를 통계하고 기설정된 시간 및 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산한다.
선택적으로, 지능형 로봇은 카메라를 포함하고,
프로세서(601)는 구체적으로,
카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 안면 이미지에 따라 인터랙션 대상의 대상 정서를 획득한다.
본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇(600)은 인터랙션 대상의 대상 특징 정보를 획득하고 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행할 수 있다. 본 발명의 실시예에서, 지능형 로봇(600)은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇(600)이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇(600)은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.
바람직하게, 본 발명의 실시예는 프로세서(601), 메모리(603) 및 메모리(603)에 저장되어 프로세서(601)에 의해 실행 가능한 컴퓨터 프로그램을 포함하고, 해당 컴퓨터 프로그램이 프로세서(601)에 의해 실행될 경우, 상기 음성 인터랙션 방법의 실시예의 각각의 과정을 실현하고 또한 동일한 기술효과를 얻을 수 있는 지능형 로봇을 더 제공한다. 반복되는 설명을 피하기 위해 여기서 더 이상 설명하지 않는다.
본 발명의 실시예는 컴퓨터 프로그램이 저장되고 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기 음성 인터랙션 방법의 실시예의 각각의 과정을 실현하고 또한 동일한 기술효과를 얻을 수 있는 컴퓨터 판독 가능 저장 매체를 더 제공한다. 반복되는 설명을 피하기 위해 여기서 더 이상 설명하지 않는다. 여기서, 컴퓨터 판독 가능 저장 매체는 판독 전용 메모리(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 콤팩트 디스크 등을 포함한다.
이상, 도면을 참조하여 본 발명의 실시예에 대해 설명했지만 본 발명은 상술한 구체적인 실시 형태에 한정되지 않고, 상술한 구체적인 실시 형태는 예시에 불과한 것으로서 한정적인 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 시사를 받아 본 발명의 사상 및 보호범위를 벗어나지 않는 전제하에서 더욱 많은 형태를 만들 수 있는데 이는 또한 모두 본 발명의 보호범위에 속한다.

Claims (14)

  1. 지능형 로봇에 응용되는 음성 인터랙션 방법에 있어서,
    상기 음성 인터랙션 방법은,
    음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 단계; 및
    상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함하고,
    상기 대상 특징 정보는 대상 음성 출력 파라미터, 대상 정서 및 대상 속성 중 적어도 하나를 포함하고,
    상기 대상 특징 정보는 대상 정서를 포함하고;
    상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계는,
    상기 대상 정서가 불안 정서인 경우, 제1 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하여, 상기 인터랙션 대상이 불안 정서인 경우의 음성 방송 속도가 불안 정서가 아닌 경우의 음성 방송 속도보다 빠르도록 유지하는 단계를 포함하며,
    상기 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠른 것을 특징으로 하는 음성 인터랙션 방법.
  2. 제1항에 있어서,
    상기 대상 음성 출력 파라미터는 대상 어속(speed), 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 상기 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  3. 제2항에 있어서,
    상기 대상 특징 정보는 대상 음성 출력 파라미터를 포함하고, 상기 대상 음성 출력 파라미터는 대상 어속을 포함하며,
    상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계는,
    상기 대상 어속에 대응되는 음성 방송 속도를 결정하는 단계; 및
    상기 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  4. 제2항에 있어서,
    상기 대상 특징 정보는 대상 속성을 포함하고 상기 대상 속성은 대상 연령 속성을 포함하며,
    상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계는,
    상기 연령 속성에 대응되는 음성 방송 음색을 결정하는 단계; 및
    상기 음성 방송 음색으로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  5. 제2항에 있어서,
    상기 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
    인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 상기 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하는 단계를 포함하고,
    상기 지능형 로봇은 카메라를 포함하고;
    상기 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
    상기 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  6. 제2항에 있어서,
    상기 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
    인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 상기 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하는 단계를 포함하고,
    또는,
    상기 지능형 로봇은 카메라를 포함하고;
    상기 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
    상기 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
  7. 지능형 로봇에 응용되는 음성 인터랙션 장치에 있어서,
    상기 음성 인터랙션 장치는,
    음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 획득 모듈; 및
    상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 인터랙션 모듈을 포함하고,
    상기 대상 특징 정보는 대상 음성 출력 파라미터, 대상 정서 및 대상 속성 중 적어도 하나를 포함하고,
    상기 대상 특징 정보는 대상 정서를 포함하고;
    상기 인터랙션 모듈은,
    상기 대상 정서가 불안 정서인 경우, 제1 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하여, 상기 인터랙션 대상이 불안 정서인 경우의 음성 방송 속도가 불안 정서가 아닌 경우의 음성 방송 속도보다 빠르도록 유지하는데 사용하며,
    상기 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠른 것을 특징으로 하는 음성 인터랙션 장치.
  8. 제7항에 있어서,
    상기 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 상기 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
  9. 제8항에 있어서,
    상기 대상 특징 정보는 대상 음성 출력 파라미터를 포함하고, 상기 대상 음성 출력 파라미터는 대상 어속을 포함하며,
    상기 인터랙션 모듈은,
    상기 대상 어속에 대응되는 음성 방송 속도를 결정하는 제1 결정 유닛; 및
    상기 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 제1 인터랙션 유닛을 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
  10. 제8항에 있어서,
    상기 대상 특징 정보는 대상 속성을 포함하고 상기 대상 속성은 대상 연령 속성을 포함하며,
    상기 인터랙션 모듈은,
    상기 연령 속성에 대응되는 음성 방송 음색을 결정하는 제2 결정 유닛; 및
    상기 음성 방송 음색으로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 제2 인터랙션 유닛을 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
  11. 제8항에 있어서,
    상기 획득 모듈은,
    인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 상기 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하고;
    상기 지능형 로봇은 카메라를 포함하고;
    상기 획득 모듈은,
    상기 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 것을 특징으로 하는 음성 인터랙션 장치.
  12. 제8항에 있어서,
    상기 획득 모듈은,
    인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 상기 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하고;
    또는,
    상기 지능형 로봇은 카메라를 포함하고;
    상기 획득 모듈은,
    상기 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 것을 특징으로 하는 음성 인터랙션 장치.
  13. 지능형 로봇에 있어서,
    프로세서;
    메모리; 및
    상기 메모리에 저장되고 상기 프로세서에 의해 실행 가능한 컴퓨터 프로그램을 포함하고,
    상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 제1항 내지 제6항 중 어느 한 항에 따른 음성 인터랙션 방법의 단계를 수행하는 것을 특징으로 하는 지능형 로봇.
  14. 컴퓨터 판독 가능 저장 매체에 있어서,
    컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제6항 중 어느 한 항에 따른 음성 인터랙션 방법의 단계를 수행하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
KR1020200003285A 2019-04-24 2020-01-09 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체 KR102360062B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910333028.XA CN110085225B (zh) 2019-04-24 2019-04-24 语音交互方法、装置、智能机器人及计算机可读存储介质
CN201910333028.X 2019-04-24

Publications (2)

Publication Number Publication Date
KR20200124595A KR20200124595A (ko) 2020-11-03
KR102360062B1 true KR102360062B1 (ko) 2022-02-09

Family

ID=67416391

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200003285A KR102360062B1 (ko) 2019-04-24 2020-01-09 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체

Country Status (4)

Country Link
US (1) US20200342854A1 (ko)
JP (1) JP6914377B2 (ko)
KR (1) KR102360062B1 (ko)
CN (1) CN110085225B (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609554B (zh) * 2019-09-17 2023-01-17 重庆特斯联智慧科技股份有限公司 一种机器人移动控制方法及装置
CN110992947B (zh) * 2019-11-12 2022-04-22 北京字节跳动网络技术有限公司 一种基于语音的交互方法、装置、介质和电子设备
CN111081244B (zh) * 2019-12-23 2022-08-16 广州小鹏汽车科技有限公司 一种语音交互方法和装置
CN111696533B (zh) * 2020-06-28 2023-02-21 中国银行股份有限公司 网点机器人自调节方法及装置
CN112151064A (zh) * 2020-09-25 2020-12-29 北京捷通华声科技股份有限公司 话术播报方法、装置、计算机可读存储介质和处理器
CN112185344A (zh) * 2020-09-27 2021-01-05 北京捷通华声科技股份有限公司 语音交互方法、装置、计算机可读存储介质和处理器
CN112201222B (zh) * 2020-12-03 2021-04-06 深圳追一科技有限公司 基于语音通话的语音交互方法、装置、设备和存储介质
CN112820270A (zh) * 2020-12-17 2021-05-18 北京捷通华声科技股份有限公司 语音播报方法、装置和智能设备
CN112820289A (zh) * 2020-12-31 2021-05-18 广东美的厨房电器制造有限公司 语音播放方法、语音播放***、电器和可读存储介质
CN112959963B (zh) * 2021-03-22 2023-05-26 恒大新能源汽车投资控股集团有限公司 车载服务的提供方法、装置及电子设备
CN113160832A (zh) * 2021-04-30 2021-07-23 合肥美菱物联科技有限公司 一种支持声纹识别的语音洗衣机智能控制***及方法
CN114267352B (zh) * 2021-12-24 2023-04-14 北京信息科技大学 一种语音信息处理方法及电子设备、计算机存储介质
CN115101048B (zh) * 2022-08-24 2022-11-11 深圳市人马互动科技有限公司 科普信息交互方法、装置、***、交互设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016109897A (ja) * 2014-12-08 2016-06-20 シャープ株式会社 電子機器、発話制御方法、およびプログラム

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001272991A (ja) * 2000-03-24 2001-10-05 Sanyo Electric Co Ltd 音声対話方法及び音声対話装置
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
JP2003271194A (ja) * 2002-03-14 2003-09-25 Canon Inc 音声対話装置及びその制御方法
JP2004163541A (ja) * 2002-11-11 2004-06-10 Mitsubishi Electric Corp 音声応答装置
JP2008026463A (ja) * 2006-07-19 2008-02-07 Denso Corp 音声対話装置
JP5750839B2 (ja) * 2010-06-14 2015-07-22 日産自動車株式会社 音声情報提示装置および音声情報提示方法
WO2013187610A1 (en) * 2012-06-15 2013-12-19 Samsung Electronics Co., Ltd. Terminal apparatus and control method thereof
CN103730117A (zh) * 2012-10-12 2014-04-16 中兴通讯股份有限公司 一种自适应智能语音装置及方法
CN104409085A (zh) * 2014-11-24 2015-03-11 惠州Tcl移动通信有限公司 一种车载智能音乐播放器及其音乐播放方法
CN107731225A (zh) * 2016-08-10 2018-02-23 松下知识产权经营株式会社 待客装置、待客方法以及待客***
CN106504743B (zh) * 2016-11-14 2020-01-14 北京光年无限科技有限公司 一种用于智能机器人的语音交互输出方法及机器人
CN106843463B (zh) * 2016-12-16 2020-07-28 北京光年无限科技有限公司 一种用于机器人的交互输出方法
CN106803423B (zh) * 2016-12-27 2020-09-04 智车优行科技(北京)有限公司 基于用户情绪状态的人机交互语音控制方法、装置及车辆
CN108363706B (zh) * 2017-01-25 2023-07-18 北京搜狗科技发展有限公司 人机对话交互的方法和装置、用于人机对话交互的装置
KR20180124564A (ko) * 2017-05-12 2018-11-21 네이버 주식회사 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
CN107272900A (zh) * 2017-06-21 2017-10-20 叶富阳 一种自主式可穿戴音乐播放器
CN107545029A (zh) * 2017-07-17 2018-01-05 百度在线网络技术(北京)有限公司 智能设备的语音反馈方法、设备及可读介质
CN107340991B (zh) * 2017-07-18 2020-08-25 百度在线网络技术(北京)有限公司 语音角色的切换方法、装置、设备以及存储介质
CN107452400A (zh) * 2017-07-24 2017-12-08 珠海市魅族科技有限公司 语音播报方法及装置、计算机装置和计算机可读存储介质
CN107972028B (zh) * 2017-07-28 2020-10-23 北京物灵智能科技有限公司 人机交互方法、装置及电子设备
CN107767869B (zh) * 2017-09-26 2021-03-12 百度在线网络技术(北京)有限公司 用于提供语音服务的方法和装置
CN107959881A (zh) * 2017-12-06 2018-04-24 安徽省科普产品工程研究中心有限责任公司 一种基于儿童情绪的视频教学***
WO2019148491A1 (zh) * 2018-02-05 2019-08-08 深圳前海达闼云端智能科技有限公司 人机交互方法、装置、机器人及计算机可读存储介质
CN108469966A (zh) * 2018-03-21 2018-08-31 北京金山安全软件有限公司 语音播报控制方法、装置、智能设备及介质
CN109119077A (zh) * 2018-08-20 2019-01-01 深圳市三宝创新智能有限公司 一种机器人语音交互***
CN108847239A (zh) * 2018-08-31 2018-11-20 上海擎感智能科技有限公司 语音交互/处理方法、***、存储介质、车机端及服务端
CN109446303A (zh) * 2018-10-09 2019-03-08 深圳市三宝创新智能有限公司 机器人交互方法、装置、计算机设备及可读存储介质
CN109272984A (zh) * 2018-10-17 2019-01-25 百度在线网络技术(北京)有限公司 用于语音交互的方法和装置
CN109348068A (zh) * 2018-12-03 2019-02-15 咪咕数字传媒有限公司 一种信息处理方法、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016109897A (ja) * 2014-12-08 2016-06-20 シャープ株式会社 電子機器、発話制御方法、およびプログラム

Also Published As

Publication number Publication date
US20200342854A1 (en) 2020-10-29
JP6914377B2 (ja) 2021-08-04
JP2020181183A (ja) 2020-11-05
KR20200124595A (ko) 2020-11-03
CN110085225A (zh) 2019-08-02
CN110085225B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
KR102360062B1 (ko) 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체
CN108536802B (zh) 基于儿童情绪的交互方法及装置
US9724824B1 (en) Sensor use and analysis for dynamic update of interaction in a social robot
WO2021212929A1 (zh) 主动式外呼智能语音机器人多语种交互方法及装置
WO2020125457A1 (zh) 多轮交互的语义理解方法、装置及计算机存储介质
JP6970413B2 (ja) 対話方法、対話システム、対話装置、およびプログラム
KR101423258B1 (ko) 상담 대화 제공 방법 및 이를 이용하는 장치
CN110299152A (zh) 人机对话的输出控制方法、装置、电子设备及存储介质
US11062708B2 (en) Method and apparatus for dialoguing based on a mood of a user
CN106503786B (zh) 用于智能机器人的多模态交互方法和装置
CN106504743A (zh) 一种用于智能机器人的语音交互输出方法及机器人
JPWO2017200078A1 (ja) 対話方法、対話システム、対話装置、およびプログラム
WO2023226913A1 (zh) 基于表情识别的虚拟人物驱动方法、装置及设备
CN110909218A (zh) 问答场景中的信息提示方法和***
CN109961152B (zh) 虚拟偶像的个性化互动方法、***、终端设备及存储介质
CN113643684B (zh) 语音合成方法、装置、电子设备及存储介质
CN112333258A (zh) 一种智能客服方法、存储介质及终端设备
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
US20190228765A1 (en) Speech analysis apparatus, speech analysis system, and non-transitory computer readable medium
CN113067952B (zh) 用于多台机器人的人机协同无感控制方法和装置
CN112309183A (zh) 适用于外语教学的交互式听说练习***
CN113053186A (zh) 交互方法、交互设备及存储介质
EP4093005A1 (en) System method and apparatus for combining words and behaviors
CN116741143B (zh) 基于数字分身的个性化ai名片的交互方法及相关组件
CN114283853A (zh) 一种确定语音机器人播报策略的方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)