KR102360062B1

KR102360062B1 - 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체

Info

Publication number: KR102360062B1
Application number: KR1020200003285A
Authority: KR
Inventors: 카이위 리
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2019-04-24
Filing date: 2020-01-09
Publication date: 2022-02-09
Also published as: US20200342854A1; JP6914377B2; JP2020181183A; KR20200124595A; CN110085225A; CN110085225B

Abstract

본 발명의 실시예는 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체를 제공한다. 상기 음성 인터랙션 방법은 지능형 로봇에 응용되고, 상기 음성 인터랙션 방법은 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 단계; 및 상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.

Description

음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체{VOICE INTERACTION METHOD, DEVICE, INTELLIGENT ROBOT AND COMPUTER READABLE STORAGE MEDIUM}

본 발명의 실시예는 로봇 기술 분야에 관한 것으로, 특히, 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.

지능형 로봇은 음성 인식의 정확도와 의미 이해 능력이 지속적으로 높아짐에 따라 시장 수요가 증가되어 그 사용도 점점 광범위해지고 있다.

지능형 로봇은 사용자에게 서비스를 제공하는 과정에서 종종 사용자와 음성 인터랙션을 진행하게 된다. 일반적으로 각종 경우, 지능형 로봇은 모두 고정적인 음성 인터랙션 전략을 사용하는데 지능형 로봇이 음성 인터랙션을 진행할 때 사용하는 전략이 매우 단일하여 음성 인터랙션의 효과가 떨어지게 된다.

본 발명의 실시예는 음성 인터랙션 방법, 장치, 지능형 로봇 및 컴퓨터 판독 가능 저장 매체를 제공하여 지능형 로봇이 음성 인터랙션을 진행할 때 사용하는 전략이 매우 단일하여 음성 인터랙션의 효과가 떨어지게 되는 문제를 해결하도록 한다.

상술한 과제를 해결하기 위해, 본 발명은 하기와 같이 실현한다.

제1양태에 따르면, 본 발명의 실시예는 지능형 로봇에 응용되는 음성 인터랙션 방법을 제공한다. 상기 음성 인터랙션 방법은,

음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 단계; 및

상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함한다.

제2양태에 따르면, 본 발명의 실시예는 지능형 로봇에 응용되는 음성 인터랙션 장치를 제공한다. 상기 음성 인터랙션 장치는,

음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 획득 모듈; 및

상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 인터랙션 모듈을 포함한다.

제3양태에 따르면, 본 발명의 실시예는 프로세서, 메모리 및 상기 메모리에 저장되고 상기 프로세서에 의해 실행 가능한 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 상기 음성 인터랙션 방법의 단계를 수행하는 지능형 로봇을 제공한다.

제4양태에 따르면, 본 발명의 실시예는 컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기 음성 인터랙션 방법의 단계를 수행하는 컴퓨터 판독 가능 저장 매체를 제공한다.

본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득하고 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행할 수 있다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.

본 발명의 실시예의 기술적 해결수단을 보다 명확하게 설명하기 위해 이하 본 발명의 실시예의 설명에서 사용되는 첨부 도면에 대해 간단히 소개하며 아래에서 설명되는 도면은 발명의 일부 실시예일 뿐 본 발명이 속하는 기술분야의 통상의 기술자에게 있어서 진보성 창출에 힘 쓸 필요없이 이러한 도면으로부터 다른 도면을 얻을 수 있음은 자명하다.
도 1은 본 발명의 실시예에 따른 음성 인터랙션 방법의 제1 흐름도이다.
도 2는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제2 흐름도이다.
도 3은 본 발명의 실시예에 따른 음성 인터랙션 방법의 제3 흐름도이다.
도 4는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제4 흐름도이다.
도 5는 본 발명의 실시예에 따른 음성 인터랙션 장치의 구조 블록도이다.
도 6은 본 발명의 실시예에 따른 지능형 로봇의 구조 모식도이다.

이하, 본 발명의 실시예의 첨부 도면을 참조로 하여 본 발명의 실시예의 기술적 해결 수단에 대해 명확하고 완전하게 설명하고, 설명된 실시예는 본 발명의 부분적 실시예일 뿐 모든 실시예가 아니다. 본 기술분야의 통상의 기술자가 본 발명의 실시예에 따라 진보성 창출에 힘쓸 필요없이 획득한 모든 다른 실시예는 모두 본 발명의 보호범위에 속한다.

도 1을 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제1 흐름도를 도시한 것이다. 도 1에 도시된 바와 같이, 상기 음성 인터랙션 방법은 지능형 로봇에 응용되며, 상기 음성 인터랙션 방법은 하기와 같은 단계를 포함한다.

단계 101에서, 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득한다.

여기서, 인터랙션 대상은 지능형 로봇의 서비스 대상이라고도 할 수 있다.

선택적으로, 대상 특징 정보는,

대상 음성 출력 파라미터, 대상 정서 및 대상 속성 중 적어도 하나를 포함하고,

대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 상기 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함한다.

여기서, 대상 연령 속성은 어린이 속성, 청년 속성, 중년 속성, 노년 속성 등을 포함할 수 있고, 대상 성별 속성은 남성 속성, 여성 속성 등을 포함할 수 있으며, 대상 피부색 속성은 황색 피부 속성, 백색 피부 속성, 검은색 피부 속성 등을 포함할 수 있다.

단계 102에서, 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행한다.

여기서, 음성 출력 파라미터는 음성 방송 속도, 음성 방송 볼륨, 음성 방송 음색 등을 포함하지만 이에 한정되지 않는다.

인터랙션 대상의 대상 특징 정보를 획득한 후, 지능형 로봇은 획득한 대상 특징 정보에 매칭되는 음성 방송 파라미터를 결정할 수 있고, 여기서, 임의의 대상 특징 정보에 매칭되는 음성 방송 파라미터는 해당 대상 특징 정보를 가진 대상에게 보다 우수한 인터랙션 체험을 느낄 수 있는 음성 방송 파라미터를 의미한다. 이로써, 지능형 머신은 결정된 음성 방송 파라미터에 따라 인터랙션 대상과 음성 인터랙션을 진행하는 경우, 인터랙션 대상의 인터랙션 체험이 보장될 수 있고 상응하게 음성 인터랙션 효과도 보장될 수 있다.

본 발명의 실시예에서, 음성 인터랙션 상황에서 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득하여 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라 인터랙션 대상과 음성 인터랙션을 진행할 수 있다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.

선택적으로, 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,

인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하는 단계를 포함한다.

여기서, 목표 시간은 기설정된 시간일 수 있거나 지능형 로봇이 램덤으로 결정된 시간일 수 있다. 구체적으로, 목표 시간은 1분, 2분, 5분 또는 다른 시간일 수 있으며 여기서 일일이 열거하지 않는다.

구체적으로, 목표 시간(예를 들어, 2분) 내의 인터랙션 대상의 음성 출력 글자수가 통계된 후에 목표 시간 및 통계된 음성 출력 글자수에 따라 인터랙션 대상이 단위 시간 내의 음성 출력 글자수를 계산하여 얻을 수 있다. 예를 들어, 통계된 음성 출력 글자수에서 2분을 나누면 인터랙션 대상의 1분 내의 음성 출력 글자수를 얻을 수 있다. 그 후, 지능형 로봇은 인터랙션 대상의 단위 시간 내의 음성 출력 글자수를 인터랙션 대상의 대상 어속으로 사용할 수 있다.

인터랙션 대상의 대상 어속을 획득하는 조작은 구현이 매우 편리하다는 것을 알 수 있다.

선택적으로, 지능형 로봇은 카메라를 포함하고,

인터랙션 대상의 대상 특징 정보를 획득하는 단계는,

카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하여 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 단계를 포함한다.

여기서, 지능형 로봇에 포함되는 카메라는 구체적으로 전방 카메라일 수 있다.

구체적으로, 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출한 후 지능형 로봇은 수집한 안면 이미지에 대해 분석을 진행하여 안면 이미지에 예를 들어, 얼굴 찡그림, 얼굴 조임, 긴장한 표정 등과 같은 불안 정서를 나타내는 안면 특징이 존재하는 지를 결정한다. 결정 결과가 존재한다는 결과일 경우에, 지능형 로봇은 인터랙션 대상의 대상 정서가 불안 정서이라고 판정할 수 있고 결정 결과가 존재하지 않을 경우에, 지능형 로봇은 인터랙션 대상의 대상 정서가 불안 정서가 아니라고 판정할 수 있다.

대상 속성도 카메라가 수집한 안면 이미지를 호출하여 분석함으로써 획득할 수 있음에 유의해야 한다.

인터랙션 대상의 대상 정서를 획득하는 조작은 구현이 매우 편리하다는 것을 알 수 있다.

도 2를 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제2 흐름도를 도시한 것이다. 도 2에 도시된 바와 같이, 상기 음성 인터랙션 방법은 지능형 로봇에 응용되며, 상기 음성 인터랙션 방법은 하기와 같은 단계를 포함한다.

단계 201에서, 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하고, 대상 특징 정보는 대상 음성 출력 파라미터를 포함하며 대상 음성 출력 파라미터는 대상 어속을 포함한다.

대상 음성 출력 파라미터는 대상 어속을 포함하는 외에 대상 볼륨 및 대상 음색 중 적어도 하나를 더 포함할 수 있고 대상 특징 정보는 대상 음성 출력 파라미터를 포함하는 외에 대상 정서 및 대상 속성 중 적어도 하나를 포함할 수 있으며 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어로 하나를 포함할 수 있다는 것에 유의해야 한다.

단계 202에서, 대상 어속에 대응되는 음성 방송 속도를 결정하고,

단계 203에서, 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행한다.

여기서, 대상 어속 범위와 음성 방송 속도 사이의 대응 관계를 지능형 로봇에 미리 저장할 수 있다(이하 설명에 나타나는 대응 관계와 구분하기 위해 이하에서 제1 대응 관계라 일컫는다). 여기서 임의의 대상 어속 범위에 대응되는 음성 방송 속도와 해당 대상 어속 범위 내의 대상 어속은 매우 접근한다.

인터랙션 대상의 대상 특징 정보는 대상 어속을 포함하므로 지능형 로봇은 대상 특징 정보의 대상 어속에 속하는 대상 어속 범위를 먼저 획득할 수 있고, 다음 제1 대응 관계에 따라 획득한 대상 어속 범위에 대응되는 음성 방송 속도를 결정할 수 있으며, 마지막으로 지능형 로봇은 결정된 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행할 수 있다는 것에 유의해야 한다.

구체적으로, 본 발명의 실시예의 지능형 로봇이 공항 내의 안내 서비스 로봇이라고 가정하면 지능형 로봇이 사용자를 위해 안내 서비스를 제공할 경우에 만약 사용자가 정상적인 어속으로 질문하면 지능형 로봇은 정상적인 음성 방송 속도로 사용자의 질문을 대답할 수 있고, 만약 사용자가 비교적 빠른 어속으로 질문할 때 지능형 로봇은 비교적 빠른 음성 방송 속도로 사용자의 질문을 대답할 수 있으며, 만약 사용자가 비교적 느린 어속으로 질문할 때 지능형 로봇은 비교적 느린 음성 방송 속도로 사용자의 질문을 대답할 수 있다.

대상 어속에 대응되는 음성 방송 속도를 결정할 경우, 제1 대응 관계를 지능형 로봇에 미리 저장하지 않을 수도 있는데, 이 경우 지능형 로봇이 대상 어속 자체를 대응되는 음성 방송 속도로 사용하는 것 역시 가능하다는 것에 유의해야 한다.

본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득할 수 있고 대상 특징 정보의 대상 어속에 대응되는 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 대상 어속에 따라, 사용되는 음성 방송 속도를 원활하게 조절할 수 있는데, 인터랙션 대상의 대상 어속이 비교적 빠를 경우에 지능형 로봇의 음성 방송 속도는 비교적 빠르고 인터랙션 대상의 대상 어속이 비교적 느린 경우에 지능형 로봇의 음성 방송 속도는 비교적 느리다. 이는 고정된 음성 방송 속도로 인해 인터랙션 대상의 불편을 일으키는 것을 피할 수 있어 인터랙션 대상의 인터랙션 체험을 향상시키고 음성 인터랙션 효과를 향상시킨다.

도 3을 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제3 흐름도를 도시한 것이다. 도 3에 도시된 바와 같이, 상기 음성 인터랙션 방법은 지능형 로봇에 응용되며, 상기 음성 인터랙션 방법은 하기와 같은 단계를 포함한다.

단계 301에서, 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하고, 대상 특징 정보는 대상 정서를 포함한다.

대상 특징 정보는 대상 정서를 포함하는 외에 대상 음성 출력 파라미터 및 대상 속성 중 적어도 하나를 더 포함할 수 있고, 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함할 수 있으며, 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어로 하나를 포함할 수 있다는 것에 유의해야 한다.

단계 302에서, 대상 정서가 불안한 정서인 경우, 제1 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하며, 여기서 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠르다.

여기서, 제2 대응 관계를 지능형 로봇에 미리 저장할 수 있고 제2 대응 관계에서 불안 정서와 제1 음성 방송 속도가 대응되고 불안이 아닌 정서와 제2 음성 방송 속도가 대응되며, 또한, 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠르다.

인터랙션 대상의 대상 특징 정보는 대상 정서를 포함하기에 지능형 로봇은 대상 특징 정보의 대상 정서가 불안 정서인지를 판단할 수 있음에 유의해야 한다. 결정 결과가 불안 정서인지의 여부와 상관없이 제2 대응 관계에 따라 지능형 로봇은 대상 특징 정보의 대상 정서에 대응되는 음성 방송 속도를 모두 결정할 수 있으며 다음으로 지능형 로봇은 결정된 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행할 수 있다.

구체적으로, 본 발명의 실시예의 지능형 로봇이 공항 내의 안내 서비스 로봇이라고 가정하면 지능형 로봇이 사용자를 위해 안내 서비스를 제공할 경우에 만약 사용자가 급하게 탑승하려고 하지만 탑승구를 찾지 못하면 사용자는 불안 정서를 느끼게 된다. 이때, 지능형 로봇은 비교적 빠른 음성 방송 속도로 사용자의 질문을 답변하여 사용자로 하여금 최대한 빨리 탑승구를 찾도록 도와준다.

지능형 로봇은 제2 대응 관계를 지능형 로봇에 미리 저장하지 않을 수도 있고 지능형 로봇은 다른 방식으로 대상 정서에 대응되는 음성 방송 속도를 결정할 수 있으며 지능형 로봇으로 하여금 인터랙션 대상이 불안 정서인 경우의 음성 방송 속도가 불안 정서가 아닌 경우의 음성 방송 속도보다 빠르도록 유지하기만 된다는 것에 유의해야 한다.

본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득할 수 있고 대상 특징 정보의 대상 정서에 대응되는 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 대상 정서에 따라, 사용되는 음성 방송 속도를 원활하게 조절할 수 있는데, 인터랙션 대상의 대상 정서가 불안 정서인 경우에 지능형 로봇의 음성 방송 속도는 비교적 빠르고 인터랙션 대상의 대상 정서가 불안 정서가 아닌 경우에 지능형 로봇의 음성 방송 속도는 비교적 느리다. 이는 고정된 음성 방송 속도로 인해 인터랙션 대상의 불편을 일으키는 것을 피할 수 있어 인터랙션 대상의 인터랙션 체험을 향상시키고 음성 인터랙션 효과를 향상시킨다.

도 4를 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 방법의 제4 흐름도를 도시한 것이다. 도 4에 도시된 바와 같이, 상기 음성 인터랙션 방법은 지능형 로봇에 응용되며, 상기 음성 인터랙션 방법은 하기와 같은 단계를 포함한다.

단계 401에서, 음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하고, 여기서 대상 특징 정보는 대상 속성을 포함하고 대상 속성은 대상 연령 속성을 포함한다.

대상 속성은 대상 연령 속성을 포함하는 외에 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 더 포함할 수 있고 대상 특징 정보는 대상 속성 외에 음성 출력 파라미터 및 대상 정서 중 적어도 하나를 더 포함할 수 있으며, 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어로 하나를 포함할 수 있다는 것에 유의해야 한다.

단계 402에서, 연령 속성에 대응되는 음성 방송 음색을 결정한다.

단계 403에서, 음성 방송 음색으로 인터랙션 대상과 음성 인터랙션을 진행한다.

여기서, 연령 속성 및 음성 방송 음색 사이의 대응 관계를 지능형 로봇에 미리 저장할 수 있다(앞의 설명에 나타나는 대응 관계와 구분하기 위해 이하에서 제3 대응 관계라 일컫는다). 구체적으로, 제3 대응 관계에서, 어린이 속성에 대응되는 음성 방송 음색은 어린이의 여리고 귀여운 음색일 수 있고 중년 속성에 대응되는 음성 방송 음색은 중년인의 우렁차고 성숙된 음색일 수 있으며 노인 속성에 대응되는 음성 방송 음색은 노인의 신중하고 따뜻한 음색일 수 있다. 이 경우, 인터랙션 대상의 대상 특징 정보가 연령 속성을 포함하는 경우에, 지능형 로봇은 제3 대응 관계에 따라 대상 특징 정보의 연령 속성에 대응되는 음성 방송 음색을 결정하고 또한 결정된 음성 방송 음색에 따라 인터랙션 대상과 음성 인터랙션을 진행할 수 있다.

구체적으로, 본 발명의 실시예의 지능형 로봇이 공항 내의 안내 서비스 로봇이라고 가정하면 지능형 로봇이 사용자를 위해 안내 서비스를 제공할 경우에, 만약 질문한 사용자가 어린이이면 지능형 로봇은 여리고 귀여운 음색으로 사용자의 질문을 대답하고 만약 질문한 사용자가 중년인이면 지능형 로봇은 우렁차고 성숙된 음색으로 사용자의 질문을 대답하며 만약 질문한 사용자가 노인이면 지능형 로봇은 신중하고 따뜻한 음색으로 사용자의 질문을 대답한다.

본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득할 수 있고 대상 특징 정보의 대상 연령 속성에 대응되는 음성 방송 음색으로 인터랙션 대상과 음성 인터랙션을 진행한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 대상 연령 속성에 따라, 사용되는 음성 방송 음색을 원활하게 조절하여 인터랙션 과정의 재미를 증가시켜 인터랙션 대상의 인터랙션 체험을 향상시키고 음성 인터랙션 효과를 향상시킬 수 있다.

종합적으로, 종래 기술에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.

도 5를 참조하면, 도면에서는 본 발명의 실시예에 따른 음성 인터랙션 장치(500)의 구조 블록도를 도시한 것이다. 도 4에 도시된 바와 같이, 음성 인터랙션 장치(500)는,

음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 획득 모듈(501); 및

대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행하는 인터랙션 모듈(502)을 포함한다.

선택적으로, 대상 특징 정보는,

여기서, 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함한다.

선택적으로, 대상 특징 정보는 대상 음성 출력 파라미터를 포함하고, 대상 음성 출력 파라미터는 대상 어속을 포함하며,

인터랙션 모듈(502)은,

대상 어속에 대응되는 음성 방송 속도를 결정하는 제1 결정 유닛; 및

음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 제1 인터랙션 유닛을 포함한다.

선택적으로, 대상 특징 정보는 대상 정서를 포함하고,

인터랙션 모듈(502)은 구체적으로,

대상 정서가 불안한 정서인 경우, 제1 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하며,

여기서, 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠르다.

선택적으로, 대상 특징 정보는 대상 속성을 포함하고 대상 속성은 대상 연령 속성을 포함하며,

인터랙션 모듈(502)은,

연령 속성에 대응되는 음성 방송 음색을 결정하는 제2 결정 유닛; 및

음성 방송 음색으로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 제2 인터랙션 유닛을 포함한다.

선택적으로, 획득 모듈(501)은 구체적으로,

기설정된 시간 내에 인터랙션 대상의 음성 출력 글자수를 통계하고 기설정된 시간 및 음성 출력 글자수에 따라 인터랙션 대상의 대상 어속을 계산한다.

선택적으로, 지능형 로봇은 카메라를 포함하고,

획득 모듈(501)은 구체적으로,

카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하여, 안면 이미지에 따라 인터랙션 대상의 대상 정서를 획득한다.

본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇은 인터랙션 대상의 대상 특징 정보를 획득할 수 있고 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행한다. 본 발명의 실시예에서, 지능형 로봇은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.

도 6을 참조하면, 도면에서는 본 발명의 실시예에 따른 지능형 로봇의 구조 모식도를 도시한 것이다. 도 6에 도시된 바와 같이, 지능형 로봇(600)은 프로세서(601), 메모리(603), 사용자 인터페이스(604) 및 버스 인터페이스를 포함한다.

프로세서(601)는 메모리(603)의 프로그램을 판독하며 하기와 같은 과정을 수행한다.

음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하고;

대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행한다.

도 6에서, 구체적으로, 버스 아키텍처는, 프로세서(601)로 대표되는 하나 또는 복수의 프로세서 및 메모리(603)로 대표되는 메모리의 다양한 전기회로에 의해 연결된 임의의 수량의 상호 연결된 버스와 브릿지를 포함할 수 있다. 버스 아키텍처는 주변 장치, 전압 조정기 및 전력 관리 회로 등과 같은 다양한 다른 회로에 더 연결될 수 있으며 이는 본 발명이 속하는 기술분야에서 공지된 것이므로 본 명세서에서는 이에 대해 더 이상 설명하지 않는다. 버스 인터페이스는 인터페이스를 제공한다. 다양한 사용자 기기에 대해 사용자 인터페이스(604)는 필요한 기기의 인터페이스를 외부 접속 및 내부 접속할 수 있고 연결된 기기는 키패드, 디스플레이, 스피커, 마이크, 조이스틱 등을 포함하지만 이에 한정되지 않는다.

프로세서(601)는 버스 아키텍처 관리 및 일반적인 처리를 수행하고 메모리(603)는 프로세서(601)가 조작을 수행할 때 사용되는 데이터를 저장할 수 있다.

선택적으로, 대상 특징 정보는

선택적으로, 대상 특징 정보는 대상 음성 출력 파라미터를 포함하고 대상 음성 출력 파라미터는 대상 어속을 포함하며,

프로세서(601)은 구체적으로,

대상 어속에 대응되는 음성 방송 속도를 결정하고,

음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행한다.

선택적으로, 대상 특징 정보는 대상 정서를 포함하고,

선택적으로, 임의의 제2 출력 결과는 각각의 서브 특징 시퀀스에 포함된 각각의 서브 특징에 대응되는 가중치를 더 포함하며,

프로세서(601)는 구체적으로,

대상 정서가 불안 정서인 경우, 제1 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 인터랙션 대상과 음성 인터랙션을 진행하며,

구체적으로, 프로세서(601)는 구체적으로,

연령 속성에 대응되는 음성 방송 음색을 결정하고,

음성 방송 음색으로 인터랙션 대상과 음성 인터랙션을 진행한다.

선택적으로, 프로세서(601)는 구체적으로,

인터랙션 대상의 기설정된 시간 내의 음성 출력 글자수를 통계하고 기설정된 시간 및 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산한다.

선택적으로, 지능형 로봇은 카메라를 포함하고,

프로세서(601)는 구체적으로,

카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 안면 이미지에 따라 인터랙션 대상의 대상 정서를 획득한다.

본 발명의 실시예에서, 음성 인터랙션 상황에서, 지능형 로봇(600)은 인터랙션 대상의 대상 특징 정보를 획득하고 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 인터랙션 대상과 음성 인터랙션을 진행할 수 있다. 본 발명의 실시예에서, 지능형 로봇(600)은 인터랙션 대상의 실제 상황에 따라, 사용되는 음성 방송 파라미터를 원활하게 조절할 수 있다. 다시 말하면, 지능형 로봇(600)이 사용하는 음성 인터랙션 전략이 다양하고 개성이 있다. 따라서, 본 발명의 실시예에서, 종래 기술에서 사용하는 고정된 음성 인터랙션 전략 상황에 비해, 본 발명의 실시예의 지능형 로봇(600)은 더욱 인성화된 서비스를 제공할 수 있고 음성 인터랙션 효과도 효과적으로 향상시킬 수 있다.

바람직하게, 본 발명의 실시예는 프로세서(601), 메모리(603) 및 메모리(603)에 저장되어 프로세서(601)에 의해 실행 가능한 컴퓨터 프로그램을 포함하고, 해당 컴퓨터 프로그램이 프로세서(601)에 의해 실행될 경우, 상기 음성 인터랙션 방법의 실시예의 각각의 과정을 실현하고 또한 동일한 기술효과를 얻을 수 있는 지능형 로봇을 더 제공한다. 반복되는 설명을 피하기 위해 여기서 더 이상 설명하지 않는다.

본 발명의 실시예는 컴퓨터 프로그램이 저장되고 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기 음성 인터랙션 방법의 실시예의 각각의 과정을 실현하고 또한 동일한 기술효과를 얻을 수 있는 컴퓨터 판독 가능 저장 매체를 더 제공한다. 반복되는 설명을 피하기 위해 여기서 더 이상 설명하지 않는다. 여기서, 컴퓨터 판독 가능 저장 매체는 판독 전용 메모리(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 콤팩트 디스크 등을 포함한다.

이상, 도면을 참조하여 본 발명의 실시예에 대해 설명했지만 본 발명은 상술한 구체적인 실시 형태에 한정되지 않고, 상술한 구체적인 실시 형태는 예시에 불과한 것으로서 한정적인 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 시사를 받아 본 발명의 사상 및 보호범위를 벗어나지 않는 전제하에서 더욱 많은 형태를 만들 수 있는데 이는 또한 모두 본 발명의 보호범위에 속한다.

Claims

지능형 로봇에 응용되는 음성 인터랙션 방법에 있어서,
상기 음성 인터랙션 방법은,
음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 단계; 및
상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함하고,
상기 대상 특징 정보는 대상 음성 출력 파라미터, 대상 정서 및 대상 속성 중 적어도 하나를 포함하고,
상기 대상 특징 정보는 대상 정서를 포함하고;
상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계는,
상기 대상 정서가 불안 정서인 경우, 제1 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하여, 상기 인터랙션 대상이 불안 정서인 경우의 음성 방송 속도가 불안 정서가 아닌 경우의 음성 방송 속도보다 빠르도록 유지하는 단계를 포함하며,
상기 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠른 것을 특징으로 하는 음성 인터랙션 방법.
제1항에 있어서,
상기 대상 음성 출력 파라미터는 대상 어속(speed), 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 상기 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
제2항에 있어서,
상기 대상 특징 정보는 대상 음성 출력 파라미터를 포함하고, 상기 대상 음성 출력 파라미터는 대상 어속을 포함하며,
상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계는,
상기 대상 어속에 대응되는 음성 방송 속도를 결정하는 단계; 및
상기 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
제2항에 있어서,
상기 대상 특징 정보는 대상 속성을 포함하고 상기 대상 속성은 대상 연령 속성을 포함하며,
상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계는,
상기 연령 속성에 대응되는 음성 방송 음색을 결정하는 단계; 및
상기 음성 방송 음색으로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
제2항에 있어서,
상기 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 상기 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하는 단계를 포함하고,
상기 지능형 로봇은 카메라를 포함하고;
상기 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
상기 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
제2항에 있어서,
상기 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 상기 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하는 단계를 포함하고,
또는,
상기 지능형 로봇은 카메라를 포함하고;
상기 인터랙션 대상의 대상 특징 정보를 획득하는 단계는,
상기 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 단계를 포함하는 것을 특징으로 하는 음성 인터랙션 방법.
지능형 로봇에 응용되는 음성 인터랙션 장치에 있어서,
상기 음성 인터랙션 장치는,
음성 인터랙션 상황에서, 인터랙션 대상의 대상 특징 정보를 획득하는 획득 모듈; 및
상기 대상 특징 정보에 매칭되는 음성 방송 파라미터에 따라, 상기 인터랙션 대상과 음성 인터랙션을 진행하는 인터랙션 모듈을 포함하고,
상기 대상 특징 정보는 대상 음성 출력 파라미터, 대상 정서 및 대상 속성 중 적어도 하나를 포함하고,
상기 대상 특징 정보는 대상 정서를 포함하고;
상기 인터랙션 모듈은,
상기 대상 정서가 불안 정서인 경우, 제1 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하고, 그렇지 않으면, 제2 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하여, 상기 인터랙션 대상이 불안 정서인 경우의 음성 방송 속도가 불안 정서가 아닌 경우의 음성 방송 속도보다 빠르도록 유지하는데 사용하며,
상기 제1 음성 방송 속도는 제2 음성 방송 속도보다 빠른 것을 특징으로 하는 음성 인터랙션 장치.
제7항에 있어서,
상기 대상 음성 출력 파라미터는 대상 어속, 대상 볼륨 및 대상 음색 중 적어도 하나를 포함하며, 상기 대상 속성은 대상 연령 속성, 대상 성별 속성 및 대상 피부색 속성 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
제8항에 있어서,
상기 대상 특징 정보는 대상 음성 출력 파라미터를 포함하고, 상기 대상 음성 출력 파라미터는 대상 어속을 포함하며,
상기 인터랙션 모듈은,
상기 대상 어속에 대응되는 음성 방송 속도를 결정하는 제1 결정 유닛; 및
상기 음성 방송 속도로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 제1 인터랙션 유닛을 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
제8항에 있어서,
상기 대상 특징 정보는 대상 속성을 포함하고 상기 대상 속성은 대상 연령 속성을 포함하며,
상기 인터랙션 모듈은,
상기 연령 속성에 대응되는 음성 방송 음색을 결정하는 제2 결정 유닛; 및
상기 음성 방송 음색으로 상기 인터랙션 대상과 음성 인터랙션을 진행하는 제2 인터랙션 유닛을 포함하는 것을 특징으로 하는 음성 인터랙션 장치.
제8항에 있어서,
상기 획득 모듈은,
인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 상기 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하고;
상기 지능형 로봇은 카메라를 포함하고;
상기 획득 모듈은,
상기 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 것을 특징으로 하는 음성 인터랙션 장치.
제8항에 있어서,
상기 획득 모듈은,
인터랙션 대상의 목표 시간 내의 음성 출력 글자수를 통계하고 상기 목표 시간 및 상기 음성 출력 글자수에 따라 상기 인터랙션 대상의 대상 어속을 계산하고;
또는,
상기 지능형 로봇은 카메라를 포함하고;
상기 획득 모듈은,
상기 카메라가 수집한 인터랙션 대상의 안면 이미지를 호출하고 상기 안면 이미지에 따라 상기 인터랙션 대상의 대상 정서를 획득하는 것을 특징으로 하는 음성 인터랙션 장치.
지능형 로봇에 있어서,
프로세서;
메모리; 및
상기 메모리에 저장되고 상기 프로세서에 의해 실행 가능한 컴퓨터 프로그램을 포함하고,
상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 제1항 내지 제6항 중 어느 한 항에 따른 음성 인터랙션 방법의 단계를 수행하는 것을 특징으로 하는 지능형 로봇.
컴퓨터 판독 가능 저장 매체에 있어서,
컴퓨터 프로그램이 저장되어 있고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제6항 중 어느 한 항에 따른 음성 인터랙션 방법의 단계를 수행하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.