KR20050004107A

KR20050004107A - 음성 대화 장치 및 방법 및 로봇 장치

Info

Publication number: KR20050004107A
Application number: KR1020040051548A
Authority: KR
Inventors: 아오야마가즈미; 시모무라히데키
Original assignee: 소니 가부시끼 가이샤
Priority date: 2003-07-03
Filing date: 2004-07-02
Publication date: 2005-01-12
Also published as: DE602004004324D1; US20050043956A1; US20130060566A1; EP1494210A1; US20120232891A1; US8538750B2; HK1070727A1; JP2005022065A; US8321221B2; CN1591569A; CN1312576C; DE602004004324T2; CN101030370A; EP1494210B1; JP4048492B2; US8209179B2; CN101030370B; KR101057705B1

Abstract

본 발명은 엔터테인먼트성을 현격하게 향상시킬 수 있는 음성 대화 장치 및 방법 및 로봇 장치를 실현하는 것이다.

대화 상대와 대화하기 위한 기능을 가지는 음성 대화 장치에 있어서, 대화 상대의 발화(發話)를 음성 인식하는 음성 인식 수단과, 음성 인식 수단의 인식 결과에 따라, 대화 상대와의 대화를 제어하는 대화 제어 수단과, 대화 상대의 얼굴을 화상 인식하는 화상 인식 수단과, 화상 인식 수단의 인식 결과 및 음성 인식 수단의 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 트래킹 제어 수단을 설치하고, 대화 제어 수단은 트래킹 제어 수단에 의한 추적에 맞춰, 대화를 계속하도록 제어하게 했다.

Description

음성 대화 장치 및 방법 및 로봇 장치 {APPARATUS AND METHOD FOR SPEECH DIALOGUE, AND ROBOT DEVICE}

본 발명은 음성 대화 장치 및 방법 및 로봇 장치에 관한 것이며, 예를 들면, 엔터테인먼트 로봇에 적용하여 바람직한 것이다.

근래, 일반 가정용 엔터테인먼트 로봇이 수많이 상품화되어 있다. 그리고, 이와 같은 엔터테인먼트 로봇 중에는, CCD(Charge Coupled Device) 카메라나 마이크로폰 등의 각종 외부 센서가 탑재되고, 이들 외부 센서의 출력에 따라 외부 상황을 인식하고, 인식 결과에 따라 자율적으로 행동할 수 있게 된 것 등도 있다.

이와 같은 엔터테인먼트 로봇에서는, 촬상된 화상 내로부터 인물의 얼굴을 추출하고, 이 얼굴을 트래킹하면서 특정 개인을 식별하는 얼굴 식별 기능이 탑재된 것이나, 예를 들면, 인간끼리 일상적으로 실행하는 대화와 동일한 대화를 유저와의 사이에서 실행할 수 있는 음성 대화 기능이 탑재된 것이 제안되어 있다[예를 들면, 일본국 특개평 2003-062777호 공보(2 페이지∼3 페이지, 도 1)].

그런데, 이와 같은 엔터테인먼트 로봇에 있어서는, 대화 중에 그 상대가 현재 그 장소에 존재하는지 여부를 항상 판단할 필요가 있고, 또 현재 그 상대와 대화 중인지 여부를 판단할 필요가 있다.

그러나, 현재의 환경이 매우 어두운 경우에는, 대화 상대의 얼굴색이나 윤곽이 불명료하게 되기 쉬어, 전술한 얼굴 인식 기능을 충분히 발휘할 수 없을 우려가 있다. 이 경우에, 로봇은 자기의 눈 앞에 대화 상대가 존재하는 데도 불구하고, 그 존재가 없다고 판단하여 대화를 멈추어 버릴 우려가 있다.

또, 대화 중에 텔레비젼이나 라디오로부터의 재생음이 흐르고 있는 경우에는, 대화 상대가 로봇에 대하여 아무것도 발화(發話)하고 있지 않아도, 전술한 음성 대화 기능에서는, 이 재생음과 대화 상대로부터의 발화음을 구별할 수 없고, 그 결과, 로봇은 눈 앞의 상대가 대화하고 있지 않음에도 불구하고, 일방적으로 혼잣말을 계속 할 우려가 있다.

이 때문에, 로봇이 현재의 환경 하에 하등 영향이 미치지 않고, 대화 상대의 존재를 확실하게 인식할 수 있으면, 인간이 평소 실행하는 경우와 동일하게, 그 자연성으로부터 고려하여 매우 바람직하게, 엔터테인먼트 로봇으로서의 엔터테인먼트성을 보다 한층 향상시킬 수 있는 것이 고려된다.

본 발명은 이상의 점을 고려하여 이루어진 것이며, 엔터테인먼트성을 현격하게 향상시킬 수 있는 음성 대화 장치 및 방법 및 로봇 장치를 제안하려고 하는 것이다.

도 1은 본 실시예에 의한 로봇의 기능 구성을 모식적으로 나타낸 블록도이다.

도 2는 제어 유닛의 구성을 나타내는 블록도이다.

도 3은 로봇의 소프트웨어 구성을 나타내는 블록도이다.

도 4는 획득 정보의 기록 포맷 설명에 도움을 주는 개념도이다.

도 5는 대화 제어 기능 및 트래킹 기능에 관한 주요부 구성을 나타내는 개념도이다.

도 6은 회화 생성 순서의 설명에 도움을 주는 개념도이다.

도 7은 음성 방향 인식 처리의 설명에 도움을 주는 개념도이다.

도 8은 대화 상대 확인 처리 순서의 설명에 도움을 주는 플로차트이다.

<도면의 주요 부분에 대한 부호의 설명>

1: 로봇, 2: 제어 유닛, 2, 10: CCD 카메라, 11: 마이크로폰, 12: 스피커, 21: CPU, 23: ROM, 31: 시각 인식 기능부, 32: 청각 인식 기능부, 33: 접촉 인식 기능부, 34: 내부 상태 관리부, 36: 장기 기억부, 38: 상황 의존 행동 계층, 40: 하드웨어 의존층 제어부, 40A: 음성 합성부, 40B: 행동 발현부, 50: 기억 획득 회화 생성부, 51: 기억 이용 회화 생성부, 52: 상황 판단부, 55: 인식 통합부, 56: 예측부, D1: 문자열 데이터, RT1: 대화 상대 확인 처리 순서.

이러한 과제를 해결하기 위해 본 발명에서는, 대화 상대와 대화하기 위한 기능을 가지는 음성 대화 장치에 있어서, 대화 상대의 발화를 음성 인식하는 음성 인식 수단과, 음성 인식 수단의 인식 결과에 따라, 대화 상대와의 대화를 제어하는대화 제어 수단과, 대화 상대의 얼굴을 화상 인식하는 화상 인식 수단과, 화상 인식 수단의 인식 결과 및 음성 인식 수단의 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 트래킹 제어 수단을 설치하고, 대화 제어 수단은 트래킹 제어 수단에 의한 추적에 맞춰, 대화를 계속하도록 제어하게 했다.

이 결과, 이 음성 대화 장치에서는, 각종 인식 처리의 인식 결과에 따라, 대화 상대의 존재를 추적하면서, 대화 상대와 대화하도록 하여, 대화 상대의 존재를 종합적으로 판단하도록 하고, 현재의 환경 하에 하등 영향이 미치지 않고, 대화 상대의 존재를 확실하게 인식함으로써, 인간이 보통 실행하는 경우와 동일한 자연스러운 대화를 실행할 수 있다.

또, 본 발명에서는, 대화 상대와 대화하기 위한 기능을 가지는 음성 대화 방법에 있어서, 대화 상대의 발화를 음성 인식하여 얻어지는 음성 인식 결과, 및 해당 대화 상대의 얼굴을 화상 인식하여 얻어지는 화상 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 제1 스텝과, 해당 추적에 맞춰, 음성 인식 결과에 따라 얻어지는 대화 상대와의 대화를 계속하도록 제어하는 제2 스텝을 설치하도록 했다.

이 결과, 이 음성 대화 방법에서는, 각종 인식 처리의 인식 결과에 따라, 대화 상대의 존재를 추적하면서, 대화 상대와 대화하도록 하여, 대화 상대의 존재를 종합적으로 판단하도록 하고, 현재의 환경 하에 하등 영향이 미치지 않고, 대화 상대의 존재를 확실하게 인식함으로써, 인간이 보통 실행하는 경우와 동일한 자연스러운 대화를 실행할 수 있다.

또한, 본 발명에서는, 대화 상대와 대화하기 위한 기능을 가지는 음성 대화 장치를 포함하는 로봇 장치에 있어서, 대화 상대의 발화를 음성 인식하는 음성 인식 수단과, 음성 인식 수단의 인식 결과에 따라, 대화 상대와의 대화를 제어하는 대화 제어 수단과, 대화 상대의 얼굴을 화상 인식하는 화상 인식 수단과, 화상 인식 수단의 인식 결과 및 음성 인식 수단의 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 트래킹 제어 수단을 설치하고, 대화 제어 수단은 트래킹 제어 수단에 의한 추적에 맞춰, 대화를 계속하도록 제어하게 했다.

이 결과, 이 로봇 장치에서는, 각종 인식 처리의 인식 결과에 따라, 대화 상대의 존재를 추적하면서, 대화 상대와 대화하도록 하여, 대화 상대의 존재를 종합적으로 판단하도록 하고, 현재의 환경 하에 하등 영향이 미치지 않고, 대화 상대의 존재를 확실하게 인식함으로써, 인간이 보통 실행하는 경우와 동일한 자연스러운 대화를 실행할 수 있다.

이하, 도면에 대하여 본 발명의 한 실시예를 상세히 설명한다.

(1) 본 실시예에 의한 로봇(1)의 구성

(1-1) 로봇(1)의 하드웨어 구성

도 1은 본 실시예에 의한 로봇(1)의 기능 구성을 모식적으로 나타낸 것이다. 이 도 1에 나타내는 바와 같이, 로봇(1)은 전체 동작의 통괄적 제어나 그 밖의 데이터 처리를 실행하는 유닛(2)과, 입출력부(3)와, 구동부(4)와, 전원부(5)로 구성된다.

입출력부(3)는 입력부로서 로봇(1)의 눈에 상당하는 CCD(Charge CoupledDevice) 카메라(10)나, 귀에 상당하는 마이크로폰(11), 헤드부나 등 등의 부위에 배치되어 유저의 접촉을 감지하는 터치 센서(12), 또는 오감에 상당하는 그 밖의 각종 센서를 포함한다. 또, 출력부로서, 입에 상당하는 스피커(13), 또는 점멸(點滅)의 조합이나 점등(點燈)의 타이밍에 의해 얼굴의 표정을 형성하는 LED 인디케이터(눈 램프)(14) 등을 장비하고 있다. 이들 출력부는 음성이나 램프의 점멸 등, 다리 등에 의한 기계 운동 패턴 이외의 형식에서도 로봇(1)으로부터의 유저ㆍ피드백을 표현할 수 있다.

운동부(4)는 제어 유닛(2)이 지령하는 소정 운동 패턴에 따라 롯봇(1)의 기체(機體) 동작을 실현하는 기능 블록이며, 행동 제어에 의한 제어 대상물이다. 구동부(4)는 로봇(1)의 각 관절에서의 자유도를 실현하기 위한 기능 모듈이며, 각각의 관절에 있어서의 롤, 피치, 요 등 각 축(軸)마다 설치된 복수의 구동 유닛(15₁∼15_n)으로 구성된다. 각 구동 유닛(15₁∼15_n)은 소정 축둘레의 회전 동작을 실행하는 모터(16₁∼16_n)와 모터(16₁∼16_n)의 회전 위치를 검출하는 인코더(17₁∼17_n)와, 인코더(17₁∼17_n)의 출력에 따라 모터(16₁∼16_n)의 회전 위치나 회전 속도를 적응적으로 제어하는 드라이버(18₁∼18_n)의 조합으로 구성된다.

구동 유닛의 조합 방법에 의해, 로봇(1)을 예를 들면 2족(足) 보행 또는 4족 보행 등의 다리식 이동 로봇으로 하여 구성할 수 있다.

전원부(5)는 그 한자의 뜻대로, 로봇(1) 내에 각 전기 회로 등에 대하여 급전(給電)하는 기능 모듈이다. 본 실시예에 관한 로봇(1)은 배터리를 사용한 자율 구동식이며, 전원부(5)는 충전 배터리(18)와, 충전 배터리(20)의 충방전 상태를 관리하는 충방전 제어부(31)로 구성된다.

충전 배터리(19)는, 예를 들면, 복수 개의 리튬 이온 2차 전지 셀을 카트리지식으로 패키지화한 「배터리ㆍ팩」의 형태로 구성된다.

또, 충방전 제어부(20)는 배터리(19)의 단자 전압이나 충전/방전 전류량, 배터리(19)의 주위 온도 등을 측정함으로써 배터리(19)의 잔존 용량을 파악하여, 충전의 개시 시기나 종료 시기 등을 결정한다. 충방전 제어부(20)가 결정하는 충전의 개시 및 종료 시기는 제어 유닛(2)에 통지되어, 로봇(1)이 충전 오퍼레이션을 개시 및 종료하기 위한 트리거가 된다.

제어 유닛(2)은 「두뇌」에 상당하고, 예를 들면 로봇(1)의 기체 헤드부 또는 동체(胴體)부에 탑재되어 있다.

제어 유닛(2)에서는, 도 2에 나타내는 바와 같이, 메인ㆍ컨트롤러로서의 CPU(Central Processing Unit)(21)가 메모리나 그 밖의 각 회로 콤포넨트나 주변 기기와 접속된 구성으로 되어 있다. 버스(27)는 데이터ㆍ버스, 어드레스ㆍ버스, 컨트롤ㆍ버스 등을 포함하는 공통 신호 전송로이다. 버스(27) 상의 각 장치에는 각각에 고유의 어드레스(메모리ㆍ어드레스 또는 I/O 어드레스)가 할당되어 있다. CPU(21)는 어드레스를 지정함으로써 버스(27) 상의 특정 장치와 통신할 수 있다.

RAM(Read Access Memory)(22)는 DRAM(Dynamic RAM) 등의 휘발성 메모리로 구성된 기록 가능 메모리이며, CPU(21)가 실행하는 프로그램ㆍ코드를 로드하거나, 실행 프로그램에 의한 작업 데이터의 일시적인 보존을 위해 사용된다.

ROM(Read Only Memory)(23)은 프로그램이나 데이터를 항구적으로 저장하는 판독 전용 메모리이다. ROM(23)에 저장되는 프로그램ㆍ코드에는, 로봇(1)의 전원 투입 시에 실행하는 자기 진단 테스트ㆍ프로그램이나, 로봇(1)의 동작을 규정하는 제어 프로그램 등을 들 수 있다.

로봇(1)의 제어 프로그램에는, CCD 카메라(10)나 마이크로폰(11) 등의 센서 입력을 처리하여 심벌로서 인식하는 「센서 입력ㆍ인식 처리 프로그램」, 단기 기억이나 장기 기억 등의 기억 동작을 담당하면서 센서 입력과 소정 행동 제어 모델에 따라 로봇(1)의 행동을 제어하는 「행동 제어 프로그램」, 행동 제어 모델에 따라 각 관절 모터의 구동이나 스피커(12)의 음성 출력 등을 제어하는 「구동 제어 프로그램」등이 포함된다.

불휘발성 메모리(24)는, 예를 들면, EEPROM(Electrically Erasable and Programmable ROM)과 같이 전기적으로 소거 재기록이 가능한 메모리 소자로 구성되며, 차례로 갱신해야 할 데이터를 불휘발적으로 유지하기 위해 사용된다. 차례로 갱신해야 할 데이터에는, 암기 키나 그 밖의 시큐리티 정보, 출하 후에 인스톨해야 할 장치 제어 프로그램 등을 들 수 있다.

인터페이스(25)는 제어 유닛(2) 외의 기기와 상호 접속하여, 데이터 교환을 가능하게 하기 위한 장치이다. 인터페이스(25)는, 예를 들면, 입출력부(3) 내의 카메라(10)나 마이크로폰(11), 스피커(12) 사이에서 데이터 입출력을 실행한다.또, 인터페이스(25)는 구동부(4) 내의 각 드라이버(18₁∼18_n) 사이에서 데이터나 커맨드의 입출력을 실행한다.

또, 인터페이스(25)는 RS(Recommended Standard)-232C 등의 시리얼ㆍ인터페이스, IEEE(Institute of Electrical and Electronics Engineers) 1284 등의 패럴렐ㆍ인터페이스, USB(Universal Serial Bus) 인터페이스, i-Link(IEEE 1394) 인터페이스, SCSI(Small Computer System Interface) 인터페이스, PC 카드나 메모리ㆍ스틱을 수용하는 메모리ㆍ카드 인터페이스(카드 슬롯) 등과 같은 컴퓨터 주변 기기 접속용의 범용(汎用) 인터페이스를 구비하여, 로컬 접속된 외부 기기 사이에서 프로그램이나 데이터의 이동을 실행할 수 있도록 해도 된다.

또, 인터페이스(25)의 다른 예로서, 적외선 통신(IrDA) 인터페이스를 구비하여, 외부 기기와 무선 통신을 실행하도록 해도 된다.

또한, 제어 유닛(2)은 무선 통신 인터페이스(26)나 네트워크ㆍ인터페이스ㆍ카드(NIC)(28) 등을 포함하며, Bluetooth 등과 같은 근접 무선 데이터 통신이나, IEEE802.11b와 같은 무선 네트워크, 또는 인터넷 등의 고역 네트워크를 경유하여, 외부의 여러 가지 호스트ㆍ컴퓨터와 데이터 통신을 실행할 수 있다.

이와 같은 로봇(1)과 호스트ㆍ컴퓨터 사이에서의 데이터 통신에 의해, 원격 컴퓨터 자원을 이용하여, 로봇(1)의 복잡한 동작 제어를 연산하거나, 리모트ㆍ컨트롤할 수 있다.

(1-2) 로봇(1)의 소프트웨어 구성

도 3은 ROM(23)에 저장된 제어 프로그램군에 의해 구성되는 로봇(1)의 행동 제어 시스템(30)의 기능 구성을 모식적으로 나타낸 것이다. 로봇(1)은 외부 자극의 인식 결과나 내부 상태의 변화에 따라 행동 제어를 실행할 수 있다. 또한, 장기 기억 기능을 구비하고, 외부 자극으로부터 내부 상태의 변화를 연상 기억함으로써, 외부 자극의 인식 결과나 내부 상태의 변화에 따라 행동 제어를 실행할 수 있다.

이 행동 제어 시스템(30)은 객체 지향 프로그래밍을 도입하여 실장(實裝)되어 있다. 이 경우, 각 소프트웨어는 데이터와 그 데이터에 대한 처리 절차를 일체화시킨 「객체」라고 하는 모듈 단위로 취급된다. 또, 각 객체는 메시지 통신과 공유 메모리를 사용한 객체 간 통신 방법에 의해 데이터의 수도(受渡)와 Invoke를 실행할 수 있다.

행동 제어 시스템(30)은 입출력부(3)에서의 CCD 카메라(10), 마이크로폰(11) 및 터치 센서(13)의 각 센서 출력에 따라 외부 환경을 인식하기 위해, 시각 인식 기능부(31)와, 청각 인식 기능부(32)와, 접촉 인식 기능부(33)를 구비하고 있다.

시각 인식 기능부(31)는 CCD 카메라(10)의 센서 출력으로 이루어지는 화상 신호에 따라 얼굴 인식이나 색 인식 등의 화상 인식 처리나 특징 추출을 실행한다. 그리고, 시각 인식 기능부(31)는 이러한 얼굴 인식 결과인 그 인물에 고유의 얼굴 ID(식별자)나, 얼굴 화상 영역의 위치 및 크기 등의 정보와, 각 인식 결과인 색 영역의 위치나 크기, 특징량 등의 정보를 출력한다.

시청각 인식 기능부(32)는 마이크로폰(11)의 센서 출력으로 이루어지는 음성신호에 따라 음성 인식이나 화자(話者) 인식 등의 각종 음에 관한 인식 처리를 실행한다. 그리고, 청각 인식 기능부(32)는 이러한 음성 인식 결과인 인식한 단어의 문자열 정보와, 음향적 특징 등에 따른 화자 인식 처리 결과인 그 화자에게 고유의 화자 ID 정보 등을 출력한다.

접촉 인식 기능부(33)는 터치 센서(13)의 센서 출력인 압력 검출 신호에 따라, 「어루만져진」, 「두드려진」이라고 하는 외부 자극을 인식하고, 인식 결과를 출력한다.

내부 상태 관리부(34)는 본능이나 감정이라고 하는 수 종류의 정동(情動)을 수식(數式) 모델화하여 관리하고 있으며, 시각 인식 기능부(31)와, 청각 인식 기능부(32)와, 접촉 인식 기능부(33)에 의해 인식된 외부 자극에 따라 로봇(1)의 본능이나 정동이라고 하는 내부 상태를 관리한다.

한편, 행동 제어 시스템(30)에서는, 외부 자극의 인식 결과나 내부 상태의 변화에 따라 행동 제어를 실행하기 위해, 시간의 경과와 함께 잃어지는 단기적인 기억을 실행하는 단기 기억부(35)와, 정보를 비교적 장기간 유지하기 위한 장기 기억부(36)를 구비하고 있다. 단기 기억과 장기 기억이라고 하는 기억 메커니즘의 분류는 신경 심리학에 의거한다.

단기 기억부(35)는 시각 인식 기능부(31)와, 청각 인식 기능부(32)와, 접촉 인식 기능부(33)에 의해 인식된 타깃이나 이벤트를 단기간 유지하는 기능 모듈이다. 예를 들면, CCD 카메라(10)로부터의 입력 화상을 약 15초 정도의 짧은 기간만 기억한다.

또, 장기 기억부(36)는 물건의 이름 등 학습에 의해 얻어진 정보를 장기간 유지하기 위해 사용되는 것이며, 제어 유닛(2)(도 2) 내의 RAM(22)이나 불휘발성 메모리(24)가 이용된다.

또한, 행동 제어 시스템(30)에 의해 생성되는 로봇(1)의 행동은 반사 행동부(39)에 의해 실현되는 「반사 행동」과, 상황 의존 행동 계층(38)에 의해 실현되는 「상황 의존 행동」과, 숙고 행동 계층(37)에 의해 실현되는 「숙고 행동」으로 대별된다.

반사적 행동부(39)는 시각 인식 기능부(31)와, 청각 인식 기능부(32)와, 접촉 인식 기능부(33)에 의해 인식된 외부 자극에 따라 반사적인 기체 동작을 실현하는 기능 모듈이다.

반사 행동이란, 기본적으로 센서 입력된 외부 정보의 인식 결과를 직접 받고, 이것을 분류하여, 출력 행동을 직접 결정하는 행동인 것이다. 예를 들면, 인간의 얼굴을 뒤쫓거나, 수긍한다고 하는 행동은 반사 행동으로서 실장하는 것이 바람직하다.

상황 의존 행동 계층(38)은 단기 기억부(35) 및 장기 기억부(36)의 기억 내용이나, 내부 상태 관리부(34)에 의해 관리되는 내부 상태를 기초로, 로봇(1)이 현재 놓여 있는 상황에 즉응(卽應)한 행동을 제어한다.

상황 의존 행동 계층(38)은 각 행동마다 스테이트 머신(state machine)을 준비하고 있으며, 그 이전의 행동이나 상황에 의존하여, 센서 입력된 외부 정보의 인식 결과를 분류하고, 행동을 기체 상에서 발현(發現)한다. 또, 상황 의존 행동 계층(38)은 내부 상태를 어느 범위로 유지하기 위한 행동[「호메오스타시스(homeostasis) 행동」이라고도 함]도 실현하고, 내부 상태가 지정한 범위 내를 초과한 경우에는, 그 내부 상태를 해당 범위 내로 되돌아가게 하기 위한 행동이 출현되기 쉬워지도록 그 행동을 활성화시킨다(실제로는, 내부 상태와 외부 환경의 양쪽을 고려한 형태로 행동이 선택된다). 상황 의존 행동은 반사 행동에 비해 반응 시간이 느리다.

숙고 행동 계층(37)은 단기 기억부(35) 및 장기 기억부(36)의 기억 내용에 따라, 로봇(1)의 비교적 장기에 걸친 행동 계획 등을 실행한다.

숙고 행동이란, 주어진 상황 또는 인간으로부터의 명령에 의해, 추론(推論)이나 그것을 실현하기 위한 계획을 세워 실행되는 행동인 것이다. 예를 들면, 로봇의 위치와 목표의 위치로부터 경로를 탐색하는 것은 숙고 행동에 상당한다. 이와 같은 추론이나 계획은 로봇(1)이 인터랙션을 유지하기 위한 반응 시간보다 처리 시간이나 계산 부하(負荷)를 요할(즉, 처리 시간이 걸릴) 가능성이 있으므로, 이러한 반사 행동이나 상황 의존 행동이 리얼 타임으로 반응을 되돌리면서, 숙고 행동은 추론이나 계획을 실행한다.

숙고 행동 계층(37)이나 상황 의존 행동 계층(38), 반사 행동부(39)는 로봇(1)의 하드웨어 구성에 비의존(非依存)의 상위 애플리케이션ㆍ프로그램으로서 설명할 수 있다. 이에 대하여, 하드웨어 의존층 제어부(40)는 이들 상위 애플리케이션으로부터의 명령에 따라, 입출력부(3)의 스피커(3)를 통해 음성을 출력시키거나,LED(14)를 소정 패턴으로 점멸 구동하거나, 구동부(4)가 대응하는 구동 유닛(15₁∼15_n)을 구동시킨다.

(1-3) 내부 상태 관리부(34)의 구성

여기에서, 이러한 행동 제어 시스템(30)의 구성 요소 중, 후술하는 대화 제어 기능에 직접 관련되는 내부 상태 관리부(34)의 구성에 대하여 설명한다.

내부 상태 관리부(34)는 전술한 바와 같이 수식 모델화된 본능 및 감정을 관리하고 있으며, 이들 본능 및 감정 상태를 시각 인식 기능부(31), 청각 인식 기능부(32) 및 접촉 인식 기능부(33)에 의해 인식된 외부 자극에 따라 변화시키고 있다.

이 경우, 이러한 본능을 구성하는 본능적 요소로서는, 피로(fatigue), 열 또는 체내 온도(temperature), 아픔(pain), 식욕 또는 배고픔(hunger), 목마름(thirst), 애정(affection), 호기심(curiosity), 배설(elimination) 및 성욕(sexual) 등이라고 하는 9개의 본능적 요소가 있고, 이러한 감정을 구성하는 정동적 요소로서, 행복(happiness), 슬픔(sadness), 노여움(anger), 놀람(surprise), 혐오(disgust), 두려움(fear), 초조(frustration), 권태(boredom), 수면(somnolence), 사교성(gregariousness), 끈기(patience), 긴장(tense), 리랙스(relaxed), 경고(alertness), 죄(guilt), 악의(spite), 성실(loyalty), 복종성(submission) 및 질투(jealousy) 등이라고 하는 18개의 정동적 요소가 있다.

그리고, 내부 상태 관리부(34)는 이들 각 본능적 요소 및 각 정동적 요소를각각 그 요소의 강도를 표시하는 파라미터로서 유지하고 있으며, 이들 각 요소의 파라미터값을 시각 인식 기능부(31), 청각 인식 기능부(32) 및 접촉 인식 기능부(33)의 인식 결과와, 경과 시간 등에 따라 주기적으로 갱신함으로써, 로봇(1)의 본능 및 감정을 시시각각으로 변화시키고 있다.

구체적으로, 내부 상태 관리부(34)는 각 본능적 요소에 대하여, 시각 인식 기능부(31), 청각 인식 기능부(32) 및 접촉 인식 기능부(33)의 인식 결과와, 경과 시간 등에 따라 소정 연산식에 의해 산출되는 그 때의 그 본능적 요소의 변화량을 △I〔k〕, 현재의 그 본능적 요소의 파라미터값을 I〔k〕, 그 본능적 요소의 감도를 표시하는 계수를 ki로 하고, 소정 주기로 다음 식

I〔k+1〕= I〔k〕+ k × △I〔k〕 … (1)

을 사용하여 다음의 주기에 있어서의 그 본능적 요소의 파라미터값 I〔k+1〕을 산출하고, 그 연산 결과를 현재의 그 본능적 요소의 파라미터값 I〔k〕와 치환하도록 하여 그 본능적 요소의 파라미터값을 갱신한다.

또, 내부 상태 관리부(34)는 각 정동적 요소에 대하여, 시각 인식 기능부(31), 청각 인식 기능부(32) 및 접촉 인식 기능부(33)의 인식 결과와, 그 때의 로봇(1)의 행동과, 전회 갱신한 다음의 경과 시간 등에 따라 소정 연산식에 의해 산출되는 그 때의 그 정동적 요소의 변동량을 △E〔t〕, 현재의 그 정동적 요소의 파라미터값을 E〔t〕, 그 정동적 요소의 감도를 표시하는 계수를 ke로 하고, 다음 식

E〔t+1〕= E〔t〕+ ke × △E〔t〕 … (2)

를 사용하여 다음의 주기에 있어서의 그 정동적 요소의 파라미터값 E〔t+1〕을 산출하고, 이것을 현재의 그 정동적 요소의 파라미터값과 치환하도록 하여 그 정동적 요소의 파라미터값을 갱신한다.

그리고, 시각 인식 기능부(31), 청각 인식 기능부(32) 및 접촉 인식 기능부(33)의 인식 결과 등이 각 본능적 요소나 각 정동적 요수에 어떠한 영향을 주는가는 미리 정해져 있고, 예를 들면, 접촉 인식 기능부(33)에 의한「어루만져진」이라고 하는 인식 결과는 본능적 요소 중 「애정」의 파라미터값의 변동량 △I〔k〕와, 정동적 요소인 「행복」의 파라미터값의 변동량 △E〔t〕에 큰 영향을 주도록 되어 있다.

(2) 로봇(1)에 있어서의 트래킹에 의한 대화 제어 기능

이 로봇(1)에는, 유저와 대화를 실행할 수 있는 대화 제어 기능과, 그 대화 상대인 유저의 존재를 추적할 수 있는 트래킹 기능이 탑재되어 있고, 현재의 환경 하에 하등 영향이 미치지 않고, 대화 상대의 존재를 확실하게 인식할 수 있도록 되어 있다.

(2-1) 로봇(1)에 있어서의 대화 제어 기능

먼저, 이 로봇(1)에 탑재된 대화 제어 기능에 대하여 설명한다.

이 로봇(1)에는, 유저와의 대화를 통해 그 유저나 다른 대상물(이하, 이것을 통합하여 유저 등이라고 함)의 이름이나 생일, 좋아하는 것 등 미리 정해진 몇 개인가의 항목에 관한 정보(이하, 이것을 그 항목의 값이라고 함)를 획득하고, 이것을 예를 들면 도 4에 나타내는 소정 포맷으로 기억하는 동시에, 이들 기억하고 있는 각 항목의 값을 이용하면서 그 유저와 대화를 실행할 수 있는 대화 제어 기능이 탑재되어 있다.

그리고, 도 4에서, 열(列)은 미리 정해진 각 항목[「이름(Name)」, 「종류(Kind)」, 「얼굴 ID(Face ID)」, 「화자 ID(Speaker ID)」, 「생일(BIRTHDAY)」, 「좋아하는 것(Favorite)」 및 「친구(Friend)」에 대한 값(「유키코」, 「인간」, 「0」, 「1」, 「73/5/2」, 「홍차」, 「가즈미」 등)을 나타내고, 행(行)은 하나의 대상물에 대하여 획득한 각 항목의 값을 나타낸다. 또, 각 행의 최초의 수자는 그 대상물을 최초에 등록할 때에 부여되는 그 대상물의 ID(대상물 ID)를 나타낸다.

이 도 4에서는, 이미 각 대상물에 관한 모든 항목의 값이 획득된 후의 상태를 나타내고 있지만, 각 항목 중 「이름(name)」, 「화자 ID(Speaker ID)」, 「생일(BIRTHDAY)」, 「좋아하는 것(Favorite)」 및 「친구(Friend)」에 대해서는, 유저와의 대화 시에 있어서의 청각 인식 기능부(32)의 각종 음성 처리에 의해 획득되며, 「얼굴 ID(Face ID)」 및 「종류(Kind)」에 대해서는, 유저와의 대화 시에 있어서의 시각 인식 기능부(31)의 각종 화상 인식 처리 등에 의해 획득되어, 기억되게 된다.

또, 이 도 4에서, 각 값의 좌측에 설명된 수치는 그 값에 대한 인상도(印象度)를 표시한다. 이 인상도는 로봇(1)이 그 화제를 금후 화제에 이용해도 좋은지 여부의 척도가 되는 것이며, 예를 들면, 도 4의 예에서는, 이 인상도가 높을수록 인상이 양호하고(다음에 말하고 싶게 되는), 낮을수록 인상이 나쁜(말하고 싶지 않은) 것을 표시한다.

본 실시예에서는, 인상도는 그 항목의 값을 획득하기 직전의 내부 상태 관리부(34)에 있어서의 「애정」의 파라미터값과, 그 항목의 값을 획득한 직후의 해당 「애정」의 파라미터값의 차분(差分)으로서 부여한다.

여기에서, 이러한 대화 제어 기능은 주로 도 3에 대하여 전술한 행동 제어 시스템(30)에 있어서의 상황 의존 행동 계층(38)의 처리에 의해 실행된다. 그리고, 이 대화 제어 기능에 관해서는, 도 5에 나타내는 바와 같이, 상황 의존 행동 계층(38) 내의 대화 제어부(38A)에 의해 실행된다.

이 대화 제어부(38A)의 처리 내용을 기능적으로 분류하면, 도 5에 나타내는 바와 같이, 유저 등에 대한 각 항목의 값을 획득하기 위한 회화(이하, 이것을 획득 회화라고 함)를 생성하는 기억 획득 회화 생성부(50)와, 획득한 그 유저 등에 대한 각 항목의 값을 이용한 회화(이하, 이것을 이용 회화라고 함)를 생성하는 기억 이용 회화 생성부(51)와, 이들 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51)의 제어를 담당하는 상황 판단부(52)로 나눌 수 있다.

이 경우, 상황 판단부(52)는 단기 기억부(35)(도 3)를 통해 얻어지는 시각 인식 기능부(31)의 인식 결과나 청각 인식 기능부(32)의 인식 결과에 따라, 대화 상대가 될 수 있는 유저의 존재를 인식하면, 도 6에 나타내는 바와 같이, 이 때 시각 인식 기능부(31)나 청각 인식 기능부(32)의 인식 결과로서 얻어지는 그 유저의 얼굴 ID나 화자 ID를 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51)에 송출하는 동시에, 이들 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51)의 각각에 대하여 획득 회화 또는 이용 회화의 생성이 가능한지 여부를 문의한다(스텝 SP1A, 스텝 SP1B).

이 때, 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51)는 미리 정해진 소정의 화제 생성 룰 및 화제 이용 방법 결정 룰에 따라, 화제의 생성과, 생성된 화제를 어떻게 이용하여 획득 회화 또는 이용 회화를 생성하는가라고 하는 화제의 이용 방법을 결정하는 회화 생성 처리를 실행한다(스텝 SP2A, 스텝 SP2B).

여기에서, 본 실시예의 경우, 이러한 화제 생성 룰로서 6개의 룰이 있다.

제1 화제 생성 룰은 직전의 회화에서 사용한 화제와 동일 대상물의 다른 임의의 항목을 다음의 화제로서 선택하는 룰이며, 본 실시예에서는, 인상도가 가장 큰 항목으로부터 차례로 선택한다. 예를 들면, 도 4에서 직전의 회화 화제가 『대상물 ID1』의 『생일(BIRTHDAY)』인 경우에, 동일 『대상물 ID1』의 다른 항목 중에서 인상도가 가장 큰 항목을 다음 화제의 화제로 하는 경우가 해당된다.

또, 제2 화제 생성 룰은 직전의 회화에서 사용한 화제와 동일 대상물이 관련이 있는 항목을 다음의 화제로서 선택하는 룰이며, 예를 들면 도 4에서 직전의 회화 화제가 『대상물 ID1』의 『좋아하는 것(Favorite)』인 경우에, 『대상물 ID1』의 『싫어하는 것(Dislike)』을 다음 회화의 화제로 하는 경우가 해당된다.

또한, 제3 화제 생성 룰은 직전의 회화에서 사용한 화제 항목의 값으로부터 특정할 수 있는 대상물의 다른 어느 하나의 항목을 다음의 화제로서 선택하는 룰이며, 본 실시예에서는, 인상도가 높은 대상물로부터 차례로 다음의 대상물로 한다. 예를 들면, 도 4에서 직전의 회화 화제가 『대상물 ID1』의 『친구(Friend)』인 경우에, 그 『친구(Friend)』인 『대상물 ID2』중 어느 한 항목을 다음 회화의 화제로 하는 경우가 해당된다.

한편, 제4 화제 생성 룰은 직전의 회화에서 사용한 화제와 동일 대상물의 동일 항목을 다음의 화제로서 선택하는 룰이며, 예를 들면, 도 4에서 직전의 회화 화제가 『대상물 ID1』의 『생일(BIRTHDAY)』인 경우에, 동일 『대상물 ID1』의 동일 『생일(BIRTHDAY)』을 다음 회화의 화제로 하는 경우가 해당된다.

또, 제5 화제 생성 룰은 직전의 회화에서 사용한 화제에 있어서의 항목의 값과 동일값을 가지는 다른 대상물의 동일 항목을 다음의 화제로서 선택하는 룰이며, 예를 들면, 도 4에서 직전의 회화 화제가 『대상물 ID1』의 『좋아하는 것(Favorite)』인 경우에, 『좋아하는 것(Favorite)』의 값이 동일 『홍차』인 『대상물 ID3』의 『좋아하는 것(Favorite)』을 다음 회화의 화제로 하는 경우가 해당된다.

또한, 제6 화제 생성 룰은 직전의 회화에서 사용한 화제에 있어서의 항목의 값과 관련 있는 값을 가지는 다른 대상물의 항목을 다음의 화제로서 선택하는 룰이며, 예를 들면, 도 4에서 직전의 회화 화제가 『대상물 ID1』의 『좋아하는 것(Favorite)』인 경우에, 그 『좋아하는 것(Favorite)』인 『말』로부터 『경마』를 『좋아하는 것(Favorite)』의 값으로 하는 『대상물 ID6』을 선택으로 하고, 이 『대상물 ID6』의 『좋아하는 것(Favorite)』을 다음 회화의 화제로 하는 경우가 해당된다.

또한, 제7 화제 생성 룰은 직전의 회화에서 사용한 화제와 동일 항목에서 다른 대상물을 다음의 화제로서 선택하는 룰이며, 예를 들면, 도 4에서 직전의 회화 화제가 『대상물 ID1』의 『좋아하는 것(Favorite)』인 경우에, 『대상물 ID2』의 『좋아하는 것(Favorite)』을 다음 회화의 화제로 하는 경우가 해당된다.

그리고, 이들 제1∼제7 화제 생성 룰 중, 제1∼제3 화제 생성 룰은 획득 회화 생성 시 및 이용 회화 생성 시의 쌍방에서 이용할 수 있고, 제3∼제7 화제 생성 룰은 획득 회화의 생성 시에는 이용할 수 없지만, 이용 회화 생성 시에는 유효하다.

따라서, 기억 획득 회화 생성부(50)는 이들 제1∼제3 화제 생성 룰 중에서 하나를 랜덤(임의)으로 선택하고, 기억 이용 회화 생성부(51)는 이들 제1∼제7 화제 생성 룰 중에서 하나를 랜덤으로 선택하고, 해당 선택된 화제 생성 룰에 따라, 예를 들면, 직전의 회화 화제가 『대상물 ID1 의 좋아하는 것(Favorite)』인 경우에, 『대상물 ID1의 친구(Friend)』, 『대상물 ID1의 싫어하는 것(Dislike)』, 『대상물 ID2의 생일(BIRTHDAY)』, 『대상물 ID1의 생일(BIRTHDAY)』, 『대상물 ID3의 좋아하는 것(Favorite)』 또는 『대상물 ID6의 좋아하는 것(Favorite)』이라고 하는 형태로 다음 회화의 화제를 생성하게 된다.

한편, 본 실시예에서는, 화제 이용 방법 결정 룰로서, 3개의 룰이 있다.

이 경우, 제1 화제 이용 방법 결정 룰은 장기 기억부(36)가 기억하고 있는 대응하는 항목의 값을 그대로 이용하여 발화를 생성하는 룰이며, 예를 들면, 화제로서 『대상물 ID1의 좋아하는 것(Favorite)』이 생성된 경우에, 『유키코가 좋아하는 것이란 홍차네요』나, 『유키코가 좋아하는 것이란 무엇?』이라고 하는 발화를 생성하는 경우가 해당된다.

또, 제2 화제 이용 방법 결정 룰은 장기 기억부(36)가 기억하고 있는 대응하는 항목의 값으로부터 데이터 베이스를 검색하여 관련되는 사항을 판독하고, 이것을 이용하여 발화를 생성하는 룰이며, 예를 들면, 화제로서 『대상물 ID1의 생일(BIRTHDAY)』이 생성된 경우에, 그 『생일(BIRTHDAY)』의 값인 『73/5/2』를 키워드로 하여 기념일 데이터 베이스를 검색하고, 얻어진 『교통 광고의 날』이라고 하는 사항을 이용하여, 『5월 2일은 교통 광고의 날이에요』라고 하는 발화를 생성하는 경우가 해당된다.

또한, 제3 화제 이용 방법 결정 룰은 장기 기억부(36)가 기억하고 있는 대응하는 항목의 값으로부터 계산 또는 연상 등이 되는 관련된 값으로 데이터 베이스를 검색하고 또한 관련된 사항을 판독하고, 이것을 이용하여 발화를 생성하는 룰이며, 예를 들면, 화제로서 『대상물 ID1의 생일(BIRTHDAY)』이 생성된 경우에, 그 『생일(BIRTHDAY)』의 값인 『73/5/2』로부터 계산되는 『황소 자리』를 키워드로 하여 점성술 데이터 베이스를 검색하고, 얻어진 『참을성이 많다』라고 하는 사항을 이용하여『황소 자리는 참을성이 많은 사람이에요』라고 하는 발화를 생성하는 경우가 해당된다.

그리고, 이들 제1∼제3 화제 이용 방법 결정 룰 중, 제1 화제 이용 방법 결정 룰은 획득 회화 생성 시 및 이용 회화 생성 시의 쌍방에서 이용할 수 있고, 제2 및 제3 화제 이용 방법 결정 룰은 획득 회화 생성 시에는 이용할 수 없지만, 이용 회화 생성 시에는 유효하다.

따라서, 기억 획득 회화 생성부(50)는 제1 화제 이용 방법 결정 룰을 선택하고, 기억 이용 회화 생성부(51)는 제1∼제3 화제 이용 방법 결정 룰 중에서 하나를 랜덤으로 선택하고, 해당 선택된 화제 이용 방법 결정 룰에 따라 정보 획득을 위한 발화나 획득한 정보를 이용한 발화를 생성하게 된다.

그리고, 이들 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51)는 이러한 화제 생성 처리에 의해 화제의 생성 및 그 이용 방법의 결정을 실행할 수 있을 때에는, 그 취지 및 그 화제 및 이용 방법을 상황 판단부(52)에 통지하는 한편, 이러한 화제의 생성 등을 할 수 없을 때에는, 그 취지를 상황 판단부(52)에 통지한다(스텝 SP3A, 스텝 SP3B).

한편, 상황 판단부(52)는 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51)의 양쪽으로부터 화제의 생성 및 그 이용 방법의 결정을 실행할 수 있는 취지의 통지가 주어졌을 때에는, 그 때의 그 대화 상대의 전 항목수에 대한 미존재 값을 획득하고 있지 않은 항목수의 정도(程度)로 이루어지는 제1 정도와, 그 대화 상대의 전 항목수에 대한 기존재 값을 획득한 항목수의 정도로 이루어지는 제2 정도에 따라, 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51) 중 어느 한쪽을 선택한다(스텝 SP4).

보다 구체적으로는, 상황 판단부(52)는 제1 정도가 제2 정도 이상인 때에는 기억 획득 회화 생성부(50)를 선택하고, 제1 정도가 제2 정도보다 작을 때에는 기억 이용 회화 생성부(51)를 선택한다.

그리고, 상황 판단부(52)는 이후 이렇게 하여 어느 한쪽을 선택하면, 그 선택한 기억 획득 회화 생성부(50) 또는 기억 이용 회화 생성부(51)에 대하여, 그 화제 및 이용 방법에 따라 획득 회화 또는 이용 회화를 생성하는 처리(이하, 이것을 회화 생성 처리라고 함)를 개시하도록 지시를 부여한다(스텝 SP5).

또, 상황 판단부(52)는 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51) 중 어느 한쪽으로부터만 화제 및 그 이용 방법의 통지가 주어진 때에도, 그 기억 획득 회화 생성부(50) 또는 기억 이용 회화 생성부(51)에 대하여, 그 화제 및 이용 방법에 따라 회화 생성 처리를 개시하도록 지시를 부여한다(스텝 SP5).

이렇게 하여, 이러한 지시가 주어진 기억 획득 회화 생성부(50) 또는 기억 이용 회화 생성부(51)는 회화 생성 처리를 개시하고, 먼저 내부 상태 관리부(34)에 액세스하여 본능적 요소 중 「애정」의 파라미터값을 취득하고, 그 후 전술한 바와 같이 하여 결정한 화제 및 그 이용 방법에 따라 생성되는, 애정을 획득하기 위한 발화(이하, 이것을 획득 발화라고 함) 또는 획득한 정보를 이용한 발화(이하, 이것을 이용 발화라고 함)를 포함하는 일련의 발화로 이루어지느 획득 회화 또는 이용 회화를 실행하기 위한 각 발화 내용의 문자열 데이터 D1을 하드웨어 의존 행동 제어부(40) 내의 음성 합성부(40A)에 차례로 송출한다.

이 결과, 이 문자열 데이터 D1에 따라 음성 합성부(40A)에서 음성 신호 S1이 생성되고, 이것이 스피커(12)(도 1)에 주어짐으로써, 예를 들면, 『유키코가 좋아하는 것이란 무엇?』이라고 하는 획득 발화를 포함하는 일련의 발화로 이루어지는 획득 회화를 형성하는 각 발화 내용의 음성이나, 『유키코가 좋아하는 것이란 홍차네!』라고 하는 이용 발화를 포함하는 일련의 발화로 이루어지는 이용 회화를 형성하는 각 발화 내용의 음성이 스피커(12)로부터 출력되게 된다(스텝 SP6).

그리고, 이 때 그 화제에 대한 유저의 응답이 마이크로폰(11)에 의해 집음(集音)되어 행동 제어 시스템(30)(도 3)의 청각 인식 기능부(32)에 주어지고, 해당 청각 인식 기능부(32)에 의해 음성 인식된다.

이렇게 하여, 스텝 SP4에서 선택되어 있던 것이 기억 획득 회화 생성부(50)인 경우, 해당 기억 획득 회화 생성부(50)는 이 청각 인식 기능부(32)의 음성 인식 결과에 따라, 획득 발화에 대한 유저의 응답 중에서 해당 획득 발화에 따른 질문의 대답(즉, 그 때 획득하려고 하고 있던 항목의 값)을 추출하고, 이것을 예를 들면, 도 4에 대하여 전술한 포맷으로 장기 기억부(36)에 기억시킨다(스텝 SP6).

또, 이와 함께 기억 획득 회화 생성부(50)는 내부 상태 관리부(34)에 액세스하여 이 때의 「애정」의 파라미터값을 취득하고, 해당 취득된 파라미터값과, 회화 직전에 취득한 동일 「애정」의 파라미터값의 차분을 계산하고, 해당 계산 결과를 이러한 유저 등이 전술한 바와 같이 하여 획득한 항목의 값의 인상도로서, 해당 값과 대응시켜 장기 기억부(34)에 기억시킨다(스텝 SP6).

한편, 기억 획득 회화 생성부(50) 또는 기억 이용 회화 생성부(51)는 획득 회화 또는 이용 회화가 종료되면, 이것을 알리는 통지를 상황 판단부(52)에 송출한다(스텝 SP7). 그리고, 상황 판단부(52)는 이러한 통지를 수취하면, 스텝 SP4에서 선택한 기억 획득 회화 생성부(50) 또는 기억 이용 회화 생성부(51)로부터 스텝 SP3A 또는 스텝 SP3B에서 통지된 화제 및 그 이용 방법을 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51)에 각각 통지한다(스텝 SP8A, 스텝 SP8B).

이렇게 하여, 기억 획득 회화 생성부(50) 및 기억 이용 회화 생성부(51)는 이 통지된 화제 및 이용법을 회화 이력으로서 기억하고(스텝 SP9A, 스텝 SP9B), 이 후 동일 대화 상대와의 한번의 대화에서, 동일 화제를 사용하지 않도록 해당 대화가 종료될 때까지 전술과 동일하게 하여 차례로 획득 회화 또는 이용 회화를 생성한다(스텝 SP10A-스텝 SP1A∼스텝 SP10A, 스텝 SP10B-스텝 SP1B∼스텝 SP10B).

이와 같이 하여 이 로봇(1)에서는, 유저에 관한 각종 정보를 자연스러운 형태로 차례로 획득하는 동시에 이것을 이용하면서, 자연스러운 흐름으로 화제를 차례로 천이(遷移)시키면서, 그 유저에게 특화된 화제의 대화를 실행할 수 있게 되어 있다.

(2-2) 로봇(1)에서의 트래킹 기능

다음에, 이 로봇(1)에 탑재된 트래킹 기능에 대하여 설명한다.

이 로봇(1)에는, 대화 상대의 존재를 확실하게 추적할 수 있는 트래킹 기능이 탑재되어 있다. 이러한 트래킹 기능은 주로 도 3에 대하여 전술한 행동 제어 시스템(30)에 있어서의 상황 의존 행동 계층(38)의 처리에 의해 실행된다. 그리고, 이 트래킹 기능에 관해서는, 전술한 도 5에 나타내는 바와 같이, 상황 의존 행동층(38) 내의 트래킹 제어부(38B)에 의해 실행된다.

이 트래킹 제어부(38B)의 처리 내용을 기계적으로 분류하면, 도 5에 나타내는 바와 같이, 시각 인식 기능부(31), 청각 인식 기능부(32) 및 접촉 인식 기능부(33)의 인식 결과를 통합하는 인식 통합부(55)와, 해당 인식 통합부(55)의 통합 결과에 따라, 대화 상대의 위치를 예측하는 예측부(56)로 나눌 수 있다.

이 경우, 인식 통합부(55)는 시각 인식 기능부(31)의 인식 결과, 청각 인식 기능부(32)의 인식 결과 및 접촉 인식 기능부(33)의 인식 결과에 따라, 대화 상대의 얼굴 화상, 발성음 및 접촉 상태의 관점에서 해당 대화 상대의 존재를 인식한다.

즉, 시각 인식 기능부(31)는 CCD 카메라(10)의 센서 출력으로 이루어지는 화상 신호에 따라 실행하는 화상 인식 처리 중 피부색 인식, 얼굴 인식 및 개인 인식의 3 종류의 인식 처리를 피부색 인식 처리, 얼굴 인식 처리 및 개인 인식 처리의 순번으로 단계적으로 실행함으로써, 당해 각 인식 처리의 결과를 인식 통합부(55)에 송출한다.

이들 피부색 인식, 얼굴 인식 및 개인 인식의 각 인식 처리는 각각 인간의 얼굴을 인식하는 데 있어서 인식 레벨이 상이하고, 이 중 대상이 되는 인물이 누구인가를 특정하는 개인 인식 처리가 자장 인식이 곤란하기 때문에 상위가 되고, 다음에 인간 등의 얼굴인지 여부를 인식하는 얼굴 인식 처리가 중위가 되고, 가장 인식이 용이한 피부색 인식 처리가 하위로 된다.

구체적으로 시각 인식 기능부(31)는 화상 신호에 따른 화상으로부터 피부색 영역을 검출하고, 해당 검출 결과에 따라, 화상 내의 대상물이 인간의 얼굴인지 여부를 판단한다. 그리고, 시각 인식 기능부(31)는 인간의 얼굴이라고 판단한 경우에는, 그 얼굴 영역의 화상에 따라, 대화 상대가 누구인가의 개인을 특정한 후, 이 인식 결과를 인식 통합부(55)에 송출한다.

또, 청각 인식 기능부(32)는 마이크로폰(11)의 센서 출력으로 이루어지는 음성 신호에 따라 실행하는 각종 음에 관한 인식 처리 중, 로봇(1) 자신에 대하여 어느 방향으로부터 음성이 들렸는가를 인식하기 위한 음성 방향 인식 처리를 실행하고, 이 인식 결과를 인식 통합부(55)에 송출한다.

예를 들면, 입출력부(3)(도 1)에 복수의 마이크로폰(11)이 설치되어 있는 경우에, 해당 복수의 마이크로폰(11)을 사용하여, 입력된 음성 이벤트의 음원 방향을 추정한다. 구체적으로는, 예를 들면, 「오가, 야마자키, 가네다 『음향 시스템과 디지털 처리』(전자 정보 통신 학회) p197」에 기재되어 있는 바와 같이, 음원 방향과 복수의 마이크로폰으로 수음(受音)한 신호의 시간차와 1 대 1의 관계가 있는 것을 이용하여 음원 방향을 추정할 수 있다.

즉, 도 7에 나타내는 바와 같이, θS 방향으로부터 도래하는 평면파를 거리 d만큼 떨어져 설치된 2개의 마이크로폰 M1, M2로 수음하는 경우, 각 마이크로폰 M1, M2의 수음 신호 x1(t)와 x2(t) 사이에는, 다음 식

x₂(t) = x₁(t-Ts) … (3)

Ts = (dsinθs)/c … (4)

로 나타내는 바와 같은 관계가 성립된다. 여기에서, 식 (1), (2)에서, c는 음속이며, τS는 2개의 마이크로폰 M1, M2로 수음한 신호의 시간차이다.

따라서, 수음 신호 x1(t)와 x2(t) 사이의 시간차 τS를 알 수 있으면, 다음식

θ_s= sin¹(cTs/d) … (5)

에 의해, 음파의 도래 방향, 즉 음원 방향을 구할 수 있다.

여기에서, 시간차 τS는 다음 식

φ₁₂(T) = E〔x₁(t)ㆍx₂(t+T)〕 … (6)

로 표현되는 바와 같은, 수음 신호 x1(t)와 x2(t) 사이의 상호 상관 함수 φ12(τ)로부터 구할 수 있다. 여기에서, 식 (4)에서 E[ㆍ]는 기대값이다.

전술한 식 (1)과 식 (4)로부터 상호 상관 함수 φ12(τ)는 다음 식

φ₁₂(T) = E〔x₁(t)ㆍx₁(t+T-T_s)〕

= φ₁₁(T-T_s) … (7)

와 같이 표현된다. 여기에서, 식 (5)에서, φ11(τ)는 수음 신호 x1(t)의 자기 상환 함수이다.

이 자기 상관 함수 φ11(τ)는 τ=0에서 최대값을 취하는 것이 알려져 있기 때문에, 식 (5)로부터 상호 상관 함수 φ12(τ)는 τ=τS에서 최대값을 취한다. 따라서, 상호 상관 함수 φ12(τ)를 계산하여, 최대값을 주는 τ를 구하면 τS가얻어지고, 그것을 전술한 식 (3)에 대입시킴으로써, 음파의 도래 방향, 즉 음원 방향을 구할 수 있다.

그리고, 청각 인식 기능부(33)(도 5)는 마이크로폰(11)으로 수음한 음 이벤트가 음성이었는지 여부를 판별할 수 있다. 구체적으로는, 예를 들면, HMM(Hidden Mrakov Mode 1)법에 의해 음성과 비음성을 통계적으로 모델화하고, 그 우도(尤度)(likelihood)를 비교함으로써, 음 이벤트가 음성이었는지 여부를 판별할 수 있다. 또, 청각 인식 기능부는, 예를 들면, 문헌 「F. Asano, H. Asoh and T. Matsui, "Sound Source Localization and Separation in Near Field", IEICE Trans. Fundamental, Vol. E83-A, No.11, 2000」에 기재되어 있는 바와 같은 방법으로 음원까지의 추정 거리를 계산함으로써, 음원이 가까운지 여부를 대충 판별할 수 있다.

또한, 접촉 인식 기능부는 터치 센서(13)의 센서 출력으로 이루어지는 압력 검출 신호에 따라 실행하는 외부 자극에 관한 인식 처리 중, 유저에 의해 접촉되었는지를 인식하기 위한 접촉 인식 처리를 실행하고, 이 인식 결과를 인식 통합부(55)에 송출한다.

인식 통합부(55)는 시각 인식 기능부(31)의 인식 결과, 청각 인식 기능부(32)의 인식 결과 및 접촉 인식 기능부(33)의 인식 결과를 통합한다. 이 때의 통합이란, 화상 상의 동일 영역에 대하여, 누구인가는 잘 모르지만 얼굴과 피부색이 인식되었다고 하는 정보 통합을 의미한다. 즉, 시각 인식 기능부(31), 청각 인식 기능부(32) 및 접촉 인식 기능부(33)의 각 인식이 성공했는지 여부의 정보와, 인식이 성공한 경우에는 그 인식 정보가 인식 결과로서 보내지고, 인식이 성공하여 인식 정보가 보내진 경우에는, 그 인식 결과 후 소정 인식 결과 또는 1 이상의 인식 결과로부터 대화 상대의 방향을 추정한다.

이렇게 하여 인식 통합부(55)는 인식 결과에 따라, 대화 상대의 존재에 대하여 트래킹을 실행하기 위한 각 행동 내용을 표시하는 추적 행동 데이터 D2를 하드웨워 의존 행동 제어부(40) 내의 행동 발현부(40B)에 차례로 송출한다.

이 결과, 이 추적 행동 데이터 D2에 따라, 행동 발현부(40B)에서 행동 결정 신호 S2가 생성되고, 이것이 구동부(4)(도 1)가 대응하는 구동 유닛(15₁∼15_n)에 주어짐으로써, 예를 들면, 대화 상대의 얼굴 중심(重心) 등이 입력 화상의 중심(中心)에 위치하도록 로봇(1)의 목관절이 움직이게 된다.

그리고, 인식 통합부(55)는 개인 인식 처리에 실패한 경우에는, 그 밖의 얼굴 인식 처리, 피부색 인식 처리, 음성 방향 인식 처리 또는 접촉 인식 처리 중 어느 하나의 인식 결과를 사용하여 트래킹을 계속하도록 제어한다. 예를 들면, 얼굴 인식 처리의 인식 결과를 사용하여 대화 상대 인물의 얼굴 방향(위치)를 예상한다. 즉, 개인으로서의 인식은 할 수 없지만, 얼굴 인식 처리는 성공하고 있으며, 얼굴인 것은 인식할 수 있는 경우, 그 얼굴을 동일 개인으로서 이 개인을 아직 트래킹할 수 있는 것으로 하고, 해당 얼굴 영역이 입력 화상의 중심에 오도록 구동부(4)를 제어한다. 또, 얼굴 인식 처리에 실패하고 있는 경우에는, 예를 들면, 피부색 인식 처리의 인식 결과를 사용하고, 또한 피부색 인식 처리도 실패했을 때에는, 음성 방향 인식 처리의 인식 결과를 사용하여, 음성 방향으로 로봇(1)의 정면이 향하도록 구동부(4)를 제어한다.

그리고, 인식 통합부(55)는 각종 인식 결과의 어느 것을 우선적으로 사용하는가는, 미리 설정되어도 되며, 또는 로봇(1)이 적당히 선택해도 된다. 예를 들면, 개인 인식 처리에 의한 인식이 실패하기 직전의 대화 상대의 위치(방향)와 가장 가까운 인식 처리의 인식 결과를 사용하도록 해도 된다.

또, 인식 통합부(56)는 인식 통합부(55)의 인식 통합 결과가 공급되며, 각 인식 처리의 인식 결과 불안정에 의해 일시적으로 인식 대상을 인식할 수 없게 된 경우(인식에 실패한 경우), 대상물의 위치를 예측하는 것이며, 예를 들면, 어느 인식 처리로부터의 인식 결과도 실패한 경우에, 실패하기 직전까지의 인식 결과에 따라 현재의 대상물 위치(방향)를 예측한다.

그리고, 예측부(56)는, 예를 들면, 인식 통합부(55)로부터 인식 통합 결과가 항상 공급되며, 전술한 트래킹 제어부 등에 의해, 대상물을 인식할 수 없게 된 경우에 대상물의 위치 예측을 개시하도록 지시되는 등, 각종 인식 처리의 인식 회복을 일정 시간 기다리는 등의 제어가 실행된다. 또는, 대상물을 인식할 수 없게 된 경우에, 인식 통합부(55)로부터 그 직전까지의 인식 결과가 공급되어, 대상물의 위치를 예측하도록 지시되어도 된다.

그리고, 이 예측부(56)는 대상물이 인식되지 않게 되기 직전의 인식 결과로부터 대상물의 방향을 예측하고, 그 예측 방향을 구동부(4)(도 1)에 송출한다. 즉, 로봇(1)이 트래킹되기 위해 필요한 화상에 의한 외계 인식은 종종 불안정하여,라이팅(조명 조건)이나, 인물의 얼굴 각도에 민감하며, 이것들이 조금 변화되면 시각 인식 기능부(31)는 각종 인식 처리에 실패할 우려가 있다. 또, 볼 등의 대상물이 크게 움직이면 불균일한 조명 조건 하를 볼이 이동하게 되어, 인식이 어려워진다. 또한, 자율 동작이 가능한 로봇(1)은 내부 상태 및 외부 자극에 따라 항상 발현하는 동작이 선택되며, 예를 들면, 트래킹 동작에 의해 우선 순위가 높은 다른 동작이 발생한 경우에는, 트래킹 동작을 중단하고, 다른 동작의 발현을 허용하는 경우가 있다. 예를 들면, 어느 인물 A와의 회화 중에 다른 B에게 불려져, 로봇(1)이 뒤돌아보고 인물 B와 짧은 대화를 한 후, 원래의 인물 A와의 회화를 계속하려고 하는 경우 등, 일단 트래킹을 정지한 후, 다시 트래킹을 개시하고 싶다고 하는 경우가 발생한다. 이와 같은 겨우, 원래의 인물 A의 존재 위치 등을 기억해 두는 것은 원리적으로는 할 수 있지만, 인물 A가 조금이라도 움직이거나 하면 인식의 불안정 때문에 트래킹을 재개할 수 없는 경우가 있다.

이와 같은 경우에도, 예를 들면, 대상물이 동체(動體)인 경우에는, 직전의 움직임량으로 부터 현재의 위치(방향)를 예측하여 예측 방향을 구한다. 또, 인식에 실패하기 직전의 소정 기간, 대상물이 정지(靜止)되어 있다고 판단할 수 있는 경우에는, 직전의 대상물 방향을 예측 위치로 한다.

그리고, 하드웨어 의존 행동 제어부(40) 내의 행동 발현부(40B)는 인식 통합부(55) 또는 예측부(56)로부터의 제어 정보에 따라 추적 행동 데이터 D2를 생성하고, 이것을 구동부(4)를 통해 출력한다. 즉, 로봇(1)의 각 관절에 있어서의 각 구동 유닛(15₁∼15_n)에 대하여, 해당 각 관절을 롤, 피치, 요 등 각 축을 중심으로 하여 회전시키는 회전 각도나 회전 위치를 산출하고, 대응하는 모터(16₁∼16_n)를 구동 제어함으로써, 대상물의 움직임에 맞춰 로봇(1)의 목 등을 회전시키는 등 하여 로봇(1)에 트래킹을 실행시킨다.

그리고, 예측부(56)는 모든 인식 처리가 실패했을 때에 대상물의 방향을 예측하는 것으로 했지만, 전술한 인식 통합부(55)에 있어서의 처리의 일부를 예측부(56)에서 실행시키도록 해도 된다. 즉, 상위의 개인 인식 처리가 실패했을 때에, 하위의 얼굴 인식 처리의 인식 결과나 음성 방향 인식 처리의 인식 결과를 사용하여 트래킹을 계속할 때의 처리를 예측부(56)가 실행하도록 해도 된다.

(3) 대화 상대 확인 처리 순서

실제로 로봇(1)에서는, 마이크로폰(11)을 통해 유저로부터의 발화를 받으면, 제어 유닛(2)은 도 8에 나타내는 대화 상대 확인 처리 순서 RT1을 스텝 SP20으로부터 개시하고, 계속되는 스텝 SP21에서 카운터(도시하지 않음)를 리셋한 후, 스텝 SP22로 진행하여, 대화 상대의 존재를 전술한 트래킹 기능에 의해 트래킹하는 것이 가능한지 여부를 판단한다.

이 스텝 SP22에서 긍정 결과가 얻어지면, 이것은 대화 상대가 로봇(1)의 눈 앞에 존재하고 있는 것을 표시하고 있으며, 이 때 제어 유닛(2)은 스텝 SP23으로 진행하여, 해당 대화 상대에게 다음의 발화를 계속하면서, 다시 스텝 SP21로 되돌아가 전술과 동일한 처리를 반복한다.

한편, 스텝 SP22에서 부정(否定) 결과가 얻어지면, 이 때는 대화 상대의 존재를 아직 인식하고 있지 않은 것을 표시하고 있으며, 이 때 제어 유닛(2)은 스텝 SP24로 진행하여, 터치 센서(13)가 수 초 정도(2∼3초) 접촉되었는지 여부를 판단한다.

이 스텝 SP24에서 긍정 결과가 얻어지면, 이 때는 대화 상대가 로봇(1)의 눈 앞에 존재하고 있는 것을 표시하고 있으며, 이 때 제어 유닛(2)은 스텝 SP23으로 진행하여, 해당 대화 상대에게 다음의 발화를 계속하면서, 다시 스텝 SP21로 되돌아가 전술과 동일한 처리를 반복한다.

한편, 스텝 SP24에서 부정 결과가 얻어지면, 이것은 대화 상대의 존재를 아직 인식하고 있지 않은 것을 표시하고 있으며, 이때 제어 유닛(2)은 스텝 SP25로 진행하여, 도시하지 않은 타이머의 계측을 개시하는 동시에 유저로부터의 응답이 있었는지 여부를 판단한다.

이 스텝 SP25에서 긍정 결과가 얻어지면, 이것은 마이크로폰(11)을 통해 어떠한 발화음을 수음한 것을 표시하고 있으며, 이 때 제어 유닛(2)은 스텝 SP26으로 진행하여, 해당 수음한 발화음의 내용이 예상한 응답 내용과 일치하는지 여부를 판정한다.

한편, 스텝 SP25에서 부정 결과가 얻어지면, 이것은 아직 마이크로폰(11)을 통해 무엇도 발화음을 수음하고 있지 않은 것을 표시하고 있으며, 이 때 제어 유닛(2)은 스텝 SP27로 진행하여, 타이머의 개시 시점으로부터 소정 시간(예를 들면, 5∼7초) 경과했는지 여부를 판단한다.

이 스텝 SP27에서 긍정 결과가 얻어지면, 제어 유닛(2)은 타임 아웃이라고 판정하고, 스텝 SP28로 진행하는 한편, 부정 결과가 얻어지면, 아직 타임 아웃이 아니라고 판단하고 다시 스텝 SP25로 되돌아가 전술과 동일한 처리를 반복한다.

계속해서 스텝 SP26에서 긍정 결과가 얻어지면, 이것은 마이크로폰(11)을 통해 수음한 발화음의 내용이 예상한 응답 내용과 일치되는 것을 표시하고 있으며, 이 때 제어 유닛(2)은 대화 상대가 로봇(1)의 눈 앞에 존재하고 있다고 판단하여, 스텝 SP23으로 진행하고, 해당 대화 상대에게 다음의 발화를 계속하면서, 다시 스텝 SP21로 되돌아가 전술과 동일한 처리를 반복한다.

한편, 스텝 SP26에서 부정 결과가 얻어지면, 이것은 마이크로폰(11)을 통해 수음한 발화음의 내용이 예상한 응답 내용과 상이한 것을 표시하고 있으며, 이 때 제어 유닛(2)은 대화 상대의 존재를 아직 인식하고 있지 않다고 판단하여, 스텝 SP28로 진행한다.

스텝 SP28에서, 제어 유닛(2)은 전술한 스텝 SP21에서 리셋되어 있는 카운터의 수치를 판단하여, N(N은 임의의 자연수)회 미만인 경우에는, 스텝 SP29로 진행하고, 유저에게 응답을 촉구하도록 동일 의도의 발화 내용으로 말을 걸면서, 스텝 SP30으로 진행하고, 카운터를 하나 인크리먼트한 후 다시 스텝 SP22로 되돌아가 전술과 동일한 처리를 반복한다.

한편, 스텝 SP26에서, 제어 유닛(2)은 카운터의 수치가 N회 이상이라고 판단한 경우에는, 스텝 SP31로 진행하고, 유저에 대하여 터치 센서(13)에의 입력을 의뢰하는 발화 내용으로 말을 거는 동시에 타이머의 계측을 개시한 후, 스텝 SP32로진행한다.

이 스텝 SP32에서, 제어 유닛(2)은 유저에의 말걸기를 개시하고 나서 소정 시간 내(예를 들면 5초 이내)에 터치 센서(13)에의 입력이 있었는지 여부를 판단하여, 긍정 결과가 얻어진 경우, 이것은 대화 상대가 로봇(1)의 눈 앞에 존재하고 있는 것을 표시하고 있으며, 스텝 SP23으로 진행하여, 해당 대화 상대에게 다음의 발화를 계속하면서, 다시 스텝 SP21로 되돌아가 전술과 동일한 처리를 반복한다.

한편, 스텝 SP32에서, 부정 결과가 얻어지면, 이것은 소정 시간이 경과한 후라도 대화 상대의 존재를 확인할 수 없었던 것을 표시하고 있으며, 이 때 제어 유닛(2)은 스텝 SP33으로 진행하여 대화를 종료하는 취지의 발화를 생성한 후, 그대로 스텝 SP34로 진행하여 해당 대화 상대 확인 처리 순서 RT1을 종료한다.

이와 같이 로봇(1)에서는, 유저와의 대화 중에 트래킹을 할 수 있는 동안은 대화 상대의 존재를 인식할 수 있기 때문에, 유저의 발화 내용이 예측하는 응답 내용과 일치하지 않아도, 다음의 발화를 계속하면서 로봇(1)에의 응답 방법을 유도함으로써, 유저와의 대화를 진행할 수 있다.

먼저, 로봇(1)이, 예를 들면, 『유키코씨가 좋아하는 음식이란 무엇?』이라고 하는 발화를 생성한 후, 유저로부터 『예』라고 하는 발화가 얻어지면, 계속해서 로봇(1)은 『유키코씨가 좋아하는 음식이란 무엇인가 가르쳐 줄래?』라고 하는 발화를 생성한다. 그 후 유저로부터 『예?』라고 하는 발화가 얻어지면, 로봇(1)은 『무엇무엇에 따라 대답해요』라고 하는 발화를 생성함으로써, 유저로부터 『사과에요』라고 하는 발화를 얻을 수 있다.

또, 로봇(1)에 있어서, 유저와의 대화 중에 트래킹을 할 수 없게 되어도, 유저의 발화 내용이 예측하는 응답 내용과 일치하는 경우에는, 로봇(1)의 질문에 대한 유저의 응답이 해당 질문에 따른 내용의 응답이면, 유저가 대화 상대로서 로봇(1)의 눈 앞에 존재하는 것으로 판단할 수 있어, 그대로 유저와의 대화를 계속할 수 있다.

예를 들면, 로봇(1)이 『유키코씨가 좋아하는 음식은 무엇?』이라고 하는 발화를 생성한 후, 유저의 존재를 트래킹할 수 없어도, 유저로부터 『사과에요』라고 하는 로봇(1)이 기대하는 응답 내용의 발화를 얻을 수 있으면, 해당 유저는 대화 상대로서 존재하고 있다고 판단하여 대화를 진행할 수 있다.

또한, 로봇(1)에 있어서, 유저와의 대화 중에 트래킹을 할 수 없게 된 경우라도, 또한 로봇(1)이 기대하는 응답 내용의 발화가 얻어지지 않은 경우나 음성 인식을 할 수 없는 경우에는, 몇 회인가 로봇(1)이 질문을 표시하는 발화를 반복하고, 그래도 기대하는 응답 내용의 발화가 얻어지지 않는 경우에는, 대화 상대가 없어져 버린 것으로 판단할 수 있어, 부자연스러운 대화를 종료할 수 있다.

예를 들면, 로봇(1)이 『유키코씨가 좋아하는 음식은 무엇?』이라고 하는 발화를 생성한 후, 소정 시간 경과한 후에도 유저로부터 전혀 응답이 없어, 다시 로봇(1)이 이것과 동일 의도의 『유키코씨가 좋아하는 음식이란 무엇인지 가르쳐 줄래?』라고 하는 발화를 하여 소정 시간 경과한 후에도, 유저로부터 하등 응답이 없는 경우에는, 로봇(1)은 『앗? 없어져 버린 것인가?』라고 하는 대화를 종료하는 취지의 발화를 생성함으로써, 혼잣말과 같은 부자연스러운 대화를 종료할 수 있다.

(4) 본 실시예의 동작 및 효과

이상의 구성에서, 이 로봇(1)에서는, 각종 인식 처리의 인식 결과에 따라, 대화 상대인 유저의 존재를 추적하는 트래킹 기능을 실행하면서, 유저에게 특화된 화제의 대화를 실행하기 위한 대화 제어 기능도 실행한다.

그 때, 로봇(1)은 유저와의 대화 중에 해당 유저의 존재를 트래킹할 수 있는 동안은 대화 상대의 존재를 확인할 수 있다고 판단하고 다음의 발화를 계속하면서 로봇(1)에의 응답 방법을 유도함으로써, 유저와의 대화를 마치 인간끼리 실행하는 것과 같은 자연스러운 느낌으로 진행할 수 있다.

한편, 로봇(1)은 현재의 환경이 매우 어두운 경우와 같이 대화 상대인 유저의 존재를 트래킹할 수 없게 된 경우에는, 유저의 발화 내용이 로봇(1)이 예측하는 내용과 일치할 때만 로봇(1)의 눈 앞에 대화 상대가 존재하는 것으로 판단하여 유저와의 대화를 진행해도, 자기의 눈 앞에 대화 상대가 존재함에도 불구하고, 그 존재가 없다고 판단하여 대화를 정지해 버리는 것을 유효하게 방지할 수 있다.

또한, 로봇(1)은 유저와의 대화 중에 트래킹을 할 수 없게 된 경우라도, 또한 로봇(1)이 예측하는 응답 내용의 발화가 얻어지지 않는 경우에는, 동일 의도의 발화 내용으로 몇 회인가 유저에게 응답을 촉구하는 것을 반복하고, 그래도 기대하는 응답 내용의 발화가 얻어지지 않는 경우에는, 대화 상대가 없어져 버린 것으로 판단하고 유저와의 대화를 정지해도, 마치 혼잣말과 같은 부자연스러운 대화를 계속 실행하는 것을 회피할 수 있다. 또, 텔레비젼이나 라디오 등의 잡음에 반응하는 것을 미연에 회피할 수도 있다.

이상의 구성에 의하면, 로봇(1)에 있어서, 각종 인식 처리의 인식 결과에 따라, 대화 상대인 유저의 존재를 추적하는 트래킹 기능을 실행하면서, 유저에게 특화된 화제의 대화를 실행하기 위한 대화 제어 기능도 실행하도록 하여, 대화 상대의 존재를 종합적으로 판단하도록 함으로써, 현재의 환경 하에 하등 영향을 미치지 않고, 대화 상대의 존재를 확실하게 인식할 수 있고, 이 결과, 인간이 평소 실행하는 경우와 동일한 자연스러운 대화를 실행할 수 있고, 이렇게 하여 엔터테인먼트성을 현격하게 향상시킬 수 있다.

(5) 다른 실시예

그리고, 전술한 실시예에서는, 본 발명을 도 1∼도 3과 같이 구성된 엔터테인먼트 로봇에 적용하도록 한 경우에 대하여 설명했지만, 본 발명은 이에 한정되지 않고, 이 이외의 구성을 가지는 엔터테인먼트 로봇이나, 이 이외의 로봇, 로봇 이외의 각 종 기기 또는 유저와의 대화 제어를 실행하는 이 밖의 여러 가지 대화 제어 장치에 널리 적용할 수 있다. 또, 예를 들면, 텔레비젼 게임용 소프트웨어 등등 각종 소프트웨어에도 널리 응용할 수 있다.

또, 전술한 실시예에서는, 도 4에 대하여 전술한 각 항목의 인상도를 그 항목의 값을 획득할 때에 결정하고, 그 후는 갱신하지 않도록 한 경우에 대하여 설명했지만, 본 발명은 이에 한정되지 않고, 인상도를 갱신하도록 해도 된다. 이와 같이 함으로써, 각종 화제의 출현 빈도도 변경할 수 있고, 그만큼 그때 그때의 상황에 따른 회화를 실행할 수 있기 때문에, 로봇(1)의 엔터테인먼트성을 보다 한층 향상시킬 수 있다.

또한, 전술한 실시예에서는, 도 4에 전술한 각 항목의 인상도를 그 항목을 획득하기 전후의 내부 상황 관리부(34)에 유지된 「애정」의 파라미터값의 차분에 의해 계산하도록 한 경우에 대하여 설명했지만, 본 발명은 이에 한정되지 않고, 내부 상태 관리부(34)에 유지된 다른 본능적 요소 또는 정동적 요소의 파라미터값에 따라 계산하도록 해도 되고, 이 이외의 방법에 의해 얻어지도록 해도 된다.

또한, 전술한 실시예에서는, 대화 상대와 대화하기 위한 기능을 가지는 음성 대화 장치에 있어서, 대화 상대의 발화를 음성 인식하는 음성 인식 수단으로서 청각 인식 기능부(32)를 적용하고, 대화 상대의 얼굴을 화상 인식하는 화상 인식 수단으로서 시각 인식 기능부(31)를 적용하고, 대화 상대의 접촉을 인식하는 접촉 인식 수단으로서 접촉 인식 기능부(33)를 적용하도록 한 경우에 대하여 설명했지만, 본 발명은 이에 한정되지 않고, 대화 상대의 발화, 얼굴 및 접촉을 인식할 수 있으면, 이 밖에 여러 가지의 구성으로 이루어지는 각종 인식 수단에 널리 적용하도록 해도 된다.

또한, 전술한 실시예에서는, 청각 인식 기능부(음성 인식 수단)(32)의 인식 결과에 따라, 대화 상대와의 대화를 제어하는 대화 제어 수단으로서, 제어 유닛(2)의 제어 하에, 상황 의존 행동 계층(38) 내의 대화 제어부(38A)를 적용하도록 한 경우에 대하여 설명했지만, 본 발명은 이에 한정되지 않고, 요는 대화 상대의 발화를 음성 인식하여 얻어지는 음성 인식 결과에 따라, 해당 대화 상대와의 대화를 제어할 수 있으면, 이 밖에 여러 가지 구성의 것을 적용하도록 해도 된다.

또한, 전술한 실시예에서는, 시각 인식 기능부(화상 인식 수단)(31)의 인식결과 및 청각 인식 기능부(음성 인식 수단)(32)의 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 트래킹 제어 수단으로서, 제어 유닛(2)의 제어 하에 상황 의존 행동 계층(38) 내의 트래킹 제어부(38B)를 적용하도록 한 경우에 대하여 설명했지만, 본 발명은 이에 한정되지 않고, 요는 대화 상대의 얼굴을 화상 인식하여 얻어지는 화상 인식 결과 및 해당 대화 상대의 발화를 음성 인식하여 얻어지느 음성 인식 결과의 쌍방 또는 일방에 따라, 해당 대화 상대를 추적할 수 있으면, 이 밖에 여러 가지 구성의 것을 적용하도록 해도 된다.

이 경우, 트래킹 제어부(트래킹 제어 수단)(38B)는 청각 인식 기능부(음성 인식 수단)(32)의 인식 결과, 시각 인식 기능부(화상 인식 수단)(31)의 인식 결과, 접촉 인식 기능부(접촉 인식 수단)(33)의 인식 결과의 임의의 조합에 따라, 대화 상대의 존재를 추적하도록 해도 된다.

또한, 전술한 실시예에서는, 대화 제어부(대화 제어 수단)(38A)는 트래킹 제어부(트래킹 제어 수단)(38B)에 의한 추적을 할 수 없을 때라도, 청각 인식 기능부(음성 인식 수단)(32)의 인식 결과로서 얻어지는 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하는 경우에는, 대화를 계속하도록 제어하게 한 경우에 대하여 설명했지만, 본 발명은 이에 한정되지 않고, 요는 현재의 환경이 매우 어두운 경우라도, 실제로는 로봇(1)의 눈 앞에 대화 상대가 존재하는 데도 불구하고, 그 존재가 없다고 판단하여 대화를 정지하여 버리는 것을 유효하게 방지할 수 있으면, 이 밖에 여러 가지의 제어 방법을 적용하도록 해도 된다.

이 경우, 대화 제어부(대화 제어 수단)(38A)는 트래킹 제어부(트래킹 제어수단)(38B)에 의한 추적을 할 수 없을 때라도, 접촉 인식 기능부(접촉 인식 수단)(33)의 인식 결과로서 얻어지는 대화 상대의 접촉이 있는 경우에는, 대화를 계속하도록 제어하게 해도, 전술과 동일한 효과를 얻을 수 있다.

또한, 전술한 실시예에서는, 대화 제어부(대화 제어 수단)(38A)는 트래킹 제어부(트래킹 제어 수단)(38B)에 의한 추적을 할 수 없고, 또한 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하지 않는 경우라도, 대화 상대에게 해당 응답 내용을 촉구하는 취지의 통지를 소정 회수 반복한 후에도, 해당 대화 상대로부터 응답 내용이 얻어지지 않는 경우에는, 대화를 종료하도록 제어하게 한 경우에 대하여 설명했지만, 본 발명은 이에 한정되지 않고, 요는 몇번이나 대화 상대에게 응답 내용을 촉구해도 기대하는 결과가 얻어지지 않는 경우에, 대화 상대가 없어져 버렸음에도 불구하고, 마치 혼잣말과 같은 부자연스러운 대화를 계속 실행하는 것을 회피할 수 있으면, 이 밖에 여러 가지의 제어 방법을 적용하도록 해도 된다.

이 경우, 대화 제어부(대화 제어 수단)(38A)는 트래킹 제어부(트래킹 제어 수단)(38B)에 의한 추적을 할 수 없고, 또한 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하지 않는 경우라도, 대화 상대에게 해당 응답 내용을 촉구하는 취지의 통지를 소정 회수 반복한 후에도, 해당 대화 상대로부터 응답 내용이 얻어지지 않는 경우에는, 대화를 종료하도록 제어하기 직전에, 대화 상대에게 접촉 인식 기능부(접촉 인식 수단)(33)에 인식시키는 취지를 통지한 후, 해당 접촉 인식 기능부(접촉 인식 수단)(33)의 인식 결과로서 얻어지는 대화 상대의 접촉이 있는 경우에는, 대화를 계속하도록 제어하게 해도, 전술과 동일한 효과를 얻을 수 있다.

또한, 전술한 실시예에서는, 대화 제어부(대화 제어 수단)(38A)는 대화 상대의 발화가 소정 시간 경과 후에 얻어지지 않는 경우에는, 대화 상대에게 해당 응답 내용을 촉구하는 취지를 통지하도록 하여 타임 아웃을 설정하게 한 경우에 대하여 설명했지만, 이 타임 아웃은 예측하는 응답 내용을 기다리는 시간으로 하여 여러 가지의 시간으로 자유롭게 설정하도록 해도 된다.

음성 대화 장치 및 방법 및 로봇 장치에 있어서, 어뮤즈먼트 로봇이나 간호 로봇 등에 적용할 수 있다.

전술한 본 발명에 의하면, 대화 상대와 대화하기 위한 기능을 가지는 음성 대화 장치에 있어서, 대화 상대의 발화를 음성 인식하는 음성 인식 수단과, 음성 인식 수단의 인식 결과에 따라, 대화 상대와의 대화를 제어하는 대화 제어 수단과, 대화 상대의 얼굴을 화상 인식하는 화상 인식 수단과, 화상 인식 수단의 인식 결과 및 음성 인식 수단의 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 트래킹 제어 수단을 설치하고, 대화 제어 수단은 트래킹 제어 수단에 의한 추적에 맞춰, 대화를 계속하도록 제어하게 함으로써, 현재의 환경 하에 하등 영향이 미치지 않고, 대화 상대의 존재를 확실하게 인식할 수 있고, 이 결과, 인간이 보통 실행하는 경우와 동일한 자연스러운 대화를 실행할 수 있고, 이렇게 하여 엔터테인먼트성을 현격하게 향상시킬 수 있는 음성 대화 장치를 실현할 수 있다.

또, 본 발명에 의하면, 대화 상대와 대화하기 위한 기능을 가지는 음성 대화 방법에 있어서, 대화 상대의 발화를 음성 인식하여 얻어지는 음성 인식 결과, 및해당 대화 상대의 얼굴을 화상 인식하여 얻어지는 화상 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 제1 스텝과, 해당 추적에 맞춰, 음성 인식 결과에 따라 얻어지는 대화 상대와의 대화를 계속하도록 제어하는 제2 스텝을 설치하도록 함으로써, 현재의 환경 하에 하등 영향이 미치지 않고, 대화 상대의 존재를 확실하게 인식할 수 있고, 이 결과, 인간이 보통 실행하는 경우와 동일한 자연스러운 대화를 실행할 수 있고, 이렇게 하여 엔터테인먼트성을 현격하게 향상시킬 수 있는 음성 대화 방법을 실현할 수 있다.

또한, 본 발명에 의하면, 대화 상대와 대화하기 위한 기능을 가지는 음성 대화 장치를 포함하는 로봇 장치에 있어서, 대화 상대의 발화를 음성 인식하는 음성 인식 수단과, 음성 인식 수단의 인식 결과에 따라, 대화 상대와의 대화를 제어하는 대화 제어 수단과, 대화 상대의 얼굴을 화상 인식하는 화상 인식 수단과, 화상 인식 수단의 인식 결과 및 음성 인식 수단의 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 트래킹 제어 수단을 설치하고, 대화 제어 수단은 트래킹 제어 수단에 의한 추적에 맞춰, 대화를 계속하도록 제어하게 함으로써, 현재의 환경 하에 하등 영향이 미치지 않고, 대화 상대의 존재를 확실하게 인식할 수 있고, 이 결과, 인간이 보통 실행하는 경우와 동일한 자연스러운 대화를 실행할 수 있고, 이렇게 하여 엔터테인먼트성을 현격하게 향상시킬 수 있는 로봇 장치를 실현할 수 있다.

Claims

대화 상대와 대화하기 위한 기능을 가지는 음성 대화 장치에 있어서,

상기 대화 상대의 발화(發話)를 음성 인식하는 음성 인식 수단과,

상기 음성 인식 수단의 인식 결과에 따라, 상기 대화 상대와의 대화를 제어하는 대화 제어 수단과,

상기 대화 상대의 얼굴을 화상 인식하는 화상 인식 수단과,

상기 화상 인식 수단의 인식 결과 및 상기 음성 인식 수단의 인식 결과의 쌍방 또는 일방에 따라, 상기 대화 상대의 존재를 추적하는 트래킹 제어 수단

을 포함하고,

상기 대화 제어 수단은 상기 트래킹 제어 수단에 의한 상기 추적에 맞춰, 상기 대화를 계속하도록 제어하는 것

을 특징으로 하는 음성 대화 장치.
제1항에 있어서,

상기 대화 제어 수단은 상기 트래킹 제어 수단에 의한 상기 추적을 할 수 없을 때라도, 상기 음성 인식 수단의 인식 결과로서 얻어지는 상기 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하는 경우에는, 상기 대화를 계속하도록 제어하는 것을 특징으로 하는 음성 대화 장치.
제2항에 있어서,

상기 대화 제어 수단은 상기 트래킹 제어 수단에 의한 상기 추적을 할 수 없고, 또한 상기 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하지 않는 경우로서, 상기 대화 상대에게 상기 응답 내용을 촉구하는 취지의 통지를 소정 회수 반복한 후에도, 상기 대화 상대로부터 상기 응답 내용이 얻어지지 않는 경우에는, 상기 대화를 종료하도록 제어하는 것을 특징으로 하는 음성 대화 장치.
제3항에 있어서,

상기 대화 제어 수단은 상기 대화 상대의 발화가 소정 시간 경과 후에 얻어지지 않는 경우에는, 상기 대화 상대에게 상기 응답 내용을 촉구하는 취지를 통지하는 것을 특징으로 하는 음성 대화 장치.
제1항에 있어서,

상기 대화 상대의 접촉을 인식하는 접촉 인식 수단을 구비하고,

상기 트래킹 제어 수단은 상기 음성 인식 수단의 인식 결과, 상기 화상 인식 수단의 인식 결과 및 상기 접촉 인식 수단의 인식 결과의 임의의 조합에 따라, 상기 대화 상대의 존재를 추적하는 것을 특징으로 하는 음성 대화 장치.
제5항에 있어서,

상기 대화 제어 수단은 상기 트래킹 제어 수단에 의한 상기 추적을 할 수 없을 때라도, 상기 접촉 인식 수단의 인식 결과로서 얻어지는 상기 대화 상대의 접촉이 있는 경우에는, 상기 대화를 계속하도록 제어하는 것을 특징으로 하는 음성 대화 장치.
제5항에 있어서,

상기 대화 제어 수단은 상기 트래킹 제어 수단에 의한 상기 추적을 할 수 없고, 또한 상기 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하지 않는 경우로서, 상기 대화 상대에게 상기 응답 내용을 촉구하는 취지의 통지를 소정 회수 반복한 후에도, 상기 대화 상대로부터 상기 응답 내용이 얻어지지 않는 경우에는, 상기 대화를 종료하도록 제어하기 직전에, 상기 대화 상대에게 상기 접촉 인식 수단에 인식시키는 취지를 통지한 후, 상기 접촉 인식 수단의 인식 결과로서 얻어지는 상기 대화 상대의 접촉이 있는 경우에는, 상기 대화를 계속하도록 제어하는 것을 특징으로 하는 음성 대화 장치.
대화 상대와 대화하기 위한 기능을 가지는 음성 대화 방법에 있어서,

상기 대화 상대의 발화를 음성 인식하여 얻어지는 음성 인식 결과, 및 상기 대화 상대의 얼굴을 화상 인식하여 얻어지는 화상 인식 결과의 쌍방 또는 일방에 따라, 대화 상대의 존재를 추적하는 제1 스텝과,

상기 추적에 맞춰, 상기 음성 인식 결과에 따라 얻어지는 상기 대화 상대와의 대화를 계속하도록 제어하는 제2 스텝

을 포함하는 것을 특징으로 하는 음성 대화 방법.
제8항에 있어서,

상기 제2 스텝에서는, 상기 제1 스텝에 의한 상기 추적을 할 수 없을 때라도, 상기 음성 인식 결과로서 얻어지는 상기 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하는 경우에는, 상기 대화를 계속하도록 제어하는 것을 특징으로 하는 음성 대화 방법.
제9항에 있어서,

상기 제2 스텝에서는, 상기 제1 스텝에 의한 상기 추적을 할 수 없고, 또한 상기 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하지 않는 경우로서, 상기 대화 상대에게 상기 응답 내용을 촉구하는 취지의 통지를 소정 회수 반복한 후에도, 상기 대화 상대로부터 상기 응답 내용이 얻어지지 않는 경우에는, 상기 대화를 종료하도록 제어하는 것을 특징으로 하는 음성 대화 방법.
제10항에 있어서,

상기 제2 스텝에서는, 상기 대화 상대의 발화가 소정 시간 경과 후에 얻어지지 않는 경우에는, 상기 대화 상대에게 상기 응답 내용을 촉구하는 취지를 통지하는 것을 특징으로 하는 음성 대화 방법.
제8항에 있어서,

상기 제1 스텝에서는, 상기 음성 인식 결과, 상기 화상 인식 결과 및 상기 대화 상대의 접촉을 인식하는 접촉 인식 결과의 임의 조합에 따라, 상기 대화 상대의 존재를 추적하는 것을 특징으로 하는 음성 대화 방법.
제12항에 있어서,

상기 제2 스텝에서는, 상기 제1 스텝에 의한 상기 추적을 할 수 없을 때라도, 상기 접촉 인식 결과로서 얻어지는 상기 대화 상대의 접촉이 있는 경우에는, 상기 대화를 계속하도록 제어하는 것을 특징으로 하는 음성 대화 방법.
제12항에 있어서,

상기 제2 스텝에서는, 상기 제1 스텝에 의한 상기 추적을 할 수 없고, 또한 상기 대화 상대의 발화 내용이 예측되는 응답 내용과 일치하지 않는 경우로서, 상기 대화 상대에게 상기 응답 내용을 촉구하는 취지의 통지를 소정 회수 반복한 후에도, 상기 대화 상대로부터 상기 응답 내용이 얻어지지 않는 경우에는, 상기 대화를 종료하도록 제어하기 직전에, 상기 대화 상대에게 상기 접촉 인식시키는 취지를 통지한 후, 상기 접촉 인식 결과로서 얻어지는 상기 대화 상대의 접촉이 있는 경우에는, 상기 대화를 계속하도록 제어하는 것을 특징으로 하는 음성 대화 방법.
대화 상대와 대화하기 위한 기능을 가지는 음성 대화 장치를 포함하는 로봇장치에 있어서,

상기 대화 상대의 발화를 음성 인식하는 음성 인식 수단과,

상기 음성 인식 수단의 인식 결과에 따라, 상기 대화 상대와의 대화를 제어하는 대화 제어 수단과,

상기 대화 상대의 얼굴을 화상 인식하는 화상 인식 수단과,

상기 화상 인식 수단의 인식 결과 및 상기 음성 인식 수단의 인식 결과의 쌍방 또는 일방에 따라, 상기 대화 상대의 존재를 추적하는 트래킹 제어 수단

을 포함하고,

상기 대화 제어 수단은 상기 트래킹 제어 수단에 의한 상기 추적에 맞춰, 상기 대화를 계속하도록 제어하는 것

을 특징으로 하는 로봇 장치.