KR100879417B1

KR100879417B1 - 음성 출력 장치

Info

Publication number: KR100879417B1
Application number: KR1020027015695A
Authority: KR
Inventors: 에리까 고바야시; 마꼬또 아까바네; 도모아끼 니따; 히데끼 기시; 리까 호리나까; 마사시 다께다
Original assignee: 소니 가부시끼 가이샤
Priority date: 2001-03-22
Filing date: 2002-03-22
Publication date: 2009-01-19
Also published as: EP1372138A4; EP1372138B1; JP2002278575A; JP4687936B2; EP1372138A1; US7222076B2; WO2002077970A1; DE60234819D1; CN1220174C; US20030171850A1; CN1459090A; KR20030005375A

Abstract

본 발명은, 소정의 자극에 응하여, 음성의 출력을 정지하고, 소정의 자극에 대한 반응을 출력할 수 있도록 한 음성 출력 장치에 관한 것이다. 자연스러운 음성 출력을 행한다. 규칙 합성부(24)는, 합성음을 생성하여 출력한다. 지금, 합성음 「출구는 어디입니까」가 생성되는 과정에서, 그 중에 「출구는 어」까지가 출력되었을 때에, 사용자가 로봇을 때리면, 반응 생성부(30)는 반응 데이터베이스(31)를 참조함으로써, 「때림」에 대하여, 반응 음성 「아퍼」를 출력하는 것을 결정함과 함께, 출력 제어부(27)를 제어함으로써, 합성음 「출구는 어디입니까」의 출력을 정지시키고, 반응 음성 「아퍼」를 출력시킨다. 그 후, 반응 생성부(30)는 판독 제어부(29)가 제어하는 버퍼(26)의 판독 포인터를 제어함으로써, 합성음의 출력을, 그 출력이 정지된 시점부터 재개시킨다. 그 결과, 합성음 「출구는 어, 아퍼, 디입니까」가 출력된다.

반응 데이터베이스, 판독 제어부, 반응 음성, 합성음, 버퍼

Description

음성 출력 장치{SPEECH OUTPUT APPARATUS}

본 발명은 음성 출력 장치에 관한 것으로, 특히 예를 들면 보다 자연스러운 음성 출력을 행할 수 있도록 하는 음성 출력 장치에 관한 것이다.

종래의 음성 합성 장치에서는, 텍스트, 또는 그 텍스트를 해석하여 얻어지는 발음 기호에 기초하여, 합성음이 생성된다.

그런데, 최근 예를 들면 페트형 페트 로봇 등에 음성 합성 장치를 탑재하여, 사용자에게 이야기를 걸거나, 사용자와 회화(대화)를 행하는 것이 제안되고 있다.

이러한 페트 로봇에서는, 그 내장하는 음성 합성 장치에 있어서, 사용자에 대한 발화에 대응하는 텍스트나 발음 기호에 따라, 음성 합성이 행해지며, 대응하는 합성음이 출력된다.

따라서, 페트 로봇에서는, 합성음의 출력이 개시된 후에는, 그 출력이 종료할 때까지 합성음의 출력이 속행된다. 그러나, 예를 들면, 합성음을 한창 출력하고 있을 때에, 사용자가 페트 로봇을 꾸짖는 경우, 페트 로봇이 합성음을 그대로 계속 출력하는, 즉 발화를 계속하는 것은 사용자에게 위화감을 느끼게 한다.

<발명의 개시>

본 발명은, 이러한 상황에 감안하여 이루어진 것으로, 보다 자연스러운 음성 출력을 행할 수 있도록 하는 것이다.

본 발명의 음성 출력 장치는, 정보 처리 장치의 제어에 따라 음성을 출력하는 음성 출력 수단과, 소정의 자극에 응하여 음성의 출력을 정지시키는 정지 제어 수단과, 소정의 자극에 대한 반응을 출력하는 반응 출력 수단과, 정지 제어 수단에 의해 정지된 음성의 출력을 재개시키는 재개 제어 수단을 포함하는 것을 특징으로 한다.

본 발명의 음성 출력 방법은, 정보 처리 장치의 제어에 따라 음성을 출력하는 음성 출력 단계와, 소정의 자극에 응하여, 음성의 출력을 정지시키는 정지 제어 단계와, 소정의 자극에 대한 반응을 출력하는 반응 출력 단계와, 정지 제어 단계에서 정지된 음성의 출력을 재개시키는 재개 제어 단계를 포함하는 것을 특징으로 한다.

본 발명의 프로그램은, 정보 처리 장치의 제어에 따라 음성을 출력하는 음성 출력 단계와, 소정의 자극에 응하여, 음성의 출력을 정지시키는 정지 제어 단계와, 소정의 자극에 대한 반응을 출력하는 반응 출력 단계와, 정지 제어 단계에서 정지된 음성의 출력을 재개시키는 재개 제어 단계를 포함하는 것을 특징으로 한다.

본 발명의 기록 매체는 정보 처리 장치의 제어에 따라 음성을 출력하는 음성 출력 단계와, 소정의 자극에 응하여 음성의 출력을 정지시키는 정지 제어 단계와, 소정의 자극에 대한 반응을 출력하는 반응 출력 단계와, 정지 제어 단계에서 정지된 음성의 출력을 재개시키는 재개 제어 단계를 포함하는 프로그램이 기록되어 있는 것을 특징으로 한다.

본 발명에서는, 정보 처리 장치의 제어에 따라 음성이 출력된다. 한편, 소정의 자극에 응하여 음성의 출력이 정지되고, 소정의 자극에 대한 반응이 출력된다. 또한, 정지된 음성의 출력이 재개된다.

도 1은 본 발명을 적용한 로봇의 일 실시예의 외관 구성예를 도시한 사시도.

도 2는 로봇의 내부 구성예를 도시한 블록도.

도 3은 컨트롤러(10)의 기능적 구성예를 도시한 블록도.

도 4는 자극 테이블을 도시한 도면.

도 5는 음성 합성부(55)의 구성예를 도시한 블록도.

도 6은 반응 테이블을 도시한 도면.

도 7은 음성 합성부(55)의 처리를 설명하는 순서도.

도 8은 본 발명을 적용한 컴퓨터의 일 실시예의 구성예를 도시한 블록도.

<발명을 실시하기 위한 최량의 형태>

도 1은 본 발명을 적용한 로봇의 일 실시예의 외관 구성예를 도시하고 있으며, 도 2는 그 전기적 구성예를 도시하고 있다.

본 실시예에서는 로봇은, 예를 들면 개와 같은 네발 동물의 형상의 것이며, 동체부 유닛(2)의 전후 좌우에, 각각 다리부 유닛(3A, 3B, 3C, 3D)이 연결됨과 함께, 동체부 유닛(2)의 전단부와 후단부에, 각각 머리부 유닛(4)과 꼬리부 유닛(5)이 연결됨으로써 구성되어 있다.

꼬리부 유닛(5)은 동체부 유닛(2)의 상면에 형성된 베이스부(5B)로부터 2 자 유도를 갖고 만곡 또는 요동 가능하게 인출되어 있다.

동체부 유닛(2)에는 도 2에 도시한 바와 같이, 로봇 전체의 제어를 행하는 컨트롤러(10), 로봇의 동력원이 되는 배터리(11), 및 배터리 센서(12A), 자세 센서(12B), 온도(열 온도) 센서(12C), 및 타이머(12D) 등으로 이루어지는 내부 센서부(12) 등이 수납되어 있다.

머리부 유닛(4)에는, 도 2에 도시한 바와 같이 「귀」에 상당하는 마이크(마이크로폰 : 15), 「눈」에 상당하는 CCD(Charge Coupled Device) 카메라(16), 촉각에 상당하는 터치 센서(압력 센서 : 17), 「입」에 상당하는 스피커(18) 등이 각각 소정 위치에 배치되어 있다. 또한, 머리부 유닛(4)에는, 입의 아랫턱에 상당하는 아랫턱부(4A)가 1자유도를 갖고 움직일 수 있도록 부착되어 있고, 이 아랫턱부(4A)가 움직임에 따라, 로봇의 입의 개폐 동작이 실현되도록 되어 있다. 또, 터치 센서는 머리부 유닛(4) 외에, 동체부 유닛(2)이나 다리부 유닛(3A 내지 3D) 등의 각 부분에도 적절하게 배치되어 있지만, 도 2의 실시예에서는 도면이 번잡해지는 것을 피하기 위해, 머리부 유닛(4)에만 터치 센서(17)를 도시하고 있다.

다리부 유닛(3A 내지 3D) 각각의 관절 부분이나, 다리부 유닛(3A 내지 3D) 각각과 동체부 유닛(2)의 연결 부분, 머리부 유닛(4)과 동체부 유닛(2)의 연결 부분, 머리부 유닛(4)과 아랫턱부(4A)의 연결 부분, 및 꼬리부 유닛(5)과 동체부 유닛(2)의 연결 부분 등에는 도 2에 도시한 바와 같이 각각 액추에이터(3AA₁ 내지 3AA_K, 3BA₁ 내지 3BA_K, 3CA₁ 내지 3CA_K, 3DA₁ 내지 3DA_K, 4A₁ 내지 4A_L, 5A₁ 및 5A)가 배치되어 있다.

머리부 유닛(4)에서의 마이크(15)는 사용자로부터의 발화를 포함하는 주위 음성(소리)을 집음하고, 얻어진 음성 신호를 컨트롤러(10)로 송출한다. CCD 카메라(16)는 주위 상황을 촬상하고(빛을 검출하여), 얻어진 화상 신호를 컨트롤러(10)로 송출한다.

터치 센서(17)(도시하지 않은 터치 센서를 포함)는, 사용자로부터의 「어루만짐」이나 「때림」등의 물리적인 활동 작용에 의해 받은 압력을 검출하고, 그 검출 결과를 압력 검출 신호로서 컨트롤러(10)에 송출한다.

동체부 유닛(2)에서의 배터리 센서(12A)는 배터리(11)의 잔량을 검출하고, 그 검출 결과를 배터리 잔량 검출 신호로서 컨트롤러(10)에 송출한다. 자세 센서(12B)는, 예를 들면 자이로 등으로 구성되며, 로봇의 자세의 상태를 검출하고, 컨트롤러(10)에 공급한다. 온도 센서(12C)는 주위 온도를 검출하고, 컨트롤러(10)에 공급한다. 타이머(12D)는 소정의 클럭에 따라 시각(시간)을 계시하고 있으며, 현재 시각 등을 컨트롤러(10)에 공급한다.

컨트롤러(10)는 CPU(Central Processing Unit : 10A)나 메모리(10B) 등을 내장하고 있으며, CPU(10A)에서 메모리(10B)에 기억된 제어 프로그램이 실행됨으로써, 각종 처리를 행한다.

즉, 컨트롤러(10)는 마이크(15)나 CCD 카메라(16), 터치 센서(17)로부터 각각 제공되는 음성 신호, 화상 신호, 압력 검출 신호나, 내부 센서부(12)에서 얻어진 배터리(11)의 잔량, 자세의 상태, 온도, 현재 시각에 기초하여, 주위 상황이나, 사용자로부터의 지령, 사용자로부터의 활동 작용 등의 각종 자극의 유무를 판단한다.

또한, 컨트롤러(10)는 이 판단 결과 등에 기초하여, 후속되는 행동을 결정하고, 그 결정 결과에 기초하여 액추에이터(3AA₁ 내지 3AA_K, 3BA₁ 내지 3BA _K, 3CA₁ 내지 3CA_K, 3DA₁ 내지 3DA_K, 4A₁ 내지 4A_L, 5A₁, 5A₂) 중 필요한 것을 구동시킨다. 이에 의해, 머리부 유닛(4)을 상하 좌우로 흔들거나, 아랫턱부(4A)를 개폐시킨다. 또한, 꼬리부 유닛(5)을 움직이거나, 각 다리부 유닛(3A 내지 3D)을 구동하여, 로봇을 보행시키는 등의 행동을 행하게 한다.

또한, 컨트롤러(10)는 필요에 따라 합성음을 생성하여, 스피커(18)에 공급하여 출력시키거나, 로봇의 「눈」 위치에 설치된 도시하지 않은 LED(Light Emitting Diode)를 점등, 소등 또는 점멸시킨다. 또, 컨트롤러(10)는 합성음을 출력할 때, 필요에 따라 아랫턱부(4A)를 구동한다. 이 경우, 합성음의 출력과 함께, 아랫턱부(4A)가 개폐되므로, 사용자에게 로봇이 떠들고 있다는 인상을 줄 수 있다.

이상과 같이 하여, 로봇은 주위 상황 등에 기초하여 자율적으로 행동을 취하게 된다.

또, 도 2의 실시예에서는 메모리는 메모리(10B)의 1개만 도시하고 있지만, 메모리는 메모리(10B)뿐만 아니라, 복수개 설치하는 것이 가능하다. 또한, 이와 같이, 1이상 설치하는 메모리 중 일부 또는 전부는 예를 들면 메모리스틱(상표) 외에, 용이하게 착탈 가능한 메모리 카드로 할 수 있다.

이어서, 도 3은, 도 2의 컨트롤러(10)의 기능적 구성예를 도시하고 있다. 또, 도 3에 도시한 기능적 구성은 CPU(10A)가 메모리(10B)에 기억된 제어 프로그램을 실행함으로써 실현되도록 되어 있다.

센서 입력 처리부(50)는 마이크(15)나, CCD 카메라(16), 터치 센서(17) 등으로부터 제공되는 음성 신호, 화상 신호, 압력 검출 신호 등에 기초하여, 특정한 외부 상태나, 사용자로부터의 특정한 활동 작용, 사용자로부터의 지시 등을 인식하고, 그 인식 결과를 나타내는 상태 인식 정보를, 모델 기억부(51) 및 행동 결정 기구부(52)에 통지한다.

즉, 센서 입력 처리부(50)는, 음성 인식부(50A)를 갖고 있으며, 음성 인식부(50A)는 마이크(15)로부터 제공되는 음성 신호에 대하여 음성 인식을 행한다. 그리고, 센서 입력 처리부(50)는 음성 인식부(50A)에 의한 음성 인식 결과로서의, 예를 들면, 「걸어라」, 「엎드려라」, 「볼을 쫓아가라」 등의 지령 등을, 상태 인식 정보로서, 모델 기억부(51) 및 행동 결정 기구부(52)에 통지한다.

또한, 센서 입력 처리부(50)는, 화상 인식부(50B)를 갖고 있으며, 화상 인식부(50B)는 CCD 카메라(16)로부터 제공되는 화상 신호를 이용하여, 화상 인식 처리를 행한다. 그리고, 센서 입력 처리부(50)는, 화상 인식부(50B)에 의한 화상 인식 처리에 의해, 예를 들면, 「빨갛고 둥근 것」이나, 「지면에 대하여 수직이며, 소정 높이 이상의 평면」 등을 검출했을 때에는, 「볼이 있음」이나, 「벽이 있음」 등의 주위 상태를 나타내는 정보를, 상태 인식 정보로서, 모델 기억부(51) 및 행동 결정 기구부(52)에 통지한다.

또한, 센서 입력 처리부(50)는, 압력 처리부(50C)를 갖고 있고, 압력 처리부(50C)는 터치 센서(17)를 포함하는 각 부에 배치된 터치 센서(이하, 적절하게, 터치 센서(17) 등이라고 함)로부터 제공되는 압력 검출 신호를 처리함으로써, 압력이 부여된 부위, 압력의 크기, 압력이 부여된 범위, 압력이 부여되어 있는 시간 등을 검출한다. 그리고, 센서 입력 처리부(50)는 압력 처리부(50C)에 의한 처리의 결과, 예를 들면 소정의 임계값 이상으로, 또한 단시간의 압력을 검출했을 때에는 「맞음(꾸중들음)」이라고 인식하고, 소정의 임계값 미만으로, 또한 장시간의 압력을 검출했을 때에는, 「쓰다듬음(칭찬받음)」이라고 인식하는 등으로 하여, 부여된 압력이 어떤 의미인지의 인식 결과를, 상태 인식 정보로서 모델 기억부(51) 및 행동 결정 기구부(52)에 통지한다.

또한, 센서 입력 처리부(50)에서는 음성 인식부(50A)에 의한 음성 인식 결과, 화상 처리부(50B)에 의한 화상 처리 결과, 및 압력 처리부(50C)에 의한 처리 결과가 자극 인식부(56)에 공급되도록 되어 있다.

모델 기억부(51)는, 로봇의 내부 상태로서의, 예를 들면 감정, 본능, 성장의 상태를 표현하는 감정 모델, 본능 모델, 성장 모델을 각각 기억, 관리하고 있다.

여기서, 감정 모델은, 예를 들면 「기쁨」, 「슬픔」, 「분노」, 「즐거움」 등의 감정의 상태(정도)를, 소정의 범위 값에 의해 각각 나타내고, 센서 입력 처리부(50)로부터의 상태 인식 정보나 시간 경과 등에 기초하여, 그 값을 변화시킨다. 본능 모델은, 예를 들면 「식욕」, 「수면욕」, 「운동욕」 등의 본능에 의한 욕구의 상태(정도)를, 소정의 범위 값에 의해 각각 나타내고, 센서 입력 처리부(50)로 부터의 상태 인식 정보나 시간 경과 등에 기초하여, 그 값을 변화시킨다. 성장 모델은, 예를 들면 「유년기」, 「청년기」, 「숙년기」, 「노년기」 등의 성장의 상태(정도)를, 소정의 범위의 값에 의해 각각 나타내고, 센서 입력 처리부(50)로부터의 상태 인식 정보나 시간 경과 등에 기초하여, 그 값을 변화시킨다.

모델 기억부(51)는, 상술한 바와 같이 하여 감정 모델, 본능 모델, 성장 모델의 값으로 표시되는 감정, 본능, 성장의 상태를, 상태 정보로서, 행동 결정 기구부(52)에 송출한다.

또, 모델 기억부(51)에는 센서 입력 처리부(50)로부터 상태 인식 정보가 공급되는 것 외에, 행동 결정 기구부(52)로부터 로봇의 현재 또는 과거의 행동, 구체적으로는, 예를 들면 「장시간 걸었음」 등의 행동 내용을 나타내는 행동 정보가 공급되도록 되어 있으며, 모델 기억부(51)는 동일한 상태 인식 정보가 제공되어도, 행동 정보가 나타내는 로봇의 행동에 따라, 다른 상태 정보를 생성하도록 되어 있다.

즉, 예를 들면, 로봇이 사용자에게 인사를 하고, 사용자가 머리를 어루만진 경우에는, 사용자에게 인사를 했다는 행동 정보와, 머리를 어루만져졌다는 상태 인식 정보가 모델 기억부(51)에 제공되어, 이 경우 모델 기억부(51)에서는 「기쁨」을 나타내는 감정 모델의 값이 증가된다.

한편, 로봇이 어떠한 일을 실행하던 중에 머리를 어루만져진 경우에는, 일을 실행하고 있던 중이라는 행동 정보와, 머리를 어루만져졌다는 상태 인식 정보가 모델 기억부(51)에 제공되며, 이 경우 모델 기억부(51)에서는 「기쁨」을 나타내는 감정 모델의 값은 변화되지 않는다.

이와 같이, 모델 기억부(51)는 상태 인식 정보뿐만 아니라, 현재 또는 과거의 로봇의 행동을 나타내는 행동 정보도 참조하면서, 감정 모델의 값을 설정한다. 이에 의해, 예를 들면 어떠한 태스크를 실행하던 중에, 사용자가 장난칠 생각으로 머리를 어루만졌을 때에 「기쁨」을 나타내는 감정 모델의 값을 증가시키는, 부자연스러운 감정의 변화가 생기는 것을 회피할 수 있다.

또, 모델 기억부(51)는 본능 모델 및 성장 모델에 대해서도, 감정 모델에서의 경우와 같이, 상태 인식 정보 및 행동 정보의 양방에 기초하여, 그 값을 증감시키도록 되어 있다. 또한, 모델 기억부(51)는 감정 모델, 본능 모델, 성장 모델 각각의 값을, 다른 모델의 값에도 기초하여 증감시키도록 되어 있다.

행동 결정 기구부(52)는 센서 입력 처리부(50)로부터의 상태 인식 정보나, 모델 기억부(51)로부터의 상태 정보, 시간 경과 등에 기초하여, 다음 행동을 결정하고, 결정된 행동의 내용을 행동 지령 정보로서, 자세 천이 기구부(53)에 송출한다.

즉, 행동 결정 기구부(52)는 로봇이 취할 수 있는 행동을 스테이트(상태)(state)에 대응시킨 유한 오토마튼을, 로봇의 행동을 규정하는 행동 모델로서 관리하고 있으며, 이 행동 모델로서의 유한 오토마튼에서의 스테이트를, 센서 입력 처리부(50)로부터의 상태 인식 정보나, 모델 기억부(51)에서의 감정 모델, 본능 모델, 또는 성장 모델의 값, 시간 경과 등에 기초하여 천이시키고, 천이 후의 스테이트에 대응하는 행동을, 다음에 취해야하는 행동으로서 결정한다.

여기서, 행동 결정 기구부(52)는 소정의 트리거(trigger)가 있었던 것을 검출하면, 스테이트를 천이시킨다. 즉, 행동 결정 기구부(52)는, 예를 들면 현재의 스테이트에 대응하는 행동을 실행하고 있는 시간이 소정 시간에 도달했을 때나, 특정한 상태 인식 정보를 수신했을 때, 모델 기억부(51)로부터 공급되는 상태 정보가 나타내는 감정이나, 본능, 성장의 상태의 값이 소정의 임계값 이하 또는 이상으로 되었을 때 등에, 스테이트를 천이시킨다.

또, 행동 결정 기구부(52)는 상술한 바와 같이 센서 입력 처리부(50)로부터의 상태 인식 정보뿐만 아니라, 모델 기억부(51)에서의 감정 모델이나, 본능 모델, 성장 모델의 값 등에도 기초하여, 행동 모델에서의 스테이트를 천이시키기 때문에, 동일한 상태 인식 정보가 입력되어도 감정 모델이나, 본능 모델, 성장 모델의 값(상태 정보)에 의해서는 스테이트의 천이처는 다른 것이 된다.

그 결과, 행동 결정 기구부(52)는, 예를 들면 상태 정보가 「화나지 않음」, 및 「배고프지 않음」을 나타내는 경우에 있어서, 상태 인식 정보가 「눈앞에 손바닥을 내밈」을 나타내고 있을 때에는, 눈앞에 손바닥을 내미는 것에 의해, 「손」 이라는 행동을 취하게 하는 행동 지령 정보를 생성하고, 이것을 자세 천이 기구부(53)에 송출한다.

또한, 행동 결정 기구부(52)는, 예를 들면 상태 정보가 「화나지 않음」, 및 「배고픔」을 나타내는 경우에 있어서, 상태 인식 정보가 「눈앞에 손바닥을 내밈」을 나타내고 있을 때에는, 눈앞에 손바닥을 내미는 것에 의해, 「손 바닥을 날름날름 핥음」과 같은 행동을 행하게 하기 위한 행동 지령 정보를 생성하고, 이것을 자세 천이 기구부(53)에 송출한다.

또한, 행동 결정 기구부(52)는, 예를 들면 상태 정보가 「화나 있음」을 나타내는 경우에 있어서, 상태 인식 정보가 「눈앞에 손바닥을 내밈」을 나타내고 있을 때에는 상태 정보가 「배고픔」을 나타내도, 또한 「배고프지 않음」을 나타내도 「휙 옆으로 돌림」과 같은 행동을 행하게 하기 위한 행동 지령 정보를 생성하고, 이것을 자세 천이 기구부(53)에 송출한다.

또, 행동 결정 기구부(52)에는 모델 기억부(51)로부터 공급되는 상태 정보가 나타내는 감정이나, 본능, 성장의 상태에 기초하여, 천이처의 스테이트에 대응하는 행동의 파라미터로서의, 예를 들면 보행의 속도나, 손발을 움직일 때의 움직임의 크기 및 속도 등을 결정하게 할 수 있으며, 이 경우 이들 파라미터를 포함하는 행동 지령 정보가 자세 천이 기구부(53)에 송출된다.

또한, 행동 결정 기구부(52)에서는, 상술한 바와 같이 로봇의 머리부나 손발 등을 동작시키는 행동 지령 정보 외에, 로봇에 발화를 행하게 하는 행동 지령 정보도 생성된다. 로봇에 발화를 행하게 하는 행동 지령 정보는 음성 합성부(55)에 공급되도록 되어 있으며, 음성 합성부(55)에 공급되는 행동 지령 정보에는 음성 합성부(55)에 생성시키는 합성음에 대응하는 텍스트 등이 포함된다. 그리고, 음성 합성부(55)는 행동 결정부(52)로부터 행동 지령 정보를 수신하면, 그 행동 지령 정보에 포함되는 텍스트에 기초하여, 합성음을 생성하고, 스피커(18)에 공급하여 출력시킨다. 이에 의해, 스피커(18)로부터는, 예를 들면 로봇의 울음소리, 또한 「배고픔」 등의 사용자에의 각종 요구, 「뭐라고?」 등의 사용자의 부름에 대한 응답 외의 음성 출력이 행해진다.

또한, 음성 합성부(55)에는 후술하는 자극 인식부(56)에 의한 자극의 의미 인식 결과가 공급되도록 되어 있다. 음성 합성부(55)는, 상술한 바와 같이 행동 결정 기구부(52)로부터의 행동 지령 정보에 따라, 대응하는 합성음을 생성하여 출력하는 한편, 자극 인식부(56)로부터의 의미 인식 결과에 따라 합성음의 출력을 정지시키고, 또한 필요에 따라 그 의미 인식 결과에 대한 반응으로서의 합성음인 반응 음성을 출력한다. 또한, 음성 합성부(55)는 필요에 따라 정지한 합성음의 출력을 재개한다.

자세 천이 기구부(53)는 행동 결정 기구부(52)로부터 공급되는 행동 지령 정보에 기초하여, 로봇의 자세를 현재의 자세로부터 다음 자세로 천이시키기 위한 자세 천이 정보를 생성하고, 이것을 제어 기구부(54)에 송출한다.

여기서, 현재의 자세로부터 다음으로 천이 가능한 자세는, 예를 들면 동체나 손이나 발의 형상, 무게, 각 부의 결합 상태와 같은 로봇의 물리적 형상과, 관절이 구부러지는 방향이나 각도와 같은 액추에이터(3AA₁ 내지 5A₁ 및 5A₂)의 기구에 따라 결정된다.

또한, 다음 자세로서는, 현재의 자세로부터 직접 천이 가능한 자세와, 직접 천이할 수 없는 자세가 있다. 예를 들면, 네발 로봇은, 손발을 크게 벌리거나 뒹구는 상태로부터, 엎드린 상태로 직접 천이할 수 있지만, 선 상태로 직접 천이할 수는 없으며, 일단 손발을 동체 근처로 가까이 당겨 엎드린 자세가 되고나서, 일어 나는 2 단계의 동작이 필요하다. 또한, 안전하게 실행할 수 없는 자세도 존재한다. 예를 들면, 네발의 로봇은, 그 네발로 서 있는 자세로부터, 두발을 예를 들어 만세를 하려고 하면, 쉽게 전도되고 만다.

이 때문에, 자세 천이 기구부(53)는 직접 천이 가능한 자세를 미리 등록해 두고, 행동 결정 기구부(52)로부터 공급되는 행동 지령 정보가 직접 천이 가능한 자세를 나타내는 경우에는, 그 행동 지령 정보를 그대로 자세 천이 정보로서, 제어 기구부(54)에 송출한다. 한편, 행동 지령 정보가 직접 천이 불가능한 자세를 나타내는 경우에는, 자세 천이 기구부(53)는 천이 가능한 다른 자세로 일단 천이한 후에, 원하는 자세까지 천이시키는 자세 천이 정보를 생성하여, 제어 기구부(54)에 송출한다. 이에 의해 로봇이 천이 불가능한 자세를 무리하게 실행하려는 사태나, 전도하는 사태를 회피할 수 있도록 되어 있다.

제어 기구부(54)는, 자세 천이 기구부(53)로부터의 자세 천이 정보에 따라 액추에이터(3AA₁ 내지 5A₁ 및 5A₂)를 구동하기 위한 제어 신호를 생성하고, 이것을 액추에이터(3AA₁ 내지 5A₁ 및 5A₂)에 송출한다. 이에 의해, 액추에이터(3AA ₁ 내지 5A₁ 및 5A₂)는 제어 신호에 따라 구동하고, 로봇은 자율적으로 행동을 일으킨다.

자극 인식부(56)는 로봇의 외부 및 내부로부터 제공되는 자극의 의미를, 자극 데이터베이스(57)를 참조함으로써 인식하고, 그 의미 인식 결과를 음성 합성부(55)에 공급한다. 즉, 자극 인식부(56)에는 상술한 바와 같이 센서 입력 처리부(50)로부터, 음성 인식부(50A)에 의한 음성 인식 결과, 화상 처리부(50B)에 의 한 화상 인식 결과, 압력 처리부(50C)의 처리 결과가 공급되는 것 외에, 내부 센서부(12)의 출력, 및 모델 기억부(51)에 기억된 감정 모델, 본능 모델, 및 성장 모델의 값이 공급되도록 되며, 자극 인식부(56)는 이들 입력을, 외부나 내부로부터 제공되는 자극으로서, 그 자극의 의미를 자극 데이터베이스(57)를 참조함으로써 인식한다.

자극 데이터베이스(57)는, 예를 들면 소리, 빛(화상), 압력 등의 자극의 종별마다, 자극의 의미와, 자극의 내용을 대응시킨 자극 테이블을 기억하고 있다.

즉, 도 4는 자극의 종별이 압력인 경우의 자극 테이블의 예를 도시하고 있다.

도 4의 실시예에서는 자극으로서의 압력의 내용에 대하여, 그 압력이 부여된 부위, 강도(강함), 범위, 지속 시간(압력이 부여된 시간)이 규정되어 있으며, 각 압력의 내용에 대하여 그 압력의 의미가 대응되어 있다. 예를 들면, 머리, 엉덩이, 어깨, 등, 배, 또는 다리의 부분에 강한 압력이 넓은 범위에서 짧은 시간 부여된 경우에는, 그 압력의 내용은 도 4의 자극 테이블의 제1행째에 합치되므로, 자극 인식부(56)에서는 그 압력의 의미가 「때림」, 즉 사용자가 때리려는 의도를 갖고, 압력을 부여한 것이 인식된다.

또, 자극 인식부(56)에서는 자극의 종별은 각 자극을 검지하는 배터리 센서(12A), 자세 센서(12B), 온도 센서(12C), 타이머(12D), 음성 인식부(50A), 화상 인식부(50B), 압력 처리부(50C), 모델 기억부(51) 중 어디에서 부여된 자극인지 인식함으로써 판단된다.

또한, 자극 인식부(56)는 상술한 센서 입력 처리부(50)와, 그 일부를 겸용하고 구성하는 것이 가능하다.

이어서, 도 5는 도 3의 음성 합성부(55)의 구성예를 도시하고 있다.

언어 처리부(21)에는, 행동 결정 기구부(52)가 출력하는, 음성 합성의 대상으로 하는 텍스트를 포함하는 행동 지령 정보가 공급되도록 되어 있으며, 언어 처리부(21)는 사전 기억부(22)나 해석용 문법 기억부(23)를 참조하면서, 그 행동 지령 정보에 포함되는 텍스트를 해석한다.

즉, 사전 기억부(22)에는 각 단어의 품사 정보나, 판독, 액센트 등의 정보가 기술된 단어 사전이 기억되어 있으며, 또한 해석용 문법 기억부(23)에는 사전 기억부(22)의 단어 사전에 기술된 단어에 대하여, 단어 연쇄에 관한 제약 등의 해석용 문법 규칙이 기억되어 있다. 그리고, 언어 처리부(21)는 이 단어 사전 및 해석용 문법 규칙에 기초하여, 거기에 입력되는 텍스트의 형태소 해석이나 구문 해석 등의 텍스트 해석을 행하고, 후단의 규칙 합성부(24)에서 행해지는 규칙 음성 합성에 필요한 정보를 추출한다. 여기서, 규칙 음성 합성에 필요한 정보로서는, 예를 들면 포즈의 위치나, 액센트, 억양, 파워 등을 제어하기 위한 운률 정보, 각 단어의 발음을 나타내는 음운 정보 등이 있다.

언어 처리부(21)에서 얻어진 정보는, 규칙 합성부(24)에 공급되고, 규칙 합성부(24)는 음소편 기억부(25)를 참조하면서, 언어 처리부(21)에 입력된 텍스트에 대응하는 합성음의 음성 데이터(디지털 데이터)를 생성한다.

즉, 음소편 기억부(25)에는, 예를 들면 CV(Consonant, Vowel)나, VCV, CVC, 혹은 1피치 등의 형태로 음소편 데이터가 기억되어 있고, 규칙 합성부(24)는 언어 처리부(21)로부터의 정보에 기초하여, 필요한 음소편 데이터를 접속하고, 또한 음소편 데이터의 파형을 가공함으로써, 포즈, 액센트, 억양 등을 적절하게 부가하고, 이에 의해 언어 처리부(21)에 입력된 텍스트에 대응하는 합성음의 음성 데이터(합성음 데이터)를 생성한다.

이상과 같이 하여 생성된 합성음 데이터는, 버퍼(26)에 공급된다. 버퍼(26)는 규칙 합성부(24)로부터 공급되는 합성음 데이터를 일시 기억한다. 또한, 버퍼(26)는 판독 제어부(29)의 제어에 따라, 기억한 합성음 데이터를 판독하여, 출력 제어부(27)에 공급한다.

출력 제어부(27)는 버퍼(26)로부터 공급되는 합성음 데이터의, D/A(Digital/Analog) 변환부(27)에의 출력을 제어한다. 또한, 출력 제어부(27)는 반응 생성부(30)로부터 공급되는, 자극에 대한 반응으로서의 반응 음성의 데이터(반응 음성 데이터)의 D/A 변환부(28)에의 출력도 제어한다.

D/A 변환부(28)는 출력 제어부(27)로부터 공급되는 합성음 데이터 또는 반응 음성 데이터를, 디지털 신호로부터 아날로그 신호로 D/A 변환하고, 스피커(18)에 공급하여 출력시킨다.

판독 제어부(29)는 반응 생성부(30)의 제어에 따라, 버퍼(26)로부터의 합성음 데이터의 판독을 제어한다. 즉, 판독 제어부(29)는 버퍼(26)에 기억된 합성음 데이터를 판독하는 판독 어드레스를 지정하는 판독 포인터를 설정하고, 그 판독 포인터를 변이시킴으로써, 버퍼(26)로부터 합성음 데이터를 판독하게 한다.

반응 생성부(30)에는 자극 인식부(56)에서 얻어진, 자극의 의미의 인식 결과가 공급되도록 되어 있다. 반응 생성부(30)는 자극 인식부(56)로부터, 자극의 의미의 인식 결과를 수신하면, 반응 데이터베이스(31)를 참조하여, 그 자극에 대한 반응을 출력할지의 여부를 결정하고, 또한 반응을 출력하는 경우에는, 어떠한 반응을 출력할지의 여부를 결정한다. 그리고, 반응 생성부(30)는 이들 결정 결과에 따라 출력 제어부(27) 및 판독 제어부(29)를 제어한다.

반응 데이터베이스(31)는, 자극의 의미와, 그 자극에 대한 반응을 대응시킨 반응 테이블을 기억하고 있다.

여기서, 도 6은 반응 테이블을 도시하고 있다. 도 6의 반응 테이블에 의하면, 예를 들면 자극의 의미의 인식 결과가 「때림」인 경우, 반응 음성으로서 「아퍼」가 출력되게 된다.

이어서, 도 7의 순서도를 참조하여, 도 6의 음성 합성부(55)에 의한 음성 합성 처리에 대하여 설명한다.

음성 합성부(55)는 행동 결정 기구부(52)로부터 행동 지령 정보가 송신되어 오면, 처리를 개시하여, 우선 최초로 단계 S1에서 언어 처리부(21)가 그 행동 지령 정보를 수신한다.

그리고, 단계 S2로 진행하여, 언어 처리부(21) 및 규칙 합성부(24)에서 행동 결정 기구부(52)로부터의 행동 지령 정보에 기초하여, 합성음 데이터가 생성된다.

즉, 언어 처리부(21)는 사전 기억부(22)나 해석용 문법 기억부(23)를 참조하면서, 행동 지령 정보에 포함되는 텍스트를 해석하고, 그 해석 결과를 규칙 합성부(24)에 공급한다. 규칙 합성부(24)는 언어 처리부(21)로부터의 해석 결과에 기초하여, 음소편 기억부(25)를 참조하면서, 행동 지령 정보에 포함되는 텍스트에 대응하는 합성음 데이터를 생성한다.

규칙 합성부(24)에서 얻어진 합성음 데이터는 버퍼(26)에 공급되어 기억된다.

그리고, 단계 S3으로 진행하고, 판독 제어부(29)는 버퍼(26)에 기억된 합성음 데이터의 재생을 개시한다.

즉, 판독 제어부(29)는 판독 포인터를, 버퍼(26)에 기억된 합성음 데이터의 선두에 설정하고, 또한 그 판독 포인터를 순차적으로 변이시킴으로써, 버퍼(26)에 기억된 합성음 데이터를 그 선두로부터 순차적으로 판독하여, 출력 제어부(27)에 공급시킨다. 출력 제어부(27)는 버퍼(26)로부터 판독된 합성음 데이터를 D/A 변환부(28)를 통해 스피커(18)에 공급하여 출력시킨다.

그 후, 단계 S4에 진행하고, 반응 생성부(30)는 자극의 의미의 인식 결과가, 자극 인식부(56)(도 3)로부터 송신되었는지의 여부를 판정한다. 여기서, 자극 인식부(56)는, 예를 들면 정기적으로, 또는 부정기적으로 자극의 의미의 인식을 행하고, 그 인식 결과를 반응 생성부(30)에 공급한다. 혹은, 자극 인식부(56)는, 항상 자극의 의미를 인식하고 있으며, 그 인식 결과에 변화가 있었던 경우에, 그 변화 후의 인식 결과를 반응 생성부(30)에 공급한다.

단계 S4에서, 자극의 의미의 인식 결과가 자극 인식부(56)로부터 송신되었다고 판정된 경우, 반응 생성부(30)는 그 의미의 인식 결과를 수신하고, 단계 S5로 진행한다.

단계 S5에서는, 반응 생성부(30)는 반응 데이터베이스(31)의 반응 테이블을 참조함으로써, 자극 인식부(56)로부터의 자극의 의미의 인식 결과를 검색하고, 단계 S6으로 진행한다.

단계 S6에서는, 반응 생성부(30)가 단계 S5에서의 반응 테이블의 검색 결과에 기초하여, 반응 음성을 출력하는지의 여부를 판정한다. 단계 S6에서 반응 음성을 출력하지 않는다고 판정된 경우, 즉 예를 들면 반응 테이블에서 자극 인식부(56)로부터의 자극의 의미의 인식 결과에 대하여, 반응이 대응되지 않는 경우(반응 테이블에, 자극 인식부(56)로부터의 자극의 의미의 인식 결과가 등록되어 있지 않은 경우), 단계 S4로 되돌아가며, 이하 마찬가지의 처리를 반복한다.

따라서, 이 경우에는 버퍼(26)에 기억된 합성음 데이터의 출력이 그대로 속행된다.

또한, 단계 S6에서 반응 음성을 출력한다고 판정된 경우, 즉 예를 들면, 반응 테이블에서 자극 인식부(56)로부터의 자극의 의미의 인식 결과에 대하여, 반응 음성 데이터가 대응되어 있는 경우, 반응 생성부(30)는 그 반응 음성 데이터를 반응 데이터베이스(31)로부터 판독하여, 단계 S7에 진행한다.

단계 S7에서는, 반응 생성부(30)는 출력 제어부(27)를 제어함으로써, 버퍼(27)로부터의 합성음 데이터의, D/A 변환부(28)에의 공급을 정지시킨다.

따라서, 이 경우 합성음 데이터의 출력이 정지된다.

또한, 단계 S7에서는 반응 생성부(30)는 판독 제어부(29)에 인터럽트 신호를 공급함으로써, 합성음 데이터의 출력이 정지되었을 때의 판독 포인터의 값을 취득하고, 단계 S8로 진행한다.

단계 S8에서는 반응 생성부(30)는 단계 S5에서 반응 테이블을 검색함으로써 얻은 반응 음성 데이터를 출력 제어부(27)에 공급하고, D/A 변환부(28)에 출력시킨다.

따라서, 합성음 데이터의 출력이 정지된 후에는, 반응 음성 데이터가 출력된다. 반응 음성 데이터의 출력이 개시된 후에는 단계 S9에 진행하고, 반응 생성부(30)는 판독 포인터를, 합성음 데이터의 재생을 재개하는 어드레스에 설정하고, 단계 S10으로 진행한다.

단계 S10에서는 단계 S8에서 출력이 개시된 반응 음성 데이터의 출력이 종료하는 것을 대기하고, 단계 S11로 진행하며, 반응 생성부(30)는 단계 S9에서 설정한 판독 포인터를 판독 제어부(29)에 공급하고, 버퍼(26)로부터의 합성음 데이터의 재생(판독)을 재개시킨다.

따라서, 합성음 데이터의 출력이 정지되고, 반응 음성 데이터가 출력된 후에는 재차 합성음 데이터의 출력이 재개된다.

그리고, 단계 S4로 되돌아가, 단계 S4에서 자극의 의미의 인식 결과가 자극 인식부(56)로부터 송신되지 않는다고 판정된 경우에는, 단계 S12로 진행한다. 단계 S12에서는, 버퍼(26)에 아직 판독되지 않은 합성음 데이터가 있는지의 여부가 판정되며, 아직 판독되지 않은 합성음 데이터가 있다고 판정된 경우, 단계 S4로 되돌아간다.

또한, 단계 S12에서 버퍼(26)에 아직 판독되지 않은 합성음 데이터가 없다고 판정된 경우, 처리를 종료한다.

이상과 같은 음성 합성 처리에 따르면, 예를 들면 다음과 같은 음성 출력이 행해진다.

즉, 예를 들면, 지금, 규칙 합성부(24)에서 합성음 데이터 「출구는 어디입니까?」가 생성되어, 버퍼(26)에 기억되고, 「출구는 어」까지가 출력되었을 때에, 사용자가 로봇을 때렸다고 하자. 이 경우, 자극 인식부(56)에서는 자극의 의미가 「때림」인 것이 인식되어, 반응 생성부(30)에 공급된다. 반응 생성부(30)에서는, 도 6의 반응 테이블을 참조함으로써, 「때림」이라는 자극의 의미의 인식 결과에 대하여, 반응 음성 데이터 「아퍼」를 출력하는 것이 결정된다.

그리고, 반응 생성부(30)는 출력 제어부(27)를 제어함으로써, 합성음 데이터의 출력을 정지시키고, 반응 음성 데이터 「아퍼」를 출력시킨다. 그 후, 반응 생성부(30)는 판독 포인터를 제어함으로써, 예를 들면 합성음 데이터의 출력을 그 출력이 정지된 시점부터 재개시킨다.

따라서, 이 경우, 합성음 데이터 「출구는 어」까지가 출력되었을 때에, 사용자가 로봇을 때림으로써, 그 때린 것에 의한 반응으로서의 반응 음성 데이터 「아퍼」가 출력되고, 그 후 합성음 데이터의 나머지 「디입니까?」가 출력된다.

그런데, 상술한 경우에는 「출구는 어」→「아퍼」→「디입니까?」라는 합성음이 출력되기 때문에, 반응 음성 데이터 「아퍼」의 출력 후에 출력되는 합성음 데이터 「디입니까?」가 말하자면 중간에 잘려, 사용자가 이해하기 어렵게 될 우려 가 있다.

그래서, 합성음 데이터의 출력은, 그 출력이 정지된 시점부터 거슬러 올라간 위치에 있는, 정보(예를 들면, 거슬러 올라 처음 나타난 정보)의 단락으로 되어 있는 시점으로부터 재개시킬 수 있다.

즉, 합성음 데이터의 출력은, 예를 들면 그 출력이 정지된 시점부터 거슬러 올라 처음 나타나는 단어의 단락으로 되어 있는 시점으로부터 재개시킬 수 있다.

상술한 경우를 예로 하면, 합성음 데이터의 출력이 정지된 시점은 단어 「어디」의 「디」이며, 따라서 합성음 데이터의 출력의 재개는 단어 「어디」의 선두부터 행할 수 있다. 이 경우, 합성음 데이터 「출구는 어」까지가 출력되었을 때에, 사용자가 로봇을 때림으로써, 그 때린 것에 의한 반응으로서의 반응 음성 데이터 「아퍼」가 출력되고, 그 후 합성음 데이터 「어디입니까?」가 출력된다.

또, 그 외에, 합성음 데이터의 출력은, 예를 들면 그 출력이 정지된 시점으로부터 거슬러 올라 처음에 나타나는 구두점이나, 호기 단락에 대응하는 시점부터 재개시키는 것도 가능하다. 또한, 합성음의 출력의 재개는, 사용자가 도시하지 않은 조작부를 조작함으로써 지정하는 임의의 시점으로부터 행하도록 할 수도 있다.

여기서, 합성음 데이터의 출력을 재개하는 시점의 지정은 도 7의 단계 S9에서, 판독 포인터의 값을 설정함으로써 행할 수 있다.

또한, 상술한 경우에는 자극이 있었던 경우에, 합성음 데이터의 출력을 정지하고, 자극에 대한 반응 음성 데이터를 출력한 후, 바로 합성음 데이터의 출력을 재개하도록 했지만, 반응 음성 데이터를 출력한 후에는, 바로 합성음 데이터의 출 력을 재개하는 것이 아니라, 소정의 정형 반응을 출력한 후에, 합성음 데이터의 출력을 재개하도록 할 수 있다.

즉, 상술한 바와 같이, 합성음 데이터의 출력을 정지시키고, 반응 음성 데이터 「아퍼」를 출력한 후에는, 예를 들면 「미안 미안」이나 「실례했습니다.」등의 합성음 데이터의 출력 정지에 대한 사죄를 나타내는 정형의 합성음을 출력하고, 그 후에 정지한 합성음 데이터의 출력을 재개하도록 할 수 있다.

또한, 합성음 데이터의 출력은 그 선두로부터 재개할 수도 있다.

즉, 합성음 데이터의 출력 도중에, 사용자로부터, 예를 들면 「에?」라는 의문을 나타내는 음성이 입력된 경우에는, 사용자가 합성음을 잘 알아들을 수 없었다고 생각되어진다. 그래서, 이 경우에는 그 「에?」라는 음성 입력에 의한 자극에 응하여 합성음 데이터의 출력을 정지시키고, 단시간의 무음 구간을 두어 합성음 데이터의 출력을, 그 선두로부터 재개하도록 할 수 있다. 또, 합성음 데이터의 선두로부터의 출력의 재개도 판독 포인터를 설정함으로써, 용이하게 행할 수 있다.

이상과 같은 합성음 데이터의 출력 제어는 압력이나 음성 이외의 자극에 기초하여 행할 수도 있다.

즉, 예를 들면 자극 인식부(56)에서, 내부 센서부(12)의 온도 센서(12C)로부터 출력되는 자극으로서의 온도를, 소정의 임계값과 비교하여, 온도가 소정의 임계값 이하인 경우에는 「추움」이라고 인식한다. 그리고, 자극 인식부(56)에서 「추움」이 인식된 경우에는 반응 생성부(30)에서, 예를 들면 재채기에 대응하는 반응 음성 데이터를 출력 제어부(27)에 출력하도록 할 수 있다. 이 경우, 합성음 데이터의 출력 도중에, 로봇이 재채기를 하고, 그 후 합성음 데이터의 출력을 재개하게 된다.

또한, 예를 들면 자극 인식부(56)에서, 내부 센서부(12)의 타이머(12D)로부터 출력되는 자극으로서의 현재 시각(혹은, 모델 기억부(51)에 기억된 본능 모델 중 「수면욕」을 나타내는 값)을 소정의 임계값과 비교하여, 현재 시각이 이른 아침 또는 심야에 상당하는 시각의 범위에 있는 경우에는 「졸림」이라고 인식한다. 그리고, 자극 인식부(56)에서, 「졸림」이 인식된 경우에는 반응 생성부(30)에서, 예를 들면 하품에 대응하는 반응 음성 데이터를 출력 제어부(27)에 출력하도록 할 수 있다. 이 경우, 합성음 데이터의 출력 도중에, 로봇이 하품을 하고, 그 후 합성음 데이터의 출력을 재개하게 된다.

또한, 예를 들면 자극 인식부(56)에서 내부 센서부(12)의 배터리 센서(12A)로부터 출력되는 자극으로서의 배터리 잔량(혹은, 모델 기억부(51)에 기억된 본능 모델 중 「식욕」을 나타내는 값)을 소정의 임계값과 비교하여, 배터리 잔량이 소정의 임계값 이하인 경우에는 「배고픔」이라고 인식한다. 그리고, 자극 인식부(56)에서 「배고픔」인 것이 인식된 경우에는 반응 생성부(30)에서, 예를 들면 반응 음성 데이터로서 공복 시의 배의 소리 「꼬르륵」을 출력 제어부(27)에 출력하도록 할 수 있다. 이 경우, 합성음 데이터의 출력 도중에, 로봇의 배가 울리고, 그 후 합성음 데이터의 출력이 재개되게 된다.

또한, 예를 들면 자극 인식부(56)에서 모델 기억부(51)에 기억된 본능 모델 중 「운동욕」을 나타내는 값을 소정의 임계값과 비교하여, 「운동욕」을 나타내는 값이 소정의 임계값 이하인 경우에는 「피곤함」이라고 인식한다. 그리고, 자극 인식부(56)에서 「피곤함」이 있는 것이 인식된 경우에는 반응 생성부(30)에서 예를 들면, 반응 음성 데이터로서 피로감을 나타내는 한숨, 「헉헉」을 출력 제어부(27)에 출력하도록 할 수 있다. 이 경우, 합성음 데이터의 출력 도중에 로봇이 한숨을 짓고, 그 후 합성음 데이터의 출력이 재개되게 된다.

기타, 예를 들면 자세 센서(12B)의 출력에 기초하여, 밸런스가 무너질 듯한지의 여부를 인식하고, 밸런스가 무너질 것 같은 경우에는 반응 음성 데이터로서, 그 취지를 표현하는 「어어어」 등을 출력하도록 할 수도 있다.

이상과 같이, 외부 또는 내부로부터의 자극에 응하여, 합성음 데이터의 출력을 정지시키고, 그 자극에 대한 반응을 출력한 후에, 정지된 합성음 데이터의 출력을 재개하도록 했으므로, 인간과 같은 감각이나 감정을 갖는, 말하자면 인간미 넘치는, 보다 자연스러운 음성 출력을 행할 수 있게 된다. 또, 사용자에게 로봇이, 말하자면 척수 반사적인 반응을 일으키고 있는 듯한 인상을 줄 수 있으며, 오락성이 높은 로봇의 제공이 가능해진다.

또한, 합성음 데이터의 출력의 재개를 그 출력이 정지된 시점부터 거슬러 올라간 소정의 시점으로부터 행하도록 한 경우에는, 합성음 데이터의 출력을 도중에 정지시킴에 따른, 사용자의 이해의 방해를 방지할 수 있다.

이상, 본 발명을 오락용 네발 보행의 로봇(유사 페트로서의 로봇)에 적용한 경우에 대해 설명했지만, 본 발명은 기타 인간형 두발 보행의 로봇에도 적용 가능하다. 또한, 본 발명은 현실 세계의 실제의 로봇뿐 아니라, 예를 들면 액정 디스 플레이 등의 표시 장치에 표시되는 가상적인 로봇(캐릭터)에도 적용 가능하다. 또한, 본 발명은, 로봇 외에 음성 합성 장치 그 밖의 음성 출력 장치를 탑재한, 예를 들면 대화 시스템 등에도 적용 가능하다.

또, 본 실시예에서는, 상술한 일련의 처리를, CPU(10A)에 프로그램을 실행시킴에 따라 행하도록 했지만, 일련의 처리는 그 전용의 하드웨어에 의해 행할 수도 있다.

여기서, 프로그램은 미리 메모리(10B)(도 2)에 기억시켜 두는 것 외에, 플로피 디스크, CD-ROM(Compact Disc Read Only Memory), MO(Magneto optical) 디스크, DVD(Digital Versatile Disc), 자기 디스크, 반도체 메모리 등의 착탈 가능한 기록 매체에 일시적 혹은 영속적으로 저장(기록)해 둘 수 있다. 그리고, 이러한 착탈 가능한 기록 매체는, 소위 패키지 소프트웨어로서 제공하고, 로봇(메모리(10B))에 인스톨하도록 할 수 있다.

또한, 프로그램은 다운로드 사이트로부터, 디지털 위성 방송용 인공위성을 통해, 무선으로 전송하거나, LAN(Local Area Network), 인터넷이라는 네트워크를 통해 유선으로 전송하고, 메모리(10B)에 인스톨할 수 있다.

이 경우, 프로그램이 버전업되었을 때 등에 그 버전업된 프로그램을, 메모리(10B)에 용이하게 인스톨할 수 있다.

또, 본 명세서에서 CPU(10A)에 각종 처리를 행하게 하기 위한 프로그램을 기술하는 처리 단계는 반드시 순서도로서 기재된 순서에 따라 시계열로 처리할 필요는 없으며, 병렬적 혹은 개별로 실행되는 처리(예를 들면, 병렬 처리 혹은 오브젝 트에 의한 처리)도 포함하는 것이다.

또한, 프로그램은 하나의 CPU에 의해 처리되어도 무방하며, 복수의 CPU에 의해 분산 처리되어도 무방하다.

이어서, 도 5의 음성 합성부(55)는 전용 하드웨어에 의해 실현할 수도 있고, 소프트웨어에 의해 실현할 수도 있다. 음성 합성부(55)를 소프트웨어에 의해 실현하는 경우에는, 그 소프트웨어를 구성하는 프로그램이 범용 컴퓨터 등에 인스톨된다.

따라서, 도 8은 음성 합성부(55)를 실현하기 위한 프로그램이 인스톨되는 컴퓨터의 일 실시예의 구성예를 도시하고 있다.

프로그램은 컴퓨터에 내장되어 있는 기록 매체로서의 하드디스크(105)나 ROM(103)에 미리 기록해 둘 수 있다.

또한, 프로그램은 플로피 디스크, CD-ROM, MO 디스크, DVD, 자기 디스크, 반도체 메모리 등의 착탈 가능한 기록 매체(111)에, 일시적 혹은 영속적으로 저장(기록)해 둘 수 있다. 이러한 착탈 가능한 기록 매체(111)는 소위 패키지 소프트웨어로서 제공할 수 있다.

또, 프로그램은 상술한 바와 같은 착탈 가능한 기록 매체(111)로부터 컴퓨터에 인스톨하는 것 외에, 다운로드 사이트로부터 디지털 위성 방송용 인공위성을 통해, 컴퓨터에 무선으로 전송하거나, LAN, 인터넷이라는 네트워크를 통해 컴퓨터에 유선으로 전송하고, 컴퓨터에서는 이와 같이 하여 전송되어 오는 프로그램을 통신부(108)에 의해 수신하여, 내장된 하드디스크(105)에 인스톨할 수 있다.

컴퓨터는 CPU(102)를 내장하고 있다. CPU(102)에는 버스(101)를 통해 입출력 인터페이스(110)가 접속되어 있고, CPU(102)는 입출력 인터페이스(110)를 통해 사용자에 의해 키보드나, 마우스, 마이크 등으로 구성되는 입력부(107)가 조작됨으로써 지령이 입력되면, 그것에 따라 ROM(103)에 저장되어 있는 프로그램을 실행한다. 혹은, CPU(102)는 하드디스크(105)에 저장되어 있는 프로그램, 위성 혹은 네트워크로부터 전송되고, 통신부(108)에 의해 수신되어 하드디스크(105)에 인스톨된 프로그램, 또는 드라이브(109)에 장착된 착탈 가능한 기록 매체(111)로부터 판독되어 하드디스크(105)에 인스톨된 프로그램을, RAM(Random Access Memory : 104)에 로드하여 실행한다. 이에 의해, CPU(102)는 상술한 순서도에 따른 처리, 혹은 상술한 블록도의 구성에 의해 행해지는 처리를 행한다. 그리고, CPU(102)는 그 처리 결과를 필요에 따라 예를 들면 입출력 인터페이스(110)를 통해 LCD(Liquid Crystal Display)나 스피커 등으로 구성되는 출력부(106)로부터 출력하거나, 혹은 통신부(108)로부터 송신하거나, 또는 하드디스크(105)에 기록 등을 시킨다.

또, 본 실시예에서는 자극에 대한 반응으로서 음성(반응 음성)을 출력하도록 했지만, 기타, 자극에 대해서는, 예를 들면 목을 흔들거나, 끄덕이거나, 혹은 꼬리를 흔들거나 하는, 음성 출력 이외의 반응을 일으키도록(출력하도록) 할 수도 있다.

또한, 도 6의 실시예의 반응 테이블에는 자극과 반응을 대응시켜 두도록 했지만, 기타, 예를 들면 자극의 변화(예를 들면, 자극의 강도의 변화 등)와 반응을 대응시켜 두도록 할 수도 있다.

또한, 본 실시예에서는 규칙 음성 합성에 의해, 합성음을 생성하도록 했지만, 합성음은 규칙 음성 합성 이외의 방법에 의해 생성할 수도 있다.

이상과 같이, 본 발명에 따르면, 정보 처리 장치의 제어에 따라 음성이 출력된다. 한편, 소정의 자극에 응하여 음성의 출력이 정지되고, 소정의 자극에 대한 반응이 출력된다. 또한, 정지된 음성의 출력이 재개된다. 따라서, 자연스러운 음성 출력을 행할 수 있게 된다.

Claims

음성을 출력하는 음성 출력 장치로서,

정보 처리 장치의 제어에 따라 음성을 출력하는 음성 출력 수단과,

소정의 자극에 응하여, 상기 음성의 출력을 정지시키는 정지 제어 수단과,

상기 소정의 자극에 대한 반응을 출력하는 반응 출력 수단과,

상기 정지 제어 수단에 의해 정지된 상기 음성의 출력을 재개시키는 재개 제어 수단

을 포함하는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 소정의 자극은 소리, 빛, 시간, 온도, 또는 압력인 것을 특징으로 하는 음성 출력 장치.
제2항에 있어서,

상기 소정의 자극으로서의 소리, 빛, 시간, 온도, 또는 압력을 검지하는 검지 수단을 더 포함하는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 소정의 자극은 상기 정보 처리 장치의 내부 상태인 것을 특징으로 하는 음성 출력 장치.
제4항에 있어서,

상기 정보 처리 장치는 실제의 또는 가상적인 로봇이며,

상기 소정의 자극은 상기 로봇의 감정 또는 본능의 상태인 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 정보 처리 장치는 실제의 또는 가상적인 로봇이며,

상기 소정의 자극은 상기 로봇의 자세의 상태인 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 그 출력이 정지된 시점부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 그 출력이 정지된 시점부터 거슬러 올라간 소정의 시점으로부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제8항에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 그 출력이 정지된 시점부터 거슬러 올라간 위치에 있는 정보의 단락으로 되어 있는 시점으로부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제9항에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 그 출력이 정지된 시점부터 거슬러 올라간 위치에 있는 단어의 단락으로 되어 있는 시점으로부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제9항에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 그 출력이 정지된 시점부터 거슬러 올라간 위치에 있는 구두점에 대응하는 시점으로부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제9항에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 그 출력이 정지된 시점부터 거슬러 올라간 위치에 있는 호기(呼氣) 단락의 선두에 대응하는 시점으로부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 사용자가 지정하는 소정의 시점으로부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 그 음성의 선두로부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 음성이 텍스트에 대응하는 음성인 경우에 있어서,

상기 재개 제어 수단은 상기 음성의 출력을, 상기 텍스트의 선두에 대응하는 시점으로부터 재개시키는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 반응 출력 수단은 상기 소정의 자극에 대한 반응을 출력한 후에, 소정의 정형의 반응을 더 출력하는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 반응 출력 수단은 상기 소정의 자극에 대응하여, 음성에 의한 반응을 출력하는 것을 특징으로 하는 음성 출력 장치.
제1항에 있어서,

상기 소정의 자극을 검지하는 검지 수단의 출력에 기초하여, 상기 소정의 자극의 의미를 인식하는 자극 인식 수단을 더 포함하는 것을 특징으로 하는 음성 출력 장치.
제18항에 있어서,

상기 자극 인식 수단은 상기 소정의 자극을 검지한 상기 검지 수단에 기초하여, 상기 소정의 자극의 의미를 인식하는 것을 특징으로 하는 음성 출력 장치.
제18항에 있어서,

상기 자극 인식 수단은 상기 소정의 자극의 강도에 기초하여, 상기 소정의 자극의 의미를 인식하는 것을 특징으로 하는 음성 출력 장치.
음성을 출력하는 음성 출력 방법으로서,

정보 처리 장치의 제어에 따라 음성을 출력하는 음성 출력 단계와,

소정의 자극에 응하여 상기 음성의 출력을 정지시키는 정지 제어 단계와,

상기 소정의 자극에 대한 반응을 출력하는 반응 출력 단계와,

상기 정지 제어 단계에서 정지된 상기 음성의 출력을 재개시키는 재개 제어 단계

를 포함하는 것을 특징으로 하는 음성 출력 방법.
삭제
음성을 출력하는 음성 출력 처리를 컴퓨터에 행하게 하는 프로그램이 기록되어 있는 기록 매체로서,

정보 처리 장치의 제어에 따라 음성을 출력하는 음성 출력 단계와,

소정의 자극에 응하여, 상기 음성의 출력을 정지시키는 정지 제어 단계와,

상기 소정의 자극에 대한 반응을 출력하는 반응 출력 단계와,

상기 정지 제어 단계에서 정지된 상기 음성의 출력을 재개시키는 재개 제어 단계

를 포함하는 프로그램이 기록되어 있는 것을 특징으로 하는 기록 매체.