KR20060107329A - 정보 처리 장치, 정보 처리 방법, 및 프로그램 - Google Patents

정보 처리 장치, 정보 처리 방법, 및 프로그램 Download PDF

Info

Publication number
KR20060107329A
KR20060107329A KR1020060030847A KR20060030847A KR20060107329A KR 20060107329 A KR20060107329 A KR 20060107329A KR 1020060030847 A KR1020060030847 A KR 1020060030847A KR 20060030847 A KR20060030847 A KR 20060030847A KR 20060107329 A KR20060107329 A KR 20060107329A
Authority
KR
South Korea
Prior art keywords
node
parameter
som
self
learning
Prior art date
Application number
KR1020060030847A
Other languages
English (en)
Inventor
가즈미 아오야마
가쯔끼 미나미노
히데끼 시모무라
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20060107329A publication Critical patent/KR20060107329A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manipulator (AREA)

Abstract

정보 처리 장치는, 관찰값으로부터 추출된 제1 파라미터에 기초하여, 제1 SOM(self-organization map)을 학습하도록 적응된 제1 학습부, 제1 SOM 상의 승자 노드를 결정하도록 적응된 승자 노드 결정부와, 승자 노드로 최상위 결합 강도를 갖는 제2 SOM 상의 생성 노드를 검색하도록 적응된 검색부와, 생성 노드로부터제2 파라미터를 생성하도록 적응된 파라미터 생성부와, 생성 노드로부터 생선된 제2 파라미터를 변경하도록 적응된 변경부와, 종료 조건이 만족되었을 경우 결합 웨이트을 변경하도록 적응된 제1 결합 웨이트 변경부와, 사용자에 의해 이루어진 평가에 의존하여 접속 웨이트을 변경하도록 적응된 제2 접속 웨이트 변경부, 및 종료 조건이 만족된 경우에 취득된 제2 파라미터에 기초하여 제2 SOM을 학습하도록 적응된 제2 학습부를 포함한다.
로봇, 조음 파라미터, 음성 합성, 발화, SOM

Description

정보 처리 장치, 정보 처리 방법, 및 프로그램{INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM}
도 1은 본 발명을 적용한 정보 처리 장치의 일 실시 형태의 구성예를 도시하는 블록도이다.
도 2는 결합 네트워크의 구성예를 나타내는 도면이다.
도 3은 청각 SOM을 구성하는 각 노드가, 조음 SOM을 구성하는 노드의 전부와 결합되어 있는 모습을 나타내는 도면이다.
도 4는 청각 SOM(조음 SOM)의 제1 구성예를 나타내는 도면이다.
도 5는 노드의 구성예를 나타내는 도면이다.
도 6은 청각 SOM(조음 SOM)의 제2 구성예를 나타내는 도면이다.
도 7은 청각 SOM(조음 SOM)의 제3 구성예를 나타내는 도면이다.
도 8은 학습부의 구성예를 도시하는 블록도이다.
도 9는 변경 웨이트를 결정하는 결정 방법을 설명하기 위한 도면이다.
도 10은 학습 데이터 기억부에 기억시키는 학습 데이터를 변경하는 변경 방법을 설명하기 위한 도면이다.
도 11은 학습부에 의한 학습 처리를 설명하는 플로우차트이다.
도 12는 인식부의 구성예를 도시하는 블록도이다.
도 13은 인식부에 의한 인식 처리를 설명하는 플로우차트이다.
도 14는 생성부의 구성예를 도시하는 블록도이다.
도 15는 생성부에 의한 생성 처리를 설명하는 플로우차트이다.
도 16은 학습부의 구성예를 도시하는 블록도이다.
도 17은 학습부에 의한 학습 처리를 설명하는 플로우차트이다.
도 18은 정보 처리 장치의 동작을 설명하는 플로우차트이다.
도 19는 학습부에 의한, 보상에 기초하는 교시를 이용한 결합 웨이트의 학습의 방법의 일례를 설명하는 도면이다.
도 20은 학습부에 의한, 자기 평가에 의한 결합 웨이트의 학습을 행하기 위한 프로토콜의 일례를 설명하는 도면이다.
도 21은 학습부에 의한, 보상에 기초하는 교시를 이용한 결합 웨이트의 학습을 행하기 위한 프로토콜의 일례를 설명하는 도면이다.
도 22는 학습부에 의한, 보상에 기초하는 교시를 이용한 결합 웨이트의 학습을 행하기 위한 프로토콜의 다른 예를 설명하는 도면이다.
도 23은 본 발명을 적용한 컴퓨터의 일 실시 형태의 구성예를 도시하는 블록도이다.
<도면의 주요 부분에 대한 부호의 설명>
1: 관측부
2: 특징 추출부
3: 학습부
4: 기억부
5: 인식부
6: 생성부
7: 학습부
8: 구동부
9: 보상 취득부
10: 제어부
21: 시계열 패턴 모델
22: 학습 데이터 기억부
41: 스코어 계산부
42: 승자 노드 결정부
43: 변경 웨이트 결정부
44: 학습 데이터 변경부,
45: 모델 학습부
51: 스코어 계산부
52: 승자 노드 결정부
61: 생성 노드 결정부
62: 모델 파라미터 변경부
63: 시계열 생성부
71: 스코어 계산부
72: 승자 노드 결정부
73: 변경 웨이트 결정부
74: 학습 데이터 변경부
75: 모델 학습부
76: 자기 학습용 결합 웨이트 변경부
77: 교시 학습용 결합 웨이트 변경부
101: 버스
102: CPU
103: ROM
104: RAM
105: 하드디스크
106: 출력부
107: 입력부
108: 통신부
109: 드라이브
110: 입출력 인터페이스
111: 탈착형 기록 매체
[비특허문헌1] Y. Yoshikawa, J. Koga, M. Asada, and K. Hosoda(2003), "A Constructive Model of Mother-Infant Interaction towards Infant's Vowel Articulation", Proc. of the 3rd International Workshop on Epigenetic Robotics, pp.139-146, 2003
[비특허문헌2] Oudeyer, P-Y.(2003), "From Analogous to Digital Speech Sounds", Tallerman M., editor, Evolutionary Pre-Requisites for Language. Oxford University Press
본 발명은 2005년 4월 5일 일본특허청에 제출된 일본특허출원 JP 2005-108185의 특허 대상을 포함하며, 본 명세서에 참조로 편입된다.
본 발명은, 정보 처리 장치, 정보 처리 방법 및 프로그램에 관한 것으로, 특히, 예를 들면, 로봇 등이 자기의 행동을 능동적으로 변경하고, 또한, 자기의 행동을 외부로부터 공급되는 자극에 적응시키기 위해 필요한 정보를 보다 더 적절하게 생성할 수 있도록 하는 정보 처리 장치, 정보 처리 방법 및 프로그램에 관한 것이다.
예를 들면, 인간과 음성으로 커뮤니케이션하는 로봇에는, 사용자가 로봇을 관찰했을 때, 로봇이 그 사용자와 동일한 음운 구조를 갖도록 보이는 것이 요구된다. 따라서, 로봇이, 사용자가 발성하는 음운을 알아듣는 것과, 사용자와 마찬가지의 음운에 의한 발화를 행하는 것, 즉, 사용자가 사용하는 언어와 동일한 언어에 의한 음성을 인식(음성 인식)하는 것과, 그 언어에 의한 음성을 발하는(음성을 합 성하는) 것이 요구된다.
종래의 음성 인식 기술이나 음성 합성 기술에서는, 사용자가 사용하는 언어에 따라서, 미리 준비된 음운이나 단어의 사전을 이용하여, 사용자가 사용하는 언어와 동일한 언어에 의한 음성의 음성 인식이나, 그 언어에 의한 음성의 음성 합성(합성음의 생성)이 행하여진다.
그런데, 인간의 사회에는, 나라나 지역마다 다른 음운이나 언어가 존재한다. 따라서, 미리 준비된 사전을 이용하여 음성 인식이나 음성 합성을 행한다면, 나라나 지역마다, 별개의 사전을 작성할 필요가 있다.
그러나, 사전의 작성에는 방대한 비용이 든다. 따라서, 최근에는, 인간과 음성으로 커뮤니케이션하는 로봇에 대해, 사전 없이, 외부와의 인터액션(interaction), 즉, 예를 들면, 사용자와의 대화를 통하여, 그 사용자가 갖는 것과 마찬가지의 음운 구조를 획득하는 것이 요청되고 있다.
예를 들면, 비특허 문헌 1에는, 조음 기관과 청각 기관을 갖춰 케어기버(caregiver)와의 인터액션을 통하여, 사회와 동일한 음운을 자기 조직적으로 획득하는 학습을 행하는 로봇이 개시되어 있다.
비특허문헌1에 기재된 로봇은, 조음 기관에서, 음을 발하기 위한 파라미터(모터 커맨드)를 랜덤하게(randomly) 생성하고, 그 파라미터에 따라서 음을 발한다.
그리고, 케어기버라고 불리는 사용자는, 로봇이 발한 음을 들어, 사회에 존재하는 음으로서 인식할 수 있었던 경우에는, 그 음을 발화하여, 로봇에 학습을 행 하게 하는 것을 반복함으로써, 로봇이 사회에 존재하는 음운을 획득하게 한다.
즉, 로봇은, 청각 기관에 대응하는 자기 조직화 맵(이하, '청각 SOM(Self Organization Map)')과, 조음 기관에 대응하는 자기 조직화 맵(이하, '조음 SOM')을 갖는다.
여기서, 자기 조직화 맵(SOM)에는, 복수의 노드가 배치되고, 각 노드는 파라미터를 갖는다. 자기 조직화 맵에 대하여, 입력 데이터(파라미터)가 공급된 경우, 그 입력 데이터에 대하여 가장 유사한 파라미터를 갖는 노드가, 승자 노드(winner node)로서 결정되고, 그 승자 노드가 갖는 파라미터가 입력 데이터에 근접하도록 변경된다. 또한, 자기 조직화 맵에서, 승자 노드의 근방의 노드가 갖는 파라미터도 입력 데이터에 조금이나마 근접하도록 변경된다.
따라서, 자기 조직화 맵에 대하여, 다수의 입력 데이터를 부여하여 가면, 파라미터가 유사한 노드끼리는 가까이 되고, 유사하지 않은 노드는 멀리 되도록, 자기 조직화 맵 상에 배치되어 진다. 따라서, 자기 조직화 맵에는, 마치 입력 데이터에 포함되는 패턴에 따른 지도가 구성되어 간다. 이와 같이, 파라미터가 유사한 노드끼리 가까운 위치에 배치되도록 하고, 맵이 입력 데이터 내에 포함되는 패턴에 따라 형성되도록 입력 데이터에 따른 노드를 배열하는 것은 자기 조직화(self-organization)라 지칭된다.
비특허문헌 1에 기재된 로봇은, 조음 SOM 중 하나의 노드를선택하고, 그 주목 노드가 갖는 파라미터를 랜덤하게 변경하며, 그 변경 후의 파라미터에 따라서 음을 발한다.
케어기버는, 로봇이 발하는 음을 듣고, 그 음을, 사회에 존재하는 음으로서 인식할 수 있는 경우에는, 그 음을 발화한다. 이와 같이, 로봇이 발한 음을 들은 케어기버가 발화한 경우에는, 로봇은, 케어기버의 발화한 음을, 입력 데이터로서 받아들이고, 청각 SOM의 이 입력 데이터를 승자 노드로 결정한다. 또한, 청각 SOM(주목 노드 또는 이웃 노드와 관련된 파라미터)가 변경되고, 조음 SOM의 주목 노드와 청각 SOM의 승자 노드의 결합이 강화된다.
이상의 처리가 반복됨으로써, 로봇에서는, 조음 SOM의 노드와, 그 노드가 갖는 파라미터에 따라서 발생한 음을 들은 케어기버가 발성한 음에 대하여 승자 노드로 결정되는 청각 SOM의 노드와의 결합, 즉, 로봇이 음을 발하는데 이용한 파라미터를 갖는 조음 SOM의 노드와, 그 음과 동일한 음으로서 케어기버가 발성한 음에 대해 승자 노드가 되는 청각 SOM의 노드와의 결합이, 다른 노드끼리의 결합보다도 강화되어 간다. 이에 의해, 로봇은 사회에 존재하는 음운을 획득하고, 외부로부터 입력된 음성과 마찬가지의 음을 출력할 수 있게 된다.
즉, 로봇은, 외부로부터 음성이 입력되는 경우, 그 음성에 대하여 승자 노드로 결정되는 청각 SOM의 노드와 강한 결합을 가지는 조음 SOM의 노드를 탐색하고, 그 노드가 갖는 파라미터에 따라서 음을 발한다.
비특허문헌1에 기재된 기술에서, 로봇은, 로봇이 발한 음이 사회에 존재하는 음인 경우, 케어기버는 로봇이 발한 음과 동일한 음을 발화하여 음이 정답이라는 것을 지시하도록 교사 학습(supervised learing)을 행한다. 따라서, 로봇은, 자신(조음기관)이 발한 음과 동일한 음을 발화하여 정답을 부여해주는 케어기버가 존 재하지 않으면, 음운을 획득할 수 없다. 즉, 정답이 공급되지 않는다면, 교사 학습을 행하는 것을 할 수 없다.
한편, 예를 들면, 비특허문헌2에는, 가능한 적은 가정(assumption) 하에서, 연속적인 음으로부터 음운을 발생할 수 있도록, 음운을 획득하는 학습을 행하는 학습 방법이 개시되어 있다.
즉, 비특허문헌2에 기재된 학습 방법에서는, 청각 기관에 대응하는 청각 SOM, 및 조음 기관에 대응하는 조음 SOM, 및 청각 SOM의 노드와 조음 SOM의 노드 사이의 맵핑(결합)을 갖는 복수의 에이전트 각각에 대하여, 조음 SOM의 노드가 갖는 파라미터의 초기값으로서, 그 파라미터의 파라미터 공간(조음 공간)에 균일하게 그리고 랜덤하게 분포하는 값이 공급된다.
또한, 학습의 개시 전에, 복수의 에이전트 각각에 있어, 조음 SOM의 노드와 관련된 파라미터는 상이하다는 점을 주지해야 한다.
학습에서, 각 에이전트는, 외부로부터 자신이 발한 음 이외의 음, 즉, 다른 에이전트가 발한 음의 입력이 존재하는 경우에는, 그 음에 대하여, 청각 SOM의 승자 노드를 결정하고, 청각 SOM(의 노드가 갖는 파라미터)를 변경한다. 그리고, 에이전트는, 청각 SOM의 승자 노드와의 결합이 가장 강한 조음 SOM의 노드를 탐색하고, 그 노드가 갖는 파라미터를 레퍼런스로서, 조음 SOM을 변경한다. 즉, 조음 SOM의 각 노드의 파라미터가, 청각 SOM의 승자 노드와의 결합이 가장 강한 조음 SOM의 노드가 갖는 파라미터에 근접하도록 변경된다.
또한, 각 에이전트는, 자신이 갖는 조음 SOM이 있는 노드에 주목하고, 그 주 목 노드가 갖는 파라미터에 따라서 음을 발한다. 에이전트는, 자신이 발한 음의 입력이 존재하는 경우에는, 그 음에 대하여, 청각 SOM의 승자 노드를 결정하고, 조음 SOM의 주목 노드와, 청각 SOM의 승자 노드와의 결합을 강화한다.
이상의 처리가 반복되어, 복수의 에이전트의 각각에 있어, 동일한 음(의 집합)이, 자신이 발할 수 있는 음으로서 남고, 그 결과, 복수의 에이전트는, 전부, 동일한 음운(의 집합)을 획득한다.
비특허문헌2에서는, 이상과 같은 학습을 행함으로써, 복수의 에이전트가 획득하는 음운이 몇 개의 음운에 수속하는 것이 보고되어 있다.
비특허문헌2에 기재된 기술에 따른 학습은, 정답이 공급되지 않는 비교사 학습 모드로 수행되지만, 인간의 사회에서 실제로 사용되는 음운의 획득을 목적으로 하는 것은 아니며, 따라서 에이전트는, 인간의 사회에서 실제로 사용되는 것과 동일한 음운을 획득할 수 있는 것은 아니다. 이는, 각 에이전트에 대하여, 자신이 발한 음 이외의 음으로서, 다른 에이전트가 발한 음 대신에, 인간이 발화한 음성을 입력해도 마찬가지다.
즉, 비특허문헌2에 기재된 학습에 따르면, 조음 SOM의 변경은, 그 조음 SOM 중 몇몇 노드의 파라미터를 레퍼런스(입력)으로서 행해지기 때문에, 조음 SOM의 노드가 갖는 파라미터는, 그 초기값이 분포하고 있었던 공간 내에서만 변화(변경)될 수 있다. 따라서, 에이전트가, 인간의 사회에 존재하는 음운을 획득할 수 있도록 하기 위해는, 조음 SOM의 노드가 갖는 파라미터의 초기값으로서, 인간의 사회에 존재하는 음운 전부를 포함하는 공간의 전체에 걸쳐 균일하게 분포하는 값을 부여하 는 필요가 있지만, 그와 같은 값을 부여하는 것은 곤란하다.
사용자와의 대화를 통하여, 그 사용자가 갖는 음운 구조를 획득하는 것이 요청되는 로봇에 대하여, 사용자가, 의식적으로 정답을 부여하는 것은, 사용자에게 있어서 번거롭다.
따라서, 사용자와의 대화를 통하여, 그 사용자가 갖는 음운 구조를 획득하는 것이 요청되는 로봇에는, 사용자가 정답 인지의 여부를 의식하지 않고서 행한 발화로부터, 그 사용자가 갖는 음운 구조를 획득하는 것이 필요하게 된다.
로봇에서, 그와 같은 음운 구조의 획득을 행하기 위해는, 로봇은 자신에게 부여된 자극에 응답하여 적응적으로 행동할 수 있어야 하는데, 즉, 로봇은 사용자의 말에 따라 적응적으로 말할 필요가 있다. 다시 말해, 로봇은, 자기의 행동으로서의 발화를 능동적으로 변경할, 즉, 로봇에 의한 발화가, 사용자에 의한 발화와 유사한지 여부를 평가(판정)할 필요가 있다.
본 발명은, 이러한 상황을 감안하여 이루어진 것으로, 예를 들면, 로봇 등이, 자기의 행동을 능동적으로 변경하고, 그 행동을 자기 평가함으로써, 자기의 행동을, 외부로부터 공급되는 자극에 적응시킬 수 있는 정보 처리 장치, 정보 처리 방법, 및 프로그램이, 일본 특원2005-015533(이하, '선원')으로서 본 출원인에 의해 이미 출원되어 있다.
선원에 따르면, HMM과 SOM을 조합시킨 자기 조직화 알고리즘을 청각과 조음의 자기 조직화 맵(청각 SOM 및 조음 SOM)으로서 사용되고, 청각 SOM 상의 각 노드 와 조음 SOM 상의 각 노드 사이의 맵핑(청각 SOM과 조음 SOM의 노드끼리의 결합의 정도를 나타내는 결합 웨이트)를 이용하는 프레임워크(framework)를 사용하여, 듣고 흉내내기를 통하여 로봇이 자기조직적으로 사회의 음운을 획득하고, 듣고 흉내기가 잘 되어 가는 메카니즘이 실현된다.
즉, 선원에 따르면, 외부에서 음을 들었을 때에, 그 음을 로봇 자신이 발성할 수 있도록 시도하고, 그 음과 보다 가까운 음을 출력하는 것이 가능한 모터 커맨드가 탐색될 수 있는 경우의 결합 웨이트를 획득한다. 이러한 결합 웨이트의 획득의 변경(학습)을 반복함으로써, 로봇은, 외부의 음과 거의 동일한 음을 발성할 수 있게 된다. 다시 말해, 선원에서는, 이러한 로봇 자신의 자기 평가에 기초하는 결합 웨이트의 학습하는데, 즉, 로봇은 교사 학습을 통해 결합 웨이트를 최적화 한다.
이러한 선원의 학습 방법을 적용함으로써, 로봇 자신의 자기 평가만으로, 거의 적절한 맵핑의 구성을 할 수 있다.
그러나, 로봇의 자기 평가만으로 구성된 맵핑은, 매우 적절한 것이라도, 완전하다고는 말하기 어렵다. 즉, 로봇은, 만약 자기 평가가 틀렸다고 하면, 자기 평가가 틀렸다는 것을 인식하지 못하기 때문에, 그 결과, 맵핑이 부적절하게 구축될 수 있다.
구체적으로는, 예를 들어, 로봇의 자기 평가에 의해 충분히 학습된, 청각과 조음의 자기 조직화 맵(청각 SOM 및 조음 SOM) 및 양자간의 맵핑(양자 사이의 결합 웨이트)가 구축된 경우, 사람이 "에이"라고 한 음운에 대하여, 자기 평가에 의한맵 핑을 이용하여 로봇이 선택한 조음 SOM 상의 노드로부터 생성되는 음운이 "이"로 되어 버리면, 그 동안 다른 맵핑을 자기 평가만으로 정정하는 것은 매우 곤란하다(사실상 불가능하다).
또한 예를 들면, 사람이 "우"라고 말한 음운에 대하여, 조음 SOM 상의 노드로부터 생성되는 음운이 "브이"라고 하는 것과 같이, 사람의 사회에는 존재하지 않은 음이 할당되는 맵핑이 구성되는 가능성도 있어, 이러한 틀린 맵핑도 또 자기 평가만으로 정정하는 것은 매우 곤란하다(사실상 불가능하다).
이상의 내용을 통합하면, 선원의 학습 방법을 단지 단순히 적용한 경우에는, 다음 제1 유형의 에러 및 제2 유형의 에러가 발생할 우도가 있다.
제1 유형의 에러는, 로봇의 조음 파라미터로부터 발성된 음운이 사람의 사회에 존재하는 음운이기는 하지만, 사람과 동일한 음운과 맵핑되어 있지 않다고 하는 에러이다. 제2 유형의 에러는, 로봇의 조음 파라미터로부터 발성된 음운이 사람의 사회에 존재하지 않고, 그 음운과 사람이 갖는 음운이 맵핑되어 있다고 하는 에러이다.
본 발명은, 이러한 상황을 감안하여 이루어진 것으로, 이러한 제1 유형의 에러와 제2 유형의 에러의 발생 빈도를 가능한 한 억제하는 것, 즉, 보다 정확한 맵핑(결합 웨이트)를 적절하게 생성함으로써, 예를 들면, 로봇 등이, 자기의 행동을 능동적으로 변경하고, 자기의 행동을 외부로부터 공급되는 자극에 적응시키는 것이 보다 한층더 정확하게 이루어질 수 있도록 하는 것이다.
환언하면, 본 발명은, 예를 들면, 로봇 등이, 자기의 행동을 능동적으로 변 경하고, 자기의 행동을, 외부로부터 공급되는 자극에 적응시키기 위해서 필요한 정보(예를 들면, 맵핑, 즉 결합 웨이트)를 보다 한층더 적절하게 생성할 수 있도록 하는 것이다.
본 발명의 정보 처리 장치는, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵(first self-organization map) 및 제2 자기 조직화 맵(second self-organization map)과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합 강도(connection strengths)를 나타내는 결합 웨이트(connection weights)를 포함하는 결합 네트워크(connection network)를 기억하는 결합 네트워크 기억 수단(connection network storage means)과, 외부를 관측하여, 관측된 값을 출력하는 관측 수단(observation means)이 출력하는 관측값으로부터 추출되는 제1 파라미터에 기초하여, 상기 제1 자기 조직화 맵의 학습(learning)을 행하는 제1 학습 수단(first leaning means)과, 상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도(likelihood)를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 승자 노드 결정 수단(winner mode determination means)과, 상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드인 생성 노드를 탐색하여, 검출된 노드를 생성 노드로서 이용하는 탐색 수단(serching means)과, 상기 생성 노드로부터 제2 파라미터를 생성하는 파라미터 생성 수단(parameter generation means)과, 상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 변경 수단(modification means)과, 상기 제2 파라미터에 따라 구동 수단(driving means)이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하는 판정 수단(determination means)과, 상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 제1 결합 웨이트 변경 수단(first connection weight modification means)과, 상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상(reward)으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 제2 결합 웨이트 변경 수단(second connection weight modification means)과, 상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 제2 학습 수단(second learning means)을 포함하는 것을 특징으로 한다.
본 발명의 정보 처리 방법은, 외부를 관측하여, 관측된 값을 출력하는 관측 수단이 출력하는 관측 수단에 의해 출력되는 관측값으로부터 추출되는 제1 파라미터에 기초하여, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합의 정도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하는 결합 네트워크 기억 수단에 기억된 상기 제1 자기 조직화 맵을 학습하는 단계와, 상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 결정 단계와, 상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드를 탐색 하고, 검출된 노드를 생성 노드로서 이용하는 단계와, 상기 생성 노드로부터, 제2 파라미터를 생성하는 단계와, 상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 단계와, 상기 제2 파라미터에 따라 구동 수단이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하는 단계와, 상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 단계와, 상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 단계와, 상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 프로그램은, 컴퓨터에 의해 실행되는 프로그램으로서, 외부를 관측하여, 관측된 값을 출력하는 관측 수단이 출력하는 관측 수단에 의해 출력되는 관측값으로부터 추출되는 제1 파라미터에 기초하여, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합의 정도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하는 결합 네트워크 기억 수단에 기억된 상기 제1 자기 조직화 맵을 학습하는 단계와, 상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 결정 단계와, 상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드를 탐색하고, 검출된 노드를 생성 노드로서 이용하는 단계와, 상기 생성 노드로부터, 제2 파라미터를 생성하는 단계와, 상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 단계와, 상기 제2 파라미터에 따라 구동 수단이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하는 단계와, 상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 단계와, 상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 단계와, 상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 단계를 포함하는 것을 특징으로 한다.
본 발명에서는, 외부를 관측하여, 관측된 값을 출력하는 관측 수단이 출력하는 관측 수단에 의해 출력되는 관측값으로부터 추출되는 제1 파라미터에 기초하여, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합의 정도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하는 결합 네트워크 기억 수단에 기억된 상기 제1 자기 조직화 맵을 학습한다. 또한, 제1 자기 조직화 맵의 노드에서, 제1 파라미터가 관측되는 우도가 가장 높은 노드인 승자 노드가 결정되고, 제2 자기 조직화 맵에서, 승자 노드와의 결합의 정도가 가장 높은 노드인 생성 노드가 탐색된다. 생성 노드로부터 생성되는 제2 파라미터가 변경되어, 그 제2 파라미터에 따라서 구동 수단이 구동한 경우에 관측 수단에 있어서 관측되는 관측값 에 대하여 결정되는 승자 노드에 기초하여, 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는인지 아닌지가 판정된다. 그리고, 종료 조건이 만족하는 경우에, 결합 웨이트가 변경된다. 또한, 구동 수단의 구동의 결과에 대한 사용자의 평가가 사용자로부터 보상로서 공급된 경우에도, 결합 웨이트가 변경된다. 또한, 종료 조건이 만족하는 경우의 제2 파라미터에 기초하여, 제2 자기 조직화 맵의 학습이 행하여진다.
본 발명에 따르면, 예를 들어, 로봇 등이, 자기의 행동을 능동적으로 변경하고, 그 행동을 자기 평가함으로써, 자기의 행동을, 외부로부터 공급되는 자극에 적응시키도록할 수 있다. 특히, 예를 들면, 로봇 등이, 자기의 행동을 능동적으로 변경하고, 자기의 행동을, 외부로부터 공급되는 자극에 적응시키기 위해서 필요한 정보로서, 결합 웨이트를 보다 한층 더 적절하게 생성(변경)하는 것이 가능하게 된다.
(실시예)
이하에 본 발명의 실시 형태를 설명하지만, 청구항에 기재된 구성 요건과, 발명의 실시 형태에 있어서의 구체예와의 대응 관계를 예시하면, 다음과 같이 된다. 이 기재는, 청구항에 기재되어 있는 발명을 서포트하는 구체예가, 발명의 실시 형태에 기재되어 있는 것을 확인하기 위한 것이다. 따라서, 발명의 실시 형태 중에는 기재되어 있지만, 구성 요건에 대응하는 것으로서, 여기에는 기재되어 있지 않은 구체예가 있다고 해도, 그것은, 그 구체예가, 그 구성 요건에 대응하는 것이 아닌 것을 의미하는 것이 아니다. 반대로, 구체예가 구성 요건에 대응하는 것으로 서 여기에 기재되어 있었다고 해도, 그것은, 그 구체예가, 그 구성 요건 이외의 구성 요건에는 대응하지 않는 것인 것을 의미하는 것도 아니다.
또한, 이 기재는, 발명의 실시 형태에 기재되어 있는 구체예에 대응하는 발명이, 청구항에 모두 기재되어 있는 것을 의미하는 것이 아니다. 바꾸어 말하면, 이 기재는, 발명의 실시 형태에 기재되어 있는 구체예에 대응하는 발명이고, 본 출원의 청구항에는 기재되어 있지 않은 발명의 존재, 즉, 장래, 분할 출원되거나, 보정에 의해 추가되는 발명의 존재를 부정하는 것이 아니다.
본 발명의 실시예에 따르면, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합 강도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하는 결합 네트워크 기억 수단(예를 들어, 도 1의 기억부(4))과, 외부를 관측하여, 관측된 값을 출력하는 관측 수단(예를 들어, 도 1의 관측부(1))이 출력하는 관측값으로부터 추출되는 제1 파라미터(예를 들어, 음향 파라미터)에 기초하여, 상기 제1 자기 조직화 맵의 학습을 행하는 제1 학습 수단(예를 들어, 도 1의 학습부(3))과, 상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 승자 노드 결정 수단(예를 들어, 도 12의 승자 노드 결정부(52))과, 상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드인 생성 노드를 탐색하여, 검출된 노드를 생성 노드로서 이용하는 탐색 수단(예를 들어, 도 14의 생성 노드 결정부(61))과, 상기 생성 노드로부터 제2 파라미터(예를 들어, 조음 파라미 터)를 생성하는 파라미터 생성 수단(예를 들어, 도 14의 시계열 데이터 생성부(13))과, 상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 변경 수단(예를 들어, 도 14의 모델 파라미터 변경부(62))과, 상기 제2 파라미터에 따라 구동 수단(예를 들어, 도 1의 구동부(8))이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하는 판정 수단(예를 들어, 도 1의 제어부(9))과, 상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 제1 결합 웨이트 변경 수단(예를 들어, 도 16의 자기 학습 결합 웨이트 변경부(76))과, 상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 제2 결합 웨이트 변경 수단(예를 들어, 도 16의 교시 학습 결합 웨이트 변경부(77))과, 상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 제2 학습 수단(예를 들어, 도 1의 학습부(7))을 포함하는 정보 처리 장치가 제공된다.
본 발명의 실시예에 따르면, 외부를 관측하여, 관측된 값을 출력하는 관측 수단(예를 들어, 도 1에 도시된 관측부(1))이 출력하는 관측 수단에 의해 출력되는 관측값으로부터 추출되는 제1 파라미터(예를 들어, 음향 파라미터)에 기초하여, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합의 정도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하는 결합 네트워크 기억 수 단(예를 들어, 도 1의 기억부(4))에 기억된 상기 제1 자기 조직화 맵을 학습하는 단계(예를 들어, 도 18의 단계 S105)와, 상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 결정 단계(예를 들어, 도 18의 단계 S104)와, 상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드를 탐색하고, 검출된 노드를 생성 노드로서 이용하는 단계(예를 들어, 도 18의 단계 S106)와, 상기 생성 노드로부터, 제2 파라미터(조음 파라미터)를 생성하는 단계(예를 들어, 도 18의 단계 S109)와, 상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 단계(예를 들어, 도 18의 단계 S108)와, 상기 제2 파라미터에 따라 구동 수단(예를 들어, 도 1의 구동부(8))이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하는 단계(예를 들어, 도 18의 단계 S114)와, 상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 단계(예를 들어, 도 18의 단계 S115에 의해 수행되는 도 17에 도시된 단계 S47)와, 상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 단계(예를 들어, 도 18의 단계 S115에 의해 수행되는 도 17에 도시된 단계 S48)와, 상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 단계(예를 들어, 도 18의 단계 S115에 의해 수행되는 도 17에 도시된 단계 S45)를 포함하는 정보 처리 방법이 제공된다.
본 발명의 실시예에 따르면, 컴퓨터에 의해 실행되는 프로그램으로서, 외부를 관측하여, 관측된 값을 출력하는 관측 수단(예를 들어, 도 1에 도시된 관측부(1))이 출력하는 관측 수단에 의해 출력되는 관측값으로부터 추출되는 제1 파라미터(예를 들어, 음향 파라미터)에 기초하여, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합의 정도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하는 결합 네트워크 기억 수단(예를 들어, 도 1의 기억부(4))에 기억된 상기 제1 자기 조직화 맵을 학습하는 단계(예를 들어, 도 18의 단계 S105)와, 상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 결정 단계(예를 들어, 도 18의 단계 S104)와, 상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드를 탐색하고, 검출된 노드를 생성 노드로서 이용하는 단계(예를 들어, 도 18의 단계 S106)와, 상기 생성 노드로부터, 제2 파라미터(조음 파라미터)를 생성하는 단계(예를 들어, 도 18의 단계 S109)와, 상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 단계(예를 들어, 도 18의 단계 S108)와, 상기 제2 파라미터에 따라 구동 수단(예를 들어, 도 1의 구동부(8))이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하는 단계(예를 들어, 도 18의 단계 S114)와, 상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 단계(예를 들어, 도 18의 단계 S115에 의해 수행되는 도 17에 도시된 단계 S47)와, 상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 단계(예를 들어, 도 18의 단계 S115에 의해 수행되는 도 17에 도시된 단계 S48)와, 상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 단계(예를 들어, 도 18의 단계 S115에 의해 수행되는 도 17에 도시된 단계 S45)를 포함하는 프로그램이 제공된다.
이하, 도면을 참조하여, 본 발명의 실시 형태에 대하여 설명한다.
도 1은, 본 발명을 적용한 정보 처리 장치의 일 실시 형태의 구성예를 보이고 있다.
이 정보 처리 장치는, 예를 들면, 두 발의 보행형 또는 네발의 보행형의 로봇의 음성과 관련된 처리를 행하는 부분에 적용할 수 있다.
관측부(1)는, 외부를 관측하고, 관측값을 출력한다. 즉, 관측부(1)는, 예를 들면, 음성(음)을 관측하는 센서로서의, 예를 들면, 마이크(마이크로폰), 앰프, A/D(Analog/Digital) 변환기 등으로 구성된다. 관측부(1)는, 사용자가 발화한 음성과 그 밖의 음을 관측하여, 관측값으로서의 음성 데이터를 얻어, 특징 추출부(2)에 공급한다.
또한, 관측부(1)는, 외부로부터의 음성(음)의 음성 구간을 검출하고, 그 음성 구간의 단위로 음성 데이터를 특징 추출부(2)에 공급한다. 단, 관측부(1)로부터 특징 추출부(2)에 공급되는 음성 데이터의 단위(길이)는, 음성 구간일 필요는 없고, 적절한 길이로 구획되어 있으면 무방하다. 즉, 관측부(1)로부터 특징 추출부(2)에 대하여 공급되는 음성 데이터는, 예를 들면, 음소나 음운의 단위이어도 좋고, 단어나 문, 어떤 구두점으로부터 다음 구두점까지 이더라도 좋다. 또한, 관측부(1)로부터 특징 추출부(2)에 대하여 공급되는 음성 데이터(의 구간)는, 일정하여도 좋고, 일정하지 않더라고(가변적이라도) 무방하다.
또한, 여기서는, 관측부(1)는, 전술된 바와 같이, 사용자의 음성 등의 외부로부터의 음성을 관측하고, 관측값으로서의 음성 데이터를 출력하는 것으로 하지만, 기타, 관측부(1)는, 예를 들면, 광을 관측하는 센서로서의 카메라 등으로 구성되고, 외부로부터의 광을 관측하여, 관측값으로서의 화상 데이터를 출력하도록 할 수도 있다. 또한, 관측부(1)는, 외부의 온도나 외부로부터 가해지는 압력, 그 밖의 물리량을 관측하는 센서로 구성할 수 있다.
여기서, 관측부(1)가 관측하는 외부로부터의 음성에는, 사용자가 발성한 음성과, 후술하는 구동부(8)가 출력하는 음성(합성)과 같이 두 가지 유형이 있다. 또한, 구동부(8)가 출력하는 음성(합성)은, 후술하는 사용자로부터의 보상(reward)이 공급되는 음성과, 그 보상이 공급되지 않는 음성과 구별된다. 이 때문에, 도 1의 예에서는, 보상 취득부(9)에 의해 취득된 보상은, 후술하는 학습부(7) 외에 추가로, 관측부(1)에도 공급되도록 이루어져 있다. 즉, 관측부(1)는, 필요에 따라, 보상의 취득이 유무를 나타내는 정보를 음성 데이터에 부가하여, 특징 추출부(2)에 공급할 수도 있다.
특징 추출부(2)는, 관측부(1)의 출력으로부터 특징량(제1 파라미터)을 추출 하고, 학습부(3) 및 인식부(5)에 공급한다. 즉, 특징 추출부(2)는, 관측부(1)로부터의 음성 데이터로부터, 그 특징량으로서의 음향 파라미터를 추출하여, 학습부(3) 및 인식부(5)에 공급한다. 구체적으로는, 특징 추출부(2)는 관측부(1)로부터의 음성 데이터에 대하여 일정 시간 간격으로 주파수 분석 등의 처리를 실시하여, 예를 들면, MFCC(Mel Frequency Cepstrum Coefficient)과 같은 음성 인식에 유사한 음향 파라미터를 추출하여, 학습부(3) 및 인식부(5)에 공급한다.
여기서, 관측부(1)로부터 특징 추출부(2)에 공급되는 음성 데이터는, 시계열의 데이터(시계열 데이터)이며, 특징 추출부(2)에서는, 그와 같은 음성 데이터에 대하여, 일정 시간 간격로 처리를 실시함으로써, 음향 파라미터를 얻어 출력하기 때문에, 특징 추출부(2)가 출력하는 음향 파라미터도, 관측부(1)로부터 특징 추출부(2)에 공급되는 음성 데이터와 마찬가지로, 시계열 데이터이다.
또한, 이하, 적절하게, 시계열 데이터인 음향 파라미터(시계열 음향 파라미터)를, 특히, 음향 파라미터 계열이라고 한다.
학습부(3)는, 특징 추출부(2)로부터의 음향 파라미터 계열에 기초하여, 기억부(4)에 기억된, 후술하는 결합 네트워크를 구성하는 자기 조직화맵인 청각 SOM의 학습(변경)을 행한다.
즉, 학습부(3)에는, 특징 추출부(2)로부터 다수의 음향 파라미터 계열이 공급되지만, 학습부(3)는, 그 다수의 음향 파라미터 계열의 대표적 또는 특징적인 패턴(시계열 패턴)을 자기 조직적으로 획득해 가는 교사 학습을 실행한다. 그 결과, 기억부(4)에 기억된 결합 네트워크를 구성하는 청각 SOM에는, 특징 추출부(2)로부 터 학습부(3)에 공급되는 다수의 음향 파라미터 계열의 대표적(특징적)인 패턴이, 효율적으로 기억된다. 즉, 특징 추출부(2)가 학습부(3) 및 인식부(5)에 공급하는 음향 파라미터 계열은, 몇몇 대표적인 패턴(시계열 패턴)으로 분류할 수가 있고, 학습부(3)에서는, 청각 SOM에, 음향 파라미터 계열의 대표적인 시계열 패턴을 기억시키기 위한 학습이 행하여진다.
기억부(4)는, 결합 네트워크를 기억하고 있다. 결합 네트워크는, 복수의 노드로 구성되는 자기 조직화맵인 청각 SOM 및 조음 SOM과, 청각 SOM의 노드 및 조음 SOM의 노드와의 결합의 정도를 나타내는 결합 웨이트로 이루어진다. 이러한 결합 네트워크의 상세에 대해서는, 후술하기로 한다.
인식부(5)는, 기억부(4)에 기억된 결합 네트워크를 구성하는 청각 SOM 에 기초하여, 특징 추출부(2)로부터 공급되는 음향 파라미터 계열을 이용하여, 관측부(1)로 관측된 음성을 인식(음성 인식)하는 인식 처리를 행하며, 그 음성의 인식 결과를, 생성부(6)에 공급한다.
생성부(6)는, 인식부(5)로부터 공급되는 인식 결과에 기초하여, 기억부(4)에 기억된 결합 네트워크를 구성하는 조음 SOM의 소정의 노드를 탐색한다. 또한, 생성부(6)는, 그 소정 노드를 이용하여, 후단의 구동부(8)를 구동하는 파라미터(제2 파라미터)로서의 조음 파라미터를 생성하며, 학습부(7) 및 구동부(8)에 공급한다.
또한, 생성부(6)가 출력하는 조음 파라미터도, 전술한 특징 추출부(2)가 출력하는 음향 파라미터와 마찬가지로, 시계열 데이터이다. 이하, 적절하게, 시계열 데이터인 조음 파라미터(시계열 조음 파라미터)를, 특히, 조음 파라미터 계열이라 고 한다.
여기서, 생성부(6)가 생성하는 파라미터는, 구동부(8)를 구동하는 파라미터 이며, 구동부(8)가 접수하여 구동하는 파라미터이면, 그 종류는 묻지 않는다. 구동부(8)가, 예를 들면, 회전 각도나 회전 속도 등을 지정하는 커맨드를 접수하여 회전하는 모터 등으로 구성되는 경우에는, 그 커맨드를, 생성부(6)가 생성하는 파라미터로 할 수 있다. 또한, 구동부(8)가, 예를 들면, 음성 파형을 생성하는 데 이용하는 음소나, 액센트, 피치 주파수 등을 나타내는 정보를 요소로 하는 벡터를 접수하여 음성 합성을 행하는 음성 합성 장치 등으로 구성되는 경우에는, 그 벡터를, 생성부(6)가 생성하는 파라미터로 할 수 있다.
학습부(7)는, 생성부(6)로부터의 조음 파라미터 계열에 기초하여, 기억부(4)에 기억된 결합 네트워크를 구성하는 자기 조직화 맵인 조음 SOM의 학습(변경)을, 전술한 학습부(3)가 청각 SOM의 학습을 행하는 경우와 마찬가지로 하여 행한다.
또한, 학습부(7)는, 기억부(4)에 기억된 통합 네트워크를 구성하는 결합 웨이트의 학습(변경)도 행한다. 상세에 대해서는 후술하지만, 이 결합 웨이트의 학습(변경)에는, 정보 처리 장치 자신이 출력한 음성(합성음)에 기초하는 자기 평가에 의한 학습, 즉, 소위 교사 학습과, 정보 처리 장치 자신이 출력한 음성(합성음)에 대한 사용자로부터의 보상(후술하는 보상 취득부(9)에 의해 취득되는 보상)에 기초하는 학습, 즉, 이 보상을 교사 신호로 하는 소위 교사 학습이 존재한다.
구동부(8)는, 생성부(6)로부터의 조음 파라미터에 따라서 구동한다. 즉, 구동부(8)는, 예를 들면, 조음 파라미터에 따라서 음성 합성을 행하는 음성 합성 장 치나, 앰프, D/A(Digital/Analog) 변환기, 스피커 등으로 구성되며, 조음 파라미터에 따라서 음성 합성을 행한다. 그리고, 구동부(8)는 그 음성 합성에 의해서 얻어지는 음성(합성음)을 출력한다.
여기서, 구동부(8)를 구성하는 음성 합성 장치로서는, 예를 들면, 텍스트를 입력으로서 음성 합성을 행하는 TTS(Text To Speech)의 일부, 즉, 예를 들면, 텍스트의 해석 결과에 기초하여 얻어지는 벡터를 입력으로서 음성 합성을 행하는 모듈을 이용할 수 있다. 이 경우, 조음 파라미터 계열은, 텍스트의 해석 결과에 기초하여 얻어지는 시계열의 벡터이다.
또한, 여기서는, 구동부(8)의 구동의 형태로서, 음성 합성 장치에 의한 음성 합성을 채용하고, 구동부(8)가 구동함으로써 합성음이 생성되는 것으로 하고 있지만, 기타, 구동부(8)는, 액튜에이터(모터)로 구성되고, 그 액튜에이터가 구동함으로써, 로봇의 손이나 발에 상당하는 부분이 움직여지도록 하는 것도 가능하다. 이 경우, 생성부(6)에서는, 액튜에이터를 구동하는 파라미터가 생성되어, 학습부(7) 및 구동부(8)에 공급된다.
보상 취득부(9)는, 정보 처리 장치 자신이 출력한 음성(합성음)에 대한 사용자의 평가를 보상으로서 사용자로부터 취득하고, 관측부(1) 및 학습부(7)에 공급한다. 상세에 대해서는 후술하지만, 이 보상에는, 정보 처리 장치 자신이 출력한 합성음과 외부의 실제의 음성이 거의 일치하고 있다고 평가한 경우에 사용자가 부여하는 보상(이하, 플러스 보상)과, 그 합성음과 외부의 실제의 음성과가 일치하지 않다고 평가한 경우에 사용자가 부여하는 보상(이하, 마이너스 보상)이 존재한다.
제어부(10)는, 관측부(1) 내지 보상 취득부(9) 각각으로부터 필요한 데이터(정보)를 공급받고, 그 데이터 등에 기초하여, 관측부(1) 내지 보상 취득부(9) 각각을 제어한다. 또한, 제어부(10)와, 관측부(1) 내지 보상 취득부(9) 각각 사이는, 데이터 등을 교환하기 위한 접속선에 의해서 접속되어 있지만, 도 1에서는, 도면이 번잡하게 되는 것을 피하기 위해, 그 접속선의 도시를 생략하였다.
다음으로, 도 2는, 도 1의 기억부(4)에 기억된 결합 네트워크의 구성예를 모식적으로 보이고 있다.
결합 네트워크는, 전술한 바와 같이, 청각 SOM 및 조음 SOM, 및, 결합 웨이트로 이루어진다.
청각 SOM 및 조음 SOM은, 복수의 노드로 구성되는 자기 조직화 맵이다. 단, 종래의 자기 조직화 맵은, 그 자기 조직화 맵을 구성하는 노드가 파라미터를 갖고, 각 파라미터가 특정 수의 요소를 갖는 벡터(요소의 수가 1개의 벡터라고 볼 수 있는 스칼라량을 포함함)이다. 반면, 결합 네트워크를 구성하는 청각 SOM 및 조음 SOM 인 자기 조직화 맵은, 각 자기 조직화 맵을 구성하는 노드가, 시계열 패턴을 표현할 때 계열 패턴 모델을 갖는다는 점에서, 종래의 자기 조직화 맵이과는 상이하다. 결합 네트워크를 구성하는 청각 SOM 및 조음 SOM인 자기 조직화 맵의 상세에 대해서는 후술하기로 한다.
결합 네트워크를 구성하는 청각 SOM 및 조음 SOM 에서는, 도 3에 도시한 바와 같이 청각 SOM을 구성하는 각 노드가, 조음 SOM을 구성하는 노드의 전부와 결합되어 있다. 그리고, 결합 네트워크에서는, 청각 SOM을 구성하는 노드와, 조음 SOM 을 구성하는 노드와의 결합에 대하여, 그 결합의 정도를 나타내는 결합 웨이트가 정의되어 있다. 다음으로, 결합 네트워크를 구성하는 청각 SOM 및 조음 SOM인 자기 조직화 맵은 시계열 패턴을 표현할 때 계열 패턴 모델을 갖는 복수의 노드, 말하자면 네트워크이며, 따라서, 시계열 패턴을 기억할 때 계열 패턴 기억 네트워크라고 할 수 있다. 시계열 패턴 기억 네트워크는 그 시계열 패턴 기억 네트워크를 구성하는 노드의 수만큼의 (클러스팅(clustering)) 시계열 패턴을 기억한다.
도 4는, 시계열 패턴 기억 네트워크의 예를 모식적으로 보이고 있다.
도 4에서는, 시계열 패턴 기억 네트워크는, 노드 N1 내지 N6의 6개의 노드로 구성되어 있다.
시계열 패턴 기억 네트워크를 구성하는 각 노드 Ni(도 4에서는, i=1,2, ... ,6)는 시계열 패턴을 표현할 때 계열 패턴 모델을 갖는다. 또한, 노드 Ni는 다른 노드 Nj(도 4에서는, j=1,2, ..., 6)와 결합 관계를 가질 수 있다. 이 결합 관계를 링크라고 부른다. 도 4에서는, 예를 들면, 노드 N1은 노드 N2 및 N3과 직접적인 결합 관계를 갖고 있다. 또한, 예를 들면, 노드 N3은 노드 N1, N2, N5 및 N6과 직접의 결합 관계를 갖고 있고, 따라서, 노드 N5과 N6은, 노드 N3을 통하여, 노드 N1과 간접적인 결합 관계를 갖고 있다. 또한, 2개의 노드 Ni와 Nj와의 결합 관계로서는, 그 2개의 노드 Ni 및 Nj의 최단의 결합 경로에 의해 정의된다.
시계열 패턴 기억 네트워크의 학습은, 그 학습 데이터가 속하는 카테고리(클래스)를 지시하는 정답이 제공되지 않는 비교사 학습 노드 내의 학습 데이터로서 시계열 데이터를 사용하여 수행된다.
다음으로, 도 5는, 시계열 패턴 기억 네트워크의 노드 Ni의 구성예를 모식적으로 보이고 있다.
노드 Ni는, 시계열 패턴을 표현할 때 계열 패턴 모델(21)과, 그 시계열 패턴 모델(21)의 학습에 이용하는 시계열 데이터인 학습 데이터를 기억하는 학습 데이터 기억부(22)로 구성된다.
여기서, 도 5에서는, 시계열 패턴 모델(21)로서, 상태 확률 천이 모델 중 하나인 HMM(연속 HMM)이 채용되어 있다. 또한, 도 5에서, HMM은 자기 루프와 다음 상태(우측 이웃의 상태)에의 상태 천이만을 갖는 레프트-투-라이트 형(left-to-right type)의 3개의 상태 S1, S2, S3를 갖는 것으로 되어있다. 도 5의 시계열 패턴 모델(21)에 있어서의 원(circle)은 상태를 나타내고, 화살표는 상태 천이를 표하고 있다. 또한, 시계열 패턴 모델(21)로서의 HMM은, 레프트-투-라이트 형이나, 3개의 상태의 것 등에 한정되지 않는다.
시계열 패턴 모델(21)이, 도 5에 도시한 바와 같은 HMM 인 경우, 그 시계열 패턴 모델(21)로서의 HMM은, 상태 천이 확률과 출력 확률 밀도 함수(HMM이 이산 HMM 인 경우에는, 스칼라량인 이산적인 심볼이 출력되는 확률)로 정의된다.
상태 천이 확률은, HMM 에서, 상태가 천이하는 확률로, 도 5의 시계열 패턴 모델(21)에 있어서의 화살표로 나타낸 상태 천이 각각에 대하여 공급된다. 출력 확률 밀도 함수는, 상태 천이 시에, HMM에서 관측되는 값의 확률 밀도를 나타낸다. 출력 확률 밀도 함수에서는, 예를 들면, 혼합 정규 분포 등이 채용된다. 이것들의 HMM의 파라미터(상태 천이 확률과 출력 확률 밀도 함수)는, 예를 들면, Baum-Welch 법에 의해서 학습(평가)될 수 있다.
노드 Ni에서는, 학습 데이터 기억부(22)에 기억된 학습 데이터의 통계적인 특성, 즉, 학습 데이터 기억부(22)에 기억된 학습 데이터의 시계열 패턴이, 시계열 패턴 모델(21)에 의해 학습되고, 이에 의해, 시계열 패턴 모델(21)과, 학습 데이터 기억부(22)에 기억된 학습데이터가, 대응 관계를 갖는 것으로 된다.
또한, 청각 SOM으로서의 시계열 패턴 기억 네트워크의 노드 Ni에서는, 학습 데이터 기억부(22)가, 학습 데이터로서, 음향 파라미터 계열을 기억한다. 또한, 조음 SOM으로서의 시계열 패턴 기억 네트워크의 노드 Ni에서는, 학습 데이터 기억부(22)가, 학습 데이터로서, 조음 파라미터 계열을 기억한다.
다음으로, 도 6은, 시계열 패턴 기억 네트워크의 다른 예를 모식적으로 보이고 있다.
도 6에서는, 시계열 패턴 기억 네트워크는, 9개의 노드 N1 내지 N9로 구성되어 있고, 이 9개의 노드 N1 내지 N9는, 2차원적으로 배치되어 있다. 즉, 도 6에서는, 9개의 노드 N1 내지 N9가, 2차원 평면 상에, '가로×세로'가 '3×3'이 되도록 배치되어 있다.
또한, 도 6에서는, 2차원적으로 배치된 9개의 노드 N1 내지 N9의, 가로 방향으로 인접하는 노드끼리와, 세로 방향으로 인접하는 노드끼리에 대하여, 링크(결합 관계)가 공급되고 있다. 또한, 이러한 링크를 부여하는 것에 따라, 시계열 패턴 기억 네트워크를 구성하는 노드에는, 공간적으로, 2차원적으로 배치되는 배치 구조가 공급되고 있다는 것도 가능하다.
시계열 패턴 기억 네트워크에서는, 노드간 링크에 의해 정의되는 공간적인 노드의 배치 구조에 기초하여 정의될 수 있고, 두 노드간의 거리는, 두 개의 노드에서 시계열 패턴 모델(21)에 의해 표현되는 두 개의 시계열 패턴 간의 거리를 나타내는 패턴간 거리로서 사용될 수 있다(이 방식으로 정의되는 패턴간 거리는 2개의 시계열 패턴간의 유사성을 나타냄).
또한, 2개의 노드끼리의 거리에 의해서 나타내는 시계열 패턴의 패턴간 거리는, 2개의 노드의 결합 관계(링크)에 기초하는 패턴간 거리가 될 수 있다.
2개의 노드끼리의 거리에 있어서, 예를 들면, 그 2개의 노드끼리 연결하는 최단의 패스를 구성하는 링크의 수를 채용할 수 있다. 이 경우, 어떤 노드에 주목하면, 그 주목 노드와의 직접의 링크를 갖는 노드(도 6에서는, 주목 노드의 가로 방향이나 세로 방향에 인접하는 노드)는, 주목 노드와의 거리가 가장 가까이서, 주목 노드와 직접적인 링크를 갖는 노드로부터 앞의 링크를 찾아가가는 것으로 도달할 수 있는 노드는, 도달하는 데 찾아가는 링크의 수가 많을수록, 주목 노드와의 거리가 멀어져 간다.
또한, 노드에 부여하는 링크는, 도 4이나 도 6에 도시한 것에 한정되는 것은 아니다. 또한, 도 4나 도 6에 도시한 링크는, 노드에 대하여, 2차원적인 배치 구조를 부여하지만, 링크는, 기타, 1차원적인 배치 구조나 3차원적인 배치 구조 등을 부여하는 링크이더라도 좋다. 또한, 노드에 반드시 링크를 부여할 필요는 없다.
도 7은, 시계열 패턴 기억 네트워크의 또 다른 예를 모식적으로 보이고 있다.
도 7에서, 시계열 패턴 기억 네트워크는, 도 4의 경우와 마찬가지로, 6개의 노드 N1 내지 N6으로 구성되어 있지만, 이들 6개의 노드 N1 내지 N6은, 어느 것도 링크를 가지고 있지 않다. 따라서, 도 7의 시계열 패턴 기억 네트워크를 구성하는 노드 N1 내지 N6은, 링크에 의해서 공급되는 공간적인 배치 구조는 갖고 있지 않다. 또한, 공간적인 배치 구조는 갖고 있지 않다는 것은, 공간적인 제약이 없는 배치 구조를 가질 수 있다는 의미이다.
여기서, 어떤 2개의 노드에 링크가 없는 경우에는, 공간상에서의 그 2개의 노드끼리의 거리를 정의하는 것은 불가능하므로, 그 2개의 노드 각각(의 시계열 패턴 모델(21))이 표현할 때 계열 패턴의 패턴간 거리로서, 결합 관계(링크)에 기초하는 패턴간 거리는 이용할 수 없다. 따라서,이 경우에는, 예를 들면, 노드가, 있을 때 계열 데이터(의 관측값)에 유사한 정도에 기초하는 순위(이하, '유사 순위')에 대응하는 값을, 패턴간 거리로서 이용할 수 있다.
즉, 계열 데이터가 공급된 경우, 그 시계열 데이터에 대한 노드에 의해 표현되는 시계열 패턴의 유사성은, 그 노드의 유사성으로서 정의될 수 있다. 지금, 시계열 패턴 기억 네트워크를 구성하는 노드 중,있을 때 계열 데이터에 가장 유사한 노드를, 승자 노드로 하면 , 승자 노드와 시계열 패턴 기억 네트워크가 있는 노드의 각각이 표현할 때 계열 패턴의 패턴간 거리로는, 그 노드가 시계열 데이터에 유사한 순위(유사 순위)에 대응하는 값을 채용할 수 있다.
구체적으로는, 시계열 패턴 기억 네트워크를 구성하는 노드 중, 승자 노드로 되어있는 노드의 유사 순위는 제1위이며, 이 노드(승자 노드)와 승자 노드의 패턴 간 거리(보다 정확하게는, 각 노드에 의해 표현되는 시계열 노드 사이의 패턴간 거리) 는, 예를 들면, 그 유사 순위로부터 1을 감산한 0으로 할 수 있다.
또한, 시계열 패턴 기억 네트워크를 구성하는 노드 중, 유사 순위가 제2위의 노드와 승자 노드와의 패턴간 거리는, 예를 들면, 그 유사 순위로부터 1을 감산한 1로 할 수 있다. 이하, 마찬가지로, 노드의 유사 순위로부터 1를 감산하여 얻어지는 값을, 그 노드와, 승자 노드와의 패턴간 거리로 할 수 있다.
또한, 특정 시계열 데이터에 대한 유사성에 관한 노드의 유사 순서에 대응하는 값에 의해 주어진 패턴간 거리는 시계열 데이터에 대한 노드의 유사성에 기초하여 패턴간 거리인 것으로 언급될 수 있다.
다음으로, 도 8은 도 1의 학습부(3)의 구성예를 보이고 있다.
학습부(3)에는, 특징 추출부(2)(도 1)로부터, (관측부(1)에 의해 검출된 음성 구간 내의) 새로운 시계열 데이터로서 음향 파라미터 시퀀스가 공급된다. 학습부(3)는, 기억부(4)에 기억된 결합 네트워크를 구성하는 청각 SOM으로서의 시계열 패턴 기억 네트워크를, 특징 추출부(2)로부터의 새로운 시계열 데이터에 기초하여, 자기 조직적으로 변경한다.
즉, 스코어 계산부(41)는, 기억부(4)에 기억되었을 때 계열 패턴 기억 네트워크인 청각 SOM을 구성하는 각 노드에 대하여, 그 노드가, 특징 추출부(2)로부터 공급되는 새로운 시계열 데이터로서의 음향 파라미터 계열에 유사한 정도를 스코어로서 구하고, 승자 노드 결정부(42)에 공급한다. 즉, 노드가 갖는 시계열 패턴 모델(21)이, 예를 들면, 도 5에 도시한 바와 같이, HMM 인 경우에는, 스코어 계산 부(41)는, 노드가 갖는 시계열 패턴 모델(21)로서의 HMM으로부터, 특징 추출부(2)로부터 공급된 새로운 음향 파라미터 계열이 관측되는 노드를 구하고, 이를 그 노드의 스코어로서, 승자 노드 결정부(42)에 공급한다.
승자 노드 결정부(42)는, 기억부(4)에 기억되었을 때 계열 패턴 기억 네트워크인 청각 SOM 에서, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열에 가장 유사한 노드를 구하고, 그 노드를, 승자 노드로서 결정한다.
즉, 승자 노드 결정부(42)는, 기억부(4)에 기억되었을 때 계열 패턴 기억 네트워크인 청각 SOM을 구성하는 노드 중의, 스코어 계산부(41)로부터의 스코어가 가장 높은 노드를 승자 노드로서 결정한다. 그리고, 승자 노드 결정부(42)는, 승자 노드를 나타내는 정보를, 변경 웨이트 결정부(43)에 공급한다.
여기서, 시계열 패턴 기억 네트워크를 구성하는 노드에는, 각 노드를 식별하기 위한 라벨인 노드 라벨을 부여해 놓고, 승자 노드를 나타내는 정보, 그 밖의 노드나타내는 정보로서, 그 노드 라벨을 채용할 수 있다. 또한, 노드 라벨은, 노드 자체를 식별하는 라벨이며, 정답을 나타내는 것은 아니다.
변경 웨이트 결정부(43)는, 승자 노드 결정부(42)로부터 공급되는 노드 라벨이 나타내는 승자 노드에 기초하여, 기억부(4)에 기억된 청각 SOM을 구성하는 각 노드에 대하여, 후술하는 변경 웨이트를 결정하고, 학습 데이터 변경부(44)에 공급한다.
즉, 변경 웨이트 결정부(43)는, 기억부(4)에 기억된 청각 SOM을 구성하는 각 노드(승자 노드를 포함함)의 변경 웨이트를, 그 노드와, 승자 노드와의 패턴간 거 리에 기초하여 결정하고, 학습 데이터 변경부(44)에 공급한다.
여기서, 노드가 갖는 시계열 패턴 모델(21)(도 5)은, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열을 이용하여 변경된다. 시계열 패턴 모델(21)의 변경시, 결정 웨이트는 변경에 대한 새로운 음향 파라미터 시퀀스의 영향의 정도를 특정한다. 예를 들어, 특정 노드에 대한 결정 웨이트가 0인 경우, 그 노드의 시계열 패턴 모델(21)은 새로운 음향 파라미터 시퀀스에 의해 영향을 받지 않는다(변경되지 않는다).
또한, 변경 웨이트 결정부(43)에서, 기억부(4)에 기억된 청각 SOM을 구성하는 각 노드 변경 웨이트를 결정할 때의 패턴간 거리에 대해, 청각 SOM의 노드가, 도 4나 도 6에 도시한 바와 같이, 링크를 갖는 경우에는, 그 노드와 승자 노드와의 결합 관계에 기초하는 패턴간 거리를 채용하며, 청각 SOM의 노드가, 도 7에 도시한 바와 같이, 링크를 갖지 않는 경우에는, 청각 SOM의 각 노드가 특징 추출부(2)로부터의 새로운 음향 파라미터 계열과 유사한 정도에 기초하는 패턴간 거리를 채용할 수 있다.
즉, 변경 웨이트 결정부(43)는, 기억부(4)에 기억된 청각 SOM을 참조하여, 청각 SOM의 노드 각각과, 승자 노드 결정부(42)로부터의 노드 라벨이 나타내는 승자 노드와의 결합 관계에 기초하는 패턴간 거리를 구하고, 그 패턴간 거리에 기초하여, 청각 SOM의 노드 각각의 변경 웨이트를 결정한다.
혹은, 변경 웨이트 결정부(43)는, 기억부(4)에 기억된 청각 SOM을 참조하여, 청각 SOM의 노드 각각에 대하여, 노드가, 특징 추출부(2)로부터의 새로운 음향 파 라미터 계열에 유사한 정도로서, 예를 들면, 스코어 계산부(41)가 구하는 것과 마찬가지의 스코어를 구한다. 또한, 변경 웨이트 결정부(43)는, 청각 SOM의 노드 각각에 대하여, 노드의 스코어에 기초하는 순위(유사 순위)에 대응하는 값을, 새로운 음향 파라미터 계열에 유사한 정도에 기초하는 패턴간 거리로서 구하고, 그 패턴간 거리에 기초하여, 청각 SOM의 노드 각각의 변경 웨이트를 결정한다.
또한, 노드의 스코어는, 변경 웨이트 결정부(43)로 구하여도 좋지만, 스코어 계산부(41)로부터 변경 웨이트 결정부(43)에 공급하도록 해도 된다.
학습 데이터 변경부(44)는, 기억부(4)에 기억된 청각 SOM의 각 노드가 갖는 학습 데이터 기억부(22)(도 5)에 기억된 학습 데이터를 변경한다.
즉, 학습 데이터 변경부(44)는, 노드가 갖는 학습 데이터 기억부(22)에 이미 기억되어 있는 학습 데이터와, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열을, 변경 웨이트 결정부(43)로부터의, 대응하는 노드 변경 웨이트에 따라서 혼합하고, 그 혼합 결과를, 새로운 학습 데이터로서, 학습 데이터 기억부(22)에 기억시킴으로써, 그 학습 데이터 기억부(22)의 기억 내용을 변경한다.
학습 데이터 변경부(44)는, 이상과 같이, 학습 데이터 기억부(22)(도 5)에 기억된 학습 데이터를 변경 웨이트에 따라서 변경하는 경우, 그 변경이 종료한 취지의 종료 통지를 모델 학습부(45)에 공급한다.
모델 학습부(45)는, 학습 데이터 변경부(44)로부터 종료 통지를 받으면, 그 학습 데이터 변경부(44)에 의한 변경후의 학습 데이터 기억부(22)(도 5)에 기억된 학습 데이터를 이용하여, 기억부(4)에 기억된 청각 SOM의 각 노드가 갖는 시계열 패턴 모델(21)의 학습을 행함으로써, 그 시계열 패턴 모델(21)을 변경한다.
따라서, 모델 학습부(45)에 의한, 노드가 갖는 시계열 패턴 모델(21)의 변경은, 그 노드가 갖는 학습 데이터 기억부(22)(도 5)에 기억되어 있던 학습 데이터(의 일부)와, 특징 추출부(2)로부터 공급된 새로운 음향 파라미터 계열과 기초하여 행해진다. 또한, 학습 데이터 기억부(22)의 기억 내용은, 변경 웨이트에 따라서 변경되지만, 모델 학습부(45)에 의한 시계열 패턴 모델(21)의 변경은, 변경 웨이트에 기초하여 행해지는 것도 가능하다.
다음으로, 도 9는, 도 8의 변경 웨이트 결정부(43)에 있어서 변경 웨이트를 결정하는 결정 방법을 보이고 있다.
변경 웨이트 결정부(43)는, 예를 들면, 도 9에 도시한 바와 같은, 승자 노드와의 패턴간 거리 d의 증가에 대하여 변경 웨이트α가 감소하는 관계를 나타내는 곡선(이하, '거리/웨이트 곡선')에 따라서, 노드에 대한 변경 웨이트(노드 변경 웨이트)를 결정한다. 거리/웨이트 곡선에 따르면, 승자 노드와의 패턴간 거리 d가 가까운 노드만큼 큰 변경 웨이트α가 결정되고, 패턴간 거리 d가 먼 노드만큼 작은 변경 웨이트α가 결정된다.
도 9의 거리/웨이트 곡선에서, 횡축(좌측으로부터 우측 방향)은 변경 웨이트α를 나타내고 있고, 종축(상에서 하방향)은 패턴간 거리 d를 보이고 있다.
도 9에서는,패턴간 거리 d로서, 예를 들면, 노드와의 결합 관계에 기초하는 패턴간 거리, 즉, 승자 노드로부터의 거리가 채용되어 있고, 종축을 따라, 청각 SOM을 구성하는 6개의 노드 N1 내지 N6이, 각 노드 Ni와 승자 노드와의 거리에 대 응하는 위치(종축의 위치)에 기재되어 있다.
도 9에서는, 청각 SOM을 구성하는 6개의 노드 N1 내지 N6이, 그 순으로, 승자 노드와의 거리가 가까이 되고 있다. 청각 SOM을 구성하는 6개의 노드 N1 내지 N6 중, 승자 노드와의 거리가 가장 가까운 노드, 즉, 승자 노드와의 거리가 0의 노드인 노드 N1이 승자 노드이다.
여기서, 청각 SOM이, 예를 들면, 도 6에 도시한 바와 같은 2차원적인 배치 구조를 갖고, 승자 노드가, 예를 들면, 노드 N6인 경우에는, 승자 노드 N6과 노드 N6과의 거리는 가장 가까운 0이며, 노드 N6과 승자 노드 N6과의 패턴간 거리 d도 0이 된다. 또한, 승자 노드 N6과, 노드 N3, N5, 또는 N9 각각과의 거리는 2번째로 가까운 1이며, 노드 N3, N5, 또는 N9 각각과 승자 노드 N6과의 패턴간 거리 d도 1이 된다. 또한, 승자 노드 N6과, 노드 N2, N4, 또는 N8 각각과의 거리는 3번째로 가까운 2이며, 노드 N2, N4, 또는 N8 각각과 승자 노드 N6과의 패턴간 거리 d도 2가 된다. 또한, 승자 노드 N6과, 노드 N1 또는 N7 각각과의 거리는 가장 먼 (4번째로 가깝다) 3이며, 노드 N1 또는 N7 각각과 승자 노드 N6과의 패턴간 거리 d도 3이 된다.
한편, 노드가 링크를 갖지 않는, 예를 들면, 도 7에 도시한 청각 SOM에 대해서는, 노드가 새로운 시계열 데이터로서의 음향 파라미터 계열에 유사한 정도에 기초하는 패턴간 거리, 즉, 노드가 새로운 음향 파라미터 계열에 유사한 정도에 기초하는 순위(유사 순위)에 대응하는 값이, 그 노드와 승자 노드와의 패턴간 거리 d로서 요청된다. 즉, 이 경우, 스코어가 가장 높은 노드(즉, 승자 노드)와 승자 노드 와의 패턴간 거리 d는 0이 되고, 스코어가 2번째로 높은 노드와 승자 노드와의 패턴간 거리 d는 1이 된다. 이하, 마찬가지로, 스코어가 k 번째로 높은 노드와 승자 노드와의 패턴간 거리 d는 k-1이 된다.
또한, 청각 SOM의 각 노드와 승자 노드와의 패턴간 거리의 정의는, SOM에서의 거리 또는 Neural-Gas 알고리즘에서의 거리를 정의하기 위해 T.Kohonen에 의해 이용되는 정의와 유사하다.
다음으로, 변경 웨이트α와 패턴간 거리 d와의 관계를 나타내는, 예를 들어 도 9에 도시한 바와 같은 거리/웨이트 곡선은, 예를 들면, 수학식 1에 의해서 공급된다.
Figure 112006023761560-PAT00001
여기서, 상수 G는, 승자 노드 변경 웨이트를 나타내는 상수이고, γ는 감쇠 계수로, 0<γ<1의 범위의 상수이다. 또한, 변수Δ는 청각 SOM을 변경하는 변경 방법으로서, SMA(soft-max adaptation)를 채용한 경우의, 승자 노드의 근방의 노드(승자 노드와의 패턴간 거리 d가 가까운 노드)의 변경 웨이트α를 조정하기 위한 변수이다.
여기서, SMA란, 복수의 요소(예를 들면, 복수의 노드)를 포함하는 변경의 대상(예를 들면, 청각 SOM)을, 새로운 입력에 기초하여 변경하는 경우에, 새로운 입력에 가장 거리가 가까운 요소(스코어가 가장 높은 요소)뿐만 아니라, 그 요소와 어느정도 거리가 가까운 요소도 변경하는 방법이며, 새로운 입력에 가장 거리가 가까운 요소만을 변경하는 방법인 WTA(winner-take-all)에 비해, 국소적인 해결에 빠지는 문제를 개선할 수 있는 것이 알려져 있다.
전술한 바와 같이, 승자 노드로 되어있는 노드의 패턴간 거리 d로서, 0이 공급되고, 이하, 다른 노드의 패턴간 거리 d로서, 승자 노드와의 거리, 또는 유사 순위에 따라서, 1,2,...가 공급되는 경우, 수학식 1에서, 예를 들면, G=8, γ= 0.5, Δ= 1이면, 승자 노드로 되어있는 노드 변경 웨이트α로서, 8(= G)가 요청된다. 이하, 승자 노드와의 거리, 또는 유사 순위가 크게 됨에 따라서, 노드 변경 웨이트α로서는, 4,2,1,...과 작아지는 값이 요청된다.
여기서, 수학식 1에 있어서의 감쇠 계수Δ가 큰 값인 경우에는, 패턴간 거리 d의 변화에 대한 변경 웨이트α의 변화는 완만하게 되고, 반대로, 감쇠 계수Δ가 0에 가까운 값인 경우에는, 패턴간 거리 d의 변화에 대한 변경 웨이트α의 변화는 급격하게 된다.
따라서, 감쇠 계수Δ를, 예를 들면, 전술한 1로부터 조금씩 0에 가까이하여 가도록 조정하면, 패턴간 거리 d의 변화에 대한 변경 웨이트α의 변화는 급격하게 되고, 변경 웨이트α는, 패턴간 거리 d가 커짐 에 따라서, 보다 작은 값이 된다. 그리고, 감쇠 계수Δ가 0에 가까이 되면, 승자 노드 이외의 노드 변경 웨이트α는, 거의 0으로 되며, 이 경우, 청각 SOM을 변경하는 변경 방법으로서, 전술한 WTA를 채용한 경우와 거의 같게 된다.
이와 같이, 감쇠 계수Δ를 조정함으로써, 청각 SOM을 변경하는 변경 방법으 로서 SMA를 채용한 경우의, 승자 노드의 근방의 노드 변경 웨이트α를 조정할 수 있다.
감쇠 계수△는, 예를 들면, 청각 SOM의 변경(학습)의 개시 시는 큰 값으로 하여, 시간의 경과와 함께, 즉, 변경의 횟수가 증가함 에 따라서 작은 값이 되도록 할 수 있다. 이 경우, 청각 SOM의 변경의 개시 시는, 패턴간 거리 d의 변화에 대한 변경 웨이트α의 변화가 완만한 거리/웨이트 곡선에 따라서, 청각 SOM의 각 노드 변경 웨이트α가 결정되어, 변경(학습)이 진행하는 (진행한다)에 따라, 패턴간 거리 d의 변화에 대한 변경 웨이트α의 변화가 급격하게 되어 가는 거리/웨이트 곡선에 따라서, 청각 SOM의 각 노드 변경 웨이트α가 결정된다.
즉, 이 경우, 승자 노드의 변경은, 학습(변경)의 진행에 관계없이, 특징 추출부(2)로부터의 새로운 시계열 데이터로서의 음향 파라미터 계열의 영향을 강하게 받도록 행해진다. 한편, 승자 노드 이외의 노드의 변경은, 학습의 개시 시, 새로운 음향 파라미터 시퀀스가, 승자 노드를 기준으로 하여 비교적 넓은 범위의 패턴간 거리 d 내의 노드의 변경에 대한 영향을 주도록 수행된다.
도 8의 변경 웨이트 결정부(43)는, 이상과 같이하여, 청각 SOM의 각 노드 변경 웨이트α를 결정하고, 학습 데이터 변경부(44)에서는, 각 노드가 갖는 학습 데이터 기억부(22)에 기억되는 학습 데이터가, 그 노드 변경 웨이트α에 기초하여 변경된다.
다음으로, 도 10을 참조하여, 노드가 갖는 학습 데이터 기억부(22)에 기억되는 학습 데이터를 변경하는 변경 방법에 대하여 설명한다.
이하에서는, 어떤 노드 Ni가 갖는 학습 데이터 기억부(22)에, 학습 데이터가 이미 기억되어 있고, 노드 Ni의 시계열 패턴 모델(21)은, 학습 데이터 기억부(22)에 이미 기억되어 있는 학습 데이터를 이용하여 학습이 행하여지는 것으로 한다.
학습 데이터 변경부(44)는, 전술한 바와 같이, 노드 Ni가 갖는 학습 데이터 기억부(22)에 이미 기억되어 있는 학습 데이터(이하, '구 학습 데이터')와, 특징 추출부(2)로부터의 새로운 시계열 데이터로서의 음향 파라미터 계열을, 변경 웨이트 결정부(43)로부터의 노드 Ni의 변경 웨이트 α에 따라서 혼합하고, 그 혼합 결과를, 새로운 학습 데이터로서, 학습 데이터 기억부(22)에 기억시킴으로써, 그 학습 데이터 기억부(22)의 기억 내용을, 새로운 학습 데이터에 변경한다.
즉, 학습 데이터 변경부(44)는, 구 학습 데이터에 대하여, 새로운 시계열 데이터로서의 음향 파라미터 계열을 추가함으로써, 구 학습 데이터와 새로운 음향 파라미터 계열을 혼합한 새로운 학습 데이터로 하지만, 구 학습 데이터에 대한 새로운 음향 파라미터 계열의 추가(구 학습 데이터와 새로운 음향 파라미터 계열과의 혼합)은, 노드 Ni의 변경 웨이트α에 대응하는 비에 따라서 행해진다.
여기서, 새로운 음향 파라미터 계열과 구 학습 데이터를, 1:0의 비율로 혼합하면, 그 혼합에 의해서 얻어지는 새로운 학습 데이터는, 새로운 음향 파라미터 계열로 된다. 반대로, 새로운 음향 파라미터 계열과 구 학습 데이터를, 0:1의 비율로 혼합하면, 그 혼합에 의해서 얻어지는 새로운 학습 데이터는, 구 학습 데이터만로 된다. 노드 Ni의 시계열 패턴 모델(21)(도 5)의 변경은, 새로운 학습 데이터를 이용한 학습에 의해서 행해지기 때문에, 새로운 음향 파라미터 계열과 구 학습 데 이터를 혼합하는 비율을 바꾸는 것에 따라, 변경에 의해 시계열 패턴 모델(21)이 받는 새로운 음향 파라미터 계열의 영향의 정도를 바꿀 수 있다.
노드 Ni 에서, 새로운 음향 파라미터 계열과 구 학습 데이터를 혼합하는 비율로서, 노드 Ni의 변경 웨이트α에 대응한 값이 채용되고, 예를 들면, 변경 웨이트α가 커질수록, 새로운 음향 파라미터 계열의 비율이 커지게 되는(구 학습 데이터의 비율은 작게 된다) 값으로 된다.
구체적으로는, 노드 Ni의 학습 데이터 기억부(22)에는, 일정한 수의 시계열 데이터인 음향 파라미터 계열(학습 데이터)가 기억되는 것으로 하며, 그 일정한 수를 H로 한다. 이 경우, 노드 Ni의 시계열 패턴 모델(21)의 학습은, 항상, H 개의 학습 데이터(시계열 데이터인 음향 파라미터 계열)을 이용하여 행해진다.
학습 데이터 기억부(22)에, 항상, 일정한 수 H의 학습 데이터가 기억되는 경우, 새로운 음향 파라미터 계열과 구 학습 데이터와의 혼합에 의해서 얻어지는 새로운 학습 데이터의 개수는, H 개인 필요가 있으며, 그와 같이, 새로운 음향 파라미터 계열과 구 학습 데이터와의 혼합을, 노드 Ni의 변경 웨이트α에 대응한 비율로 행하는 방법으로서는, 새로운 음향 파라미터 계열과 구 학습 데이터를, 비율α:H-α로 혼합하는 방법이 있다.
새로운 음향 파라미터 계열과 구 학습 데이터를, 비율α:H-α로 혼합하는 구체적인 방법으로서, 도 10에 도시한 바와 같이, H 개의 구 학습 데이터 중의 H-α개의 구 학습 데이터에 대하여, α개의 새로운 음향 파라미터 계열을 추가함으로써, H 개의 새로운 학습 데이터를 얻는 방법이 있다.
이 경우, 학습 데이터 기억부(22)에 기억되는 학습 데이터로서의 시계열 데이터의 수 H가, 예를 들면, 100이고, 노드 Ni의 변경 웨이트α가, 예를 들면, 8이면, 학습 데이터 기억부(22)의 기억 내용은, 100개의 구 학습 데이터 중의 92개의 구 학습 데이터에 대하여, 8개의 새로운 음향 파라미터 계열을 추가함으로써 얻어지는 100개의 새로운 학습 데이터로 변경된다.
H개의 구 학습 데이터 중의 H-α개의 구 학습 데이터에 대한, α개의 새로운 음향 파라미터 계열의 추가는, α개의 새로운 음향 파라미터 계열이 얻어지는 것을 대기하여 행하는 방법이 있지만, 이 방법으로는, 1개의 새로운 음향 파라미터 계열이 얻어질 때마다, 학습 데이터 기억부(22)의 기억 내용을 변경할 수 없다.
따라서, 학습 데이터 기억부(22)의 기억 내용의 변경은, 1개의 새로운 음향 파라미터 계열(예를 들면, 음성 구간의 음향 파라미터 계열)이 얻어질 때마다, 그 새로운 음향 파라미터 계열을 α개만, H-α개의 구 학습 데이터에 추가함으로써 행할 수 있다. 즉, 1개의 새로운 음향 파라미터 계열을 카피하여 α개의 새로운 음향 파라미터 계열로 하고, 그 α개의 새로운 음향 파라미터 계열을, H 개의 구 학습 데이터로부터 오래된 순으로 α개를 제외하고 남은 H-α개의 구 학습 데이터에 추가함으로써, 학습 데이터 기억부(22)의 기억 내용의 변경을 행한다. 이에 의해, 1개의 새로운 음향 파라미터 계열이 얻어질 때마다, 학습 데이터 기억부(22)의 기억 내용을 변경할 수 있다.
이상과 같이, 학습 데이터 기억부(22)의 기억 내용의 변경을 행함으로써, 학습 데이터 기억부(22)에는, 항상, 새로운 순의 H 개의 시계열 데이터(음향 파라미 터 계열)만이, 학습 데이터로서 유지되는 것으로 되어, 그 학습 데이터에 차지하는 새로운 음향 파라미터 계열의 비율은, 변경 웨이트α에 의해서 조정되는 것으로 된다.
다음으로, 도 11의 플로우차트를 참조하여, 도 8의 학습부(3)가 행하는, 청각 SOM을 학습(변경)하는 학습 처리에 대하여 설명한다.
학습부(3)는, 특징 추출부(2)로부터 새로운 시계열 데이터로서의 음향 파라미터 계열이 공급되면, 기억부(4)에 기억된 청각 SOM을 변경하는 학습 처리를 개시한다.
즉, 학습부(3)(도 8)에서는, 단계 S1에서, 스코어 계산부(41)가, 기억부(4)에 기억된 청각 SOM을 구성하는 각 노드에 대하여, 그 노드가, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열에 유사한 정도를 나타내는 스코어를 구한다.
구체적으로는, 노드가 갖는 시계열 패턴 모델(21)(도 5)이, 예를 들면 HMM 인 경우에는, 그 HMM에서, 새로운 음향 파라미터 계열이 관측되는 대수 우도가, 스코어로서 요청된다. 여기서, 대수 우도(logarithmic likelihood)의 계산 방법으로서는, 예를 들면, 비터비 알고리즘(Viterbi algorithm)을 채용할 수 있다.
스코어 계산부(41)는, 청각 SOM이 갖는 모든 노드에 대하여, 새로운 음향 파라미터 계열에 대한 스코어를 계산하면, 그 각 노드에 대한 스코어를, 승자 노드 결정부(42)에 공급하여, 단계 S1로부터 단계 S2에 진행한다.
단계 S2에서, 승자 노드 결정부(42)는, 청각 SOM을 구성하는 노드 중, 스코어 계산부(41)로부터의 스코어가 가장 높은 노드를 구하고, 그 노드를 승자 노드로 서 결정한다. 그리고,승자 노드 결정부(42)는, 승자 노드를 나타내는 정보로서의 노드 라벨을 변경 웨이트 결정부(43)에 공급하여, 단계 S2로부터 단계 S3에 진행한다.
단계 S3에서, 변경 웨이트 결정부(43)는, 승자 노드 결정부(42)로부터의 노드 라벨이 나타내는 승자 노드를, 말하자면, 기준으로서, 청각 SOM을 구성하는 각 노드 변경 웨이트를 결정한다.
즉, 변경 웨이트 결정부(43)는, 도 9에서 설명한 바와 같이, 청각 SOM의 변경(학습)이 진행함에 따라, 패턴간 거리 d의 변화에 대한 변경 웨이트α의 변화가 급격하게 되어 가는, 수학식 1로 나타내는 거리/웨이트 곡선에 따라서, 청각 SOM의 각 노드 변경 웨이트α를 결정하고, 학습 데이터 변경부(44)에 공급한다.
다음으로, 단계 S3로부터 단계 S4에 진행하여, 학습 데이터 변경부(44)는, 청각 SOM의 각 노드가 갖는 학습 데이터 기억부(22)(도 5)에 기억된 학습 데이터를, 변경 웨이트 결정부(43)로부터의, 대응하는 노드 변경 웨이트에 따라서 변경한다. 즉, 학습 데이터 변경부(44)는, 도 10에서 설명한 바와 같이, 특징 추출부(2)로부터 공급된 새로운 음향 파라미터 계열과, 노드의 학습 데이터 기억부(22)에 기억되어 있는 구 학습 데이터를, 그 노드 변경 웨이트α에 대응한 비율 α:H-α로 혼합함으로써, H 개의 새로운 학습 데이터를 얻고, 그 H 개의 새로운 학습 데이터에 의해서, 학습 데이터 기억부(22)의 기억 내용을 변경한다.
학습 데이터 변경부(44)는, 청각 SOM의 노드 모든 학습 데이터 기억부(22)(도 5)의 기억 내용을 변경하면,그 변경이 종료한 취지의 종료 통지를, 모델 학습부(45)에 공급한다.
모델 학습부(45)는, 학습 데이터 변경부(44)로부터 종료 통지를 받으면, 단계 S4로부터 단계 S5로 진행하여, 청각 SOM의 파라미터(청각 SOM으로서의 시계열 패턴 기억 네트워크의 노드가 갖는 시계열 패턴 모델(21)(도 5)의 파라미터(이하, '모델 파라미터'))를 변경하여, 학습 처리를 종료한다.
즉, 모델 학습부(45)는, 청각 SOM의 각 노드에 대하여, 학습 데이터 변경부(44)에 의한 변경후의 학습 데이터 기억부(22)에 기억된 새로운 학습 데이터를 이용하여, 시계열 패턴 모델(21)의 학습을 행함으로써, 그 시계열 패턴 모델(21)을 변경한다.
구체적으로는, 노드가 갖는 시계열 패턴 모델(21)이, 예를 들면 HMM인 경우에는, 그 노드가 갖는 학습 데이터 기억부(22)에 기억된 새로운 학습 데이터를 이용하여, HMM의 학습이 행하여진다. 이 학습에서는, 예를 들면, HMM의 현재의 상태 천이 확률과 출력 확률 밀도 함수를 초기값으로 하고, 새로운 학습 데이터를 이용하여, Baum-Welch 법에 의해, 새로운 상태 천이 확률과 출력 확률 밀도 함수가 각각 결정된다. 그리고,그 새로운 상태 천이 확률과 출력 확률 밀도 함수에 의해서, 청각 SOM의 모델 파라미터로서의 HMM의 상태 천이 확률과 출력 확률 밀도 함수(를 정의하는, 예를 들면, 평균 벡터나 모두 분산 행렬)이 각각 변경된다.
도 11의 학습 처리에 따르면, 1개의 새로운 시계열 데이터로서의 음향 파라미터 계열이 얻어지면, 그 새로운 음향 파라미터 계열에 대하여, 청각 SOM을 구성하는 노드 중에서, 승자 노드가 결정된다. 또한, 그 승자 노드를 기준으로서, 청 각 SOM을 구성하는 각 노드 변경 웨이트가 결정된다. 그리고, 변경 웨이트에 기초하여, 청각 SOM을 구성하는 각 노드가 갖는 시계열 패턴 모델(21)(도 5)의 모델 파라미터(여기서는, 예를 들면, HMM의 상태 천이 확률과 출력 확률 밀도 함수)가 변경된다.
즉, 도 11의 학습 처리에서는, 1개의 새로운 음향 파라미터 계열에 대하여, 청각 SOM을 구성하는 노드의 모델 파라미터의 변경이 한 번 행해지고, 이하, 마찬가지로, 새로운 음향 파라미터 계열이 얻어질 때마다, 노드의 모델 파라미터의 변경이 반복되는 것에 의해, 자기조직적으로 학습이 행하여진다.
그리고, 학습이 충분히 행해지는 것에 의해, 청각 SOM의 각 노드가 갖는 시계열 패턴 모델(21)은, 있을 때 계열 패턴을 획득한다. 청각 SOM 전체에 있어서 학습될 때 계열 패턴의 수는, 청각 SOM이 갖는 노드의 수와 일치한다. 따라서, 청각 SOM이 갖는 노드의 수가, 예를 들어 100인 경우에는, 100 종류의 시계열 패턴이 학습되는 것으로 된다.
다음으로, 도 12는, 도 1의 인식부(5)의 구성예를 보이고 있다.
인식부(5)에는, 도 1에서 설명한 바와 같이, 특징 추출부(2)로부터, 새로운 시계열 데이터로서의 음향 파라미터 계열이 공급되고, 이 새로운 음향 파라미터 계열은 스코어 계산부(51)에 공급된다.
스코어 계산부(51)는, 학습부(3)(도 8)의 스코어 계산부(41)와 마찬가지로, 기억부(4)에 기억된 청각 SOM을 구성하는 각 노드에 대하여, 그 노드가, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열에 유사한 정도를 나타내는 스코어를 구 하고, 승자 노드 결정부(52)에 공급한다. 즉, 노드가 갖는 시계열 패턴 모델(21)이, 예를 들면, 도 5에 도시한 바와 같이, HMM 인 경우에는, 스코어 계산부(51)는, 노드가 갖는 시계열 패턴 모델(21)로서의 HMM에서, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열이 관측되는 대수 우도를 구하고, 그 노드의 스코어로서, 승자 노드 결정부(52)에 공급한다.
승자 노드 결정부(52)는, 학습부(3)(도 8)의 승자 노드 결정부(42)와 마찬가지로, 기억부(4)에 기억된 청각 SOM에서, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열에 가장 유사한 노드를 구하고, 그 노드를 승자 노드로서 결정한다.
즉, 승자 노드 결정부(52)는, 기억부(4)에 기억된 청각 SOM을 구성하는 노드 중, 스코어 계산부(51)로부터의 스코어가 가장 높은 노드를 승자 노드로서 결정한다. 그리고, 승자 노드 결정부(52)는, 승자 노드를 나타내는 정보로서의 노드 라벨을, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열, 나아가서는, 그 새로운 음향 파라미터 계열이 추출된, 관측부(1)로 관측된 음성의 인식 결과로서 출력한다.
또한, 인식부(5)의 스코어 계산부(51)와, 학습부(3)(도 8)의 스코어 계산부(41)는, 어느 한쪽의 스코어 계산부에서 겸용하는 것이 가능하다. 인식부(5)의 승자 노드 결정부(52)와, 학습부(3)(도 8)의 승자 노드 결정부(42)에 대해서도 마찬가지이다. 따라서, 학습부(3)의 스코어 계산부(41)가 인식부(5)의 스코어 계산부(51)로서도 동작하고, 승자 노드 결정부(42)가 인식부(5)의 승자 노드 결정부(42)로서 동작하도록 함으로써, 인식부(5)는 학습부(3)의 일부로서 구성될 수 있 다.
다음으로,도 13의 플로우차트를 참조하여, 도 12의 인식부(5)가 특징 추출부(2)로부터의 새로운 음향 파라미터 계열이 추출된 음성을 인식하는 인식 처리에 대하여 설명한다.
인식부(5)는, 특징 추출부(2)로부터, 새로운 시계열 데이터로서의 음향 파라미터 계열이 공급되면, 기억부(4)에 기억된 청각 SOM을 이용하여, 그 새로운 음향 파라미터 계열이 추출된 음성(관측부(1)로 관측된 음성)을 인식하는 인식 처리를 개시한다.
즉, 인식부(5)(도 13)에서는, 단계 S21에서, 스코어 계산부(51)가, 기억부(4)에 기억된 청각 SOM을 구성하는 각 노드에 대하여, 그 노드가, 특징 추출부(2)로부터의 새로운 음향 파라미터 계열에 유사한 정도를 나타내는 스코어를 구한다.
구체적으로, 노드가 갖는 시계열 패턴 모델(21)(도 5)이, 전술한 바와 같이, 예를 들면 HMM 인 경우에는, 그 HMM에서, 새로운 음향 파라미터 계열이 관측되는 대수 우도가, 스코어로서 요청된다.
스코어 계산부(51)는, 청각 SOM이 갖는 모든 노드에 대하여, 새로운 음향파라미터 계열에 대한 스코어를 계산하면, 그 각 노드에 대한 스코어를, 승자 노드 결정부(52)에 공급하고, 단계 S21로부터 단계 S22에 진행한다.
단계 S22에서, 승자 노드 결정부(52)는, 청각 SOM을 구성하는 노드 중의, 스코어 계산부(51)로부터의 스코어가 가장 높은 노드를 구하고, 그 노드를 승자 노드 로서 결정한다. 그리고,승자 노드 결정부(52)는, 단계 S22로부터 단계 S23에 진행하고, 승자 노드를 나타내는 정보로서의 노드 라벨을, 음성의 인식결과적으로, 생성부(6)에 공급하여, 인식 처리를 종료한다.
이상과 같은, 청각 SOM을 이용한 인식 처리에 따르면, 그 청각 SOM의 노드의 수에 따른 미세한 인식 결과를 얻을 수 있다.
다음으로, 도 14는, 도 1의 생성부(6)의 구성예를 보이고 있다.
생성부(6)에는, 인식부(5)로부터, 기억부(4)에 기억된 청각 SOM의 노드 중의 승자 노드를 나타내는 정보로서의 노드 라벨이, 음성의 인식 결과적으로 공급되고, 이 노드 라벨은, 생성 노드 결정부(61)에 공급된다.
생성 노드 결정부(61)는, 기억부(4)에 기억된 결합 네트워크를 참조하연, 인식부(5)로부터의 노드 라벨이 나타내는, 청각 SOM의 승자 노드와의 결합의 정도가 가장 높은 노드, 즉, 그 승자 노드와의 결합 웨이트가 최대의 노드를 탐색한다. 그리고, 생성 노드 결정부(61)는, 인식부(5)로부터의 노드 라벨이 나타내는 청각 SOM의 승자 노드와의 결합 웨이트가 최대의 조음 SOM의 노드를, 조음 파라미터의 생성에 이용하는 생성 노드로서 결정하고, 그 생성 노드를 나타내는 노드 라벨을, 모델 파라미터 변경부(62)에 공급한다.
모델 파라미터 변경부(62)는, 기억부(4)에 기억된 조음 SOM의 노드 중, 생성 노드 결정부(61)로부터의 노드 라벨이 나타내는 생성 노드를 인식하고, 그 생성 노드로부터 생성되는 조음 파라미터 계열을 변경시키는 변경 제어 처리를 행한다.
즉, 조음 SOM의 노드는, 도 5에서 설명한 바와 같이, 시계열 패턴 모델(21) 을 갖고, 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)의 학습(변경)은, 후술하는 바와 같이, 학습부(7)에 의해서, 구동부(8)를 구동하는 조음 파라미터 계열을 이용하여 행해지기 때문에, 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)은, 조음 파라미터 계열을 생성할 수 있다.
구체적으로는, 시계열 패턴 모델(21)이, 예를 들면, HMM 인 경우에는, HMM 에서 조음 파라미터 계열이 관측되는 우도를 나타내는 출력 확률을 최대로 하는 조음 파라미터 계열을 생성할 수 있다.
여기서, HMM을 이용하여, 조음 파라미터 계열을 포함하는 시계열 데이터를 생성하는 생성 방법으로서, 동적 특징량을 이용함으로써 순조롭게 변화할 때 계열 데이터를 생성하는 방법이 있다. 이러한 시계열 데이터의 생성 방법은, 예를 들면, K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, T. Kitamura의 "SPEECH PARAMETER GENERATION ALGORITHMS FOR HMM-BASED SPEECH SYNTHESIS", Proc. of ICASSP 2000, vol.3, pp.1315-1318, 2000년 6월에 기재되어 있다.
또한, HMM을 이용하여 시계열 데이터를 생성하는 생성 방법으로서, 기타, 예를 들면, HMM의 파라미터를 이용한 확률적 시행에 기초하는 시계열 데이터의 생성을 반복하여 행하고, 그 평균을 이용하여 HMM에서 시계열 데이터를 생성하는 방법 등이 있다. 이러한 시계열 데이터의 생성 방법은, 예를 들면, "Extraction and restore of keyframes of time-series data using a continuous HMM"(Inamura et al., Proc. of ROBOMEC 2003, 2P1-3F-C6)에 기재되어 있다.
시계열 패턴 모델(21)이, 예를 들어, HMM 인 경우에는, 그 모델 파라미터는, HMM의 상태 천이 확률과 출력 확률 밀도 함수(구체적으로는, 평균 벡터와 모두 분산행렬)이다. 그리고,이 모델 파라미터로서의 상태 천이 확률이나 출력 확률 밀도 함수를 변경하면, HMM을 이용하여 생성될 때 계열 데이터를 변경할 수 있다.
따라서, 모델 파라미터 변경부(62)는, 조음 SOM의 생성 노드의 모델 파라미터를 변경하고, 그 변경 후의 모델 파라미터를 이용하여 시계열 데이터, 즉, 조음 파라미터 계열을 생성하도록, 후단의 시계열 생성부(63)를 제어하는 변경 제어 처리를 행한다. 즉, 모델 파라미터 변경부(62)는, 모델 파라미터가 변경된 생성 노드(변경 후의 모델 파라미터)를, 시계열 생성부(63)에 공급하고, 그 생성 노드를 이용하여 조음 파라미터 계열을 생성하도록, 시계열 생성부(63)를 제어한다. 이 변경 제어 처리에 의해, 시계열 생성부(63)는, 변경 후의 생성 노드(모델 파라미터가 변경된 생성 노드)를 이용하여, 조음 파라미터를 생성하기 때문에, 생성 노드로부터 생성되는 조음 파라미터 계열이 변경되는 것으로 된다.
또한, 모델 파라미터 변경부(62)는, 제어부(10)의 제어에 따라서, 조음 SOM의 생성 노드의 모델 파라미터를 변경한다.
시계열 생성부(63)는, 모델 파라미터 변경부(62)로부터 공급되는 생성 노드(가 갖는 시계열 패턴 모델(21)(도 5))부터, 전술한 바와 같이하여 조음 파라미터 계열을 생성하고, 학습부(7)(도 1)와 구동부(8)에 공급한다.
다음으로, 도 15의 플로우차트를 참조하여, 도 14의 생성부(6)가 행하는, 조음 파라미터 계열을 생성하는 생성 처리에 대하여 설명한다.
생성부(6)는, 인식부(5)로부터 인식 결과적으로의, 청각 SOM의 승자 노드를 나타내는 노드 라벨이 공급되면, 생성 처리를 개시한다.
즉, 생성부(6)(도 14)에서는, 단계 S31에서, 생성 노드 결정부(61)가, 기억부(4)에 기억된 청각 SOM을 구성하는 노드 중, 인식부(5)로부터의 노드 라벨이 나타내는 승자 노드와의 결합 웨이트가 최대의 노드를, 기억부(4)에 기억된 조음 SOM의 노드로부터 탐색하여, 그 노드를 생성 노드로서 결정한다. 또한, 생성 노드 결정부(61)는, 생성 노드를 나타내는 노드 라벨을, 모델 파라미터 변경부(62)에 공급하고, 단계 S31로부터 S32에 진행한다.
단계 S32에서는, 모델 파라미터 변경부(62)는, 기억부(4)에 기억된 조음 SOM의 노드 중의, 생성 노드 결정부(61)로부터의 노드 라벨이 나타내는 생성 노드를 인식하고, 그 생성 노드(시계열 패턴 모델(21)(도 5)의 모델 파라미터)를, 기억부(4)로부터 판독한다. 또한, 모델 파라미터 변경부(62)는, 제어부(10)(도 1)부터의 제어에 따라, 생성 노드(가 갖는 시계열 패턴 모델(21)의 모델 파라미터)를 변경하거나, 또는 변경하지않고 그대로, 시계열 생성부(63)에 공급하고, 단계 S32로부터 단계 S33에 진행한다.
단계 S33에서는, 시계열 생성부(63)는, 모델 파라미터 변경부(62)로부터 공급되는 생성 노드(시계열 패턴 모델(21)의 모델 파라미터)로부터, 조음 파라미터 계열을 생성하고, 학습부(7)(도 1)와 구동부(8)에 공급하여, 생성 처리를 종료한다.
다음으로, 도 16은, 도 1의 학습부(7)의 구성예를 보이고 있다.
학습부(7)에는, 생성부(6)(도 1)부터, 시계열 데이터로서의 조음 파라미터 계열이 공급된다. 학습부(7)는, 제어부(10)(도 1)의 제어에 따라, 기억부(4)에 기억된 결합 네트워크를 구성하는 조음 SOM으로서의 시계열 패턴 기억 네트워크를, 생성부(6)로부터 공급되는 새로운 조음 파라미터 계열에 기초하여, 자기 조직적으로 변경한다.
즉, 스코어 계산부(71)는, 기억부(4)에 기억되었을 때, 계열 패턴 기억 네트워크인 조음 SOM을 구성하는 각 노드에 대하여, 그 노드가, 생성부(6)로부터 공급되는 새로운 시계열 데이터로서의 조음 파라미터 계열에 유사한 정도로서의 스코어를, 도 8의 스코어 계산부(41)(와)과 마찬가지로 하여 구하고, 승자 노드 결정부(72)에 공급한다. 따라서, 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)이, 예를 들면, 도 5에 도시한 바와 같이, HMM 인 경우에는, 스코어 계산부(71)는, 노드가 갖는 시계열 패턴 모델(21)로서의 HMM에서, 생성부(6)로부터 공급된 새로운 조음 파라미터 계열이 관측되는 우도를 구하고, 그 노드의 스코어로서, 승자 노드 결정부(72)와 자기 학습용 결합 웨이트 변경부(76)에 공급한다.
승자 노드 결정부(72)는, 기억부(4)에 기억되었을 때 계열 패턴 기억 네트워크로서의 조음 SOM 에서, 생성부(6)로부터의 새로운 조음 파라미터 계열에 가장 유사한 노드를 구하여, 그 노드를, 승자 노드로서 결정한다.
즉, 승자 노드 결정부(72)는, 기억부(4)에 기억된 조음 SOM을 구성하는 노드 중, 스코어 계산부(71)로부터의 스코어가 가장 높은 노드를 승자 노드로서 결정한다. 그리고, 승자 노드 결정부(72)는, 승자 노드를 나타내는 노드 라벨을, 변경 웨이트 결정부(73)에 공급한다.
변경 웨이트 결정부(73)는, 승자 노드 결정부(72)로부터 공급되는 노드 라벨이 나타내는 승자 노드에 기초하여, 기억부(4)에 기억된 조음 SOM을 구성하는 각 노드에 대하여, 도 8의 변경 웨이트 결정부(43)(와)과 마찬가지로 하여, 변경 웨이트를 결정하고, 학습 데이터 변경부(74)에 공급한다.
즉, 변경 웨이트 결정부(73)는, 기억부(4)에 기억된 조음 SOM을 구성하는 각 노드(승자 노드를 포함함)의 변경 웨이트를, 그 노드와, 승자 노드와의 패턴간 거리에 기초하여 결정하여, 학습 데이터 변경부(74)에 공급한다.
또한, 조음 SOM의 노드의 스코어는, 변경 웨이트 결정부(73)로 구하여도 좋지만, 스코어 계산부(71)로부터 변경 웨이트 결정부(73)에 공급하도록 해도 된다.
학습 데이터 변경부(74)는, 기억부(4)에 기억된 조음 SOM의 각 노드가 갖는 학습 데이터 기억부(22)(도 5)에 기억된 학습 데이터를, 도 8의 학습 데이터 변경부(44)(와)과 마찬가지로 하여 변경한다.
즉, 학습 데이터 변경부(74)는, 조음 SOM의 노드가 갖는 학습 데이터 기억부(22)에 이미 기억되어 있는 학습 데이터와, 생성부(6)로부터 공급되는 새로운 조음 파라미터 계열을, 변경 웨이트 결정부(73)로부터의, 대응하는 노드 변경 웨이트에 따라서 혼합하고, 그 혼합 결과를, 새로운 학습 데이터로서, 학습 데이터 기억부(22)에 기억시킴으로써, 그 학습 데이터 기억부(22)의 기억 내용을 변경한다.
또한, 학습 데이터 변경부(74)는, 학습 데이터 기억부(22)(도 5)에 기억된 학습 데이터를, 변경 웨이트에 따라 변경하는 경우, 그 변경이 종료한 취지의 종료 통지를, 모델 학습부(75)에 공급한다.
모델 학습부(75)는, 학습 데이터 변경부(74)로부터 종료 통지를 받으면, 그 학습 데이터 변경부(74)에 의한 변경 후의 학습 데이터 기억부(22)(도 5)에 기억된 학습 데이터를 이용하여, 기억부(4)에 기억된 조음 SOM의 각 노드가 갖는 시계열 패턴 모델(21)의 학습을 행함으로써, 그 시계열 패턴 모델(21)(모델 파라미터)를 변경한다.
따라서, 모델 학습부(75)에 의한, 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)의 변경은, 그 노드가 갖는 학습 데이터 기억부(22)(도 5)에 기억되어 있던 학습 데이터(의 일부)와, 생성부(6)로부터 공급된 새로운 조음 파라미터 계열과 기초하여 행해진다.
자기 학습용 결합 웨이트 변경부(76)는, 보상 취득부(9)(도 1)로부터 보상이 공급되어 오지 않은 경우, 스코어 계산부(71)로부터 공급되는 조음 SOM의 각 노드의, 생성부(6)로부터 공급된 새로운 조음 파라미터 계열에 대한 스코어에 기초하여, 기억부(4)에 기억된 결합 네트워크의 결합 웨이트(청각 SOM의 노드와 조음 SOM의 노드와의 결합의 정도)를 변경한다. 이것에 대하여, 자기 학습용 결합 웨이트 변경부(76)는, 보상 취득부(9)로부터 보상이 공급되어 온 경우, 그 변경의 처리를 금지한다.
교시 학습용 결합 웨이트 변경부(77)는, 보상 취득부(9)로부터 보상이 공급되어 온 경우, 그 보상을 교사 신호로서, 그 교사 신호에 기초하여, 기억부(4)에 기억된 결합 네트워크의 결합 웨이트(청각 SOM의 노드와 조음 SOM의 노드와의 결합의 정도)를 변경한다. 이것에 대하여, 교시 학습용 결합 웨이트 변경부(77)는, 보 상 취득부(9)로부터 보상이 공급되고 와 오지 않은 경우, 그 변경의 처리를 금지한다.
다음으로,도 17의 플로우차트를 참조하여, 도 16의 학습부(7)가, 조음 SOM의 학습(변경)과, 결합 웨이트의 변경을 행하는 학습 처리에 대하여 설명한다.
학습부(7)는, 생성부(6)로부터, 새로운 시계열 데이터로서의 조음 파라미터 계열이 공급되어, 제어부(10)로부터, 그 새로운 조음 파라미터 계열을 이용한 학습의 지시가 있으면, 기억부(4)에 기억된 조음 SOM과 결합 웨이트를 변경하는 학습 처리를 개시한다.
즉, 학습부(7)(도 16)에서는, 단계 S41에서, 스코어 계산부(71)가, 기억부(4)에 기억된 조음 SOM을 구성하는 각 노드에 대하여, 그 노드가, 생성부(6)로부터의 새로운 조음 파라미터 계열에 유사한 정도를 나타내는 스코어를 구한다.
구체적으로는, 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)(도 5)이, 예를 들면 HMM 인 경우에는, 그 HMM에서, 새로운 조음 파라미터 계열이 관측되는 대수 우도가, 예를 들면, 비터비 알고리즘에 의해 계산되어, 조음 SOM을 구성하는 노드의, 생성부(6)로부터의 새로운 조음 파라미터 계열에 대한 스코어로서 요청된다.
스코어 계산부(71)는, 조음 SOM이 갖는 모든 노드에 대하여, 새로운 조음 파라미터 계열에 대한 스코어를 계산하면, 그 각 노드에 대한 스코어를, 승자 노드 결정부(72)와 자기 학습용 결합 웨이트 변경부(76)에 공급하고, 단계 S41로부터 단계 S42에 진행한다.
단계 S42에서는,승자 노드 결정부(72)는, 조음 SOM을 구성하는 노드 중의, 스코어 계산부(71)로부터의 스코어가 가장 높은 노드를 구하고, 그 노드를 승자 노드로서 결정한다. 그리고,승자 노드 결정부(72)는, 승자 노드를 나타내는 노드 라벨을, 변경 웨이트 결정부(73)에 공급하고, 단계 S42로부터 단계 S43에 진행한다.
단계 S43에서는, 변경 웨이트 결정부(73)는, 승자 노드 결정부(72)로부터의 노드 라벨이 나타내는 승자 노드를, 말하자면 기준으로서, 조음 SOM을 구성하는 각 노드 변경 웨이트를 결정한다.
즉, 변경 웨이트 결정부(73)는, 도 9으로 설명한 바와 같이, 조음 SOM의 변경(학습)이 진행함에 따라서, 패턴간 거리 d의 변화에 대한 변경 웨이트α의 변화가 급격하게 되어 가는, 수학식 1로 나타내는 거리/웨이트 곡선에 따라서, 조음 SOM의 각 노드 변경 웨이트α를 결정하고, 학습 데이터 변경부(74)에 공급한다.
그리고, 단계 S43로부터 단계 S44에 진행하여, 학습 데이터 변경부(74)는, 조음 SOM의 각 노드가 갖는 학습 데이터 기억부(22)(도 5)에 기억된 학습 데이터를, 변경 웨이트 결정부(73)로부터의, 대응하는 노드 변경 웨이트에 따라서 변경한다. 즉, 학습 데이터 변경부(74)는, 도 10으로 설명한 바와 같이, 생성부(6)로부터 공급된 새로운 조음 파라미터 계열과, 조음 SOM의 노드의 학습 데이터 기억부(22)에 기억되어 있는 구 학습 데이터를, 그 노드 변경 웨이트α에 대응한 비율 α:H-α로 혼합함으로써, H개의 새로운 학습 데이터를 얻고, 그 H개의 새로운 학습 데이터에 의해서, 학습 데이터 기억부(22)의 기억 내용을 변경한다.
학습 데이터 변경부(74)는, 조음 SOM의 노드 모든 학습 데이터 기억부(22)(도 5)의 기억 내용을 변경하면, 그 변경이 종료한 취지의 종료 통지를, 모델 학습부(75)에 공급한다.
모델 학습부(75)는, 학습 데이터 변경부(74)로부터 종료 통지를 받으면, 단계 S44로부터 단계 S45에 진행하여, 조음 SOM의 모델 파라미터를 변경한다.
즉, 모델 학습부(75)는, 조음 SOM의 각 노드에 대하여, 학습 데이터 변경부(74)에 의한 변경후의 학습 데이터 기억부(22)에 기억된 새로운 학습 데이터를 이용하고, 시계열 패턴 모델(21)의 학습을 행함으로써, 그 시계열 패턴 모델(21)의 모델 파라미터를 변경한다.
구체적으로는, 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)이, 예를 들면 HMM 인 경우에는, 그 노드가 갖는 학습 데이터 기억부(22)에 기억된 새로운 학습 데이터를 이용하여, HMM의 학습이 행하여진다. 이 학습에서는, 예를 들면, HMM의 현재의 모델 파라미터로서의 상태 천이 확률과 출력 확률 밀도 함수를 초기값으로 하고, 새로운 학습 데이터를 이용하여, Baum-Welch 법에 의해, 새로운 모델 파라미터로서의 상태 천이 확률과 출력 확률 밀도 함수가 각각 결정된다. 그리고, 그 새로운 상태 천이 확률과 출력 확률 밀도 함수에 의해서, 조음 SOM의 모델 파라미터로서의 HMM의 상태 천이 확률과 출력 확률 밀도 함수(예를 들면, 평균 벡터나 모두 분산 행렬)이 각각 변경된다.
그 후, 단계 S45로부터 S46에 진행하여, 자기 학습용 결합 웨이트 변경부(76)와 교시 학습용 결합 웨이트 변경부(77)는, 보상 취득부(9)로부터 보상이 공급된 가 아닌가를 판정한다.
단계 S46에 있어서 보상이 공급되지 않았다고 판정된 경우, 처리는 단계 S47 에 진행하고, 자기 학습용 결합 웨이트 변경부(76)는, 단계 S41의 처리로 스코어 계산부(71)로부터 공급된 조음 SOM의 각 노드의, 생성부(6)로부터 공급된 새로운 조음 파라미터 계열에 대한 스코어에 기초하여, 기억부(4)에 기억된 결합 네트워크의 결합 웨이트를 변경하고(이하, 이러한 변경의 처리를, 자기 학습용 결합 웨이트의 변경이라고 칭함), 학습 처리를 종료한다.
이것에 대하여, 단계 S46에 있어서 보상이 공급되었다고 판정된 경우, 처리는 단계 S48에 진행하고, 교시 학습용 결합 웨이트 변경부(77)는, 단계 S46의 처리로 보상 취득부(9)로부터 공급된 보상에 기초하여(그 보상을 교사 신호로서), 기억부(4)에 기억된 결합 네트워크의 결합 웨이트를 변경하고(이하, 이러한 변경의 처리를, 교시 학습용 결합 웨이트의 변경이라고 칭함), 학습 처리를 종료한다.
다음으로,도 18의 플로우차트를 참조하여, 도 1의 정보 처리 장치의 동작에 대하여 설명한다. 또한, 이하에서는, 청각 SOM 및 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)(도 5)이, 예를 들면, HMM이라고 한다.
우선 최초로, 단계 S101에서, 제어부(10)는, 기억부(4)에 기억된 결합 네트워크를 초기화하여, 단계 S102에 진행한다.
즉, 제어부(10)는, 기억부(4)에 기억된 결합 네트워크를 구성하는 청각 SOM 및 조음 SOM의 노드가 갖는 HMM의 모델 파라미터로서, 적당한 (예를 들면, 랜덤한) 값을 부여함과 동시에, 청각 SOM의 노드와 조음 SOM의 노드와의 결합 웨이트로서, 적당한 (예를 들면, 랜덤한) 값을 부여한다.
단계 S102에서는, 관측부(1)에서, 예를 들면, 사용자의 발화를 대기하여, 음 성 구간의 검출이 행하여지고, 그 음성 구간의 음성 데이터가, 특징 추출부(2)에 공급되어, 단계 S102로부터 S103에 진행한다.
단계 S103에서는, 특징 추출부(2)가, 관측부(1)로부터의 음성 데이터로부터 음향 파라미터를 추출하여, 시계열의 음향 파라미터, 즉, 음향 파라미터 계열을, 학습부(3)이라고 인식부(5)에 공급하고, 단계 S104에 진행한다.
단계 S104에서는, 인식부(5)가, 특징 추출부(2)로부터의 음향 파라미터 계열, 즉, 사용자의 발화의 음향 파라미터 계열을 이용하여, 도 13로 설명한 인식 처리를 행하여, 사용자의 발화의 인식결과적으로의, 청각 SOM의 승자 노드를 나타내는 노드 라벨을, 생성부(6)와 제어부(10)에 공급하여, 단계 S105에 진행한다.
여기서, 사용자의 발화에 대하여 얻어지는 청각 SOM의 승자 노드를, 이하, 발화 승자 노드라고 한다.
단계 S105에서는, 학습부(3)가, 특징 추출부(2)로부터의 음향 파라미터 계열, 즉, 사용자의 발화의 음향 파라미터 계열을 이용하여, 도 11로 설명한 학습 처리를 행하고, 이에 의해, 기억부(4)에 기억된 청각 SOM을 변경하여, 단계 S106에 진행한다.
단계 S106 내지 단계 S109에서는, 생성부(6)가, 도 15로 설명한 생성 처리를 행한다.
즉, 단계 S106에서는, 생성부(6)(도 14)의 생성 노드 결정부(61)가, 도 15의 단계 S31로 설명한 바와 같이, 기억부(4)에 기억된 청각 SOM을 구성하는 노드 중의, 인식부(5)가 직전의 단계 S104에 있어서 공급하는 노드 라벨이 나타내는 발화 승자 노드와의 결합 웨이트가 최대의 노드를, 기억부(4)에 기억된 조음 SOM의 노드로부터 탐색하여, 생성 노드로서 결정한다. 그리고, 생성 노드 결정부(61)는, 생성 노드를 나타내는 노드 라벨을, 모델 파라미터 변경부(62)에 공급하여, 단계 S106로부터 S107에 진행한다.
단계 S107에서는, 생성부(6)(도 14)의 모델 파라미터 변경부(62)가, 도 15의 단계 S32로 설명한 바와 같이, 기억부(4)에 기억된 조음 SOM의 노드 중, 생성 노드 결정부(61)로부터의 노드 라벨이 나타내는 생성 노드를 인식하고, 그 생성 노드(가 갖는 시계열 패턴 모델(21)(도 5)의 모델 파라미터)를, 기억부(4)로부터 판독한다.
그리고, 단계 S107로부터 단계 S108에 진행하여, 모델 파라미터 변경부(62)는, 도 15의 단계 S32로 설명한 바와 같이, 제어부(10)로부터의 제어에 따라, 기억부(4)로부터 판독한 생성 노드가 갖는 시계열 패턴 모델(21)의 모델 파라미터(이하, '생성 노드의 모델 파라미터')를 변경하거나, 또는 변경하지않고 그대로, 시계열 생성부(63)에 공급하여, 단계 S109에 진행한다.
여기서, 단계 S108 내지 S114의 처리는, 사용자의 발화에 의해서 얻어지는 1 음성 구간의 음성 데이터에 대하여, 한 번 이상 행해지는 루프 처리이며, 제어부(10)는, 예를 들면, 사용자의 발화에 의해서 얻어지는 1 음성 구간의 음성 데이터에 대하여 최초로 행해지는 (1회의) 단계 S108의 처리에서는, 생성 노드의 모델 파라미터를 변경하지않고 그대로 시계열 생성부(63)에 공급하도록, 모델 파라미터 변경부(62)를 제어하고, 두 번째 이후의 단계 S108의 처리에서는, 생성 노드의 모델 파라미터를 변경하고 시계열 생성부(63)에 공급하도록, 모델 파라미터 변경 부(62)를 제어한다.
단계 S109에서는, 생성부(6)(도 14)의 시계열 생성부(63)가, 도 15의 단계 S33에서 설명한 바와 같이, 모델 파라미터 변경부(62)로부터 공급되는 생성 노드의 모델 파라미터(계열 패턴 모델(21)로서의 HMM)로부터, 조음 파라미터 계열을 생성하고, 학습부(7)와 구동부(8)에 공급하여, 단계 S110에 진행한다.
여기서, 시계열 생성부(63)는, 전술한 바와 같이, 모델 파라미터 변경부(62)로부터 공급되는 생성 노드의 모델 파라미터로부터, 조음 파라미터 계열을 생성한다. 따라서, 모델 파라미터 변경부(62)로부터 시계열 생성부(63)에 공급되는 생성 노드의 모델 파라미터가, 단계 S108로 변경되어 있는 경우, 단계 S109에서,그 모델 파라미터로부터 생성되는 조음 파라미터 계열도 변경되는 것으로 된다.
단계 S110에서는, 구동부(8)가, 생성부(6)로부터 공급되는 조음 파라미터 계열에 따라서 구동하고, 즉, 생성부(6)로부터 공급되는 조음 파라미터 계열을 이용하여 음성 합성을 행한다. 이에 의해, 구동부(8)는, 합성음을 생성하여 출력하여, 단계 S110로부터 단계 S111에 진행한다.
구동부(8)가 직전의 단계 S110로 출력한 합성음은, 관측부(1)에 있어서 관측된다. 단계 S111에서, 관측부(1)는, 그 관측값에 기초하여, 합성음의 음성 구간을 검출하고, 그 음성 구간의 음성 데이터를, 특징 추출부(2)에 공급하여, 단계 S112로 진행한다.
단계 S112에서는, 특징 추출부(2)가, 단계 S103에 있어서의 경우와 마찬가지로, 관측부(1)로부터의 음성 데이터로부터 음향 파라미터를 추출하고, 시계열의 음 향 파라미터, 즉, 음향 파라미터 계열을, 인식부(5)에 공급하여, 단계 S113에 진행한다.
단계 S113에서는, 인식부(5)가, 단계 S104에 있어서의 경우와 마찬가지로, 특징 추출부(2)로부터의 음향 파라미터 계열, 즉, 구동부(8)가 출력한 합성음의 음향 파라미터 계열을 이용하여, 도 13로 설명한 인식 처리를 행하고, 구동부(8)가 출력한 합성음의 인식결과적으로의, 청각 SOM의 승자 노드를 나타내는 노드 라벨을, 제어부(10)에 공급하여, 단계 S114로 진행한다.
여기서, 구동부(8)가 출력한 합성음에 대하여 얻어지는 청각 SOM의 승자 노드를, 이하, 합성음 승자 노드라고 한다.
단계 S114에서는, 제어부(10)가, 예를 들면, 단계 S104에 있어서 인식부(5)로부터 공급된 노드 라벨이 나타내는 발화 승자 노드와, 단계 S113에 있어서 인식부(5)로부터 공급된 노드 라벨이 나타내는 합성음 승자 노드에 기초하여, 생성부(6)가 단계 S109로 생성하는 조음 파라미터 계열의 변경, 나아가서는, 단계 S108에서의 생성 노드의 모델 파라미터의 변경을 종료하는 종료 조건이 만족되는지 아닌지를 판정한다.
여기서, 종료 조건으로서는, 예를 들면, 청각 SOM의, 사용자의 발화의 인식결과적으로의 발화 승자 노드와, 구동부(8)가 출력한 합성음의 인식 결과적으로의 합성음 승자 노드가 일치하고 있다고 하는 조건을 채용할 수 있다. 이러한 종료 조건이 만족되는 경우에는, 구동부(8)가 출력한 합성음의 인식 결과(청각 SOM의 승자 노드)가, 사용자의 발화의 인식 결과(청각 SOM의 승자 노드)에 일치하게 되지 만, 구동부(8)가 출력한 합성음은, 청각 SOM에 의해서 인식할 수 있는 레벨에서는, 사용자의 발화에 일치하게 된다. 또한, 구동부(8)가 출력한 합성음과 사용자의 발화가, 사용자의 청각 레벨로 실제로 일치하고 있는지 여부에 대해서는, 사용자로부터의 보상(플러스 보상 또는 마이너스 보상)으로서 공급되는 것으로 된다. 따라서, 종료 조건이 일치했다고 하는 판정이란, 사용자의 청각 레벨로 실제로 일치하였는지의 여부에는 특히 의존하지 않고, 정보 처리 장치측(로봇측)의 자기 평가로, 구동부(8)가 출력한 합성음과 사용자의 발화가 일치했다고 판정한 것을 뜻하고 있다.
또한, 종료 조건으로서는, 기타, 예를 들면, 청각 SOM의, 사용자의 발화의 인식 결과적으로의 발화 승자 노드와, 구동부(8)가 출력한 합성음의 인식 결과적으로의 합성음 승자 노드와의 패턴간 거리가, 소정의 임계값(예를 들면, 1) 이하라고 하는 조건을 채용할 수 있다.
또한, 단계 S108 내지 S114의 루프 처리에서, 두 번째 이후에 행해지는 단계 S114에서는, 발화 승자 노드와 합성 음승자 노드와의 패턴간 거리가, 전회의 패턴간 거리 이상이라고 하는 조건(발화 승자 노드와 합성음 승자 노드와의 패턴간 거리가 극소치로 되는 조건)을, 종료 조건으로서 채용할 수 있다.
단계 S114에서, 생성 노드의 모델 파라미터의 변경을 종료하는 종료 조건이 만족하지 않는다고 판정된 경우, 즉, 예를 들면, 발화 승자 노드와 합성음 승자 노드와의 패턴간 거리가 소정의 임계값보다도 크고, 따라서, 구동부(8)가 출력한 합성음이, 사용자의 발화와 닮지 않은 것으로 정보 처리 장치측에서 판단된 경우, 단 계 S108에 되돌아가, 이하, 마찬가지의 처리가 반복된다.
즉, 이 경우, 단계 S108의 처리는, 사용자의 발화에 의해서 얻어지는 1 음성 구간의 음성 데이터에 대하여 행해지는 두 번째 (이후)의 처리이지만, 제어부(10)는, 생성 노드의 모델 파라미터를 변경하여 시계열 생성부(63)에 공급하도록, 모델 파라미터 변경부(62)를 제어한다.
따라서, 모델 파라미터 변경부(62)는, 제어부(10)로부터의 제어에 따라, 단계 S107로 기억부(4)로부터 판독한 생성 노드의 모델 파라미터를 변경하고, 그 변경 후의 모델 파라미터를, 시계열 생성부(63)에 공급한다.
여기서, 생성 노드의 모델 파라미터, 즉, 예를 들면, 생성 노드가 갖는 HMM의 모델 파라미터의 변경의 방법으로서는, 예를 들면, 제1 내지 제3 변경 방법이 있다.
제1 변경 방법에서는, 조음 SOM의 노드 중, 예를 들면, 발화 승자 노드와의 결합 웨이트가 2번째로 큰 조음 SOM의 노드가 갖는 HMM의 모델 파라미터와, 생성 노드가 갖는 HMM의 모델 파라미터와의 내분점이 결정되고, 그 내분점에 의해서 나타내지는 HMM의 모델 파라미터가, 변경 후의 생성 노드의 모델 파라미터로 된다. 또한, HMM의 모델 파라미터끼리의 내분점을 구하는 방법에 대해서는, 예를 들면, Tetsunari Inamura, Hiroaki Tanie 및 Yoshihiko Nakamura의 "From Stochastic Motion Generation and Recognition to Geometric Symbol Development and Manipulation". In the Proc. of Int'l Conf. on Humanoid Robots (Humanoids 2003), 에 개시되어 있다. 상기 방법의 다른 예는, "Construction of proto-type symbol space for relationship description between abstract motion by Hidden Marcove Models"(Inamura et al., Proc. of ROBOMEC 2003, 2P2-3F-B2)에 개시되어 있다.
제2 변경 방법에서는, 조음 SOM의 생성 노드 이외의 임의의 노드가 갖는 HMM의 모델 파라미터와, 생성 노드가 갖는 HMM의 모델 파라미터와의 외분점이 결정되고, 그 외분점에 의해서 나타내는 HMM의 모델 파라미터가, 변경 후의 생성 노드의 모델 파라미터로 된다. 또한, HMM의 모델 파라미터끼리의 외분점은, 내분점을 구하는 경우와 마찬가지로 하여 구할 수 있다.
제3 변경 방법에서는, 생성 노드가 갖는 HMM의 모델 파라미터가 랜덤하게 변경된다.
또한, 생성 노드가 갖는 HMM의 모델 파라미터의 변경의 방법은, 전술한 제1 내지 제3 변경 방법에 한정되는 것이 아니다. 또한, 생성 노드가 갖는 HMM의 모델 파라미터의 변경의 방법은, 제1 내지 제3 변경 방법 중 어느 하나에 고정되는 것은 아니다. 즉, 생성 노드가 갖는 HMM의 모델 파라미터는, 경우에 따라서, 제1 내지 제3 변경 방법 중 어느 하나를 선택하여 변경할 수 있다.
구체적으로는, 예를 들면, 직전의 단계 S113에 있어서 (구동부(8)가 출력한) 합성음의 인식 결과적으로의 합성음 승자 노드와, 발화 승자 노드와의 패턴간 거리가 비교적 짧은 경우(너무나 긴 경우가 아닌 경우)에는, 제1 변경 방법에 의해서 모델 파라미터를 변경하고, 패턴간 거리가 너무나 긴 경우에는, 제2 또는 제3 변경 방법에 의해서 모델 파라미터를 변경할 수 있다.
단계 S108에서, 모델 파라미터 변경부(62)가, 전술된 바와 같이, 생성 노드의 모델 파라미터를 변경하고, 그 변경 후의 모델 파라미터를, 시계열 생성부(63)에 공급하면, 단계 S109에 진행하여, 생성부(6)(도 14)의 시계열 생성부(63)가, 모델 파라미터 변경부(62)로부터 공급되는 생성 노드의 모델 파라미터(계열 패턴 모델(21)로서의 HMM)로부터, 조음 파라미터 계열을 생성하고, 학습부(7)와 구동부(8)에 공급하여, 단계 S110로 진행한다. 단계 S110에서는, 구동부(8)가, 생성부(6)로부터 공급된 조음 파라미터 계열을 이용한 음성 합성에 의해 합성음을 생성하여 출력하고, 단계 S110로부터 단계 S111로 진행한다.
여기서, 모델 파라미터 변경부(62)로부터 시계열 생성부(63)에 공급되는 생성 노드의 모델 파라미터는, 단계 S108로 변경되어 있기 때문에, 금회의 단계 S109에서,그 모델 파라미터로부터 생성되는 조음 파라미터 계열은, 전회의 단계 S109로 생성된 것으로부터 변경되어 있다. 따라서, 금회의 단계 S110에서, 그 조음 파라미터 계열로부터 생성되는 합성음도, 전회의 단계 S110로 생성된 것과는 다르다.
이하, 단계 S111 내지 S113에 순차적으로 진행하여, 전술한 경우와 마찬가지의 처리가 행하여지고, 직전의 단계 S110로 생성된 합성음에 대하여, 도 13의 인식 처리가 행하여지는 것에 의해 얻어진다. 그 합성음의 인식결과적으로의, 청각 SOM의 승자 노드를 나타내는 노드 라벨이, 인식부(5)로부터 제어부(10)에 공급되어, 단계 S114로 진행한다.
그리고, 단계 S114에서, 생성 노드의 모델 파라미터의 변경을 종료하는 종료 조건이 만족되었다고 판정되는 경우, 즉, 예를 들면, 단계 S108 내지 S114의 루프 처리가 몇 번이나 반복되어, 단계 S108로 변경된 모델 파라미터의 HMM에서 생성되는 조음 파라미터 계열에 의해서 생성되는 합성음의 인식 결과적으로의 합성음 승자 노드가 발화 승자 노드에 일치하거나, 혹은, 합성음 승자 노드와 발화 승자 노드와의 패턴간 거리가 소정의 임계값 이하가 되어, 구동부(8)가 출력한 합성음이, 사용자의 발화와 유사하다고 정보 처리 장치측에서 판단된 경우, 단계 S115로 진행하고, 제어부(10)는 학습부(7)를 제어하여 기억부(4)에 기억된 결합 네트워크의 조음 SOM과 결합 웨이트를 변경시키고, 단계 S102로 회귀하여, 사용자의 다음 발화를 대기하며, 이하, 마찬가지의 처리가 반복된다.
즉, 이 경우, 보상이 공급되고 있지 않을 경우(도 17의 단계 S46에서 아니오라고 판정되었을 경우), 학습부(7)는, 제어부(10)의 제어에 따라, 자기 학습용 결합 웨이트의 변경을 행하는 도 17의 단계 S47의 처리를 실행한다. 즉, 학습부(7)는, 직전의 단계 S109로 생성부(6)로부터 공급된 조음 파라미터 계열, 즉, 종료 조건이 만족하는 경우의 조음 파라미터 계열에 기초하여, 기억부(4)에 기억된 결합 네트워크의 조음 SOM의 변경(학습)과 결합 웨이트의 변경을, 도 17로 설명한 바와 같이 하여 행한다.
이것에 대하여, 보상이 공급되어 있을 경우(도 17의 단계 S46로 YES 이라고 판정되었을 경우)에는, 학습부(7)는, 제어부(10)의 제어에 따라, 교시 학습용 결합 웨이트의 변경을 행하는 도 17의 단계 S48의 처리를 실행한다. 즉, 학습부(7)는, 직전의 단계 S109로 생성부(6)로부터 공급된 조음 파라미터 계열, 즉, 종료 조건이 만족하는 경우의 조음 파라미터 계열에 기초하여, 기억부(4)에 기억된 결합 네트워 크의 조음 SOM의 변경(학습)과 동시에, 직전의 단계 S110로 구동부(8)로부터 발성된 음운에 대한 보상에 기초하여 (이 보상을 교사 신호로서), 기억부(4)에 기억된 결합 네트워크의 결합 웨이트의 변경을, 도 17로 설명한 바와 같이 하여 행한다.
이하, 자기 학습용 결합 웨이트의 변경과, 교시 학습용 결합 웨이트의 변경 각각의 상세에 대하여, 그 순서대로 개별로 설명한다.
처음에, 자기 학습용 결합 웨이트의 변경의 상세에 대하여 설명한다.
즉, 학습부(7)(도 16)에서는, 도 17의 단계 S41로 설명한 바와 같이, 스코어 계산부(71)가, 기억부(4)에 기억된 조음 SOM을 구성하는 각 노드에 대하여, 그 노드가, 직전의 단계 S109로 생성부(6)로부터 공급된 새로운 조음 파라미터 계열에 유사한 정도를 나타내는 스코어를 구하고, 승자 노드 결정부(72)와 자기 학습용 결합 웨이트 변경부(76)에 공급한다.
승자 노드 결정부(72)는, 도 17의 단계 S42로 설명한 바와 같이, 조음 SOM을 구성하는 노드 중의, 스코어 계산부(71)로부터의 스코어가 가장 높은 노드를 구하고, 그 노드를 승자 노드로서 결정하여, 승자 노드를 나타내는 노드 라벨을, 변경 웨이트 결정부(73)에 공급한다. 변경 웨이트 결정부(73)는, 도 17의 단계 S43로 설명한 바와 같이, 조음 SOM의 각 노드에 대하여, 승자 노드 결정부(72)로부터의 노드 라벨이 나타내는 승자 노드와의 패턴간 거리에 따라서, 변경 웨이트를 결정하고, 학습 데이터 변경부(74)에 공급한다.
학습 데이터 변경부(74)는, 도 17의 단계 S44로 설명한 바와 같이, 생성부(6)로부터 공급된 새로운 조음 파라미터 계열과, 조음 SOM의 노드의 학습 데이터 기억부(22)에 기억되어 있는 구 학습 데이터를, 그 노드 변경 웨이트에 대응한 비율로 혼합함으로써, 새로운 학습 데이터를 얻어, 그 새로운 학습 데이터에 의해서, 학습 데이터 기억부(22)의 기억 내용을 변경한다.
그리고, 모델 학습부(75)는, 도 17의 단계 S45로 설명한 바와 같이, 조음 SOM의 각 노드에 대하여, 학습 데이터 변경부(74)에 의한 변경 후의 학습 데이터 기억부(22)에 기억된 새로운 학습 데이터를 이용하여, 시계열 패턴 모델(21)(여기서는, HMM)의 학습을 행함으로써, 그 시계열 패턴 모델(21)의 모델 파라미터를 변경한다.
그 후, 자기 학습용 결합 웨이트 변경부(76)는, 도 17의 단계 S46와 S47로 설명한 바와 같이, 보상이 공급되고 있지 않을 때에는, 스코어 계산부(71)로부터 공급된 조음 SOM의 각 노드의, 생성부(6)로부터 공급된 새로운 조음 파라미터 계열에 대한 스코어에 기초하여, 기억부(4)에 기억된 결합 네트워크의 결합 웨이트를 변경한다.
즉, 자기 학습용 결합 웨이트 변경부(76)는, 예를 들면, 조음 SOM 에서, 종료 조건이 만족하는 경우의 조음 파라미터 계열(직전의 단계 S109로 생성부(6)로부터 공급된 조음 파라미터 계열)이 관측되는 우도가 가장 높은 노드, 즉, 스코어 계산부(71)로부터의 스코어가 가장 높은 노드인 승자 노드와, 청각 SOM의 각 노드와의 결합 웨이트를, 청각 SOM의 발화 승자 노드와의 결합 웨이트가 가장 증대하도록 변경한다.
구체적으로는, 자기 학습용 결합 웨이트 변경부(76)는, 예를 들면, 다음 식 에 따라서, 결합 웨이트를 변경한다.
Figure 112006023761560-PAT00002
단, 수학식 2에서, W는 조음 SOM 에서, 종료 조건이 만족한 경우의 조음 파라미터 계열이 관측되는 우도가 가장 높은 노드(스코어 계산부(71)로부터의 스코어가 가장 높은 노드인 승자 노드)를 나타내는 인덱스이며, j는 청각 SOM을 구성하는 각 노드를 나타내는 인덱스이다. 예를 들면, 청각 SOM을 구성하는 노드의 총수가 N개라고 하면, 인덱스 j는, 1,2, ... ,N 값을 취한다.
여기서, 조음 SOM의 인덱스 W에서 나타내는 노드(종료 조건이 만족하는 경우의 조음 파라미터 계열이 관측되는 우도가 가장 높은 노드)를, 노드 #W로 나타냄과 동시에, 청각 SOM의 인덱스 j에서 나타내는 노드를, 노드 #j로 나타내는 것으로 하면, 수학식 2에서, cwnew(W, j)는, 조음 SOM의 노드 #W와, 청각 SOM의 노드 #j와의 변경 후의 결합 웨이트를 나타내고, cwold(W, j)는, 조음 SOM의 노드 #W와, 청각 SOM의 노드 #j의, 변경 직전의 변경 웨이트를 나타낸다.
또한, 수학식 2에서,β는 소정의 상수이며, score_in(j)는, 사용자의 발화에 대하여 요청된 청각 SOM의 노드 #j의 스코어를 나타낸다. 또한, score_out(W)는, 종료 조건이 만족하는 경우의 조음 파라미터 계열에 대하여 요청된 조음 SOM의 노드 #W의 스코어, 즉, 종료 조건이 만족하는 경우의 조음 파라미터 계열에 대하여 승자 노드로 되는 조음 SOM의 노드 #W의 스코어를 나타낸다.
여기서, 자기 학습용 결합 웨이트 변경부(76)는, 조음 SOM의 노드 #W의 스코어 score_out(W)를, 스코어 계산부(71)로부터 공급되는 스코어 중에서 취득하여, 수학식 2를 계산한다. 또한, 자기 학습용 결합 웨이트 변경부(76)는, 청각 SOM의 각 노드 #j의 스코어 score_in(j)를, 제어부(10)로부터 취득하여, 수학식 2를 계산한다. 즉, 제어부(10)는, 사용자의 발화에 대하여 요청되는 청각 SOM의 각 노드 #j의 스코어 score_in(j)를, 인식부(5)로부터 취득하고, 자기 학습용 결합 웨이트 변경부(76)에 공급하도록 되고 있고, 자기 학습용 결합 웨이트 변경부(76)는, 이와 같이 하여 제어부(5)로부터 공급되는 스코어 score_ in(j)를 이용하여, 수학식 2를 계산한다.
또한, 자기 학습용 결합 웨이트 변경부(76)에서는, 단계 S115에서, 기타, 예를 들면, 다음과 같이 하여, 기억부(4)에 기억된 결합 네트워크의 결합 웨이트를 변경할 수 있다.
즉, 자기 학습용 결합 웨이트 변경부(76)에서는, 예를 들면, 조음 SOM 에서, 종료 조건이 만족하는 경우의 조음 파라미터 계열(직전의 단계 S109로 생성부(6)로부터 공급된 조음 파라미터 계열)이 관측되는 우도가 가장 높은 노드, 즉, 스코어 계산부(71)로부터의 스코어가 가장 높은 노드인 승자 노드와, 그 승자 노드로부터 생성되는 조음 파라미터에 따라서 구동부(8)가 구동한 경우에 관측부(1)에 있어서 관측되는 관측값으로서의 합성음에 대하여 결정되는 청각 SOM의 승자 노드와의 결합 웨이트가 가장 증대하도록, 스코어 계산부(71)로부터의 스코어가 가장 높은 조음 SOM의 노드인 승자 노드와, 청각 SOM의 각 노드와의 결합 웨이트를 변경한다.
구체적으로는, 자기 학습용 결합 웨이트 변경부(76)는, 예를 들면, 다음 식에 따라서, 결합 웨이트를 변경한다.
Figure 112006023761560-PAT00003
단, 수학식 3에서, W, j, cwnew(W, j), cwold(W, j), β, score_out(W)는, 수학식 2에 있어서의 경우와 마찬가지이다. 또한, 수학식 3에서, score_ in'(j)는, 조음 SOM의 노드 #W에서 생성되는 조음 파라미터 계열에 따라서 구동부(8)가 구동함으로써 생성되는 합성음에 대하여 요청되는 청각 SOM의 노드 #j의 스코어를 나타낸다.
여기서, 수학식 3에 따라서 결합 웨이트를 변경하는 경우에는, 조음 SOM의 노드 #W에서 생성되는 조음 파라미터 계열에 따라서 구동부(8)가 구동함으로써 생성되는 합성음에 대하여 요청되는 청각 SOM의 노드 #j의 스코어 score_in'(j)가 필요하다.
그 때문에, 제어부(10)는, 생성부(6)를 제어하여, 학습부(7)에 의해서 변경된 조음 SOM의 노드 #W에서 조음 파라미터 계열을 생성시킨다. 이 경우, 생성부(6)(도 14)에서는, 제어부(10)의 제어에 따라, 모델 파라미터 변경부(62)가, 기억부(4)에 기억된 조음 SOM의 노드 #W의 모델 파라미터를 판독하고, 그대로, 시계열 생성부(63)에 공급한다.
그리고, 시계열 생성부(63)는, 모델 파라미터 변경부(62)로부터의 노드 #W의 모델 파라미터(계열 패턴 모델(21)로서의 HMM)로부터, 조음 파라미터 계열을 생성 하여, 구동부(8)에 공급한다.
또한, 제어부(10)는, 구동부(8)를 제어하고, 생성부(6)로부터 공급되는 조음 파라미터 계열을 이용하여, 합성음을 생성시킨다. 구동부(8)가 생성한 합성음은, 관측부(1)에 있어서 관측된다. 관측부(1)는, 그 관측값에 기초하여, 합성음의 음성 구간을 검출하고, 그 음성 구간의 음성 데이터를, 특징 추출부(2)에 공급한다. 특징 추출부(2)에서는, 관측부(1)로부터의 음성 데이터로부터 음향 파라미터가 추출되고, 시계열의 음향 파라미터, 즉, 음향 파라미터 계열이, 학습부(3)(이)라고 인식부(5)에 공급된다. 인식부(5)에서는, 특징 추출부(2)로부터의 음향 파라미터 계열, 즉, 구동부(8)가 출력한 합성음의 음향 파라미터 계열을 이용하여, 도 13에서 설명한 인식 처리가 행하여진다.
그리고,제어부(10)는, 인식부(5)를 제어함으로써, 합성음의 음향 파라미터 계열을 이용하여 행해진 인식 처리에 있어서 얻어진, 그 합성음의 음향 파라미터 계열에 대한 청각 SOM의 각 노드 #j의 스코어 score_in'(j)를 취득하여, 자기 학습용 결합 웨이트 변경부(76)에 공급한다. 자기 학습용 결합 웨이트 변경부(76)는, 이와 같이 하여 제어부(5)로부터 공급되는 스코어 score_in'(j)를 이용하여, 수학식 3을 계산한다.
또한, 단계 S115에서, 수학식 3를 계산함으로써, 결합 웨이트를 변경하는 경우에는, 그 결합 웨이트의 변경 후, 도 18에 점선으로 나타내는 단계 S116으로 진행하여, 제어부(10)가, 학습부(3)를 제어함으로써, 조음 SOM의 노드 #W에서 생성된 조음 파라미터 계열에 따라서 구동부(8)가 구동함으로써 생성된 합성음의 음향 파 라미터 계열을 이용하여, 기억부(4)에 기억된 청각 SOM을 변경시킨다.
즉, 전술한 바와 같이, 구동부(8)가 조음 SOM의 노드 #W에서 생성된 조음 파라미터 계열에 따라서 구동함으로써 생성한 합성음의 음향 파라미터 계열이, 특징 추출부(2)로부터 학습부(3)라고 인식부(5)에 공급되므로, 학습부(3)는, 제어부(10)의 제어에 따라, 그 합성음의 음향 파라미터 계열을 이용하여, 도 11에서 설명한 학습 처리를 행하고, 기억부(4)에 기억된 청각 SOM을 변경한다.
이상, 자기 학습용 결합 웨이트의 변경의 상세에 대하여 설명했다.
다음으로, 교시 학습용 결합 웨이트의 변경의 상세에 대하여 설명한다.
즉, 교시 학습용 결합 웨이트 변경부(77)는, 예를 들면, 조음 SOM 에서, 종료 조건이 만족하는 경우의 조음 파라미터 계열(직전의 단계 S109로 생성부(6)로부터 공급된 조음 파라미터 계열)이 관측되는 우도가 가장 높은 노드, 즉, 스코어 계산부(71)로부터의 스코어가 가장 높은 노드인 승자 노드와, 청각 SOM의 각 노드와의 결합 웨이트를, 플러스 보상이 공급되었을 때에는, 청각 SOM의 발화 승자 노드와의 결합 웨이트가 가장 증대하도록 변경하는 한편, 마이너스 보상이 공급되었을 때에는, 청각 SOM의 발화 승자 노드와의 결합 웨이트가 가장 감소하도록 변경한다.
구체적으로는, 교시 학습용 결합 웨이트 변경부(77)는, 플러스 보상이 공급되었을 때에는, 예를 들면, 다음 식에 따라서 결합 웨이트를 변경한다.
Figure 112006023761560-PAT00004
또한, 교시 학습용 결합 웨이트 변경부(77)는, 마이너스 보상이 공급되었을 때에는, 예를 들면, 다음식에 따라서, 결합 웨이트를 변경한다.
Figure 112006023761560-PAT00005
단, 식(4), (5)에서, Ge는, 결합 웨이트 cwold(W, j)에 대한 이득(gain) 항이며, 이 이득 항 Ge는, 0으로부터 1까지를 범위로 하는 가변 값이다. 이 이득 항 Ge의 값이 클 수록, 변경의 강화 또는 약화의 정도가 강해진다.
이득 Ge의 값의 결정 방법은, 특별히 한정되지 않고, 예를 들면 다음과 같은 결정 방법을 채용할 수 있다. 즉, 종료 조건이 만족하는 경우의 조음 파라미터 계열(직전의 단계 S109로 생성부(6)로부터 공급된 조음 파라미터 계열)이 관측되는 우도가 가장 높은 노드, 즉, 스코어 계산부(71)로부터의 스코어가 가장 높은 노드인 승자 노드와, 단계 S106에 있어서의 청각 SOM의 승자 노드와가 가장 강하게 학습되고, 또한, 조음 SOM의 노드와 청각 SOM의 노드와의 패턴간 거리에 따라서 그 영향도가 낮게 되어 가는 것 같은 함수에 의해서, 그 값이 결정되면, 말하는 결정 방법을, 이득 Ge의 값의 결정 방법으로서 채용할 수 있다.
구체적으로는 예를 들면, HMM+ SOM의 학습일 때에 있어서의 변경 웨이트의 결정 방법으로서, 전술한 도 9의 예로서는 가우스의 커브(그것이 나타내는 함수)에 따라서 변경 웨이트를 결정하는 방법이 채용되어 있지만, 이 방법과 마찬가지의 방법을, 이득 Ge의 값의 결정 방법으로서 채용할 수 있다. 즉, 가우스의 커브(그것 이 나타내는 함수)에 따라서 이득 Ge의 값을 결정한다고 하는 결정 방법을, 이득 Ge의 값의 결정 방법으로서 채용할 수 있다. 이 결정 방법이 채용된 경우에는, 조음 SOM의 노드와 청각 SOM의 노드와의 패턴간 거리가 길어짐에 따라, 이득 Ge의 값이 서서히 작아져 가는(0에 가까이 가는) 것으로 된다.
또한, 이것들의 결정 방법 외에 추가로, 보상에 기초하는 교시에 의한 학습(교시 학습용 결합 웨이트의 변경)의 영향의 정도를 고려한 방법, 구체적으로는 예를 들면 도 19에 도시되는 방법을, 이득 Ge의 값의 결정 방법으로서 채용할 수도 있다. 즉, 도 19는, 교시에 의한 학습의 영향 정도를 고려한 이득 Ge의 값의 결정 방법의 일례를 설명하는 도면이다. 이하, 도 19의 예의 이득 Ge의 값의 결정 방법에 대하여 설명한다.
즉, 교시 학습용 결합 웨이트의 변경은, 전술한 바와 같이, 보상이라고 하는 외부로부터의 평가에 의해서 정답이 공급된다. 따라서, 청각 SOM과 조음 SOM이 수속하고 있는 상태에서, 그 변경의 강화 또는 약화의 정도가 강해지도록 학습(변경)하는 것으로, 보다 빨리 정확한 맵핑 관계(청각 SOM의 각 노드와 조음 SOM의 각 노드와의 각 결합 웨이트의 관계)를 얻는 것이 가능하다.
또한, 여기서 말하는 수속이란, 그 하나의 임의의 노드가 어떤 음운을 나타내거나, 다른 조드가 다른 음운 등을 나타내도록 하는 각각의 자기 조직화 맵(청각 SOM과 조음 SOM)이 구축되는 상태를 말한다.
한편, 교시 학습용 결합 웨이트의 변경(학습)의 초기 단계에서는, 청각 SOM과 조음 SOM과의 각각은 아직 수속하지 않은 상태다. 이러한 수속하지 않은 상태 에서, 교시 학습용 결합 웨이트의 변경(학습)의 강화 또는 약화의 정도를 강화하도록 그 학습을 진행시켜 가면, 청각 SOM 상의 노드와 조음 SOM 상의 노드는, 그 학습이 진행하는 것에 따라, 다른 카테고리를 표현하도록 되어 버리는 경우도 나온다. 그렇게 되어 버린 경우에, 청각 SOM 상의 노드와 조음 SOM 상의 노드와의 결합이 강해져 있으면, 돌아가 정확한 학습을 할 수 없게 되는 경우가 나온다고 하는 문제가 발생한다.
따라서,이 문제를 해결하기 위해, 도 19의 예의 이득 Ge의 값의 결정 방법에서는, 전술한 수학식 4 및 5에 있어서의 이득 항 Ge를, 예를 들면 다음 수학식 6과 같이 정의하여, 교시 학습용 결합 웨이트의 변경(학습)의 횟수(이하, 결합 웨이트 변경 횟수)가 n 회째까지의 초기 단계에서는, 도 19에 도시된 바와 같이, 수학식 6의 우변의 값 g를 0로 정의하고, 결합 웨이트 변경 횟수가 n회 초과하고 나서 그 값 g을 소정의 값(예를 들면 1.0 등)으로 변화하게 하도록 되어 있다.
Ge = g * C
단, 수학식 6에서, g는 전술한 바와 같이, 결합 웨이트 변경 횟수에 의해 결정되는 값이다. 또한, C는 교시 학습용 결합 웨이트 변경부(77)에 의해 컨트롤되는 가변 값이고, 조음 SOM의 노드와 청각 SOM의 노드와의 패턴간 거리나, 필요에 따라 그 밖의 정보에 따른 값을 취한다.
이에 의해, 결합 웨이트 변경 횟수가 n 회째까지의 초기 단계에서는, 즉, 청각 SOM과 조음 SOM과의 각각이 아직 수속하지 않은 상태에서는, 전술한 수학식 4 및 5에 도시된 바와 같이, 가령 보상(교시)이 공급되었다고 해도, 교시 학습용 결 합 웨이트의 변경이 실질상 행해지지 않는 것으로 된다. 즉, 보상(교시)의 영향을 받지 않는 것으로 된다.
그리고, 그 후, 결합 웨이트 변경 횟수가 n회를 초과하면, 즉, 청각 SOM과 조음 SOM의 각각이 어느 정도 수속하면, 교시 학습용 결합 웨이트의 변경이 실질상 개시된다. 즉, 결합 웨이트 변경 횟수가 n회 이후에서는, 보상(교시)의 영향을 받게 된다. 이 경우, 교시 학습용 결합 웨이트 변경부(77)는, 수학식 6의 값 C를 적절하게 변동하여, 그 강화 또는 약화의 정도를 적절하게 변경하는 것으로, 보상(교시)의 영향의 정도를 적절하게 조정할 수도 있다. 구체적으로는 예를 들면, 결합 웨이트 변경 횟수가 n+1회를 초과한 시점이 실질상의 학습의 개시로 되기 때문에, 그 학습의 초기 단계(결합 웨이트 변경 횟수가 n+1회에 가까운 단계)에서는, 그 강화 또는 약화의 정도가 작아지도록 하여, 학습이 진행함에 따라서(결합 웨이트 변경 횟수가 n+1회 보다도 많아짐에 따라서), 즉, 청각 SOM과 조음 SOM과의 각각(각각의 자기 조직화 맵)이 수속함에 따라서, 그 강화 또는 약화의 정도가 커지도록, 교시 학습용 결합 웨이트 변경부(77)는 식(6)의 우변의 값 C을 컨트롤해 가면 좋다. 또한, 그 강화 또는 약화의 정도를 크게 하여 간다. 결국, 플러스 보상이 공급되었을 때에는 cwnew(W, j)의 값을 크게 하고, 마이너스 보상이 공급되었을 때에는 cwnew(W, j)의 값을 작게 하는 것이 분명하다. 이와 같이 함으로써, 맵핑 관계(청각 SOM의 각 노드와 조음 SOM의 각 노드와의 각 결합 웨이트의 관계)의 학습을, 보다 신속히 또한 보다 정확하게 할 수 있도록 된다.
또한, 결합 웨이트 변경 횟수는, 전술한 예에서는, 교시 학습용 결합 웨이트 의 변경의 횟수라고 되었지만, 교시 학습용 결합 웨이트의 변경과 자기 평가용 결합 웨이트의 변경과의 각각 횟수의 총계 횟수로서도 좋다.
이상, 자기 학습용 결합 웨이트의 변경의 상세에 대하여 설명하고, 계속해서, 교시 학습용 결합 웨이트의 변경의 상세에 대하여 설명했다.
또한, 사용자로부터의 보상(교시)의 영향을 보다 한층 더 높이고 싶은 경우에는, 교시 학습용 결합 웨이트의 변경에 의한 강화(또는 약화)의 정도를, 자기 학습용 결합 웨이트의 변경에 의한 강화의 정도에 비교하여 크게 되도록 하면 된다.
또한, 교시 학습용 결합 웨이트의 변경의 처리 타이밍은, 도 18의 예에서는, 단계 S114의 처리로 예(YES)라고 판정된 후의 단계 S115의 시점이라고 되었지만, 도 18의 예에 한정되지 않고, 단계 S114의 판정 처리의 결과에 상관없이 보상이 공급된 시점이면 임의의 시점에서 좋다.
이상과 같이, 도 1의 정보 처리 장치로는, 사용자의 발화의 음향 파라미터 계열에 기초하여, 청각 SOM의 학습(변경)을 행하는 한편, 청각 SOM에서, 사용자의 발화의 음향 파라미터에 대한 스코어가 가장 높은 노드인 승자 노드를 결정하고, 조음 SOM에서, 청각 SOM의 승자 노드와의 결합 웨이트가 최대의 노드인 생성 노드를 탐색한다. 또한, 도 1의 정보 처리 장치에서는, 생성 노드의 모델 파라미터를 변경함으로써, 그 생성 노드로부터 생성되는 조음 파라미터 계열을 변경하고, 그 조음 파라미터 계열에 따라서 합성음을 생성한다. 그리고, 도 1의 정보 처리 장치에서는, 그 합성음에 대하여 결정된 청각 SOM의 승자 노드(합성음 승자 노드)와, 사용자의 발화에 대하여 결정된 청각 SOM의 승자 노드(발화 승자 노드)에 기초하 여, 종료 조건이 만족되는지 아닌지를 판정하여, 종료 조건이 만족하는 경우에, 결합 웨이트를 변경함과 동시에, 종료 조건이 만족하는 경우의 조음 파라미터 계열에 기초하여, 조음 SOM의 학습(변경)을 행한다.
따라서, 도 1의 정보 처리 장치가 적용된 로봇 등에서는, 자기의 행동을 능동적으로 변경하고, 그 행동을 자기 평가하여, 자기의 행동을, 외부로부터 공급되는 자극에 적응시킬 수 있다. 즉, 예를 들면, 자기의 행동으로서의 발화(합성음)를 능동적으로 변경하고, 그 합성음을 자기 평가하여, 자기의 합성음을, 외부로부터 공급되는 자극으로서의 사용자의 발화에 적응시킬 수 있다.
즉, 도 1의 정보 처리 장치(이하, 그것이 적용된 로봇으로서 설명한다)는, 사용자 사이에서, 도 20에 도시되는 프로토콜 P201에 따라서, 그 처리를 실행할 수 있다.
구체적으로는, 프로토콜 P201은, 다음 단계 S201-1, S202-2로 이루어진다.
즉, 단계 S201-1에서, 사용자는, 자신의 발화(사회에 존재하는 음), 즉, 본보기가 되는 음운을 로봇에 부여한다. 하면, 로봇은, 사용자의 발화를 청각 SOM에 의해서 인식하고, 그 발화를 흉내낸 합성음을 출력하기 위해, 조음 SOM에서 얻어지는 조음 파라미터를 변경하여, 그 변경 후의 조음 파라미터에 따라서 음성 합성을 행함으로써, 실제로, 합성음을 출력한다.
또한, 단계 S201-2에서, 로봇은, 사용자의 발화의 흉내 냄에 의한 탐색과 자기 평가를 행한다. 즉, 로봇은, 자신으로부터 출력한 합성음을, 청각 SOM에 의해서 인식하고, 그 합성음이 사용자의 발화에 가까운지 여부와, 종료 조건을 충족시 키는 지 여부를 판정함으로써 자기 평가한다. 그리고, 합성음이 사용자의 발화에 가까이 되었다고 하는 자기 평가 결과가 얻어진 경우(종료 조건을 충족시키는 경우)에, 조음 SOM과 청각 SOM의 노드끼리의 맵핑을 함으로써, 즉, 사용자의 발화에 가까운 합성음을 생성할 수 있는 조음 SOM의 노드와, 그 합성음 또는 사용자의 발화의 인식결과적으로의 청각 SOM의 노드와의 결합을 강화함으로써 조음 SOM과 청각 SOM의 노드끼리가 적절한 결합(맵핑)을, 교사 학습으로 획득한다.
이러한 메카니즘에 따르면, 사용자가 발화하면, 로봇(도 1의 정보 처리 장치)에서는, 그 발화와 마찬가지의 발화로서의 합성음의 생성을 행하는 조음 파라미터(시퀀스)를 얻는다고 하는 목표(조음 목표)를 달성하기 위해, 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)(도 5)의 모델 파라미터를 변경함으로써, 조음 파라미터가 변경된다. 또한, 도 1의 정보 처리 장치에서는, 구동부(8)가, 변경 후의 조음 파라미터에 따라서 구동, 즉 합성음을 생성하고, 그 합성음을, 청각 SOM을 이용하여 인식함으로써, 사용자의 발화에 근접한지 여부를, 종료 조건을 판정함으로써 자기 평가한다. 그리고, 도 1의 정보 처리장치로는, 사용자의 발화에 가까운 합성음을 생성할 수 있는 조음 SOM의 노드와, 그 합성음, 또는 사용자의 발화의 인식 결과적으로의 청각 SOM의 노드와의 결합을 강화하도록, 조음 SOM과 청각 SOM과의 맵핑(결합 웨이트)를 변경한다.
따라서, 도 1의 정보 처리 장치를, 예를 들면 전술한 바와 같이, 로봇에 적용함으로써, 사용자가 발화하면, 합성음이 사용자의 발화와 충분히 유사할 때까지 합성음을 반복적으로 생성하는, 즉, 사용자의 발화(의 음운)의 직접적으로 흉내내 는 로봇을 실현할 수 있다.
또한, 사용자의 발화를 흉내 내는 합성음은 두 방법 중 하나를 이용함으로써 생성될 수 있다. 사용자의 발화를, 사전을 이용하여 음성 인식하고, 그 음성 인식 결과에 따라서 합성음을 생성하는 제1 방법이나, 사용자의 발화를 녹음하여 재생하는 제2 방법이 그것이다.
제1 방법에서는, 음성 인식이 사전을 이용하여 행해지기 때문에, 사전에 등록되어 있지 않은 단어를 음성 인식하는 것은 할 수 없고, 그 결과, 그와 같은 단어의 합성음을 생성할 수도 있지 않는다. 즉, 제1 방법에서는, 사전에 등록되어 있는 단어의 범위 내에서만, 사람에 의한 발화를 직접적으로 흉내 내는 것이 가능하다.
한, 제2 방법에서는, 사용자의 발화를 녹음하여 재생할 뿐이기 때문에, 재생(출력)되는 음(음성)에 개성이 없고, 단조롭다. 또한, 제2 방법에 대해서는, 사용자의 발화의 재생 시에, 필터를 통해 재생 시의 음성을 변환(음성 변환)하고, 이에 의해, 사용자의 발화 주파수 성분이 다른 음(음성)을 출력하는 방법이 있다.
여기서, 사용자에 의한 발화를 직접적으로 흉내 내는 기술의 예와, 합성음을 벼환하는 기술의 예가, 특개평11-9847호 공보나, 특허 제1758551호, 일본 특표2001-522471호 공보, 특개평09-179572, 특개2000-122699호 공보 등에 기재되어 있다.
제1 및 제2 방법을 로봇에 적용한 경우, 제1 및 제2 방법의 어느 하나를 적용한 경우에도, 로봇은 사용자에 의한 발화를 단순히 흉내냄으로써 발화하고, 따라 서, 사용자는 로봇이 사용자의 발화를 로봇의 성장의 결과로서 흉내 낼 수 있다고는 느낄 수 없다.
한편, 도 1의 정보 처리 장치를 로봇에 적용한 경우에는, 사용자가, 로봇에 가르치도록 발화를 함으로써, 그 발화를 서서히 흉내하여 사용자에 의한 발화를 흉내 내는 로봇을 실현할 수 있다. 또한, 로봇에 있어서 생성되는 합성음은, 조음 기관으로서의 조음 SOM에 의한 제약(예를 들면, 조음 SOM의 노드의 총수나, 노드의 배치 구조, 조음 파라미터로서 채용하는 파라미터, 시계열 패턴 모델(21)(도 5)로서 채용하는 모델 등)을 받는다. 따라서, 로봇이, 사용자의 발화를 흉내하는 데에는 한계가 있어, 로봇은, 그 한계의 범위 내에서, 사용자의 발화를 최대한 흉내 낸 합성음을 출력한다. 이 때문에, 로봇에서는, 개성이 있는 사용자 발화의 흉내 내기가 가능하게 된다. 또한, 처음에는 사용자 발화의 흉내 내기가 완전하지 못하지만, 학습을 해 나갈 때마다 능란하게 되어 가는 모습을, 사용자는 관찰할 수 있다.
이상과 같이, 도 1의 정보 처리 장치에 따르면, 청각 SOM과 조음 SOM 사이의맵핑(청각 SOM과 조음 SOM과의 노드끼리의 결합 웨이트)을, 자기 평가에 의해, 교사없이 획득할 수가 있고, 그 결과, 사용자의 발화(음성)를 인식하여, 그 발화를 흉내낸 합성음을 생성할 수 있도록 된다.
또한, 도 1의 정보 처리 장치에 따르면, 청각 SOM의 학습(변경)에 의해서, 자기 조직적으로 음운의 구별을 할 수 있게 되기 때문에, 어떠한 음운이라도 획득(인식)하는 것이 가능하게 된다. 즉, 미리 정의된 특유의 음운의 사전 없이, 임의의 음운의 특징의 통합(패턴)을 흉내 내어 할 수 있도록 된다. 즉, 사용자의 발화 에 따른 음운을 획득하여, 그 흉내를 할 수 있다.
또한, 도 1의 정보 처리 장치에 따르면, 사용자의 발화가 되면, 합성음을 실제로 출력하여, 사용자의 발화에 의해 가까운 합성음을(출력하려고) 탐색하기 때문에, 결과적으로, 사용자에게는, 그 사용자의 발화를 흉내하고 있는 것 같이 보인다. 그리고, 결합 네트워크, 즉, 청각 SOM 및 조음 SOM, 및 결합 웨이트의 학습(변경)이 진행할수록, 사용자에게는, 능란하게 흉내를 할 수 있게 되는 것 같이 보인다.
또한, 도 1의 정보 처리 장치에 따르면, 합성음의 생성은, 기본적으로는, 랜덤이 아니라, 사용자의 발화에 음에 가깝게 하고자 하도록 행해지기 때문에, 사용자가, 외부에서 관찰했을 때에 의미를 부여할 수 있게 된다. 즉, 사용자의 발화를 흉내 내어 하려고 하고 있는 것을, 사용자에게 느끼게 할 수 있다.
또한, 도 1의 정보 처리 장치에 따르면, 결합 네트워크의 학습(변경)의 과정이, 사용자에게 있어서는, 사용자 발화를 흉내 내는 것을 하는 게임을 하고 있는 것과 같이 보이기 때문에, 사용자에게 재미를 줄 수 있다.
또한, 도 1의 정보 처리 장치에 따르면, 조음 기관으로서의 조음 SOM에 의한 제약의 범위 내에서, 사용자의 발화를 최대한 흉내한 합성음을 출력하기 때문에, 사용자의 발화를 녹음하여 재생하는 경우와 같은 개성이 없는 사용자 발화의 흉내 내기가 아니라, 정보 처리 장치 고유의 개성이 있는 사용자 발화의 흉내 내기를 행할 수 있다.
또한, 도 1의 정보 처리 장치에 따르면, 사용자의 발화가 있을 때마다, 결합 네트워크의 학습(변경)을 행하는, 소위 온라인 학습이 행하여지기 때문에, 사용자는, 사용자 발화의 흉내 내기 주기가 서서히 능란하게 되어 가는 모습을 관찰할 수 있다.
단, 발명이 해결하고자 하는 과제에서 전술한 바와 같이, 청각 SOM과 조음 SOM 사이의 맵핑(청각 SOM과 조음 SOM과의 노드끼리의 결합 웨이트)가, 도 1의 정보 처리 장치의 자기 평가만으로 획득되더라도, 즉, 소위 교사 학습만으로 획득되더라도, 그 자기 평가가 만약 틀린 경우에는, 획득된 맵핑도 틀린 맵핑으로 되어 버린다고 하는 문제가 발생한다.
즉, "로봇의 조음 파라미터로부터 발성된 음운이 사람의 사회에 존재하는 음운이기는 하지만, 사용자와 동일한 음운과 맵핑되어 있지 않다"라고 하는 제1 에러, 또는, "로봇의 조음 파라미터로부터 발성된 음운이 사람의 사회에 존재하지 않고, 그 음운과 사람이 갖는 음운이 맵핑되고 있다"라고 하는 제2 에러가 발생하는 문제가 있었다.
따라서, 이 문제를 해결하기 위해, 전술한 바와 같이, 도 1의 정보 처리 장치로는, 또한, 사용자로부터의 보상을 받아, 이것을 외부로부터의 교사 신호로서 사용함으로써, 보다 더 정확한 맵핑을 생성하도록 하고 있다. 구체적으로는 예를 들면, 도 1의 정보 처리 장치(이하, 그것이 적용된 로봇으로 설명함)는, 사용자 사이에서, 도 21에 도시되는 프로토콜 P202이나 도 22에 도시되는 프로토콜 P203에 따라서, 이 문제를 해결 가능한 처리를 실행할 수 있다.
보다 구체적으로는 예를 들면, 어른(인간)이 아이(인간)에 음운을 가르치는 일반적인 수순과 마찬가지로, 처음에, 사용자(어른에 상당)는, 프로토콜 P202에 따른 처리를 로봇(아이에 상당)에 실행시킨다. 즉, 사용자는, 본보기가 되는 여러 가지 음운을 로봇에 부여함으로써 청각 SOM과 조음 SOM 사이의 맵핑(청각 SOM과 조음 SOM과의 노드끼리의 결합 웨이트)의 관계를 로봇에 학습시켜 간다. 그 후, 로봇이 맵핑의 관계에 어느 정도 익숙한 단계에서, 사용자는, 프로토콜 P203에 따른 처리를 로봇에 실행시킨다. 즉, 사용자는, 로봇에 랜덤하게 발성시켜(랜덤하게 합성음을 출력시켜), 랜덤하게 출력된 합성음(음운)에 대하여 보상을 부여하여감으로써 그 합성음에 대응하는 맵핑의 관계를 더 로봇에 학습시켜 간다. 이에 의해, 보다 한층더 정확한 맵핑의 획득이 가능하게 된다.
이하, 이러한 프로토콜 P202, P203의 각각에 대하여, 그 순서대로 개별로 설명해 간다.
처음에, 도 21을 참조하여, 프로토콜 P202에 대하여 설명한다.
이 프로토콜 P202은, 단계 S202-1, S202-2, S202-3로 이루어진다.
단, 단계 S202-1, S202-2의 각각은, 전술한 도 20의 프로토콜 P201의 단계 S201-1, S201-2의 각각과 기본적으로 마찬가지의 처리이기 때문에, 이들의 설명에 대해서는 생략한다. 따라서, 이하, 단계 S202-3에 대해서만 설명한다.
예를 들면, 사용자는, 단계 S202-2의 처리의 결과로 로봇이 발성한 음운이, 단계 S202-1의 처리에서의 본보기가 되는 음운(사용자가 발성한 음성)과 동일한 카테고리의 음이라고 평가한 경우, 단계 S202-3에서, 플러스 보상을 부여하는 것으로 된다. 하면, 로봇은, 단계 S202-1의 처리에서의 본보기가 되는 음운을 인식한 청 각 SOM 상의 HMM의 노드와, 단계 S202의 처리의 결과적으로 로봇 자신이 발성한 음운에 대응하는 조음 SOM 상의 HMM의 노드와의 결합 웨이트에 대하여, 플러스 보상을 받았을 때의 학습을 행한다. 즉, 로봇은, 그 결합 웨이트를 강화하도록 변경한다.
이것에 대하여 예를 들면, 사용자는, 단계 S202-2의 처리의 결과적으로 로봇이 발성한 음운이, 단계 S202-1의 처리에서의 본보기가 되는 음운(사용자가 발성한 음성)과는 다른 카테고리의 음이다고 평가한 경우, 단계 S202-3에서, 마이너스 보상을 부여하는 것으로 된다. 하면, 로봇은, 단계 S202-1의 처리에서의 본보기가 되는 음운을 인식한 청각 SOM 상의 HMM의 노드와, 단계 S202의 처리의 결과적으로 로봇 자신이 발성한 음운에 대응하는 조음 SOM 상의 HMM의 노드와의 결합 웨이트에 대하여, 마이너스 보상을 받았을 때의 학습을 행한다. 즉, 로봇은, 그 결합 웨이트를 약화하도록 변경한다. 그 결과, 단계 S202-2의 처리의 결과적으로 로봇보다 발성된 그 음운은, 그 이후, 점점 발성되지 않도록 되게 된다.
다음으로,도 22를 참조하여, 프로토콜 P203에 대하여 설명한다.
로봇은, 자유로운 타이밍으로, 전술한 바와 같이, 자신의 발성 기관(도 1의 정보 처리 장치)를 이용하여 조음 SOM 상의 HMM의 노드로부터 조음 파라미터(조음 파라미터 계열)을 생성하고, 또한 그에 대응하는 합성음(음운)을 발성하는 것이 가능하다. 이러한 로봇이 자발적인 발성에 대하여도, 사용자는 보상을 부여하는 것이 가능하고, 그것을 실현하는 프로토콜의 일례가 도 22의 프로토콜 P203이라고 되어 있다.
프로토콜 P203은, 다음 단계 S203-1, S203-2로 이루어진다.
즉, 단계 S203-1에서, 로봇은, 전술한 바와 같이, 랜덤하게 조음 SOM 상의 노드로부터 발생한다.
예를 들면, 단계 S203-1의 처리로 로봇이 발성한 합성음이, 사용자도 통상에 발성가능한 경우, 즉 사회에 존재하는 음성인 경우, 단계 S203-2에서, 사용자는, 플러스 보상을 부여하는 것으로 된다. 하면, 로봇은, 단계 S203-1의 처리로 자신이 발성한 합성음(음운)을 청각 SOM 상에서 인식했을 때의 그 청각 SOM 상의 노드를, 청각 SOM의 발화 승자 노드로서 결정한다. 또한, 로봇은, 단계 S203-1의 처리로 자신이 발성한 음운의 출력원이 되는 조음 SOM 상의 노드를, 조음 SOM의 승자 노드로서 결정한다. 그리고, 로봇은, 이 조음 SOM의 승자 노드와, 청각 SOM의 각 노드와의 결합 웨이트를, 청각 SOM의 발화 승자 노드와의 결합 웨이트가 가장 증대하도록(강화하도록) 변경한다.
이것에 대하여, 예를 들면, 단계 S203-1의 처리로 로봇이 발성한 합성음이, 사용자에게 있어서 발성이 곤란한 경우, 즉 사회에 존재하지 않은 음성인 경우, 단계 S203-2에서, 사용자는, 마이너스 보상을 부여하는 것으로 된다. 하면, 로봇은, 단계 S203-1의 처리로 자신이 발성한 합성음(음운)을 청각 SOM 상에서 인식했을 때의 그 청각 SOM 상의 노드를, 청각 SOM의 발화 승자 노드로서 결정한다. 또한, 로봇은, 단계 S203-1의 처리로 자신이 발성한 음운의 출력원이 되는 조음 SOM 상의 노드를, 조음 SOM의 승자 노드로서 결정한다. 그리고, 로봇은, 이 조음 SOM의 승자 노드와, 청각 SOM의 각 노드와의 결합 웨이트를, 이 청각 SOM의 발화 승자 노드 와의 결합 웨이트가 가장 감소하도록(약하게 하도록) 변경한다. 그 결과, 단계 S203-1의 처리로 로봇에 의해 발성된 음운은, 그 이후, 점점 발성되지 않게 된다.
또한, 도 21의 프로토콜 P202과 도 22의 프로토콜 P203 각각은, 전술한 예로서는 조합되고 이용되었지만, 각각 단독으로 이용하는 것도 가능하다.
특히, 도 22의 프로토콜 P203을 단독으로 이용함으로써 로봇이 발생할 수 있는 음운 중에서, 사회에 존재하지 않은 음운을 적확하게 배제하는 것이 가능하게 된다.
이상, 청각 SOM과 조음 SOM 사이의 맵핑(청각 SOM과 조음 SOM과의 노드끼리의 결합 웨이트)의 관계의 학습을 위한 프로토콜의 일례로서, 도 21의 P202과 도 22의 P203에 대하여 설명했다.
또한, 프로토콜 P202, P203에 있어서의 사용자의 보상이 부여하는 방법의 방법은, 특별히 한정되지 않지만, 프로토콜 P202, P203의 예로서는 도 1의 정보 처리 장치가 로봇에 적용되어 있기 때문에, 예를 들면, 다음 제1 방법이나 제2 방법을 채용하는 것이 가능하다.
즉, 보상을 부여하는 방법의 제1 방법이란, 사용자가, 플러스 보상을 부여하는 경우에는, 로봇의 머리부에 바쳐지고 있는 터치 센서(도시 생략)를 어루만지는 (소위 머리를 어루만지고 있다)라는 신호를, 또한, 마이너스 보상을 부여하는 경우에는, 그 터치 센서를 때리는 (소위 머리를 때린다)라는 신호를, 각각 로봇에 부여하는 방법이다.
또한, 보상을 부여하는 방법의 제2 방법이란, 사용자가, 플러스 보상을 부여 하는 경우에는, 로봇의 발성을 온순히 흉내 내는(낮은 음압으로 흉내 내는) 행동을 취하고, 또한, 마이너스 보상을 부여하는 경우에는, 그 로봇의 발성을 무시하는(피드백을 아무것도 돌려주지 않는)행동을 취하는 방법이다. 단,이 제2 방법이 적용되는 경우, 보상 취득부(9)는, 그것 자체로 음성 입력 기능을 갖는 구성, 혹은, 관측부(음성 입력부)(1) 내에 설치되고, 그 관측부(1)의 음성 입력 기능을 이용하도록 하면 좋다.
이상 설명한 바와 같이, 도 1의 정보 처리 장치는, 청각 SOM과 조음 SOM 사이의 맵핑(청각 SOM과 조음 SOM과의 노드끼리의 결합 웨이트)의 관계의 학습으로서, 도 20의 프로토콜 P201과 같은 자기 평가에 의한 학습(즉, 전술한 자기 학습용 결합 웨이트의 변경) 외에, 도 21의 프로토콜 P202이나 도 22의 프로토콜 P203과 같은 보상(플러스/마이너스)에 의한 교시에 기초하는 학습(즉, 전술한 교시 학습용 결합 웨이트의 변경)을 실행할 수 있다. 그 결과, 보다 더 정확한 맵핑의 관계를 얻을 수 있게 된다. 또한, 도 1의 정보 처리 장치가 사회에는 존재하지 않은 음운(합성음)을 출력한 경우에도, 교시에 기초하는 학습에 의해, 그 음운에 대응하는 맵핑의 관계는 용이하게 약하게 되어 가기 때문에, 그 결과, 사회에는 존재하지 않은 음운의 발성 빈도도 용이하게 내려가고, 최종적으로는(이상적으로는), 그 발성 자체가 없어지도록 할 수 있다.
다음으로,전술한 일련의 처리는, 하드웨어에 의해 행할 수도 있고, 소프트웨어에 의해 행할 수도 있다. 일련의 처리를 소프트웨어에 의해서 행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 범용의 컴퓨터 등에 인스톨된다.
따라서, 도 23은, 전술한 일련의 처리를 실행하는 프로그램이 인스톨되는 컴퓨터의 일 실시 형태의 구성예를 보이고 있다.
프로그램은, 컴퓨터에 내장되고 있는 기록 매체로서의 하드디스크(105)나 ROM(103)에 미리 기록해 둘 수 있다.
혹은 또한, 프로그램은, 플렉시블 디스크, CD- ROM(Compact Disc Read Only Memory), MO(Magneto Optical) 디스크, DVD(Digital Versatile Disc), 자기 디스크, 반도체 메모리 등의 탈착형 기록 매체(111)에, 일시적 혹은 영속적으로 저장(기록)해 둘 수 있다. 이러한 탈착형 기록 매체(111)는, 소위 패키지 소프트웨어로서 제공할 수 있다.
또한, 프로그램은, 전술한 바와 같은 탈착형 기록 매체(111)로부터 컴퓨터에 인스톨하는 것 외에, 다운로드 사이트로부터, 디지털 위성 방송용의 인공 위성을 통하여, 컴퓨터에 무선으로 전송하거나, LAN(Local Area Network), 인터넷 등의 네트워크를 통하여, 컴퓨터에 유선으로 전송하고, 컴퓨터에서는, 그와 같이 전송되어 오는 프로그램을, 통신부(108)로 수신하여, 내장하는 하드디스크(105)에 인스톨할 수 있다.
컴퓨터는, CPU(Central Processing Unit)(102)를 내장하고 있다. CPU(102)에는, 버스(101)를 통해, 입출력 인터페이스(110)가 접속되어 있다. CPU(102)는, 입출력 인터페이스(110)를 통하여, 사용자에 의해서, 키보드나, 마우스, 마이크 등으로 구성되는 입력부(107)가 조작됨으로써 명령이 입력되면, 그것에 따라서, ROM(Read Only Memory)(103)에 저장되어 있는 프로그램을 실행한다. 또한, CPU(102)은, 하드디스크(105)에 저장되어 있는 프로그램, 위성 혹은 네트워크로부터 전송되어, 통신부(108)로 수신되어 하드디스크(105)에 인스톨된 프로그램, 또는 드라이브(109)에 장착된 탈착형 기록 매체(111)로부터 판독되어 하드디스크(105)에 인스톨된 프로그램을, RAM(Random Access Memory)(104)에 로드하여 실행한다. 이에 의해, CPU(102)는, 전술한 플로우차트로 원하는 처리, 혹은 전술한 블록도의 구성에 의해 행해지는 처리를 행한다. 그리고, CPU(102)는, 그 처리 결과를, 필요에 따라, 예를 들면, 입출력 인터페이스(110)를 통하여, LCD(Liquid Crystal Display)이나 스피커 등으로 구성되는 출력부(106)로부터 출력, 혹은, 통신부(108)로부터 송신, 그 외에, 하드디스크(105)에 기록 등을 시킨다.
여기서, 본 명세서에서, 컴퓨터에 각종의 처리를 행하게 하기 위한 프로그램을 기술하는 처리 단계은, 반드시 플로우차트로서 기재된 순서를 따라 시계열로 처리할 필요는 없고, 병렬적 혹은 개별로 실행되는 처리(예를 들면, 병렬 처리 혹은 오브젝트에 의한 처리)도 포함하는 것이다.
또한, 프로그램은, 하나의 컴퓨터에 의해 처리되는 것이더라도 좋고, 복수의 컴퓨터에 의해서 분산 처리되는 것이더라도 좋다. 또한, 프로그램은, 먼 곳의 컴퓨터에 전송되고 실행되는 것이더라도 좋다.
또한, 도 1의 정보 처리 장치는, 실제의 로봇 외, 예를 들면, 가상적인 로봇, 즉, 예를 들면, 디스플레이 상에 표시되는 캐릭터 등에도 적용할 수 있다.
또한, 본 실시의 형태에서는, 청각 SOM 및 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)(도 5)로서, 상태 천이 확률 모델의 1개인 HMM을 채용하는 것으로 했 지만, 시계열 패턴 모델(21)로서는, 다른 상태 천이 확률 모델을 채용하는 것이 가능하다.
시계열 패턴 모델(21)로서 채용할 수 있는 다른 상태 천이 확률 모델로서는, 예를 들면, 베이지안 네트워크(Bayesian network)가 있다.
베이지안 네트워크에서는, 변수 사이의 의존 관계를 그래프 구조로 나타내어, 각 노드에 조건부 확률을 할당하는 것으로 모델화가 행해지지만, 특히, 시간 축을 따른 상태 천이 모델을 구축함으로써, 시계열 데이터를 모델화하는 것이 가능하게 된다.
또한, 베이지안 네트워크의 그래프 구조의 결정은, 예를 들면, 학습 데이터의 우도와 그래프 구조의 복잡도(complexity)를 고려한 모델을 선택함으로써 행해지고, 조건부 확률의 추정에는, 예를 들면, 최대 우도 추정법이나 EM(Expectation Maximization) 알고리즘 등이 이용된다. 여기서, 베이지안 네트워크의 상세에 대해서는, 예를 들면, "Bayesian networks as representation for uncertainty modeling"(Yoichi Kimura, Tutorial on Bayesian Networks, 2001)에 기재되어 있다.
또한, 시계열 패턴 모델(21)(도 5)에서는, 전술된 바와 같이, HMM이나 베이지안 네트워크 등과 같은 상태 천이 확률 모델을 채용할 수 있는, 함수를 근사하는 모델(이하, '함수 근사 모델')을 채용할 수도 있다.
함수 근사 모델은, 시계열 패턴을, 함수 f()를 이용하여, 예를 들면, 미분방정식{x(t)}'= f(x(t))이나, 차분 방정식 x(t+1)= f(x(t)) 등으로 표현하는 모델로, 함수 f()가, 시계열 패턴을 특징짓는다. 또한, t는 시각(샘플점)을 나타내며, x(t)는 시각 t의 시계열 데이터의 샘플 값, 또는 시각(0으로부터) t까지 관측되었을 때 계열 데이터를 나타낸다. 또한, {x(t)}'는 시계열 데이터 x(t)의 시간 t에 관한 1차 미분을 나타낸다.
학습 데이터(시계열 데이터)로부터의 계열 패턴을 나타내는 함수 f()를 구하는 것을, 함수 근사라고 부르면, 함수 근사의 방법으로서는, 예를 들면, 다항식 등을 이용하여 함수 f()를 표현하고, 그 다항식의 계수를 학습 데이터로부터 결정하는 방법이나, 뉴럴 네트워크(뉴럴 네트워크)에 의해서 함수 f()를 표현하고, 그 뉴럴 네트워크의 파라미터를, 학습 데이터로부터 결정하는 방법 등이 있다.
다항식으로 표현된 함수 f()의 함수 근사에서, 그 다항식의 계수의 결정(추정)은, 예를 들면, 최급강하법(steepest descent method) 등에 따라서 행할 수 있다. 또한, 뉴럴 네트워크에 의해서 표현된 함수 f()의 함수 근사에서,그 뉴럴 네트워크의 파라미터의 결정은, 예를 들면, 백-프로퍼게이션(back-propagation)백-프로퍼게이션법에 의해서 행할 수 있다. 여기서, 백-프로퍼게이션법에서는, 뉴럴 네트워크에 입력과 출력의 데이터를 부여하여, 그 입력과 출력의 데이터가 관계를 충족시키도록, 뉴럴 네트워크의 파라미터의 학습이 행하여진다.
예를 들면, 시계열 패턴 모델(21)에서, 함수 f()를 이용한 차분 방정식 x(t+ 1)= f(x(t))으로 시계열 패턴을 표현하는 함수 근사 모델을 채용하는 경우, 입력층 x(t)과 출력층 x(t+1)을 연결하는 웨이트(중간층)가, 뉴럴 네트워크의 파라미터이고, 이 파라미터가 학습 데이터(시계열 데이터)를 이용하여 학습된다. 뉴럴 네트 워크의 파라미터의 학습은, 초기값을 적당하게 부여하여, 백-프로퍼게이션법에 의해 행해진다. 또한, 뉴럴 네트워크로서는, 예를 들면, 리커런트 뉴럴 네트워크(recurrent neural network)를 채용할 수 있다.
함수 f()가 뉴럴 네트워크에 의해서 표현될 때, 계열 패턴 모델(21)을 갖는 노드로 구성되는 청각 SOM 및 조음 SOM의 학습의 경우, 전술한 HMM을 시계열 패턴 모델(21)로서 채용한 경우와 마찬가지로, 승자 노드를 결정할 필요가 있고, 승자 노드의 결정을 위해서는, 청각 SOM 또는 조음 SOM의 각 노드의, 새로운 시계열 데이터로서의 음향 파라미터 계열 또는 조음 파라미터 계열에 대한 스코어를 계산할 필요가 있다.
이 스코어로서는, 예를 들면, 새로운 시계열 데이터의 관측값(실제의 값)과, 함수 f()가 뉴럴 네트워크에 의해서 표현될 때 계열 패턴 모델(21)로부터 요청되는 새로운 시계열 데이터의 이론값과의 차의 제곱합 등을 채용할 수 있다. 이 경우, 스코어의 값이 가장 작은 노드가, 새로운 시계열 데이터에 가장 유사한 노드인 승자 노드로서 결정된다.
승자 노드의 결정 후는, 각 노드 변경 웨이트를 결정하고, 이하, 전술한 HMM을 시계열 패턴 모델(21)로서 채용한 경우와 마찬가지의 수순으로, 각 노드(가 갖는 뉴럴 네트워크)의 파라미터를 변경할 수 있다.
또한, 청각 SOM과 조음 SOM의 노드 각각은, 반드시, 동일한 시계열 패턴 모델(21)을 갖고 있지 않으면 안 되는 것은 아니다. 즉, 청각 SOM의 노드가 갖는 시계열 패턴 모델(21)로서는, 예를 들면, HMM을 채용하고, 조음 SOM의 노드가 갖는 시계열 패턴 모델(21)로서는, 예를 들면, 뉴럴 네트워크을 채용할 수 있다.
또한, 본 실시의 형태에서는, 청각 SOM의 노드를, 도 5로 설명한 바와 같이, 시계열 패턴을 표현할 때 계열 패턴 모델(21)과, 그 시계열 패턴 모델(21)의 학습에 이용하는 시계열 데이터인 학습 데이터를 기억하는 학습 데이터 기억부(22)로 구성하도록 했지만, 청각 SOM의 노드는 반드시 시계열 패턴 모델(21)과 학습 데이터 기억부(22)로 구성할 필요는 없다. 즉, 청각 SOM의 노드는, 전술의 비특허문헌1 등에 기재되어 있는, 종래의 자기 조직화 맵과 마찬가지로, 단순히, 파라미터(음향 파라미터)를 갖는 것이라도 좋다. 단, 청각 SOM의 노드를, 시계열 패턴 모델(21)로 구성하는 경우에는, 시계열 데이터의 입력에 대하여 승자 노드를 결정(시계열 데이터를 인식)하는 것, 및 노드 라벨의 입력에 대하여 시계열 데이터를 생성할 수 있지만, 청각 SOM의 노드가, 종래의 자기 조직화 맵과 마찬가지로, 단순히, 파라미터(음향 파라미터)를 갖질 뿐인 경우에는, 그 청각 SOM에 따라, 길이가 고정 길이의 데이터의 입력에 대하여 승자 노드를 결정하는 것, 및 길이가 고정의 데이터를 생성하는 것밖에 할 수 없고, 따라서, 길이가 가변의 시계열 데이터의 입력에 대하여 승자 노드를 결정하는 것, 및 길이가 가변의 시계열 데이터를 생성하는 것은 곤란하다. 조음 SOM 에 대해서도 마찬가지다.
또한, 본 실시의 형태에서는, 음성(합성음)의 인식에 이용하는 청각 SOM과, 합성음의 생성에 이용하는 조음 SOM을 준비하고, 사용자의 발화를 청각 SOM을 이용하여 인식하는 한편,조음 SOM을 이용하여 합성음을 생성하며, 그 합성음을 청각 SOM을 이용하여 인식함으로써, 청각 SOM을 이용하여 인식한 사용자의 발화를 흉내 낸 합성음을 청각 SOM을 이용하여 생성할 수 있도록, 청각 SOM 및 조음 SOM의 노드끼리의 결합 웨이트의 변경, 즉, 청각 SOM과 조음 SOM과의 맵핑을 행하도록 했지만, 그 밖의 복수의 자기 조직화 맵끼리의 맵핑을 행하는 것도 가능하다.
구체적으로는, 예를 들면, 액튜에이터를 구동함으로써 움직일 수 있는 로봇에서, 화상의 인식에 이용하는 자기 조직화 맵(이하, '시각 SOM')과, 액튜에이터를 구동하는(파라미터를 생성하는)것을 이용하는 자기 조직화 맵(이하, '운동 SOM')을 준비하고, 사용자의 움직임을 시각 SOM을 이용하여 인식하는 한편, 운동 SOM을 이용하여 액튜에이터를 구동하고, 그 결과 움직이는 로봇의 움직임을 시각 SOM을 이용하여 인식함으로써, 시각 SOM을 이용하여 인식한 사용자의 움직임을 흉내내는 동작을 하는 액튜에이터의 구동을 운동 SOM을 이용할 수 있도록, 시각 SOM과 운동 SOM과의 맵핑을 행할 수 있다. 또한, 로봇의 움직임은, 예를 들면, 거울을 배치해 놓고, 그 거울에 비치는 로봇의 모습을 관측함으로써, 로봇 자신이, 시각 SOM을 이용하여 인식할 수 있다.
또한, 예를 들면, 액튜에이터를 구동함으로써 움직일 수 있는 로봇에서, 청각 SOM과 운동 SOM을 준비하고, 사용자가 악기를 연주함으로써 연주한 멜로디를 청각 SOM을 이용하여 인식하는 한편, 운동 SOM을 이용하여 액튜에이터를 구동하고, 그 결과 움직이는 로봇에 의한 악기의 연주에 의해 연주되는 멜로디를 청각 SOM을 이용하여 인식함으로써, 청각 SOM을 이용하여 인식한 사용자가 연주하는 멜로디를 흉내 낸 멜로디를 연주하는 동작을 하는 액튜에이터의 구동을 운동 SOM을 이용하여 할 수 있도록, 청각 SOM과 운동 SOM과의 맵핑을 행할 수 있다.
또한,이 경우, 청각 SOM과 운동 SOM 외에, 시각 SOM도 준비하고, 사용자가 악기를 연주하는 움직임을 시각 SOM을 이용하여 인식하는 한편, 운동 SOM을 이용하여 액튜에이터를 구동하고, 그 결과 움직이는 로봇의 움직임을 시각 SOM을 이용하여 인식함으로써, 시각 SOM을 이용하여 인식한 사용자의 연주의 움직임을 흉내한 동작을 하는 액튜에이터의 구동을 운동 SOM을 이용하여 할 수 있도록, 시각 SOM과 운동 SOM과의 맵핑을 행하도록 할 수 있다. 또한,이 경우, 청각 SOM의 승자 노드와의 결합 웨이트가 최대의 운동 SOM의 노드와, 시각 SOM의 승자 노드와의 결합 웨이트가 최대의 운동 SOM의 노드와가 일치하는 것은 아니기 때문에, 운동 SOM의 어느 쪽의 노드를, 액튜에이터의 구동에 이용하는 파라미터(제2 파라미터)의 생성에 이용하는 생성 노드로 할 것인가가 문제가 되지만, 예를 들면, 운동 SOM의 노드 중, 청각 SOM의 승자 노드와의 결합 웨이트와, 시각 SOM의 승자 노드와의 결합 웨이트와의 합이 최대인 노드를 생성 노드로 할 수 있다.
본 발명에 따르면, 예를 들어, 로봇 등이, 자기의 행동을 능동적으로 변경하고, 그 행동을 자기 평가함으로써, 자기의 행동을, 외부로부터 공급되는 자극에 적응시키도록 할 수 있다. 특히, 예를 들면, 로봇 등이, 자기의 행동을 능동적으로 변경하고, 자기의 행동을, 외부로부터 공급되는 자극에 적응시키기 위해서 필요한 정보로서, 결합 웨이트를 보다 한층 더 적절하게 생성(변경)하는 것이 가능하게 된다.

Claims (7)

  1. 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합 강도(connection strengths)를 나타내는 결합 웨이트(connection weights)를 포함하는 결합 네트워크(connection network)를 기억하는 결합 네트워크 기억 수단과,
    외부를 관측하여, 관측된 값을 출력하는 관측 수단(observation means)이 출력하는 관측값으로부터 추출되는 제1 파라미터에 기초하여, 상기 제1 자기 조직화 맵의 학습(learning)을 행하는 제1 학습 수단과,
    상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도(likelihood)를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 승자 노드 결정 수단과,
    상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드인 생성 노드를 탐색하여, 검출된 노드를 생성 노드로서 이용하는 탐색 수단과,
    상기 생성 노드로부터 제2 파라미터를 생성하는 파라미터 생성 수단과,
    상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 변경 수단과,
    상기 제2 파라미터에 따라 구동 수단(driving means)이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여 부를 판정하는 판정 수단과,
    상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 제1 결합 웨이트 변경 수단과,
    상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상(reward)으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 제2 결합 웨이트 변경 수단과,
    상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 제2 학습 수단
    을 포함하는 정보 처리 장치.
  2. 제1항에 있어서,
    상기 보상은 플러스 보상 또는 마이너스 보상이고,
    상기 제2 결합 웨이트 변경 수단은, 상기 플러스 보상이 상기 사용자로부터 공급된 경우에는 상기 결합 웨이트를 강화하도록 변경하고, 상기 마이너스 보상이 상기 사용자로부터 공급된 경우에는 상기 결합 웨이트를 약화하도록 변경하는 정보 처리 장치.
  3. 제2항에 있어서,
    상기 제2 결합 웨이트 변경 수단은, 상기 결합 웨이트의 강화 또는 약화의 정도를, 상기 제1 결합 웨이트 변경 수단에 의한 상기 결합 웨이트의 강화 또는 약 화의 정도보다 더 크도록, 상기 결합 웨이트를 변경하는 정보 처리 장치.
  4. 제2항에 있어서,
    상기 제2 결합 웨이트 변경 수단은, 상기 결합 웨이트의 강화 또는 약화의 정도를 그 변경 횟수에 따라서 가변시켜, 상기 결합 웨이트를 변경하는 정보 처리 장치.
  5. 외부를 관측하여, 관측된 값을 출력하는 관측 수단이 출력하는 관측 수단에 의해 출력되는 관측값으로부터 추출되는 제1 파라미터에 기초하여, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합의 정도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하는 결합 네트워크 기억 수단에 기억된 상기 제1 자기 조직화 맵을 학습하는 단계와,
    상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 결정 단계와,
    상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드를 탐색하고, 검출된 노드를 생성 노드로서 이용하는 단계와,
    상기 생성 노드로부터, 제2 파라미터를 생성하는 단계와,
    상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 단계와,
    상기 제2 파라미터에 따라 구동 수단이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하는 단계와,
    상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 단계와,
    상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 단계와,
    상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 단계
    를 포함하는 정보 처리 방법.
  6. 컴퓨터에 의해 실행되는 프로그램으로서,
    외부를 관측하여, 관측된 값을 출력하는 관측 수단이 출력하는 관측 수단에 의해 출력되는 관측값으로부터 추출되는 제1 파라미터에 기초하여, 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합의 정도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하는 결합 네트워크 기억 수단에 기억된 상기 제1 자기 조직화 맵을 학습하는 단계와,
    상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하는 결정 단 계와,
    상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드를 탐색하고, 검출된 노드를 생성 노드로서 이용하는 단계와,
    상기 생성 노드로부터, 제2 파라미터를 생성하는 단계와,
    상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키는 단계와,
    상기 제2 파라미터에 따라 구동 수단이 구동 동작을 수행하는 경우, 상기 관측 수단에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하는 단계와,
    상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하는 단계와,
    상기 구동 수단의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상으로서 공급된 경우에, 상기 결합 웨이트를 변경하는 단계와,
    상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하는 단계
    를 포함하는 프로그램.
  7. 복수의 노드를 각각 포함하는 제1 자기 조직화 맵 및 제2 자기 조직화 맵과, 상기 제1 자기 조직화 맵 및 상기 제2 자기 조직화 맵 사이의 노드들의 결합 강도를 나타내는 결합 웨이트를 포함하는 결합 네트워크를 기억하도록 적응된 결합 네트워크 기억부와,
    외부를 관측하여, 관측된 값을 출력하는 관측부가 출력하는 관측값으로부터 추출되는 제1 파라미터에 기초하여, 상기 제1 자기 조직화 맵의 학습을 행하도록 적응된 제1 학습부와,
    상기 제1 자기 조직화 맵의 노드에서, 상기 제1 파라미터가 관측되는 가장 높은 우도를 갖는 노드를 검출하고, 검출된 노드를 승자 노드로 결정하도록 적응된 승자 노드 결정부와,
    상기 제2 자기 조직화 맵에서, 상기 승자 노드와의 결합의 정도가 가장 높은 노드인 생성 노드를 탐색하여, 검출된 노드를 생성 노드로서 이용하도록 적응된 탐색 부와,
    상기 생성 노드로부터 제2 파라미터를 생성하도록 적응된 파라미터 생성부와,
    상기 생성 노드로부터 생성되는 제2 파라미터를 변경시키도록 적응된 변경부와,
    상기 제2 파라미터에 따라 구동부가 구동 동작을 수행하는 경우, 상기 관측부에 의해 관측되는 값에 대하여 결정되는 상기 승자 노드에 따라 수행되는, 상기 제2 파라미터의 변경을 종료하는 종료 조건이 만족되는지 여부를 판정하도록 적응된 판정부와,
    상기 종료 조건이 만족하는 경우에, 상기 결합 웨이트를 변경하도록 적응된 제1 결합 웨이트 변경부와,
    상기 구동부의 구동의 결과에 대한 사용자의 평가가 상기 사용자로부터 보상 으로서 공급된 경우에, 상기 결합 웨이트를 변경하도록 적응된 제2 결합 웨이트 변경부와,
    상기 종료 조건이 만족하는 경우에 취득되는 상기 제2 파라미터에 기초하여, 상기 제2 자기 조직화 맵을 학습하도록 적응된 제2 학습부
    를 포함하는 정보 처리 장치.
KR1020060030847A 2005-04-05 2006-04-05 정보 처리 장치, 정보 처리 방법, 및 프로그램 KR20060107329A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005108185A JP4843987B2 (ja) 2005-04-05 2005-04-05 情報処理装置、情報処理方法、およびプログラム
JPJP-P-2005-00108185 2005-04-05

Publications (1)

Publication Number Publication Date
KR20060107329A true KR20060107329A (ko) 2006-10-13

Family

ID=37084341

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060030847A KR20060107329A (ko) 2005-04-05 2006-04-05 정보 처리 장치, 정보 처리 방법, 및 프로그램

Country Status (4)

Country Link
US (1) US7499892B2 (ko)
JP (1) JP4843987B2 (ko)
KR (1) KR20060107329A (ko)
CN (1) CN1855224B (ko)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8782654B2 (en) 2004-03-13 2014-07-15 Adaptive Computing Enterprises, Inc. Co-allocating a reservation spanning different compute resources types
WO2005091136A1 (en) 2004-03-13 2005-09-29 Cluster Resources, Inc. System and method for a self-optimizing reservation in time of compute resources
US20070266388A1 (en) 2004-06-18 2007-11-15 Cluster Resources, Inc. System and method for providing advanced reservations in a compute environment
US8176490B1 (en) 2004-08-20 2012-05-08 Adaptive Computing Enterprises, Inc. System and method of interfacing a workload manager and scheduler with an identity manager
CA2586763C (en) 2004-11-08 2013-12-17 Cluster Resources, Inc. System and method of providing system jobs within a compute environment
US8863143B2 (en) 2006-03-16 2014-10-14 Adaptive Computing Enterprises, Inc. System and method for managing a hybrid compute environment
US9231886B2 (en) 2005-03-16 2016-01-05 Adaptive Computing Enterprises, Inc. Simple integration of an on-demand compute environment
WO2006108187A2 (en) 2005-04-07 2006-10-12 Cluster Resources, Inc. On-demand access to compute resources
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
CN101136106B (zh) * 2006-08-30 2010-07-07 国际商业机器公司 基于双曲几何显示加权树的方法和计算机***
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
US8301449B2 (en) * 2006-10-16 2012-10-30 Microsoft Corporation Minimum classification error training with growth transformation optimization
US7877343B2 (en) * 2007-04-02 2011-01-25 University Of Washington Through Its Center For Commercialization Open information extraction from the Web
US7987484B2 (en) 2007-06-24 2011-07-26 Microsoft Corporation Managing media content with a self-organizing map
US8041773B2 (en) 2007-09-24 2011-10-18 The Research Foundation Of State University Of New York Automatic clustering for self-organizing grids
JP2010157890A (ja) * 2008-12-26 2010-07-15 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US11720290B2 (en) 2009-10-30 2023-08-08 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US10877695B2 (en) 2009-10-30 2020-12-29 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
JP5633734B2 (ja) * 2009-11-11 2014-12-03 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20130257877A1 (en) * 2012-03-30 2013-10-03 Videx, Inc. Systems and Methods for Generating an Interactive Avatar Model
US9764468B2 (en) 2013-03-15 2017-09-19 Brain Corporation Adaptive predictor apparatus and methods
PL403724A1 (pl) * 2013-05-01 2014-11-10 Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa
US9242372B2 (en) 2013-05-31 2016-01-26 Brain Corporation Adaptive robotic interface apparatus and methods
US9314924B1 (en) 2013-06-14 2016-04-19 Brain Corporation Predictive robotic controller apparatus and methods
US9792546B2 (en) * 2013-06-14 2017-10-17 Brain Corporation Hierarchical robotic controller apparatus and methods
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US9597797B2 (en) 2013-11-01 2017-03-21 Brain Corporation Apparatus and methods for haptic training of robots
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US9311430B2 (en) * 2013-12-16 2016-04-12 Mitsubishi Electric Research Laboratories, Inc. Log-linear dialog manager that determines expected rewards and uses hidden states and actions
US9358685B2 (en) 2014-02-03 2016-06-07 Brain Corporation Apparatus and methods for control of robot actions based on corrective user inputs
US9630318B2 (en) 2014-10-02 2017-04-25 Brain Corporation Feature detection apparatus and methods for training of robotic navigation
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US10917788B2 (en) * 2014-11-19 2021-02-09 Imprivata, Inc. Inference-based detection of proximity changes
US9717387B1 (en) 2015-02-26 2017-08-01 Brain Corporation Apparatus and methods for programming and training of robotic household appliances
US9984154B2 (en) * 2015-05-01 2018-05-29 Morpho Detection, Llc Systems and methods for analyzing time series data based on event transitions
JP2017027145A (ja) * 2015-07-16 2017-02-02 ソニー株式会社 表示制御装置、表示制御方法、及び、プログラム
CN106940998B (zh) * 2015-12-31 2021-04-16 阿里巴巴集团控股有限公司 一种设定操作的执行方法及装置
US10541817B2 (en) * 2016-03-14 2020-01-21 Ricoh Company, Ltd. Data generation apparatus, data recording system, and program product
US9928408B2 (en) * 2016-06-17 2018-03-27 International Business Machines Corporation Signal processing
CN107833572A (zh) * 2017-11-06 2018-03-23 芋头科技(杭州)有限公司 一种模拟用户说话的语音合成方法及***
JP7353747B2 (ja) * 2018-01-12 2023-10-02 キヤノン株式会社 情報処理装置、システム、方法、およびプログラム
US11992930B2 (en) 2018-03-20 2024-05-28 Sony Corporation Information processing apparatus and information processing method, and robot apparatus
US10810993B2 (en) * 2018-10-26 2020-10-20 Deepmind Technologies Limited Sample-efficient adaptive text-to-speech
WO2022244047A1 (ja) * 2021-05-17 2022-11-24 日本電信電話株式会社 学習装置、学習方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3312149B2 (ja) * 1993-12-27 2002-08-05 シャープ株式会社 文字や音声の認識装置における認識評価閾値の作成方法
US5729662A (en) * 1995-06-07 1998-03-17 Rozmus; J. Michael Neural network for classification of patterns with improved method and apparatus for ordering vectors
US6456991B1 (en) * 1999-09-01 2002-09-24 Hrl Laboratories, Llc Classification method and apparatus based on boosting and pruning of multiple classifiers
CN1484806A (zh) * 2000-07-18 2004-03-24 �����弪��ϵͳ��˾ 基于隐含模式用于从生物数据中识别生物状态的方法
JP2002239952A (ja) * 2001-02-21 2002-08-28 Sony Corp ロボット装置、ロボット装置の行動制御方法、プログラム及び記録媒体
JP2003099089A (ja) * 2001-09-20 2003-04-04 Sharp Corp 音声認識・合成装置および方法
DE10216117A1 (de) * 2002-04-12 2003-10-23 Philips Intellectual Property Verfahren und System zur Spracherkennung von Symbolfolgen
JP2004030628A (ja) * 2002-05-10 2004-01-29 Sony Corp 情報処理装置および方法、プログラム格納媒体、並びにプログラム
US7197503B2 (en) * 2002-11-26 2007-03-27 Honeywell International Inc. Intelligent retrieval and classification of information from a product manual
CN1217290C (zh) * 2003-07-07 2005-08-31 西安理工大学 二维条码身份证件防伪***自动识读方法
JP4639784B2 (ja) * 2004-12-06 2011-02-23 ソニー株式会社 学習装置および学習方法、並びにプログラム

Also Published As

Publication number Publication date
JP2006285882A (ja) 2006-10-19
US7499892B2 (en) 2009-03-03
CN1855224B (zh) 2010-06-16
US20060230140A1 (en) 2006-10-12
JP4843987B2 (ja) 2011-12-21
CN1855224A (zh) 2006-11-01

Similar Documents

Publication Publication Date Title
KR20060107329A (ko) 정보 처리 장치, 정보 처리 방법, 및 프로그램
JP4639784B2 (ja) 学習装置および学習方法、並びにプログラム
KR100814569B1 (ko) 로봇 제어 장치
US7062438B2 (en) Speech synthesis method and apparatus, program, recording medium and robot apparatus
US7346595B2 (en) Method and apparatus for learning data, method and apparatus for generating data, and computer program
JP4201012B2 (ja) データ処理装置、データ処理方法、およびプログラム
EP1345207A1 (en) Method and apparatus for speech synthesis program, recording medium, method and apparatus for generating constraint information and robot apparatus
JP2004090109A (ja) ロボット装置およびロボット装置の対話方法
KR20030007793A (ko) 음성 처리 장치
JP2003255991A (ja) 対話制御システム、対話制御方法及びロボット装置
Fels Glove-talkII: mapping hand gestures to speech using neural networks-an approach to building adaptive interfaces.
JP4534769B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20210291379A1 (en) Robot, speech synthesizing program, and speech output method
Howard et al. A computational model of infant speech development
Tanaka et al. Pronunciation adaptive self speaking agent using wavegrad
WO2022156974A1 (en) Method, system and apparatus for measuring the cognitive load of a user
JP2002307349A (ja) ロボット装置、情報学習方法、プログラム及び記録媒体
JP2003271172A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2007280007A (ja) データ処理装置、データ処理方法、およびプログラム
KR102503066B1 (ko) 어텐션 얼라인먼트의 스코어를 이용하여 스펙트로그램의 품질을 평가하는 방법 및 음성 합성 시스템
JP4178777B2 (ja) ロボット装置、記録媒体、並びにプログラム
JP2007280009A (ja) データ処理装置、データ処理方法、およびプログラム
Sairanen Deep learning text-to-speech synthesis with Flowtron and WaveGlow
Xu et al. Artificial vocal learning guided by speech recognition: What it may tell us about how children learn to speak
JP2002175091A (ja) 音声合成方法及び装置、並びにロボット装置

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid