KR102644989B1

KR102644989B1 - 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법

Info

Publication number: KR102644989B1
Application number: KR1020230048347A
Authority: KR
Inventors: 김경임; 김경호
Original assignee: 주식회사 알을깨는사람들
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2024-03-08

Abstract

인공지능 알고리즘에 기초하여 상담 서비스를 제공하는 방법 및 장치가 개시된다. 본 개시의 일 실시예에 따른, 장치에 의해 수행되는, 인공지능 알고리즘에 기초하여 상담 서비스를 제공하는 방법은, 고인의 음성 데이터를 수집하는 단계; 상기 고인의 음성 데이터를 전처리하고, 상기 전처리된 고인의 음성 데이터에 대한 특징 데이터를 추출하는 단계; 상기 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 제1 임계값을 초과하는지 여부를 판단하는 단계; 상기 음소의 개수가 상기 제1 임계값을 초과하는 것으로 판단된 경우, 상기 특징 데이터 및 상기 특징 데이터에 대응되는 텍스트 데이터에 기초하여 입력 텍스트에 대응되는 고인 음성이 출력되도록 제1 AI 모델을 학습시키는 단계; 심리 상담 치료 및 인지 행동 치료를 위한 질문 텍스트 데이터베이스 및 답변 텍스트 데이터베이스에 기초하여 질문 텍스트 또는 답변 텍스트를 출력하도록 학습된 제2 AI 모델의 출력 레이어에 상기 제1 AI 모델의 입력 레이어를 연결함으로써 전체 AI 모델을 획득하는 단계; 심리 상담 치료 또는 인지 행동 치료를 위한 특정 질문이 포함된 제1 사용자 음성 데이터를 입력 데이터로 이용하여 상기 특정 질문에 대한 답변이 포함된 상기 고인의 음성을 출력하도록 상기 전체 AI 모델을 학습시키는 단계를 포함하고, 상기 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 상기 제1 임계값을 이하인 것으로 판단된 경우, 상기 고인의 음성과 연관된 제2 사용자의 음성 데이터에 기초하여 상기 제1 AI 모델이 학습될 수 있다.

Description

인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법{METHOD FOR PROVIDING PSYCHOLOGICAL COUNSELING SERVICE USING VOICE DATA OF THE DECEASED BASED ON ARTIFICIAL INTELLIGENCE ALGORITHM}

본 개시는 음성 분석 및 서비스 제공 분야에 관한 것으로서, 더욱 상세하게는 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법에 관한 것이다.

챗봇(chatbot)은 음성이나 문자를 통한 사용자와의 대화를 통하여 특정 작업을 수행하도록 제작된 컴퓨터 프로그램을 통칭한다. 최근 기하급수적으로 발전된 언어 분석과 관련된 인공지능(artificial intelligence, AI) 알고리즘이 챗봇에 적용됨에 따라 챗봇의 성능 및 활용성은 점차 확장되고 있다.

현재 챗봇은 스마트폰이나 AI 스피커 등에 탑재되어 정보 검색, 기기 제어, 법률상담 등과 같은 특정 태스크 수행을 목적으로 주로 활용되고 있다. 뿐만 아니라, 1인 가구 증가 및 독거 노인이 증가함에 따라 챗봇을 친구, 개인 비서, 또는 상담사 등으로 간주하는 경향이 증가하고 있다.

한편, 바쁜 현대인들은 경제 활동 및 대인 활동 등 다양한 분야에서 극심한 스트레스를 느끼고 있음에도 이를 해소할 시간적 금전적 여유가 없는 경우가 많다는 문제점이 존재한다. AI 알고리즘이 탑재된 챗봇이 이러한 현대인들의 대안으로 떠오르고 있는 실정이다.

공개특허공보 출원번호 제10-2019-0148962호 (2021.05.27. 공개)

본 개시는 상술된 문제점을 해결하기 위해 안출된 것으로서, 본 개시의 목적은 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법을 제공함에 있다.

본 개시가 해결하고자 하는 과제들은 이상에서 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

본 개시의 일 실시예로, 장치에 의해 수행되는, 인공지능 알고리즘에 기초하여 상담 서비스를 제공하는 방법은, 고인의 음성 데이터를 수집하는 단계; 상기 고인의 음성 데이터를 전처리하고, 상기 전처리된 고인의 음성 데이터에 대한 특징 데이터를 추출하는 단계; 상기 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 제1 임계값을 초과하는지 여부를 판단하는 단계; 상기 음소의 개수가 상기 제1 임계값을 초과하는 것으로 판단된 경우, 상기 특징 데이터 및 상기 특징 데이터에 대응되는 텍스트 데이터에 기초하여 입력 텍스트에 대응되는 고인 음성이 출력되도록 제1 AI 모델을 학습시키는 단계; 심리 상담 치료 및 인지 행동 치료를 위한 질문 텍스트 데이터베이스 및 답변 텍스트 데이터베이스에 기초하여 질문 텍스트 또는 답변 텍스트를 출력하도록 학습된 제2 AI 모델의 출력 레이어에 상기 제1 AI 모델의 입력 레이어를 연결함으로써 전체 AI 모델을 획득하는 단계; 심리 상담 치료 또는 인지 행동 치료를 위한 특정 질문이 포함된 제1 사용자 음성 데이터를 입력 데이터로 이용하여 상기 특정 질문에 대한 답변이 포함된 상기 고인의 음성을 출력하도록 상기 전체 AI 모델을 학습시키는 단계를 포함하고, 상기 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 상기 제1 임계값 이하인 것으로 판단된 경우, 상기 고인의 음성과 연관된 제2 사용자의 음성 데이터에 기초하여 상기 제1 AI 모델이 학습될 수 있다.

그리고, 상기 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 상기 제1 임계값 이하인 것으로 판단됨에 기반하여: 복수의 사용자의 음성 데이터로 구축된 음성 데이터베이스로부터 상기 고인의 음성과의 유사도가 제2 임계값을 초과하는 상기 제2 사용자의 음성 데이터가 식별되고, 상기 제2 사용자의 음성 데이터로부터 상기 추출된 특징 데이터로부터 획득할 수 없는 음소 유형과 관련된 보충 음성 데이터가 추출될 수 있다.

그리고, 상기 특징 데이터 및 상기 보충 음성 데이터를 합성하여 보정 음성 데이터가 획득되고, 상기 보정 음성 데이터 및 상기 보정 음성 데이터에 대응되는 텍스트 데이터에 기초하여 상기 제1 AI 모델이 학습될 수 있다.

그리고, 상기 보정 음성 데이터를 획득하기 위한 상기 특징 데이터 및 상기 보충 음성 데이터의 합성 비율은 A:B로 결정되고, 상기 A는, 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수에 제1 가중치 및 제2 가중치를 적용한 값이고, 상기 B는, 상기 추출된 특징 데이터로부터 획득할 수 없는 음소 유형의 개수에 제3 가중치 및 제4 가중치를 적용한 값일 수 있다.

그리고, 상기 제1 가중치는, 상기 제1 사용자가 요구하는 상기 고인의 음성의 정밀도에 대응되는 수치에 기초하여 결정되고, 상기 제2 가중치는, 상기 고인의 음성의 고유도에 대응되는 수치에 기초하여 결정되고, 상기 제3 가중치는, 상기 고인의 음성과 상기 제2 사용자의 음성 데이터 간의 유사도에 기초하여 결정되고, 상기 제4 가중치는, 상기 제2 사용자의 음성 데이터의 고유도에 대응되는 수치에 기초하여 결정될 수 있다.

그리고, 상기 고인의 음성의 고유도에 대응되는 수치는, 상기 고인의 음성에 대응되는 음색 패턴에 기초하여 결정되고, 상기 제2 사용자의 음성 데이터의 고유도에 대응되는 수치는, 상기 제2 사용자의 음성의 고유도에 대응되는 음색 패턴에 기초하여 결정될 수 있다.

그리고, 상기 제1 임계값 및 상기 제2 임계값은, 상기 제1 사용자가 요구하는 상기 고인의 음성의 정밀도에 대응되는 수치에 기초하여 결정될 수 있다.

그리고, 상기 제1 사용자가 이용하는 단말 장치로부터 입력된 상기 전체 AI 모델을 통해 출력된 고인의 목소리에 대한 평가 점수가 제3 임계값 이하인 경우, 상기 A 값을 증가시킬 수 있다.

이 외에도, 본 개시를 구현하기 위한 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공될 수 있다.

본 개시의 다양한 실시예에 의해, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법이 제공될 수 있다.

본 개시의 다양한 실시예에 의해, 사용자에게 친숙한 고인의 목소리 데이터로 심리 상담 또는 인지 행동 치료를 진행하는 AI 챗봇 관련 서비스가 제공됨으로써 심리 상담 효과가 증대할 수 있다.

본 개시의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 개시의 일 실시예에 따른, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 시스템을 간략히 도시한 도면이다.
도 2는 본 개시의 일 실시예에 따른, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 장치를 간략히 도시한 블록도이다.
도 3은 본 개시의 일 실시예에 따른, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법을 설명하기 위한 순서도이다.

본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 개시는 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시의 개시가 완전하도록 하고, 본 개시가 속하는 기술 분야의 통상의 기술자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 개시의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용 시 또는 동작 시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다.

예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다.

본 개시를 설명함에 있어서, "사용자"는 서버에 의해 제공되는 서비스를 통해 학습을 수행하는 학생을 의미할 수 있다. 그리고, "보호자"는 사용자를 보호하는 부모 또는 후견인 등을 의미할 수 있다. "강사"는 사용자를 서버에 의해 제공되는 서비스를 통해 지도하는 선생을 의미할 수 있다.

이하에서는 도면을 참조하여 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법에 대해 구체적으로 설명하도록 한다.

도 1은 본 개시의 일 실시예에 따른, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 시스템을 간략히 도시한 도면이다.

도 1에 도시된 바와 같이, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법을 구현하기 위한 시스템(1000)은, 장치(100), 제1 사용자가 이용하는 단말 장치(200), 및 데이터베이스(300)를 포함할 수 있다.

여기서, 도 1에는 장치(100)는 데스크 탑으로 구현된 경우를 도시하고 있으며, 제1 사용자가 이용하는 단말 장치(200)가 하나의 스마트 폰의 형태로 구현된 경우를 도시하고 있으나, 이에 한정되는 것은 아니다.

장치(100) 및 제1 사용자가 이용하는 단말 장치(200)는 다양한 유형의 전자 장치(예로, 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 장치, 서버 장치 등)로 구현될 수 있으며, 하나 이상의 유형의 장치가 연결된 장치 군으로도 구현될 수 있다.

예로, 장치(100)는 하나 이상의 유형의 장치가 연결된 장치 군으로 구현될 수 있다. 예로, 장치(100)는 인공지능 알고리즘에 기초하여 상담 서비스를 제공하는 어플리케이션을 관리하는 장치, 어플리케이션과 관련된 데이터를 저장하는 클라우드 서버 등으로 구현될 수 있다.

도 1에는 인공지능 알고리즘에 기초하여 상담 서비스를 제공받는 사용자(즉, 제1 사용자)가 한명인 경우를 가정하고 있으나 이에 제한되는 것은 아니다. 사용자의 수는 다양한 값으로 구현될 수 있다.

시스템(1000)에 포함된 장치(100), 제1 사용자가 이용하는 단말 장치(200), 및 데이터베이스(300)(즉, 데이터베이스(300)가 포함된 클라우드 서버)는 네트워크(W)를 통해 통신을 수행할 수 있다.

여기서, 네트워크(W)는 유선 네트워크와 무선 네트워크를 포함할 수 있다. 예를 들어, 네트워크는 근거리 네트워크(LAN: Local Area Network), 도시권 네트워크(MAN: Metropolitan Area Network), 광역 네트워크(WAN: Wide Area Network) 등의 다양한 네트워크를 포함할 수 있다.

또한, 네트워크(W)는 공지의 월드 와이드 웹(WWW: World Wide Web)을 포함할 수도 있다. 그러나, 본 개시의 실시예에 따른 네트워크(W)는 상기 열거된 네트워크에 국한되지 않고, 공지의 무선 데이터 네트워크나 공지의 전화 네트워크, 공지의 유무선 텔레비전 네트워크를 적어도 일부로 포함할 수도 있다.

장치(100)는 인공지능 알고리즘에 기초하여 상담 서비스를 제공하는 어플리케이션을 하나 이상의 사용자에게 제공할 수 있다. 해당 어플리케이션은 심리 상담 치료 또는 인지 행동 치료를 위한 특정 질문에 대한 답변을 고인의 음성으로 출력하는 서비스를 제공할 수 있다. 여기서, '고인'은 인공지능 알고리즘에 기초하여 상담 서비스를 제공받는 제1 사용자와 연관된 고인(예로, 제1 사용자의 부모 등)을 의미할 수 있다.

구체적으로, 장치(100)는 고인의 음성 데이터로부터 특징 데이터를 추출하고, 추출된 특징 데이터에 기초하여 심리 상담 치료 또는 인지 행동 치료를 위한 특정 질문에 대한 답변을 고인의 음성으로 출력하는 AI 모델을 학습시킬 수 있다.

장치(100)가 상술된 각종 동작을 수행하는 방법은 도 2 내지 도 3을 참조하여 구체적으로 설명하도록 한다.

데이터베이스(300)(즉, 데이터베이스(300)가 포함된 클라우드 서버)는 장치(100)가 AI 모델을 학습시키기 위해 사용하는 각종 음성/텍스트 데이터가 구축된 데이터베이스를 의미할 수 있다. 데이터베이스(300)는 장치(100)의 일 구성 요소로 구현될 수 있으나 이에 제한되는 것은 아니며 별도의 클라우드 서버로 구현될 수도 있다.

도 2는 본 개시의 일 실시예에 따른, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 서버의 구성을 간략히 도시한 블록도이다.

도 2에 도시된 바와 같이, 장치(100)는 메모리(110), 통신 모듈(120), 디스플레이(130), 및 프로세서(150)를 포함할 수 있다.

다만, 도 2에 도시된 구성은 본 개시의 실시 예들을 구현하기 위한 예시도이며, 통상의 기술자에게 자명한 수준의 적절한 하드웨어 및 소프트웨어 구성들이 장치(100)에 추가로 포함될 수 있다.

메모리(110)는 프로세서(150)가 각종 동작을 수행하기 위한 하나 이상의 인스트럭션(instruction)을 저장할 수 있다. 메모리(110)는 장치(100)의 다양한 기능을 지원하는 데이터와, 프로세서(150)의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들을 저장할 수 있다.

메모리(110)는 고인의 음성 데이터로부터 추출된 특징 데이터를 저장할 수 있다. 메모리(110)는 각종 AI 모델(예로, 제1 AI 모델, 제2 AI 모델, 및 전체 AI 모델)에 대해 학습/추론 동작을 수행하기 위한 하나 이상의 파라미터를 저장할 수 있다. 상술한 바와 같이, 메모리(110)는 도 1의 데이터베이스(300)에 구축된 음성/데이터 데이터를 저장할 수 있다.

메모리(110)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM: random access memory), SRAM(static random access memory), 롬(ROM: read-only memory), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

통신 모듈(120)은 외부 장치(예로, 사용자가 이용하는 단말 장치 등)와의 통신이 가능하게 하는 회로를 포함하는 하나 이상의 구성 요소를 포함할 수 있다. 예를 들어, 통신 모듈(120)은 방송 수신 모듈, 유선통신 모듈, 무선통신 모듈, 근거리 통신 모듈, 위치정보 모듈 중 적어도 하나를 포함할 수 있다.

디스플레이(130)는 장치(100)에서 처리되는 정보를 표시(출력)한다. 예를 들어, 본 디스플레이(130)는 본 장치(100)에서 구동되는 응용 프로그램(예로, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 어플리케이션/웹 사이트)의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface) (예를 들어, 사용자가 요구하는 고인의 음성의 정밀도를 입력할 수 있는 UI 등), GUI(Graphic User Interface) 정보를 표시할 수 있다.

입력 모듈(140)은 장치(100)에 각종 입력 데이터 또는/및 입력 인터렉션(예로, 터치, 스와이프 등)을 인가하기 위한 구성 요소를 의미한다.

프로세서(150)는 메모리(110)에 저장된 하나 이상의 인스트럭션(instruction)을 실행함으로써 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법을 제공할 수 있다. 즉, 프로세서(150)는 장치(100)의 각 구성 요소를 이용하여 전반적인 동작 및 기능을 제어할 수 있다.

구체적으로, 프로세서(150)는 장치(100) 내의 구성요소들의 동작을 제어하기 위한 알고리즘 또는 알고리즘을 재현한 프로그램에 대한 데이터를 저장하는 메모리, 및 메모리에 저장된 데이터를 이용하여 전술한 동작을 수행하는 적어도 하나의 프로세서로 구현될 수 있다. 이때, 메모리와 프로세서는 각각 별개의 칩으로 구현될 수 있다. 또는, 메모리와 프로세서는 단일 칩으로 구현될 수도 있다.

또한, 프로세서(150)는 이하의 도 3에서 설명되는 본 개시에 따른 다양한 실시 예들을 본 장치(100) 상에서 구현하기 위하여, 위에서 살펴본 구성요소들을 중 어느 하나 또는 복수를 조합하여 제어할 수 있다.

도 3은 본 개시의 일 실시예에 따른, 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 방법을 설명하기 위한 순서도이다.

장치는 고인의 음성 데이터를 수집할 수 있다(S310).

예로, 장치는 제1 사용자가 이용하는 단말 장치로부터 고인의 생전 음성 데이터를 획득할 수 있다. 또 다른 예로, 장치는 제1 사용자가 이용하는 단말 장치로부터 획득된 제1 사용자가 등장한 영상으로부터 제1 사용자의 음성 데이터를 추출할 수 있다. 또 다른 예로, 장치는 고인이 이용했던 단말 장치로부터 고인의 음성/영상 데이터를 추출할 수 있다.

즉, 제1 사용자가 이용하는 단말 장치는 장치가 제공하는 인공지능 알고리즘에 기초한 고인의 음성 데이터를 이용하여 심리 상담 서비스를 제공하는 어플리케이션을 설치할 수 있다. 제1 사용자는 단말 장치에 표시되는 고인의 음성 데이터를 합성/생성하기 위한 UI 화면 상에 고인의 생전 음성/영상 데이터를 입력할 수 있다.

장치는 고인의 음성 데이터를 전처리하고, 전처리된 고인의 음성 데이터에 대한 특징 데이터를 추출할 수 있다(S320).

장치는 고인의 음성 데이터를 처리하기 위하여 각종 전처리 동작을 수행할 수 있다. 예로, 장치는 수집된 고인의 음성 데이터의 노이즈를 제거하고, 샘플링/양자화 등을 수행하는 동작 등을 수행할 수 있다.

그리고, 장치는 전처리된 고인의 음성 데이터로부터 특징 데이터를 추출할 수 있다. 예로, 장치는 전처리된 고인의 음성 데이터가 각종 학습, 유사 측도, 분류 등에 활용될 수 있도록 해당 음성 데이터를 수치 배열로 데이터를 변환하여 특징 데이터를 추출할 수 있다.

장치는 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 제1 임계값을 초과하는지 여부를 판단할 수 있다(S330).

구체적으로, 장치는 전처리된 고인의 음성 데이터로부터 추출된 특징 데이터를 이용하여 고인의 음성을 생성하기 위해 필요한 음소 유형의 개수를 식별할 수 있다. 장치는 상기 음소 유형의 개수가 제1 임계값을 초과하는지 여부를 판단할 수 있다.

여기서, 제1 임계값은 제1 사용자가 요구하는 고인의 음성의 정밀도에 대응되는 수치에 기초하여 결정될 수 있다. 제1 사용자는 (제1 사용자가 이용하는) 단말 장치에 표시되는 고인의 음성 데이터를 합성/생성하기 위한 UI 화면 상에 제1 사용자가 요구하는 고인의 음성의 정밀도에 대응되는 수치를 입력할 수 있다.

이때, 제1 사용자가 요구하는 고인의 음성의 정밀도에 대응되는 수치가 높을수록 제1 임계값의 크기는 커질 수 있다. 제1 사용자가 요구하는 고인의 음성의 정밀도에 대응되는 수치가 낮을수록 제1 임계값의 크기는 작아질 수 있다.

음소의 개수가 제1 임계값을 초과하는 것으로 판단된 경우, 장치는 특징 데이터 및 특징 데이터에 대응되는 텍스트 데이터에 기초하여 입력 텍스트에 대응되는 고인 음성이 출력되도록 제1 AI 모델을 학습시킬 수 있다(S340).

음소의 개수가 제1 임계값을 초과한다는 것은 현재 추출된 특징 데이터를 통해서 고인의 음성을 생성/변환할 수 있다는 것을 의미할 수 있다. 이에 따라, 음소의 개수가 제1 임계값을 초과하는 것으로 판단된 경우, 장치는 특징 데이터 및 특징 데이터에 대응되는 텍스트 데이터(즉, 음성 성분을 가지는 특징 데이터를 텍스트로 변환하였을 때의 데이터)에 기초하여 제1 AI 모델을 학습시킬 수 있다.

장치는 입력 텍스트에 대응되는 고인의 음성을 출력하도록 제1 AI 모델을 학습시킬 수 있다. 즉, 장치는 입력 텍스트를 고인의 음성으로 출력하는 TTS 모델로서 제1 AI 모델을 학습시킬 수 있다.

장치는 심리 상담 치료 및 인지 행동 치료를 위한 질문 텍스트 데이터베이스 및 답변 텍스트 데이터베이스에 기초하여 질문 텍스트 또는 답변 텍스트를 출력하도록 학습된 제2 AI 모델의 출력 레이어에 제1 AI 모델의 입력 레이어를 연결함으로써 전체 AI 모델을 획득할 수 있다(S350).

그리고, 장치는 상담 치료 또는 인지 행동 치료를 위한 특정 질문이 포함된 제1 사용자 음성 데이터를 입력 데이터로 이용하여 특정 질문에 대한 답변이 포함된 고인의 음성을 출력하도록 전체 AI 모델을 학습시킬 수 있다(S360). 즉, 전이 학습 방식으로 전체 AI 모델이 학습될 수 있다.

구체적으로, 제2 AI 모델은 심리 상담 치료 및 인지 행동 치료를 위한 질문 텍스트 데이터베이스 및 답변 텍스트 데이터베이스에 기초하여 질문 텍스트 또는 답변 텍스트를 출력하도록 학습될 수 있다.

예로, 질문 텍스트 데이터베이스로부터 특정 질문 텍스트가 입력되면, 제2 AI 모델은 답변 텍스트 데이터베이스 중 특정 질문 텍스트에 대응되는 특정 답변 텍스트를 출력하도록 학습될 수 있다. 또 다른 예로, 특정 답변 텍스트가 입력되면, 제2 AI 모델은 특정 답변 텍스트와 연관된(또는/및 특정 답변 텍스트에 후속되는) 질문 텍스트를 출력하도록 학습될 수 있다.

이에 따라, 장치는 제2 AI 모델의 출력 레이어에 제1 AI 모델의 입력 레이어를 연결함으로써 전체 AI 모델을 구성할 수 있다. 이에 따라, 제2 AI 모델의 출력 레이어에서 출력된 데이터는 제1 AI 모델의 입력 레이어에 입력될 수 있다. 예로, 제2 AI 모델에서 출력된 답변/질문 텍스트가 제1 AI 모델에 입력됨으로써 제1 AI 모델이 해당 답변/질문 텍스트가 고인의 음성으로 출력될 수 있다.

추가적으로 또는 대안적으로, 전처리된 고인의 음성 데이터로부터 추출된 특징 데이터로부터 획득할 수 있는 음소의 개수가 제1 임계값 이하인 것으로 판단된 경우, 장치는 고인의 음성과 연관된 제2 사용자의 음성 데이터에 기초하여 제1 AI 모델을 학습시킬 수 있다.

즉, 고인의 음성을 합성/생성할 수 있는 음소 유형의 개수가 제1 임계값 이하인 경우, 장치는 고인의 음성과 연관된 다른 사용자의 음성 데이터를 이용하여 제1 AI 모델을 학습시킬 수 있다.

장치는 복수의 사용자의 음성 데이터로 구축된 음성 데이터베이스로부터 고인의 음성과의 유사도가 제2 임계값을 초과하는 제2 사용자의 음성 데이터를 식별할 수 있다. 즉, 장치는 음성 데이터베이스로부터 고인의 음성과 유사한 제2 사용자의 음성을 식별할 수 있다.

예로, 장치는 음성 데이터베이스 상의 복수의 사용자의 음성 데이터로부터 특징 데이터를 추출하고, 복수의 사용자의 음성 데이터의 특징 데이터와 고인의 음성 데이터로부터 추출된 특징 데이터 간의 유사도를 획득할 수 있다. 장치는 복수의 사용자의 음성 데이터 중 획득된 유사도가 제2 임계값을 초과하는 제2 사용자의 음성 데이터를 식별할 수 있다.

장치는 제2 사용자의 음성 데이터로부터 추출된 특징 데이터로부터 획득할 수 없는 음소 유형과 관련된 보충 음성 데이터를 추출할 수 있다. 장치는 특징 데이터 및 보충 음성 데이터를 합성하여 보정 음성 데이터를 획득할 수 있다. 즉, 장치는 음성의 유형의 개수가 부족한 고인의 음성 데이터에 다른 음성 데이터를 합성함으로써 보정 음성 데이터를 추출할 수 있다.

예로, 보정 음성 데이터를 획득하기 위한 특징 데이터 및 보충 음성 데이터의 합성 비율은 A:B로 결정될 수 있다. A는 고인의 음성 데이터로부터 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수에 제1 가중치 및 제2 가중치를 적용한 값이고, B는 고인의 음성 데이터로부터 추출된 특징 데이터로부터 획득할 수 없는 음소 유형의 개수에 제3 가중치 및 제4 가중치를 적용한 값일 수 있다.

예로, 고인의 음성 데이터로부터 추출된 특징 데이터로부터 획득할 수 있는 음소 유형의 개수에 제1 가중치 및 제2 가중치를 적용한 값이 A일 수 있으며, 고인의 음성 데이터로부터 추출된 특징 데이터로부터 획득할 수 없는 음소 유형의 개수에 제3 가중치 및 제4 가중치를 적용한 값이 B일 수 있다.

여기서, 제1 가중치는, 제1 사용자가 요구하는 상기 고인의 음성의 정밀도에 대응되는 수치에 기초하여 결정되고, 제2 가중치는 고인의 음성의 고유도에 대응되는 수치에 기초하여 결정될 수 있다.

제3 가중치는 고인의 음성과 제2 음성 데이터 간의 유사도에 기초하여 결정되고, 제4 가중치는 제2 음성 데이터의 고유도에 대응되는 수치에 기초하여 결정될 수 있다.

고인의 음성의 고유도에 대응되는 수치는 고인의 음성에 대응되는 음색 패턴에 기초하여 결정될 수 있다. 고인의 음성의 특징 데이터는 고인의 음성의 음색 패턴을 나타내는 특징 벡터를 포함할 수 있다. 장치는 음성 데이터베이스에 포함된 복수의 음성 각각의 음색 패턴을 나타내는 특징 벡터와 고인의 음성의 음색 패턴을 나타내는 특징 벡터 간의 연관도를 산출할 수 있다. 장치는 해당 연관도가 높을수록 제1 가중치를 낮은 값으로 결정할 수 있다. 장치는 해당 연관도가 낮을수록 제1 가중치를 높은 값으로 결정할 수 있다.

장치는 고인의 음성과 제2 음성 데이터 간의 유사도가 높을수록 제3 가중치를 높은 값으로 책정할 수 있다. 고인의 음성과 제2 음성 데이터 간의 유사도가 높을 경우, 제2 음성 데이터의 비중을 높일 수 있다.

제2 음성의 고유도에 대응되는 수치는 고인의 음성의 고유도에 대응되는 수치와 유사한 방식으로 결정될 수 있다.

상술된 제1 임계값 및 제2 임계값은 제1 사용자가 요구하는 고인의 음성의 정밀도에 대응되는 수치에 기초하여 결정될 수 있다. 제1 사용자가 요구하는 고인의 음성의 정밀도에 대응되는 수치가 높을수록, 장치는 제1 임계값 및 제2 임계값을 더 높은 값으로 책정할 수 있다.

장치는 보정 음성 데이터 및 보정 음성 데이터에 대응되는 텍스트 데이터에 기초하여 제1 AI 모델이 학습시킬 수 있다. 그리고, 장치는 제2 AI 모델의 출력 레이어에 제1 AI 모델의 입력 레이어를 연결하여 전체 AI 모델을 학습시킬 수 있다.

여기서, 제1 사용자가 이용하는 단말 장치로부터 입력된 전체 AI 모델을 통해 출력된 고인의 목소리에 대한 평가 점수가 제3 임계값 이하인 경우, A 값을 증가시킬 수 있다. 즉, 장치는 고인의 목소리의 특성이 더 반영되도록 보정 음성 데이터를 생성할 수 있다. 그리고, 장치는 생성된 보정 음성 데이터에 기초하여 전체 AI 모델을 추가 학습시킬 수 있다.

한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.

컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.

이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 개시가 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.

100: 장치
110: 메모리
120: 통신 모듈
130: 디스플레이
140: 입력 모듈
150: 프로세서

Claims

장치에 의해 수행되는, 인공지능 알고리즘에 기초하여 상담 서비스를 제공하는 방법에 있어서, 상기 방법은:
고인의 음성 데이터를 수집하는 단계;
상기 고인의 음성 데이터를 전처리하고, 상기 전처리된 고인의 음성 데이터에 대한 특징 데이터를 추출하는 단계;
상기 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 제1 임계값을 초과하는지 여부를 판단하는 단계;
상기 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 상기 제1 임계값을 초과하는 것으로 판단된 경우, 상기 특징 데이터 및 상기 특징 데이터에 대응되는 텍스트 데이터에 기초하여 입력 텍스트에 대응되는 고인 음성이 출력되도록 제1 AI 모델을 학습시키는 단계;
심리 상담 치료 및 인지 행동 치료를 위한 질문 텍스트 데이터베이스 및 답변 텍스트 데이터베이스에 기초하여 질문 텍스트 또는 답변 텍스트를 출력하도록 학습된 제2 AI 모델의 출력 레이어에 상기 제1 AI 모델의 입력 레이어를 연결함으로써 전체 AI 모델을 획득하는 단계;
심리 상담 치료 또는 인지 행동 치료를 위한 특정 질문이 포함된 제1 사용자 음성 데이터를 입력 데이터로 이용하여 상기 특정 질문에 대한 답변이 포함된 상기 고인의 음성을 출력하도록 상기 전체 AI 모델을 학습시키는 단계를 포함하고,
상기 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 상기 제1 임계값 이하인 것으로 판단된 경우, 상기 고인의 음성과 연관된 제2 사용자의 음성 데이터에 기초하여 상기 제1 AI 모델이 학습되고,
상기 특징 데이터로부터 획득할 수 있는 음소 유형의 개수가 상기 제1 임계값 이하인 것으로 판단됨에 기반하여:
복수의 사용자의 음성 데이터로 구축된 음성 데이터베이스로부터 상기 고인의 음성과의 유사도가 제2 임계값을 초과하는 상기 제2 사용자의 음성 데이터가 식별되고,
상기 제2 사용자의 음성 데이터로부터 상기 특징 데이터로부터 획득할 수 없는 음소 유형과 관련된 보충 음성 데이터가 추출되고,
상기 특징 데이터 및 상기 보충 음성 데이터를 합성하여 보정 음성 데이터가 획득되고,
상기 보정 음성 데이터 및 상기 보정 음성 데이터에 대응되는 텍스트 데이터에 기초하여 상기 제1 AI 모델이 학습되고,
상기 보정 음성 데이터를 획득하기 위한 상기 특징 데이터 및 상기 보충 음성 데이터의 합성 비율은 A:B로 결정되고,
상기 A는, 상기 특징 데이터로부터 획득할 수 있는 음소 유형의 개수에 제1 가중치 및 제2 가중치를 적용한 값이고,
상기 B는, 상기 특징 데이터로부터 획득할 수 없는 음소 유형의 개수에 제3 가중치 및 제4 가중치를 적용한 값이고,
상기 제1 가중치는, 상기 제1 사용자가 요구하는 상기 고인의 음성의 정밀도에 대응되는 수치에 기초하여 결정되고,
상기 제2 가중치는, 상기 고인의 음성의 고유도에 대응되는 수치에 기초하여 결정되고,
상기 제3 가중치는, 상기 고인의 음성과 상기 제2 사용자의 음성 데이터 간의 유사도에 기초하여 결정되고,
상기 제4 가중치는, 상기 제2 사용자의 음성 데이터의 고유도에 대응되는 수치에 기초하여 결정되고,
상기 고인의 음성의 고유도에 대응되는 수치는, 상기 고인의 음성에 대응되는 음색 패턴에 기초하여 결정되고,
상기 제2 사용자의 음성 데이터의 고유도에 대응되는 수치는, 상기 제2 사용자의 음성의 고유도에 대응되는 음색 패턴에 기초하여 결정되는, 방법.