KR20240087228A - 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법 - Google Patents

박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법 Download PDF

Info

Publication number
KR20240087228A
KR20240087228A KR1020220172713A KR20220172713A KR20240087228A KR 20240087228 A KR20240087228 A KR 20240087228A KR 1020220172713 A KR1020220172713 A KR 1020220172713A KR 20220172713 A KR20220172713 A KR 20220172713A KR 20240087228 A KR20240087228 A KR 20240087228A
Authority
KR
South Korea
Prior art keywords
text
voice
scenario
model
metahuman
Prior art date
Application number
KR1020220172713A
Other languages
English (en)
Inventor
정석찬
정선우
강영진
최은성
Original Assignee
동의대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동의대학교 산학협력단 filed Critical 동의대학교 산학협력단
Priority to KR1020220172713A priority Critical patent/KR20240087228A/ko
Publication of KR20240087228A publication Critical patent/KR20240087228A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F17/00Coin-freed apparatus for hiring articles; Coin-freed facilities or services
    • G07F17/16Coin-freed apparatus for hiring articles; Coin-freed facilities or services for devices exhibiting advertisements, announcements, pictures or the like
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07FCOIN-FREED OR LIKE APPARATUS
    • G07F9/00Details other than those peculiar to special kinds or types of apparatus
    • G07F9/02Devices for alarm or indication, e.g. when empty; Advertising arrangements in coin-freed apparatus
    • G07F9/023Arrangements for display, data presentation or advertising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성인식 및 음성합성과 자연어처리 등의 AI 모델을 하나로 통합하고 이를 활용하여 박물관 안내에 최적화된 대화형 AI 키오스크 시스템을 구축할 수 있도록 한 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법에 관한 것으로, 키오스크에 탑재된 마이크로 이용자가 음성 발화하면 이를 인식하여 텍스트 형태로 변환하는 음성 인식(STT) 모듈;변환된 텍스트를 전처리를 거쳐 이용자의 발화에 대한 올바른 의도를 분류하고 이에 설정된 응답을 출력하여 텍스트의 형태로 결과를 제공하는 자연어처리(NLP:Natural Language Processing) 모듈;응답 텍스트를 음성으로 합성하여 키오스크의 스피커로 송출하기 위한 음성 합성(TTS) 모듈;을 포함하고, 음성인식 및 음성합성과 자연어처리를 위한 AI 모델이 하나로 통합되는 것이다.

Description

박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법{Metahuman's scenario based custom interactive AI kiosk system for museum guidance and Method for Controlling the same}
본 발명은 대화형 키오스크 시스템에 관한 것으로, 구체적으로 음성인식 및 음성합성과 자연어처리 등의 AI 모델을 하나로 통합하고 이를 활용하여 박물관 안내에 최적화된 대화형 AI 키오스크 시스템을 구축할 수 있도록 한 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법에 관한 것이다.
최근 인공지능 분야, 특히 자연어 이해 분야의 기술 발전에 따라, 사용자에 의한 음성 및/또는 텍스트 형태의 자연어 입력을 수신 및 이해하고, 그에 따라 필요한 동작을 수행할 수 있는 대화 이해 AI 시스템의 개발 및 활용이 점차 늘어나고 있다.
그리고 각 기업이나 기관 등은 대부분 고객 상담 센터를 운영하는데, 이러한 고객 상담 센터를 위하여 대화 이해 AI 시스템이 구축되는 경우가 늘어나고 있다.
대화 이해 AI 시스템이 대화 흐름 모델을 사용하는 경우, 고객의 질문이 대화 흐름을 벗어난 경우, 준비되지 않은 상황에서의 답변은 적절한 반면, 시나리오 기반의 AI 대화 시스템에 비해 사용자의 질의에 대한 응대 정확도가 낮을 수 있다.
한편, 우리나라의 박물관은 운영에 필요한 전문인력이 턱없이 부족한 실황이다. 국,공립 박물관 학예사는 공무원이기 때문에 선발인원 수가 제한적이며, 사립 박물관은 기업의 후원을 받는 소수의 박물관을 제외하면 재정 상태가 마땅치 않아 고용이 힘들기 때문이다.
이러한 문제를 해결하기 위해 물리적 공간과 디지털 공간이 융합된 메타버스를 도입하거나 관람객의 정보 데이터 기반의 맞춤형 콘텐츠를 제작하는 등의 방안이 제시되고 있다.
2021년 기준으로 우리나라의 박물관은 900관으로 운영에 필요한 전문인력은 매우 부족한 실황이다. 이에 더해 코로나19 팬데믹으로 인하여 관람객의 발길이 점차 끊기고 있다.
또한, 현재의 안내 키오스크 시스템은 대부분 터치형으로 고객이 질문할 수 있는 스펙트럼이 넓지 않고, 키오스크가 일방적으로 사용자에게 정보를 제공하는 단방향성 서비스에 국한된다.
따라서, 전문인력을 대체하여 박물관의 안내를 돕고 박물관 관람의 흥미를 유발하여 박물관 관람 문화를 확산시킬 수 있도록 하는 새로운 기술의 개발이 요구되고 있다.
대한민국 공개특허 제10-2022-0118773호 대한민국 등록특허 제10-2216783호 대한민국 공개특허 제10-2019-0143583호
본 발명은 종래 기술의 대화형 키오스크 시스템의 문제점을 해결하기 위한 것으로, 음성인식 및 음성합성과 자연어처리 등의 AI 모델을 하나로 통합하고 이를 활용하여 박물관 안내에 최적화된 대화형 AI 키오스크 시스템을 구축할 수 있도록 한 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법을 제공하는데 그 목적이 있다.
본 발명은 전문인력을 대체하여 박물관의 안내를 돕고 박물관 관람의 흥미를 유발하여 우리나라 문화확산을 촉진하여 관광산업의 발전에 도움을 줄 수 있도록 한 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법을 제공하는데 그 목적이 있다.
본 발명은 텍스트로 변환된 사용자의 질의 문장에 대한 의도를 분류하고 사전에 설정한 의도별 응대 리스트 중 하나를 랜덤으로 출력하는 문장 의도 분류 과정을 통하여 상황에 맞는 정확한 대화가 가능하도록 한 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법을 제공하는데 그 목적이 있다.
본 발명은 많은 양의 음성데이터와 그에 해당하는 전사문 스크립트(텍스트 데이터) 쌍으로 구성하여 음성을 인식하고 합성하는 인공지능의 정확도를 높일 수 있도록 한 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법을 제공하는데 그 목적이 있다.
본 발명은 STT 모듈은 모델 학습 전에 전사문 스크립트에 대해 음절별로 토큰화를 진행하고, TTS 모듈은 음소별로 토큰화를 진행하고, 인공지능 모델 학습 시에는 데이터를 9:1의 비율로 훈련데이터와 검증데이터로 나누어 딥러닝을 수행하여 모델을 생성하는 것에 의해 음성 인식 및 음성 합성 기능의 정확도를 높인 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법을 제공하는데 그 목적이 있다.
본 발명은 자연어처리 모듈에서 시나리오에 맞추어 대화형 인공지능 모델을 학습시키기 위해 시나리오 스크립트(질의-응대 텍스트)를 요구하고, 수집한 스크립트를 Category, Answer, Classification 등으로 라벨링을 수행하고, 인공지능을 학습시키는 딥러닝을 수행하여 모델을 생성하는 것에 의해 사용자의 질의에 대한 정확한 응대 서비스가 가능하도록 한 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템은 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화를 위하여 적어도 하나의 프로세서를 포함하는 전자 장치가, 키오스크에 탑재된 마이크로 이용자가 음성 발화하면 이를 인식하여 텍스트 형태로 변환하는 음성 인식(STT) 모듈;변환된 텍스트를 전처리를 거쳐 이용자의 발화에 대한 올바른 의도를 분류하고 이에 설정된 응답을 출력하여 텍스트의 형태로 결과를 제공하는 자연어처리(NLP:Natural Language Processing) 모듈;응답 텍스트를 음성으로 합성하여 키오스크의 스피커로 송출하기 위한 음성 합성(TTS) 모듈;을 포함하고, 음성인식 및 음성합성과 자연어처리를 위한 AI 모델이 하나로 통합되는 것을 특징으로 한다.
여기서, 자연어처리(NLP:Natural Language Processing) 모듈은, 다중 분류를 위하여 사전 훈련된 모델 KoBERT를 탑재하는 사전 훈련 모델 탑재부와, 질의-응대 형태의 시나리오 기반 대화를 위해 문장 의도 분류 모델로 파인튜닝을 진행하는 파인 튜닝부와, 학습 시 사용자가 발화할 가능성이 있는 의도들을 설정하고 이에 대해 숫자의 형태로 라벨링을 수행하여 생성한 텍스트 파일을 관리하는 분류 데이터 셋 관리부와, 분류 데이터 셋을 이용하여 딥러닝을 수행하여 인공지능을 학습시키고 메타휴먼의 시나리오 기반 맞춤 대화를 위한 AI 모델을 생성하는 학습 및 모델 생성부와, 사용자가 발화한 질의 문장이 입력데이터로 들어오면 토큰화를 거친 후 학습한 모델을 통해 의도를 분류하는 의도 분류부와, 카테고리(Category)와 답변(Answer) 파일을 이용하여 해당 클래스에서 사전에 설정한 의도별 답변 리스트 중 하나를 랜덤으로 출력하는 답변 리스트 출력부를 포함하는 것을 특징으로 한다.
그리고 자연어처리(NLP:Natural Language Processing) 모듈은, 출력되는 의도별 답변 리스트의 의도명을 통해 키오스크에 출현하는 메타휴먼이 특정 행동이나 표정을 표현할 수 있도록 하는 메타휴먼 관리부를 더 포함하는 것을 특징으로 한다.
그리고 음성 인식(STT) 모듈은, 음성데이터를 받아서 언어 모델이나 명사 모델을 사용하지 않고 곧바로 음성 발화를 텍스트로 변경해주는 End-To-End 방식으로 음성을 텍스트로 변환하는 것을 특징으로 한다.
그리고 음성 인식(STT) 모듈은, 모델 학습 전에 전사문 스크립트에 존재하는 모든 음절에 대해 전처리와 라벨링을 수행한 단어사전을 생성하고, 음성데이터에서 각 음절마다의 멜-스펙트로그램을 추출한 후, 이를 해당 음절과 매칭시키는 딥러닝을 수행하여 인공지능을 학습시키고 모델을 생성하고, 추론 시에는 들어온 입력데이터를 전처리하고 각 음절마다의 멜-스펙트로그램을 계산하여 기존에 생성된 단어사전과 모델을 이용하여 그에 부합하는 멜-스펙트로그램을 가진 각 음절을 불러와 텍스트의 형태로 출력하는 것을 특징으로 한다.
그리고 음성 합성(TTS) 모듈은, End-To-End 방식으로 텍스트를 음성으로 합성하고, 텍스트에서 멜-스펙트로그램을 생성하는 모델과 멜-스펙트로그램에서 음성 신호를 생성하는 모델로 구성되어, 추론 시에 자연어처리(NLP:Natural Language Processing) 모듈로부터 전달받은 응대 텍스트 문장에 대해 전처리를 수행하고, 각 음절에 대한 멜-스펙트로그램을 생성하여 최종적으로 음성데이터를 출력하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 제어 방법은 적어도 하나의 프로세서를 포함하는 전자 장치에서 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화를 위한 동작이 수행되고, 사용자의 음성 발화에 따른 음성 데이터가 입력되면, 음성을 인식하여 텍스트로 변환하는 음성인식 단계;텍스트로 변환된 사용자의 질의 문장에 대한 의도를 분류하고 사전에 설정한 의도별 응대 리스트 중 하나를 랜덤으로 출력하는 문장 의도 분류 단계;응대 텍스트를 음성으로 합성하는 음성합성 단계;사용자에 질의에 대한 인공지능의 응대 음성을 출력하는 단계;를 포함하는 것을 특징으로 한다.
여기서, 문장 의도 분류 단계는, 질의-응대 형태의 시나리오 기반 대화를 위해 문장 의도 분류 모델로 파인튜닝을 진행하는 파인 튜닝 단계와, 학습 시 효율성을 위해 사용자가 발화할 가능성이 있는 의도들을 설정하고 이에 대해 숫자의 형태로 라벨링을 수행하여 생성한 텍스트 파일을 관리하는 분류 데이터 셋 관리 단계와, 분류 데이터 셋을 이용하여 딥러닝을 수행하여 인공지능을 학습시키고 메타휴먼의 시나리오 기반 맞춤 대화를 위한 AI 모델을 생성하는 학습 및 모델 생성 단계와, 사용자가 발화한 질의 문장이 입력데이터로 들어오면 토큰화를 거친 후 학습한 모델을 통해 의도를 분류하는 의도 분류 단계와, 카테고리(Category)와 답변(Answer) 파일을 이용하여 해당 클래스에서 사전에 설정한 의도별 답변 리스트 중 하나를 랜덤으로 출력하는 답변 리스트 출력 단계를 포함하는 것을 특징으로 한다.
그리고 문장 의도 분류 단계는, 출력되는 의도별 답변 리스트의 의도명을 통해 키오스크에 출현하는 메타휴먼이 특정 행동이나 표정을 표현할 수 있도록 하는 메타휴먼 관리 단계를 더 포함하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법은 다음과 같은 효과가 있다.
첫째, 음성인식 및 음성합성과 자연어처리 등의 AI 모델을 하나로 통합하고 이를 활용하여 박물관 안내에 최적화된 대화형 AI 키오스크 시스템을 구축할 수 있도록 한다.
둘째, 전문인력을 대체하여 박물관의 안내를 돕고 박물관 관람의 흥미를 유발하여 우리나라 문화확산을 촉진하여 관광산업의 발전에 도움을 줄 수 있도록 한다.
셋째, 텍스트로 변환된 사용자의 질의 문장에 대한 의도를 분류하고 사전에 설정한 의도별 응대 리스트 중 하나를 랜덤으로 출력하는 문장 의도 분류 과정을 통하여 상황에 맞는 정확한 대화가 가능하도록 한다.
넷째, 많은 양의 음성데이터와 그에 해당하는 전사문 스크립트(텍스트 데이터) 쌍으로 구성하여 음성을 인식하고 합성하는 인공지능의 정확도를 높일 수 있도록 한다.
다섯째, STT 모듈은 모델 학습 전에 전사문 스크립트에 대해 음절별로 토큰화를 진행하고, TTS 모듈은 음소별로 토큰화를 진행하고, 인공지능 모델 학습 시에는 데이터를 9:1의 비율로 훈련데이터와 검증데이터로 나누어 딥러닝을 수행하여 모델을 생성하는 것에 의해 음성 인식 및 음성 합성 기능의 정확도를 높인다.
여섯째, 자연어처리 모듈에서 시나리오에 맞추어 대화형 인공지능 모델을 학습시키기 위해 시나리오 스크립트(질의-응대 텍스트)를 요구하고, 수집한 스크립트를 Category, Answer, Classification 등으로 라벨링을 수행하고, 인공지능을 학습시키는 딥러닝을 수행하여 모델을 생성하는 것에 의해 사용자의 질의에 대한 정확한 응대 서비스가 가능하도록 한다.
도 1은 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 구성도
도 2는 자연어 처리 모듈의 상세 구성도
도 3은 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 제어 방법을 나타낸 플로우 차트
도 4는 음성인식 및 음성합성 인공지능을 학습시키기 위한 음성데이터와 해당 전사문 스크립트 데이터(텍스트)를 예로 나타낸 구성도
도 5는 자연어처리 기반의 시나리오 맞춤 대화형 인공지능 모델을 학습시키기 위한 시나리오 데이터를 라벨링을 수행한 후의 예시를 나타낸 구성도
도 6은 STT 모듈을 사용하여 음성 발화를 인식하고 텍스트로 변환하는 절차의 일 예를 나타낸 구성도
도 7은 TTS 모듈을 사용하여 텍스트를 음성으로 합성하는 절차의 일 예를 나타낸 구성도
이하, 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 구성도이다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
특히, 적어도 하나의 기능이나 동작을 처리하는 단위들은 적어도 하나의 프로세서를 포함하는 전자 장치로 구현될 수 있고, 기능이나 동작을 처리하는 방식에 따라 전자 장치에 적어도 하나의 주변 장치가 연결될 수 있다. 주변 장치들은 데이터 입력 장치, 데이터 출력 장치, 데이터 저장 장치를 포함할 수 있다.
본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법은 음성인식 및 음성합성과 자연어처리 등의 AI 모델을 하나로 통합하고 이를 활용하여 박물관 안내에 최적화된 대화형 AI 키오스크 시스템을 구축할 수 있도록 한 것이다.
이를 위하여, 본 발명은 텍스트로 변환된 사용자의 질의 문장에 대한 의도를 분류하고 사전에 설정한 의도별 응대 리스트 중 하나를 랜덤으로 출력하는 문장 의도 분류 과정을 통하여 상황에 맞는 정확한 대화가 가능하도록 하는 구성을 포함할수 있다.
본 발명은 많은 양의 음성데이터와 그에 해당하는 전사문 스크립트(텍스트 데이터) 쌍으로 구성하여 음성을 인식하고 합성하는 인공지능의 정확도를 높일 수 있도록 하는 구성을 포함할 수 있다.
본 발명은 STT 모듈은 모델 학습 전에 전사문 스크립트에 대해 음절별로 토큰화를 진행하고, TTS 모듈은 음소별로 토큰화를 진행하고, 인공지능 모델 학습 시에는 데이터를 9:1의 비율로 훈련데이터와 검증데이터로 나누어 딥러닝을 수행하여 모델을 생성하는 것에 의해 음성 인식 및 음성 합성 기능의 정확도를 높이는 구성을 포함할 수 있다.
본 발명은 자연어처리 모듈에서 시나리오에 맞추어 대화형 인공지능 모델을 학습시키기 위해 시나리오 스크립트(질의-응대 텍스트)를 요구하고, 수집한 스크립트를 Category, Answer, Classification 등으로 라벨링을 수행하고, 인공지능을 학습시키는 딥러닝을 수행하여 모델을 생성하는 것에 의해 대화의 스펙트럼이 넓고 더욱 수준 높은 대화가 가능하도록 하는 구성을 포함할 수 있다.
본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템은 도 1에서와 같이, 키오스크에 탑재된 마이크로 이용자가 음성 발화하면 이를 인식하여 텍스트 형태로 변환하는 음성 인식(STT) 모듈(100)과, 변환된 텍스트를 전처리를 거쳐 이용자의 발화에 대한 올바른 의도를 분류하고 이에 설정된 응답을 출력하여 텍스트의 형태로 결과를 제공하는 자연어처리(NLP:Natural Language Processing) 모듈(200)과, 응답 텍스트를 음성으로 합성하여 키오스크의 스피커로 송출하기 위한 음성 합성(TTS) 모듈(300)을 포함하고, 음성인식 및 음성합성과 자연어처리를 위한 AI 모델을 하나로 통합하고 이를 활용해 대화형 AI 키오스크 시스템을 제공하는 것이다.
본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템은 자연어처리(NLP) 모듈(200)이 주요 몸체를 이룬다.
이와 같은 자연어 모듈(200)은 다중 분류에 유용한 사전 훈련된 모델인 KoBERT를 탑재하고 있다.
여기서, KoBERT란, BERT 모델에서의 한국어 성능 한계로 인해 SKTBrain에서 구축한 대용량의 한국어 말뭉치를 학습한 언어 모델이며, 사용 목적에 따라 파인튜닝(FineTuning)이 가능하다.
본 발명에서는 질의-응대 형태의 시나리오 기반 대화를 위해 문장 의도 분류 모델로 파인튜닝을 진행하고, Classification 데이터셋(학습 시 효율성을 위해 사용자가 발화할 가능성이 있는 의도들을 설정하고 이에 대해 숫자의 형태로 라벨링을 수행하여 생성한 텍스트 파일)으로 딥러닝을 수행하여 인공지능을 학습시키고 모델을 생성한다.
최종적으로 자연어 모듈(200)은 사용자가 발화한 질의 문장이 입력데이터로 들어오면 토큰화를 거친 후 학습한 모델을 통해 의도를 분류한 다음, Category와 Answer 파일을 이용하여 해당 클래스에서 사전에 설정한 의도별 답변 리스트 중 하나를 랜덤으로 출력한다.
또한, 해당 모듈의 출력단에서 분류된 의도명이 출력되는데, 의도명을 통해 키오스크에 출현하는 메타휴먼이 특정 행동이나 표정 등을 표현할 때 활용할 수 있다.
예를 들어, 사용자가 '여기 너무 재밌어'라고 발화했을 때 분류된 의도명이'감정_즐거움'이라면 메타휴먼이 함께 웃는 표정을 짓는다거나 제스처를 취할 때 분류 의도명을 활용할 수 있다.
이와 같은 의도명을 메타휴먼이 특정 행동이나 표정 등을 표현할 때 활용하는 것 이외에 의도명 또는 대화 내용을 자연어처리(NLP) 모듈(200)의 AI 모델이 분석하여 메타휴먼의 출력 음성 변화, 표시 형태, 표시 색상 변화, 배경 화면을 다르게 할 수도 있다.
일 예로, 박물관에서 현재 대화 주제가 되는 대상 문화재의 시대 특성 또는 분야 특성을 반영하여 메타휴먼의 표현 방식을 다르게 할 수도 있다.
이와 같은 구성을 갖는 본 발명은 박물관의 키오스크에 탑재되어 시나리오에 따른 박물관 내/외부 시설 및 시설물이나 주변 관광 등에 대해 메타휴먼이 인적 자원을 대체하여 이용객에게 안내 서비스를 제공할 수 있고, 인공지능 신기술 활용을 통해 실질적 체감 서비스를 제공하여 이용객에게 더 높은 만족도를 제공할 수 있다.
특히, 장애인, 노약자, 어린이 등 소외계층에 박물관 문화 향유 서비스가 가능하도록 한다.
자연어처리(NLP:Natural Language Processing) 모듈(200)의 상세 구성은 다음과 같다.
도 2는 자연어 처리 모듈의 상세 구성도이다.
자연어처리(NLP:Natural Language Processing) 모듈(200)은 도 2에서와 같이, 다중 분류를 위하여 사전 훈련된 모델 KoBERT를 탑재하는 사전 훈련 모델 탑재부(21)와, 질의-응대 형태의 시나리오 기반 대화를 위해 문장 의도 분류 모델로 파인튜닝을 진행하는 파인 튜닝부(22)와, 학습 시 효율성을 위해 사용자가 발화할 가능성이 있는 의도들을 설정하고 이에 대해 숫자의 형태로 라벨링을 수행하여 생성한 텍스트 파일을 관리하는 분류 데이터 셋 관리부(23)와, 분류 데이터 셋을 이용하여 딥러닝을 수행하여 인공지능을 학습시키고 메타휴먼의 시나리오 기반 맞춤 대화를 위한 AI 모델을 생성하는 학습 및 모델 생성부(24)와, 사용자가 발화한 질의 문장이 입력데이터로 들어오면 토큰화를 거친 후 학습한 모델을 통해 의도를 분류하는 의도 분류부(25)와, Category와 Answer 파일을 이용하여 해당 클래스에서 사전에 설정한 의도별 답변 리스트 중 하나를 랜덤으로 출력하는 답변 리스트 출력부(26)와, 출력되는 의도별 답변 리스트의 의도명을 통해 키오스크에 출현하는 메타휴먼이 특정 행동이나 표정을 표현할 수 있도록 하는 메타휴먼 관리부(27)를 포함한다.
본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 제어 방법을 설명하면 다음과 같다.
도 3은 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 제어 방법을 나타낸 플로우 차트이다.
본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 제어 방법은 도 3에서와 같이, 사용자의 음성 발화에 따른 음성 데이터가 입력되면(S301), 음성을 인식하여 텍스트로 변환하는 음성인식 단계(S302)와, 텍스트로 변환된 사용자의 질의 문장에 대한 의도를 분류하고 사전에 설정한 의도별 응대 리스트 중 하나를 랜덤으로 출력하는 문장 의도 분류 단계(S303)와, 응대 텍스트를 음성으로 합성하는 음성합성 단계(S304)와, 사용자에 질의에 대한 인공지능의 응대 음성을 출력하는 단계(S305)를 포함한다.
여기서, 문장 의도 분류 단계(S303)는 질의-응대 형태의 시나리오 기반 대화를 위해 문장 의도 분류 모델로 파인튜닝을 진행하는 파인 튜닝 단계와, 학습 시 효율성을 위해 사용자가 발화할 가능성이 있는 의도들을 설정하고 이에 대해 숫자의 형태로 라벨링을 수행하여 생성한 텍스트 파일을 관리하는 분류 데이터 셋 관리 단계와, 분류 데이터 셋을 이용하여 딥러닝을 수행하여 인공지능을 학습시키고 메타휴먼의 시나리오 기반 맞춤 대화를 위한 AI 모델을 생성하는 학습 및 모델 생성 단계와, 사용자가 발화한 질의 문장이 입력데이터로 들어오면 토큰화를 거친 후 학습한 모델을 통해 의도를 분류하는 의도 분류 단계와, Category와 Answer 파일을 이용하여 해당 클래스에서 사전에 설정한 의도별 답변 리스트 중 하나를 랜덤으로 출력하는 답변 리스트 출력 단계와, 출력되는 의도별 답변 리스트의 의도명을 통해 키오스크에 출현하는 메타휴먼이 특정 행동이나 표정을 표현할 수 있도록 하는 메타휴먼 관리 단계를 포함한다.
도 4는 음성인식 및 음성합성 인공지능을 학습시키기 위한 음성데이터와 해당 전사문 스크립트 데이터(텍스트)를 예로 나타낸 구성도이다.
도 4에서와 같이, STT 모듈(100)과 TTS 모듈(300)은 음성을 인식하고 합성하는 인공지능의 정확도를 높이기 위해 많은 양의 음성데이터와 그에 해당하는 전사문 스크립트(텍스트 데이터) 쌍으로 구성된다.
STT 모듈(100)은 모델 학습 전에 전사문 스크립트에 대해 음절별로 토큰화를 진행하고, TTS 모듈(300)은 음소별로 토큰화를 진행한다.
인공지능 모델 학습 시에는 데이터를 9:1의 비율로 훈련데이터와 검증데이터로 나누어 딥러닝을 수행하여 모델을 생성한다.
도 5는 자연어처리 기반의 시나리오 맞춤 대화형 인공지능 모델을 학습시키기 위한 시나리오 데이터를 라벨링을 수행한 후의 예시를 나타낸 구성도이다.
자연어처리 모듈(200)은 시나리오에 맞추어 대화형 인공지능 모델을 학습시키기 위해 시나리오 스크립트(질의-응대 텍스트)를 요구한다.
시나리오 스크립트는 인공지능이 학습할 수 있는 데이터의 개수에 비례하여, 그 양이 많을수록 대화의 스펙트럼이 넓어지고 더욱 질 높은 대화가 가능하다.
이후, 수집한 스크립트를 Category, Answer, Classification 등으로 라벨링을 수행하고, 인공지능을 학습시키는 딥러닝을 수행하여 모델을 생성한다.
도 6은 STT 모듈을 사용하여 음성 발화를 인식하고 텍스트로 변환하는 절차의 일 예를 나타낸 구성도이다.
STT 모듈(100)은 End-To-End 방식으로 음성을 텍스트로 변환한다.
즉, End-To-End 방식은 음성데이터를 받아서 언어 모델이나 명사 모델 등을 사용하지 않고 곧바로 음성 발화를 텍스트로 변경해주는 인공신경망이다.
본 발명의 STT 모듈(100)은 모델 학습 전에 전사문 스크립트(텍스트)에 존재하는 모든 음절에 대해 전처리와 라벨링을 수행한 단어사전을 생성한다.
이후, 음성데이터에서 각 음절마다의 멜-스펙트로그램(오디오 신호를 변환한 Feature)을 추출한 후, 이를 해당 음절과 매칭시키는 딥러닝을 수행하여 인공지능을 학습시키고 모델을 생성한다.
추론 시에는 들어온 입력데이터를 전처리하고 각 음절마다의 멜-스펙트로그램을 계산하여 기존에 생성된 단어사전과 모델을 이용하여 그에 부합하는 멜-스펙트로그램을 가진 각 음절을 불러와 텍스트의 형태로 출력한다.
도 7은 TTS 모듈을 사용하여 텍스트를 음성으로 합성하는 절차의 일 예를 나타낸 구성도이다.
TTS 모듈(300)은 본 발명의 STT 모듈(100)과 마찬가지로 End-To-End 방식으로 텍스트를 음성으로 합성하는 인공신경망 모델이다.
TTS 모듈(300)은 크게 텍스트에서 멜-스펙트로그램을 생성하는 모델과 멜-스펙트로그램에서 음성 신호를 생성하는 2가지 모델로 구성된다.
추론 시에 NLP 모듈로부터 전달받은 응대 텍스트 문장에 대해 전처리를 수행하고, 각 음절에 대한 멜-스펙트로그램을 생성하여 최종적으로 음성데이터를 출력한다.
이상에서 설명한 본 발명에 따른 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템 및 이의 제어 방법은 음성인식 및 음성합성과 자연어처리 등의 AI 모델을 하나로 통합하고 이를 활용하여 박물관 안내에 최적화된 대화형 AI 키오스크 시스템을 구축할 수 있도록 한 것이다.
본 발명은 전문인력을 대체하여 박물관의 안내를 돕고 박물관 관람의 흥미를 유발하여 우리나라 문화확산을 촉진하여 관광산업의 발전에 도움을 줄 수 있도록 한 것이다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100. 음성 인식(STT) 모듈
200. 자연어 처리 모듈
300. 음성 합성(TTS) 모듈

Claims (9)

  1. 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화를 위하여 적어도 하나의 프로세서를 포함하는 전자 장치가,
    키오스크에 탑재된 마이크로 이용자가 음성 발화하면 이를 인식하여 텍스트 형태로 변환하는 음성 인식(STT) 모듈;
    변환된 텍스트를 전처리를 거쳐 이용자의 발화에 대한 올바른 의도를 분류하고 이에 설정된 응답을 출력하여 텍스트의 형태로 결과를 제공하는 자연어처리(NLP:Natural Language Processing) 모듈;
    응답 텍스트를 음성으로 합성하여 키오스크의 스피커로 송출하기 위한 음성 합성(TTS) 모듈;을 포함하고,
    음성인식 및 음성합성과 자연어처리를 위한 AI 모델이 하나로 통합되는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템.
  2. 제 1 항에 있어서, 자연어처리(NLP:Natural Language Processing) 모듈은,
    다중 분류를 위하여 사전 훈련된 모델 KoBERT를 탑재하는 사전 훈련 모델 탑재부와,
    질의-응대 형태의 시나리오 기반 대화를 위해 문장 의도 분류 모델로 파인튜닝을 진행하는 파인 튜닝부와,
    학습 시 사용자가 발화할 가능성이 있는 의도들을 설정하고 이에 대해 숫자의 형태로 라벨링을 수행하여 생성한 텍스트 파일을 관리하는 분류 데이터 셋 관리부와,
    분류 데이터 셋을 이용하여 딥러닝을 수행하여 인공지능을 학습시키고 메타휴먼의 시나리오 기반 맞춤 대화를 위한 AI 모델을 생성하는 학습 및 모델 생성부와,
    사용자가 발화한 질의 문장이 입력데이터로 들어오면 토큰화를 거친 후 학습한 모델을 통해 의도를 분류하는 의도 분류부와,
    카테고리(Category)와 답변(Answer) 파일을 이용하여 해당 클래스에서 사전에 설정한 의도별 답변 리스트 중 하나를 랜덤으로 출력하는 답변 리스트 출력부를 포함하는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템.
  3. 제 2 항에 있어서, 자연어처리(NLP:Natural Language Processing) 모듈은,
    출력되는 의도별 답변 리스트의 의도명을 통해 키오스크에 출현하는 메타휴먼이 특정 행동이나 표정을 표현할 수 있도록 하는 메타휴먼 관리부를 더 포함하는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템.
  4. 제 1 항에 있어서, 음성 인식(STT) 모듈은,
    음성데이터를 받아서 언어 모델이나 명사 모델을 사용하지 않고 곧바로 음성 발화를 텍스트로 변경해주는 End-To-End 방식으로 음성을 텍스트로 변환하는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템.
  5. 제 4 항에 있어서, 음성 인식(STT) 모듈은,
    모델 학습 전에 전사문 스크립트에 존재하는 모든 음절에 대해 전처리와 라벨링을 수행한 단어사전을 생성하고,
    음성데이터에서 각 음절마다의 멜-스펙트로그램을 추출한 후, 이를 해당 음절과 매칭시키는 딥러닝을 수행하여 인공지능을 학습시키고 모델을 생성하고,
    추론 시에는 들어온 입력데이터를 전처리하고 각 음절마다의 멜-스펙트로그램을 계산하여 기존에 생성된 단어사전과 모델을 이용하여 그에 부합하는 멜-스펙트로그램을 가진 각 음절을 불러와 텍스트의 형태로 출력하는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템.
  6. 제 1 항에 있어서, 음성 합성(TTS) 모듈은,
    End-To-End 방식으로 텍스트를 음성으로 합성하고,
    텍스트에서 멜-스펙트로그램을 생성하는 모델과 멜-스펙트로그램에서 음성 신호를 생성하는 모델로 구성되어,
    추론 시에 자연어처리(NLP:Natural Language Processing) 모듈로부터 전달받은 응대 텍스트 문장에 대해 전처리를 수행하고, 각 음절에 대한 멜-스펙트로그램을 생성하여 최종적으로 음성데이터를 출력하는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템.
  7. 적어도 하나의 프로세서를 포함하는 전자 장치에서 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화를 위한 동작이 수행되고,
    사용자의 음성 발화에 따른 음성 데이터가 입력되면, 음성을 인식하여 텍스트로 변환하는 음성인식 단계;
    텍스트로 변환된 사용자의 질의 문장에 대한 의도를 분류하고 사전에 설정한 의도별 응대 리스트 중 하나를 랜덤으로 출력하는 문장 의도 분류 단계;
    응대 텍스트를 음성으로 합성하는 음성합성 단계;
    사용자에 질의에 대한 인공지능의 응대 음성을 출력하는 단계;를 포함하는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 제어 방법.
  8. 제 7 항에 있어서, 문장 의도 분류 단계는,
    질의-응대 형태의 시나리오 기반 대화를 위해 문장 의도 분류 모델로 파인튜닝을 진행하는 파인 튜닝 단계와,
    학습 시 효율성을 위해 사용자가 발화할 가능성이 있는 의도들을 설정하고 이에 대해 숫자의 형태로 라벨링을 수행하여 생성한 텍스트 파일을 관리하는 분류 데이터 셋 관리 단계와,
    분류 데이터 셋을 이용하여 딥러닝을 수행하여 인공지능을 학습시키고 메타휴먼의 시나리오 기반 맞춤 대화를 위한 AI 모델을 생성하는 학습 및 모델 생성 단계와,
    사용자가 발화한 질의 문장이 입력데이터로 들어오면 토큰화를 거친 후 학습한 모델을 통해 의도를 분류하는 의도 분류 단계와,
    카테고리(Category)와 답변(Answer) 파일을 이용하여 해당 클래스에서 사전에 설정한 의도별 답변 리스트 중 하나를 랜덤으로 출력하는 답변 리스트 출력 단계를 포함하는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 제어 방법.
  9. 제 8 항에 있어서, 문장 의도 분류 단계는,
    출력되는 의도별 답변 리스트의 의도명을 통해 키오스크에 출현하는 메타휴먼이 특정 행동이나 표정을 표현할 수 있도록 하는 메타휴먼 관리 단계를 더 포함하는 것을 특징으로 하는 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 AI 키오스크 시스템의 제어 방법.
KR1020220172713A 2022-12-12 2022-12-12 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법 KR20240087228A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220172713A KR20240087228A (ko) 2022-12-12 2022-12-12 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220172713A KR20240087228A (ko) 2022-12-12 2022-12-12 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법

Publications (1)

Publication Number Publication Date
KR20240087228A true KR20240087228A (ko) 2024-06-19

Family

ID=91712984

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220172713A KR20240087228A (ko) 2022-12-12 2022-12-12 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법

Country Status (1)

Country Link
KR (1) KR20240087228A (ko)

Similar Documents

Publication Publication Date Title
CN113439301B (zh) 用于机器学习的方法和***
US20220172707A1 (en) Speech recognition method and apparatus, device, and storage medium
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
US10679613B2 (en) Spoken language understanding system and method using recurrent neural networks
CN112017644B (zh) 一种声音变换***、方法及应用
US10621975B2 (en) Machine training for native language and fluency identification
KR20210146089A (ko) 대화 스타일링 서비스를 위한 다중 페르소나 모델 생성 방법 및 이를 이용한 대화 스타일링 방법
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
JP2024508033A (ja) 対話中のテキスト-音声の瞬時学習
CN118043885A (zh) 用于半监督语音识别的对比孪生网络
Seong et al. Multilingual speech synthesis for voice cloning
CN111128175B (zh) 口语对话管理方法及***
KR20210123545A (ko) 사용자 피드백 기반 대화 서비스 제공 방법 및 장치
Dasare et al. Text to speech system for lambani-a zero resource, tribal language of india
Venkatagiri Speech recognition technology applications in communication disorders
KR20240087228A (ko) 박물관 안내를 위한 메타휴먼의 시나리오 기반 맞춤 대화형 ai 키오스크 시스템 및 이의 제어 방법
Bohac et al. A cross-lingual adaptation approach for rapid development of speech recognizers for learning disabled users
US11501091B2 (en) Real-time speech-to-speech generation (RSSG) and sign language conversion apparatus, method and a system therefore
AU2020103587A4 (en) A system and a method for cross-linguistic automatic speech recognition
Patel et al. Google duplex-a big leap in the evolution of artificial intelligence
JP7146038B2 (ja) 音声認識システム及び方法
Paaß et al. Understanding Spoken Language
Dewasurendra et al. Emergency Communication Application for Speech and Hearing-Impaired Citizens
ラジコヲスキカツペル パエル A study on speech recognition and correction for non-native English speakers