KR20230120790A - 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 - Google Patents

가변적 언어모델을 이용한 음성인식 헬스케어 서비스 Download PDF

Info

Publication number
KR20230120790A
KR20230120790A KR1020220017442A KR20220017442A KR20230120790A KR 20230120790 A KR20230120790 A KR 20230120790A KR 1020220017442 A KR1020220017442 A KR 1020220017442A KR 20220017442 A KR20220017442 A KR 20220017442A KR 20230120790 A KR20230120790 A KR 20230120790A
Authority
KR
South Korea
Prior art keywords
language
voice
voice recognition
language model
speech
Prior art date
Application number
KR1020220017442A
Other languages
English (en)
Inventor
송민규
윤종성
Original Assignee
미디어젠(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미디어젠(주) filed Critical 미디어젠(주)
Priority to KR1020220017442A priority Critical patent/KR20230120790A/ko
Publication of KR20230120790A publication Critical patent/KR20230120790A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Tourism & Hospitality (AREA)
  • Primary Health Care (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Medical Informatics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

본 명세서의 일 실시예에 따른 음성 인식 장치는, 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하되, 입력된 음성에 적어도 하나의 언어장애가 존재하는 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 저장부로부터 선택하여 튜닝 언어모델을 이용하여 상기 음성인식을 수행한다. 이에 따라, 입력된 스피치에 언어 장애 요소가 포함되는 경우에도 음성 인식률을 향상시킬 수 있다.

Description

가변적 언어모델을 이용한 음성인식 헬스케어 서비스{Speech Recognition Healthcare Service Using Variable Language Model}
본 명세서는 음성인식 장치 및 방법에 관한 것이다.
음성, 음향, 장애인 특유의 발성이 섞여 음성 인식 장치를 통해 대화를 진행할 경우 비자애인은 이해가 어려운 경우가 발생되어, 음성을 통한 원활한 소통에 어려움이 발생하는 경우가 있다. 특히 동일한 발음을 하더라도 기계를 통해 상대에게 전달시 전혀 다른 의미의 단어나 OOV(Out of vocabulary)로 인식되는 경우가 종종 발생된다.
특히, 파킨슨병, 뇌졸중, 실어증 등 다양한 언어 장애 질병이 존재하며, 이러한 언어 장애인의 음성을 종래의 음성인식 시스템을 통해 인식하기는 매우 어려운 문제가 있다.
본 명세서는 전술한 문제점을 해결하기 위한 것으로서, 언어 장애 유형에 따른 특징을 반영한 다수의 언어 모델을 이용함으로써, 음성 인식 성능을 향상시킬 수 있는 음성 인식 장치 및 방법을 제공한다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 이하의 발명의 상세한 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서의 일 실시예에 따른 음성 인식 장치는, 음성 입력부; 음성인식을 수행하기 위한 적어도 하나의 언어모델이 저장된 저장부; 상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하는 음성 인식부; 및 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하고, 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 프로세서;를 포함한다.
상기 프로세서는, 상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하고, 상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.
상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수 있다.
상기 프로세서는, 상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득부; 상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 모델 학습부;를 더 포함할 수 있다.
상기 프로세서는, 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 상기 튜닝 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어할 수 있다.
본 명세서의 다른 실시예에 따른 음성 인식 방법은 음성 입력부를 통해 사용자의 음성을 입력받는 단계; 상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 저장부에 저장된 언어모델을 이용하여 음성인식을 수행하는 단계;를 포함하되, 상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하는 단계; 및 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 단계;를 포함한다.
상기 음성 인식 방법은, 상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하는 단계;를 더 포함하고, 상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.
상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수 있다.
상기 음성 인식 방법은, 상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득하는 단계; 상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 단계;를 더 포함할 수 있다.
상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 단계;를 더 포함할 수 있다.
본 명세서의 다른 실시예는 전술한 음성 인식 방법을 실행시키도록 구현되어 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 포함한다.
본 명세서의 일 실시예에 따르면, 언어 장애 유형에 따른 특징을 반영한 다수의 언어 모델을 이용함으로써, 음성 인식 성능을 향상시킬 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.
도 1은 본 명세서의 일 실시예에 따른 음성 인식 장치의 구성을 설명하기 위한 도면이다.
도 2는 본 명세서의 일 실시예에 따른 음성처리 모듈을 구체적으로 설명하기 위한 도면이다.
도 3은 본 명세서의 일 실시예에 따른 음성인식 방법의 흐름도이다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 명세서의 일 실시예에 따른 음성 인식 장치의 구성을 설명하기 위한 도면이다.
음성인식 장치(100)는 AI 프로세싱을 수행할 수 있는 AI 모듈을 포함하는 전자 기기 또는 상기 AI 모듈을 포함하는 서버 등을 포함할 수 있다. 상기 AI 프로세싱은, 디바이스의 제어와 관련된 모든 동작들을 포함할 수 있다.
상기 음성인식 장치(100)는 휴대폰, 스마트폰, 데스크탑 컴퓨터, 노트북, 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 태블릿 PC, 웨어러블 장치, 셋톱박스(STB), DMB 수신기, 로봇과 같은 고정형 기기 또는 이동 가능한 기기 등으로 구현될 수 있다. 위 예시는 사용자 단말의 예시에 불과하면, 상기 음성인식 장치(100)는 네트워크와 연결된 서버 장치일 수도 있다.
상기 음성인식 장치(100)는 트레이닝 데이터(110), 러닝 유닛(120), 신경망 모델(130), 통신부(140), 입력부(150), 출력부(160), 프로세서(170)를 포함할 수 있다. 입력된 음성을 처리하는 음성처리 모듈(voice processor)은 프로세서(170)에 포함되거나 독립된 모듈로 구비될 수 있다.
트레이닝 데이터(110)는 인공신경망을 학습시키기 위한 데이터로서, 경험이나 교육을 통해 획득한 사실, 정보 및 기술(Information about objects, events, concepts or rules, their relationships and properties, organized of goal-oriented systematic use) 등을 의미할 수 있다. 상기 트레이닝 데이터(110)는 트레이닝 데이터 획득부의 의미를 포함할 수 있다.
본 명세서의 일 실시예에 의하면 트레이닝 데이터(110)는 음성인식 장치(100)에 입력되는 음성신호(voice signal)을 포함할 수 있다. 또는 상기 트레이닝 데이터(110)는 상기 음성인식 장치(100)에 입력되는 음성신호 중 언어장애 요소가 포함되어 있는 특정 음성신호만을 의미할 수도 있다. 또는 프로세서(170)는 입력된 음성신호에 대하여 음성인식을 수행한 결과 음성 인식률이 미리 정해진 인식률 이하인 음성신호를 구분하고, 음성 인식률이 저조한 음성신호를 트레이닝 데이터(110)로 획득할 수 있다.
또는 프로세서(170)는 미리 정해진 스피치 패턴에 대응되는 음성이 입력되는 경우, 음성인식을 수행하는 과정과 별도로 트레이닝 데이터로 활용할 수 있다. 여기서 미리 정해진 스피치 패턴은 본 명세서의 일 실시예에 따라 언어장애 유형으로 구분될 수 있는 적어도 하나의 언어장애 스피치 패턴에 대응되는 음성신호를 포함할 수 있다. 상기 미리 정해진 스피치 패턴에 대응되는 음성인지 여부를 판단하기 위해 프로세서(170)는 음성인식을 통해 음성신호를 텍스트로 변환한 후, 상기 변환된 텍스트를 분석하여 입력된 음성이 언어장애 스피치 패턴에 대응되는 음성신호인지 여부를 판단할 수도 있다.
일 실시예에 따라 상기 미리 정해진 언어장애 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등으로 인해 원활한 음성인식이 불가능한 상태의 스피치 패턴을 의미할 수 있다. 한편, 전술한 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등의 스피치 패턴은 본 명세서의 기술적 사상을 설명하기 위한 예시이며, 상기 미리 정해진 언어장애 스피치 패턴은 전술한 예로 한정되지 않고 새롭게 발견되는 언어장애 유형을 등록함으로써, 다양한 언어장애 증세에 최적화된 음성인식 언어모델을 구축할 수 있다.
학습부(120)는 데이터 분류/인식을 판단하기 위하여 어떤 학습 데이터를 이용할지, 학습 데이터를 이용하여 데이터를 어떻게 분류하고 인식할지에 관한 기준을 학습할 수 있다. 학습부(120)는 학습에 이용될 학습 데이터를 획득하고, 획득된 학습데이터를 신경망 모델에 적용함으로써, 신경망 모델을 학습할 수 있다.
학습부(120)는 적어도 하나의 하드웨어 칩 형태로 제작되어 음성인식 장치(100)에 탑재될 수 있다. 예를 들어, 학습부(120)는 인공지능(AI)을 위한 전용 하드웨어 칩 형태로 제작될 수도 있고, 범용 프로세서(CPU) 또는 그래픽 전용 프로세서(GPU)의 일부로 제작되어 음성인식 장치(100)에 탑재될 수도 있다. 또한, 학습부(120)는 소프트웨어 모듈로 구현될 수 있다. 소프트웨어 모듈(또는 인스트럭션(instruction)을 포함하는 프로그램 모듈)로 구현되는 경우, 소프트웨어 모듈은 컴퓨터로 읽을 수 있는 판독 가능한 비일시적 판독 가능 기록 매체(non-transitory computer readable media)에 저장될 수 있다. 이 경우, 적어도 하나의 소프트웨어 모듈은 OS(Operating System)에 의해 제공되거나, 애플리케이션에 의해 제공될 수 있다.
본 명세서의 일 실시예에 따른 학습부(Learning unit, 120)는 트레이닝 데이터(110)가 확정되면 트레이닝 데이터(110)에 전처리 과정을 수행하고, 전처리된 데이터를 이용하여 인공신경망을 학습시킨다.
학습부(120)는 데이터 획득부(미도시) 및 모델 학습부(미도시)를 더 포함할 수 있다.
학습 데이터 획득부는 데이터를 분류하고 인식하기 위한 신경망 모델에 필요한 학습 데이터를 획득할 수 있다. 예를 들어, 데이터 획득부(23)는 학습 데이터로서, 신경망 모델에 입력하기 위한 샘플 데이터를 획득할 수 있다. 본 명세서의 일 실시예에 의하면, 상기 학습을 위한 샘플 데이터는 음성인식 장치(100)로 인력되는 모든 음성 신호이거나, 미리 정해진 스피치 패턴이 등록되어 있는 경우, 상기 미리 정해진 스피치 패턴에 해당되는 음성신호를 추출하여 학습데이터로 정의할 수 있다.
모델 학습부는 상기 획득된 학습 데이터를 이용하여, 신경망 모델이 소정의 데이터를 어떻게 분류할지에 관한 판단 기준을 가지도록 학습할 수 있다. 이 때 모델 학습부는 학습 데이터 중 적어도 일부를 판단 기준으로 이용하는 지도 학습(supervised learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또는 모델 학습부는 지도 없이 학습 데이터를 이용하여 스스로 학습함으로써, 판단 기준을 발견하는 비지도 학습(unsupervised learning)을 통해 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 학습에 따른 상황 판단의 결과가 올바른지에 대한 피드백을 이용하여 강화 학습(reinforcement learning)을 통하여, 신경망 모델을 학습시킬 수 있다. 또한, 모델 학습부는 오류 역전파법(error back-propagation) 또는 경사 하강법(gradient decent)을 포함하는 학습 알고리즘을 이용하여 신경망 모델을 학습시킬 수 있다.
신경망 모델이 학습되면, 모델 학습부는 학습된 신경망 모델을 메모리에 저장할 수 있다. 모델 학습부는 학습된 신경망 모델을 음성인식 장치(100)와 유선 또는 무선 네트워크로 연결된 서버의 메모리에 저장할 수도 있다.
학습부(120)는 인식 모델의 분석 결과를 향상시키거나, 인식 모델의 생성에 필요한 리소스 또는 시간을 절약하기 위해 학습 데이터 전처리부(미도시) 및 학습 데이터 선택부(미도시)를 더 포함할 수도 있다.
학습 데이터 전처리부는 획득된 데이터가 상황 판단을 위한 학습에 이용될 수 있도록, 획득된 데이터를 전처리할 수 있다. 예를 들어, 학습 데이터 전처리부는, 모델 학습부가 음성인식 장치(100)에 입력된 음성 데이터, 음성인식 결과에 대응하는 텍스트 데이터를 학습 데이터로 이용할 수 있도록, 획득된 데이터를 기 설정된 포맷으로 가공할 수 있다.
또한, 학습 데이터 선택부는, 학습 데이터 획득부에서 획득된 학습 데이터 또는 전처리부에서 전처리된 학습 데이터 중 학습에 필요한 데이터를 선택할 수 있다. 본 명세서의 일 실시예에 따르면, 언어장애 요소를 가지는 특정 스피치 패턴은 단일 언어장애 증상을 보이는 스피치 패턴, 두 가지의 언어장애 증상이 포함된 스피치 패턴, 두 가지 이상의 언어장애 증상이 포함된 스피치 패턴 등을 포함할 수 있다. 프로세서는 학습 데이터를 선택하는 과정에서 전술한 단일 언어증상 스피치 패턴의 데이터를 학습데이터로 하여 단일 언어장애 언어모델을 학습할 수 있다. 또한 프로세서는 복수의 언어증상 스피치 패턴의 데이터를 학습데이터로 하여 복합 언어장애 언어모델을 학습할 수 있다. 예를 들어, 프로세서는 말 더듬 스피치 패턴과 반복 읽기 스피치 패턴의 데이터를 언어모델 튜닝을 위한 학습데이터로 이용할 수 있다.
또한, 학습부(120)는 신경망 모델의 분석 결과를 향상시키기 위하여 모델 평가부(미도시)를 더 포함할 수도 있다.
모델 평가부는, 신경망 모델에 평가 데이터를 입력하고, 평가 데이터로부터 출력되는 분석 결과가 소정 기준을 만족하지 못하는 경우, 모델 학습부(120)로 하여금 다시 학습하도록 할 수 있다. 이 경우, 평가 데이터는 인식 모델을 평가하기 위한 기 정의된 데이터일 수 있다. 일 예로, 모델 평가부는 평가 데이터에 대한 학습된 인식 모델의 분석 결과 중, 분석 결과가 정확하지 않은 평가 데이터의 개수 또는 비율이 미리 설정되 임계치를 초과하는 경우, 소정 기준을 만족하지 못한 것으로 평가할 수 있다.
통신부(140)는 프로세서(170)에 의한 AI 프로세싱 결과를 외부 전자 기기로 전송할 수 있다. 여기서 외부 전자 기기는 외부 서버, 사용자 단말 등을 포함할 수 있다.
통신부(140)가 이용하는 통신 기술에는 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), LTE(Long Term Evolution), 5G, WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), 블루투스(Bluetooth?), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), ZigBee, NFC(Near Field Communication) 등이 있다.
입력부(140)는 다양한 종류의 데이터를 획득할 수 있다. 입력부(120)는 영상 신호 입력을 위한 카메라, 오디오 신호를 수신하기 위한 마이크로폰, 사용자로부터 정보를 입력 받기 위한 사용자 입력부 등을 포함할 수 있다. 여기서, 카메라나 마이크로폰을 센서로 취급하여, 카메라나 마이크로폰으로부터 획득한 신호를 센싱 데이터 또는 센서 정보라고 할 수도 있다.
입력부(150)는 모델 학습을 위한 학습 데이터 및 학습 모델을 이용하여 출력을 획득할 때 사용될 입력 데이터 등을 획득할 수 있다. 입력부(150)는 가공되지 않은 입력 데이터를 획득할 수도 있으며, 이 경우 프로세서(170)는 입력 데이터에 대하여 전처리로써 입력 특징점(input feature)을 추출할 수 있다.
출력부(160)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시킬 수 있다. 출력부(160)에는 시각 정보를 출력하는 디스플레이부, 청각 정보를 출력하는 스피커, 촉각 정보를 출력하는 햅틱 모듈 등이 포함될 수 있다.
프로세서(170)는 학습부(120)에서 인공신경망 학습이 완료되면 메모리(미도시)에 신경망 모델(NN Model, 130)을 저장할 수 있다.
프로세서(170)는 메모리(미도시)에 저장된 프로그램을 이용하여 신경망을 학습할 수 있다. 특히, 프로세서(170)는 음성인식 장치(100)에 입력된 음성에 언어장애 요소가 포함된 경우, 언어장애 요소에도 불구하고 음성 인식률을 높이기 위해 언어장애 요소가 포함된 학습데이터에 기초하여 신경망을 학습할 수 있다. 여기서, 신경망은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며, 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 갖는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 모드들은 뉴런이 시냅스(synapse)를 통해 신호를 주고받는 뉴런의 시냅틱 활동을 모의하도록 각각 연결 관계에 따라 데이터를 주고받을 수 있다. 여기서 신경망은 신경망 모델에서 발전한 딥러닝 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 레이어에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다. 신경망 모델의 예는 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들을 포함하며, 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.
한편, 전술한 바와 같은 기능을 수행하는 프로세서는 범용 프로세서(예를 들어, CPU)일 수 있으나, 인공지능 학습을 위한 AI 전용 프로세서(예를 들어, GPU)일 수 있다.
한편, 음성인식 장치(100)는 메모리(미도시)를 더 포함할 수 있다. 상기 메모리는 음싱인식 동작에 필요한 각종 프로그램 및 데이터를 저장할 수 있다. 메모리는 비 휘발성 메모리, 휘발성 메모리, 플래시 메모리(flash-memory), 하드디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SDD) 등으로 구현할 수 있다. 메모리는 프로세서(170)에 의해 엑세스되며, 프로세서(170)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다. 또한, 메모리는 본 발명의 일 실시예에 따른 데이터 분류/인식을 위한 학습 알고리즘을 통해 생성된 신경망 모델(예를 들어, 특정 언어장애에 대응하는 언어모델, 복수의 언어장애 증상에 대응되는 복합 언어모델)을 저장할 수 있다.
본 명세서는 음성인식 장치가 활용될 수 있는 다양한 기기 예를 들어, 감시용 카메라, 자율주행 차량, 사용자 단말기 및 서버 중 하나 이상이 인공 지능(Artificial Intelligence) 모듈, 로봇, 증강현실(Augmented Reality, AR) 장치, 가상 현실(Virtual reality, VT) 장치, 5G 서비스와 관련된 장치 등과 연계될 수 있다.
한편, 도 2를 참조하면, 본 명세서의 일 실시예에 따른 음성인식 장치(100)는 음성처리 모듈(이하, 프로세서 170 내부에 구비된 음성처리 모듈로 가정하여 설명함)을 포함할 수 있다. 음성 처리모듈(170)은 자동 음성 인식(Auto Speech Recognition, ASR) 모듈(171), 지능형 에이전트(Artificial Intelligent Agent)(172), 자연어 이해(Natural Language Understanding, NLU) 모듈(173), 텍스트 음성 변환(Text-to-Speech, TTS) 모듈(174)를 포함할 수 있다.
ASR 모듈(171)은 수신된 사용자 음성 입력을 텍스트 데이터로 변환할 수 있다. ASR 모듈(171)은 프론트-엔드 스피치 프리프로세서(front-end speech pre-processor)를 포함할 수 있다. 프론트-엔드 스피치 프리프로세서는 스피치 입력으로부터 대표적인 특징을 추출한다. 예를 들어, 프론트-엔드 스피치 프리프로세서는 스피치 입력을 푸리에 변환을 수행하여 대표적인 다차원 벡터의 시퀀스로서 스피치 입력을 특징짓는 스펙트럼 특징을 추출한다. 또한, ASR 모듈(171)은 하나 이상의 스피치 인식 모델(예컨대, 음향 모델 및/또는 언어 모델)을 포함하고, 하나 이상의 스피치 인식 엔진을 구비할 수 있다. 스피치 인식 모델의 예는 은닉 마르코프 모델(Hidden Markov Models), 가우시안 혼합 모델(Gaussian-Mixture Models), 딥 신경망 모델(Deep Neural Network Models), n-gram 언어 모델, 및 기타 통계 모델을 포함할 수 있다. 스피치 인식 엔진의 예는 동적 시간 왜곡 기반 엔진 및 가중치 유한 상태 변환기(WFST) 기반 엔진을 포함할 수 있다. 하나 이상의 스피치 인식 모델 및 하나 이상의 스피치 인식 엔진은 중간 인식 결과들(예를 들어, 음소, 음소 문자열, 및 하위 단어들), 및 궁극적으로 텍스트 인식 결과들(예컨대, 단어, 단어 문자열, 또는 토큰들의 시퀀스)을 생성하기 위해 프론트-엔드 스피치 프리프로세서의 추출된 대표 특징들을 처리하는 데 사용될 수 있다.
ASR 모듈(171)이 텍스트 문자열(예를 들어, 단어들, 또는 단어들의 시퀀스, 또는 토큰들의 시퀀스)을 포함하는 인식 결과를 생성하면, 인식 결과는 의도 추론을 위해 자연 언어 처리 모듈(173)로 전달될 수 있다. 일부 예들에서, ASR 모듈(171)은 스피치 입력의 다수의 후보 텍스트 표현들을 생성한다. 각각의 후보 텍스트 표현은 스피치 입력에 대응하는 단어들 또는 토큰들의 시퀀스이다.
NLU 모듈(173)은 문법적 분석(Syntactic analyze) 또는 의미적 분석(Semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 상기 문법적 분석은 문법 단위(예를 들어, 단어, 구, 형태소 등)를 나누고, 나누어진 단위가 어떠한 문법적인 요소를 갖는지 파악할 수 있다. 상기 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 등을 이용하여 수행할 수 있다. 이에 따라, NUL 모듈(173)은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 상기 의도를 표현하는데 필요한 파라미터(parameter)를 획득할 수 있다.
상기 NLU 모듈(173)은 도메인, 의도 및 상기 의도를 파악하는데 필요한 파라미터로 나누어진 매핑 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 하나의 도메인(예를 들어, 날씨정보)은 복수의 의도(예를 들어, 더워, 추워, 날씨에 대한 감정표현 등)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예를 들어, 시간, 반복 횟수, 알람음 등)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 상기 매칭 규칙은 자연어 이해 데이터 베이스(Natural Language Understanding Database)에 저장될 수 있다.
상기 NLU 모듈(173)은 형태소, 구 등의 언어적 특징(예를 들어, 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 상기 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정한다. 예를 들어, NLU 모듈(173)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는지를 계산하여 사용자 의도를 결정할 수도 있다. 일 실시예에 따르면, NLU 모듈(173)은 상기 의도를 파악하는데 기초가된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 일 실시예에 따르면, NLU 모듈(173)은 사용자 입력의 의도를 파악하기 위한 언어적 특징이 저장된 자연어 인식 데이터 베이스를 이용하여 사용자의 의도를 결정할 수 있다. 또한 일 실시예에 따르면, NLU 모듈(173)은 개인화 언어 모델(personal language model, PLM)을 이용하여 사용자의 의도를 결정할 수 있다. 예를 들어, NLU 모듈(173)은 개인화된 정보(예를 들어, 언어이용 특성, 언어장애 여부 등)을 이용하여 사용자의 의도를 결정할 수 있다. 상기 개인화 언어 모델은, 예를 들어, 자연어 인식 데이터 베이스에 저장될 수 있다. 일 실시예에 따르면, NLU 모듈(173) 뿐 아니라 ASR 모듈(173)도 자연어 인식 데이터 베이스에 저장된 개인화 언어 모델을 참고하여 사용자 음성을 인식할 수 있다.
NLU 모듈(173)은 자연어 생성 모듈(미도시)을 더 포함할 수 있다. 상기 자연어 생성 모듈은 지정된 정보를 텍스트 형태로 변경할 수 있다. 상기 텍스트 형태로 변경된 정보는 자연어 발화의 형태일 수 있다. 상기 지정된 정보는 예를 들어, 추가 입력에 대한 정보, 사용자 입력에 대응되는 동작의 완료를 안내하는 정보 또는 사용자의 추가 입력을 안내하는 정보 등을 포함할 수 있다. 상기 텍스트 형태로 변경된 정보는 클라이언트 디바이스로 전송되어 디스플레이에 표시되거나, TTS 모듈로 전송되어 음성 형태로 변경될 수 있다.
여기서 상기 NLU 모듈(173)은 사용자의 의도를 추론함에 있어서, 일반적인 언어모델을 사용할 수도 있다. 상기 일반적인 언어모델이라 함은, 스피커(speaker)가 별다른 언어장애 현상 없는 음성을 입력한 경우, 음성인식 장치(100)에서 이용하는 언어모델일 수 있다. 그러나 본 명세서의 일 실시예에 따르면, 상기 일반적인 언어모델을 사용하여 사용자의 의도가 정상적으로 추론되지 못한 경우, 특히 입력된 음성이 언어장애 요소를 포함하여 상기 일반적인 언어모델을 이용한 경우 정상적인 음성인식이 불가능한 것으로 판단한 경우, 일반적인 언어모델에서 언어장애의 특징요소가 튜닝된 튜닝 언어모델을 사용할 수 있다.
일 실시예에 따라 프로세서는 상기 NLU 모듈(173)에서 상기 일반적인 언어모델을 이용하여 음성인식을 수행한 결과, 사용자의 의도 추출이 불가능한 경우를 입력된 음성에 언어장애 요소가 포함된 것으로 판단할 수 있다.
또한, 일 실시예에 따라 프로세서는 상기 ASR 모듈(171)에서 입력된 음성을 텍스트로 변환한 결과를 NLU 모듈(173)에서 상기 문법적 분석을 수행한 결과 구분된 형태소가 어떠한 문법적인 요소를 갖는지 파악할 수 없는 경우, 입력된 음성에 언어장애 요소가 포함된 것으로 판단할 수도 있다.
입력된 음성에 언어장애 요소가 포함된 것으로 판단하는 방법은 전술한 예시에 한정되지 않고 다양한 방법을 통해 구현될 수 있다.
음성 합성 모듈(TTS 모듈, 174)은 텍스트 형태의 정보를 음성 형태의 정보로 변경할 수 있다. TTS 모듈(174)은 NLU 모듈(173)의 자연어 생성 모듈로부터 텍스트 형태의 정보를 수신하고, 상기 텍스트 형태의 정보를 음성 형태의 정보로 변경하여 음성 형태의 정보를 스피커를 통해 출력할 수 있다.
음성 합성 모듈(174)은 제공된 텍스트에 기초하여 스피치 출력을 합성한다. 예를 들어, 음성 인식 모듈(ASR)(171)에서 생성된 결과는 텍스트 문자열의 형태이다. 음성 합성 모듈(174)은 텍스트 문자열을 가청 스피치 출력으로 변환한다. 음성 합성 모듈(174)은, 텍스트로부터의 스피치 출력을 생성하기 위하여 임의의 적절한 스피치 합성 기법을 사용하는데, 이는 편집 합성(concatenative synthesis), 단위 선택 합성(unit selection synthesis), 다이폰 합성, 도메인-특정 합성, 포먼트 합성(Formant synthesis), 조음 합성(Articulatory synthesis), HMM(hidden Markov model) 기반 합성, 및 정현파 합성(sinewave synthesis)을 포함하지만 이로 한정되지 않는다.
일부 예들에서, 음성 합성 모듈(174)은 단어들에 대응하는 음소 문자열에 기초하여 개별 단어들을 합성하도록 구성된다. 예를 들어, 음소 문자열은 생성된 텍스트 문자열의 단어와 연관된다. 음소 문자열은 단어와 연관된 메타데이터에 저장된다. 음성 합성 모듈(174)은 스피치 형태의 단어를 합성하기 위해 메타데이터 내의 음소 문자열을 직접 프로세싱하도록 구성된다.
본 명세서의 일 실시예에 따라, ASR 모듈(171), NLU 모듈(173)의 음성 처리 결과를 TTS(174)를 통해 음성합성을 수행한 결과, TTS(174)의 출력이 독립적인 언어적 의미를 갖지 못하는 경우 예를 들어, 사용자의 의도는 "더워" 라는 음성을 입력하고자 하였으나, 사용자의 언어장애로 인해 "더더워", "더더더워", "더더어더워" 등의 TTS(174) 결과를 출력한 경우, 입력된 음성에 언어장애 요소가 포함된 것으로 판단하고, 상기 입력된 음성을 추후 언어모델 튜닝을 위한 학습 데이터로 저장할 수 있다. 즉, 본 명세서의 일 실시예는 ASR 모듈(171), NLU 모듈(173)을 통해서만 입력 음성의 언어장애 포함여부를 판단하는 것이 아니라, ASR 모듈(171), NLU 모듈(173)의 음성 처리 결과에서는 언어장애 요소가 포함되어 있는지 판단하지 못하였으나, 최종적으로 TTS(174) 출력 결과를 통해서 언어장애 포함여부를 판단할 수도 있다.
한편, 본 발명의 일 실시예에 따른 챗봇 대화 처리 장치는 지능형 에이전트(Artificial Intelligence Agent, AI 에이전트)(172)를 더 포함할 수 있다. 상기 지능형 에이전트(172)는 전술한 ASR 모듈(171), NLU 모듈(173) 및/또는 TTS 모듈(173)이 수행하는 기능 중 적어도 일부의 기능을 수행하도록 설계될 수 있다. 또한 상기 지능형 에이전트 모듈(172)은 ASR 모듈(171), NLU 모듈(173) 및/또는 TTS 모듈(174) 각각의 독립적인 기능을 수행하는데 기여할 수 있다.
상기 지능형 에이전트 모듈(173)은 심층학습(딥러닝)을 통해 전술한 기능들을 수행할 수 있다. 상기 심층학습은 심층 신경망(DNN, deep neural networks), 합성곱 신경망(CNN, convolutional deep neural networks), 순환 신경망(RNN, Recurrent Boltzmann Machine), 제한 볼츠만 머신(RBM, Restricted Boltzmann Machine), 심층 신뢰 신경망(DBN, deep belief networks), 심층 Q-네트워크(Deep Q-Network)와 같은 다양한 딥 러닝 기법들이 컴퓨터비젼, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용될 수 있다.
지능형 에이전트 모듈(172)은 자연어 처리 분야에서 심층 인공신경망 구조를 이용하여 자동 번역(machine translation), 감정 분석(emotion analysis), 정보 검색(information retrieval)을 비롯한 다양한 자연언어처리 과정을 수행할 수 있다.
본 명세서의 일 실시예는 지능형 에이전트 모듈(172)을 통해 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 수도 있다. 지능형 에이전트 모듈(172)은 특히 다양한 개인화된 정보를 수집하여, 개인화된 언어모델을 학습하는데 활용될 수 있다. 일 실시예에 따라, 음성인식 장치(100) 사용자에 의해 주로 발현되는 주요 언어장애 유형들을 판단하고, 해당 언어장애 유형에 대응되는 언어모델에 대하여 튜닝을 수행할 수 있다. 지능형 에이전트 모듈(172)은 상기 개인화된 언어모델을 학습하는데, 개인화된 정보 예를 들어, 맵(maps), SMS, News, Music, Stock, Weather, wikipedia 정보를 활용할 수도 있다.
상기 지능형 에이전트(172)은 설명의 편의를 위해 ASR 모듈(171), NLU 모듈(173) 및 TTS 모듈(174)과 구분되도록 별도의 블럭으로 표현하였으나, 상기 지능형 에이전트(172)는 상기 각 모듈(171,173,174)의 적어도 일부 또는 전부의 기능을 수행할 수도 있다.
도 3은 본 명세서의 일 실시예에 따른 음성인식 방법의 흐름도이다. 상기 음성인식 방법은 도 1의 프로세서(Processor) 또는 음성처리 모듈(Voice Processor)을 통해 구현될 수 있다.
도 3을 참조하면, 프로세서(170)은 입력부를 통해 음성입력을 수신할 수 있다(S300). 프로세서(170)는 입력된 음성에 언어장애 요소가 포함되어 있는지를 판단할 수 있다(S310). 프로세서(170)는 일반적으로 음성인식 동작에 사용되는 언어모델을 사용할 것인지, 언어장애가 포함된 음성에 특화된 튜닝 언어모델을 사용할 것인지 판단하기 위해 음성인식 장치(100)에 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 필요가 있다.
전술한 바와 같이 프로세서(170)는 입력된 음성에 대하여 ASR 결과, NLU 결과 및/또는 TTS 결과에 기초하여 입력된 음성에 언어장애 요소가 포함되어 있는지 여부를 판단할 수 있다. 일 실시예에 따라 프로세서(170)는 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단할 수 있다. 여기서 언어장애 요소를 판단하기 위한 상기 미리 정해진 스피치 패턴은 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함할 수 있다.
프로세서(170)는 입력된 음성에 언어장애 요소가 포함된 것으로 판단한 경우, 상기 언어장애의 유형을 구분할 수 있다. 상기 언어장애 유형은 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 등의 항목으로 구분될 수 있으며, 프로세서(170)는 입력된 음성이 위 예시된 언어장애 유형 중 적어도 하나에 포함되는지 여부를 판단한다(S320). 프로세서(170)는 상기 입력된 음성이 위 예시된 언어장애 유형 중 적어도 하나에 포함되지 않는 것으로 판단한 경우, 입력된 음성에 대하여 새로운 언어장애 유형으로 등록하고 상기 새로운 언어장애 유형에 대한 튜닝 언어모델 생성을 위한 학습 데이터 획득부에 전달할 수 있다. 일 예에 따라 프로세서(170)는 위 예시된 언어장애 유형 중 적어도 하나에 포함되지 않는 경우, 일반 언어 모델을 적용하여 음성인식이 수행되도록 제어할 수도 있다.
프로세서(170)는 언어장애 유형이 구분된 경우, 구분된 언어장애 유형에 대응되는 튜닝 언어모델을 저장부로부터 선택할 수 있다(S330).
상기 저장부는, 말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델을 포함할 수 있다. 일 실시예에 따라 상기 저장부는 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함할 수도 있다. 예를 들어, 상기 제4 언어모델은, 말 더듬 패턴과 반복 읽기 패턴에 특화된 튜닝 모델, 말 더듬 패턴과 긴 휴지 패턴에 특화된 튜닝 모델, 말 더듬 패턴, 긴 휴지패턴 및 음량 부족 패턴이 동시에 포함된 음성에 특화된 튜닝 모델 등, 언어장애 증상별로 최적화어 튜닝된 언어모델 들을 포함할 수 있다. 즉, 제4 언어모델은 2개의 언어장애 증상, 또는 3개의 언어장애 증상이 복합적으로 나타나는 입력 음성에 대하여 음성인식(사용자 의도 파악) 과정에서 적용될 수 있다. 일 예에 따라, 프로세서(170)는 입력된 음성에 말 더듬 패턴과 반복 읽기 패턴이 입력 음성에 동시에 확인된 경우, 상기 저장부에서 제4 언어모델 중 어느 하나를 선택하여 음성처리를 할 수 있다.
프로세서(170)는 상기 저장부에서 선택된 튜닝 언어모델을 적용하여 음성인식 동작을 수행할 수 있다(S340). 한편, 본 명세서의 일 실시예는 음향 모델은 일반적인 음성 인식 동작과 동일하게 적용될 수 있다.
한편, 일 실시예에 따라, 프로세서(170)는 언어장애 요소가 포함된 경우, 튜닝 언어모델 사용 뿐 아니라, 일반 언어모델을 적용해서 음성인식을 함께 수행할 수도 있으며, 두 가지의 결과를 함께 제공할 수도 있다.
일 실시예에 따라, 프로세서(170)는 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하고, 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 지속적으로 학습할 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (10)

  1. 음성 입력부;
    음성인식을 수행하기 위한 적어도 하나의 언어모델이 저장된 저장부;
    상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 상기 저장부에 저장된 상기 언어모델을 이용하여 음성인식을 수행하는 음성 인식부; 및
    상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하고, 상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 프로세서;
    를 포함하는 음성 인식 장치.
  2. 제 1 항에 있어서,
    상기 프로세서는,
    상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하고,
    상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 장치.
  3. 제 2 항에 있어서,
    상기 저장부는,
    말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함하는 것을 특징으로 하는 음성 인식 장치.
  4. 제 1 항에 있어서,
    상기 프로세서는,
    상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득부; 및
    상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 모델 학습부;
    를 더 포함하는 것을 특징으로 하는 음성 인식 장치.
  5. 제 1 항에 있어서,
    상기 프로세서는,
    상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 상기 튜닝 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 것을 특징으로 하는 음성 인식 장치.
  6. 음성 입력부를 통해 사용자의 음성을 입력받는 단계;
    상기 음성 입력부를 통해 입력된 사용자의 음성에 대해 저장부에 저장된 언어모델을 이용하여 음성인식을 수행하는 단계;를 포함하되,
    상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 언어장애 유형을 구분하고, 구분된 언어장애 유형에 따른 튜닝 언어모델을 상기 저장부로부터 선택하는 단계;
    상기 선택된 튜닝 언어모델을 이용하여 상기 음성인식을 수행하도록 상기 음성 인식부를 제어하는 단계;
    를 포함하는 것을 특징으로 하는 음성 인식 방법.
  7. 제 6 항에 있어서,
    상기 입력된 음성에 대하여 미리 정해진 스피치 패턴을 감지한 경우, 상기 언어장애가 존재하는 것으로 판단하는 단계;를 더 포함하고,
    상기 미리 정해진 스피치 패턴은, 말 더듬기, 반복 읽기, 발음 부정확, 긴 휴지, 음량 부족 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 방법.
  8. 제 6 항에 있어서,
    상기 저장부는,
    말 더듬기 패턴에 대응하는 제1 언어모델, 반복 읽기 패턴에 대응하는 제2 언어모델, 발음 부정확 패턴에 대응하는 제3 언어모델, 상기 언어장애로 판단되는 스피치 패턴 중 적어도 둘 이상이 조합된 패턴에 대응하는 제4 언어모델을 포함하는 것을 특징으로 하는 음성 인식 방법.
  9. 제 6 항에 있어서,
    상기 언어장애에 대응하는 스피치 패턴을 학습데이터로 획득하는 학습데이터 획득하는 단계;
    상기 학습데이터에 대하여 지도학습 과정을 통해 특정 언어장애에 대응하는 언어모델을 학습하는 단계;
    를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
  10. 제 6 항에 있어서,
    상기 음성 입력부를 통해 입력된 음성에 적어도 하나의 언어장애가 존재하는 것으로 판단된 경우, 상기 음성인식을 수행하는 과정에서 상기 저장부에 저장된 언어모델 중 일반 언어모델 및 특정 언어장애에 대응하는 언어모델 각각을 적용하여 음성인식 결과를 출력하도록 제어하는 단계;
    를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
KR1020220017442A 2022-02-10 2022-02-10 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 KR20230120790A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220017442A KR20230120790A (ko) 2022-02-10 2022-02-10 가변적 언어모델을 이용한 음성인식 헬스케어 서비스

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220017442A KR20230120790A (ko) 2022-02-10 2022-02-10 가변적 언어모델을 이용한 음성인식 헬스케어 서비스

Publications (1)

Publication Number Publication Date
KR20230120790A true KR20230120790A (ko) 2023-08-17

Family

ID=87800138

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220017442A KR20230120790A (ko) 2022-02-10 2022-02-10 가변적 언어모델을 이용한 음성인식 헬스케어 서비스

Country Status (1)

Country Link
KR (1) KR20230120790A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102587471B1 (ko) * 2023-02-15 2023-10-12 주식회사 코트라스 인공지능형 언어장애 통역 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102587471B1 (ko) * 2023-02-15 2023-10-12 주식회사 코트라스 인공지능형 언어장애 통역 시스템

Similar Documents

Publication Publication Date Title
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
Mehrish et al. A review of deep learning techniques for speech processing
EP3384488B1 (en) System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
US11282501B2 (en) Speech recognition method and apparatus
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
Gupta et al. Speech emotion recognition using SVM with thresholding fusion
Tanveer et al. Ensemble deep learning in speech signal tasks: a review
Swain et al. A DCRNN-based ensemble classifier for speech emotion recognition in Odia language
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Sekkate et al. A statistical feature extraction for deep speech emotion recognition in a bilingual scenario
Jha et al. Machine learning techniques for speech emotion recognition using paralinguistic acoustic features
CN114898779A (zh) 融合多模态的语音情感识别方法及***
KR20220070466A (ko) 지능적 음성 인식 방법 및 장치
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
KR102221963B1 (ko) 화상 정보를 제공하는 인공 지능 장치 및 그 방법
Chauhan et al. A method for simplifying the spoken emotion recognition system using a shallow neural network and temporal feature stacking & pooling (TFSP)
Hasan et al. Effect of vocal tract dynamics on neural network‐based speech recognition: A Bengali language‐based study
Anindya et al. Development of Indonesian speech recognition with deep neural network for robotic command
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
George et al. A review on speech emotion recognition: a survey, recent advances, challenges, and the influence of noise
Khan et al. Speech emotion recognition using feature fusion: a hybrid approach to deep learning
Dhakal Novel Architectures for Human Voice and Environmental Sound Recognitionusing Machine Learning Algorithms
KR20230149894A (ko) 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템
US11978438B1 (en) Machine learning model updating