KR102395808B1 - 인공지능 서비스 방법 및 이를 위한 장치 - Google Patents

인공지능 서비스 방법 및 이를 위한 장치 Download PDF

Info

Publication number
KR102395808B1
KR102395808B1 KR1020207029338A KR20207029338A KR102395808B1 KR 102395808 B1 KR102395808 B1 KR 102395808B1 KR 1020207029338 A KR1020207029338 A KR 1020207029338A KR 20207029338 A KR20207029338 A KR 20207029338A KR 102395808 B1 KR102395808 B1 KR 102395808B1
Authority
KR
South Korea
Prior art keywords
artificial intelligence
user
user data
model
intelligence service
Prior art date
Application number
KR1020207029338A
Other languages
English (en)
Other versions
KR20200125736A (ko
Inventor
김선태
지창진
Original Assignee
주식회사 엘솔루
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엘솔루 filed Critical 주식회사 엘솔루
Publication of KR20200125736A publication Critical patent/KR20200125736A/ko
Application granted granted Critical
Publication of KR102395808B1 publication Critical patent/KR102395808B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

인공지능 서비스 방법 및 이를 위한 장치가 개시된다. 구체적으로, 인공지능 장치가 인공지능 서비스를 제공하는 방법에 있어서, 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 단계; 기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하는 단계; 및 상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공하는 단계를 포함할 수 있다.

Description

인공지능 서비스 방법 및 이를 위한 장치
본 발명은 음성인식 등 인공지능 시스템에서 목소리 등의 생체정보를 단말기 외부로 유출하지 않고 운영하는 방법(생체정보 보안 방법) 및 이를 지원하는 장치에 관한 것이다.
자동음성인식은(이하 음성인식) 컴퓨터를 이용하여 음성을 문자로 변환해주는 기술이다. 음성인식 기술은 최근 급속한 발전을 이루었으며 인공지능 스피커 등에서 상업적으로 이용되고 있다.
음성인식 기술은 인공지능 학습에 기반한 기술이며, 음성인식 학습은 대규모의 음성데이터를 다루므로 고사양 서버에서도 수 일에서 수 주의 시간이 소요된다.
음성은 화자마다 특색이 있고 쓰이는 어휘도 다양하므로 사용자 별로 적응이 필요하다. 즉, 사용자의 목소리에 맞게 음성인식기를 튜닝하는 과정이 필요하다.
사용자 적응 훈련을 위해서는 목소리나 어휘 등의 사용자 정보가 필요하다.
다만, 음성의 학습은 일반적으로 고사양의 서버에서 이뤄지므로 사용자의 정보는 단말기에서 고사양 서버가 있는 외부로 옮겨지게 되는데, 이때 사용자의 목소리 등 생체정보가 외부로 옮겨지는 문제가 있다.
본 발명의 목적은, 음성인식 등 인공지능 시스템에서 목소리 등의 생체정보를 단말기 외부로 유출하지 않고 운영하는 방법을 제안한다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 양상은, 인공지능 장치가 인공지능 서비스를 제공하는 방법에 있어서, 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 단계; 기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하는 단계; 및 상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공하는 단계를 포함할 수 있다.
바람직하게, 상기 기반 인공지능 모델을 원격 서버로부터 수신하는 단계를 더 포함할 수 있다.
바람직하게, 상기 기반 인공지능 모델은 상기 인공지능 장치에 미리 저장되어 있을 수 있다.
바람직하게, 상기 사용자 적응 훈련은 상기 인공지능 서비스를 제공하지 않는 시간 동안에 수행될 수 있다.
바람직하게, 상기 사용자 적응 훈련은 상기 인공지능 서비스를 제공 중이더라도 실시간으로 수행될 수 있다.
바람직하게, 상기 입력된 사용자 데이터는 상기 사용자 적응 훈련이 시작되기 전까지 누적하여 저장될 수 있다.
바람직하게, 상기 사용자 데이터를 인식한 결과에 대한 신뢰도를 평가하는 단계를 더 포함하고, 상기 신뢰도가 기 설정된 임계값보다 작을 때, 상기 사용자 적응 훈련에 상기 사용자 데이터가 사용되지 않을 수 있다.
본 발명의 다른 일 양상은, 인공지능 서비스를 제공하기 위한 인공지능 장치에 있어서, 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 입력부; 상기 사용자 데이터를 저장하는 메모리; 및 상기 입력부 및 상기 메모리를 제어하는 프로세서를 포함하고, 상기 프로세서는 상기 입력부를 통해 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받고, 기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하고, 상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공할 수 있다.
본 발명의 실시예에 따르면, 생체정보 등 사용자의 정보를 단말기 외부로 유출하지 않으면서도 인공지능의 품질을 개선, 유지시킬 수 있다.
또한, 본 발명의 실시예에 따르면, 대용량 데이터를 학습하지 않아도 되므로 저사양의 단말기에서도 구현될 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1 및 도 2는 생체정보 보안이 보장되지 않는 기존 인공지능 서비스 및 훈련 방법을 설명하는 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 생체정보 보안이 보장되는 인공지능 서비스 및 훈련 방법을 설명하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 단말기의 구성을 예시하는 블록도이다.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.
몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.
도 1 및 도 2는 생체정보 보안이 보장되지 않는 기존 인공지능 서비스 및 훈련 방법을 설명하는 도면이다.
도 1 및 도 2를 참조하면, 단말기(110)는 인공지능 서비스를 제공하면서 이와 함께 사용자 데이터(예를 들어, 음성, 지문, 홍채 등)를 수집한다(S201).
단말기(110)는 수집된 사용자 데이터(120)를 원격지에 있는 원격 서버(140)로 전송한다(S202).
원격 서버(140)로 전송된 사용자 데이터(120)는 원격 서버(140)에서 훈련(학습)에 사용된다(S203).
이때, 사용자 데이터(120)가 원격 서버(140)로 전송됨에 따라 단말기 외부로 사용자 정보(데이터)가 유출되는 것이 불가피하다.
원격 서버(140)에서 훈련이 끝난 인공지능 모델(130)은 단말기(110)로 전송되며, 즉 단말기(110)는 원격 서버(140)로부터 인공지능 모델(130)을 획득한다(S204).
단말기(110)는 획득된 인공지능 모델(130)을 반영함으로써 새로운 인공지능 모델로 인공지능 서비스를 제공한다(S205).
위와 같은 방식을 이용하면 사용자 정보(데이터)는 불가피하게 원격지의 서버로 전송되는 문제가 발생한다. 여기서, 사용자의 정보(데이터), 특히 음성과 같은 생체 정보는 보안 시스템의 키로도 쓰일 수 있으므로 외부 유출이 방지되어야 한다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 생체정보 보안이 보장되는 인공지능 서비스 및 훈련 방법을 설명하는 도면이다.
도 3 및 도 4를 참조하면, 단말기(310)는 원격지의 원격 서버(340)로부터 기반 인공지능 모델을 획득한다(S401).
단말기(310)는 인공지능 서비스를 제공하면서 이와 함께 사용자 데이터(예를 들어, 음성, 지문, 홍채 등)를 수집한다(S402).
이때, 수집된 정보는 훈련(즉, 학습) 전까지 단말기(310)에 보관된다. 예를 들어, 훈련 전까지 수집된 정보는 누적하여 단말에 저장될 수 있다.
단말기(310)는 기반 인공지능 모델과 사용자 데이터를 이용하여 특정 시점(예를 들어, 인공지능 서비스를 제공하지 않는 시간 동안)에 사용자 적응 훈련을 시작할 수 있다(S403).
훈련이 끝나면 단말기(310)에 새로운 인공지능 모델을 반영하여 인공지능 서비스를 계속한다(404).
이때, 앞서 설명한 방법에서 기반 인공지능 모델은 원격지 서버(340)로부터 획득하지 않고 이미 단말기(310)에 미리 저장되어 있을 수 있다(즉, 프로비저닝 (provisioning)).
앞서 설명한 방법에서, 사용자 적응 훈련은 인공지능 모델을 처음부터 새로 만드는 것이 아니라, 기반 인공지능 모델을 사용자 데이터에서 추출된 특성에 적합하도록 변환 및/또는 수정하는 것을 의미한다. 따라서, 인공지능 모델을 처음부터 새롭게 구축하는 것에 비해 시간과 비용을 아낄 수 있고 대용량 데이터를 필요하지 않다.
또한, 앞서 설명한 방법에서, 사용자 적응 훈련에 사용되는 데이터는 양이 적을수록 훈련 시간이 줄어드는 반면, 필요한 데이터가 없다면 훈련 효율이 떨어진다. 이러한 문제를 해결하기 위해 필요한 데이터는 남기고 불필요한 데이터를 훈련에서 배제하는 것이 바람직하다. 이때, 사용자 적응 훈련에 불필요한 데이터는 인식이 잘 된 데이터를 의미할 수 있다. 본 발명에서, 인식이 잘 되었는지 안 되었는지는 시스템에서 판단할 수 있다고 가정한다.
이와 같이, 본 발명에서 제안하는 방식을 이용하면 사용자 데이터(정보)를 단말기 외부로 유출하지 않을 수 있으며, 이와 함께 사용자 적응 훈련도 수행될 수 있다.
도 5는 본 발명의 일 실시예에 따른 단말기의 구성을 예시하는 블록도이다.
도 5를 참조하면, 본 발명에 따른 단말기(500)(즉, 인공지능 장치)는 사용자 데이터를 입력 받기 위한 입력부(510), 기반 인공지능 모델을 수신하기 위한 통신부(520), 사용자 데이터와 기반 인공지능 모델을 저장하기 위한 메모리(530), 그리고 기반 인공지능 모델과 사용자 데이터를 이용하여 사용자 적응 훈련을 수행하는 프로세서(540)를 포함할 수 있다.
입력부(110)는 사용자 데이터를 입력 받기 위한 구성 요소로서, 특히 마이크로폰(microphone)을 포함할 수 있고, 사용자의 발화(utterance)된 음성이 입력되면 이를 전기적 신호로 변환하여 프로세서(540)로 출력할 수 있다. 또한, 입력부(110)는 사용자 생체 정보를 입력 받기 위한 생체 인식 센서(Biometic sensors)를 포함할 수 있다. 이러한 생체 인식 센서의 일례로, 안면 인식(facial recognition) 센서, 홍채 인식(iris recognition) 센서, 지문 인식 센서 등을 포함할 수 있다.
통신부(120)는 원격 서버와의 유/무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 통신부(120)는 방송 수신 모듈, 이동통신 모듈, 무선 인터넷 모듈, 근거리 통신 모듈 등을 포함할 수 있다.
방송 수신 모듈은, 예를 들어, DMB-T(Digital Multimedia Broadcasting-Terrestrial), DMB-S(Digital Multimedia Broadcasting-Satellite), MediaFLO(Media Forward Link Only), DVB-H(Digital Video Broadcast-Handheld), ISDB-T(Integrated Services Digital Broadcast-Terrestrial) 등의 디지털 방송 시스템을 이용하여 디지털 방송 신호를 수신할 수 있다.
이동통신 모듈은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신할 수 있다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
무선 인터넷 모듈은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 단말기에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.
근거리 통신 모듈은 근거리 통신을 위한 모듈을 말한다. 근거리 통신(short range communication) 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee, 인접 자장 통신(NFC, Near Field Communication) 등이 이용될 수 있다.
프로세서(540)는 앞서 설명한 도 3 및 도 4에서 제안된 기능, 과정 및/또는 방법을 구현한다.
프로세서(540)는 입력부(510)로부터 입력 받은 사용자 데이터와 원격 서버로부터 수신한(또는 기 저장된) 기반 인공지능 모델을 이용하여 사용자 적응 훈련을 수행한다. 또한, 프로세서(540)는 사용자 적응 훈련을 수행하기 위해 입력부(510)로부터 수신한 사용자 데이터를 가공/변환 등을 수행할 수도 있다.
또한, 프로세서(540)는 입력부(510)로부터 입력 받은 사용자 데이터, 또한 원격 서버로부터 수신한 기반 인공지능 모델을 메모리(530)에 저장할 수 있다. 또한, 프로세서(540)는 사용자 적응 훈련의 결과물인 새로운 인공지능 모델을 메모리(530)에 저장할 수 있다.
특히, 프로세서(540)는 입력부(510)로부터 수신한 신호에 음성 인식(speech recognition) 알고리즘 또는 음성 인식 엔진(speech recognition engine)을 적용하여 사용자의 음성 데이터를 획득할 수 있다.
이때, 프로세서(540)로 입력되는 신호는 음성 인식을 위한 더 유용한 형태로 변환될 수 있으며, 프로세서(540)는 입력된 신호를 아날로그 형태에서 디지털 형태로 변환하고, 음성의 시작과 끝 지점을 검출하여 음성 데이터에 포함된 실제 음성 구간/데이터을 검출할 수 있다. 이를 EPD(End Point Detection)이라 한다.
그리고, 프로세서(540)는 검출된 구간 내에서 켑스트럼(Cepstrum), 선형 예측 코딩(Linear Predictive Coefficient: LPC), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터 뱅크 에너지(Filter Bank Energy) 등의 특징 벡터 추출 기술을 적용하여 신호의 특징 벡터를 추출할 수 있다.
프로세서(540)는 데이터를 저장하는 메모리(530)를 이용하여 음성 데이터의 끝 지점에 관한 정보 및 특징 벡터를 저장할 수 있다.
그리고, 프로세서(540)는 추출된 특징 벡터와 훈련된 기준 패턴과의 비교를 통하여 인식 결과를 얻을 수 있다. 이를 위해, 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)이 사용될 수 있다.
음향 모델은 다시 인식 대상을 특징 벡터 모델로 설정하고 이를 음성 데이터의 특징 벡터와 비교하는 직접 비교 방법과 인식 대상의 특징 벡터를 통계적으로 처리하여 이용하는 통계 방법을 나뉠 수 있다.
직접 비교 방법은 인식 대상이 되는 단어, 음소 등의 단위를 특징 벡터 모델로 설정하고 입력 음성이 이와 얼마나 유사한지를 비교하는 방법으로서, 대표적으로 벡터 양자화(Vector Quantization) 방법이 있다. 벡터 양자화 방법에 의하면 입력된 음성 데이터의 특징 벡터를 기준 모델인 코드북(codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다.
통계적 모델 방법은 인식 대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용하는 방법이다. 상태 열은 복수의 노드(node)로 구성될 수 있다. 상태 열 간의 관계를 이용하는 방법은 다시 동적 시간 와핑(Dynamic Time Warping: DTW), 히든 마르코프 모델(Hidden Markov Model: HMM), 신경 회로망을 이용한 방식 등이 있다.
동적 시간 와핑은 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려하여 기준 모델과 비교할 때 시간 축에서의 차이를 보상하는 방법이고, 히든 마르코프 모델은 음성을 상태 천이 확률 및 각 상태에서의 노드(출력 심볼)의 관찰 확률을 갖는 마르코프 프로세스로 가정한 후에 학습 데이터를 통해 상태 천이 확률 및 노드의 관찰 확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식 기술이다.
한편, 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델은 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어 모델에는 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어 모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용된다.
프로세서(540)는 음성을 인식함에 있어 상술한 방식 중 어느 방식을 사용해도 무방하다. 예를 들어, 히든 마르코프 모델이 적용된 음향 모델을 사용할 수도 있고, 음향 모델과 언어 모델을 통합한 N-best 탐색법을 사용할 수 있다. N-best 탐색법은 음향 모델과 언어 모델을 이용하여 N개까지의 인식 결과 후보를 선택한 후, 이들 후보의 순위를 재평가함으로써 인식 성능을 향상시킬 수 있다.
프로세서(540)는 인식 결과의 신뢰성을 확보하기 위해 신뢰도 점수(confidence score)(또는 '신뢰도'로 약칭될 수 있음)를 계산할 수 있다.
신뢰도 점수는 음성 인식 결과에 대해서 그 결과를 얼마나 믿을 만한 것인가를 나타내는 척도로서, 인식된 결과인 음소나 단어에 대해서, 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값으로 정의할 수 있다. 따라서, 신뢰도 점수는 0 에서 1 사이의 값으로 표현할 수도 있고, 0 에서 100 사이의 값으로 표현할 수도 있다. 신뢰도 점수가 미리 설정된 임계값(threshold)보다 큰 경우에는 인식 결과를 인정하고, 작은 경우에는 인식 결과를 거절(rejection)할 수 있다.
이외에도, 신뢰도 점수는 종래의 다양한 신뢰도 점수 획득 알고리즘에 따라 획득될 수 있다.
신뢰도 점수가 임계값 보다 작거나 또는 사용자로부터 잘못된 인식이라는 피드백이 들어온 경우, 즉, 오인식인 경우, 프로세서(540)는 해당 사용자 데이터(예를 들어, 음성 데이터)는 사용자 적응 훈련에 사용하지 않을 수 있다. 즉, 해당 사용자 데이터를 제거할 수 있다.
메모리(530)는 플래시 메모리(flash memory), 하드 디크스(hard disc), 메모리 카드, 롬(ROM:Read-Only Memory), 램(RAM:Random Access Memory), 메모리 카드, EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 저장 매체를 포함할 수 있다.
본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.
본 발명은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 다양한 인공 지능 서비스 분야에 적용될 수 있다.

Claims (8)

  1. 인공지능 장치가 인공지능 서비스를 제공하는 방법에 있어서,
    기반 인공지능 모델을 원격 서버로부터 수신하는 단계;
    사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 단계;
    상기 기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하는 단계; 및
    상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공하는 단계를 포함하는 인공지능 서비스 제공 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 사용자 적응 훈련은 상기 인공지능 서비스를 제공하지 않는 시간 동안에 수행되는 인공지능 서비스 제공 방법.
  5. 제1항에 있어서,
    상기 사용자 적응 훈련은 상기 인공지능 서비스를 제공 중이더라도 실시간으로 수행되는 인공지능 서비스 제공 방법.
  6. 제1항에 있어서,
    상기 입력된 사용자 데이터는 상기 사용자 적응 훈련이 시작되기 전까지 누적하여 저장되는 인공지능 서비스 제공 방법.
  7. 제1항에 있어서,
    상기 사용자 데이터를 인식한 결과에 대한 신뢰도를 평가하는 단계를 더 포함하고,
    상기 신뢰도가 기 설정된 임계값보다 작을 때, 상기 사용자 적응 훈련에 상기 사용자 데이터가 사용되지 않는 인공지능 서비스 제공 방법.
  8. 인공지능 서비스를 제공하기 위한 인공지능 장치에 있어서,
    사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 입력부;
    상기 사용자 데이터를 저장하는 메모리; 및
    상기 입력부 및 상기 메모리를 제어하는 프로세서를 포함하고,
    상기 프로세서는 원격 서버로부터 기반 인공지능 모델을 획득하고,
    상기 입력부를 통해 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받고,
    상기 기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하고,
    상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공하는 인공지능 장치.
KR1020207029338A 2018-05-10 2018-05-10 인공지능 서비스 방법 및 이를 위한 장치 KR102395808B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2018/005409 WO2019216461A1 (ko) 2018-05-10 2018-05-10 인공지능 서비스 방법 및 이를 위한 장치

Publications (2)

Publication Number Publication Date
KR20200125736A KR20200125736A (ko) 2020-11-04
KR102395808B1 true KR102395808B1 (ko) 2022-05-09

Family

ID=68468097

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207029338A KR102395808B1 (ko) 2018-05-10 2018-05-10 인공지능 서비스 방법 및 이를 위한 장치

Country Status (5)

Country Link
US (1) US20210232670A1 (ko)
EP (1) EP3779966A4 (ko)
JP (1) JP2021529978A (ko)
KR (1) KR102395808B1 (ko)
WO (1) WO2019216461A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7376593B2 (ja) * 2018-12-31 2023-11-08 インテル・コーポレーション 人工知能を利用した安全保障システム
EP4403830A1 (de) 2023-01-23 2024-07-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kochgerät und verfahren

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114482A (ja) * 1995-10-17 1997-05-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識のための話者適応化方法
JP3589044B2 (ja) * 1998-10-20 2004-11-17 三菱電機株式会社 話者適応化装置
KR100331689B1 (ko) * 2000-06-24 2002-04-09 송문섭 음성인식 시스템의 화자적응 훈련방법
JP3756879B2 (ja) * 2001-12-20 2006-03-15 松下電器産業株式会社 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
JP2008241970A (ja) * 2007-03-27 2008-10-09 Kddi Corp 話者適応装置、話者適応方法及び話者適応プログラム
KR100994930B1 (ko) * 2008-07-21 2010-11-17 주식회사 씨에스 음성인식 기반 홈네트워크 시스템의 적응화 음성 인식 제어방법 및 그 시스템
KR20100073178A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 음성 인식을 위한 화자 적응 장치 및 그 방법
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10170114B2 (en) * 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
KR102371697B1 (ko) * 2015-02-11 2022-03-08 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US20190279613A1 (en) * 2018-03-06 2019-09-12 Ford Global Technologies, Llc Dialect and language recognition for speech detection in vehicles
US20190311713A1 (en) * 2018-04-05 2019-10-10 GM Global Technology Operations LLC System and method to fulfill a speech request
US11398218B1 (en) * 2018-04-26 2022-07-26 United Services Automobile Association (Usaa) Dynamic speech output configuration

Also Published As

Publication number Publication date
EP3779966A1 (en) 2021-02-17
WO2019216461A1 (ko) 2019-11-14
US20210232670A1 (en) 2021-07-29
EP3779966A4 (en) 2021-11-17
JP2021529978A (ja) 2021-11-04
KR20200125736A (ko) 2020-11-04

Similar Documents

Publication Publication Date Title
US11069353B1 (en) Multilingual wakeword detection
EP3132442B1 (en) Keyword model generation for detecting a user-defined keyword
US9406299B2 (en) Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
US7062436B1 (en) Word-specific acoustic models in a speech recognition system
US7447633B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
EP1220197A2 (en) Speech recognition method and system
US9280979B2 (en) Online maximum-likelihood mean and variance normalization for speech recognition
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
US9037463B2 (en) Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
US11978435B2 (en) Long-context end-to-end speech recognition system
KR102395808B1 (ko) 인공지능 서비스 방법 및 이를 위한 장치
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
US20150262575A1 (en) Meta-data inputs to front end processing for automatic speech recognition
Bacchiani et al. Design of a speech recognition system based on acoustically derived segmental units
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
CN115691478A (zh) 语音唤醒方法、装置、人机交互设备和存储介质
US20210398521A1 (en) Method and device for providing voice recognition service
US20220005462A1 (en) Method and device for generating optimal language model using big data
Sahraeian et al. Using generalized maxout networks and phoneme mapping for low resource ASR-a case study on Flemish-Afrikaans
JP4163207B2 (ja) 多言語話者適応方法、装置、プログラム
KR20200129007A (ko) 발화검증 장치 및 발화검증 방법
Aibar et al. Multiple template modeling of sublexical units
KR20050063986A (ko) 고유음성 계수를 이용한 화자종속 음성인식 시스템 및 방법
Park et al. Context-dependent phoneme duration modeling with tree-based state tying
Ahmed et al. Review And Challenges In Speech Recognition (ICCAS 2005)

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant