KR102026479B1 - 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템 - Google Patents

병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템 Download PDF

Info

Publication number
KR102026479B1
KR102026479B1 KR1020190025536A KR20190025536A KR102026479B1 KR 102026479 B1 KR102026479 B1 KR 102026479B1 KR 1020190025536 A KR1020190025536 A KR 1020190025536A KR 20190025536 A KR20190025536 A KR 20190025536A KR 102026479 B1 KR102026479 B1 KR 102026479B1
Authority
KR
South Korea
Prior art keywords
terminal
artificial intelligence
command
voice
server
Prior art date
Application number
KR1020190025536A
Other languages
English (en)
Inventor
배상희
Original Assignee
주식회사 다이얼로그디자인에이전시
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 다이얼로그디자인에이전시 filed Critical 주식회사 다이얼로그디자인에이전시
Priority to KR1020190025536A priority Critical patent/KR102026479B1/ko
Application granted granted Critical
Publication of KR102026479B1 publication Critical patent/KR102026479B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템이 제공되며, 음성인식으로 명령어가 수신된 경우 자연어를 기계어로 변환하고 의도를 파악하여 명령어를 처리한 후, 처리결과를 자연어로 변환 및 음성으로 합성하여 결과 데이터를 출력하는 인공지능 음성인식 알고리즘을 수행하는 인공지능 서버, 및 음성인식으로 명령어가 수신된 경우 인공지능 음성인식 알고리즘을 인공지능 서버와 동시에 처리하되, 인공지능 서버의 결과 데이터와, 동시에 처리한 결과 데이터를 비교하여 동일한 결과를 도출할 때까지 학습 및 트레이닝 프로세스를 진행하는 적어도 하나의 단말을 포함한다.

Description

병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템{SYSTEM FOR PROVIDING PARALLEL PROCESSING PLATFORM BASED ARTIFICIAL INTELLIGENCE SPEECH RECOGNITION SERVICE}
본 발명은 인공지능 음성인식 서비스 제공 방법에 관한 것으로, 서버와 단말의 인공지능 엔진을 병렬처리 플랫폼으로 구동 및 차이를 학습시킴으로써, 단말의 발화 이해도 및 자체 처리율을 동시에 증가시키는 시스템을 제공한다.
최근, 4 차 산업혁명으로 사물인터넷 기반의 가전기기 연결성과 인공지능 음성 비서가 접목된 스마트 솔루션이 주목을 받고 있으며, 스마트홈이 인공지능 및 빅데이터와 결합되어 보다 진보하고 능동적인 형태로 사용자의 요구와 행동을 예측하여 편리성을 향상시키고 있다. 스마트홈 허브는 가정에서 사용자의 음성인식 기반의 인공지능 서비스를 제공하는 허브이며, 사물인터넷으로 연결제어하는 홈 허브의 역할과 지능형 가상 비서(IPA: Intelligent Personal Assistant) 역할을 한다. 인공지능 기반의 스마트홈은 사용자의 명령을 기반으로 인공지능의 플랫폼을 통해 분석되어 사물인터넷 플랫폼과 클라우드에 명령을 전달하여 사물인터넷 기기를 작동시키는 시스템이며, 특히 사물인터넷은 인공지능 스피커와 결합되어 스마트홈 환경에서 새로운 사용자 경험을 제공하고 있다.
이때, 인공지능 스피커는 사용자의 음성을 입력받아 서버로 전달하는 단말과, 음성을 처리하여 결과값을 반환하는 서버 간의 데이터 송수신으로 구동하는데, 이와 관련하여, 선행기술인 한국등록특허 제10-1940928호(2019년01월21일 공고)에는, 자연어를 사용하여 사람과 대화가 가능하고, 대화내용을 추상화하여 분야별로 구분되는 단위 데이터베이스에 저장하며, 사용자간 단위 데이터베이스를 공유하거나 거래할 수 있도록, 사용자 단말기가 인터넷망을 통해 인공지능서버에 접속하여 인공지능 데이터베이스를 구축할 수 있는 서비스 계정을 생성하고, 서비스 계정의 하위에 하나 이상의 전문지식별 단위 인공지능 데이터베이스를 생성하고, 사용자가 특정 서비스 계정에 로그인하여 대화예정의 전문지식과 관련된 특정 인공지능 데이터베이스를 선택하고, 사용자 단말기로부터 자연어로 된 질의 정보가 입력되면 인공지능서버는 자연어처리 모듈이 질의 내용을 분석하여 해당 인공지능 데이터베이스내에 저장하여 해당 인공지능 데이터베이스를 학습시키거나 또는 해당 인공지능 데이터베이스내에 저장된 정보들만을 참고하여 추론 과정을 거쳐 도출된 결론을 자연어로 출력하여 사용자 단말기에 제공하는 구성이 개시되어 있다.
다만, 서버 기반으로 인공지능 음성인식 서비스가 구동되는 경우 서버의 컴퓨팅 자원으로 대용량 및 고성능의 서비스가 가능하나 네트워크 자원의 다양성에 따라 딜레이가 발생하며 서버 구축 및 유지 비용까지 높다. 또한, 엠베디드 기반 인공지능 서비스를 구성하는 경우에도 대용량 및 고성능의 서버 대비 커버리지 및 성능적 한계가 발생하고, 사용자가 자주 사용하는 기능만을 엠베디드 기반으로 구현하여 네트워크 자원이나 서버 자원의 소모없이 즉각적으로 구현하는 경우에도 역시 사용자마다 자주 사용하는 기능이 달라서 엠베디드 기반으로 일괄적으로 구현할 수 없는 등의 문제점이 있었다.
본 발명의 일 실시예는, 단말에 엠베디드로 인공지능 음성인식 엔진을 구비하고, 사용자의 발화로 음성이 단말에 입력되는 경우 단말과 서버에서 동시에 음성인식 알고리즘을 수행하며, 단말과 서버의 결과값을 비교하여 차이가 존재하는 경우 동일 명령어에 대하여 비교 결과가 동일해질 때까지 단말에서 비교 결과를 지속적으로 학습하도록 하고, 서버와 단말의 결과값이 동일해진 경우 동일 명령어에 대한 처리는 단말에서 자체적으로 처리하도록 함으로써 네트워크 지연으로 인한 딜레이를 제거하면서도 서버의 컴퓨팅 자원의 소모 및 구축비용을 줄일 수 있고, 엠베디드로 구현된 인공지능 엔진이 단말에서 구동될 때 발생하는 서버 대비 성능적 및 커버리지의 한계를 극복할 수 있는, 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 음성인식으로 명령어가 수신된 경우 자연어를 기계어로 변환하고 의도를 파악하여 명령어를 처리한 후, 처리결과를 자연어로 변환 및 음성으로 합성하여 결과 데이터를 출력하는 인공지능 음성인식 알고리즘을 수행하는 인공지능 서버, 및 음성인식으로 명령어가 수신된 경우 인공지능 음성인식 알고리즘을 인공지능 서버와 동시에 처리하되, 인공지능 서버의 결과 데이터와, 동시에 처리한 결과 데이터를 비교하여 동일한 결과를 도출할 때까지 학습 및 트레이닝 프로세스를 진행하는 적어도 하나의 단말을 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 단말에 엠베디드로 인공지능 음성인식 엔진을 구비하고, 사용자의 발화로 음성이 단말에 입력되는 경우 단말과 서버에서 동시에 음성인식 알고리즘을 수행하며, 단말과 서버의 결과값을 비교하여 차이가 존재하는 경우 동일 명령어에 대하여 비교 결과가 동일해질 때까지 단말에서 비교 결과를 지속적으로 학습하도록 하고, 서버와 단말의 결과값이 동일해진 경우 동일 명령어에 대한 처리는 단말에서 자체적으로 처리하도록 함으로써 네트워크 지연으로 인한 딜레이를 제거하면서도 서버의 컴퓨팅 자원의 소모 및 구축비용을 줄일 수 있고, 엠베디드로 구현된 인공지능 엔진이 단말에서 구동될 때 발생하는 서버 대비 성능적 및 커버리지의 한계를 극복할 수 있고, 저비용으로 고효율을 낼 수 있으므로 고객의 감성 품질까지 높일 수 있으며, 사용기간이 증가할수록 발화 이해도 및 반응 속도가 증가하고, 사용자 맞춤형 성능 최적화 가능하며, 시용자가 자주 사용하는 기능을 단말 자체적으로 처리가능하므로 네트워크 및 서버의 비용이 절감될 수 있다.
도 1은 본 발명의 일 실시예에 따른 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 적어도 하나의 단말에서 사용자 발화를 입력받아 인공지능 서버와 동시에 음성 데이터를 병렬처리하는 일 실시예를 설명하기 위한 도면이다.
도 3은 도 1의 시스템에 포함된 적어도 하나의 단말 및 인공지능 서버에서 병렬처리로 사용자 발화를 처리 및 결과값을 비교하여 적어도 하나의 단말을 학습시키는 일 실시예를 설명하기 위한 도면이다.
도 4는 도 1의 시스템에 포함된 적어도 하나의 단말의 음성인식 결과와 인공지능 서버의 결과가 동일하여 단말에서 자체적으로 명령어를 처리하는 일 실시예를 설명하기 위한 도면이다.
도 5는 도 1의 시스템에 포함된 적어도 하나의 단말에서 디폴트로 저장된 고 정 명령어 DB와 사용자 맞춤형으로 학습되어 변경되는 다이나믹 명령어 DB가 구현된 일 실시예를 설명하기 위한 도면이다.
도 6은 도 1의 시스템에 포함된 적어도 하나의 단말 간 연동 및 동기화의 일 실시예를 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템(1)은, 적어도 하나의 단말(100), 인공지능 서버(300)를 포함할 수 있다. 다만, 이러한 도 1의 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 단말(100)은 네트워크(200)를 통하여 인공지능 서버(300)와 연결될 수 있다. 그리고, 인공지능 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 단말(100)과 연결될 수 있다.
여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5th Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.
적어도 하나의 단말(100)은, 인공지능 음성인식 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 인공지능 음성인식 서비스를 구현하는 단말일 수 있다. 이때, 적어도 하나의 단말(100)은, 사용자의 발화가 감지 및 입력되면, 사용자의 발화 내용을 인공지능 서버(300)로 전송하며, 인공지능 서버(300)와 동시에 인공지능 음성인식 알고리즘을 실행하는 단말일 수 있다. 그리고, 적어도 하나의 단말(100)은, 인공지능 음성인식 알고리즘을 수행한 결과를 인공지능 서버(300)와 비교하고, 비교값이 다를 경우 인공지능 서버(300)의 결과 데이터를 사용자에게 출력하되, 비교값에 기반하여 다른 데이터가 동일해질 때까지 트레이닝 및 학습을 진행하는 단말일 수 있다. 또한, 적어도 하나의 단말(100)은, 기 저장된 고정 명령어 데이터베이스(DB)를 포함하고, 사용자의 발화를 학습하는 다이나믹 명령어 데이터베이스(DB)를 포함함으로써, 고정적으로 사용되는 명령어 이외에도 사용자의 발화특성을 학습함으로써 임베디드 기반의 단말(100)이 가질 수 있는 성능적 및 커버리지 한계를 극복하도록 구성된 단말일 수 있다. 그리고, 적어도 하나의 단말(100)은, 각 단말(100) 간 연동이 되도록 연결되고, 어느 하나의 단말(100)에서 입력된 명령어는 동일한 순간에 나머지 단말(100)에서 실행되도록 구성되는 단말일 수 있다.
여기서, 적어도 하나의 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 냉장고, 에어컨, 아울렛(Outlet), 라디오, 선풍기, 식기세척기, 스위치, 청소기, 커피메이커, 믹서기, 전자렌지, 안마기, 스캐너, 프린터, 복사기, 가스렌지, 타이머, 도어락, 가습기, 환풍기, 보일러, 히터, 다리미, 건조기, 비데, 스피커, TV, 전기밥솥, 세탁기, 공기청정기, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
인공지능 서버(300)는, 인공지능 음성인식 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 인공지능 서버(300)는, 적어도 하나의 단말(100)로부터 수신된 사용자의 발화내용을 인공지능 음성인식 알고리즘으로 결과값을 출력하며 이를 적어도 하나의 단말(100)로 토스할 때 기계어를 다시 자연어로 변환하고 음성을 합성하여 내보내는 서버일 수 있다. 또한, 인공지능 서버(300)는 적어도 하나의 단말(100)에서 출력된 인공지능 음성인시 처리 결과값과, 인공지능 서버(300)에서 출력된 결과값을 비교하고, 동일하지 않을 경우 분석결과가 동일해질 때까지 적어도 하나의 단말(100)을 교정 및 트레이닝과 학습을 진행시키는 서버일 수 있다. 그리고, 인공지능 서버(300)는, 하나의 명령어에 대한 적어도 하나의 단말(100)의 인공지능 음성인식 결과값이, 인공지능 서버(300)에서 출력된 인공지능 음성인식 결과값과 동일해진 경우, 해당 명령어에 대한 처리는 적어도 하나의 단말(100)에서 자체적으로 처리하도록 하는 서버일 수 있다. 또한, 인공지능 서버(300)는, 적어도 하나의 단말(100) 간 연동이 되도록 하고, 하나의 음성인식에 대하여 동시에 다양한 적어도 하나의 단말(100)에서 처리되거나 실행되도록 하는 서버일 수 있다.
여기서, 인공지능 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
도 2는 도 1의 시스템에 포함된 적어도 하나의 단말에서 사용자 발화를 입력받아 인공지능 서버와 동시에 음성 데이터를 병렬처리하는 일 실시예를 설명하기 위한 도면이고, 도 3은 도 1의 시스템에 포함된 적어도 하나의 단말 및 인공지능 서버에서 병렬처리로 사용자 발화를 처리 및 결과값을 비교하여 적어도 하나의 단말을 학습시키는 일 실시예를 설명하기 위한 도면이고, 도 4는 도 1의 시스템에 포함된 적어도 하나의 단말의 음성인식 결과와 인공지능 서버의 결과가 동일하여 단말에서 자체적으로 명령어를 처리하는 일 실시예를 설명하기 위한 도면이고, 도 5는 도 1의 시스템에 포함된 적어도 하나의 단말에서 디폴트로 저장된 고 정 명령어 DB와 사용자 맞춤형으로 학습되어 변경되는 다이나믹 명령어 DB가 구현된 일 실시예를 설명하기 위한 도면이고, 도 6은 도 1의 시스템에 포함된 적어도 하나의 단말 간 연동 및 동기화의 일 실시예를 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 인공지능 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 단말(100)로 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 단말(100)은, 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 단말(100)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
도 2 및 도 3을 참조하면, 적어도 하나의 단말(100)은 음성인식으로 명령어가 수신된 경우 인공지능 음성인식 알고리즘을 인공지능 서버(300)와 동시에 처리하되, 인공지능 서버(300)의 결과 데이터와, 동시에 처리한 결과 데이터를 비교하여 동일한 결과를 도출할 때까지 학습 및 트레이닝 프로세스를 진행할 수 있다. 즉, 적어도 하나의 단말(100)은 인공지능 서버(300)와 컴퓨팅 자원면에서 차이가 발생하므로 성능이나 커버할 수 있는 영역이 인공지능 서버(300)보다는 열세하게 된다. 이에 따라, 본 발명의 일 실시예에 따른 적어도 하나의 단말(100)은 사용자로부터 발화가 입력되면, 인공지능 서버(300)와 사용자의 발화를 동시에 처리하고, 동시에 처리된 결과를 비교하는데 그 결과를 비교할 때 인공지능 서버(300)의 결과 데이터를 기준으로 적어도 하나의 단말(100)의 결과 데이터를 비교할 수 있다. 그리고, 인공지능 서버(300)의 결과 데이터와 동일하지 않은 경우, 동일해질 때까지 비교 결과를 기반으로 트레이닝을 시행하게 되는데, 이는 적어도 하나의 단말(100)에서 자체적으로 수행될 수도 있고, 인공지능 서버(300)에 의해 제어되는 방식일 수도 있다. 예를 들어, A라는 명령어 또는 발화 문장에 대하여 인공지능 서버(300)의 결과 데이터가 B이고, 적어도 하나의 단말(100)의 결과 데이터가 B'였으나 트레이닝, 학습, 딥러닝 등으로 B로 교정된 경우에는, 앞으로 A라는 명령어나 발화 문장에 대한 처리는 적어도 하나의 단말(100)에서 처리하고, 이를 인공지능 서버(300)로 토스하지 않음으로써, 인공지능 서버(300)에서 처리한 후 네트워크를 통하여 토스해주는 과정에서 발생하는 딜레이를 제거하여 시간 지연을 없애고, 인공지능 서버(300)의 부하를 줄여줌으로써 고성능 및 고비용의 서버구축이 없어도 되기 때문에 결과적으로 서버구축 및 유지비용이 줄어들 수 있다.
여기서, 트레이닝(훈련) 및 학습 방법은 예를 들어, 인공신경망 딥러닝이나 기계학습 등을 포함할 수 있다. 이때, 인공 신경망은 CNN(Convolutional neural network) 구조가 이용될 수 있는데, CNN은 컨볼루션 층을 이용한 네트워크 구조로 데이터 처리에 적합하며, 데이터를 입력으로 하여 데이터 내의 특징을 기반으로 데이터를 분류할 수 있기 때문이다. 또한, 텍스트 마이닝(Text Mining)은 비/반정형 텍스트 데이터에서 자연어처리 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다. 텍스트 마이닝 기술을 통해 방대한 텍스트 뭉치에서 의미 있는 정보를 추출해 내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 카테고리를 찾아내거나 단순한 정보 검색 그 이상의 결과를 얻어낼 수 있다. 이를 이용하여, 본 발명의 일 실시예에 따른 인공지능 음성인식 서비스에서는, 질의로 입력되는 식별자나 자연어를 분석하고, 그 안에 숨겨진 정보를 발굴해 내기 위해 대용량 언어자원과 통계적, 규칙적 알고리즘이 사용될 수 있다. 또한, 클러스터 분석(Cluster Analysis)은, 비슷한 특성을 가진 객체를 합쳐가면서 최종적으로 유사 특성의 그룹을 발굴하는데 사용될 수 있다.
순환신경망(RNN, recurrent neural network) 모형은 음성인식이나 언어인식 등과 같은 순차적인 정보를 처리하는 데 적합하다. RNN은 순차적 데이터를 구성하는 원소를 한번에 하나씩 입력받아서 처리하며, 처리된 정보를 내부노드에 저장하는데, 입력된 시간에 따라 그에 대응하는 내부노드를 생성하여 그 시점까지 처리한 정보를 저장한 뒤에 필요하면 출력노드를 통하여 출력을 한다. 이때, 상술한 훈련 및 학습을 진행함에 있어서, 비지도학습(unsupervised learning), 반지도학습(semi-supervised learning), 지도학습(supervised learning) 중 어느 하나를 이용할 수 있으나, 이에 한정되는 것은 아니다.
이때, 인공지능 음성인식 알고리즘은, 전처리, 음성인식, 의도이해, 기능수행, 자연어 응답, 음성합성의 프로세스를 포함할 수 있는데, 이는 인공지능 서버(300)에서도 동일하게 적용될 수 있다. 이때, 음성신호에는 언어적 의미 뿐만 아니라 잡음, 잔향, 개별화자의 특징 등 다양한 정보가 포함되어 있는데, 전처리 및 특징 추출 과정은, 이러한 음성신호에서 언어적 의미만 추출하기 위한 방법으로, 다양한 전처리 기술들이 이용될 수 있다. 예를 들면 음성의 방향추정 (direction of arrival estimation) 기술, 빔포밍(beamforming) 등을 이용한 음성강화(speech enhancement) 기술, 여러 음성 분리(blind source separation, BSS) 기술 등이 전처리 과정에 이용될 수 있다. 그리고, 음성인식을 위해서는 전처리를 거친 음성 신호로부터 음향 특징벡터의 시퀀스를 추출할 수 있는데, 예를 들어 음성 신호를 10ms 마다 25ms 구간으로 STFT(short-time Fourier transform)를 수행한 뒤, 인각의 청각 모델을 모방한 mel-scale filterbank를 통해서 각 대역의 에너지들을 얻으며, 이 에너지의 로그값에 DCT(discrete cosine transform)을 수행하여, 최종적으로 MFCCs(mel frequency cepstral coefficients)를 얻는다. MFCCs로 이루어진 특징벡터는 주로 13차의 기본 계수와 그 계수들의 1차 미분, 2차 미분 값을 추가하여 얻은 39차의 특정벡터를 일반적으로 사용할 수 있다. 다른 음성특징으로는 PLP(perceptual linear predictive) 분석을 통한 특징과 LPC(linear predictive cepstral coefficients) 특징 등이 있으며, 학습을 통한 특징 추출 방법으로는 특징 공간에서의 변별학습(discriminative training)인 fMPE(feature-space minimum phone error)와 신경망(neural network, NN)을 이용한 특징추출 방법 등을 포함할 수 있다. 특징벡터의 후처리 방법으로는 화자기반 CMVN(cepstral mean and variance normalization)과 문장단위 CMS(cepstral mean substraction)를 이용할 수 있으며, 추출한 특징벡터들에 대하여, PCA(principal component analysis)나 LDA(linear discriminant analysis)를 수행하여 잡음에 강인한 특징을 추출할 수도 있다. 다만, 상술한 전처리 방법에 한정되는 것은 아니고 다양한 방법들이 이용될 수 있음은 물론이며, 실시예에 따라 변경될 수 있음은 자명하다 할 것이다.
이렇게 전처리를 한 후에는 음성인식(Automatic Speech Recognition) 과정을 거쳐야 하는데, 이는 인공지능 음성인식 엔진에서 자연어를 기계어로 변환하여 기계가 이해할 수 있는 언어로 변환하는 것이다. 이를 통하여 텍스트를 통하여 사용자 발화한 음향 신호를 자연어 문장으로 변환할 수 있다. 그 다음에는, 의도 이해 과정, 즉 자연어 문장으로부터 사용자의 의도를 이해해 컴퓨터가 처리할 수 있는 형식으로 변환해주는 음성 언어 이해(Spoken Language Understanding) 프로세스가 진행된다. 이때, 음성 언어 이해의 목표는 자연어 문장으로부터 사용자의 의도를 이해해 컴퓨터가 처리할 수 있는 의미 표현(semantic representation)으로 변환하는 것이다. 이러한 의미 표현은 대화 관리 모듈이 데이터베이스를 검색하기 위한 질의문을 생성하거나 서비스 에이전트에게 서비스를 요청하기 위한 매개변수로 사용될 수 있다. 대부분의 경우 의미 표현은 속성값 조합들로 구성된 의미 프레임(semantic frame)형태로 정의되며, 이때 의미 프레임의 속성들은 음성 대화 시스템이 제공하는 특정한 영역에 적합하게 정의된 하나의 주행(dialog act) 및 복수 의 개체명(named entity)이다. 주행이란 문장에서 사용자가 의도한 행위의 유형을 나타내는 속성이고, 개체명이란 사용자가 의도한 행위의 매개변수를 나타내는 속성이다. 결과적으로 음성 대화 시스템에서의 의미 이해 과정은 한 개의 주행을 식별하는 주행 식별(dialog act identification) 및 복수의 개체명을 인식하는 개체명 인식(named entity recognition)과정으로 구성된다.
음성 언어 이해 방법은 지식 기반의 접근법(knowledge-based approach)와 데이터 기반 접근법(data-driven approach)을 포함할 수 있다. 지식 기반 접근법은 전문가에 의해 정의된 문법을 바탕으로 음성 언어 이해 과정을 수행하며 높은 정밀도를 갖는다. 반면 데이터 기반 접근법은 수많은 문장 및 각 문장에 달린 정답 레이블로 구성된 말뭉치(corpus)를 바탕으로 기계학습(machine learning) 기법을 적용해 음성 언어 이해 과정을 수행한다. 이에 따라, 데이터 기반 접근법은 비문법적인 자연어 문장도 강인하게 이해 할 수 있으며, 새로운 데이터를 수집해 동일한 방법론을 적용하면 다른 영역에 대한 음성언어 이해를 수행할 수 있으므로 이식성이 높아질 수 있다. 본 발명의 일 실시예에서는 데이터 기반 접근법과 지식 기반의 접근법을 융합함으로써 높은 성능을 추구할 수도 있다. 다만, 어느 하나만 이용되는 것을 배제하는 것은 아니다.
그 다음으로는, 기능 수행, 즉 의미를 파악하여 사용자의 의도에 부합하는 서비스를 제공하기 위해 시스템의 행동을 결정하는 대화 관리(Dialog Management) 프로세스가 진행될 수 있고, 이를 통하여 명령어 또는 사용자 발화에 대한 처리를 수행하며, 자연어 응답은, 시스템의 행동을 구체적인 자연어 문장으로 생성해주는 응답 생성(Natural Language Generation)이고, 음성합성은 생성된 자연어 문장을 음성으로 합성해주는 음성합성(Text-to-Speech Synthesis) 프로세스를 거침으로써 사용자의 명령을 처리하거나 발화에 대한 응답을 생성하여 사용자에게 출력하게 된다. 이때, 상술한 바와 같이 인공지능 서버(300)에서도 동일한 과정이 수행되는데, 이는 적어도 하나의 단말(100)에서 설명한 인공지능 음성인식 알고리즘으로 갈음하기로 한다. 또한, 상술한 방법 이외에도 다양한 방법이 인공지능 음성인식 알고리즘으로 이용될 수 있다.
한편, 도 4를 참조하면, 적어도 하나의 단말(100)은, 명령어를 처리한 인공지능 서버(300)의 결과 데이터와 적어도 하나의 단말(100)의 데이터가 동일한 경우, 명령어는 적어도 하나의 단말(100)에서 자체적으로 처리하도록 저장할 수 있다. 도 3에서는 적어도 하나의 단말(100)의 인공지능 음성인식 알고리즘의 기능수행과 인공지능 서버(300)의 기능수행을 지도학습으로 트레이닝시키는 실시예를 설명했다면, 도 4에서는 인공지능 음성인식 알고리즘에 포함된 적어도 하나의 프로세스를 모두 지도학습으로 트레이닝시키는 실시예를 설명한다. 이에 따라, 적어도 하나의 단말(100)은 훈련이 완료되어 동일한 결과 데이터를 출력하는 명령어는, 적어도 하나의 단말(100) 자체적으로 수행하도록 함으로써 인공지능 서버(300)를 이용하지 않고도 결과값을 사용자에게 출력할 수 있다. 물론, 사용자의 단어나 문장이 변경됨에 따라 달라지는 말뭉치와, 이에 따라 달라지는 결과가 존재할 경우의 수도 있으므로, 자체적으로 백그라운드 모드로 적어도 하나의 단말(100)의 결과 데이터와 인공지능 서버(300)의 데이터를 주기적으로 체크하고, 그 결과를 비교한 후 추가 트레이닝 및 학습을 진행하는 것을 배제하는 것은 아니다.
도 5를 참조하면, 적어도 하나의 단말(100)은 디폴트로 기 저장된 초기 고정 명령어를 저장하는 고정 명령어 DB(110) 및 적어도 하나의 단말(100)을 사용하는 사용자의 발화를 학습하여 사용자 맞춤 학습을 진행한 결과인 다이나믹 명령어를 저장하는 다이나믹 명령어 DB(120)를 포함할 수 있다. 이때, 고정 명령어 DB(110)는 초기에 디폴트로 기 저장된 명령어가 저장된 데이터베이스이다. 그리고, 다이나믹 명령어 DB(120)는, 사용자마다 사용하는 기능이나 발화 특성 또는 사용하는 말뭉치가 다름에 의하여 사용자 맞춤형으로 추가적으로 저장되고 사용자의 발화를 학습하여 그 결과가 저장되는 유동적인 데이터베이스이다. 즉, 엠베디드 기반의 단말이 자체적인 인공지능 음성인식 엔진만을 이용하는 경우, 사용자마다 학력, 성장배경, 개인특성 등이 다름에 따라, 사용자가 처한 환경에 따라 자주 사용하는 명령이나 발화 문장이 달라지게 되는 것을 반영할 수 없게 된다. 따라서, 적어도 하나의 단말(100)은 다이나믹 명령어 DB(120)를 추가로 구성함으로써, 유동적으로 사용자 맞춤형 명령어들을 학습하고 저장하여 단말 자체 처리율을 높일 수 있게 된다.
도 6을 참조하면, 적어도 하나의 단말(100)은, 적어도 하나의 단말(100) 중 어느 하나의 단말(100)에서 입력된 음성에 실시간으로 반응하여 다른 단말(100)과 연동되도록 동기화를 진행할 수 있다. 이때, 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템에 포함된 적어도 하나의 단말(100)이 존재하는 경우, 입력된 음성에 대응하는 명령은 복수의 단말(100)에서 동시실행되고, 실시간으로 인공지능 서버(300)로 입력된 음성에 대응하는 명령이 전달될 수 있다.
예를 들어, X 사용자의 A 단말(100(A))에서 도 5의 다이나믹 명령어 DB(120)에 1,2,3,4,5의 명령어를 저장했다고 가정하면, X 사용자의 B 단말(100(B))에서도 1,2,3,4,5의 명령어를 가질 수 있도록 A 단말(100(A))을 기준으로 B 단말(100(B))을 동기화할 수 있다. 예를 들어, 진공 로봇 청소기에 1,2,3,4,5의 명령어가 저장되고, 걸레 로봇 청소기에 1,2,3의 명령어가 저장되었다고 가정하며, 걸레 로봇 청소기에서도 4,5의 명령어를 자체적으로 처리할 수 있도록 진공 로봇 청소기를 기준으로 걸레 로봇 청소기를 동기화시킬 수 있다.
또한, 적어도 하나의 단말(100)은, 사용자의 음성 발화가 적어도 하나의 단말(100) 중 어느 하나의 단말(100)로 입력된 경우, 어느 하나의 단말(100)을 제외한 나머지 단말(100)에서 동시에 사용자의 음성 발화에 대응하는 명령을 처리할 수 있다. 예를 들어, 사용자 A가 B,C,D,E라는 단말(100)을 보유하고 있고, 사용자 A 앞에는 B가 위치하고, 사용자는 E에게 명령을 내리고 싶다고 가정하자. 이때, 적어도 하나의 단말(100)의 연동이 되지 않는다면, 사용자 A는 E의 위치까지 이동하여 E에게 명령을 내려야 한다. 따라서, 본 발명의 일 실시예에 따른 적어도 하나의 단말(100)은 서로 연동되어 어느 하나의 단말(100)로 명령을 내리더라도, 다른 하나의 단말(100)로 전달 및 시행될 수 있도록 하고, 다양한 기기로 한 번의 발화로 동시에 제어할 수 있도록 구성될 수 있다.
한편, 인공지능 서버(300)는, 음성인식으로 명령어가 수신된 경우 자연어를 기계어로 변환하고 의도를 파악하여 명령어를 처리한 후, 처리결과를 자연어로 변환 및 음성으로 합성하여 결과 데이터를 출력하는 인공지능 음성인식 알고리즘을 수행할 수 있다. 이때, 인공지능 서버(300)는 대용량 인공지능 엔진을 포함하여 공용 엔진으로 사용되고, 적어도 하나의 단말(100)은 단말(100) 개별 엔진이 엠베디드(Embedded)되어 온디바이스(Ondevice) 기반으로 구동될 수 있다. 또한, 인공지능 서버(300) 및 적어도 하나의 단말(100)은, 사용자의 발화 또는 명령을 음성으로 인식하여 처리한 결과를 음성으로 출력하는 인공지능 에이전트(Agent)의 동작을 수행할 수 있다.
이때, 인공지능 서버(300)는, 동시에 처리한 처리결과 데이터를 기반으로 적어도 두 개의 단말(100)을 연동할 수 있다. 이때, 적어도 하나 이상의 단말(100) 중 적어도 두 개의 단말(100)은, 음성으로 발화된 사용자의 하나의 명령에 대응하여 동시에 실행되어 상호연결이 될 수 있다.
또한, 적어도 하나의 단말(100)은, 명령어를 처리한 인공지능 서버(300)의 결과 데이터와 적어도 하나의 단말(100)의 데이터가 동일하도록 훈련이 완료되는 경우, 명령어를 처리할 때 인공지능 서버(300)의 결과 데이터를 기다리지 않고, 실행의 반응속도를 높이도록 훈련이 완료된 적어도 하나의 단말(100)의 결과 데이터를 기반으로 우선 실행할 수 있다. 이때, 적어도 하나의 단말(100)의 우선 실행의 결과에 대하여 인공지능 서버(300)로부터 오류 피드백을 받는 경우, 인공지능 서버(300)의 실행 결과를 기반으로 적어도 하나의 단말(100)의 실행 결과를 보정할 수 있다.
그리고, 적어도 하나의 단말(100)은, 사용자의 음성발화를 처리할 때 인공지능 서버(300)의 응답을 받을 수 없는 상태인 경우, 적어도 하나의 단말(100)에서 자체적으로 음성발화에 대응하는 명령을 처리할 수 있다. 이때, 적어도 하나의 단말(100)에서 자체적으로 처리한 결과에 대하여 사용자의 음성발화로 피드백을 수신하는 경우, 인공지능 서버(300)는, 사용자의 피드백을 기반으로 적어도 하나의 단말(100)을 추가적으로 훈련시킬 수 있다.
이와 같은 도 2 내지 도 6의 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 6을 통해 설명된 일 실시예에 따른 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 일 실시예에 따른 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (13)

  1. 음성인식으로 명령어가 수신된 경우 자연어를 기계어로 변환하고 의도를 파악하여 명령어를 처리한 후, 처리결과를 자연어로 변환 및 음성으로 합성하여 결과 데이터를 출력하는 인공지능 음성인식 알고리즘을 수행하는 인공지능 서버; 및
    상기 음성인식으로 상기 명령어가 수신된 경우 상기 인공지능 음성인식 알고리즘을 상기 인공지능 서버와 동시에 처리하되, 상기 인공지능 서버의 결과 데이터와, 상기 동시에 처리한 결과 데이터를 비교하여 동일한 결과를 도출할 때까지 학습 및 트레이닝 프로세스를 진행하는 적어도 하나의 단말를 포함하되,
    상기 적어도 하나의 단말은,
    디폴트로 기 저장된 초기 고정 명령어를 저장하는 고정 명령어 DB; 및
    상기 적어도 하나의 단말을 사용하는 사용자의 발화를 학습하여 사용자 맞춤 학습을 진행한 결과인 다이나믹 명령어를 저장하는 다이나믹 명령어 DB를 포함하는
    병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 단말은,
    상기 명령어를 처리한 상기 인공지능 서버의 결과 데이터와 상기 적어도 하나의 단말의 데이터가 동일한 경우, 상기 명령어는 상기 적어도 하나의 단말에서 자체적으로 처리하도록 저장하는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 적어도 하나의 단말은,
    상기 적어도 하나의 단말 중 어느 하나의 단말에서 입력된 음성에 실시간으로 반응하여 다른 단말과 연동되도록 동기화를 진행하고,
    상기 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템에 포함된 상기 적어도 하나의 단말이 존재하는 경우, 상기 입력된 음성에 대응하는 명령은 복수의 단말에서 동시실행되고, 실시간으로 상기 인공지능 서버로 상기 입력된 음성에 대응하는 명령이 전달되는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  5. 제 1 항에 있어서,
    적어도 하나 이상의 단말 중 적어도 두 개의 단말은,
    음성으로 발화된 사용자의 명령을 동시에 처리하여 상기 인공지능 서버로 처리결과 데이터를 전송하고,
    상기 인공지능 서버는,
    상기 동시에 처리한 처리결과 데이터를 기반으로 상기 적어도 두 개의 단말을 연동하는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  6. 제 5 항에 있어서,
    적어도 하나 이상의 단말 중 적어도 두 개의 단말은,
    음성으로 발화된 사용자의 하나의 명령에 대응하여 동시에 실행되어 상호연결이 되는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  7. 제 1 항에 있어서,
    상기 적어도 하나의 단말은,
    사용자의 음성 발화가 상기 적어도 하나의 단말 중 어느 하나의 단말로 입력된 경우, 상기 어느 하나의 단말을 제외한 나머지 단말에서 동시에 상기 사용자의 음성 발화에 대응하는 명령을 처리하는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  8. 제 1 항에 있어서,
    상기 인공지능 서버는 대용량 인공지능 엔진을 포함하여 공용 엔진으로 사용되고,
    상기 적어도 하나의 단말은 단말 개별 엔진이 엠베디드(Embedded)되어 온디바이스(Ondevice) 기반으로 구동되는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  9. 제 1 항에 있어서,
    상기 인공지능 서버 및 상기 적어도 하나의 단말은, 사용자의 발화 또는 명령을 음성으로 인식하여 처리한 결과를 음성으로 출력하는 인공지능 에이전트(Agent)의 동작을 수행하는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  10. 제 1 항에 있어서,
    상기 적어도 하나의 단말은,
    상기 명령어를 처리한 상기 인공지능 서버의 결과 데이터와 상기 적어도 하나의 단말의 데이터가 동일하도록 훈련이 완료되는 경우, 상기 명령어를 처리할 때 상기 인공지능 서버의 결과 데이터를 기다리지 않고, 실행의 반응속도를 높이도록 상기 훈련이 완료된 적어도 하나의 단말의 결과 데이터를 기반으로 우선 실행하는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  11. 제 10 항에 있어서,
    상기 적어도 하나의 단말의 우선 실행의 결과에 대하여 상기 인공지능 서버로부터 오류 피드백을 받는 경우, 상기 인공지능 서버의 실행 결과를 기반으로 상기 적어도 하나의 단말의 실행 결과를 보정하는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  12. 제 1 항에 있어서,
    상기 적어도 하나의 단말은, 사용자의 음성발화를 처리할 때 상기 인공지능 서버의 응답을 받을 수 없는 상태인 경우, 상기 적어도 하나의 단말에서 자체적으로 상기 음성발화에 대응하는 명령을 처리하는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
  13. 제 12 항에 있어서,
    상기 적어도 하나의 단말에서 자체적으로 처리한 결과에 대하여 사용자의 음성발화로 피드백을 수신하는 경우, 상기 인공지능 서버는, 상기 사용자의 피드백을 기반으로 상기 적어도 하나의 단말을 추가적으로 훈련시키는 것을 특징으로 하는 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템.
KR1020190025536A 2019-03-06 2019-03-06 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템 KR102026479B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190025536A KR102026479B1 (ko) 2019-03-06 2019-03-06 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190025536A KR102026479B1 (ko) 2019-03-06 2019-03-06 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템

Publications (1)

Publication Number Publication Date
KR102026479B1 true KR102026479B1 (ko) 2019-09-30

Family

ID=68098570

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190025536A KR102026479B1 (ko) 2019-03-06 2019-03-06 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템

Country Status (1)

Country Link
KR (1) KR102026479B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190093528A (ko) * 2019-07-22 2019-08-09 엘지전자 주식회사 인공지능 장치를 이용한 음성 처리 방법
KR20210115671A (ko) * 2020-03-16 2021-09-27 주식회사 한글과컴퓨터 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치 및 그 동작 방법
WO2022124637A1 (ko) * 2020-12-10 2022-06-16 삼성전자(주) 전자장치 및 그의 제어방법
WO2024076114A1 (ko) * 2022-10-08 2024-04-11 삼성전자주식회사 보이스 커맨드의 실행을 제어하기 위한 전자 장치 및 그 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
KR101700099B1 (ko) * 2016-10-11 2017-01-31 미디어젠(주) 하이브리드 음성인식 복합 성능 자동 평가시스템
JP2017215898A (ja) * 2016-06-02 2017-12-07 株式会社マーズスピリット 機械学習システム
KR101935040B1 (ko) * 2018-09-12 2019-01-03 이현수 음성안내 기반 대중교통 경로 안내 서비스 제공 방법 및 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237439A (ja) * 2008-03-28 2009-10-15 Kddi Corp 携帯端末の音声認識装置、音声認識方法、音声認識プログラム
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2017215898A (ja) * 2016-06-02 2017-12-07 株式会社マーズスピリット 機械学習システム
KR101700099B1 (ko) * 2016-10-11 2017-01-31 미디어젠(주) 하이브리드 음성인식 복합 성능 자동 평가시스템
KR101935040B1 (ko) * 2018-09-12 2019-01-03 이현수 음성안내 기반 대중교통 경로 안내 서비스 제공 방법 및 시스템

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190093528A (ko) * 2019-07-22 2019-08-09 엘지전자 주식회사 인공지능 장치를 이용한 음성 처리 방법
KR102223736B1 (ko) 2019-07-22 2021-03-05 엘지전자 주식회사 인공지능 장치를 이용한 음성 처리 방법
US11081109B2 (en) 2019-07-22 2021-08-03 Lg Electronics Inc. Speech processing method using artificial intelligence device
KR20210115671A (ko) * 2020-03-16 2021-09-27 주식회사 한글과컴퓨터 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치 및 그 동작 방법
KR102375508B1 (ko) * 2020-03-16 2022-03-17 주식회사 한글과컴퓨터 문서 작성 프로그램에서 자주 사용되는 편집 명령에 대한 음성 인식을 가능하게 하는 전자 장치 및 그 동작 방법
WO2022124637A1 (ko) * 2020-12-10 2022-06-16 삼성전자(주) 전자장치 및 그의 제어방법
WO2024076114A1 (ko) * 2022-10-08 2024-04-11 삼성전자주식회사 보이스 커맨드의 실행을 제어하기 위한 전자 장치 및 그 방법

Similar Documents

Publication Publication Date Title
KR102026479B1 (ko) 병렬처리 플랫폼 기반 인공지능 음성인식 서비스 제공 시스템
WO2021093449A1 (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
JP6797240B2 (ja) ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム
JP2022549238A (ja) 意味理解モデルのトレーニング方法、装置、電子デバイスおよびコンピュータプログラム
US11132509B1 (en) Utilization of natural language understanding (NLU) models
EP3640934B1 (en) Speech recognition method and apparatus
CN102280106A (zh) 用于移动通信终端的语音网络搜索方法及其装置
CN112735418B (zh) 一种语音交互的处理方法、装置、终端及存储介质
JP6728319B2 (ja) 人工知能機器で複数のウェイクワードを利用したサービス提供方法およびそのシステム
US11217270B2 (en) Training data generating method for training filled pause detecting model and device therefor
US11333378B1 (en) Energy consumption artificial intelligence
KR20200007983A (ko) 지역적 특징 기반의 음성인식 방법 및 시스템
Zhang et al. Optimization of SVM parameters based on PSO algorithm
CN111933135A (zh) 终端控制方法、装置、智能终端及计算机可读存储介质
US11443735B2 (en) Method for generating filled pause detecting model corresponding to new domain and device therefor
Chumuang et al. Voice-activated assistance for the elderly: Integrating speech recognition and iot
CN116052646B (zh) 语音识别方法、装置、存储介质和计算机设备
CN115132195B (zh) 语音唤醒方法、装置、设备、存储介质及程序产品
Kalkhoran et al. Detecting Persian speaker-independent voice commands based on LSTM and ontology in communicating with the smart home appliances
CN111883126A (zh) 数据处理方式的选择方法、装置及电子设备
Dumitrescu Cassandra smart-home system description
CN117807215B (zh) 一种基于模型的语句多意图识别方法、装置及设备
Chang Enabling progressive system integration for AIoT and speech-based HCI through semantic-aware computing
Katumba et al. Luganda Speech Intent Recognition for IoT Applications
Yang et al. Adaptive Pronunciation Proofreading of Spoken English in a Wireless Sensor Network Environment

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant