KR20240067971A - 음성 인식 방법, 음성 인식 장치, 전자장비, 저장매체 및 컴퓨터 프로그램 - Google Patents

음성 인식 방법, 음성 인식 장치, 전자장비, 저장매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20240067971A
KR20240067971A KR1020247014438A KR20247014438A KR20240067971A KR 20240067971 A KR20240067971 A KR 20240067971A KR 1020247014438 A KR1020247014438 A KR 1020247014438A KR 20247014438 A KR20247014438 A KR 20247014438A KR 20240067971 A KR20240067971 A KR 20240067971A
Authority
KR
South Korea
Prior art keywords
text
language
segment
probability
candidate
Prior art date
Application number
KR1020247014438A
Other languages
English (en)
Inventor
준야오 샤오
쥉시앙 지앙
??시앙 지앙
쉥 치엔
샤오인 후
하이펑 왕
레이 지아
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20240067971A publication Critical patent/KR20240067971A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 개시는 음성 인식 방법, 장치, 장비 및 매체를 제공한다. 상기 방법은, 음향 모델을 사용하여 인식하고자 하는 음성 데이터 및 이미 인식하여 얻은 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 음향 확률을 얻는 것(S210), 제1 언어 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것(S220), 제약 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 제1 텍스트 세그먼트에 대한 복수의 후보 텍스트 세그먼트 각각의 확장 가능 관계를 얻는 것(S230), 확장 가능 관계에 따라, 후보 텍스트 세그먼트의 초기 언어 확률을 조정하여, 복수의 후보 텍스트 세그먼트 각각의 제1 언어 확률을 얻는 것(S240), 및 제1 언어 확률 및 음향 확률에 따라, 복수의 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 것(S250)을 포함한다.

Description

음성 인식 방법, 장치, 장비 및 매체
본 출원은 2022년 9월 1일에 출원한 출원 번호가 202211064891.8인 중국 특허출원의 우선권을 주장하며, 그 전부 내용을 인용함으로써 본 명세서에 포함시킨다.
본 개시는 인공 지능 분야에 관한 것으로서, 구체적으로는 음성 인식, 자연 언어 처리 및 딥러닝 등 기술 분야에 관한 것이고, 특히 음성 인식 방법, 장치, 장비 및 매체에 관한 것이다.
컴퓨터 기술 및 네트워크 기술의 발전에 따라, 딥러닝 기술은 다양한 분야에서 널리 응용되고 있다. 예를 들어, 딥러닝 기술을 기반으로 구축된 음향 모델(Acoustic Model)을 사용하여 음성을 인식함으로써, 수집된 음성을 텍스트로 전환할 수 있다.
본 개시는 음성 인식 방법, 장치, 장비 및 매체를 제공하기 위한 것이다.
본 개시의 한 측면에 의하면, 음향 모델을 사용하여 인식하고자 하는 음성 데이터 및 이미 인식하여 얻은 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 음향 확률을 얻는 것, 언어 모델 중의 제1 언어 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것, 언어 모델 중의 제약 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 제1 텍스트 세그먼트에 대한 복수의 후보 텍스트 세그먼트 각각의 확장 가능 관계를 얻는 것, 확장 가능 관계에 따라, 후보 텍스트 세그먼트의 초기 언어 확률을 조정하여, 복수의 후보 텍스트 세그먼트 각각의 제1 언어 확률을 얻는 것, 및 제1 언어 확률 및 음향 확률에 따라, 복수의 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻는 것을 포함하는 음성 인식 방법을 제공한다. 여기서, 제약 서브모델은 소정의 텍스트 집합 중의 텍스트에 기초하여 트레이닝하여 얻은 것이다.
본 개시의 다른 한 측면에 의하면, 음향 모델을 사용하여 인식하고자 하는 음성 데이터 및 이미 인식하여 얻은 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 음향 확률을 얻기 위한 음향 확률 취득모듈, 언어 모델 중의 제1 언어 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻기 위한 초기 확률 취득모듈, 언어 모델 중의 제약 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 제1 텍스트 세그먼트에 대한 복수의 후보 텍스트 세그먼트 각각의 확장 가능 관계를 얻기 위한 확장 관계 취득모듈, 확장 가능 관계에 따라, 후보 텍스트 세그먼트의 초기 언어 확률을 조정하여, 복수의 후보 텍스트 세그먼트 각각의 제1 언어 확률을 얻기 위한 확률 조정모듈, 및 제1 언어 확률 및 음향 확률에 따라, 복수의 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻기 위한 텍스트 확정모듈을 포함하고, 제약 서브모델은 소정의 텍스트 집합 중의 텍스트에 기초하여 트레이닝하여 얻은 것인 음성 인식 장치를 제공한다.
본 개시의 다른 한 측면에 의하면, 적어도 하나의 프로세서, 및 적어도 하나의 프로세서에 통신가능하게 연결되는 메모리를 포함하는 전자장비로서, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 명령이 적어도 하나의 프로세서에 의해 실행될 경우, 적어도 하나의 프로세서로 하여금 본 개시에 의해 제공되는 방법을 실행하도록 하는 전자장비를 제공한다.
본 개시의 다른 한 측면에 의하면, 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체로서, 컴퓨터 명령은 컴퓨터로 하여금 본 개시에 의해 제공되는 음성 인식 방법을 실행하도록 하는 비 일시적 컴퓨터 판독가능 저장 매체를 제공한다.
본 개시의 다른 한 측면에 의하면, 컴퓨터 프로그램/명령을 포함한 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램/명령이 프로세서에 의해 실행될 경우, 본 개시에 의해 제공되는 음성 인식 방법을 구현하는 컴퓨터 프로그램 제품을 제공한다.
본 명세서에 기술된 내용은 그 목적이 본 개시의 실시예의 핵심 또는 중요한 특징을 지정하기 위한 것이 아니고, 또한, 본 개시의 범위는 이에 한정되지 아니함을 이해하여야 한다. 본 개시의 다른 특징들은 하기 설명으로부터 용이하게 이해할 수 있을 것이다.
첨부 도면은 본 기술방안을 보다 쉽게 이해하도록 하기 위한 것이고, 본 개시는 이에 한정되지 않는다.
도 1은 본 개시의 실시예에 따른 음성 인식 방법 및 장치의 응용장면의 개략도이다.
도 2는 본 개시의 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다.
도 3은 본 개시의 제1 실시예에 따른 복수의 후보 텍스트 세그먼트의 초기 언어 확률을 얻는 개략적인 원리도이다.
도 4는 본 개시의 제2 실시예에 따른 복수의 후보 텍스트 세그먼트의 제1 언어 확률을 얻는 개략적인 원리도이다.
도 5는 본 개시의 실시예에 따른 언어 모델의 개략적인 구성도이다.
도 6은 본 개시의 제1 실시예에 따른 목표 텍스트 세그먼트를 확정하는 개략적인 원리도이다.
도 7은 본 개시의 제2 실시예에 따른 목표 텍스트 세그먼트를 확정하는 개략적인 원리도이다.
도 8은 본 개시의 제3 실시예에 따른 목표 텍스트 세그먼트를 확정하는 개략적인 원리도이다.
도 9는 본 개시의 실시예에 따른 제약 서브모델을 트레이닝하기 위한 네거티브 샘플의 개략적인 생성 원리도이다.
도 10은 본 개시의 실시예에 따른 음성 인식 장치의 구성 블록도이다.
도 11은 본 개시의 실시예의 음성 인식 방법을 실시하기 위한 전자장비의 블록도이다.
이하, 도면을 참조하여 본 개시의 예시적인 실시예들을 설명한다. 쉽게 이해할 수 있도록, 본 개시의 실시예들의 세부사항을 포함하게 되는데, 이들은 단지 예시적인 것에 불과하다. 따라서, 당업자라면 본 개시의 범위 및 취지를 벗어나지 않으면서 본 개시의 실시예에 대해 여러가지 변경 및 수정이 이루어질 수 있음을 이해할 것이다. 또한, 명확성과 간결성을 위해 하기의 설명에 있어서, 공지된 기능 및 구성에 대한 설명은 생략한다.
통상적으로, 음성 인식 음향 모델링 기술을 사용하여 음성 인식 작업을 완성할 수 있다. 예를 들어, 단대단(End-to-End)의 어텐션(Attention) 모델을 구축함으로써, 음성 인식의 정확도를 향상시킬 수 있다. 하지만, 실제 업무에서 모델링을 통해 얻은 음향 모델에만 의존하여 인식 작업을 실행할 경우, 높은 정확도의 음성 인식을 요구하는 특정 업무의 수요를 만족하기 어렵다. 이는 음향 모델의 트레이닝 데이터는 통상적으로 한계가 있어, 다양한 업무 분야를 커버할 수 없기 때문이다. 또한, 각 업무 분야의 업무 수요는 통상적으로 시사 이슈에 따라 변화되므로, 인식 정밀도를 향상시키기 위해서는, 통상적으로 음향 모델을 반복적으로 업데이트해야 한다. 하지만, 음향 모델의 업데이트 코스트가 높고, 업데이트 주기가 길기 때문에, 통상적으로 정확도에 대한 요구의 변화 속도를 따라가지 못한다.
이를 감안하여, 언어 모델 및 음향 모델을 결합하는 방식으로 음성 인식 작업을 완성할 수 있다. 이렇게 함으로써, 트레이닝 데이터가 대량으로 존재하고, 업데이트 교체 속도가 빠른 언어 모델의 장점을 빌어, 음향 모델의 부족점을 보완하고, 높은 정확도의 음성 인식을 욕하는 업무의 수요를 만족시킬 수 있다.
여기서, 언어 모델은 예를 들어 NNLM(Neural Network Language Model, 신경망 언어 모델)을 사용할 수 있다. 해당 NNLM은 실질적으로 시퀀스 모델로서, 이전의 순환에서 예측하여 얻은 텍스트 세그먼트를 포함하는 텍스트 시퀀스를 입력으로 하고, 현재의 순환에서 얻은 복수의 소정의 텍스트 세그먼트에 대한 확률 분포를 출력으로 한다. 해당 실시예에서는, 확률 분포에 따라, 확률값이 가장 큰 소정의 텍스트 세그먼트를 현재의 순환에서 예측하여 얻은 텍스트 세그먼트로 할 수 있다. 여기서, 음향 모델은 어텐션에 기초한 음향 모델일 수 있다. 여기서, 각 텍스트 세그먼트는 하나의 문자, 하나의 단어, 하나의 음절의 텍스트 또는 하나의 구절 등 임의의 입도의 텍스트일 수 있다.
본 개시의 실시예에 의하면, 언어 모델 및 어텐션에 기초한 음향 모델에 의존하는 디코딩 알고리즘은 단일 음향 모델에 의해 출력된 확률 분포와 단일 NNLM에 의해 출력된 확률 분포를 융합하고, 빔 검색(Beam Search)의 방식을 사용하여 융합 결과에 따라 1회의 디코딩 과정에서 선택된 후보 경로를 얻을 수 있다. 예를 들어, 복수의 소정의 텍스트 세그먼트가 N개이고, 빔 검색에 사용된 beam이 3인 경우를 예로 들면, 첫번째 디코딩은 N개의 소정의 텍스트 세그먼트로부터 확률값이 가장 높은 3개의 세그먼트를 선별하여 후보 텍스트 세그먼트로 할 수 있고, 그후의 매번 디코딩마다 3*N개의 경로로부터 총 확률값이 가장 높은 3개의 경로를 선별하여 후보 경로로 할 수 있으며, 선별된 후보 경로가 모두 텍스트 종료 식별자<EOS>를 포함하거나, 선별한 후보 경로 중 텍스트 세그먼트의 길이가 모두 길이 임계치에 도달할 때까지 동작을 실행할 수 있다. 여기서, 경로는 첫번째 디코딩부터 현재 디코딩까지 얻은 세그먼트가 생성 순서에 따라 배열된 세그먼트 시퀀스로 표시할 수 있다. 해당 경로의 총 확률값은 세그먼트 시퀀스 중 각 세그먼트의 확률값의 곱셈이거나, 또는 세그먼트 시퀀스 중 각 세그먼트의 확률값의 대수의 합계일 수 있다.
언어 모델 및 음향 모델을 결합하는 방식은 인식 정확도를 어느 정도 향상시킬 수 있지만, 해당 방식은 언어 모델에 의해 출력되는 확률 분포에 따라 디코딩 경로의 확장을 안내하게 된다. 닫힌 집합의 인식 작업인 경우, 최종적으로 인식된 텍스트가 닫힌 집합의 인식 작업에서 설정한 텍스트 집합 내의 어느 한 텍스트임을 보장할 수 없으므로, 다운 스트림 작업(예를 들어, 인식된 텍스트에 기초하여 검색하는 작업, 음성 응답하는 작업 등)의 실행에 영향을 줄 수 있다. 즉, 해당 방식은 여전히 인식 정밀도가 낮고, 인식 작업의 완성 효과가 떨어지는 문제점이 있다.
이를 감안하여, 본 개시는 음성 인식 정밀도를 향상시켜, 인식 결과가 인식 작업에 부합되도록 하는 음성 인식 방법 및 장치를 제공한다. 이하, 우선 도 1을 참조하여 본 개시에 의해 제공되는 방법 및 장치의 응용장면을 설명한다.
도 1은 본 개시의 실시예에 따른 음성 인식 방법 및 장치의 응용장면의 개략도이다.
도 1에 도시된 바와 같이, 본 실시예의 응용장면(100)은 전자장비(110)를 포함할 수 있고, 해당 전자장비(110)는 처리 기능을 갖는 다양한 전자장비일 수 있으며, 전자장비는 스마트 폰, 테블릿 컴퓨터, 랩탑형 휴대용 컴퓨터, 데스크탑형 컴퓨터, 스마트 워치 또는 스마트 스피커 등을 포함할 수 있는데, 이에 한정되지는 않는다.
전자장비(110)는 예를 들어 취득한 음성 데이터(120)를 처리할 수 있는데, 예를 들어, 음성 데이터(120)에 대한 음성 인식을 실행함으로써, 음성 데이터(120)를 텍스트(130)로 전환할 수 있다. 예를 들어, 음성 데이터(120)는 수집된 음성을 처리하여 얻은 데이터일 수 있다. 수집한 음성은 마이크 등 오디오 수집기를 사용하여 수집된 사용자의 음성일 수 있다.
일 실시예에 의하면, 전자장비(110)에는 오디오 수집기가 설치될 수 있고, 해당 전자장비(110)에는 입력기, 브라우저, 스마트 스피커APP, 차량 탑재APP 등 음성 인식 기능을 갖는 클라이언트 애플리케이션(단지 예시임)이 설치될 수 있다. 전자장비(110)는 음성 인식을 통해 음성 데이터를 입력된 캐릭터로 전환함으로써, 정보 조회, 스마트 스피커 원격 제어, 또는 차량 원격 제어 등을 실행할 수 있다.
일 실시예에 의하면, 전자장비(110)는 단대단 모델(140)을 사용하여 음성 인식 작업을 완성할 수 있다. 여기서, 단대단 모델(140)은 예를 들어 앞에서 설명한 언어 모델 및 음향 모델을 포함할 수 있고, 해당 단대단 모델(140)은 빔 검색의 방식을 통해 텍스트(130)를 얻을 수 있다. 또는, 단대단 모델(140)은 앞에서 설명한 단대단의 스트리밍 어텐션 모델(Streaming attention model)일 수 있다. 또는, 전자장비(110)는 이하에서 설명하는 음성 인식 방법을 사용하여 음성 인식 작업을 완성할 수도 있으며, 본 개시는 이에 대해 한정하지 않는다.
일 실시예에 의하면, 도 1에 도시된 바와 같이, 해당 응용장면(100)에는 서버(150)를 더 포함할 수 있다. 서버(150)는 예를 들어 전자장비(110)에서 클라이언트 애플리케이션의 실행을 지원하는 백그라운드 관리 서버일 수 있다. 전자장비(110)는 네트워크를 통해 서버(150)에 통신가능하게 연결될 수 있으며, 네트워크는 유선 또는 무선 통신 링크를 포함할 수 있다.
예를 들어, 서버(150)는 대량의 텍스트 샘플에 기초하여 언어 모델을 트레이닝하고, 음성-텍스트 페어에 기초하여 음향 모델을 트레이닝할 수 있다. 서버(150)는 트레이닝하여 얻은 언어 모델 및 음향 모델을 단대단 모델(140)로 구성하고, 구체적인 장면에 따라 해당 단대단 모델(140)을 미세 조정할 수 있다. 서버(150)는 예를 들어 전자장비(110)에 의해 발송된 취득 요청에 응답하여, 미세 조정 후의 단대단 모델(140)을 전자장비(110)로 전송함으로써, 전자장비(110)가 해당 단대단 모델(140)을 사용하여 음성 인식 작업을 완성할 수 있도록 한다.
일 실시예에 의하면, 전자장비(110)는 취득한 음성 데이터(120)를 서버(150)로 전송하고, 서버(150)에 의해 단대단 모델(140)에 따라 음성 데이터(120)에 대한 음성 인식을 실행하여 텍스트(130)를 얻을 수 있다.
지적해두어야 할 것은, 본 개시에 의해 제공되는 음성 인식 방법은 전자장비(110)에 의해 실행될 수도 있고, 서버(150)에 의해 실행될 수도 있다. 이에 대응하여, 본 개시에 의해 제공되는 음성 인식 장치는 전자장비(110)에 설치될 수도 있고, 서버(150)에 설치될 수도 있다.
도 1의 전자장비(110) 및 서버(150)의 수 및 유형은 단지 예시적인 것에 지나지 않음을 이해하여야 한다. 실제 수요에 따라, 임의의 수 및 유형의 전자장비(110) 및 서버(150)를 포함할 수 있다.
이하, 도 2 내지 도 9를 참조하여 본 개시에 의해 제공되는 음성 인식 방법을 상세하게 설명하기로 한다.
도 2는 본 개시의 실시예에 따른 음성 인식 방법의 개략적인 흐름도이다.
도 2에 도시된 바와 같이, 본 실시예의 음성 인식 방법(200)은 동작 S210 내지 동작 S250을 포함할 수 있다.
동작 S210에서는, 음향 모델을 사용하여 인식하고자 하는 음성 데이터 및 이미 인식하여 얻은 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 음향 확률을 얻는다.
본 개시의 실시예에 의하면, 음향 모델은 가우스 혼합 모델(Gaussian Mixed Model, GMM) 및 히든 마르코프 모델(Hidden Markov Model, HMM)에 의해 구성된 모델을 사용할 수도 있고, 딥 신경망(Deep Neural Networks, DNN) 및 HMM에 의해 구성된 모델을 사용할 수도 있다. 해당 음향 모델은 예를 들어 인코더 및 디코더를 포함할 수 있다는 것을 이해할 것이다. 인코더의 입력은 인식하고자 하는 음성 데이터이고, 출력은 추출하여 얻은 음향 특징이다. 디코더의 입력은 음향 특징 및 이미 인식하여 얻은 제1 텍스트 세그먼트의 임베딩 특징을 포함한다. 음향 모델의 출력은 복수의 후보 텍스트 세그먼트의 확률 분포이고, 해당 확률 분포는 복수의 후보 텍스트 세그먼트 각각의 음향 확률을 포함한다.
여기서, 음성 인식의 초기 단계에서, 이미 인식하여 얻은 제1 텍스트 세그먼트는 텍스트 시작 식별자<SOS>일 수 있고, 후속적인 단계에서, 이미 인식하여 얻은 제1 텍스트 세그먼트는 텍스트 시작 식별자<SOS> 및 인식하여 얻은 텍스트 세그먼트에 의해 구성된 텍스트 세그먼트 시퀀스일 수 있다.
여기서, 복수의 후보 텍스트 세그먼트는 예를 들어 문자 라이브러리 중의 복수의 문자일 수 있다. 문자 라이브러리에 포함되는 문자는 실제 수요에 따라 설정할 수 있으며, 본 개시는 이에 대해 한정하지 않는다.
동작 S220에서는, 언어 모델 중의 제1 언어 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는다.
동작 S230에서는, 언어 모델 중의 제약 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 제1 텍스트 세그먼트에 대한 복수의 후보 텍스트 세그먼트 각각의 확장 가능 관계를 얻는다.
동작 S240에서는, 확장 가능 관계에 따라, 후보 텍스트 세그먼트의 초기 언어 확률을 조정하여, 복수의 후보 텍스트 세그먼트 각각의 제1 언어 확률을 얻는다.
본 개시의 실시예에 의하면, 언어 모델은 앞에서 설명한 NNLM를 사용할 수도 있고, N-gram모델을 사용할 수도 있다. 본 실시예에서는, 제1 텍스트 세그먼트를 언어 모델에 입력하고, 언어 모델에 의해 복수의 후보 텍스트 세그먼트의 확률 분포를 출력할 수 있으며, 해당 확률 분포는 복수의 후보 텍스트 세그먼트 각각의 제1 언어 확률을 포함할 수 있다.
본 개시의 실시예에 의하면, 언어 모델은 예를 들어 제1 언어 서브모델 및 제약 서브모델을 포함할 수 있다. 해당 제1 언어 서브모델 및 제약 서브모델은 병렬로 설치될 수 있고, 제1 언어 서브모델은 앞에서 설명한 NNLM를 사용할 수 있다. 제약 서브모델의 구조는 NNLM의 구조와 유사하다. 해당 제1 언어 서브모델 및 제약 서브모델은 모두 제1 텍스트 세그먼트의 임베딩 특징을 입력으로 할 수 있고, 이들 2개의 서브모델의 네트워크 구조는 유사할 수 있으며, 제1 언어 서브모델은 제1 텍스트 세그먼트를 처리하여 확률 분포를 얻을 수 있고, 제2 언어 서브모델은 제1 텍스트 세그먼트를 처리하여 확장 가능 관계를 나타내는 벡터를 얻을 수 있다는 점에서 주로 차이가 있다. 여기서, 제1 언어 서브모델에 의해 얻어지는 확률 분포는 복수의 후보 텍스트 세그먼트 각각의 언어 확률을 포함하는데, 해당 언어 확률을 초기 언어 확률로 할 수 있다. 확장 가능 관계를 나타내는 벡터는 복수의 요소들을 포함하고, 각 요소는 제1 텍스트 세그먼트에 대한 후보 텍스트 세그먼트의 확장 가능 관계를 표시한다. 여기서, 확장 가능 관계를 갖는다는 것은 후보 텍스트 세그먼트가 제1 텍스트 세그먼트 이후의 세그먼트가 될 수 있다는 것을 의미한다.
일 실시예에 의하면, 복수의 요소 중 각 요소의 값은 0 또는 1이고, 0은 확장 가능 관계가 없음을 의미하고, 1은 확장 가능 관계가 있음을 의미한다.
제약 서브모델의 출력에 따라 제1 텍스트 세그먼트에 대한 복수의 후보 텍스트 세그먼트 각각의 확장 가능 관계를 얻은 후, 해당 확장 가능 관계에 따라, 후보 텍스트 세그먼트의 초기 확률을 조정할 수 있다. 예를 들어, 제1 텍스트 세그먼트에 대한 각 후보 텍스트 세그먼트의 확장 가능 관계를 나타내는 요소의 값과 각 후보 텍스트 세그먼트의 초기 언어 확률을 곱셈하여, 각 후보 텍스트 세그먼트의 제1 언어 확률을 얻을 수 있다. 또는, 제1 텍스트 세그먼트에 대한 각 후보 텍스트 세그먼트의 확장 가능 관계를 나타내는 요소의 값에 대해 대수를 취하고, 각 후보 텍스트 세그먼트의 초기 언어 확률에 대해 대수를 취한 후, 얻어지는 2개의 대수를 가산하여, 각 후보 텍스트 세그먼트의 제1 언어 확률로 할 수 있다.
일 실시예에 의하면, 제약 서브모델은 소정의 텍스트 집합 중의 텍스트에 기초하여 트레이닝하여 얻은 것일 수 있다. 여기서, 소정의 텍스트 집합은 닫힌 집합의 인식 작업을 위해 설치한 텍스트 집합일 수 있고, 닫힌 집합의 인식 작업은 실제 수요에 따라 설정할 수 있다.
동작 S250에서는, 제1 언어 확률 및 음향 확률에 따라, 복수의 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻는다.
본 개시의 실시예에 의하면, 각 후보 텍스트 세그먼트에 대해, 제1 언어 확률과 음향 확률을 가산하거나 곱셈하고, 가산하거나 곱셈하여 얻은 값을 각 후보 텍스트 세그먼트의 확률값으로 할 수 있다. 이어서, 본 실시예에서는, 확률값이 가장 큰 텍스트 세그먼트를 선택하여 목표 텍스트 세그먼트로 할 수 있다.
해당 목표 텍스트 세그먼트를 얻은 후, 해당 목표 텍스트 세그먼트를 이미 인식하여 얻은 제1 텍스트 세그먼트에 추가하고, 선택한 확률값이 가장 큰 텍스트 세그먼트가 텍스트 종료 식별자<EOS>이거나, 또는, 확률값이 가장 큰 텍스트 세그먼트와 제1 텍스트 세그먼트 중 텍스트 세그먼트의 합계가 소정의 수에 도달할 때까지, 동작 S210 내지 동작 S250을 계속하여 실행할 수 있다.
일 실시예에 의하면, 빔 검색의 방식을 통해 총 확률값이 비교적 큰 소정의 수(예를 들어, M개)의 경로에서 마지막 위치에 있는 세그먼트를 목표 텍스트 세그먼트로 확정할 수 있다. 그 다음, 각 목표 텍스트 세그먼트를 제1 텍스트 세그먼트에 추가하여, M개의 조정된 텍스트 세그먼트를 얻을 수 있다. 그 다음, 각 조정된 텍스트 세그먼트를 하나의 제1 텍스트 세그먼트로 하고, 되돌아가서 동작 S210 내지 동작 S240을 실행하여, 총 M*N개의 후보 경로를 얻는다. 그 다음, M*N개의 후보 경로로부터 총 확률값이 가장 높은 M개의 경로를 선별한다. 이와 동일하게, 선별된 후보 경로가 모두 텍스트 종료 식별자<EOS>를 포함하거나, 또는, 선별된 후보 경로 중 텍스트 세그먼트의 길이가 모두 길이 임계치에 도달할 때까지 동작을 실행할 수 있다. 마지막으로, 총 확률값이 가장 높은 후보 경로의 텍스트 세그먼트에 의해 인식하고자 하는 음성 데이터의 텍스트 시퀀스를 구성한다.
본 개시의 실시예에서는, 언어 모델에 제1 텍스트 세그먼트에 대한 후보 텍스트 세그먼트의 확장 가능 관계를 예측하기 위한 제약 서브모델을 설치하고, 해당 확장 가능 관계에 따라 예측하여 얻은 초기 언어 확률을 조정함으로써, 확장 가능 관계 및 초기 언어 확률을 결합하여 디코딩 경로의 확장을 안내할 수 있다. 이렇게 함으로써, 제약 서브모델이 신경망 모델인 경우, 닫힌 집합의 인식 작업에서 설정한 텍스트 집합에 따라 복수의 후보 텍스트 세그먼트 중 각 세그먼트 사이의 확장 가능 관계를 러닝한 후, 확장 가능 관계의 안내에 따라, 인식하여 얻은 텍스트가 닫힌 집합의 인식 작업에서 설정한 텍스트 집합 중의 어느 텍스트이도록 할 수 있으며, 이를 통해, 인식 정밀도를 향상시키고, 인식 작업의 완성 효과를 향상시킬 수 있으며, 다운 스트림 작업을 실행하는데 유리하다.
이하, 도 3 내지 도 5를 참조하여, 상기 동작 S220 내지 동작 S240의 실시에 대해 더 확장하고 한정할 것이다.
도 3은 본 개시의 제1 실시예에 따른 복수의 후보 텍스트 세그먼트의 제1 언어 확률을 얻는 개략적인 원리도이다.
본 개시의 실시예에 의하면, 언어 모델을 사용하여 언어 확률을 얻을 때, 예를 들어, 언어 모델의 입력에 수직형 카테고리 부호를 추가할 수도 있다. 이렇게 함으로써, 언어 모델로 하여금 서로 다른 수직형 카테고리의 텍스트에 대해 서로 다른 경로로 안내할 수 있도록 한다. 또한, 본 개시의 언어 모델로 하여금 다양한 서로 다른 수직형 카테고리의 텍스트를 예측하는데 사용할 수 있도록 하여, 본 개시의 음성 인식 방법의 로버스트성을 향상하는데 유리하다.
도 3에 도시된 바와 같이, 본 실시예(300)에서는, 후보 텍스트 세그먼트 각각의 초기 언어 확률을 확정할 때, 우선 제1 텍스트 세그먼트(301)를 처리하여, 제1 텍스트 세그먼트(301)의 텍스트 임베딩 특징(302)을 얻을 수 있다. 예를 들어, word2vec방법 또는 GloVe(Global Vectors for Word Representation) 방법 등을 사용하여 제1 텍스트 세그먼트(301)를 처리할 수 있다.
본 실시예에서는, 텍스트 임베딩 특징(302)을 얻는 임의의 타이밍에 제1 텍스트 세그먼트가 속하는 수직형 카테고리(303) 및 그 수직형 카테고리(303)의 제1 식별 특징(304)을 확정할 수도 있다. 이해할 수 있는 것은, 제1 텍스트 세그먼트가 속하는 수직형 카테고리(303)는 예를 들어 사용자 조작에 응답하여 확정하거나, 또는, 음성 인식의 초기 단계에서 복수의 소정의 수직형 카테고리를 모두 제1 텍스트 세그먼트가 속하는 수직형 카테고리(303)로 할 수 있고, 각 소정의 수직형 카테고리에 대해 각각 하나의 확률 분포를 얻을 수 있다. 경로가 확장됨에 따라, 선택한 경로에 대응하는 소정의 수직형 카테고리를 이미 인식하여 얻은 제1 텍스트 세그먼트가 속하는 수직형 카테고리로 할 수 있다. 본 실시예에서는, 복수의 소정의 수직형 카테고리 중 각 소정의 수직형 카테고리에 식별자를 할당할 수 있고, 본 실시예에서는 수직형 카테고리의 식별자에 대해 인코딩함으로써, 수직형 카테고리의 제1 식별 특징을 얻을 수 있다.
본 실시예에서는, 텍스트 임베딩 특징(302) 및 제1 식별 특징(304)을 얻은 후, 우선 해당 텍스트 임베딩 특징(302)과 제1 식별 특징(304)을 융합할 수 있다. 그 다음, 융합하여 얻은 특징을 제1 언어 서브모델(320)에 입력하여, 제1 언어 서브모델(320)의 처리를 거친 후, 언어 확률 분포(305)를 얻을 수 있다. 해당 언어 확률 분포(305)는 복수의 소정의 텍스트 세그먼트의 초기 언어 확률을 포함한다.
예시적으로, 텍스트 임베딩 특징(302)과 제1 식별 특징(304)을 접합함으로써 이들의 융합을 실현할 수 있다. 또는, 본 실시예에서는, 텍스트 임베딩 특징(302)과 제1 식별 특징(304)이 동일한 차원을 갖도록 설정하고, 가산기(310)를 사용하여 텍스트 임베딩 특징(302)과 제1 식별 특징(304)을 가산함으로써, 이들의 융합을 실현할 수 있다. 이해할 수 있는 것은, 상기 융합 방법은 단지 본 개시를 쉽게 이해할 수 있도록 하기 위한 예시에 지나지 않으며, 본 개시는 이에 대해 한정하지 않는다.
예시적으로, 제1 언어 서브모델(320)은 NNLM모델을 사용할 수 있다. 예를 들어, 해당 제1 언어 서브모델(320)은 차례로 연결된 입력층, 히든층 및 출력층을 포함할 수 있고, 여기서, 이해할 수 있는 것은, 입력층은 텍스트를 임베딩 특징으로 전환할 수 있고, 해당 입력층은 앞에서 설명한 제1 텍스트 세그먼트를 처리하여 텍스트 임베딩 특징을 얻는 기능, 수직형 카테고리에 따라 제1 식별 특징을 얻는 기능, 텍스트 임베딩 특징과 제1 식별 특징을 융합하는 기능을 포함할 수 있다. 히든층은 완전 연결층일 수도 있고, 시퀀스 네트워크 및 완전 연결층에 의해 구성된 네트워크 구조일 수도 있으며, 이를 통해, 입력 시퀀스 중 복수의 데이터 사이의 문맥 정보를 쉽게 러닝할 수 있도록 한다. 여기서, 시퀀스 네트워크는 어텐션 메커니즘에 기반한 네트워크(예를 들어, Transformer) 또는 장단기 메모리 네트워크LSTM (Long Short-Term Memory) 등을 포함할 수 있으며, 본 개시는 이에 대해 한정하지 않는다. 출력층은 softmax 등 로지스틱 회귀(logistic regression) 네트워크를 포함할 수 있다.
도 4는 본 개시의 제2 실시예에 따른 복수의 후보 텍스트 세그먼트의 제1 언어 확률을 얻는 개략적인 원리도이다.
본 개시의 실시예에 의하면, 언어 모델에 하나의 범용 언어 모델 브랜치를 설치할 수 있고, 해당 언어 모델 브랜치는 복수의 수직형 카테고리의 텍스트를 트레이닝하여 얻은 것일 수 있다. 해당 범용 언어 모델 브랜치의 수직형 카테고리의 편향이 부족하고, 수직형 카테고리에 대한 언어 모델의 파라미터 수가 통상적으로 너무 많다는 점을 고려하여, 본 실시예에서는 이들을 결합하여, 범용 언어 모델 브랜치의 파라미터를 수직형 카테고리에 대한 언어 모델에 공유하고, 또한, 수직형 카테고리에 대한 언어 모델에 일부 파라미터를 추가함으로써, 수직형 카테고리에 대해 별도로 강화 러닝을 실행할 수 있다. 즉, 언어 모델에 2개의 브랜치를 설치하되, 하나는 범용 언어 모델 브랜치이고, 다른 하나는 수직형 카테고리에 대한 언어 모델 브랜치이다. 이렇게 함으로써, 복수의 수직형 카테고리에 대한 언어 모델의 인식율을 최적화함과 동시에, 모델의 부피가 비교적 작도록 보장함으로써, 모델이 작동하는 동안의 계산력에 대한 수요를 감소시킬 수 있고, 본 실시예에 따른 방법의 로버스트성을 향상시키는데 유리하다.
도 4에 도시된 바와 같이, 본 실시예(400)에 의하면, 언어 모델은 제1 언어 서브모델(410), 제1 언어 서브모델(410)과 병렬로 설치된 제2 언어 서브모델(420) 및 제약 서브모델(430)을 포함할 수 있다. 여기서, 제1 언어 서브모델(410) 및 제약 서브모델(430)에 의해 수직형 카테고리에 대한 언어 모델 브랜치를 구성한다.
본 실시예에서는, 제1 언어 확률을 얻은 후, 텍스트 임베딩 특징(401)을 제2 언어 서브모델(420)에 입력하여, 제2 언어 서브모델(420)의 히든층에서 출력하는 제1 암시적 표상(implicit representation)을 얻을 수 있다.
또한, 본 실시예에서는, 텍스트 임베딩 특징(401)을 소속된 수직형 카테고리의 제1 식별 특징(402)과 융합한 후 제1 언어 서브모델(410)에 입력하고, 제1 언어 서브모델(410)의 히든층에서 출력한 제2 암시적 표상을 상기 제1 암시적 표상과 융합할 수 있다. 그 다음, 융합한 후의 특징을 제1 언어 서브모델(410)의 출력층에 입력하고, 해당 출력층에 의해 언어 확률 분포를 출력함으로써, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻을 수 있다.
또한, 본 실시예에서는, 텍스트 임베딩 특징(401)을 제1 식별 특징(402)과 융합한 후 제약 서브모델(430)에 입력하고, 해당 제약 서브모델(430)에 의해 확장 가능 관계를 나타내는 벡터를 출력할 수 있다. 해당 벡터와 초기 언어 확률을 융합층(440)에 입력하고, 융합층(440)에 의해 확장 가능 관계를 나타내는 벡터에 따라 초기 언어 확률을 조정함으로써, 복수의 후보 텍스트 세그먼트 각각의 제1 언어 확률(403)을 출력할 수 있다.
여기서, 제1 언어 서브모델 중의 히든층을 제1 특징 추출 네트워크로 사용할 수 있고, 출력층을 제1 예측 네트워크로 사용할 수 있다. 제1 예측 네트워크의 입력은 제2 암시적 표상과 제1 암시적 표상을 융합(예를 들어, 가산기를 사용하여 융합)한 후의 특징을 포함하고, 제1 예측 네트워크의 출력은 확률 분포이며, 확장 가능 관계를 나타내는 벡터는 해당 확률 분포 중의 확률값의 대수 값을 조정할 수 있다. 본 실시예에서는, 확률값의 대수 값에 따라 언어 확률을 확정하고, 값 사이의 곱셈 관계를 값의 대수 사이의 가산 관계로 전환함으로써, 계산의 정밀도를 보장할 수 있다. 이는 전자장비의 경우 통상적으로 부동 소수점 수의 곱셈에 대한 계산 정밀도가 비교적 낮고, 가산에 대한 계산 정밀도가 비교적 높기 때문이다.
구체적인 일 실시예에 의하면, 제1 언어 서브모델은 LSTM층, 가산기, 완전 연결층 및 로지스틱 회귀층(softmax)을 포함할 수 있다. 여기서, 가산기는 완전 연결층과 로지스틱 회귀층 사이에 설치될 수 있다. 이에 대응하여, LSTM층 및 완전 연결층은 제1 특징 추출 네트워크를 구성하고, softmax층은 제1 예측 네트워크를 구성한다. 구체적인 일 실시예에 의하면, 가산기는 완전 연결층과 로지스틱 회귀층 사이에 설치될 뿐만 아니라, LSTM층과 완전 연결층 사이에도 설치된다. 이에 대응하여, LSTM층, LSTM층과 완전 연결층 사이에 설치되는 가산기 및 완전 연결층은 제1 특징 추출 네트워크(411)를 구성할 수 있고, 완전 연결층과 로지스틱 회귀층 사이에 설치되는 가산기와 로지스틱 회귀층은 제1 예측 네트워크(412)를 구성할 수 있다. 여기서, LSTM층과 완전 연결층 사이의 가산기는 제1 암시적 표상과 LSTM에 의해 출력된 특징을 융합하기 위한 것이고, 완전 연결층과 로지스틱 회귀층 사이의 가산기는 제1 암시적 표상과 제2 암시적 표상을 융합하기 위한 것이다. 이렇게 함으로써, 제1 암시적 표상과 제1 언어 서브모델의 특징을 충분히 융합할 수 있고, 제1 언어 서브모델의 네트워크 파라미터와 제2 언어 서브모델의 네트워크 파라미터의 공유를 강화할 수 있으며, 얻어지는 제1 언어 확률의 정밀도를 향상시킬 수 있고, 음성 인식 정밀도를 향상시킬 수 있다.
구체적인 일 실시예에 의하면, 제2 언어 서브모델(420)은 LSTM층, 완전 연결층 및 softmax층을 포함할 수 있다. 여기서, LSTM층 및 완전 연결층은 제2 언어 서브모델의 제2 특징 추출 네트워크(421)를 구성하고, softmax층은 제2 언어 서브모델의 제2 예측 네트워크(422)를 구성한다. 본 실시예에서는, 제1 텍스트 세그먼트의 텍스트 임베딩 특징(401)을 제2 특징 추출 네트워크(421)에 입력하여 제2 암시적 표상을 얻은 후, 해당 제2 암시적 표상을 제2 예측 네트워크(422)에 입력하고, 해당 제2 예측 네트워크(422)에 의해 다른 하나의 확률 분포를 출력함으로써, 복수의 후보 텍스트 세그먼트 각각의 제2 언어 확률(404)을 얻을 수 있다. 마지막으로, 본 실시예에서는, 제1 언어 확률(403), 제2 언어 확률(404) 및 음향 확률에 따라 목표 텍스트 세그먼트를 확정할 수 있다. 구체적으로는, 제1 언어 확률(403) 및 제2 언어 확률(404)을 각각 음향 확률과 가산할 수 있다. 복수의 소정의 텍스트 세그먼트가 N개라고 가정할 경우, 총 2*N개의 가산 후의 확률값을 얻게 된다. 그 다음, 해당 2*N개의 가산 후의 확률값으로부터 M개의 비교적 큰 확률값을 선택함으로써, 이번 디코딩에 의해 얻은 후보 경로를 얻을 수 있다. 이와 같은 방식을 통해, 본 개시의 실시예에 따른 방법은 복수의 수직형 카테고리의 장면에 응용될 수 있을 뿐만 아니라, 범용적인 음성 인식 장면에 응용될 수도 있어, 본 실시예에 따른 방법의 로버스트성을 향상시킬 수 있다.
도 5는 본 개시의 실시예에 따른 언어 모델의 개략적인 구성도이다.
본 개시의 실시예에 의하면, 언어 모델에 제1 언어 서브모델과 병렬로 제3 언어 서브모델을 설치하여 출처가 서로 다른 음성 데이터와 텍스트 사이의 관계를 러닝할 수 있다. 본 실시예에서는, 제3 언어 서브모델에 의해 얻은 언어 확률 및 수직형 카테고리에 대한 언어 모델 브랜치에 의해 얻은 언어 확률을 병렬 옵션으로 하여 선별할 수 있다. 이렇게 함으로써, 본 실시예에 따른 언어 모델은 서로 다른 장면의 서로 다른 수직형 카테고리에 응용될 수 있고, 서로 다른 수직형 카테고리 및 서로 다른 장면에 대해 각각 트레이닝할 필요가 없으므로, 모델의 로버스트성을 향상시킬 수 있고, 모델의 트레이닝 코스트를 감소시킬 수 있다.
도 5에 도시된 바와 같이, 본 실시예(500)에 의하면, 언어 모델은 제1 언어 서브모델(510), 제2 언어 서브모델(520), 제약 서브모델(530) 및 제3 언어 서브모델(540)을 포함할 수 있다. 여기서, 제1 언어 서브모델(510), 제2 언어 서브모델(520) 및 제약 서브모델(530)은 앞에서 설명한 도 4의 대응하는 모델과 유사하므로, 여기서는 설명을 생략한다.
본 실시예(500)에 의하면, 제3 언어 서브모델(540)은 제1 언어 서브모델(510)과 유사하고, 해당 제3 언어 서브모델의 입력은 인식하고자 하는 음성 데이터의 출처를 나타내는 제2 식별 특징(503)과 텍스트 임베딩 특징(501)을 융합한 후의 특징이라는 점에서 차이가 있다.
이에 대응하여, 본 실시예에서는, 음성 인식을 실행할 때, 인식하고자 하는 음성 데이터의 출처를 나타내는 제2 식별 특징(503)을 확정할 수도 있다. 예를 들어, 사용자는 음성 인식 효과가 좋지 않다고 판단할 경우, 트레이닝 데이터를 제공할 수 있다. 본 실시예에 따른 방법은 사용자에게 식별자를 할당하고, 사용자가 제공한 트레이닝 데이터에 따라 제3 언어 서브모델을 트레이닝할 수 있다. 실제로 음성 인식을 실행할 때는, 인식하고자 하는 음성의 출처에 따라 사용자를 확정할 수 있고, 확정된 사용자에게 할당된 식별자를 인코딩함으로써, 제2 식별 특징을 얻을 수 있다. 이해할 수 있는 것은, 사용자는 음성 인식 기능을 구비한 다양한 클라이언트 애플리케이션일 수 있다. 제2 식별 특징은 클라이언트 애플리케이션의 명칭 등을 인코딩하여 얻을 수도 있으며, 본 개시는 이에 대해 한정하지 않는다.
본 실시예(500)에서는, 제2 식별 특징(503)을 얻은 후, 제3 언어 서브모델(540)을 사용하여 텍스트 임베딩 특징(501)과 제2 식별 특징(503)을 융합한 후의 특징을 처리할 수 있다. 제1 언어 서브모델에 의해 초기 언어 확률을 얻는 원리와 유사한 원리에 기초하여, 해당 제3 언어 서브모델(540)은 확률 분포를 출력할 수 있다. 해당 확률 분포 중의 확률값에 대해 대수를 취함으로써, 복수의 후보 텍스트 세그먼트 각각의 제3 언어 확률(506)을 얻을 수 있다.
이해할 수 있는 것은, 도 5에 도시된 바와 같이, 앞에서 설명한 제1 언어 서브모델과 유사하게, 본 실시예(500)에서 제3 언어 서브모델(540)은 제3 특징 추출 네트워크 및 제3 예측 네트워크를 포함할 수 있다. 본 실시예에서는, 텍스트 임베딩 특징(501)과 제2 식별 특징(503)을 융합한 후의 특징을 제3 특징 추출 네트워크(541)에 입력함으로써, 제3 암시적 표상을 얻을 수 있다. 그 다음, 제1 암시적 표상과 제3 암시적 표상을 융합하여 얻은 특징을 제3 예측 네트워크(542)에 입력하고, 제3 예측 네트워크(542)에 의해 확률 분포를 출력한다. 해당 확률 분포 중의 확률값에 대해 대수를 취함으로써, 복수의 후보 텍스트 세그먼트 각각의 제3 언어 확률(506)을 얻을 수 있다.
본 실시예에서는, 제3 언어 확률(506)을 얻은 후, 제3 언어 확률(506), 제1 언어 확률(504) 및 음향 확률에 따라 목표 텍스트 세그먼트를 확정할 수 있다. 그 원리는 앞에서 설명한 제1 언어 확률, 제2 언어 확률 및 음향 확률에 따라 목표 텍스트 세그먼트를 확정하는 원리와 유사하므로, 여기서는 설명을 생략한다.
일 실시예에 의하면, 본 실시예(500)에서는, 제2 언어 서브모델(520)에 의해 제2 언어 확률(505)을 얻은 후, 제1 언어 확률(504), 제2 언어 확률(505), 제3 언어 확률(506) 및 음향 확률에 따라 목표 텍스트 세그먼트를 확정할 수 있다. 그 원리는 앞에서 설명한 제1 언어 확률, 제2 언어 확률 및 음향 확률에 따라 목표 텍스트 세그먼트를 확정하는 원리와 유사하므로, 여기서는 설명을 생략한다.
이해할 수 있는 것은, 언어 모델은 시퀀스 모델이며, 인식하고자 하는 음성을 인식할 경우, 언어 모델 중 제1 언어 서브모델의 초기 입력에는 P개의 특징이 포함되는데, 해당 P개의 특징은 텍스트 시작 식별자<SOS>의 임베딩 특징에 P개의 소정의 수직형 카테고리의 식별 특징을 각각 가산하여 얻은 것이다. 제2 언어 서브모델의 초기 입력은 텍스트 시작 식별자<SOS>의 임베딩 특징이다. 제3 언어 서브모델의 초기 입력은 텍스트 시작 식별자<SOS>의 임베딩 특징과 인식하고자 하는 음성의 출처를 나타내는 제2 식별 특징을 가산하여 얻은 특징이다. 언어 모델의 처리를 거쳐, (P+2)*N개의 확률값을 얻을 수 있고, 이는 (P+2)*N개의 확장 경로에 대응한다. 본 실시예에서는, 이와 같은 (P+2)*N개의 확장 경로로부터 총 확률값이 높은 M개의 경로를 선택할 수 있다. 이렇게 함으로써, 두번째 디코딩에서, 이미 인식하여 얻은 제1 텍스트 세그먼트는 M개의 텍스트 세그먼트를 포함하게 되고, 해당 M개의 텍스트 세그먼트는 텍스트 시작 식별자<SOS>와 해당 총 확률값이 높은 M개의 경로에 대응하는 텍스트 세그먼트를 각각 조합하여 얻은 것이다. 그 다음, 해당 M개의 텍스트 세그먼트를 각각 제2 언어 서브모델에 입력하여 M*N개의 확장 경로를 얻고, 해당 M개의 텍스트 세그먼트를 각각 총 확률값이 높은 M개의 경로에 대응하는 수직형 카테고리의 식별 특징과 융합한 후 제1 언어 서브모델에 입력하여 M*N개의 확장 경로를 얻는다. 해당 M개의 텍스트 세그먼트를 각각 제2 식별 특징과 융합한 후 제3 언어 서브모델에 입력하여 M*N개의 확장 경로를 얻음으로써, 총 3M*N개의 확장 경로를 얻는다. 그 다음, 해당 3M*N개의 확장 경로로부터 총 확률값이 높은 M개의 경로를 선택한다. 이와 동일하게, 선별하여 얻은 M개의 경로 전부에 텍스트 종료 식별자<EOS>가 포함되거나, 또는, 선별된 M개의 경로의 텍스트 세그먼트의 길이가 모두 길이 임계치에 도달할 때까지 여려번의 디코딩을 실행한다. 마지막으로, 총 확률값이 가장 높은 경로에 대응하는 텍스트 시퀀스를 인식하고자 하는 음성 데이터를 인식하여 얻은 텍스트 시퀀스로 한다. 이해할 수 있는 것은, 제i 번째 디코딩에서, 선별된 경로에 포함되는 텍스트 세그먼트의 수는 (i+1)이고, 해당 텍스트 세그먼트에는 텍스트 시작 식별자<SOS>가 포함된다.
이하, 상기 동작 S250의 실시에 대해 더 확장하고 한정할 것이다.
본 개시의 실시예에 의하면, 닫힌 집합의 인식 작업에 대해, 예를 들어, 해당 닫힌 집합의 인식 작업을 위해 설정한 텍스트 집합에 따라 소정의 텍스트 리스트를 설정할 수 있다. 목표 텍스트 세그먼트를 확정할 때, 소정의 텍스트 리스트에 따라 복수의 후보 텍스트 세그먼트로부터 목표 텍스트 세그먼트를 선택한다. 이렇게 함으로써, 인식하여 얻은 텍스트 시퀀스에 의해 구성된 텍스트가 닫힌 집합의 인식 작업을 위해 설정한 텍스트 집합에 속하도록 하여, 본 실시예에 따른 방법으로 하여금 닫힌 집합 내의 어느 텍스트를 강제로 인식하는 능력을 가지도록 할 수 있다. 닫힌 집합의 인식 작업이 스마트 스피커 음성 인식 작업일 경우, 본 실시예의 방법에 의하면, 인식하여 얻은 텍스트 시퀀스에 포함된 노래 제목, 가수 이름 등이 이미 존재하는 노래 제목, 가수 이름이도록 보장할 수 있어, 인식 결과에 따라 사용자에게 실제 수요에 맞는 음악을 재생하는데 유리하다.
본 실시예에 의하면, 복수의 후보 텍스트 세그먼트는 예를 들어 후보 문자를 나타내는 복수의 제1 후보 세그먼트를 포함할 수 있고, 후보 문자는 실제 수요에 따라 설정할 수 있으며, 본 개시는 이에 대해 한정하지 않는다. 본 실시예에서는, 목표 텍스트 세그먼트를 확정할 때, 우선 제1 텍스트 세그먼트에 따라 소정의 텍스트 리스트를 조회하고, 조회 결과에 따라 복수의 제1 후보 세그먼트 중의 제1 지정 세그먼트를 확정할 수 있다. 예를 들어, 소정의 텍스트 리스트를 조회하여, 소정의 텍스트 리스트 중 해당 제1 텍스트 세그먼트를 포함하는 텍스트를 확정하여, 제1 텍스트로 할 수 있다. 예를 들어, 텍스트 집합에 '가수A의 노래 a를 재생해주세요' 라는 텍스트가 포함되어 있고, 제1 텍스트 세그먼트가 '해주세요'이라고 설정하면, '가수A의 노래 a를 재생해주세요'라는 텍스트를 제1 텍스트로 확정할 수 있다. 그 다음, 본 실시예에서는, 해당 제1 텍스트 중 제1 텍스트 세그먼트 이후의 단어 '재생'을 제1 지정 세그먼트로 할 수 있다. 즉, 해당 제1 지정 세그먼트와 제1 텍스트 세그먼트가 접합하여 얻어지는 텍스트는 해당 소정의 텍스트 리스트에 속하는 텍스트다.
본 실시예에서는, 제1 지정 세그먼트를 얻은 후, 해당 제1 지정 세그먼트의 제1 언어 확률 및 음향 확률에 따라, 복수의 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정할 수 있다. 예를 들어, 본 실시예에서는, 제1 지정 세그먼트의 제1 언어 확률의 대수 값과 음향 확률의 대수 값을 가산할 수 있다. 가산하여 얻은 값을 제1 텍스트 세그먼트에 대한 제1 지정 세그먼트의 확률값으로 한다. 본 실시예에서는, 제1 텍스트 세그먼트가 단 하나일 경우, 제1 텍스트 세그먼트에 대한 확률값이 비교적 큰 M개의 제1 지정 세그먼트를 목표 텍스트 세그먼트로 할 수 있다. 제1 텍스트 세그먼트가 복수개인 경우, 우선 복수의 제1 텍스트 세그먼트로부터 제1 지정 세그먼트와 접합하여 얻어지는 텍스트가 소정의 텍스트 리스트에 속하는 제2 텍스트 세그먼트를 선택하고, 제2 텍스트 세그먼트에 대한 제1 지정 세그먼트의 확률값과 해당 제2 텍스트 세그먼트의 확률값을 곱셈하여, 제1 지정 세그먼트와 제2 텍스트 세그먼트를 접합하여 얻어지는 텍스트에 대한 확률값을 얻을 수 있다. 마지막으로, 본 실시예에서는, 확률값이 가장 높은 M개의 텍스트 중의 제1 지정 세그먼트를 목표 텍스트 세그먼트로 할 수 있다.
일 실시예에 의하면, 예를 들어, 소정의 텍스트 리스트 중의 각 텍스트에 대해 인식 가중치를 설정할 수 있고, 해당 인식 가중치는 인식의 난이도에 따라 확정될 수 있다. 예를 들어, 인식 가중치는 인식의 난이도와 포지티브 상관관계일 수 있다. 이와 같은 경우, 목표 텍스트 세그먼트를 확정할 때, 해당 인식 가중치에 따라 후보 텍스트 세그먼트를 선별할 수 있으며, 이는 음성 인식 방법을 통해 인식 난이도가 높은 텍스트를 인식하는데 유리하고, 난이도가 높은 텍스트에 대한 음성 인식 방법의 인식 능력을 강화할 수 있다. 이해할 수 있는 것은, 인식 가중치는 예를 들어 실제 수요에 따라 설정하고 수정할 수 있으며, 본 개시는 이에 대해 한정하지 않는다.
도 6은 본 개시의 제1 실시예에 따른 목표 텍스트 세그먼트를 확정하는 개략적인 원리도이다.
도 6에 도시된 바와 같이, 본 실시예(600)에 의하면, 목표 텍스트 세그먼트를 확정할 때, 우선 제1 텍스트 세그먼트(601)에 따라 소정의 텍스트 리스트(602)를 조회하고, 소정의 텍스트 리스트(602) 중 해당 제1 텍스트 세그먼트(601)를 포함하는 텍스트를 확정하여, 제1 텍스트(603)로 할 수 있다. 본 실시예에서는, 복수의 제1 후보 세그먼트에 속하고, 해당 제1 텍스트(603)에서 제1 텍스트 세그먼트(601) 뒤에 위치하는 텍스트 세그먼트를 제1 지정 세그먼트(604)로 할 수 있다.
그 다음, 본 실시예에서는, 제1 텍스트 세그먼트(601)와 제1 지정 세그먼트(604)를 접합한 텍스트를 확정하여 접합후의 텍스트(605)로 하고, 제1 텍스트(603) 중 해당 접합후의 텍스트를 포함하는 부분을 제1 목표 텍스트(606)로 할 수 있다. 마지막으로, 본 실시예에서는, 제1 목표 텍스트(606)의 인식 가중치, 제1 지정 세그먼트(604)의 제1 언어 확률 및 제1 지정 세그먼트(604)의 음향 확률에 따라 목표 텍스트 세그먼트를 확정할 수 있다. 예를 들어, 제1 목표 텍스트(606)의 인식 가중치, 제1 지정 세그먼트(604)의 제1 언어 확률 및 제1 지정 세그먼트(604)의 음향 확률의 대수를 가산하여, 제1 텍스트 세그먼트(601)에 대한 해당 제1 지정 세그먼트(604)의 확률값으로 할 수 있고, 그 다음 해당 확률값에 따라, 확정한 제1 지정 세그먼트(604)로부터 목표 텍스트 세그먼트를 선별할 수 있다.
본 개시의 실시예에 의하면, 소정의 텍스트 리스트에서 예를 들어 템플릿(template)의 형태로 소정의 텍스트를 나타내고, 소정의 텍스트 중의 엔티티 타입의 텍스트 세그먼트 등을 슬롯으로 나타내고, 소정의 텍스트 리스트에 슬롯에 대응하는 엔티티 타입에 포함될 수 있는 엔티티를 나열할 수 있으며, 이렇게 함으로써 음성 인식에 대해 세분화된 경로 관리를 진행하는데 유리하고, 음성 인식의 정밀도를 향상시키는데 유리하다. 여기서, 엔티티 타입의 텍스트 세그먼트는 예를 들어 노래 제목, 가수 이름, 관심사 명칭 등을 나타내는 텍스트 세그먼트를 포함할 수 있고, 서로 다른 유형의 엔티티는 하나의 슬롯에 대응한다. 예를 들어, 노래 제목 카테고리의 엔티티에 대응하는 슬롯은 [song], 가수 이름 카테고리의 엔티티에 대응하는 슬롯은 [singer], 관심사 명칭 카테고리의 엔티티에 대응하는 슬롯은 [POI] 등이다.
이에 대응하여, 본 실시예에서는, 큰 그림(figure)으로 작은 이미지를 커버하는 디코딩 방법을 사용하여 텍스트 시퀀스를 예측하여 얻을 수 있다. 여기서, 큰 그림은 텍스트 템플릿에 대응하고, 작은 그림은 슬롯에 대응한다. 제1 텍스트 세그먼트 뒤의 텍스트 세그먼트가 하나의 슬롯이 나타내는 엔티티일 경우, 본 실시예에서는, 해당 슬롯의 식별 특징에 따라 슬롯이 나타내는 엔티티를 예측함으로써, 언어 모델이 서로 다른 슬롯에 대해 예측하도록 할 수 있어, 예측을 통해 얻은 목표 텍스트 세그먼트의 정밀도를 향상시키는데 유리하다. 이는 슬롯의 식별 특징을 고려함으로써, 언어 모델로 하여금 서로 다른 슬롯과 예측하여 얻어지는 텍스트 세그먼트 사이의 매핑 관계를 러닝하도록 할 수 있기 때문이다.
이하, 도 7을 참조하여 본 실시예에서 목표 텍스트 세그먼트를 확정하는 원리에 대해 상세하게 설명하기로 한다.
도 7은 본 개시의 제2 실시예에 따른 목표 텍스트 세그먼트를 확정하는 개략적인 원리도이다.
도 7에 도시된 바와 같이, 본 실시예(700)에 의하면, 복수의 후보 텍스트 세그먼트에는 후보 문자를 나타내는 복수의 제1 후보 세그먼트를 포함하는 외에, 후보 슬롯을 나타내는 복수의 제2 후보 세그먼트를 더 포함한다. 여기서, 후보 슬롯은 실제 수요에 따라 설정할 수 있는데, 예를 들어, 실제 장면에서의 엔티티의 카테고리에 따라 후보 슬롯을 설정할 수 있으며, 각 카테고리의 엔티티는 하나의 후보 슬롯에 대응한다. 해당 후보 슬롯 중 각 카테고리의 엔티티에 대응하는 슬롯은 입력 슬롯으로 이해할 수 있고, 예측 과정에서는, 엔티티에 대한 예측이 완성되었음을 나타내기 위한 출력 슬롯을 더 설정할 수 있다.
본 실시예(700)에 의하면, 언어 모델을 사용하여 제1 언어 확률을 얻은 후, 예를 들어 상기 소정의 텍스트 리스트에 따라 제1 지정 세그먼트를 확정하는 것과 유사한 방법을 통해, 우선 소정의 텍스트 리스트(702)에 따라 입력 슬롯(701) 중 해당 소정의 텍스트 리스트(702)에 속하는 목표 슬롯(703)을 확정할 수 있다. 이와 같은 방식을 통해, 닫힌 집합의 텍스트를 인식할 수 없는 입력 슬롯을 필터링할 수 있다. 구체적으로는, 상술한 바와 같이, 소정의 텍스트 리스트 중의 텍스트는 문자 및 슬롯으로 구성되고, 슬롯에 대응하는 위치는 소정의 텍스트 중 엔티티가 있는 위치이다. 본 실시예에서는, 소정의 텍스트 리스트 중 텍스트를 구성하는 슬롯을 입력 슬롯(701)과 비교함으로써, 목표 슬롯(703)을 얻을 수 있다.
그 다음, 본 실시예에서는, 언어 모델(710)을 사용하여 해당 목표 슬롯(703)의 제3 식별 특징(704) 및 텍스트의 시작 식별자<SOS>(705)에 따라 얻은 특징을 처리하여, 복수의 제1 후보 세그먼트의 제4 언어 확률을 얻을 수 있다. 해당 제4 언어 확률은 각 후보 문자가 목표 슬롯(703) 중의 세그먼트에 속하는 확률을 나타낼 수 있다. 이 부분은 작은 그림으로 넘어가 디코딩하는 과정으로서, 해당 디코딩 과정에서는 텍스트의 시작 식별자의 임베딩 특징을 사용하여 제1 텍스트 세그먼트의 텍스트 임베딩 특징을 대체하고, 목표 슬롯(703)의 제3 식별 특징(704)을 사용하여 제1 텍스트 세그먼트가 속하는 수직형 카테고리의 제1 식별 특징을 대체한다. 구체적으로, 본 실시예에서는, 우선 목표 슬롯(703)의 제3 식별 특징(704)을 확정할 수 있고, 해당 제3 식별 특징(704)은 목표 슬롯(703)을 위해 할당한 식별자를 인코딩하여 얻을 수 있다. 이와 동시에, 시작 식별자<SOS>(705)를 인코딩하여, 시작 식별자 인코딩 특징을 얻을 수 있다. 그 다음, 해당 제3 식별 특징(704)과 시작 식별자 인코딩 특징을 가산하여, 해당 목표 슬롯(703)의 제3 식별 특징(704) 및 텍스트의 시작 식별자<SOS>(705)에 따라 얻은 특징을 얻을 수 있으며, 해당 특징은 언어 모델(710)의 제1 언어 서브모델 및 제약 서브모델의 입력으로 할 수 있다. 앞에서 설명한 제1 언어 확률을 얻는 원리와 유사한 원리를 통해, 목표 슬롯에 대한 제1 후보 세그먼트의 제4 언어 확률(706)을 얻는다.
본 실시예에서는, 제4 언어 확률(706)을 얻은 후, 제4 언어 확률(706), 제1 언어 확률 및 음향 확률에 따라, 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정할 수 있다. 예를 들어, 본 실시예에서는 목표 슬롯의 개수를 Q개로 설정하고, 각 목표 슬롯에 대해 해당 각 목표 슬롯의 제3 식별 특징에 기초하여 얻은 제4 언어 확률 및 해당 각 목표 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률에 따라, 복수의 제1 후보 세그먼트가 해당 각 목표 슬롯 중의 텍스트 세그먼트인 확률을 확정할 수 있다. 예를 들어, 각 제1 후보 세그먼트의 제4 언어 확률과 해당 각 목표 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률을 곱셈하여, 해당 각 제1 후보 세그먼트가 해당 각 목표 슬롯 중의 텍스트 세그먼트인 확률로 할 수 있다. 복수의 제1 후보 세그먼트가 N'개라고 설정하면, 각 목표 슬롯에 대해 N'개의 확률을 얻을 수 있고, Q개의 목표 슬롯에 대해서는 총 Q*N'개의 확률을 얻을 수 있다. 본 실시예에서는 해당 Q*N'개의 확률 및 N'개의 제1 후보 세그먼트의 제1 언어 확률에 의해 확률 집합을 구성할 수 있는데, 해당 확률 집합은 총 (Q+1)*N'개의 확률을 포함하게 된다.
본 실시예(700)에 의하면, 예를 들어, (Q+1)*N'개의 확률의 대수 값을 각각 대응하는 제1 후보 세그먼트의 음향 확률의 대수 값과 가산하여, (Q+1)*N'개의 확장 확률을 얻을 수 있다. 본 실시예에서는 해당 (Q+1)*N'개의 확장 확률에 따라, (Q+1)*N'개의 확장 확률에 대응하는 (Q+1)*N'개의 경로로부터 M개의 경로를 선택하여, M개의 경로 중 마지막 위치에 대응하는 텍스트 세그먼트를 목표 텍스트 세그먼트로 할 수 있다.
본 개시의 실시예에 의하면, 출력 슬롯의 경우, 입력 슬롯의 경우와 유사한 방식을 통해 목표 텍스트 세그먼트를 확정할 수 있다. 차이점은, 출력 슬롯의 경우, 언어 모델(710)에 입력되는 특징 중 제1 텍스트 세그먼트의 텍스트 임베딩 특징을 대체하는 것은 선택한 슬롯의 식별 특징, 구체적으로는, 제1 텍스트 세그먼트 중 마지막 위치의 텍스트 세그먼트에 대응하는 슬롯의 제4 식별 특징이라는 것에 있다. 제1 식별 특징은 제1 텍스트 세그먼트가 속하는 수직형 카테고리의 식별 특징이어야 한다. 본 실시예에서는 제4 식별 특징과 제1 식별 특징을 융합하여 제2 융합 특징을 얻을 수 있다. 해당 제2 융합 특징을 언어 모델의 입력으로 하여, 언어 모델의 처리를 통해 출력 슬롯에 대한 복수의 제1 후보 세그먼트의 제5 언어 확률을 얻을 수 있다. 마지막으로, 본 실시예에서는 해당 제5 언어 확률, 제1 언어 확률 및 음향 확률에 따라, 복수의 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정할 수 있다.
예를 들어, 본 실시예에서는 앞에서 설명한 방법을 사용하여 Q개의 목표 슬롯에 대해 총 Q*N'개의 확률을 얻을 수 있다. 본 실시예에서는, 출력 슬롯을 나타내는 제2 텍스트 세그먼트의 제1 언어 확률을 출력 슬롯에 대한 각 제1 후보 세그먼트의 제5 언어 확률을 곱셈하여, 해당 각 제1 후보 세그먼트가 슬롯으로부터 출력된 후의 첫번째 텍스트 세그먼트인 확률로 할 수 있으며, N'개의 제1 후보 세그먼트에 대해, 총 N'개의 확률을 얻을 수 있다. 본 실시예에서는, 얻은 Q*N'개의 확률, N'개의 제1 후보 세그먼트가 슬롯으로부터 출력된 후의 첫번째 텍스트 세그먼트인 N'개의 확률 및 N'개의 제1 후보 세그먼트의 N'개의 제1 언어 확률에 의해 확률 집합을 구성할 수 있는데, 해당 확률 집합은 총 (Q+2)*N'개의 확률을 포함하게 된다.
그 다음, 본 실시예에서는 (Q+2)*N'개의 확률의 대수 값을 각각 대응하는 제1 후보 세그먼트의 음향 확률의 대수 값과 가산하여, (Q+2)*N'개의 확장 확률을 얻을 수 있다. 본 실시예에서는 해당 (Q+2)*N'개의 확장 확률에 따라, (Q+2)*N'개의 확장 확률에 대응하는 (Q+2)*N'개의 경로로부터 M개의 경로를 선택하여, M개의 경로 중 마지막 위치에 대응하는 텍스트 세그먼트를 목표 텍스트 세그먼트로 할 수 있다.
본 개시의 실시예에 의하면, 목표 슬롯(703)을 확정할 때, 예를 들어 입력 슬롯 중 소정의 텍스트 리스트에 속하는 슬롯을 초기 슬롯으로 할 수 있다. 그 다음, 초기 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률을 복수의 제1 후보 세그먼트의 제1 언어 확률과 비교하여, 확률값이 상대적으로 큰 제2 후보 세그먼트가 나타내는 초기 슬롯을 목표 슬롯으로 한다. 예를 들어, 본 실시예에서는 우선 복수의 제1 후보 세그먼트의 제1 언어 확률 중 값이 상대적으로 큰 소정의 수의 확률을 확정하고, 그 다음 초기 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률을 소정의 수의 확률 중 최소 확률과 비교하여, 어느 초기 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률이 최소 확률보다 높거나 또는 최소 확률보다 낮고, 또한, 최소 확률과의 차의 절대값이 제1 소정의 임계치보다 작거나 같을 경우, 해당 초기 슬롯을 목표 슬롯으로 확정할 수 있다. 또는, 본 실시예에서는, 초기 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률을 복수의 제1 후보 세그먼트의 제1 언어 확률 중 최대 확률과 비교하여, 이들의 차의 절대값이 제2 소정의 임계치보다 작을 경우, 초기 슬롯을 목표 슬롯으로 확정할 수 있다. 이해할 수 있는 것은, 상기와 같이 차이에 따라 목표 슬롯을 확정하는 방법은 단지 본 개시를 쉽게 이해할 수 있도록 하기 위한 예시에 지나지 않으며, 본 개시는 이에 대해 한정하지 않는다.
본 개시의 실시예에서는, 복수의 제1 후보 세그먼트의 제1 언어 확률과의 차이에 따라 목표 슬롯을 확정함으로써, 입력 슬롯에 대해 재차 선별하여, 확장될 확률이 낮은 슬롯을 제거함으로써, 예측의 정밀도를 보장함과 동시에 계산량을 감소시키고, 디코딩하여 목표 텍스트 세그먼트를 얻는 계산 효율을 향상시킬 수 있다.
도 8은 본 개시의 제3 실시예에 따른 목표 텍스트 세그먼트를 확정하는 개략적인 원리도이다.
본 개시의 실시예들에 의하면, 작은 그림으로 넘어가 디코딩할 때, 예를 들어 소정의 텍스트 리스트에서 텍스트에 할당된 인식 가중치와 결합하여, 목표 텍스트 세그먼트를 선별할 수도 있다. 이렇게 함으로써, 음성 인식 방법을 통해 인식 난이도가 높은 텍스트를 인식하는데 유리하고, 난이도가 높은 텍스트에 대한 음성 인식 방법의 인식 능력을 강화할 수 있다.
예를 들어, 앞에서 설명한 제4 언어 확률을 얻은 후, 또는 임의의 타이밍에, 제1 텍스트 세그먼트에 따라 소정의 텍스트 리스트를 조회하여, 제2 목표 텍스트 및 복수의 제1 후보 세그먼트 중의 제2 지정 세그먼트를 얻는다. 구체적으로는, 우선 제1 텍스트 세그먼트와 각 제1 후보 세그먼트에 대응하는 슬롯을 나타내는 제2 후보 세그먼트를 접합하여, 복수의 접합후의 텍스트를 얻을 수 있다. 그 다음, 접합후의 텍스트에 따라 소정의 텍스트 리스트를 조회하여, 복수의 접합후의 텍스트 중 임의의 텍스트를 포함하는 소정의 텍스트를 제2 목표 텍스트로 확정하고, 임의의 텍스트에 포함된 슬롯에 대응하는 제1 후보 세그먼트를 제2 지정 세그먼트로 한다. 설명의 편의를 위해, 본 실시예에서는 제2 지시 세그먼트에 대응하는 슬롯을 나타내는 제2 후보 세그먼트를 목표 후보 세그먼트로 할 수 있다.
그 다음, 본 실시예에서는 제2 목표 텍스트의 인식 가중치 및 목표 후보 세그먼트의 제1 언어 확률에 따라, 목표 후보 세그먼트의 초기 확률을 확정할 수 있다. 예를 들어, 제2 목표 텍스트의 인식 가중치를 목표 후보 세그먼트의 제1 언어 확률과 곱셈하고, 그 곱셈 결과를 초기 확률로 할 수 있다. 또는, 제2 목표 텍스트의 인식 가중치의 대수 값을 목표 후보 세그먼트의 제1 언어 확률의 대수 값과 가산하여, 초기 확률을 얻을 수도 있으며, 본 개시는 이에 대해 한정하지 않는다.
본 실시예에서는, 초기 확률을 얻은 후, 초기 확률 및 제2 지정 세그먼트의 제4 언어 확률에 따라, 해당 제2 지정 세그먼트가 목표 슬롯 중 첫번째 텍스트 세그먼트인 확률을 확정할 수 있는데, 예를 들어, 초기 확률의 대수 값과 제2 지정 세그먼트의 제4 언어 확률의 대수 값을 가산하여, 제2 지정 세그먼트가 목표 슬롯 중 첫번째 텍스트 세그먼트인 확률을 얻을 수 있다. 해당 확률은 앞에서 설명한 Q*N'개의 확률 중 대응하는 확률을 대체할 수 있다.
이하, 도 8을 참조하여, 일 실시예를 통해 본 개시의 실시예에서 디코딩을 통해 목표 텍스트 세그먼트를 얻는 원리를 상세하게 설명하기로 한다.
도 8에 도시된 바와 같이, 본 실시예(800)에 의하면, 빔 검색의 방식을 통해 디코딩함으로써 텍스트 시퀀스를 얻을 때, beam을 M으로 설정하게 되면, 첫번째 순환을 제외한 디코딩 과정에서의 각 순환에서 제1 텍스트 세그먼트의 수는 M개이다. 후보 문자의 개수가 N'개이고, 후보 슬롯에 Q'개의 입력 슬롯 및 하나의 출력 슬롯을 포함한다고 설정한다. 본 실시예에서는, M개의 제1 텍스트 세그먼트 중의 텍스트 세그먼트(801)에 대해, 음향 모델(810)을 사용하여 N'개의 음향 확률(802)을 얻을 수 있다. 언어 모델(820)을 사용하여, N'개의 후보 문자에 각각 대응하는 N'개의 언어 확률, Q'개의 입력 슬롯에 각각 대응하는 슬롯 입력 확률, 및 출력 슬롯에 대응하는 슬롯 출력 확률을 얻을 수 있고, 총 (N'+Q'+1)개의 언어 확률(803)을 얻을 수 있다.
이와 동시에, 본 실시예에서는 텍스트 세그먼트(801)에 따라 소정의 텍스트 리스트(830)를 조회하여, 정보(804)를 얻을 수 있고, 해당 정보(804)는 앞에서 설명한 제1 목표 텍스트 및 그 인식 가중치w1, 그리고 앞에서 설명한 제2 목표 텍스트 및 그 인식 가중치w2를 포함할 수 있다. 본 실시예에서는 조회하여 얻은 정보(804)에 따라 예측하여 얻은 언어 확률에 대응하는 텍스트 세그먼트를 선별함으로써, 확장 가능한 문자(805), 앞에서 설명한 목표 슬롯(806) 및 출력 슬롯(807)을 얻을 수 있다. 이해할 수 있는 것은, 확장 가능한 문자는 앞에서 설명한 제1 지정 세그먼트일 수 있다. 출력 슬롯(807)의 슬롯 출력 확률이 목표 슬롯 및 확장 가능한 문자의 확률보다 훨씬 작을 경우, 출력 슬롯을 제거하여도 괸찮다. 여기서, 확장 가능한 문자(805)의 확장 확률은 확장 가능한 문자의 음향 확률의 대수 값, 확장 가능한 문자의 언어 확률의 대수 값 및 확장 가능한 문자에 대응하는 제1 목표 텍스트의 인식 가중치w1의 합으로 표시할 수 있다. 목표 슬롯(806)의 확장 가능한 초기 확률은 목표 슬롯(806)의 슬롯 입력 확률의 대수 값 및 목표 슬롯에 대응하는 제2 목표 텍스트의 인식 가중치w2의 합으로 표시할 수 있다. 출력 슬롯의 확장 초기 확률은 슬롯 출력 확률의 대수 값으로 표시한다.
본 실시예에서는, 확장 가능한 문자(805)를 후보 텍스트 세그먼트로 하여, 후보 텍스트 세그먼트와 텍스트 세그먼트(801)를 접합하고, 접합하여 얻은 텍스트를 텍스트 세그먼트(801)에 대한 제1 후보 풀(808)에 추가할 수 있다.
본 실시예에서는, 목표 슬롯에 대해 앞에서 설명한 것과 유사한 방법을 사용하여 텍스트 시작 식별자의 임베딩 특징 및 목표 슬롯의 식별자 특징을 언어 모델(820)에 입력하고, 작은 그림으로 넘어가 디코딩 동작을 실행함으로써, 앞에서 설명한 제4 언어 확률을 얻을 수 있다. 본 실시예에서는, 출력 슬롯에 대해 앞에서 설명한 것과 유사한 방법을 사용하여 제1 텍스트 세그먼트가 속하는 수직형 카테고리의 식별 특징 및 제1 텍스트 세그먼트 중 마지막 위치의 텍스트 세그먼트에 대응하는 슬롯의 식별 특징을 언어 모델(830)에 입력하고, 큰 그림으로 넘어가 디코딩 동작을 실행함으로써, 앞에서 설명한 제5 언어 확률을 얻을 수 있다. 그 다음, 본 실시예에서는, 소정의 텍스트 리스트를 조회하여, 리스트 중의 텍스트에 따라 제4 언어 확률 및 제5 언어 확률을 제약하고, 소정의 텍스트 리스트 중의 텍스트에 속하는 텍스트 세그먼트를 선별하여, 해당 텍스트 세그먼트와 텍스트 세그먼트(801)를 접합한 후 제1 후보 풀(808)에 추가할 수 있다.
유사한 원리에 기초하여, M개의 제1 텍스트 세그먼트들 중의 각 텍스트 세그먼트에 대해, M개의 후보 풀을 얻을 수 있다. 본 실시예에서는, M개의 후보 풀로부터 총 확률값이 가장 큰 M개의 후보 텍스트 세그먼트를 선택하여, 다음 순환에서의 M개의 제1 텍스트 세그먼트로 할 수 있다. 선택된 M개의 후보 텍스트 세그먼트 전부에 텍스트의 종료 식별자<EOS>가 포함되거나, 또는, M개의 후보 텍스트 세그먼트 중 텍스트 세그먼트의 수가 모두 소정의 수에 도달할 때까지 상기의 동작을 실행한다.
상술한 바와 같이, 본 개시의 실시예에 의하면, 단일 순환에서 통상적으로 언어 모델을 사용하여 2회의 계산을 실행하여야 한다. 계산 효율을 향상시키기 위해, 본 실시예에서는, 언어 모델을 사용하여 제1 목표 특징을 처리하는 횟수가 소정의 횟수에 도달하였을 경우, 언어 모델이 제1 대상 특징을 처리하여 얻은 언어 확률을 캐시에 저장해두어, 후속단계에서 호출할 수 있도록 한다. 이에 대응하여, 언어 모델을 사용하여 어느 목표 특징(예를 들어, 제2 목표 특징)을 처리할 필요가 있다고 확정될 경우, 우선 캐시를 조회하여, 캐시에 제2 목표 특징에 대한 언어 확률이 저장되어 있는지를 확인하고, 저장되어 있을 경우, 캐시로부터 해당 언어 확률을 직접 읽어내어, 언어 모델에 의한 제2 목표 특징에 대한 처리를 완성할 수 있고, 언어 모델을 사용하여 복잡한 계산을 진행할 필요가 없다.
이해할 수 있는 것은, 제1 목표 특징 및 제2 목표 특징은 제1 텍스트 세그먼트의 텍스트 임베딩 특징, 텍스트 임베딩 특징과 수직형 카테고리의 식별 특징을 융합한 후의 특징, 텍스트 임베딩 특징과 데이터 출처의 식별 특징을 융합한 후의 특징, 텍스트 임베딩 특징과 슬롯의 식별 특징을 융합한 후의 특징 중 임의의 하나의 특징을 포함할 수 있다. 즉, 해당 제1 목표 특징 및 제2 목표 특징은 앞에서 설명한 언어 모델의 히든층에 입력되는 임의의 특징일 수 있고, 본 개시는 이에 대해 한정하지 않는다.
일 실시예에 의하면, 그래픽 프로세서(GPU) 등의 고성능 프로세서를 사용하여 목표 텍스트 세그먼트를 확정하는 동작을 실행함으로써, M개의 제1 텍스트 세그먼트에 대한 계산 또는 목표 텍스트 세그먼트를 확정하는 과정에 관계되는 임의의 병행으로 실행가능한 계산들을 GPU 등에 의해 병행으로 실행하여, 디코딩 효율을 보다 향상시키고, 음성 인식 효율을 향상시킬 수 있다.
본 개시의 실시예에 의하면, 후보 슬롯에 대해 텍스트 세그먼트 테이블을 유지 관리할 수 있는데, 해당 후보 슬롯에 속하는 텍스트 세그먼트를 해당 텍스트 세그먼트 테이블에 추가할 수 있다. 본 실시예에서는, 인식을 통해 텍스트 시퀀스를 얻은 후, 예를 들어 텍스트 시퀀스에서 후보 슬롯에 속하는 슬롯 텍스트 세그먼트를 후보 슬롯의 텍스트 세그먼트 테이블의 텍스트 세그먼트와 비교할 수 있다. 구체적으로는, 텍스트 시퀀스에 후보 슬롯에 속하는 슬롯 텍스트 세그먼트가 포함되어 있는 것에 응답하여, 해당 슬롯 텍스트 세그먼트에 따라 후보 슬롯에 대한 텍스트 세그먼트 테이블을 조회할 수 있다. 슬롯 텍스트 세그먼트가 후보 슬롯에 대한 텍스트 세그먼트 테이블에 속하지 않을 경우, 해당 슬롯 텍스트 세그먼트를 슬롯에 대한 텍스트 세그먼트 테이블 중의 각 텍스트 세그먼트와 비교하여, 텍스트 세그먼트 테이블 중 슬롯 텍스트 세그먼트와의 유사도가 가장 높은 텍스트 세그먼트를 후보 세그먼트로 할 수 있다. 그 다음, 해당 후보 세그먼트를 사용하여 텍스트 시퀀스 중의 슬롯 텍스트 세그먼트를 대체하고, 대체된 후의 텍스트 세그먼트를 인식하고자 하는 음성 데이터에 대한 인식 결과로 한다.
이러한 방식을 통해, 텍스트 시퀀스 중 후보 슬롯에 있는 텍스트 세그먼트가 텍스트 세그먼트 테이블 중의 텍스트 세그먼트이도록 보장할 수 있고, 생성된 인식 결과 중의 텍스트 세그먼트가 합리적인 세그먼트이도록 확보할 수 있다. 예를 들어, 슬롯 텍스트 세그먼트가 'peng guo(朋果)'인 경우, 조회를 통해 'peng guo(朋果)'를 'ping guo()'로 대체함으로써, 생성된 인식 결과가 합리적이도록 하여, 인식 결과의 정밀도를 향상시킬 수 있다.
이하, 도 9를 참조하여, 언어 모델 중의 제약 서브모델을 트레이닝할 때 사용하는 샘플의 생성에 대해 확장하고 한정함으로써, 제약 서브모델로 하여금 닫힌 집합의 인식 작업 중 복수의 후보 텍스트 세그먼트 사이의 확장 가능 관계를 러닝할 수 있도록 하여, 작업의 완성 효과를 향상시키는데 유리하고, 다운 스트림 작업을 실시하는데 유리하도록 한다.
도 9는 본 개시의 실시예에 따른 제약 서브모델을 트레이닝하기 위한 네거티브 샘플의 개략적인 생성 원리도이다.
본 개시의 실시예에 의하면, 제약 서브모델을 트레이닝하는 샘플은 포지티브 샘플 및 네거티브 샘플을 포함할 수 있다. 여기서, 포지티브 샘플은 소정의 텍스트 집합 중의 텍스트를 포함할 수 있고, 네거티브 샘플은 소정의 텍스트 집합 중의 텍스트를 제외한 임의의 텍스트일 수 있다. 이와 같은 방식을 통해, 제약 서브모델에 의해 생성된 확장 가능 관계를 나타내는 벡터에 기초하여, 디코딩 과정에 소정의 텍스트 집합 중의 텍스트에 속하지 않는 텍스트 생성 경로를 클리핑할 수 있다.
일 실시예에 의하면, 복수의 후보 텍스트 세그먼트 중 소정의 텍스트 중의 목표 위치의 텍스트 세그먼트와 일치하지 않는 제2 텍스트 세그먼트에 따라, 소정의 텍스트 세그먼트를 조정하고, 조정된 텍스트를 네거티브 샘플로 할 수 있다. 여기서, 목표 위치는 소정의 텍스트 중의 임의의 위치일 수 있다. 이와 같은 방식을 통해 네거티브 샘플을 생성할 경우, 네거티브 샘플과 포지티브 샘플은 목표 위치에 있는 텍스트 세그먼트에서만 차이가 있으므로, 제약 서브모델의 러닝 능력을 향상시킬 수 있다.
예를 들어, 도 9에 도시된 바와 같이, 본 실시예(900)에 의하면, 소정의 텍스트 집합(910)으로부터 랜덤으로 하나의 소정의 텍스트를 추출하여, 포지티브 샘플(911)로 할 수 있다. 또한, 본 실시예에서는, 해당 추출된 소정의 텍스트 중 마지막 위치에 있는 소정의 개수의 텍스트 세그먼트를 제거할 수도 있는데, 이렇게 얻은 텍스트도 포지티브 샘플로 할 수 있다.
소정의 텍스트를 추출하여 얻은 후, 앞에서 설명한 제2 텍스트 세그먼트(920)를 사용하여 해당 소정의 텍스트 중 목표 위치의 텍스트 세그먼트를 대체함으로써, 네거티브 샘플(930)을 얻을 수 있다.
일 실시예에 의하면, 목표 위치는 예를 들어 소정의 텍스트 중의 마지막 위치일 수 있으며, 이렇게 함으로써, 네거티브 샘플과 포지티브 샘플로 하여금 동일한 프리픽스 트리를 가지도록 할 수 있고, 디코딩 과정에 마지막 순환에서 소정의 텍스트 집합 중의 텍스트에 속하지 않는 텍스트 생성 경로를 효과적으로 클리핑할 수 있다.
일 실시예에 의하면, 목표 위치는 임의의 위치일 수 있고, 본 실시예에서는, 제2 텍스트 세그먼트(920)를 사용하여 추출한 소정의 텍스트 중 목표 위치에 있는 텍스트 세그먼트를 대체한 후, 해당 소정의 텍스트에서 해당 목표 위치 이후에 위치한 텍스트 세그먼트를 제거함으로써, 네거티브 샘플을 얻을 수 있다.
본 실시예에서는, 목표 위치 이후의 텍스트 세그먼트를 제거하여 네거티브 샘플을 얻음으로써, 전부의 네거티브 샘플이 포지티브 샘플과 동일한 프리픽스를 가지도록 할 수 있다. 목표 위치를 임의의 위치로 선택함으로써, 제약 서브모델로 하여금 소정의 텍스트 중 임의의 2개의 텍스트 세그먼트 사이의 확장 가능 관계를 러닝하도록 할 수 있으므로, 디코딩 경로의 클리핑 정밀도 및 유효성을 향상시키는데 유리하다.
일 실시예에 의하면, 제2 텍스트 세그먼트를 사용하여 소정의 텍스트를 조정할 때, 예를 들어, 우선 제2 텍스트 세그먼트와 소정의 텍스트 중 목표 위치에 있는 텍스트 세그먼트 사이의 혼동 관계에 따라, 제2 텍스트 세그먼트 중 대체하고자 하는 세그먼트를 확정할 수 있다. 그 다음, 대체하고자 하는 세그먼트를 사용하여 소정의 텍스트 중 목표 위치에 있는 텍스트 세그먼트를 대체하고, 대체한 후의 텍스트를 네거티브 샘플로 할 수 있다. 이와 같은 방식을 통해, 생성된 네거티브 샘플은 소정의 텍스트(즉, 포지티브 샘플)와 혼동하기 쉬운 텍스트이도록 할 수 있으므로, 제약 서브모델의 판별 능력을 향상시키는데 유리하다. 또한, 본 실시예에서는, 대체하고자 하는 세그먼트에 대한 선택을 통해, 네거티브 샘플의 수 및 네거티브 샘플의 타깃성을 효과적으로 감소시킬 수 있으며, 제약 서브모델의 트레이닝 효율을 향상시키는데 유리하다.
여기서, 혼동 관계는 예를 들어 텍스트 세그먼트 사이의 텍스트 유사도, 음절 유사도 등으로 표시할 수 있고, 유사도가 높을수록 혼동하기 쉽다.
일 실시예에 의하면, 네거티브 샘플을 생성할 때, 예를 들어 우선 제2 텍스트 세그먼트를 사용하여 소정의 텍스트 중 목표 위치에 있는 텍스트 세그먼트를 대체하고, 대체하여 얻은 텍스트 세그먼트를 후보 샘플로 할 수 있다. 그 다음, 미리 트레이닝하여 얻은 앞에서 설명한 제1 언어 서브모델을 사용하여 각 후보 샘플을 처리하여, 제1 언어 서브모델이 해당 각 후보 샘플을 생성하는 언어 확률을 얻을 수 있으며, 해당 언어 확률은 각 후보 샘플 중 복수의 텍스트 세그먼트를 순차적으로 생성하는 복수의 언어 확률의 곱셈일 수 있다. 그 다음, 본 실시예에서는 해당 제6 언어 확률에 따라 후보 샘플을 선별하여, 제6 언어 확률이 확률 임계치보다 높은 후보 샘플을 네거티브 샘플로 할 수 있다. 또는, 제6 언어 확률이 비교적 높은 여러 개의 후보 샘플을 네거티브 샘플로 한다. 이와 같은 방식을 통해, 네거티브 샘플의 규모가 제어가능하도록 할 수 있고, 네거티브 샘플의 생성 경로가 제1 언어 서브모델이 디코딩하여 텍스트 시퀀스를 얻는 선택 가능한 경로이도록 보장할 수 있어, 제약 서브모델에 대해 타깃성 있는 트레이닝을 실행할 수 있으므로, 제약 서브모델의 트레이닝 효율 및 트레이닝을 통해 얻은 제약 서브모델의 정밀도를 향상시킬 수 있다.
일 실시예에 의하면, 제6 언어 확률 및 혼동 관계를 결합하여 네거티브 샘플의 규모를 제어할 수 있고, 이를 통해 제약 서브모델의 트레이닝 효율 및 트레이닝 효과를 향상시킬 수 있다.
본 개시에 의해 제공되는 음성 인식 방법에 기초하여, 본 개시는 음성 인식 장치를 더 제공한다. 이하, 도 10을 참조하여 해당 장치에 대해 상세하게 설명하기로 한다.
도 10은 본 개시의 실시예에 따른 음성 인식 장치의 구성 블록도이다.
도 10에 도시된 바와 같이, 본 실시예에 따른 음성 인식 장치(1000)는 음향 확률 취득모듈(1010), 초기 확률 취득모듈(1020), 확장 관계 취득모듈(1030), 확률 조정모듈(1040) 및 텍스트 확정모듈(1050)을 포함할 수 있다.
음향 확률 취득모듈(1010)은, 음향 모델을 사용하여 인식하고자 하는 음성 데이터 및 이미 인식하여 얻은 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 음향 확률을 얻기 위한 것이다. 일 실시예에 의하면, 음향 확률 취득모듈(1010)은 앞에서 설명한 동작 S210을 실행할 수 있으며, 여기서는 설명을 생략한다.
초기 확률 취득모듈(1020)은 언어 모델 중의 제1 언어 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻기 위한 것이다. 확장 관계 취득모듈(1030)은 언어 모델 중의 제약 서브모델을 사용하여 제1 텍스트 세그먼트를 처리하여, 제1 텍스트 세그먼트에 대한 복수의 후보 텍스트 세그먼트 각각의 확장 가능 관계를 얻기 위한 것이다. 확률 조정모듈(1040)은 확장 가능 관계에 따라, 후보 텍스트 세그먼트의 초기 언어 확률을 조정하여, 복수의 후보 텍스트 세그먼트 각각의 제1 언어 확률을 얻기 위한 것이다. 여기서, 제약 서브모델은 소정의 텍스트 집합 중의 텍스트에 기초하여 트레이닝하여 얻은 것이다. 일 실시예에 의하면, 초기 확률 취득모듈(1020), 확장 관계 취득모듈(1030) 및 확률 조정모듈(1040)은 각각 앞에서 설명한 동작 S220 내지 동작 S240을 실행할 수 있으며, 여기서는 설명을 생략한다.
텍스트 확정모듈(1050)은 제1 언어 확률 및 음향 확률에 따라, 복수의 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻기 위한 것이다. 일 실시예에 의하면, 텍스트 확정모듈(1050)은 앞에서 설명한 동작 S250을 실행할 수 있으며, 여기서는 설명을 생략한다.
본 개시의 실시예에 의하면, 상기 초기 확률 취득모듈(1020)은, 제1 텍스트 세그먼트에 대해 임베딩 처리를 실행하여, 텍스트 임베딩 특징을 얻기 위한 임베딩 처리 서브모듈, 제1 텍스트 세그먼트가 속하는 수직형 카테고리의 제1 식별 특징을 확정하기 위한 특징 확정 서브모듈, 및 제1 언어 서브모델을 사용하여 텍스트 임베딩 특징과 제1 식별 특징을 융합한 후의 특징을 처리하여, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻기 위한 제1 확률 확정 서브모듈을 포함할 수 있다.
본 개시의 실시예에 의하면, 언어 모델은 제1 언어 서브모델과 병렬로 설치되는 제2 언어 서브모델을 더 포함한다. 상기 장치는, 텍스트 임베딩 특징을 제2 언어 서브모델에 입력하여, 제1 텍스트 세그먼트의 제1 암시적 표상을 얻기 위한 암시적 표상 취득모듈을 더 포함한다. 상기 제1 언어 서브모델은 제1 특징 추출 네트워크 및 제1 예측 네트워크를 포함한다. 상기 제1 확률 확정 서브모듈은, 텍스트 임베딩 특징과 제1 식별 특징을 융합한 후의 특징을 제1 특징 추출 네트워크에 입력하여, 제2 암시적 표상을 얻기 위한 암시적 표상 취득 유닛, 및 제1 암시적 표상과 제2 암시적 표상을 융합하여 얻은 특징을 제1 예측 네트워크에 입력하여, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻기 위한 제1 확률 취득 유닛을 포함할 수 있다. 여기서, 제2 언어 서브모델은 복수의 소정의 수직형 카테고리의 샘플 텍스트를 사용하여 트레이닝하여 얻은 것이다.
본 개시의 실시예에 의하면, 상기 제2 언어 서브모델은 제2 특징 추출 네트워크 및 제2 예측 네트워크를 포함한다. 상기 암시적 표상 취득모듈은 텍스트 임베딩 특징을 제2 특징 추출 네트워크에 입력하여, 제2 암시적 표상을 얻기 위한 것이다. 상기 장치(1000)는, 제2 암시적 표상을 제2 예측 네트워크에 입력하여, 복수의 후보 텍스트 세그먼트 각각의 제2 언어 확률을 얻기 위한 제1 확률 취득모듈을 더 포함할 수 있다. 상기 텍스트 확정모듈(1050)은 제2 언어 확률, 제1 언어 확률 및 음향 확률에 따라, 목표 텍스트 세그먼트를 확정할 수도 있다.
본 개시의 실시예에 의하면, 언어 모델은 제1 언어 서브모델과 병렬로 설치되는 제3 언어 서브모델을 더 포함한다. 상기 장치(1000)는 인식하고자 하는 음성 데이터의 출처를 나타내는 제2 식별 특징을 확정하기 위한 식별 특징 확정모듈, 제3 언어 서브모델을 사용하여 텍스트 임베딩 특징과 제2 식별 특징을 융합한 후의 특징을 처리하여, 복수의 후보 텍스트 세그먼트 각각의 제3 언어 확률을 얻기 위한 제2 확률 취득모듈을 더 포함할 수 있다. 상기 텍스트 확정모듈(1050)은 제3 언어 확률, 제1 언어 확률 및 음향 확률에 따라, 목표 텍스트 세그먼트를 확정할 수도 있다.
본 개시의 실시예에 의하면, 제3 언어 서브모델은 제3 특징 추출 네트워크 및 제3 예측 네트워크를 포함한다. 상기 제2 확률 취득모듈은 텍스트 임베딩 특징과 제2 식별 특징을 융합한 후의 특징을 제3 특징 추출 네트워크에 입력하여, 제3 암시적 표상을 얻기 위한 암시적 표상 취득 서브모듈, 및 제1 암시적 표상과 제3 암시적 표상을 융합하여 얻은 특징을 제3 예측 네트워크에 입력하여, 복수의 후보 텍스트 세그먼트 각각의 제3 언어 확률을 얻기 위한 제1 확률 취득 서브모듈을 포함할 수 있다.
본 개시의 실시예에 의하면, 제1 텍스트 세그먼트가 텍스트의 시작 식별자인 경우, 제1 텍스트 세그먼트가 속하는 수직형 카테고리는 복수의 소정의 수직형 카테고리를 포함한다. 상기 제1 확률 확정 서브모듈은, 각 소정의 수직형 카테고리에 대해, 텍스트 임베딩 특징과 각 소정의 수직형 카테고리의 식별 특징을 융합하여, 제1 융합 특징을 얻기 위한 특징 융합 유닛, 및 제1 언어 서브모델을 사용하여 제1 융합 특징을 처리하여, 복수의 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻기 위한 제2 확률 취득 유닛을 포함할 수 있다.
본 개시의 실시예에 의하면, 복수의 후보 텍스트 세그먼트는 후보 문자를 나타내는 복수의 제1 후보 세그먼트를 포함한다. 상기 텍스트 확정모듈(1050)은 제1 텍스트 세그먼트에 따라 소정의 텍스트 리스트를 조회하여, 복수의 제1 후보 세그먼트 중의 제1 지정 세그먼트를 확정하기 위한 지정 세그먼트 확정 서브모듈, 및 제1 지정 세그먼트의 제1 언어 확률 및 음향 확률에 따라, 복수의 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정하기 위한 제1 세그먼트 확정 서브모듈을 포함할 수 있고, 제1 텍스트 세그먼트와 제1 지정 세그먼트를 접합하여 얻어지는 텍스트는 소정의 텍스트 리스트에 속한다.
본 개시의 실시예에 의하면, 소정의 텍스트 리스트에는 복수의 텍스트 및 복수의 텍스트 중 각 텍스트의 인식 가중치가 포함되고, 인식 가중치는 텍스트의 인식 난이도를 나타낸다. 상기 제1 세그먼트 확정 서브모듈은 소정의 텍스트 리스트 중 제1 텍스트 세그먼트와 제1 지정 세그먼트를 접합하여 얻은 텍스트가 속하는 제1 목표 텍스트를 확정하기 위한 제1 확정 유닛, 및 제1 목표 텍스트의 인식 가중치, 제1 지정 세그먼트의 제1 언어 확률 및 음향 확률에 따라, 복수의 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정하기 위한 제2 확정 유닛을 포함한다.
본 개시의 실시예에 의하면, 복수의 후보 텍스트 세그먼트는 후보 슬롯을 나타내는 복수의 제2 후보 세그먼트를 더 포함하고, 후보 슬롯은 입력 슬롯을 포함한다. 상기 텍스트 확정모듈(1050)은 입력 슬롯 중 소정의 텍스트 리스트에 속하는 목표 슬롯을 확정하기 위한 슬롯 확정 서브모듈, 언어 모델을 사용하여 목표 슬롯의 제3 식별 특징 및 텍스트의 시작 식별자에 따라 얻은 특징을 처리하여, 목표 슬롯에 대한 복수의 제1 후보 세그먼트 각각의 제4 언어 확률을 얻기 위한 제2 확률 확정 서브모듈, 및 제4 언어 확률, 제1 언어 확률 및 음향 확률에 따라, 복수의 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정하기 위한 제2 세그먼트 확정 서브모듈을 포함할 수 있다.
본 개시의 실시예에 의하면, 후보 슬롯은 출력 슬롯을 더 포함한다. 상기 텍스트 확정모듈(1050)은 제1 텍스트 세그먼트가 속하는 수직형 카테고리의 제1 식별 특징과 제1 텍스트 세그먼트 중 마지막 위치의 텍스트 세그먼트에 대응하는 슬롯의 제4 식별 특징을 융합하여, 제2 융합 특징을 얻기 위한 융합 서브모듈, 언어 모델을 사용하여 제2 융합 특징을 처리하여, 출력 슬롯에 대한 복수의 제1 후보 세그먼트 각각의 제5 언어 확률을 얻기 위한 제2 확률 확정 서브모듈, 및 제5 언어 확률, 제4 언어 확률, 제1 언어 확률 및 음향 확률에 따라, 복수의 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정하기 위한 제3 세그먼트 확정 서브모듈을 더 포함할 수 있다.
본 개시의 실시예에 의하면, 상기 슬롯 확정 서브모듈은 입력 슬롯 중 소정의 텍스트 리스트에 속하는 슬롯을 확정하여, 초기 슬롯을 얻기 위한 초기 슬롯 확정 유닛, 및 초기 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률과 복수의 제1 후보 세그먼트의 제1 언어 확률의 차이에 따라, 초기 슬롯 중의 목표 슬롯을 확정하기 위한 목표 슬롯 확정 유닛을 포함할 수 있다. 여기서, 목표 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률은 초기 슬롯 중 목표 슬롯을 제외한 다른 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률보다 크다.
본 개시의 실시예에 의하면, 상기 제2 세그먼트 확정 서브모듈은, 제1 텍스트 세그먼트에 따라 소정의 텍스트 리스트를 조회하여, 제2 목표 텍스트 및 복수의 제1 후보 세그먼트 중의 제2 지정 세그먼트를 얻기 위한 제3 확정 유닛, 제2 목표 텍스트의 인식 가중치 및 목표 후보 세그먼트의 제1 언어 확률에 따라, 목표 후보 세그먼트의 초기 확률을 얻기 위한 확률 확정 유닛, 및 초기 확률 및 제2 지정 세그먼트의 제4 언어 확률에 따라, 제2 지정 세그먼트 중의 목표 텍스트 세그먼트를 확정하기 위한 세그먼트 확정 유닛을 포함할 수 있고, 제1 텍스트 세그먼트와 제2 지정 세그먼트의 대응하는 목표 슬롯을 나타내는 목표 후보 세그먼트를 접합하여 얻은 텍스트는 제2 목표 텍스트에 속한다.
본 개시의 실시예에 의하면, 상기 장치(1000)는 텍스트 시퀀스에 후보 슬롯에 속하는 슬롯 텍스트 세그먼트를 포함되어 있는 것에 응답하여, 슬롯 텍스트 세그먼트에 따라 후보 슬롯에 대한 텍스트 세그먼트 테이블을 조회하기 위한 테이블 조회모듈, 슬롯 텍스트 세그먼트가 텍스트 세그먼트 테이블에 속하지 않는 것에 응답하여, 텍스트 세그먼트 테이블 중 슬롯 텍스트 세그먼트와의 유사도가 가장 높은 텍스트 세그먼트를 확정하여 후보 세그먼트로 하기 위한 후보 세그먼트 확정모듈, 및 후보 세그먼트를 사용하여 텍스트 시퀀스 중의 슬롯 텍스트 세그먼트를 대체하여, 인식하고자 하는 음성 데이터에 대한 인식 결과를 얻기 위한 인식 결과 취득모듈을 더 포함할 수 있다.
본 개시의 실시예에 의하면, 상기 장치(1000)는, 언어 모델을 사용하여 제1 목표 특징을 처리한 횟수가 소정의 횟수에 도달한 것에 응답하여, 언어 모델에 의해 제1 목표 특징을 처리하여 얻은 언어 확률을 캐시에 저장하기 위한 확률 저장모듈, 언어 모델을 사용하여 제2 목표 특징을 처리할 필요가 있는 것에 응답하여, 제2 목표 특징에 따라 캐시를 조회하기 위한 캐시 조회모듈, 및 캐시에 제2 목표 특징에 대한 언어 확률이 저장되어 있는 것에 응답하여, 캐시로부터 제2 목표 특징에 대한 언어 확률을 판독하여, 언어 모델에 의한 제2 목표 특징의 처리를 완성하기 위한 확률 판독모듈을 더 포함할 수 있고, 여기서, 제1 목표 특징 및 제2 목표 특징은, 제1 텍스트 세그먼트의 텍스트 임베딩 특징, 텍스트 임베딩 특징과 수직형 카테고리의 식별 특징을 융합한 후의 특징, 텍스트 임베딩 특징과 데이터의 출처의 식별 특징을 융합한 후의 특징, 텍스트 임베딩 특징과 슬롯의 식별 특징을 융합한 후의 특징 중 임의의 하나의 특징을 포함한다.
본 개시의 실시예에 의하면, 제1 언어 확률 및 음향 확률에 따라, 복수의 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 동작은 전자장비에 설치된 그래픽 프로세서에 의해 실행된다.
본 개시의 실시예에 의하면, 제약 서브모델을 트레이닝하는 샘플은 포지티브 샘플 및 네거티브 샘플을 포함하고, 여기서, 포지티브 샘플은 소정의 텍스트 집합 중의 텍스트를 포함한다. 상기 장치는, 복수의 후보 텍스트 세그먼트 중 소정의 텍스트 중의 목표 위치에 있는 텍스트 세그먼트와 일치하지 않는 제2 텍스트 세그먼트에 따라, 소정의 텍스트를 조정하여, 네거티브 샘플을 얻기 위한 네거티브 샘플 취득모듈을 더 포함한다.
본 개시의 실시예에 의하면, 상기 네거티브 샘플 취득모듈은, 제2 텍스트 세그먼트와 소정의 텍스트 중의 목표 위치에 있는 텍스트 세그먼트 사이의 혼동 관계에 따라, 제2 텍스트 세그먼트 중 대체하고자 하는 세그먼트를 확정하기 위한 제4 세그먼트 확정 서브모듈, 및 대체하고자 하는 세그먼트를 사용하여 소정의 텍스트 중의 목표 위치에 있는 텍스트 세그먼트를 대체하여, 네거티브 샘플을 얻기 위한 제1 대체 서브모듈을 포함한다.
본 개시의 실시예에 의하면, 상기 네거티브 샘플 취득모듈은, 제2 텍스트 세그먼트를 사용하여 소정의 텍스트 중의 목표 위치에 있는 텍스트 세그먼트를 대체하여, 후보 샘플을 얻기 위한 제2 대체 서브모듈, 후보 샘플 중의 각 샘플에 대해, 제1 언어 서브모델을 사용하여 처리하여, 각 샘플의 제6 언어 확률을 얻기 위한 제2 확률 취득 서브모듈, 및 제6 언어 확률에 따라 후보 샘플을 선별하여, 네거티브 샘플을 얻기 위한 샘플 선별 서브모듈을 포함한다.
본 개시의 실시예에 의하면, 상기 네거티브 샘플 취득모듈은, 제2 텍스트 세그먼트를 사용하여 소정의 텍스트 중의 목표 위치에 있는 텍스트 세그먼트를 대체하여, 초기 텍스트를 얻기 위한 제3 대체 서브모듈, 및 초기 텍스트 중 목표 위치 이후의 텍스트 세그먼트를 제거하여, 네거티브 샘플을 얻기 위한 세그먼트 제거 서브모듈을 포함할 수 있다.
지적해두어야 할 것은, 본 개시의 기술방안에 있어서, 관련되는 사용자 개인 정보의 수집, 저장, 응용, 가공, 전송, 제공, 공개 및 응용 등은 모두 관련 법률과 법규의 규정에 부합되고, 필요한 안전조치를 취하였으며, 공중도덕에 위배되지 않는다. 본 개시의 기술방안에 있어서, 사용자 개인 정보를 취득하거나 수집하기 전에, 이미 사용자의 승인 또는 허가를 얻은 상태이다.
본 개시의 실시예에 의하면, 본 개시는 전자장비, 컴퓨터 판독가능 저장매체 및 컴퓨터 프로그램 제품을 더 제공한다.
도 11은 본 개시의 실시예의 음성 인식 방법을 실시할 수 있는 예시적인 전자장비(1100)의 개략적인 블록도를 나타낸다. 전자장비는 예를 들어, 랩탑 컴퓨터, 데스크 탑 컴퓨터, 워크스테이션, PDA (Personal Digital Assistants), 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 포함할 수 있다. 전자장비는 예를 들어, PDA (Personal Digital Assistants), 셀룰러 전화기, 스마트 폰, 웨어러블 장비, 및 기타 유사한 계산 장비와 같은 다양한 형태의 모바일 장비를 포함할 수 있다. 본 명세서에 기재된 부품, 이들의 연결 및 관계, 그리고 이들의 기능은 단지 예시적인 것에 불과하며, 본 명세서에서 설명 및/또는 요구하는 본 개시의 범위를 한정하기 위한 것이 아니다.
도 11에 도시된 바와 같이, 장비(1100)는ROM(Read Only Memory)(1102)에 저장된 컴퓨터 프로그램 또는 저장수단(1108)으로부터 RAM(Random Access Memory)(1103)에 로딩된 컴퓨터 프로그램에 따라 각종 적당한 동작 및 처리를 실행할 수 있는 계산수단(1101)을 포함한다. 또한, RAM(1103)에는 장비(1100)의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. 계산수단(1101), ROM(1102) 및 RAM(1103)은 버스라인(1104)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(1105)도 버스라인(1104)에 연결된다.
장비(1100)중의 복수의 부품은 I/O 인터페이스(1105)에 연결되고, 상기 부품에는, 예를 들어 키보드, 마우스 등과 같은 입력수단(1106), 예를 들어 각종 유형의 디스플레이, 스피커 등과 같은 출력수단(1107), 예를 들어 자기 디스크, 광 디스크 등과 같은 저장수단(1108), 및 예를 들어 네트워크 카드, 모뎀, 무선 통신 송수신기 등과 같은 통신수단(1109)이 포함된다. 통신수단(1109)에 의해, 장비(1100)는 인터넷과 같은 컴퓨터 네트워크 및/또는 각종 전자통신망을 통해 다른 장비와 정보/데이터를 교환할 수 있다.
계산수단(1101)은 처리 기능 및 계산 기능을 가진 각종 범용 및/또는 주문형 처리 어셈블리일 수 있다. 계산수단(1101)의 일부 실예로서는, 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 각종 주문형 인공지능(AI) 컴퓨팅 칩, 각종 머신 러닝 모델 알고리즘을 운행하는 계산수단, 디지털 신호 프로세서(DSP), 및 임의의 적합한 프로세서, 컨트롤러, 마이크로 컨트롤러 등이 포함될 수 있는데, 이에 한정되지는 않는다. 계산수단(1101)은 앞에서 설명한 각 방법 및 처리를 실행하는데, 예를 들어 음성 인식 방법을 실행한다. 예를 들어, 일부 실시예에 있어서, 음성 인식 방법은 예를 들어 저장수단(1108)과 같은 기계 판독가능 매체에 포함되는 컴퓨터 소프트웨어 프로그램의 형태로 실현될 수 있다. 일부 실시예에 있어서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1102) 및/또는 통신수단(1109)을 거쳐 장비(1100)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1103)에 로딩되고 계산수단(1101)에 의해 실행될 경우, 앞에서 설명한 음성 인식 방법의 하나 또는 복수의 단계를 실행할 수 있다. 선택적으로, 다른 실시예에 있어서, 계산수단(1101)은 다른 임의의 적합한 방식(예를 들어, 펌웨어)을 통해 음성 인식 방법을 실행하도록 구성될 수 있다.
상기에서 설명한 시스템 및 기술의 다양한 실시 형태는 디지털 전자 회로 시스템, 집적 회로 시스템, FPGA(Field Programmable Gate Array), ASIC(Application Specific Integrated circuit), ASSP(Application Specific Standard Product), SOC(System on Chip), CPLD(Complex Programmable Logic Device), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램을 통해 구현될 수 있고, 상기 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 주문형 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터 및 명령을 수신하고, 데이터 및 명령을 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로 전송할 수 있다.
본 개시의 방법을 실시하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 통해 프로그래밍을 실행할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 주문형 컴퓨터 또는 다른 프로그래밍 가능한 데이터 처리 장치의 프로세서 또는 컨트롤러에 제공되어, 프로그램 코드가 프로세서 또는 컨트롤러에 의해 실행됨으로써, 흐름도 및/또는 블록도에서 규정한 기능/동작을 실시하도록 할 수 있다. 프로그램 코드는 전부 머신에 의해 실행되거나 또는 부분적으로 머신에 의해 실행될 수 있고, 또는 독립적인 소프트웨어 패키지로서 부분적으로 머신에 의해 실행됨과 동시에 부분적으로 원격 머신에 의해 실행되거나, 또는 전부 원격 머신 또는 서버에 의해 실행될 수 있다.
본 명세서에 있어서, 기계 판독가능 매체는 실체적인 매체일 수 있고, 상기 매체에는 명령 실행 시스템, 장치 또는 장비에 의해 사용되거나 또는 명령 실행 시스템, 장치 또는 장비와 결합하여 사용되는 프로그램이 포함되거나 저장될 수 있다. 기계 판독가능 매체는 기계 판독가능 신호 매체 또는 기계 판독가능 저장매체일 수 있다. 기계 판독가능 신호 매체는, 전자적, 자기적, 광학적, 전자기적, 적외선적 반도체 시스템, 장치 또는 장비, 또는 이들의 임의의 적합한 조합을 포함할 수 있는데, 이에 한정되지는 않는다. 기계 판독가능 저장매체의 보다 구체적인 실예로는, 하나 또는 복수의 라인에 의해 전기적으로 연결되는 휴대용 컴퓨터 디스크, 하드 디스크, RAM, ROM, EPROM(Erasable Programming ROM), 플래시 메모리, 광 파이버, CD-ROM, 광학적 저장 장비, 자기적 저장 장비, 또는 이들의 임의의 적합한 조합일 수 있다.
사용자와의 인터액션을 제공하기 위해서는, 컴퓨터를 통해 본 명세서에서 설명한 시스템 및 기술을 구현할 수 있는데, 상기 컴퓨터는, 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터), 및 사용자가 상기 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙 볼)를 포함한다. 기타 유형의 디바이스도 사용자와의 인터액션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고, 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력을 포함)로 사용자로부터의 입력을 수신할 수 있다.
본 명세서에서 설명한 시스템 및 기술은, 백 그라운드 부품을 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부품을 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 앤드 부품을 포함하는 컴퓨팅 시스템(예를 들어, GUI 또는 웹 브라우저를 갖는 사용자 컴퓨터로서, 사용자는 상기 GUI 또는 상기 웹 브라우저를 통하여 본 명세서에서 설명한 상기 시스템 및 기술의 실시 형태와 인터액션을 할 수 있음), 또는 이러한 백 그라운드 부품, 미들웨어 부품, 또는 프론트 앤드 부품의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 부품은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크는 예를 들어 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷을 포함할 수 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 통상적으로 통신 네트워크를 통해 인터액션을 진행한다. 클라이언트와 서버의 관계는 대응하는 컴퓨터에서 실행되고 서로 클라이언트-서버의 관계를 갖는 컴퓨터 프로그램에 의해 생성된다. 여기서, 서버는 클라우드 서버일 수도 있는데, 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하며, 클라우드 컴퓨팅 서비스 체계에 속하는 호스트 제품으로서, 기존의 물리적 호스트 및 VPS('Virtual Private Server', 또는 단지 VPS라고 함) 서비스에 존재하는 관리 난이도가 높고 업무 확정성이 약한 문제점을 해결하기 위한 것이다. 서버는 분포식 시스템의 서버 또는 블록체인과 결합된 서버일 수도 있다.
상기에서 설명한 다양한 프로세스를 사용하여 각 단계의 순서를 조정하거나, 일부 단계를 추가 또는 삭제할 수 있다는 점을 이해하여야 한다. 예를 들어, 본 개시에 개시된 기술방안이 원하는 결과를 구현할 수 있는 한, 본 개시에 기재된 다양한 단계는 병렬적으로 또는 순차적으로, 또는 서로 다른 순서로 실행될 수 있고, 본 개시는 이에 대해 특별히 한정하지 않는다.
본 개시의 보호범위는 상기 다양한 실시 형태에 의해 제한되지 않는다. 당업자라면, 설계 요구 및 기타 요소에 의해, 다양한 수정, 조합, 서브 조합 및 교체가 이루어질 수 있음을 이해할 것이다. 본 개시의 취지 및 원칙내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 개시의 보호범위에 속한다.

Claims (24)

  1. 음성 인식 방법으로서,
    음향 모델을 사용하여 인식하고자 하는 음성 데이터 및 이미 인식하여 얻은 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 음향 확률을 얻는 것,
    언어 모델 중의 제1 언어 서브모델을 사용하여 상기 제1 텍스트 세그먼트를 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것,
    상기 언어 모델 중의 제약 서브모델을 사용하여 상기 제1 텍스트 세그먼트를 처리하여, 상기 제1 텍스트 세그먼트에 대한 복수의 상기 후보 텍스트 세그먼트 각각의 확장 가능 관계를 얻는 것,
    상기 확장 가능 관계에 따라, 상기 후보 텍스트 세그먼트의 초기 언어 확률을 조정하여, 복수의 상기 후보 텍스트 세그먼트 각각의 제1 언어 확률을 얻는 것, 및
    상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 상기 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻는 것
    을 포함하되, 상기 제약 서브모델은 소정의 텍스트 집합 중의 텍스트에 기초하여 트레이닝하여 얻은 것인, 음성 인식 방법.
  2. 제1항에 있어서,
    상기 언어 모델 중의 제1 언어 서브모델을 사용하여 상기 제1 텍스트 세그먼트를 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것은,
    상기 제1 텍스트 세그먼트에 대해 임베딩 처리를 실행하여, 텍스트 임베딩 특징을 얻는 것,
    상기 제1 텍스트 세그먼트가 속하는 수직형 카테고리의 제1 식별 특징을 확정하는 것, 및
    상기 제1 언어 서브모델을 사용하여 상기 텍스트 임베딩 특징 및 상기 제1 식별 특징이 융합된 후의 특징을 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것
    을 포함하는, 음성 인식 방법.
  3. 제2항에 있어서,
    상기 언어 모델은 상기 제1 언어 서브모델과 병렬로 설치한 제2 언어 서브모델을 더 포함하고,
    상기 음성 인식 방법은,
    상기 텍스트 임베딩 특징을 상기 제2 언어 서브모델에 입력하여, 상기 제1 텍스트 세그먼트의 제1 암시적 표상을 얻는 것을 더 포함하고,
    상기 제1 언어 서브모델은 제1 특징 추출 네트워크 및 제1 예측 네트워크를 포함하고,
    상기 제1 언어 서브모델을 사용하여 상기 텍스트 임베딩 특징 및 상기 제1 식별 특징이 융합된 후의 특징을 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것은,
    상기 텍스트 임베딩 특징 및 상기 제1 식별 특징이 융합된 후의 특징을 상기 제1 특징 추출 네트워크에 입력하여, 제2 암시적 표상을 얻는 것, 및
    상기 제1 암시적 표상 및 상기 제2 암시적 표상을 융합하여 얻은 특징을 상기 제1 예측 네트워크에 입력하여, 복수의 상기 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것
    을 포함하고, 상기 제2 언어 서브모델은 복수의 소정의 수직형 카테고리의 샘플 텍스트를 사용하여 트레이닝하여 얻은 것인, 음성 인식 방법.
  4. 제3항에 있어서,
    상기 제2 언어 서브모델은 제2 특징 추출 네트워크 및 제2 예측 네트워크를 포함하고,
    상기 텍스트 임베딩 특징을 상기 제2 언어 서브모델에 입력하여, 상기 제1 텍스트 세그먼트의 제1 암시적 표상을 얻는 것은,
    상기 텍스트 임베딩 특징을 상기 제2 특징 추출 네트워크에 입력하여, 상기 제2 암시적 표상을 얻는 것을 포함하고,
    상기 음성 인식 방법은,
    상기 제2 암시적 표상을 상기 제2 예측 네트워크에 입력하여, 복수의 상기 후보 텍스트 세그먼트 각각의 제2 언어 확률을 얻는 것, 및
    상기 제2 언어 확률, 상기 제1 언어 확률 및 상기 음향 확률에 따라, 상기 목표 텍스트 세그먼트를 확정하는 것
    을 더 포함하는, 음성 인식 방법.
  5. 제3항에 있어서,
    상기 언어 모델은 상기 제1 언어 서브모델과 병렬로 설치한 제3 언어 서브모델을 더 포함하고,
    상기 음성 인식 방법은,
    상기 인식하고자 하는 음성 데이터의 출처를 나타내는 제2 식별 특징을 확정하는 것,
    상기 제3 언어 서브모델을 사용하여 상기 텍스트 임베딩 특징 및 상기 제2 식별 특징이 융합된 후의 특징을 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 제3 언어 확률을 얻는 것, 및
    상기 제3 언어 확률, 상기 제1 언어 확률 및 상기 음향 확률에 따라, 상기 목표 텍스트 세그먼트를 확정하는 것
    을 더 포함하는, 음성 인식 방법.
  6. 제5항에 있어서,
    상기 제3 언어 서브모델은 제3 특징 추출 네트워크 및 제3 예측 네트워크를 포함하고,
    상기 제3 언어 서브모델을 사용하여 상기 텍스트 임베딩 특징 및 상기 제2 식별 특징이 융합된 후의 특징을 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 제3 언어 확률을 얻는 것은,
    상기 텍스트 임베딩 특징 및 상기 제2 식별 특징이 융합된 후의 특징을 상기 제3 특징 추출 네트워크에 입력하여, 제3 암시적 표상을 얻는 것, 및
    상기 제1 암시적 표상 및 상기 제3 암시적 표상을 융합하여 얻은 특징을 상기 제3 예측 네트워크에 입력하여, 복수의 상기 후보 텍스트 세그먼트 각각의 제3 언어 확률을 얻는 것
    을 포함하는, 음성 인식 방법.
  7. 제2항에 있어서,
    상기 제1 텍스트 세그먼트가 텍스트의 시작 식별자인 경우, 상기 제1 텍스트 세그먼트가 속하는 수직형 카테고리는 복수의 소정의 수직형 카테고리를 포함하고,
    상기 제1 언어 서브모델을 사용하여 상기 텍스트 임베딩 특징 및 상기 제1 식별 특징이 융합된 후의 특징을 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것은,
    각 소정의 수직형 카테고리에 대해, 상기 텍스트 임베딩 특징 및 상기 각 소정의 수직형 카테고리의 식별 특징을 융합하여, 제1 융합 특징을 얻는 것, 및
    상기 제1 언어 서브모델을 사용하여 상기 제1 융합 특징을 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻는 것
    을 포함하는, 음성 인식 방법.
  8. 제1항에 있어서,
    복수의 상기 후보 텍스트 세그먼트는 후보 문자를 나타내는 복수의 제1 후보 세그먼트를 포함하고,
    상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 상기 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻는 것은,
    상기 제1 텍스트 세그먼트에 따라 소정의 텍스트 리스트를 조회하여, 상기 복수의 제1 후보 세그먼트 중의 제1 지정 세그먼트를 확정하는 것(여기서, 상기 제1 텍스트 세그먼트와 상기 제1 지정 세그먼트가 접합하여 얻어지는 텍스트는 상기 소정의 텍스트 리스트에 속함) 및
    상기 제1 지정 세그먼트의 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 것
    을 포함하는, 음성 인식 방법.
  9. 제8항에 있어서,
    상기 소정의 텍스트 리스트는 복수의 텍스트 및 상기 복수의 텍스트 중 각 텍스트의 인식 가중치를 포함하고, 상기 인식 가중치는 텍스트의 인식 난이도를 나타내며,
    상기 제1 지정 세그먼트의 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 것은,
    상기 소정의 텍스트 리스트 중 상기 제1 텍스트 세그먼트와 상기 제1 지정 세그먼트가 접합하여 얻어지는 텍스트가 속하는 제1 목표 텍스트를 확정하는 것, 및
    상기 제1 목표 텍스트의 인식 가중치, 상기 제1 지정 세그먼트의 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 것
    을 포함하는, 음성 인식 방법.
  10. 제8항에 있어서,
    복수의 상기 후보 텍스트 세그먼트는 후보 슬롯을 나타내는 복수의 제2 후보 세그먼트를 더 포함하고, 상기 후보 슬롯은 입력 슬롯을 포함하며,
    상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 상기 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻는 것은,
    상기 입력 슬롯 중 상기 소정의 텍스트 리스트에 속하는 목표 슬롯을 확정하는 것,
    상기 언어 모델을 사용하여 상기 목표 슬롯의 제3 식별 특징 및 텍스트의 시작 식별자에 따라 얻은 특징을 처리하여, 상기 목표 슬롯에 대한 복수의 상기 제1 후보 세그먼트 각각의 제4 언어 확률을 얻는 것, 및
    상기 제4 언어 확률, 상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 것을 더 포함하는
    음성 인식 방법.
  11. 제10항에 있어서,
    상기 후보 슬롯은 출력 슬롯을 더 포함하고,
    상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 상기 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻는 것은,
    상기 제1 텍스트 세그먼트가 속하는 수직형 카테고리의 제1 식별 특징 및 상기 제1 텍스트 세그먼트 중 마지막 위치의 텍스트 세그먼트에 대응하는 슬롯의 제4 식별 특징을 융합하여, 제2 융합 특징을 얻는 것,
    상기 언어 모델을 사용하여 상기 제2 융합 특징을 처리하여, 상기 출력 슬롯에 대한 복수의 상기 제1 후보 세그먼트 각각의 제5 언어 확률을 얻는 것, 및
    상기 제5 언어 확률, 상기 제4 언어 확률, 상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 것
    을 더 포함하는, 음성 인식 방법.
  12. 제10항에 있어서,
    상기 입력 슬롯 중 상기 소정의 텍스트 리스트에 속하는 목표 슬롯을 확정하는 것은,
    상기 입력 슬롯 중 상기 소정의 텍스트 리스트에 속하는 슬롯을 확정하여, 초기 슬롯을 얻는 것, 및
    상기 초기 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률과 복수의 상기 제1 후보 세그먼트의 제1 언어 확률의 차이에 따라, 상기 초기 슬롯 중의 목표 슬롯을 확정하는 것
    을 포함하고, 상기 목표 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률은 상기 초기 슬롯 중 상기 목표 슬롯을 제외한 다른 슬롯을 나타내는 제2 후보 세그먼트의 제1 언어 확률보다 큰, 음성 인식 방법.
  13. 제10항에 있어서,
    상기 제4 언어 확률, 상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 제1 후보 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 것은,
    상기 제1 텍스트 세그먼트에 따라 상기 소정의 텍스트 리스트를 조회하여, 제2 목표 텍스트 및 상기 복수의 제1 후보 세그먼트 중의 제2 지정 세그먼트를 얻는 것(여기서, 상기 제1 텍스트 세그먼트와 상기 제2 지정 세그먼트에 대응하는 목표 슬롯을 나타내는 목표 후보 세그먼트가 접합하여 얻어지는 텍스트는 상기 제2 목표 텍스트에 속함),
    상기 제2 목표 텍스트의 인식 가중치 및 상기 목표 후보 세그먼트의 제1 언어 확률에 따라, 상기 목표 후보 세그먼트의 초기 확률을 얻는 것, 및
    상기 초기 확률 및 상기 제2 지정 세그먼트의 제4 언어 확률에 따라, 상기 제2 지정 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 것
    을 포함하는, 음성 인식 방법.
  14. 제10항에 있어서,
    상기 텍스트 시퀀스에 상기 후보 슬롯에 속하는 슬롯 텍스트 세그먼트가 포함되어 있는 것에 응답하여, 상기 슬롯 텍스트 세그먼트에 따라 상기 후보 슬롯에 대한 텍스트 세그먼트 테이블을 조회하는 것,
    상기 슬롯 텍스트 세그먼트가 상기 텍스트 세그먼트 테이블에 속하지 않는 것에 응답하여, 상기 텍스트 세그먼트 테이블에서 상기 슬롯 텍스트 세그먼트와의 유사도가 가장 높은 텍스트 세그먼트를 확정하여 후보 세그먼트로 하는 것, 및
    상기 후보 세그먼트를 사용하여 상기 텍스트 시퀀스 중의 상기 슬롯 텍스트 세그먼트를 대체하여, 상기 인식하고자 하는 음성 데이터에 대한 인식 결과를 얻는 것
    을 더 포함하는, 음성 인식 방법.
  15. 제10항 내지 제13항 중 어느 한 항에 있어서,
    상기 언어 모델을 사용하여 제1 목표 특징을 처리한 횟수가 소정의 횟수에 도달한 것에 응답하여, 상기 언어 모델을 사용하여 상기 제1 목표 특징을 처리하여 얻은 언어 확률을 캐시에 저장하는 것,
    상기 언어 모델을 사용하여 제2 목표 특징을 처리할 필요가 있는 것에 응답하여, 상기 제2 목표 특징에 따라 상기 캐시를 조회하는 것, 및
    상기 캐시에 상기 제2 목표 특징에 대한 언어 확률이 저장되어 있는 것에 응답하여, 상기 캐시로부터 상기 제2 목표 특징에 대한 언어 확률을 판독하여, 상기 언어 모델을 사용하여 상기 제2 목표 특징을 처리하는 것을 완성하는 것
    을 더 포함하고, 상기 제1 목표 특징 및 상기 제2 목표 특징은, 상기 제1 텍스트 세그먼트의 텍스트 임베딩 특징, 상기 텍스트 임베딩 특징 및 수직형 카테고리의 식별 특징이 융합된 후의 특징, 상기 텍스트 임베딩 특징 및 데이터 출처의 식별 특징이 융합된 후의 특징, 상기 텍스트 임베딩 특징 및 슬롯의 식별 특징이 융합된 후의 특징 중 임의의 하나의 특징을 포함하는, 음성 인식 방법.
  16. 제10항 내지 제13항 중 어느 한 항에 있어서,
    상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정하는 동작은 전자장비에 설치된 그래픽 프로세서에 의해 실행되는, 음성 인식 방법.
  17. 제1항에 있어서,
    상기 제약 서브모델을 트레이닝하는 샘플은 포지티브 샘플 및 네거티브 샘플을 포함하고, 상기 포지티브 샘플은 상기 소정의 텍스트 집합 중의 텍스트를 포함하고,
    상기 네거티브 샘플은, 복수의 상기 후보 텍스트 세그먼트 중 상기 소정의 텍스트 중의 목표 위치의 텍스트 세그먼트와 일치하지 않는 제2 텍스트 세그먼트에 따라, 상기 소정의 텍스트를 조정하여 얻어진 것인
    음성 인식 방법.
  18. 제17항에 있어서,
    상기 복수의 상기 후보 텍스트 세그먼트 중 상기 소정의 텍스트 중의 목표 위치의 텍스트 세그먼트와 일치하지 않는 텍스트 세그먼트에 따라, 상기 소정의 텍스트를 조정하여, 상기 네거티브 샘플을 얻는 것은,
    상기 제2 텍스트 세그먼트와 상기 소정의 텍스트 중 상기 목표 위치의 텍스트 세그먼트 사이의 혼동 관계에 따라, 상기 제2 텍스트 세그먼트 중의 대체하고자 하는 세그먼트를 확정하는 것, 및
    상기 대체하고자 하는 세그먼트를 사용하여 상기 소정의 텍스트 중의 목표 위치의 텍스트 세그먼트를 대체하여, 상기 네거티브 샘플을 얻는 것
    을 포함하는, 음성 인식 방법.
  19. 제17항에 있어서,
    상기 복수의 상기 후보 텍스트 세그먼트 중 상기 소정의 텍스트 중의 목표 위치의 텍스트 세그먼트와 일치하지 않는 텍스트 세그먼트에 따라, 상기 소정의 텍스트를 조정하여, 상기 네거티브 샘플을 얻는 것은,
    상기 제2 텍스트 세그먼트를 사용하여 상기 소정의 텍스트 중의 상기 목표 위치의 텍스트 세그먼트를 대체하여, 후보 샘플을 얻는 것,
    상기 후보 샘플 중의 각 샘플에 대해, 상기 제1 언어 서브모델을 사용하여 처리하여, 상기 각 샘플의 제6 언어 확률을 얻는 것, 및
    상기 제6 언어 확률에 따라 상기 후보 샘플을 선별하여, 상기 네거티브 샘플을 얻는 것
    을 포함하는, 음성 인식 방법.
  20. 제17항에 있어서,
    상기 복수의 상기 후보 텍스트 세그먼트 중 상기 소정의 텍스트 중의 목표 위치의 텍스트 세그먼트와 일치하지 않는 제2 텍스트 세그먼트에 따라, 상기 소정의 텍스트를 조정하여, 상기 네거티브 샘플을 얻는 것은,
    상기 제2 텍스트 세그먼트를 사용하여 상기 소정의 텍스트 중의 상기 목표 위치의 텍스트 세그먼트를 대체하여, 초기 텍스트를 얻는 것, 및
    상기 초기 텍스트 중 상기 목표 위치 이후의 텍스트 세그먼트를 제거하여, 상기 네거티브 샘플을 얻는 것
    을 포함하는, 음성 인식 방법.
  21. 음성 인식 장치로서,
    음향 모델을 사용하여 인식하고자 하는 음성 데이터 및 이미 인식하여 얻은 제1 텍스트 세그먼트를 처리하여, 복수의 후보 텍스트 세그먼트 각각의 음향 확률을 얻기 위한 음향 확률 취득모듈,
    언어 모델 중의 제1 언어 서브모델을 사용하여 상기 제1 텍스트 세그먼트를 처리하여, 복수의 상기 후보 텍스트 세그먼트 각각의 초기 언어 확률을 얻기 위한 초기 확률 취득모듈,
    상기 언어 모델 중의 제약 서브모델을 사용하여 상기 제1 텍스트 세그먼트를 처리하여, 상기 제1 텍스트 세그먼트에 대한 복수의 상기 후보 텍스트 세그먼트 각각의 확장 가능 관계를 얻기 위한 확장 관계 취득모듈,
    상기 확장 가능 관계에 따라, 상기 후보 텍스트 세그먼트의 초기 언어 확률을 조정하여, 복수의 상기 후보 텍스트 세그먼트 각각의 제1 언어 확률을 얻기 위한 확률 조정모듈, 및
    상기 제1 언어 확률 및 상기 음향 확률에 따라, 복수의 상기 후보 텍스트 세그먼트 중의 목표 텍스트 세그먼트를 확정함으로써, 상기 인식하고자 하는 음성 데이터에 대한 텍스트 시퀀스를 얻기 위한 텍스트 확정모듈
    을 포함하되, 상기 제약 서브모델은 소정의 텍스트 집합 중의 텍스트에 기초하여 트레이닝하여 얻은 것인, 음성 인식 장치.
  22. 전자장비로서,
    적어도 하나의 프로세서, 및
    상기 적어도 하나의 프로세서에 통신가능하게 연결되는 메모리
    를 포함하되, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제20항 중 어느 한 항의 방법을 실행하도록 하는, 전자장비.
  23. 컴퓨터 명령이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체로서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제20항 중 어느 한 항의 방법을 실행하도록 하는, 비 일시적 컴퓨터 판독 가능 저장 매체.
  24. 컴퓨터 프로그램이 포함되어 있는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제20항 중 어느 한 항의 방법을 구현하는, 컴퓨터 프로그램 제품.
KR1020247014438A 2022-09-01 2023-01-16 음성 인식 방법, 음성 인식 장치, 전자장비, 저장매체 및 컴퓨터 프로그램 KR20240067971A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202211064891.8A CN115132209B (zh) 2022-09-01 2022-09-01 语音识别方法、装置、设备和介质
CN202211064891.8 2022-09-01
PCT/CN2023/072417 WO2024045475A1 (zh) 2022-09-01 2023-01-16 语音识别方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
KR20240067971A true KR20240067971A (ko) 2024-05-17

Family

ID=83387371

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247014438A KR20240067971A (ko) 2022-09-01 2023-01-16 음성 인식 방법, 음성 인식 장치, 전자장비, 저장매체 및 컴퓨터 프로그램

Country Status (3)

Country Link
KR (1) KR20240067971A (ko)
CN (1) CN115132209B (ko)
WO (1) WO2024045475A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115132209B (zh) * 2022-09-01 2022-11-08 北京百度网讯科技有限公司 语音识别方法、装置、设备和介质
CN115662397B (zh) * 2022-12-29 2023-04-18 北京百度网讯科技有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN118095209B (zh) * 2024-04-12 2024-07-02 清华大学 针对大语言模型的动态猜测解码方法、装置、设备及介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
US10789539B2 (en) * 2015-12-31 2020-09-29 Nuance Communications, Inc. Probabilistic ranking for natural language understanding
EP3770903B1 (en) * 2016-06-08 2024-01-31 Google LLC Scalable dynamic class language modeling
US10056083B2 (en) * 2016-10-18 2018-08-21 Yen4Ken, Inc. Method and system for processing multimedia content to dynamically generate text transcript
US10311860B2 (en) * 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN108492820B (zh) * 2018-03-20 2021-08-10 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN110263158B (zh) * 2019-05-24 2023-08-01 创新先进技术有限公司 一种数据的处理方法、装置及设备
EP3979121A1 (en) * 2020-10-01 2022-04-06 Naver Corporation Method and system for controlling distributions of attributes in language models for text generation
CN112767921A (zh) * 2021-01-07 2021-05-07 国网浙江省电力有限公司 一种基于缓存语言模型的语音识别自适应方法和***
CN113129870B (zh) * 2021-03-23 2022-03-25 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
CN114218945A (zh) * 2021-11-22 2022-03-22 深圳价值在线信息科技股份有限公司 实体识别方法、装置、服务器及存储介质
CN114187914A (zh) * 2021-12-17 2022-03-15 广东电网有限责任公司 一种语音识别方法及***
CN115132209B (zh) * 2022-09-01 2022-11-08 北京百度网讯科技有限公司 语音识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN115132209A (zh) 2022-09-30
CN115132209B (zh) 2022-11-08
WO2024045475A1 (zh) 2024-03-07

Similar Documents

Publication Publication Date Title
US11776531B2 (en) Encoder-decoder models for sequence to sequence mapping
US11948058B2 (en) Utilizing recurrent neural networks to recognize and extract open intent from text inputs
EP3648099B1 (en) Voice recognition method, device, apparatus, and storage medium
KR20240067971A (ko) 음성 인식 방법, 음성 인식 장치, 전자장비, 저장매체 및 컴퓨터 프로그램
CN108899013B (zh) 语音搜索方法、装置和语音识别***
CN110019732B (zh) 一种智能问答方法以及相关装置
CN107301170B (zh) 基于人工智能的切分语句的方法和装置
KR102046486B1 (ko) 정보 입력 방법
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN112270167B (zh) 角色标注方法、装置、电子设备和存储介质
CN113470619B (zh) 语音识别方法、装置、介质及设备
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
CN111611349A (zh) 语音查询方法、装置、计算机设备及存储介质
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN113239157B (zh) 对话模型的训练方法、装置、设备和存储介质
CN110874532A (zh) 提取反馈信息的关键词的方法和装置
CN111488455A (zh) 模型训练的方法、文本分类的方法、***、设备及介质
CN112825114A (zh) 语义识别方法、装置、电子设备及存储介质
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN113158687A (zh) 语义的消歧方法及装置、存储介质、电子装置
CN114492426B (zh) 子词切分方法、模型训练方法、装置和电子设备
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN113343692A (zh) 搜索意图的识别方法、模型训练方法、装置、介质及设备
CN117236340A (zh) 问答方法、装置、设备和介质