CN108140019A - 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序 - Google Patents

语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序 Download PDF

Info

Publication number
CN108140019A
CN108140019A CN201580083593.5A CN201580083593A CN108140019A CN 108140019 A CN108140019 A CN 108140019A CN 201580083593 A CN201580083593 A CN 201580083593A CN 108140019 A CN108140019 A CN 108140019A
Authority
CN
China
Prior art keywords
morpheme
sentence
language model
text
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580083593.5A
Other languages
English (en)
Other versions
CN108140019B (zh
Inventor
伍井启恭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN108140019A publication Critical patent/CN108140019A/zh
Application granted granted Critical
Publication of CN108140019B publication Critical patent/CN108140019B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明的语言模型生成装置具有:替换语句生成部,其使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及语言模型生成部,其根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型,因此,能够获得即使是学习用的例文中不存在的单词链也会减少语音识别的误识别的语言模型。

Description

语言模型生成装置、语言模型生成方法及其程序、语音识别装 置以及语音识别方法及其程序
技术领域
本发明涉及使用除了根据学习用的例文以外还根据例文中包含的语句的近义语句(替换语句)进行学习而得到的N元(N-gram)来生成语言模型的技术。
背景技术
通过语音识别而使语音文本化的技术在医疗或法律领域的抄录、广播字幕的生成等多个领域中是有用的。通过使语音文本化,能够容易地进行对数据库的检索。
例如,在由呼叫中心使通话语音文本化并将语音与文本相关联时,通过对文本进行字符串检索,能够容易地检索与文本相关联的语音。由此,能够将通话语音中包含的顾客名称或产品编号等缩小成检索关键字,精确地进行监视检查。但是,有时语音识别的结果中包含误识别,误识别成为检索精度下降的原因。课题在于如何减少该误识别。
在目前的语音识别技术中,一般使用将语音的特征与音素对应的声音模型、以及表现出连接的单词间关系的语言模型。作为用于高精度地识别语音的语言模型,使用非专利文献1~3中记载的N元模型(N-gram model)的方式备受关注。N元模型是通过根据学习用的例文进行学习而生成的、根据紧前的(N-1)个单词预测接下来出现的单词的概率语言模型。
在N元模型中有着学***滑处理(smoothing)(参照下述非专利文献2)。
现有技术文献
非专利文献
非专利文献1:鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」、株式会社オーム社,平成13年5月15日、p.53-155
非专利文献2:北研二、辻井潤一著、「確率的言語モデル」、東京大学出版会、1999年11月25日、p.57~99
非专利文献3:長尾真著、「自然言語処理」、岩波書店、1996年4月26日、p.118~137
发明内容
发明要解决的课题
但是,由于在平滑处理中,使用值比目前的N值小的概率值进行预测,因此在语言模型中包含实际上不会产生的单词链,从而存在误识别的可能性升高的问题。
本发明正是为了解决上述那样的问题而完成的,其目的在于获得一种语言模型生成装置,生成即使是学习用的例文中不存在的单词链也会降低语音识别的误识别这样的语言模型。
用于解决问题的手段
本发明的语言模型生成装置具有:替换语句生成部,其使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及语言模型生成部,其根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。
本发明的语言模型生成方法具有:替换语句生成步骤,使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及语言模型生成步骤,根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。
本发明的语言模型生成程序使计算机执行如下步骤:替换语句生成步骤,使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及语言模型生成步骤,根据生成的多个替换语句和学习用的例文生成作为N元模型的语言模型。
本发明的语音识别装置具有:语言模型存储部,其存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文来生成的;声音模型存储部,其存储由语音的特征量的图形构成的声音模型;语音输入部,其被输入语音信号;以及语音识别部,其使用语言模型和声音模型来识别语音信号,并输出语音识别结果。
本发明的语音识别方法具有:语言模型存储步骤,存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文来生成的;声音模型存储步骤,存储由语音的特征量的图形构成的声音模型;语音输入步骤,输入语音信号;以及语音识别步骤,使用语言模型和声音模型来识别语音信号,并输出语音识别结果。
本发明的语音识别程序用于使计算机执行以下步骤:语言模型存储步骤,存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及学习用的例文而生成的;声音模型存储步骤,存储由语音的特征量的图形构成的声音模型;语音输入步骤,输入语音信号;以及语音识别步骤,使用语言模型和声音模型来识别语音信号,并输出语音识别结果。
发明效果
根据本发明,使用除了根据学习用的例文以外还根据例文中包含的语句的近义语句即替换语句进行学习而得到的N元来生成语言模型,因此,能够获得即使是学习用的例文中不存在的单词链也会降低语音识别的误识别的语言模型。
附图说明
图1是示出实施方式1的语言模型生成装置的结构的框图。
图2是示出实施方式1的近义词字典的数据的例子的图。
图3是示出实施方式1的学习例文中包含的语句“いい音で聞く”的图。
图4是示出实施方式1的替换语句生成部的处理流程的流程图。
图5是示出实施方式1的词素列的图。
图6是示出实施方式1的赋予了近义词的词素的图。
图7是示出实施方式1的替换语句的图。
图8是示出实施方式1的原文提取部、N元生成部、替换文提取部、似然度计算部和替换语句提取部的处理流程的流程图。
图9是示出实施方式1的原文的图。
图10是示出实施方式1的替换文的图。
图11是示出实施方式1的替换文的似然度信息的图。
图12是示出实施方式1的替换语句及其平均似然度的列表的图。
图13是示出实施方式1的具有小于阈值的平均似然度的替换语句的列表的图。
图14是示出实施方式1的语言模型生成装置的硬件结构的框图。
图15是示出使用由实施方式1的语言生成装置生成的语言模型的语音识别装置的结构的框图。
图16是示出使用由实施方式1的语言生成装置生成的语言模型的语音识别装置的硬件结构的框图。
图17是示出实施方式1的语言模型生成装置的结构的框图。
图18是示出实施方式2的语言模型生成装置的结构的框图。
图19是示出实施方式2的不同表述存储部存储的数据的例子的图。
图20是示出实施方式2的将不同记述统一后的替换语句及其平均似然度的列表的图。
图21是示出实施方式2的具有小于阈值的平均似然度的替换语句的列表的图。
图22是示出实施方式3的原文的图。
图23是示出实施方式3的替换语句的图。
图24是示出实施方式3的对原文进行词素分析而得到的词素分析结果的图。
图25是示出实施方式3的根据词素分析结果转换而成的原文.text文件的图。
图26是示出实施方式3的使用语言模型制作工具来生成语言模型的顺序的图。
图27是示出实施方式3的作为N元语言模型的一例的原文.arpa文件的图。
图28是示出实施方式3的对替换文进行词素分析而得到的词素分析结果的图。
图29是示出实施方式3的PP和覆盖率的计算结果的图。
图30是示出实施方式3的替换文.anno文件的图。
具体实施方式
实施方式1
图1是示出实施方式1的语言模型生成装置100的结构的框图。语言模型生成装置100由语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108构成。语言模型生成装置100以学习例文存储部110、近义词字典111、语料库112为输入,输出语言模型113。
学习例文存储部110是存储用于生成语言模型的学习用的例文的存储部。学习例文使用语音识别对象领域的例文。在本实施方式中,设想对在应对家用电器的询问的呼叫中心被交换的语音进行识别的情况,设学习例文为家用电器的使用说明书中登载的整个文章。在使用说明书中记述有例如“いい音で聞くには、サラウンドモードにして…”这样的家用电器的操作和设定方法。通过将使用说明书作为学习例文而并入到语言模型中,能够提高使用说明书中记载的单词链的识别率。
近义词字典111是登载有近义词的字典的数据。
图2是示出实施方式1的近义词字典111的数据的例子的图。与原始表述对应地示出了近义词。“いい”的近义词为“素晴らしい”、“正しい”、“可愛い”。“音”的近义词为“音調”、“声”。“聞く”的近义词为“聴く”、“差し出す”。
语料库112是集成自然语言的文档而成的大规模数据。语料库112是在将文档的各句子分解成词素以后对各词素赋予了词性信息的带标签语料库。
语句输入部101根据来自用户的指示从学习例文存储部110中存储的学习例文依次读出语句,并将所读出的语句输出到替换语句生成部102和原文提取部103。
替换语句生成部102参照近义词字典111,生成从语句输入部101输入的语句的近义语句即替换语句,并将所生成的替换语句输出到替换文提取部105。
原文提取部103参照学习例文存储部110,从学习例文将包含从语句输入部101输入的语句的句子全部提取出来,并将提取出的句子作为原文输出到N元生成部104。
N元生成部104根据原文进行学习而生成N元,并将所生成的N元输出到似然度计算部106。
替换文提取部105参照语料库112,从语料库112提取包含从替换语句生成部102输入的替换语句的句子,将提取出的句子作为替换文输出到似然度计算部106。
似然度计算部106根据从N元生成部104输入的N元和从替换文提取部105输入的替换文来计算表示各替换文是否接近原文的上下文的似然度,将替换文及其似然度输出到替换语句提取部107。
替换语句提取部107提取从似然度计算部106输入的替换文中的、似然度为阈值以下的替换文,并将提取出的替换文输出到语言模型生成部108。本实施方式中的似然度的值越小,则表示越接近原文的上下文。
语言模型生成部108利用从替换语句提取部107输入的替换语句和学习例文存储部110中存储的学习例文来学习N元,生成语言模型113,并输出所生成的语言模型113。
接着,设语句输入部101从学习例文存储部110读出的语句为“いい音で聞く”来说明详细的动作。
图3是示出实施方式1的学习例文中包含的语句501“いい音で聞く”的图。
首先,使用图4~7,对替换语句生成部102的动作进行说明。
图4是示出实施方式1的替换语句生成部102的处理流程的流程图。
图5是示出实施方式1的词素列502的图。“/”表示词素的分隔。
图6是示出实施方式1的赋予了近义词的词素503的图。“,”是近义词的分隔,“「」/「」”是表示表现近义词的单词列的列表的开始、结束的符号。
图7是示出实施方式1的替换语句504的图。
替换语句生成部102对从语句输入部101输入的语句“いい音で聞く”进行词素分析。在词素分析中,将所输入的语句分解为作为具有含义的最小单位的词素。“いい音で聞く”通过词素分析,成为词素列502“いい/音/で/聞く”。图5示出词素列502(图3的步骤S11)。
接着,替换语句生成部102参照近义词字典111,查询除了助词以外的全部词素的近义词。
替换语句生成部102利用近义词字典111来检索以词素列502的第1个词素“いい”为原始表述的近义词,读出“素晴らしい、正しい、可愛い”。替换语句生成部102生成对原始表述追加近义词而成的“[いい、素晴らしい、正しい、可愛い]”这样的列表,与词素列502的第1个词素“いい”进行调换。接着,替换语句生成部102利用近义词字典111来检索词素列502的第2个词素“音”的近义词,读出“音調、声”。替换语句生成部102生成对原始表述追加近义词而成的“[音、音調、声]”这样的列表,与词素列502的第2个词素“音”进行调换。
词素列502的第3个词素“で”是助词,因此,替换语句生成部102不进行任何动作。接着,替换语句生成部102利用近义词字典111来检索词素列502的第4个词素“聞く”的近义词,读出“聴く、差し出す”。替换语句生成部102生成对原始表述追加近义词而成的“[聞く、聴く、差し出す]”这样的列表,与词素列502的第4个词素“聞く”进行调换。这样,替换语句生成部102生成对词素列502赋予近义词而成的词素列503“[いい、素晴らしい、正しい、可愛い]/[音、音調、声]/で/[聞く、聴く、差し出す]”。图6示出赋予近义词而成的词素列503(图3的步骤S12)。
接着,替换语句生成部102根据赋予近义词而成的词素列503生成由各词素组合而成的替换语句504,并将替换语句504输出到替换语句提取部105。但是,替换语句504不包括使各词素全部为原始表述的组合。包括近义词在内,“いい”有4种单词、“声音(音)”有3种单词、“听(聞く)”有3种单词,因此,“いい音で聞く”的替换语句504为4×3×3-1=35种组合。替换语句504是将语句501的多个词素中的1个以上的词素置换为原始表述的近义词而成的。图7示出“いい音で聞く”的替换语句504(图3的步骤S13)。
接着,使用图8~12,对原文提取部103、N元生成部104、替换文提取部105、似然度计算部106和替换语句提取部107的动作进行说明。
图8是示出实施方式1的原文提取部103、N元生成部104、替换文提取部105、似然度计算部106和替换语句提取部107的处理流程的流程图。
图9是示出实施方式1的原文505的图。
图10是示出实施方式1的替换文506的图。
图11是示出实施方式1的替换文506的似然度信息的图。
图12是示出实施方式1的替换语句504及其平均似然度的列表508的图。
原文提取部103参照学习例文存储部110存储的学习例文,将学习例文中的包含语句501“いい音で聞く”的句子全部提取出来。在本实施方式中,将提取出的这些句子称作原文。原文提取部103将原文输出到N元生成部104。图9示出包含“いい音で聞く”的原文505(图8的步骤S21)。
接着,N元生成部104根据从原文提取部103输入的原文来生成N元语言模型,并将该N元语言模型输出到似然度计算部106。生成N元语言模型的处理应用公知的方法即可。N元生成部104通过例如非专利文献1的第53~65页中记载的方法生成N元语言模型(图8的步骤S22)。
接着,替换文提取部105参照语料库112,将包含从替换语句生成部102输入的替换语句504中的任意替换语句的句子全部提取出来。替换文提取部105将提取出的句子作为替换文而输出到似然度计算部106。作为替换文的例子,在图10中示出包含替换语句“いい音で聴く”的替换文506(图8的步骤S23)。
接着,似然度计算部106使用从N元生成部104输入的N元语言模型和从替换文提取部105输入的替换文506来计算单词测试集复杂度(以下,称作PP)和覆盖率(在本实施方式中为单词覆盖率)。PP是用于评价语言模型的标准,以某个单词出现1个的概率的几何平均数的倒数来定义。在PP较低时,意味着该语言模型的区别欲识别的句子和非欲识别的句子的能力较高。覆盖率是表示语言模型覆盖单词链的比例的值。PP和覆盖率是使用N元语言模型和替换文506以公知的方法求出的。在实施方式3中记载了求出PP和覆盖率的方法的详细内容。
似然度计算部106使用PP和覆盖率C,利用数式(1)求出似然度L。这时,α是未知词修正常数,在本实施方式中为4。
[数学式1]
L=C·log(PP)+(1-C)·α…数式 (1)
图11示出替换文506的似然度信息。“スピーカーでいい音で聴くためにオーディオを揃えるのもいいが……”的覆盖率为100.0%、PP为108.7,似然度为2.04。“このいい音で聴くためにはいろいろな条件がありますがスピーカーに……”的覆盖率为100.0%、PP为128.2、似然度为2.11。似然度可以说是用覆盖率修正各替换文506相对于原文的交叉熵而得到的值。似然度表示各替换文506的上下文与整个原文505的接近度(图8的步骤S24)。
接着,似然度计算部106计算各替换语句504的平均似然度。平均似然度μ用数式(2)求出。这时,设相同的替换语句的数量为n,相同的替换语句的似然度为Tn。
[数学式2]
似然度计算部106将替换语句504及其平均似然度的列表508输出到替换语句提取部107。图12示出替换语句504及其平均似然度的列表508(图8的步骤S25)。
接着,替换语句提取部107提取替换语句504中的、平均似然度小于阈值的替换语句。在本实施方式中,假设替换语句提取部107预先保持有阈值2.68。似然度越低,则交叉熵越低,从而上下文越接近,因此,替换语句的含义与原文类似的概率越高。
图13是示出实施方式1的具有小于阈值的平均似然度的替换语句的列表509的图。
替换语句提取部107将具有小于阈值的平均似然度的替换语句的列表509输出到语言模型生成部108(图8的步骤S26)。
语言模型生成部108使用从替换语句提取部107输入的替换语句和学习例文存储部110中存储的学习例文来生成N元模型的语言模型并输出。语言模型例如利用非专利文献1的第53~65页中记载的方法生成。
接着,对本实施方式的语言模型生成装置的硬件结构进行说明。
图14是示出实施方式1的语言模型生成装置100的硬件结构的框图。语言模型生成装置100由存储器121和处理器122构成。
存储器121存储用于实现语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能的程序和数据。存储器121例如由ROM(Read Only Memory:只读存储器)、RAM(Random Access Memory:随机存取存储器)、HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态硬盘)构成。
处理器122读出存储器121中存储的程序和数据,实现语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能。处理器122由执行存储器121中存储的程序的CPU、***LSI(Large Scale Integration:大规模集成电路)等处理电路实现。
另外,也可以构成为由多个处理电路协作执行语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的功能。此外,语句输入部101、替换语句生成部102、原文提取部103、N元生成部104、替换文提取部105、似然度计算部106、替换语句提取部107和语言模型生成部108的各功能也可以利用由存储器121和处理器122构成的处理电路,通过硬件实现。
接着,对利用了以此方式而生成的语言模型113的语音识别装置进行说明。
图15是示出使用由实施方式1的语言生成装置100生成的语言模型113的语音识别装置200的结构的框图。语音识别装置200由语音输入部201、语音识别部202、语言模型存储部203、声音模型存储部204和显示部205构成。
语音输入部201将用户发出的语音转换为可进行数字处理的数字语音信号。语音输入部201输出的数字语音信号被输入到语音识别部202中。
语言模型存储部203存储有从上述语言模型生成装置100输出的语言模型113。
声音模型存储部204以音素为单位存储有由语音的标准特征量的图形构成的声音模型。在语音识别处理中,声音模型用于与输入语音的特征量对照并以音素为单位识别输入语音。
语音识别部202参照声音模型存储部203中存储的声音模型和语言模型存储部202中存储的语言模型113,对所输入的数字语音信号进行语音识别。语音识别部202将最似然的语音识别结果的单词序列输出到显示部205。
显示部205显示从语音识别部202输入的单词序列。
接着,对本实施方式的语音识别装置200的硬件结构进行说明。
图16是示出使用由实施方式1的语言生成装置100生成的语言模型113的语音识别装置200的硬件结构的框图。语音识别装置200由麦克风211、存储器212、处理器213和显示器214构成。
麦克风211实现语音输入部201的功能。
存储器212存储用于实现语音识别部202、语言模型存储部203和声音模型存储部204的各功能的程序和数据。存储器212例如由ROM(Read Only Memory:只读存储器)、RAM(Random Access Memory:随机存取存储器)、HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态硬盘)构成。
处理器213读出存储器212中存储的程序和数据,实现语音识别部202的各功能。处理器213由执行存储器212中存储的程序的CPU、***LSI(Large Scale Integration:大规模集成电路)等处理电路来实现。
另外,也可以构成为由多个处理电路协作执行语音识别部202的功能。
显示器214实现显示部205的功能。
即使是相同的意思,根据用户的不同,有时也会将“いい音で聞く”表现为“素晴らしい音で聞く”、“優れた音質で聴く”,如果仅将家用电器的使用说明书的文章作为学习例文,则会存在语音识别部202无法识别的措辞,但通过本实施方式,语音识别部202能够识别更大范围内的措辞。
在本实施方式中,以“いい音で聞く”为例说明了提取替换语句的处理,但语言模型生成装置100是从学习例文存储部110中存储的学习例文读出全部语句,提取全部语句的与原文的上下文接近的替换语句,从而根据学习例文和提取出的替换语句生成语言模型的。但是,在对学习例文的全部语句进行处理时,计算量会增加,因此,例如即使仅对使用说明书的章和节的题目中使用的语句来进行本实施方式的处理并生成语言模型,也具有减少语音识别的误识别的效果。
此外,在本实施方式中,利用替换语句提取部107使用似然度从由替换语句生成部102生成的替换语句504中提取与原文的上下文接近的替换语句,但是也可以根据由替换语句生成部102生成的替换语句和学习例文来完成语言模型。
图17是示出实施方式1的语言模型生成装置120的结构的框图。替换语句生成部102参照近义词字典111,生成从语句输入部101输入的语句的近义语句即替换语句504,并将所生成的替换语句504输出到语言模型生成部108。语言模型生成部108利用从替换语句生成部102输入的替换语句504和学习例文存储部110中存储的学习例文生成N元模型,将所生成的N元模型作为语言模型输出。语言模型生成装置120除了根据学习例文以外还根据替换语句504生成N元模型,因此,能够生成即使是学习例文中不存在的单词链也会减少语音识别的误识别的语言模型。
另外,语言模型生成装置100根据替换语句中的、与原文的上下文接近的替换语句和学习例文来生成语言模型,因此,与语言模型生成装置120相比,不但减少了语言模型生成部108的处理量,还能够生成进一步减少误识别的语言模型。
因此,在本实施方式中,使用除了根据学习例文以外还根据与原文的上下文接近的替换语句进行学习而得到的N元来生成语言模型,因此,能够生成即使是学习例文中不存在的单词链也会减少语音识别的误识别的语言模型。此外,语音识别装置200通过使用这样的语言模型进行语音识别,能够减少误识别。
此外,根据领域的不同,有时无法准备较多的学习例文。由于在这样的情况下,本实施方式也使用除了根据学习例文以外还根据与原文的上下文接近的替换语句进行学习而得到的N元来生成语言模型,因此能够生成减少语音识别的误识别的语言模型。
实施方式2
在以上的实施方式1中,是求出各替换语句的平均似然度,但在本实施方式中,示出在将替换语句中包含的单词的不同表述统一后求出平均似然度的实施方式。由此,会取得如下效果:能够抑制替换语句的似然度的偏差并更高精度地估算似然度。
图18是示出实施方式2的语言模型生成装置100的结构的框图。关于语言模型生成装置100的结构,除了使似然度计算部106参照不同表述存储部114以外,其余都与实施方式1相同。
图19是示出实施方式2的不同表述存储部114存储的数据的例子的图。不同表述存储部114对应地存储意思相同而表述不同的单词。“いい”、“よい”和“良い”、“かわいい”和“可愛い”均是相同意思的不同表述。
在图8的步骤S25中,似然度计算部106在计算各替换语句的平均似然度时,参照不同表述存储部114,除了相同表述的替换语句以外还对不同表述的替换语句的似然度全部进行算术平均,求出平均似然度。
图20是示出实施方式2的将不同表述统一后的替换语句及其平均似然度的列表601的图。在图20中,与实施方式1的图12相比,将“いい音で聴く”、“良い音で聴く”和“よい音で聴く”统一为“いい音で聴く”。此外,将“かわいい声で聞く”、“可愛い声で聞く”统一为“かわいい声で聞く”。
似然度计算部106把将不同表述统一后的替换语句及其平均似然度的列表601输出到替换语句提取部107。
在图8的步骤S26中,替换语句提取部107提取替换语句中的平均似然度小于阈值的替换语句。阈值与实施方式1同样为2.68。
图21是示出实施方式2的具有小于阈值的平均似然度的替换语句的列表602的图。
替换语句提取部107将具有小于阈值的平均似然度的替换语句的列表602输出到语言模型生成部108。
另外,虽然在本实施方式中,不同表述存储部114预先对应地存储有意思相同而表述不同的单词,似然度计算部106参照不同表述存储部114将不同表述的替换语句统一,但也可以不设置不同表述存储部114,而是由用户指示不同表述的替换语句,似然度计算部106依照该指示将不同表述的替换语句统一。
因此,由于在本实施方式中,计算对包含不同表述的替换语句的多个替换文的似然度进行算术平均而得到的平均似然度,因此,能够抑制因不同表述而引起的替换语句的似然度的偏差,从而更高精度地估算似然度。此外,由于不同表述被统一,因此取得了如下效果:即使是语音识别也会抑制语言模型的似然度的偏差。
实施方式3
在上述实施方式1中记载了使用N元语言模型和替换文通过公知的方法求出PP和覆盖率。在本实施方式中,对求出PP和覆盖率的方法的详细内容进行说明。
在本实施方式中,使用日语的N元语言模型和替换文来说明求出PP和覆盖率的方法。
N元语言模型使用非专利文献1的第147~155页中记载的“CMU-Cambridge SLMToolkit”(以下,称作语言模型生成工具)来生成。词素分析使用非专利文献1的第135页中记载的词素分析器“茶筅”来进行。在词素分析中,开头、文末用<s>标记来表示。此外,PP和覆盖率通过非专利文献1的第153~154页中记载的语言模型的评价方法来求出。
图22是示出实施方式3的原文701的图。
图23是示出实施方式3的替换语句702的图。
图24是示出实施方式3的对原文701进行词素分析而得到的词素分析结果703的图。各行示出1个词素,各个列示出词素的表述、读法、原型、词性。EOS表示文末。
图25是示出实施方式3的根据词素分析结果703转换而成的原文.text文件704的图。在原文.text文件704中,各词素以“表述+读法+词性”示出,与下一个词素之间的分隔用空白表示。
图26是示出实施方式3的使用语言模型制作工具来生成语言模型的顺序705的图。
图27是示出实施方式3的作为N元语言模型的一例的原文.arpa文件706的图。
图28是示出实施方式3的对替换文702进行词素分析而得到的词素分析结果707的图。
图29是示出实施方式3的PP和覆盖率的计算结果708的图。
图30是示出实施方式3的替换文.anno文件709的图。
以下说明详细情况。原文使用图22的原文701,替换文使用图23的替换文702。N元生成部104利用词素分析器“茶筅”对从原文提取部103输入的原文701进行词素分析,得到词素分析结果703。接着,N元生成部104根据词素分析结果703转换为原文.text文件704。接着,N元生成部104通过图26所示的语言模型生成顺序,根据原文.text文件704生成原文.arpa文件706,将原文.arpa文件706作为N元语言模型输出到似然度计算部106。在图27所示的原文.arpa文件706中,作为折扣(discount)方法,示出了Good-Turing的参数值、N元的条目数、1-gram、2-gram、3-gram各自的对数似然度和回退因数。
并且,N元生成部104以与原文701相同的顺序,利用词素分析器“茶筅”对替换文702进行词素分析,得到词素分析结果707。接着,N元生成部104将词素分析结果707转换为替换文.text707,将替换文.text707输出到似然度计算部106。
似然度计算部106根据原文.arpa文件706和替换文.text707,使用语言模型生成工具来计算PP和覆盖率。原文.arpa文件706是从N元生成部104输出的N元语言模型。图29示出PP和覆盖率的计算结果708。在语言模型生成工具中,用evallm指令输入原文.arpa文件,接着,用perplexity指令输入替换文.text,由此得到Perplexity(复杂度)=9.07、OOVs(50.00%)。OOV表示未知词率,根据该结果,得到PP=9.07、覆盖率=100.0-50.0=50.0%。将该计算过程作为替换文.anno文件709输出。
替换文.anno文件709的各行示出能够利用N元语言模型来进行计数的单词的产生概率。对替换文.text707的12个单词能够计算的单词是6行的6个单词,因此,覆盖率为6÷12×100=50而成为50%。此外,能够计算的单词为6个单词,因此,PP=(0.0769308×0.0769308×0.0769308×0.666653×0.0769308×0.0769308)^(-1÷6))=9.0698440,对小数点以后第3位进行四舍五入,成为9.07。另外,为了使计算简单,也可以使用对数几率即logprob。
这样,能够使用原文和替换文,来计算PP和覆盖率。
因此,在本实施方式中,似然度计算部106使用原文和替换文来计算PP和覆盖率,因此,能够计算表示替换文是否与原文的上下文接近的似然度。
标号说明
100、120:语言模型生成装置;101:语句输入部;102:替换语句生成部;103:原文提取部;104:N元生成部;105:替换文提取部;106:似然度计算部;107:替换语句提取部;108:语言模型生成部;110:学***均似然度的列表;703、707:词素分析结果;704:原文.text文件;705:顺序;706:原文.arpa文件;708:PP和覆盖率的计算结果;709:替换文.anno文件。

Claims (9)

1.一种语言模型生成装置,其特征在于,该语言模型生成装置具有:
替换语句生成部,其使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及
语言模型生成部,其根据所述生成的多个替换语句和所述学习用的例文生成作为N元模型的语言模型。
2.根据权利要求1所述的语言模型生成装置,其特征在于,
该语言模型生成装置具有:
替换文提取部,其从包含多个句子的语料库中提取包含所述多个替换语句中的任意替换语句的替换文并输出;
原文提取部,其从所述学习用的例文中提取包含所述语句的原文并输出;
似然度计算部,其对似然度进行计算,该似然度表示从所述替换文提取部输入的所述替换文的上下文与从所述原文提取部输入的所述原文的上下文是否接近;以及
替换语句提取部,其提取如下替换文中包含的替换语句,该替换文的所述似然度为与阈值相比表示上下文更接近所述原文的值,
所述语言模型生成部根据由所述替换语句提取部提取出的替换语句和所述学习用的例文来生成作为N元模型的语言模型。
3.根据权利要求2所述的语言模型生成装置,其特征在于,
所述似然度计算部计算对包含同一替换语句的多个替换文的似然度进行算术平均而得到的平均似然度,
所述替换语句提取部提取如下替换文中包含的替换语句,该替换文的所述平均似然度为与所述阈值相比表示上下文更接近所述原文的值。
4.根据权利要求3所述的语言模型生成装置,其特征在于,
所述似然度计算部计算对包含不同表述的替换语句的多个替换文的似然度进行算术平均而得到的平均似然度,作为将不同表述统一后的替换语句的似然度。
5.一种语言模型生成方法,其中,该语言模型生成方法具有:
替换语句生成步骤,使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及
语言模型生成步骤,根据所述生成的多个替换语句和所述学习用的例文生成作为N元模型的语言模型。
6.一种程序,其中,该程序用于使计算机执行以下步骤:
替换语句生成步骤,使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,来生成由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句;以及
语言模型生成步骤,根据所述生成的多个替换语句和所述学习用的例文生成作为N元模型的语言模型。
7.一种语音识别装置,其特征在于,该语音识别装置具有:
语言模型存储部,其存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及所述学习用的例文来生成的;
声音模型存储部,其存储由语音的特征量的图形构成的声音模型;
语音输入部,其被输入语音信号;以及
语音识别部,其使用所述语言模型和所述声音模型来识别所述语音信号,并输出语音识别结果。
8.一种语音识别方法,其中,该语音识别方法具有:
语言模型存储步骤,存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及所述学习用的例文来生成的;
声音模型存储步骤,存储由语音的特征量的图形构成的声音模型;
语音输入步骤,输入语音信号;以及
语音识别步骤,使用所述语言模型和所述声音模型来识别所述语音信号,并输出语音识别结果。
9.一种程序,其中,该有程序用于使计算机执行以下步骤:
语言模型存储步骤,存储作为N元模型的语言模型,该作为N元模型的语言模型是使用由多个句子构成的学习用的例文中包含的语句的各词素、和所述词素的原始表述的近义词,根据由词素的原始表述与词素的原始表述的近义词的组合和各词素的原始表述的近义词彼此间的组合构成的多个替换语句以及所述学习用的例文而生成的;
声音模型存储步骤,存储由语音的特征量的图形构成的声音模型;
语音输入步骤,输入语音信号;以及
语音识别步骤,使用所述语言模型和所述声音模型来识别所述语音信号,并输出语音识别结果。
CN201580083593.5A 2015-10-09 2015-10-09 语言模型生成装置、语言模型生成方法以及记录介质 Expired - Fee Related CN108140019B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/078749 WO2017061027A1 (ja) 2015-10-09 2015-10-09 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム

Publications (2)

Publication Number Publication Date
CN108140019A true CN108140019A (zh) 2018-06-08
CN108140019B CN108140019B (zh) 2021-05-11

Family

ID=58488224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580083593.5A Expired - Fee Related CN108140019B (zh) 2015-10-09 2015-10-09 语言模型生成装置、语言模型生成方法以及记录介质

Country Status (6)

Country Link
US (1) US10748528B2 (zh)
EP (1) EP3349125B1 (zh)
JP (1) JP6312942B2 (zh)
CN (1) CN108140019B (zh)
TW (1) TWI582754B (zh)
WO (1) WO2017061027A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675863A (zh) * 2018-07-03 2020-01-10 上海智臻智能网络科技股份有限公司 语音语料生成方法及装置、语音识别方法及装置
CN110929522A (zh) * 2019-08-19 2020-03-27 网娱互动科技(北京)股份有限公司 一种智能近义词替换方法及***
CN111382251A (zh) * 2018-12-25 2020-07-07 株式会社日立制作所 文本生成方法、文本生成装置以及已学习模型
CN111933129A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备
CN112437956A (zh) * 2018-07-25 2021-03-02 Lg 电子株式会社 语音识别***
WO2022226811A1 (zh) * 2021-04-27 2022-11-03 华为技术有限公司 构建语音识别模型和语音处理的方法和***

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146604B (zh) * 2017-04-27 2020-07-03 北京捷通华声科技股份有限公司 一种语言模型优化方法及装置
KR102102388B1 (ko) * 2017-11-20 2020-04-21 주식회사 마인즈랩 학습 문장 생성 시스템 및 이를 이용한 유사 문장 생성 방법
US11036926B2 (en) * 2018-05-21 2021-06-15 Samsung Electronics Co., Ltd. Generating annotated natural language phrases
US10748526B2 (en) * 2018-08-28 2020-08-18 Accenture Global Solutions Limited Automated data cartridge for conversational AI bots
KR20210043894A (ko) * 2019-10-14 2021-04-22 삼성전자주식회사 전자 장치 및 이의 문장 제공 방법
KR102208387B1 (ko) * 2020-03-10 2021-01-28 주식회사 엘솔루 음성 대화 재구성 방법 및 장치
WO2021215352A1 (ja) * 2020-04-21 2021-10-28 株式会社Nttドコモ 音声データ作成装置
CN111832292B (zh) * 2020-06-03 2024-02-02 北京百度网讯科技有限公司 文本识别处理方法、装置、电子设备和存储介质
CN117057414B (zh) * 2023-08-11 2024-06-07 佛山科学技术学院 一种面向文本生成的多步协作式提示学习的黑盒知识蒸馏方法及***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133003A (ja) * 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置
CN1934570A (zh) * 2004-03-18 2007-03-21 日本电气株式会社 文本挖掘装置和其方法以及程序
JP2008293457A (ja) * 2007-05-22 2008-12-04 Ryoma Terao 言語処理システムおよびプログラム
CN101346717A (zh) * 2003-07-03 2009-01-14 怀特斯莫克公司 用于语言处理的方法和装置
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN102341843A (zh) * 2009-03-03 2012-02-01 三菱电机株式会社 语音识别装置
CN103823794A (zh) * 2014-02-25 2014-05-28 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN103871403A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3628245B2 (ja) 2000-09-05 2005-03-09 日本電信電話株式会社 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7693829B1 (en) * 2005-04-25 2010-04-06 Google Inc. Search engine with fill-the-blanks capability
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
WO2010021368A1 (ja) 2008-08-20 2010-02-25 日本電気株式会社 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JP5276610B2 (ja) 2010-02-05 2013-08-28 日本放送協会 言語モデル生成装置、そのプログラムおよび音声認識システム
WO2012153524A1 (ja) * 2011-05-10 2012-11-15 日本電気株式会社 同義表現判定装置、方法及びプログラム
US20130018650A1 (en) * 2011-07-11 2013-01-17 Microsoft Corporation Selection of Language Model Training Data
US20130103390A1 (en) * 2011-10-21 2013-04-25 Atsushi Fujita Method and apparatus for paraphrase acquisition
CN103971677B (zh) * 2013-02-01 2015-08-12 腾讯科技(深圳)有限公司 一种声学语言模型训练方法和装置
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
JP5932869B2 (ja) * 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
KR102033435B1 (ko) * 2014-11-19 2019-11-11 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133003A (ja) * 2002-10-08 2004-04-30 Mitsubishi Electric Corp 音声認識辞書作成方法及びその装置と音声認識装置
CN101346717A (zh) * 2003-07-03 2009-01-14 怀特斯莫克公司 用于语言处理的方法和装置
CN1934570A (zh) * 2004-03-18 2007-03-21 日本电气株式会社 文本挖掘装置和其方法以及程序
JP2008293457A (ja) * 2007-05-22 2008-12-04 Ryoma Terao 言語処理システムおよびプログラム
CN102341843A (zh) * 2009-03-03 2012-02-01 三菱电机株式会社 语音识别装置
US20120041756A1 (en) * 2009-03-03 2012-02-16 Mitsubishi Electric Corporation Voice recognition device
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN103871403A (zh) * 2012-12-13 2014-06-18 北京百度网讯科技有限公司 建立语音识别模型的方法、语音识别方法及对应装置
CN103823794A (zh) * 2014-02-25 2014-05-28 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
X. LIU ET AL.: "Paraphrastic language models", 《COMPUTER SPEECH AND LANGUAGE》 *
刘鹏远 等: "利用语义词典Web挖掘语言模型的无指导译文消歧", 《软件学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675863A (zh) * 2018-07-03 2020-01-10 上海智臻智能网络科技股份有限公司 语音语料生成方法及装置、语音识别方法及装置
CN112437956A (zh) * 2018-07-25 2021-03-02 Lg 电子株式会社 语音识别***
CN112437956B (zh) * 2018-07-25 2024-03-26 Lg 电子株式会社 语音识别***
CN111382251A (zh) * 2018-12-25 2020-07-07 株式会社日立制作所 文本生成方法、文本生成装置以及已学习模型
CN110929522A (zh) * 2019-08-19 2020-03-27 网娱互动科技(北京)股份有限公司 一种智能近义词替换方法及***
CN111933129A (zh) * 2020-09-11 2020-11-13 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备
WO2022226811A1 (zh) * 2021-04-27 2022-11-03 华为技术有限公司 构建语音识别模型和语音处理的方法和***
WO2022227973A1 (zh) * 2021-04-27 2022-11-03 华为技术有限公司 构建语音识别模型和语音处理的方法和***

Also Published As

Publication number Publication date
EP3349125A1 (en) 2018-07-18
EP3349125A4 (en) 2018-08-29
JP6312942B2 (ja) 2018-04-18
EP3349125B1 (en) 2019-11-20
TW201714167A (en) 2017-04-16
WO2017061027A1 (ja) 2017-04-13
US20190080688A1 (en) 2019-03-14
TWI582754B (zh) 2017-05-11
JPWO2017061027A1 (ja) 2018-03-01
US10748528B2 (en) 2020-08-18
CN108140019B (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN108140019A (zh) 语言模型生成装置、语言模型生成方法及其程序、语音识别装置以及语音识别方法及其程序
Kharitonov et al. Speak, read and prompt: High-fidelity text-to-speech with minimal supervision
Sereno et al. The contribution of segmental and tonal information in Mandarin spoken word processing
US9236047B2 (en) Voice stream augmented note taking
CN111460213B (zh) 一种基于多模态学习的音乐情感分类方法
Mairesse et al. Can prosody inform sentiment analysis? experiments on short spoken reviews
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN110727880A (zh) 一种基于词库与词向量模型的敏感语料检测方法
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
Ranjan et al. A comparative study on code-mixed data of Indian social media vs formal text
King et al. Greater early disambiguating information for less-probable words: The lexicon is shaped by incremental processing
Konlea et al. Domain and task adaptive pretraining for language models
Baghdasaryan ArmSpeech: Armenian spoken language corpus
Guillaume et al. Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource settings
Vadapalli et al. Learning continuous-valued word representations for phrase break prediction
CN108899016B (zh) 一种语音文本规整方法、装置、设备及可读存储介质
Mitrofan et al. Adapting the TTL Romanian POS Tagger to the Biomedical Domain.
JP6067616B2 (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
Vasconcellos et al. Analyzing polarization and toxicity on political debate in brazilian TikTok videos transcriptions
Safonova et al. Automatic speech recognition of low-resource languages based on Chukchi
Giancaterino NLP and Insurance-Workshop Results at SwissText 2022.
Choi et al. Robust feature extraction method for automatic sentiment classification of erroneous online customer reviews
US20230359837A1 (en) Multilingual summarization of episodes using longformers
Abera et al. Information extraction model for afan oromo news text
WO2020213531A1 (ja) 発話ペア獲得装置、発話ペア獲得方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210511