CN110427459A - 语音识别网络的可视化生成方法、***及平台 - Google Patents

语音识别网络的可视化生成方法、***及平台 Download PDF

Info

Publication number
CN110427459A
CN110427459A CN201910719492.2A CN201910719492A CN110427459A CN 110427459 A CN110427459 A CN 110427459A CN 201910719492 A CN201910719492 A CN 201910719492A CN 110427459 A CN110427459 A CN 110427459A
Authority
CN
China
Prior art keywords
language model
general
speech recognition
corpus
wfst
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910719492.2A
Other languages
English (en)
Other versions
CN110427459B (zh
Inventor
王雪志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201910719492.2A priority Critical patent/CN110427459B/zh
Publication of CN110427459A publication Critical patent/CN110427459A/zh
Application granted granted Critical
Publication of CN110427459B publication Critical patent/CN110427459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开语音识别网络的可视化生成方法,该方法包括:通过人机交互界面接收关键词。从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬虫及对应多个预设Web爬取页面。获取通用语料集。获取特定语料集。训练通用语料集获取通用语言模型及特定语言模型。将通用语言模型的WFST语音识别网络及特定语言模型的WFST语音识别网络并联后,结合声学模型以及发音字典,通过组合、确定化、最小化操作合成WFST语音识别网络。通过在同一平台上配置***,加快语言模型的训练速度,缩短产品周期,缩短人力消耗,节约人力成本。同时通过通用语言模型网络及特定语言模型的合并,提高语言识别的准确性及效率。

Description

语音识别网络的可视化生成方法、***及平台
技术领域
本发明属于语音识别的技术领域,尤其涉及语音识别网络的可视化生成方法、***及平台。
背景技术
目前市场上相关可视化语言模型制作***很少,大部分的语言模型制作都是在命令行层面进行定制的。语言模型的制作在语音识别方面举足轻重,各个语音公司都有自己的团队负责模型,但是大部分都是在命令行下进行制作。现有技术中,命令行下进行模型的定制流程不可控,版本不好管理,风险不可控制,流程不够简化。导致上述缺陷的原因在于,在命令行下用各种脚本人工输入命令训练模型导致的。人工在命令行下的训练,缺少持续有效的监督和复查,导致流程不可控,风险不可控。命令行低效的操作不能满足多任务的语言模型训练,流程复杂。同时,在现有技术中,模型制作中的可视化差,不便于模型的制作。
针对上述问题,目前市场上解决这些问题的方法有如下:语言模型训练标准流程的制定、脚本规范化管理、数据的统一管理、开发更多有效脚本,使各个分步骤自动化、安排多人进行交叉复盘等方式。上面提到的这些解决方法并未解决进行融合的问题且未从整体上用一个完整的***去解决问题。
由此可知,现有技术中语音识别时所使用的可视化的语音识别网络,在生成过程中各定制流程不可控,且版本不便于管理,不能满足多任务的语言模型训练。同时,模型制作中的可视性差,不便于多个使用者的同时编辑,从而降低了语音识别模型生成效率及准确性。
发明内容
本发明实施方式提供语言模型的生成方法及单元,用于至少解决上述技术问题之一。
第一方面,提供一种语音识别网络的可视化生成方法,该方法能够运行在Web端,方法包括:
步骤S101,通过人机交互界面接收关键词。从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬取词及对应多个预设Web爬取页面。
步骤S102,根据当前领域字段获取对应的预设爬取词,根据预设爬取词在当前领域字段对应的多个预设Web爬取页面上爬获第一爬取结果,根据第一爬取结果获取通用语料集。
步骤S103,将关键词设为当前爬虫爬取词,根据当前爬虫爬取词在Web端从设定搜索引擎的返回页面中爬获第二爬取结果,根据第二爬取结果获取特定语料集。
步骤S104,基于通用语料集进行训练生成arpa格式的通用语言模型,基于特定语料集进行训练生成arpa格式的特定语言模型。通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号。
步骤S105,将通用语言模型及特定语言模型合并,结合声学模型以及发音字典数据后合成WFST语音识别网络。
在本发明一种优选的实施方式中,步骤S105后还包括,步骤S106,根据多个配置的接口的设定测试集分别测试WFST语音识别网络,获取多个配置的接口的测试识别数据,显示多个配置的接口的测试识别数据,测试识别数据中包括对应的配置的接口的标识信息。
在本发明一种优选的实施方式中,步骤S102中还包括:步骤S1021,通过评分语言模型对通用语料集中的词条打分,获取词条对应的评分,若词条的评分大于设定阀值,则保留词条,若否,则从通用语料集中删除词条。
在本发明一种优选的实施方式中,步骤S103中还包括,步骤S1031,获取特定语料集中各词条在设定搜索引擎中排序,截取设定搜索引擎排序中从第一条向后排序中设定条数的词条更新特定语料集。
在本发明一种优选的实施方式中,步骤S104中基于通用语料集进行训练生成arpa格式的通用语言模型的步骤包括,在人机交互界面上添加设定必选参数按钮,若接收到设定必选参数按钮的选取信息,则基于通用语料集进行训练生成arpa格式的通用语言模型。
步骤S106中根据多个配置的接口的设定测试集分别测试WFST语音识别网络的步骤包括,在人机交互界面上添加设定必选参数按钮,若接收到设定必选参数按钮的选取信息,则根据设定测试集测试WFST语音识别网络。
在本发明一种优选的实施方式中,步骤S105中通用语言模型及特定语言模型合并的步骤为:将通用语言模型转换为WFST形式,将特定语言模型转换为WFST形式,在转换为WFST形式的通用语言模型及转换为WFST形式的特定语言模型的首节点前增加一个起始节点,使通用语言模型及特定语言模型合并。
在本发明一种优选的实施方式中,其中,步骤S102还包括,在人机交互界面上生成步骤S102的运行按键,若步骤S101的运行结束,则启动步骤S102的运行按键。步骤S103还包括,在人机交互界面上生成步骤S103的运行按键,若步骤S102的运行结束,则启动步骤S103的运行按键。
步骤S104还包括,在人机交互界面上生成步骤S104的运行按键,若步骤S103的运行结束,则启动步骤S104的运行按键。步骤S105还包括,在人机交互界面上生成步骤S105的运行按键,若步骤S104的运行结束,则启动步骤S105的运行按键。
第二方面,提供一种语音识别网络的可视化生成***,包括,用户交互单元、通用语料获取单元、特定语料获取单元、语言模型获取单元及WFST语音识别网络获取单元。
用户交互单元,配置为通过人机交互界面接收关键词。从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬取词及对应多个预设Web爬取页面。
通用语料获取单元,配置为根据当前领域字段获取对应的预设爬取词,根据预设爬取词在当前领域字段对应的多个预设Web爬取页面上爬获第一爬取结果,根据第一爬取结果获取通用语料集。
特定语料获取单元,配置为将关键词设为当前爬虫爬取词,根据当前爬虫爬取词在Web端从设定搜索引擎的返回页面中爬获第二爬取结果,根据第二爬取结果获取特定语料集。
语言模型获取单元,配置为基于通用语料集进行训练生成arpa格式的通用语言模型,基于特定语料集进行训练生成arpa格式的特定语言模型。通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号。
WFST语音识别网络获取单元,将通用语言模型及特定语言模型合并,结合声学模型以及发音字典数据后合成WFST语音识别网络。
在本发明可视化生成***的一种优选的实施方式中,包括,测试单元。
测试单元,配置为根据多个配置的接口的设定测试集分别测试WFST语音识别网络,获取多个配置的接口的测试识别数据,显示多个配置的接口的测试识别数据,测试识别数据中包括对应的配置的接口的标识信息。
第三方面,本发明的提供了语音识别网络的可视化生成平台,平台上加载本发明中的语音识别网络的可视化生成***,***能够使多个开发组同时操作,多个开发组的每组中包括多个开发者,每个开发者能够使用一个独立单元。独立单元为本发明中的语音识别网络的可视化生成***中的可视化生成***中的单一单元。
可视化生成平台,配置为能够存储多个开发组中生成或使用的通用语言模型及特定语言模型,可视化生成平台根据多个开发组中生成或使用的通用语言模型的版本号及特定语言模型的版本号,建立多个版本号对应关系。
当前开发组能够从可视化生成平台所存储的通用语言模型及特定语言模型中选取当前模型。若当前开发组删除、替换或编辑当前模型,则可视化生成平台根据多个版本号对应关系通知相应开发组,当前开发组根据相应开发组的返回信息操作当前模型。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施方式的方法的步骤。
第五方面,本发明实施方式还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施方式的方法的步骤。
本发明通过对在同一平台上进行***配置,加快语言模型的训练速度,缩短产品周期,并且帮助多用户之间的产品隔离。可缩短人力消耗,节约人力成本。同时通过通用语言模型网络及特定语言模型的合并,提高了语言识别的准确性及效率。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施方式提供的语音识别网络的可视化生成方法的流程图。
图2为本发明另一种实施方式提供的语音识别网络的可视化生成方法的流程图。
图3为本发明一实施方式提供的步骤S102中的细分流程图。
图4为本发明一实施方式提供的步骤S103中的细分流程图。
图5为本发明一实施方式提供的还提供了语音识别网络的可视化生成***的组合示意图。
图6为本发明另一实施方式提供的还提供了语音识别网络的可视化生成***的组合示意图。
图7为本发明又一种实施方式提供的语音识别网络的可视化生成方法的流程图。
图8是本发明一实施方式提供的电子设备的结构示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
本发明一方面,提高了语音识别网络的可视化生成方法,该方法能够运行在Web端,如图1所示,本发明中的语音识别网络的可视化生成方法包括:
步骤S101,获取关键词及通用领域字段。
本步骤中,通过人机交互界面接收关键词;从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬取词及对应多个预设Web爬取页面。
例如,多个通用领域字段包括“电路”、“化学”、“机械”3个通用领域字段。将上述3个字段显示在用户端的交互界面上。如,用户在交互界面上选择“电子”,作为当前的通用领域字段。其用户端进行交互界面显示的设备为智能终端设备或触屏设备。在用户端本地或与用户端本地能够实现远程连接的远程端,预存“电子”、“化学”、“机械”所对应的多个预设爬虫程序或信息,以及与“电子”、“化学”、“机械”所对应的Web爬取页面信息。如与“电子”所对应的Web爬取页面信息为电子行业在科普、应用等场合下使用的网站Web爬取网页。
另外,用户通过用户在交互界面输入关键词。该关键词是指用户在与通用领域字段对应的领域中,所对应的特别需要识别的字段。如当用户选择的用户领域字段为“电路”时,其输入关键词可以为“分离器件电路”、“集成器件电路”及“模拟电路”等专用电路术语。从而有利于提高语料的准备性。
步骤S102,获取通用语料集。
本步骤中,根据当前领域字段获取对应的预设爬取词,根据预设爬取词在当前领域字段对应的多个预设Web爬取页面上爬获第一爬取结果,根据第一爬取结果获取通用语料集。
步骤S103,获取特定语料集。
本步骤中,将关键词设为当前爬虫爬取词,根据当前爬虫爬取词在Web端从设定搜索引擎的返回页面中爬获第二爬取结果,根据第二爬取结果获取特定语料集。
步骤S104,获取通用语言模型及特定语言模型。
本步骤中,基于通用语料集进行训练生成arpa格式的通用语言模型,基于特定语料集进行训练生成arpa格式的特定语言模型;通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号。
步骤S105,合成WFST语音识别网络。
将通用语言模型及特定语言模型合并,结合声学模型以及发音字典数据后合成WFST语音识别网络。
从而,通过将通用语言模型的WFST语音识别网络与特定语言模型的WFST语音识别网络的并联,在语音识别中,可以兼顾通用语言识别及特定语言识别,并且能在同一识别网络中聚合两种识别方式,提高了在某一特定领域中,语言识别的准确性。
在一种优选的实施方式中,如图2所示,步骤S105后还包括,
步骤S106,测试WFST语音识别网络。
本步骤中,根据多个配置的接口的设定测试集分别测试WFST语音识别网络,获取多个配置的接口的测试识别数据,显示多个配置的接口的测试识别数据,测试识别数据中包括对应的配置的接口的标识信息。
在一种优选的实施方式中,如图3所示,步骤S102中还包括:
步骤S1021,对通用语料集中的词条打分。
本步骤中,通过评分语言模型对通用语料集中的词条打分,获取词条对应的评分,若词条的评分大于设定阀值,则从通用语料集中保留该词条,若否,则从通用语料集中删除该词条。从而对通用语料集中的词条的筛选,降低词条的偏差率且可降低词条存储空间,提高词条运算速度。
在一种优选的实施方式中,如图4所示,步骤S103中还包括:
步骤S1031,特定语料集词条优化。
本步骤中,获取特定语料集中各词条在设定搜索引擎中排序,截取设定搜索引擎排序中从第一条向后排序中设定条数的词条更新特定语料集。从而,对特定语料集中的词条进行优化,选择使用频率较高的词,提高词条通用性、降低词条存储空间,进而提高词条运算速度。
在一种优选的实施方式中,步骤S104中基于通用语料集进行训练生成arpa格式的通用语言模型的步骤包括,
在人机交互界面上添加设定必选参数按钮,若接收到设定必选参数按钮的选取信息,则基于通用语料集进行训练生成arpa格式的通用语言模型。
步骤S106中根据多个配置的接口的设定测试集分别测试WFST语音识别网络的步骤包括,
在人机交互界面上添加设定必选参数按钮,若接收到设定必选参数按钮的选取信息,则根据设定测试集测试WFST语音识别网络。
通过设置“必选参数”,从而提供开发者在开发过程中的差错率,进而提高开发质量。
在一种优选的实施方式中,步骤S105中将将通用语言模型的WFST语音识别网络及特定语言模型的WFST语音识别网络并联的步骤为:将通用语言模型转换为WFST形式,将特定语言模型转换为WFST形式,在转换为WFST形式的通用语言模型及转换为WFST形式的特定语言模型的首节点前增加一个起始节点,使通用语言模型及特定语言模型合并。
在一种优选的实施方式中,步骤S102还包括,在人机交互界面上生成步骤S102的运行按键,若步骤S101的运行结束,则启动步骤S102的运行按键。步骤S103还包括,在人机交互界面上生成步骤S103的运行按键,若步骤S102的运行结束,则启动步骤S103的运行按键。
步骤S104还包括,在人机交互界面上生成步骤S104的运行按键,若步骤S103的运行结束,则启动步骤S104的运行按键。
步骤S105还包括,在人机交互界面上生成步骤S105的运行按键,若步骤S104的运行结束,则启动步骤S105的运行按键。
一方面提高了操作过程的可视化,限制开发者按执行或开发顺序,提高了语音识别网络模型生成的一致性及规范性,同时因减少误操作提高了开发效率。
在本发明的另一种方面,如图5所示,本发明还提供了语音识别网络的可视化生成***。该***包括,用户交互单元101、通用语料获取单元201、特定语料获取单元301、语言模型获取单元401及WFST语音识别网络获取单元501。
用户交互单元101,配置为通过人机交互界面接收关键词;从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬取词及对应多个预设Web爬取页面。
通用语料获取单元201,配置为根据当前领域字段获取对应的预设爬取词,根据预设爬取词在当前领域字段对应的多个预设Web爬取页面上爬获第一爬取结果,根据第一爬取结果获取通用语料集。
特定语料获取单元301,配置为将关键词设为当前爬虫爬取词,根据当前爬虫爬取词在Web端从设定搜索引擎的返回页面中爬获第二爬取结果,根据第二爬取结果获取特定语料集。
语言模型获取单元401,配置为基于通用语料集进行训练生成arpa格式的通用语言模型,基于特定语料集进行训练生成arpa格式的特定语言模型;通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号。
WFST语音识别网络获取单元501,配置为将将通用语言模型及特定语言模型合并,结合声学模型以及发音字典数据后合成WFST语音识别网络。
在本发明的语音识别网络的可视化生成***的一种实施方式中,如图6所示,还包括,测试单元601。测试单元601配置为根据多个配置的接口的设定测试集分别测试WFST语音识别网络,获取多个配置的接口的测试识别数据,显示多个配置的接口的测试识别数据,测试识别数据中包括对应的配置的接口的标识信息。
在本发明的再一个方面,还体用了语音识别网络的可视化生成平台,平台上加载本发明中的语音识别网络的可视化生成***。该***能够使多个开发组同时操作,多个开发组的每组中包括多个开发者,每个开发者能够使用一个独立单元。独立单元为语音识别网络的可视化生成***中的单一单元,例如,用户交互单元101、通用语料获取单元201、特定语料获取单元301、语言模型获取单元401及WFST语音识别网络获取单元501中的一个。
可视化生成平台,配置为能够存储多个开发组中生成或使用的通用语言模型及特定语言模型,且根据多个开发组中生成或使用的通用语言模型的版本号及特定语言模型的版本号,建立多个版本号对应关系。
当前开发组能够从可视化生成平台所存储的通用语言模型及特定语言模型中选取当前模型。若当前开发组删除、替换或编辑当前模型,则可视化生成平台根据多个版本号对应关系通知相应开发组,当前开发组根据相应开发组的返回信息操作当前模型。从而,避免多开发者进行同一平台开发时,因资源共享所造成的资源冲突。提高开发平台的可靠性及一致性。
值得注意的是,本发明公开的实施方式中的单元并不用于限制本公开的方案,另外,还可以通过硬件处理器来实现相关功能模块,例如分离模块也可以用处理器实现,在此不再赘述。
在本发明的另一种实施方式中,提供了另一种语音识别网络的可视化生成方法。该方法包括:
1)因为本软件***是一个完整的平台所以可以通过在程序中进行限制,来让服务器去进行流程控制,避免人为的遗忘执行某个步骤;
上述流程控制包括三方面:
1、当训练模型、测试等过程中设置必选参数按钮,必选项未选,不能继续执行该操作。
2、从训练到测试是一整套流程,有先后顺序,当前面步骤未操作时,后面的步骤显示为灰色。
3、***可以对参数进行验证,例如:检查发音字典与word字典是否匹配,如果不匹配返回错误信息。
2)对版本该软件***可以提供专门的可视化的版本控制,而且可以通过程序检查相关依赖,避免版本之间的由于删除、修改操作更改其他版本;这里的相关依赖是指:在执行删除、修改等操作的时候,***通过查表的形式,查看是否有别的模型用到了该版本模型,并返回待确认提示信息,点击确认后才进行删除、修改
3)因为该软件***是提供一个web操作界面的,所以这个***比在命令行上操作简单。简化了流程操作;
4)通过***程序的方式来进行流程控制、版本控制、及简化流程,这样就能降低语言模型训练的风险。
参考图7,首先,语言模型的制作需要数据来支撑,所以第一步进行语料的管理。这部分语料的搜集包括了网络语料的爬取、人工语料的生成。语料的管理包括了语料的归一化、删除移动等操作。
上述爬取语料分两种:第一种、***中已经设置好一些固定领域的爬虫,当需要某个领域数据时,在web页面上选择好领域开始爬取。第二种:提供关键词的爬取用户在web端填写关键词,然后***爬虫会在各大搜索引擎中搜索,在返回词条中提取文本。筛选文本的方法:通用语言模型进行打分,分数超过某个阈值的时候,保留词条,否则删除;根据词条在搜索引擎中的排列顺序,提取前N的词条。
第二,有了语料之后需要进行arpa语言模型的训练,包含了通用语言模型生成、定制语言模型生成、语言模型管理三部分。上述语言模型管理包括,提供删除、移动的按钮,删除指删除文件***中的语言模型;移动主要是在文件***中进行移动存放位置。
上述训练是指通用语言模型主要是用户通过勾选***设置好的各种大领域的语料进行训练得到。定制语言模型是通过用户提供关键词爬取语料、及直接语料进行训练的语言模型。两者区别主要是语料的选择不同,会在不同的页面进行操作,模型ID上会体现出两者区别
第三,资源管理模块主要是对已经生成的语言模型结合声学模型以及发音字典生成WFST语音识别网络。语言模型结合声学模型以及发音字典生成WFST语音识别网络是通过组合、确定化、最小化的操作进行合并后得到的。通用、定制语言模型的WFST网络union主要是通过两个网络最前面增加一个起始节点,使两个网络并联起来。当识别解码的时候能够搜索通用及定制语言模型的WFST语音识别网络。
为了实现项目定制的目的提供对两个WFST语音识别网络union的操作。资源管理提供给解码模块的输入,所以是连接了语言模型模块和解码模块。该模块还提供了WFST资源管理的功能。
第四,解码测试管理可以统计测试集在新的资源上的性能,主要提供各种配置的接口。
web端通过html、css等前端技术进行搭建,实现可视化的效果。
服务器端用flask搭建调用数据处理、模型训练及测试的接口,与前端进行通信。通过json的形式进行数据的传输。
底层具体的数据处理、模型训练等操作结合开源的工具包,以python语言为载体进行源码编写。
在另一些实施方式中,本发明实施方式还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施方式中的语音信号处理和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
步骤S101,通过人机交互界面接收关键词;从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬虫及对应多个预设Web爬取页面;
步骤S102,根据当前领域对应的预设爬虫,在该当前领域对应的多个预设Web爬取页面上爬取,根据爬取结果获取通用语料集;
步骤S103,将关键词设为当前爬虫,当前爬虫在Web端,从设定搜索引擎的返回页面中爬取,根据爬取结果获取特定语料集;
步骤S104,通过arpa语言模型训练通用语料集获取通用语言模型,通过arpa语言模型训练特定语料集获取特定语言模型;通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号;
步骤S105,将通用语言模型的WFST语音识别网络及特定语言模型的WFST语音识别网络并联后,结合声学模型以及发音字典,通过组合、确定化、最小化操作合成WFST语音识别网络。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施方式中的语音信号处理方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施方式中的语音信号处理方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据语音信号处理单元的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音信号处理单元。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施方式还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音信号处理方法。
图8是本发明实施方式提供的电子设备的结构示意图,如图8所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。语音信号处理方法的设备还可以包括:输入单元730和输出单元740。处理器710、存储器720、输入单元730和输出单元740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施方式语音信号处理方法。输入单元730可接收输入的数字或字符信息,以及产生与信息投放单元的用户设置以及功能控制有关的键信号输入。输出单元740可包括显示屏等显示设备。
上述产品可执行本发明实施方式所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施方式中详尽描述的技术细节,可参见本发明实施方式所提供的方法。
作为一种实施方式,上述电子设备可以应用于语音识别网络的可视化生成平台中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
通过人机交互界面接收关键词;从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬虫及对应多个预设Web爬取页面;
根据当前领域对应的预设爬虫,在该当前领域对应的多个预设Web爬取页面上爬取,根据爬取结果获取通用语料集;
将关键词设为当前爬虫,当前爬虫在Web端,从设定搜索引擎的返回页面中爬取,根据爬取结果获取特定语料集;
通过arpa语言模型训练通用语料集获取通用语言模型,通过arpa语言模型训练特定语料集获取特定语言模型;通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号。
将通用语言模型的WFST语音识别网络及特定语言模型的WFST语音识别网络并联后,结合声学模型以及发音字典,通过组合、确定化、最小化操作合成WFST语音识别网络。
本发明实施方式的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子单元。
以上所描述的单元实施方式仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施方式方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施方式或者实施方式的某些部分的方法。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

Claims (10)

1.语音识别网络的可视化生成方法,该方法能够运行在Web端,所述方法包括:
步骤S101,通过人机交互界面接收关键词;从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬取词及对应多个预设Web爬取页面;
步骤S102,根据所述当前领域字段获取对应的预设爬取词,根据所述预设爬取词在所述当前领域字段对应的多个预设Web爬取页面上爬获第一爬取结果,根据所述第一爬取结果获取通用语料集;
步骤S103,将所述关键词设为当前爬虫爬取词,根据所述当前爬虫爬取词在Web端从设定搜索引擎的返回页面中爬获第二爬取结果,根据所述第二爬取结果获取特定语料集;
步骤S104,基于所述通用语料集进行训练生成arpa格式的通用语言模型,基于所述特定语料集进行训练生成arpa格式的特定语言模型;所述通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号;
步骤S105,将所述通用语言模型及所述特定语言模型合并,结合声学模型以及发音字典数据后合成WFST语音识别网络。
2.根据权利要求1所述的方法,所述步骤S105后还包括,
步骤S106,根据多个配置的接口的设定测试集分别测试所述WFST语音识别网络,获取所述多个配置的接口的测试识别数据,显示所述多个配置的接口的测试识别数据,所述测试识别数据中包括对应的配置的接口的标识信息。
3.根据权利要求1所述的方法,所述步骤S102中还包括:
步骤S1021,通过评分语言模型对通用语料集中的词条打分,获取所述词条对应的评分,若所述词条的评分大于设定阀值,则保留所述词条,若否,则从所述通用语料集中删除所述词条。
4.根据权利要求1所述的方法,所述步骤S103中还包括,
步骤S1031,获取所述特定语料集中各词条在所述设定搜索引擎中排序,截取所述设定搜索引擎排序中从第一条向后排序中设定条数的词条更新所述特定语料集。
5.根据权利要求2所述的方法,所述步骤S104中所述基于所述通用语料集进行训练生成arpa格式的通用语言模型的步骤包括,
在人机交互界面上添加设定必选参数按钮,若接收到所述设定必选参数按钮的选取信息,则基于所述通用语料集进行训练生成arpa格式的通用语言模型;
所述步骤S106中所述根据多个配置的接口的设定测试集分别测试所述WFST语音识别网络的步骤包括,
在人机交互界面上添加设定必选参数按钮,若接收到所述设定必选参数按钮的选取信息,则根据设定测试集测试所述WFST语音识别网络。
6.根据权利要求1所述的方法,所述步骤S105中所述通用语言模型及所述特定语言模型合并的步骤为:
将所述通用语言模型转换为WFST形式,将所述特定语言模型转换为WFST形式,在转换为WFST形式的通用语言模型及转换为WFST形式的特定语言模型的首节点前增加一个起始节点,使所述通用语言模型及所述特定语言模型合并。
7.根据权利要求1所述的方法,其中,
所述步骤S102还包括,在人机交互界面上生成步骤S102的运行按键,若步骤S101的运行结束,则启动所述步骤S102的运行按键;
所述步骤S103还包括,在人机交互界面上生成步骤S103的运行按键,若步骤S102的运行结束,则启动所述步骤S103的运行按键;
所述步骤S104还包括,在人机交互界面上生成步骤S104的运行按键,若步骤S103的运行结束,则启动所述步骤S104的运行按键;
所述步骤S105还包括,在人机交互界面上生成步骤S105的运行按键,若步骤S104的运行结束,则启动所述步骤S105的运行按键。
8.语音识别网络的可视化生成***,包括,用户交互单元、通用语料获取单元、特定语料获取单元、语言模型获取单元及WFST语音识别网络获取单元;
所述用户交互单元,配置为通过人机交互界面接收关键词;从预设的多个通用领域字段中选取当前领域字段,每个通用领域字段对应多个预设爬取词及对应多个预设Web爬取页面;
所述通用语料获取单元,配置为根据所述当前领域字段获取对应的预设爬取词,根据所述预设爬取词在所述当前领域字段对应的多个预设Web爬取页面上爬获第一爬取结果,根据所述第一爬取结果获取通用语料集;
所述特定语料获取单元,配置为将所述关键词设为当前爬虫爬取词,根据所述当前爬虫爬取词在Web端从设定搜索引擎的返回页面中爬获第二爬取结果,根据所述第二爬取结果获取特定语料集;
所述语言模型获取单元,配置为基于所述通用语料集进行训练生成arpa格式的通用语言模型,基于所述特定语料集进行训练生成arpa格式的特定语言模型;所述通用语言模型的文件信息及特定语言模型的文件信息中包括具有标识作用的版本号;
所述WFST语音识别网络获取单元,将所述通用语言模型及所述特定语言模型合并,结合声学模型以及发音字典数据后合成WFST语音识别网络。
9.根据权利要求8所述的***,包括,测试单元;
所述测试单元,配置为根据多个配置的接口的设定测试集分别测试所述WFST语音识别网络,获取所述多个配置的接口的测试识别数据,显示所述多个配置的接口的测试识别数据,所述测试识别数据中包括对应的配置的接口的标识信息。
10.语音识别网络的可视化生成平台,所述平台上加载所述权利要求8或9中的***,所述***能够使多个开发组同时操作,所述多个开发组的每组中包括多个开发者,每个开发者能够使用一个独立单元;所述独立单元为所述权利要求8或9中的可视化生成***中的单一单元;
所述可视化生成平台,配置为能够存储所述多个开发组中生成或使用的通用语言模型及特定语言模型,所述可视化生成平台根据所述多个开发组中生成或使用的所述通用语言模型的版本号及特定语言模型的版本号,建立多个版本号对应关系;
当前开发组能够从所述可视化生成平台所存储的通用语言模型及特定语言模型中选取当前模型;若所述当前开发组删除、替换或编辑所述当前模型,则所述可视化生成平台根据所述多个版本号对应关系通知相应开发组,所述当前开发组根据相应开发组的返回信息操作所述当前模型。
CN201910719492.2A 2019-08-05 2019-08-05 语音识别网络的可视化生成方法、***及平台 Active CN110427459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910719492.2A CN110427459B (zh) 2019-08-05 2019-08-05 语音识别网络的可视化生成方法、***及平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910719492.2A CN110427459B (zh) 2019-08-05 2019-08-05 语音识别网络的可视化生成方法、***及平台

Publications (2)

Publication Number Publication Date
CN110427459A true CN110427459A (zh) 2019-11-08
CN110427459B CN110427459B (zh) 2021-09-17

Family

ID=68414250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910719492.2A Active CN110427459B (zh) 2019-08-05 2019-08-05 语音识别网络的可视化生成方法、***及平台

Country Status (1)

Country Link
CN (1) CN110427459B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145727A (zh) * 2019-12-02 2020-05-12 云知声智能科技股份有限公司 数字串的语音识别方法及装置
CN111933146A (zh) * 2020-10-13 2020-11-13 苏州思必驰信息科技有限公司 语音识别***及方法
CN111951788A (zh) * 2020-08-10 2020-11-17 百度在线网络技术(北京)有限公司 一种语言模型的优化方法、装置、电子设备及存储介质
CN113111642A (zh) * 2020-01-13 2021-07-13 京东方科技集团股份有限公司 自然语言识别模型生成、自然语言处理方法及设备
CN113223522A (zh) * 2021-04-26 2021-08-06 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别***和方法
EP2309487A1 (en) * 2009-09-11 2011-04-13 Honda Research Institute Europe GmbH Automatic speech recognition system integrating multiple sequence alignment for model bootstrapping
CN102760436A (zh) * 2012-08-09 2012-10-31 河南省烟草公司开封市公司 一种语音词库筛选方法
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN109976702A (zh) * 2019-03-20 2019-07-05 青岛海信电器股份有限公司 一种语音识别方法、装置及终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2309487A1 (en) * 2009-09-11 2011-04-13 Honda Research Institute Europe GmbH Automatic speech recognition system integrating multiple sequence alignment for model bootstrapping
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别***和方法
CN102760436A (zh) * 2012-08-09 2012-10-31 河南省烟草公司开封市公司 一种语音词库筛选方法
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN108492820A (zh) * 2018-03-20 2018-09-04 华南理工大学 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN109976702A (zh) * 2019-03-20 2019-07-05 青岛海信电器股份有限公司 一种语音识别方法、装置及终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PALASKAR,SHRUTI等: "END-TO-END MULTIMODAL SPEECH RECOGNITION", 《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
张志楠: "语音Corpus的自动构建和语音最小化标注的研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111145727A (zh) * 2019-12-02 2020-05-12 云知声智能科技股份有限公司 数字串的语音识别方法及装置
CN113111642A (zh) * 2020-01-13 2021-07-13 京东方科技集团股份有限公司 自然语言识别模型生成、自然语言处理方法及设备
CN111951788A (zh) * 2020-08-10 2020-11-17 百度在线网络技术(北京)有限公司 一种语言模型的优化方法、装置、电子设备及存储介质
CN111933146A (zh) * 2020-10-13 2020-11-13 苏州思必驰信息科技有限公司 语音识别***及方法
CN113223522A (zh) * 2021-04-26 2021-08-06 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质
CN113223522B (zh) * 2021-04-26 2022-05-03 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN110427459B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN110427459A (zh) 语音识别网络的可视化生成方法、***及平台
US11030412B2 (en) System and method for chatbot conversation construction and management
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
EP3095113B1 (en) Digital personal assistant interaction with impersonations and rich multimedia in responses
CN106570106A (zh) 一种输入过程中将语音信息转化为表情的方法和装置
CN107077841A (zh) 用于文本到语音的超结构循环神经网络
CN110222827A (zh) 基于文本的抑郁判定网络模型的训练方法
CN109710137A (zh) 用于语音对话平台的技能优先级配置方法及***
CA2365743A1 (en) Apparatus for design and simulation of dialogue
CN109948151A (zh) 构建语音助手的方法
CN108959436A (zh) 用于语音对话平台的词库编辑方法及***
CN109313668B (zh) 构建会话理解***的***和方法
CN110136689A (zh) 基于迁移学习的歌声合成方法、装置及存储介质
CN111081280A (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN109119067A (zh) 语音合成方法及装置
CN112000330B (zh) 建模参数的配置方法、装置、设备和计算机存储介质
CN110349569A (zh) 定制化产品语言模型的训练和识别方法及装置
CN109032731A (zh) 一种面向操作***的基于语义理解的语音互动方法及***
CN110032355A (zh) 语音播放方法、装置、终端设备及计算机存储介质
CN108170676A (zh) 故事创作的方法、***和终端
CN108831444A (zh) 用于语音对话平台的语义资源训练方法及***
CN106844499A (zh) 多轮会话交互方法及装置
CN109657125A (zh) 基于网络爬虫的数据处理方法、装置、设备及存储介质
CN108255956A (zh) 基于历史数据及机器学习自适应获取词库的方法及***
CN110929087A (zh) 一种音频分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant