CN112837683B - 语音服务方法及装置 - Google Patents
语音服务方法及装置 Download PDFInfo
- Publication number
- CN112837683B CN112837683B CN202011623769.0A CN202011623769A CN112837683B CN 112837683 B CN112837683 B CN 112837683B CN 202011623769 A CN202011623769 A CN 202011623769A CN 112837683 B CN112837683 B CN 112837683B
- Authority
- CN
- China
- Prior art keywords
- model
- voice
- customized
- target
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 14
- 238000011161 development Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013475 authorization Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 12
- 230000003993 interaction Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 235000013550 pizza Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000004659 sterilization and disinfection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种语音服务方法及装置,其中在该方法中,获取用户语音请求中的目标应用标识;检测模型数据库中是否存在与所述目标应用标识对应的目标定制语音模型,所述模型数据库包括多个定制语音模型和相应的应用标识;当检测到存在所述目标定制语音模型时,利用所述目标定制语音模型来确定与所述用户语音请求中用户语音数据所对应的第一语音处理结果;以及根据所述第一语音处理结果,进行反馈服务操作。由此,能够较便捷地满足一些应用运营商的个性化语音服务需求。
Description
技术领域
本发明属于语音处理技术领域,尤其涉及一种语音服务方法及装置。
背景技术
随着现代智能化技术的不断发展,语音技术也在迭代更新,人们对语音服务的要求也逐渐在不断提升和存在多样化发展的趋势,例如语音交互服务、语音识别服务等等。
然而,由于业务个性化需求多样化以及业务数据迭代速度较快,通用型的语音模型已经无法良好地满足用户的个性化需求,例如一些业务可能需要将“xiaodu”识别为“小度”而非“消毒”,需要将“lixueqin”识别为“李雪琴”而非“李雪晴”,等等。
针对上述问题,目前业界暂时并未提供较佳的解决方案。
发明内容
本发明实施例提供一种语音服务方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音服务方法,包括:获取用户语音请求中的目标应用标识;检测模型数据库中是否存在与所述目标应用标识对应的目标定制语音模型,所述模型数据库包括多个定制语音模型和相应的应用标识;当检测到存在所述目标定制语音模型时,利用所述目标定制语音模型来确定与所述用户语音请求中用户语音数据所对应的第一语音处理结果;以及根据所述第一语音处理结果,进行反馈服务操作。
第二方面,本发明实施例提供一种语音服务装置,包括:应用标识获取单元,被配置为获取用户语音请求中的目标应用标识;定制语音模型检测单元,被配置为检测模型数据库中是否存在与所述目标应用标识对应的目标定制语音模型,所述模型数据库包括多个定制语音模型和相应的应用标识;定制语音模型使用单元,被配置为当检测到存在所述目标定制语音模型时,利用所述目标定制语音模型来确定与所述用户语音请求中用户语音数据所对应的第一语音处理结果;以及反馈服务单元,被配置为根据所述第一语音处理结果,进行反馈服务操作。
第三方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明实施例的有益效果在于:
通过查询模型数据库,语音服务平台可以调用与用户语音请求中的目标应用标识相对应的目标定制语音模型,确定针对用户语音数据的语音处理结果,并可以利用相应的语音处理结果来进行反馈服务。由此,应用运营商可以通过在服务器的模型数据库中配置与应用标识相应的定制语音模型,来给用户提供定制化的语音反馈服务,例如在定制语音模型中可以将“xiaodu”识别为“小度”,能够满足运营商的个性化需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例的语音服务方法的一示例的流程图;
图2示出了根据本发明实施例的根据应用模型标识映射表确定目标定制语音模型标识的一示例的流程图;
图3示出了根据本发明实施例的根据第一语音处理结果进行反馈服务操作的一示例的流程图;
图4示出了根据本发明实施例的更新模型数据库的一示例的流程图;
图5示出了根据本发明实施例的根据模型数据源确定第一定制语音模型的一示例的流程图;
图6示出了根据本发明实施例的通过语音服务平台定制语音服务的一示例的流程图;
图7示出了根据本发明实施例的语音服务方法的一示例的流程图;
图8示出了根据本发明实施例的语音服务装置的一示例的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“***”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地***、分布式***中另一元件交互的,和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了根据本发明实施例的语音服务方法的一示例的流程图。关于本发明实施例方法的执行主体,其可以是各种处理器或控制器,例如服务器或语音服务平台中的控制设备。
如图1所示,在步骤110中,获取用户语音请求中的目标应用标识。示例性地,用户可以通过对客户端上的语音应用程序进行操作,从而向服务器发送相应的用户语音请求,以实现诸如语音识别、语音交互或语音唤醒等功能操作。
在步骤120中,检测模型数据库中是否存在与目标应用标识对应的目标定制语音模型。这里,模型数据库包括多个定制语音模型和相应的应用标识。
在一些应用场景下,语音服务平台可以授权多个应用运营商,使得应用运营商可以将各自的定制语音模型上传至服务器,并保存在模型数据库中。
如果在步骤120中的检测结果指示存在目标定制语音模型,则可以跳转至步骤130。如果在步骤120中的检测结果指示不存在目标定制语音模型,则可以跳转至步骤150。
在步骤130中,利用目标定制语音模型来确定与用户语音请求中用户语音数据所对应的第一语音处理结果。
接着,在步骤140中,根据第一语音处理结果,进行反馈服务操作。
在步骤150中,利用通用语音模型来提供反馈服务操作。
通过本发明实施例,语音服务平台可以针对不同的业务应用自动调用不同的定制语音模型,可以满足不同应用运营商的个性化语音服务需求。此外,如果针对某个业务应用不存在相应的定制语音模型,则可以利用通用语音模型来为该业务应用的流量提供服务,可以保障平台的语音业务服务的可靠性。
关于上述步骤120的实施细节,在一些实施方式中,可以根据应用模型标识映射表确定是否存在与目标应用标识相应的目标定制语音模型标识。这里,应用模型标识映射表包括多个应用标识和相应的定制语音模型标识,以及目标定制语音模型标识用于定位模型数据库中相应的目标定制语音模型。
通过本发明实施例,语音服务平台可以利用应用模型标识映射表,在模型数据库中定位与目标应用标识对应的目标定制语音模型,能有效识别模型数据库中是否存在与应用标识相应的定制语音模型,并能快速调用与应用标识对应的定制语音模型。
在一些应用场景下,需要多个语音功能的语音模型协同合作,来提供语音服务,例如声学模型模块、语言模型模块、自然语言理解模型模块和对话管理模型模块,等等。
具体地,在本发明实施例中,定制语音模型包括多个语音模型模块,每一所述语音模型模块分别被配置成具有相应的模型模块标识,以及定制语音模型标识包括一个或多个定制语音模型模块标识。
图2示出了根据本发明实施例的根据应用模型标识映射表确定目标定制语音模型标识的一示例的流程图。
如图2所示,在步骤210中,根据应用模型标识映射表,确定与目标应用标识对应的至少一个目标定制语音模型模块标识。
在步骤220中,针对用于响应用户语音请求的各个语音处理阶段,获取与语音处理阶段相应的语音模型模块类型。具体地,语音服务过程可以是由多个语音处理阶段构成的,每一语音处理阶段分别需要利用相应类型的语音模型模块进行相应的处理操作。示例性地,语音服务类型可以是语音交互服务,在语音交互服务的过程中可能需要依次进行ASR(Automatic Speech Recognition,自动语音识别)阶段,NLU(Natural LanguageUnderstanding,自然语言理解)阶段、DM(Dialogue Management,对话管理)阶段和NLG(Natural Language Generation,自然语言生成)阶段,从而实现与用户之间进行语音交互操作。在ASR阶段可以使用AM(Acoustic Model,声学模型)和LM(Language Model,语言模型),在NLU阶段可以使用NLU模型,在DM阶段可以使用DM模型,以及在NLG阶段使用NLG模型。
在步骤230中,在至少一个目标定制语音模型模块标识中,检测各个语音模型模块类型是否均存在相应的定制语音模型模块标识。
如果在步骤230中的检测结果指示针对第一语音模型模块类型不存在相应的定制语音模型模块标识,则跳转至步骤240。如果在步骤230中的检测结果指示针对各个语音模型模块类型均存在相应的定制语音模型模块标识,则跳转至步骤250。
在步骤240中,利用第一语音模型模块类型所对应的通用语音模型模块来进行相应语音处理阶段的语音处理操作。
在步骤250中,利用各个语音模型模块类型所对应的定制语音模型模块来分别进行相应语音处理阶段的语音处理操作。
在用户语音交互服务场景下,当NLU阶段结束而得到用户意图分类结果时,可以首先提取对轮对话中累积的关键语义槽值信息,然后使用这些信息访问WEB API以在相应的数据库中查询结果,然后根据查询结果使用不同模板生成NLG。在一些实施方式中,WEB API可以是由应用运营商所提供的,其可以用来访问企业知识库。
通过本发明实施例,可以基于目标应用标识进行查表操作,识别在语音服务的不同处理阶段是否都存在相应的定制模型模块,并在各个语音处理阶段均存在相应的定制模型模块时,则均使用相应的定制模型模块来进行对应阶段的语音处理操作。另外,如果在某个语音处理阶段不存在相应的定制模型模块,则可以利用相应的通用模型模块来为该阶段提供服务,使得应用服务商无需为每个阶段都定制相应的功能模型模块,并可以保障语音服务的可靠性。
图3示出了根据本发明实施例的根据第一语音处理结果进行反馈服务操作的一示例的流程图。
在一些应用场景下,应用运营商构建定制模型的目标是为了提高语音处理结果的精确度,而定制模型在处理某些特定音频数据时的精确度可能不如通用模型,此时可以切换由通用模型来提供服务。
如图3所示,在步骤310中,利用通用模型确定用户语音数据所对应的第二语音处理结果。
在步骤320中,根据第一语音处理结果和第二语音处理结果所对应的置信度,从第一语音处理结果和第二语音处理结果中确定目标语音处理结果。示例性地,假设第一语音处理结果具有较高的置信度,则可以将第一语音处理结果作为目标语音处理结果。
在步骤330中,根据目标语音处理结果,进行反馈服务操作。
在本发明实施例中,利用目标定制语音模型和通用语音模型中对应具有较高置信度的语音处理结果来提供服务,可以提高语音模型的识别结果的可靠性,可以降低偏差服务的出现概率。
在目前相关技术中,通过一些技能定制平台或软件开放开发平台,研发人员可以开发定制所需的资源。示例性地,在Dueros hotfix***中,用户可以上传定制文件,例如intent.dic、dict.dic、command.dic这三类文件。具体地,intent.dic每行包含内容有技能标识、意图、说法,***在运行时按照行序进行规则匹配;dict.dic文件内容为说法说的词库名和词库值,词库名会在intent.dic文件的说法说被引用;command.dic文件内容是intent.dic加dict.dic两个文件扩展出来的自然语言文本,用于工作人员后台审核。此外,在工作人员审核通过之后,上传的hotfix资源便可以即时生效。
然而,开发者并不知道之前传过哪些资源,容易造成资源被错误覆盖,无法解决语音识别不准的问题,也不支持定制NLG,还无法与开发者的企业知识库服务关联。
鉴于此,本发明实施例所提供的语音服务平台还可以具有语音服务定制功能。图4示出了根据本发明实施例的更新模型数据库的一示例的流程图。
如图4所示,在步骤410中,获取模型数据源和相应的第一应用标识。
示例性地,应用运营商可以将与所需求的定制语音场景对应的模型数据源和相应的应用标识上传至语音平台服务器。
在一些实施方式中,应用运营商可以通过开发客户端与服务器进行通信交互。具体地,应用运营商可以通过设定链接访问语音服务平台服务器。然后,语音服务平台服务器可以发送平台授权登录通知至开发客户端。之后,开发客户端可以显示具有定制文件上传控件的模型定制界面,并且利用该定制文件上传控件可以上传模型数据源和第一应用标识。然后,语音服务平台服务器可以从开发客户端接收模型数据源和第一应用标识。由此,应用运营商无需API编程,通过可视化操作就可以上传相应的定制资源信息,无需开发用户具有编程经验,有利于推广语音定制服务的业务应用范围。
在步骤420中,根据模型数据源,确定相应的第一定制语音模型。
示例性地,语音平台服务器可以基于模型数据源训练语音模型,从而得到相应的第一定制语音模型。应理解的是,可以利用模型数据源对原有语音模型进行优化训练,还可以利用模型数据源构建全新的语音模型。
在步骤430中,基于第一定制语音模型和第一应用标识,更新模型数据库。
在一些应用场景下,语音服务平台可以接收来自不同应用运营商的相应的模型数据源,并确定相应的定制语音模型来更新模型数据库,能够给予应用运营商更大的业务自由度,能满足语音服务的个性化需求。
图5示出了根据本发明实施例的根据模型数据源确定第一定制语音模型的一示例的流程图。
如图5所示,在步骤510中,在模型数据库中确定与第一应用标识相应的至少一个第二定制语音模型。应理解的是,在一些情况下,应用运营商可能会提供的多项语音服务,故可能存在相应的多个定制语音模型,而在另一些情况下,第二定制语音模型也可以是与上文中用于服务相应语音处理阶段的定制语音模型模块等同。
举例来说,Dueros hotfix***可能没有考虑到在人机对话中ASR识别准确度问题,或者只解决了ASR结果出来之后,后半程的意图分类问题,以及在意图分类之后,人机交互过程可能还需要内容获取、NLG生成和TTS播放这几部分的交互操作。
在步骤520中,检测各个第二定制语音模型所对应的训练数据集是否覆盖模型数据源。
在一些情况下,为了提高ASR识别精确度,可以通过定制声学模型AM和定制语言模型LM来操作,定制AM需要上传几小时的人声音频文件和对应的标注结果到云端声学模型训练***,定制LM需要上传MB级别的文本到云端语言模型训练***。从云端训练***输出的AM和LM要部署到ASR服务运行时环境,之后才能影响最终的ASR结果。
如果在步骤520中的检测结果指示训练数据集覆盖模型数据源,则跳转至步骤530。如果在步骤520中的检测结果指示训练数据集未覆盖模型数据源,则跳转至步骤540。
在步骤530中,拒绝构建相应的第一定制语音模型。示例性地,可以直接向用户反馈资源中已经存在定制内容的通知消息。
在步骤540中,根据模型数据源构建相应的第一定制语音模型。
在本发明实施例中,在应用运营商上传了模型数据源时,语音平台服务器可以识别该应用运营商目前已有的定制语音模型是否能够处理该模型数据源,并在确定已有的定制语音模型能够处理模型数据源时,无需再次进行训练操作,可以节约平台***资源。
图6示出了根据本发明实施例的通过语音服务平台定制语音服务的一示例的流程图。此时,语音服务平台可以起到“干预***”的作用,即用户可以通过上传定制信息至平台,可以干预语音服务结果。
如图6所示,在步骤610中,开发客户端与语音服务平台通过可视化方式进行交互,以上传相应的定制内容。
示例性地,应用运营商的开发者可以通过干预***的页面直观地查看和管理已经上传过的资源。此外,可以将开发者的定制资源(或模型数据源)区分为输入资源和输出资源,输入资源可以包括定制说法和定制词库,输出资源可以包括定制技能、定制意图、定制NLG和企业知识库URL。由此,通过可视化方式管理干预资源,可以提高开发者的用户体验,避免一些人为的失误,比如在上传dict.dic词库文件时,误覆盖已经上传过的词库内容。
通过干预***提供的前端页面,可以帮助开发者或运营人员管理产品对应的原始说法和词库内容,减少开发者或者运营人员上传重复说法等误操作。
在步骤620中,语音服务平台检测所上传的定制内容中是否已经存在训练好的资源。
示例性地,干预***可以先校验开发者通过API上传的输入资源,并在符合接口规范的前提下,干预***首先会对这部分输入内容做哈希值计算,然后用这个哈希值去分布式存储中间件查询,确定是否已经有训练好的资源。如果已经有训练好的模型资源(例如,LM、NLU资源),则直接返回资源训练成功信息给开发者;如果还没有已训练好的模型资源,则跳转至下述步骤630。
在步骤630中,语音服务平台根定制内容训练相应的LM、NLU和DM模型。
示例性地,干预***同时将定制内容传给LM训练服务模块和NLU训练服务模块。如果这两个训练服务模块都返回训练成功的消息,则进行下述部署步骤;否则对开发者返回资源训练失败的消息。
在步骤640中,语音服务平台可以分别将基于定制内容的LM、NLU和DM资源部署至ASR服务配置、NLU服务配置和DM服务配置中。
示例性地,干预***可以分别将LM、NLU和DM资源部署至ASR、NLU和DM服务运行时环境。
在步骤650中,语音服务平台可以将训练模型标识和应用产品标识进行绑定。
示例性地,干预***可以将训练模型标识和开发者产品标识进行绑定,便于通过标识查询操作来识别和定位相应的定制模型。
结合应用场景来说,应用开发用户可以打开浏览器,在前端页面上标注产品标识和原始资源内容,包含定制说法、定制词库、定制技能、定制意图、定制NLG和定制企业知识库URL,并通过前端页面调用干预***上传。在干预***判断请求合法,并且内容哈希值没有训练过之后,干预***可以请求资源训练服务,训练生产ASR、NLU和DM资源,发布训练产生的ASR、NLU、DM模型到各服务运行时使用的分布式数据存储中间件中,并绑定相应的模型标识和应用产品标识。
在一些实施方式中,还可以将干预***或语音服务平台所要完成的上述逻辑都集成至上述用于对定制内容进行训练的资源训练服务模块中,使得集群中可以减少一个服务模块,少维护一个工程。但与此同时,可能需要使用内容哈希作为定制模型的缓存key,使得平台运行逻辑会和训练模型逻辑耦合,可能对线上已有资源训练服务造成不稳定因素。
图7示出了根据本发明实施例的语音服务方法的一示例的流程图。
如图7所示,在步骤710中,用户通过客户端将语音流数据和产品标识上传至语音服务平台,以进行ASR服务操作。
示例性地,可以通过***接入协议将语音流数据和产品标识上传给识别服务,以识别是否存在绑定的定制LM资源。此外,如果存在LM资源,ASR解码器会加载这个定制LM资源和内置AM资源,计算后输出a路ASR结果和置信度,同时ASR解码器会加载内置或通用的LM资源和AM资源,计算后输出b路ASR结果和置信度。当a、b两路结果和置信度都输出之后,可以挑选置信度较高的结果作为最终ASR结果。优选地,还可以在上下文信息中同步记录最终ASR结果来自a路还是b路。
通过本发明实施例,识别服务解码器可以使用内置AM和定制LM输出单独一路识别结果,并根据置信度大小在内置识别结果和定制识别结果中选一个出来。在一些示例中,只要有定制的LM,则最终识别结果通常都是来自定制路,可以实现通过简单的说法和词库的上传操作,快速优化识别结果的精确度。
在步骤720中,中控服务模块根据ASR结果请求NLU服务,以获取相应的语义解析结果。
示例性地,中控服务模块可以首先查询对话***上下文,如果当前识别结果来自该产品的a路,则中控服务模块可以请求干预***查询该产品定制的NLU模型标识,然后在请求NLU服务模块的API中带上此标识和ASR结果;如果当前识别结果来自该产品的b路,则中控服务模块可以直接请求NLU服务模块。NLU服务模块可以根据请求报文是否带有额外的模型标识来决定是使用定制NLU模型还是内置模型(或通用模型)来进行语义解析操作,并将语义解析结果返回给中控服务。在一些实施方式中,语义解析结果可以包含技能信息、意图信息和语义槽值信息。
通过本发明实施例,NLU服务模块在语义解析计算时,可以优先匹配定制说法的输出。比如,内置语义资源会把“我要去拉萨”解析到导航技能,而通过定制NLU模型的技术手段,可以较方便地将“我要去拉萨”解析到音乐技能。
在步骤730中,中控服务模块可以请求DM服务模块来确定相应的回复内容信息,并调用NLG服务模块确定相应的对话回复音频。
示例性地,中控服务模块可以在得到语义解析结果之后,根据对话***上下问题信息,判断该产品是否存在定制DM资源,如果存在则在请求DM服务模块时带上定制模型标识,否则不带。DM服务模块可以根据请求体中是否具有额外模型标识来决定是使用定制DM模型还是内置模型。如果对话过程涉及到内容查询,可能会使用DM定制模型中的URL(例如,通过DSK(Developer Skill Kit,开发者技能套件)协议和开发者自建服务器进行交互,访问企业数据库),此外DM结果所指示的内容可以通过NLG服务模块而得到相应的对话回复音频。由此,DM服务模块在对话计算时,会根据相应配置确定是否访问定制DM模型中企业知识库服务的URL,可以根据产品需求实现定制化回答。
结合应用场景来说,用户按照语音数据接入协议上传产品标识和语音流数据到接入服务,接入服务模块可以请求ASR服务模块,请求报文中携带应用产品标识。ASR服务模块可以利用产品标识请求干预***,查询该应用产品是否有定制的LM模型,并可以通过ASR服务解码器加载定制LM模型进行并行解码,输出a,b两路识别结果,并且最终通过比较置信度大小的方法选择最终识别结果。
接着,ASR服务模块可以将语音识别结果和该识别结果来源信息返回给接入服务模块,以将接收到的语音识别结果和识别结果的来源信息透传给下游的中控服务模块。如果识别结果来源是a路,中控服务模块可以请求干预***获取该产品对应的NLU模型标识,并利用识别结果和NLU模型标识(如果有)请求下游NLU服务模块。
接着,NLU服务模块可以识别是否存在定制NLU模型标识,如果存在,则在语义计算时去分布式存储中间件加载该定制NLU模型,并将语义解析结果返回给中控服务模块。
中控服务模块可以利用语义解析结果和DM模型标识请求下游DM服务模块,以使得DM服务模块识别请求中是否存在定制DM模型标识。如果存在,则在对话计算时去分布式存储中间件加载该定制DM模型。
此外,如果定制DM模型需要使用开发者自建企业知识库,则DM服务模块还可以查询企业知识库,以获得内容查询结果,帮助决策生成最终的NLG,并按原路返回,最终将NLG结果反馈给用户。
通过本发明实施例,可以快速将语音对话过程中识别结果(例如,命中技能、NLG等关键信息)改正成符合预期的其他结果。举例来说,当针对语音识别结果进行干预时,针对新出的热词“李雪琴”在ASR服务内置资源中没有包含“李雪琴”这个人名,此时用户说“我想看李雪琴的脱口秀”,ASR服务模块会识别成“我想看李雪晴的脱口秀“,导致无法命中用户意图。相应地,通过本发明实施例,产品运营人员可以通过界面将“李雪琴”这个人名添加到对应词库就可以快速解决语音识别结果不符合预期的问题。由此,通过干预***,可以实现快速迭代优化模型,满足个性化服务场景的需求,而不需要重新训练或配置内置LM资源,能够实现较少的耗时时间。
结合另一业务场景的示例来进行描述,当针对语义解析结果进行干预时,如果某产品的产品形象想借机宣传公司,希望在用户提出问题“你是谁开发的?”时可以关联到企业知识库服务,由企业自身决定此回复的NLG,例如通过企业知识库可以得到相应的回复结果“我们是来自一家年轻的互联网公司,创始人全部毕业于剑桥大学,专注人工智能赛道”。因此,针对同一问题,不同应用产品可以借助语音服务平台的干预***实现个性化的回复结果。
图8示出了根据本发明实施例的语音服务装置的一示例的结构框图。
如图8所示,语音服务装置800包括应用标识获取单元810、定制语音模型检测单元820、定制语音模型使用单元830和反馈服务单元840。
应用标识获取单元810被配置为获取用户语音请求中的目标应用标识。
定制语音模型检测单元820被配置为检测模型数据库中是否存在与所述目标应用标识对应的目标定制语音模型,所述模型数据库包括多个定制语音模型和相应的应用标识。
定制语音模型使用单元830被配置为当检测到存在所述目标定制语音模型时,利用所述目标定制语音模型来确定与所述用户语音请求中用户语音数据所对应的第一语音处理结果。
反馈服务单元840被配置为根据所述第一语音处理结果,进行反馈服务操作。
上述本发明实施例的装置可用于执行本发明中相应的方法实施例,并相应的达到上述本发明方法实施例所达到的技术效果,这里不再赘述。
本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
另一方面,本发明实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行如上的语音服务方法的步骤。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种语音服务方法,包括:
获取用户语音请求中的目标应用标识;
检测模型数据库中是否存在与所述目标应用标识对应的目标定制语音模型,所述模型数据库包括多个定制语音模型和相应的应用标识;
当检测到存在所述目标定制语音模型时,利用所述目标定制语音模型来确定与所述用户语音请求中用户语音数据所对应的第一语音处理结果;以及
根据所述第一语音处理结果,进行反馈服务操作,
其中,所述检测模型数据库中是否存在与所述目标应用标识对应的目标定制语音模型,包括:
根据应用模型标识映射表确定是否存在与所述目标应用标识相应的目标定制语音模型标识,其中所述应用模型标识映射表包括多个应用标识和相应的定制语音模型标识,以及所述目标定制语音模型标识用于定位所述模型数据库中相应的目标定制语音模型,
其中,所述定制语音模型包括多个语音模型模块,每一所述语音模型模块分别被配置成具有相应的模型模块标识,以及定制语音模型标识包括一个或多个定制语音模型模块标识,
其中,所述根据应用模型标识映射表确定是否存在与所述目标应用标识相应的目标定制语音模型标识,包括:
根据应用模型标识映射表,确定与所述目标应用标识对应的至少一个目标定制语音模型模块标识;
针对用于响应用户语音请求的各个语音处理阶段,获取与所述语音处理阶段相应的语音模型模块类型;
在所述至少一个目标定制语音模型模块标识中,检测各个所述语音模型模块类型是否均存在相应的定制语音模型模块标识;
如果针对第一语音模型模块类型不存在相应的定制语音模型模块标识,则利用所述第一语音模型模块类型所对应的通用语音模型模块来进行相应语音处理阶段的语音处理操作。
2.根据权利要求1所述的方法,其中,所述根据所述第一语音处理结果,进行反馈服务操作,包括:
利用通用模型确定所述用户语音数据所对应的第二语音处理结果;
根据所述第一语音处理结果和所述第二语音处理结果所对应的置信度,从所述第一语音处理结果和所述第二语音处理结果中确定目标语音处理结果;
根据所述目标语音处理结果,进行反馈服务操作。
3.根据权利要求1所述的方法,其中,所述方法还包括:
获取模型数据源和相应的第一应用标识;
根据所述模型数据源,确定相应的第一定制语音模型;
基于所述第一定制语音模型和所述第一应用标识,更新所述模型数据库。
4.根据权利要求3所述的方法,其中,所述根据所述模型数据源,确定相应的第一定制语音模型,包括:
在所述模型数据库中确定与所述第一应用标识相应的至少一个第二定制语音模型;
检测各个所述第二定制语音模型所对应的训练数据集是否覆盖所述模型数据源;
如果覆盖所述模型数据源,则拒绝构建相应的第一定制语音模型;
如果未覆盖所述模型数据源,则根据所述模型数据源构建相应的第一定制语音模型。
5.根据权利要求3所述的方法,其中,所述获取模型数据源和相应的第一应用标识,包括:
发送平台授权登录通知至开发客户端,以使所述开发客户端显示具有定制文件上传控件的模型定制界面,所述定制文件上传控件用于上传模型数据源和第一应用标识;
从所述开发客户端接收所述模型数据源和所述第一应用标识。
6.一种语音服务装置,包括:
应用标识获取单元,被配置为获取用户语音请求中的目标应用标识;
定制语音模型检测单元,被配置为检测模型数据库中是否存在与所述目标应用标识对应的目标定制语音模型,所述模型数据库包括多个定制语音模型和相应的应用标识;
定制语音模型使用单元,被配置为当检测到存在所述目标定制语音模型时,利用所述目标定制语音模型来确定与所述用户语音请求中用户语音数据所对应的第一语音处理结果;以及
反馈服务单元,被配置为根据所述第一语音处理结果,进行反馈服务操作,
其中,定制语音模型检测单元还配置为:
根据应用模型标识映射表确定是否存在与所述目标应用标识相应的目标定制语音模型标识,其中所述应用模型标识映射表包括多个应用标识和相应的定制语音模型标识,以及所述目标定制语音模型标识用于定位所述模型数据库中相应的目标定制语音模型,
其中,所述定制语音模型包括多个语音模型模块,每一所述语音模型模块分别被配置成具有相应的模型模块标识,以及定制语音模型标识包括一个或多个定制语音模型模块标识,
其中,所述根据应用模型标识映射表确定是否存在与所述目标应用标识相应的目标定制语音模型标识,包括:
根据应用模型标识映射表,确定与所述目标应用标识对应的至少一个目标定制语音模型模块标识;
针对用于响应用户语音请求的各个语音处理阶段,获取与所述语音处理阶段相应的语音模型模块类型;
在所述至少一个目标定制语音模型模块标识中,检测各个所述语音模型模块类型是否均存在相应的定制语音模型模块标识;
如果针对第一语音模型模块类型不存在相应的定制语音模型模块标识,则利用所述第一语音模型模块类型所对应的通用语音模型模块来进行相应语音处理阶段的语音处理操作。
7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011623769.0A CN112837683B (zh) | 2020-12-31 | 2020-12-31 | 语音服务方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011623769.0A CN112837683B (zh) | 2020-12-31 | 2020-12-31 | 语音服务方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112837683A CN112837683A (zh) | 2021-05-25 |
CN112837683B true CN112837683B (zh) | 2022-07-26 |
Family
ID=75924318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011623769.0A Active CN112837683B (zh) | 2020-12-31 | 2020-12-31 | 语音服务方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112837683B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593558A (zh) * | 2021-07-28 | 2021-11-02 | 深圳创维-Rgb电子有限公司 | 远场语音适配方法、装置、设备及存储介质 |
CN113793612B (zh) * | 2021-09-15 | 2024-04-09 | 京东科技信息技术有限公司 | 模型服务的更新方法、装置及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10832664B2 (en) * | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
KR20180074210A (ko) * | 2016-12-23 | 2018-07-03 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 방법 |
CN111739519A (zh) * | 2020-06-16 | 2020-10-02 | 平安科技(深圳)有限公司 | 基于语音识别的对话管理处理方法、装置、设备及介质 |
-
2020
- 2020-12-31 CN CN202011623769.0A patent/CN112837683B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112837683A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102204740B1 (ko) | 대화 시스템에서의 의도 불분명 질의를 처리하는 방법 및 시스템 | |
WO2021232957A1 (zh) | 人机对话中的响应方法、对话***及存储介质 | |
CN109804428B (zh) | 计算代理的合成语音选择 | |
US10482884B1 (en) | Outcome-oriented dialogs on a speech recognition platform | |
US20210303798A1 (en) | Techniques for out-of-domain (ood) detection | |
JP2020161153A (ja) | ダイアログ・システムにおけるパラメータ収集および自動ダイアログ生成 | |
CN114424185A (zh) | 用于自然语言处理的停用词数据扩充 | |
US11749276B2 (en) | Voice assistant-enabled web application or web page | |
JP2023530423A (ja) | 堅牢な固有表現認識のためのチャットボットにおけるエンティティレベルデータ拡張 | |
KR102170088B1 (ko) | 인공지능 기반 자동 응답 방법 및 시스템 | |
JP2022547596A (ja) | チャットボットシステムにおける無関係な発話の検出 | |
CN112837683B (zh) | 语音服务方法及装置 | |
US20220020358A1 (en) | Electronic device for processing user utterance and operation method therefor | |
CN116547676A (zh) | 用于自然语言处理的增强型logit | |
CN116583837A (zh) | 用于自然语言处理的基于距离的logit值 | |
CN116235164A (zh) | 聊天机器人的范围外自动转变 | |
EP4252149A1 (en) | Method and system for over-prediction in neural networks | |
CN115148212A (zh) | 一种语音交互方法、智能设备及*** | |
CN111399629A (zh) | 一种终端设备的操作引导方法、终端设备及存储介质 | |
US20240185846A1 (en) | Multi-session context | |
CN117520498A (zh) | 基于虚拟数字人交互处理方法、***、终端、设备及介质 | |
US20220229991A1 (en) | Multi-feature balancing for natural language processors | |
CN111797636B (zh) | 离线语义解析方法及*** | |
US11893996B1 (en) | Supplemental content output | |
US11551695B1 (en) | Model training system for custom speech-to-text models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Co.,Ltd. |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |