CN115602160A - 基于语音识别的业务办理方法、装置及电子设备 - Google Patents
基于语音识别的业务办理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN115602160A CN115602160A CN202211214644.1A CN202211214644A CN115602160A CN 115602160 A CN115602160 A CN 115602160A CN 202211214644 A CN202211214644 A CN 202211214644A CN 115602160 A CN115602160 A CN 115602160A
- Authority
- CN
- China
- Prior art keywords
- target
- voice
- service
- target object
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000006870 function Effects 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 206010047571 Visual impairment Diseases 0.000 description 5
- 208000029257 vision disease Diseases 0.000 description 5
- 230000004393 visual impairment Effects 0.000 description 5
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006698 induction Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于语音识别的业务办理方法、装置及电子设备,涉及智能语音识别技术领域。该方法包括:获取目标对象发出的目标语音;基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景;在目标意图场景为业务办理场景时,根据目标语音识别出目标对象的待办业务,并为目标对象办理待办业务。本发明解决了相关技术中,人工为用户办理业务所存在的业务办理成本高的技术问题。
Description
技术领域
本发明涉及智能语音识别技术领域,具体而言,涉及一种基于语音识别的业务办理方法、装置及电子设备。
背景技术
随着语音识别技术的发展,语音识别的应用越来越广泛,不仅解放了人们的双手,还为视力障碍的人士提供了便利。
在业务办理的场景中,例如,在银行业务办理的场景中,通常通过人工方式为用户办理业务。然而,人工办理业务,依赖于工作人员的工作时间,时间成本较高,而且银行还需支付工作人员的劳动报酬。
相关技术中,用户可通过手机等终端***来进行相关业务的办理。此外,为了方便视力障碍的人士,还可使用语音控制的方式进行手机端业务的办理。但手机端通常仅是进行简单的语音设置闹钟、语音问答以及应用软件的跳转操作等,具体的业务办理还需用户手动操作,或者用户到银行网点现场办理。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于语音识别的业务办理方法、装置及电子设备,以至少解决相关技术中,人工为用户办理业务所存在的业务办理成本高的技术问题。
根据本发明实施例的一个方面,提供了一种基于语音识别的业务办理方法,包括:获取目标对象发出的目标语音;基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景;在目标意图场景为业务办理场景时,根据目标语音识别出目标对象的待办业务,并为目标对象办理待办业务。
进一步的,基于语音识别的业务办理方法还包括:在获取目标对象发出的目标语音之前,检测目标区域内是否存在目标对象,并在目标区域内存在目标对象时,生成唤醒指令,其中,唤醒指令用于启动业务办理平台的语音识别功能;和/或,检测是否接收到唤醒语音,并在接收到唤醒语音的情况下,生成唤醒指令,其中,唤醒语音的文本识别结果中至少包含用于启动语音识别功能的关键词。
进一步的,基于语音识别的业务办理方法还包括:在基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景之后,在目标意图场景为对话场景时,获取目标对象发出的对话语音;对对话语音进行语音识别,得到对话语音的对话文本;确定与对话文本所对应的业务界面,并显示业务界面。
进一步的,基于语音识别的业务办理方法还包括:在基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景之后,在目标意图场景为聊天场景时,获取目标对象发出的聊天语音;对聊天语音进行语音识别,得到聊天语音的聊天文本;确定与聊天文本所对应的应答语音,并播放应答语音。
进一步的,基于语音识别的业务办理方法还包括:在基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景之后,在目标意图场景为无意图搜索场景时,获取目标对象发出的搜索语音,其中,无意图搜索场景为不存在与搜索语音对应的搜索结果的场景;对搜索语音进行语音识别,得到搜索语音的搜索文本;获取与搜索文本对应的至少一个模糊词,其中,至少一个模糊词的含义与搜索文本的含义之间的相似度大于预设相似度;确定与至少一个模糊词对应的搜索结果,得到至少一个搜索结果;显示至少一个搜索结果;响应目标对象对至少一个搜索结果的选择操作,确定目标对象所选择的搜索结果为与搜索文本对应的目标搜索结果。
进一步的,基于语音识别的业务办理方法还包括:对目标语音进行文本识别,得到与目标语音对应的目标文本;确定与目标文本对应的至少一个业务;根据至少一个业务的业务数量,确定目标对象的待办业务。
进一步的,基于语音识别的业务办理方法还包括:在业务数量为一个,并且,目标文本对应的业务与目标文本的匹配度大于第一匹配度时,确定目标文本对应的业务为待办业务;在业务数量为多个时,显示多个业务的业务标识,并响应目标对象对多个业务的业务标识的选择操作,确定目标对象所选择的业务标识所对应的业务为待办业务。
根据本发明实施例的另一方面,还提供了一种基于语音识别的业务办理装置,包括:获取模块,用于获取目标对象发出的目标语音;识别模块,用于基于意图识别模型对所述目标语音的意图场景进行识别,得到所述目标对象所对应的目标意图场景;业务办理模块,用于在所述目标意图场景为业务办理场景时,根据所述目标语音识别出所述目标对象的待办业务,并为所述目标对象办理所述待办业务。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的基于语音识别的业务办理方法。
根据本发明实施例的另一方面,还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的基于语音识别的业务办理方法。
在本发明实施例中,采用语音识别用户办理业务的意图的方式,在获取到目标对象发出的目标语音之后,基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景,并在目标意图场景为业务办理场景时,根据目标语音识别出目标对象的待办业务,并为目标对象办理待办业务。
在上述过程中,仅需对目标对象的目标语音进行识别即可实现目标对象的业务办理,全程无需用户手动操作,也无需工作人员介入,从而降低了人工为用户办理业务的业务办理成本,提高了业务办理的效率,也为视力障碍人士提供了便利。另外,在本申请中,还可根据目标对象发出的目标语音进行识别,以识别出目标对象的意图,即仅需对目标对象发出的语音进行识别,即可确定目标对象是否需要办理业务,并且,在确定目标对象需办理业务时,可跳转至业务办理场景中以为目标对象办理业务,即在本申请中,通过语音识别可实现意图场景的跳转,进一步降低了人力成本,实现了业务办理现场无人化、智能化的业务办理。
由此可见,本申请所提供的方案达到了无人化为用户办理业务的目的,从而实现了降低用户业务办理的成本的技术效果,进而解决了相关技术中,人工为用户办理业务所存在的业务办理成本高的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种基于语音识别的业务办理方法的流程图;
图2是根据本发明实施例的一种可选的业务办理终端的示意图;
图3是根据本发明实施例的一种基于语音识别的业务办理装置的示意图;
图4是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本***和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
实施例1
根据本发明实施例,提供了一种基于语音识别的业务办理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
此外,还需要说明的是,设置在业务办理现场的业务办理终端可作为本实施例所提供方法的执行主体,其中,业务办理终端至少具有语音识别以及语音播报功能,能够方便地为普通用户以及视力障碍用户办理业务。另外,在本申请中,业务办理场景可以是但不限于银行业务办理场景,在本实施例中,以办理银行业务为例进行解释说明。
图1是根据本发明实施例的一种可选的基于语音识别的业务办理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取目标对象发出的目标语音。
在步骤S102中,业务办理终端可以具有语音接收单元,例如,麦克风,该语音接收单元能够接收目标对象发出的目标语音,其中,上述目标对象可以为在业务现场办理业务的用户,也可以是正在使用业务办理终端进行闲聊或者搜索的用户;上述的目标语音可以是与用户所要办理的业务相关的词语或语句,也可以是闲聊或者搜索时所使用到的与业务无关的词语或语句。
步骤S104,基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景。
在步骤S104中,意图场景表征了用户所发出的语音所对应的用户意图,例如,用户发出了“手机充值”的语音,其对应的用户意图为对话,则其对应的意图场景为对话场景;例如,用户发出了“转账”的语音,其对应的用户意图为业务办理,则其对应的意图场景为业务办理场景;例如,用户发出了“天气查询”的语音,其对应的用户意图为聊天,则其对应的意图场景为聊天场景;又例如,用户发出了“本地有什么服务”的语音,其对应的用户意图为搜索,则其对应的意图场景为无意图搜索场景。
需要说明的是,意图场景包括但不限于上述四种场景,在实际应用中,还可根据需求调整场景或者新增场景。
另外,意图识别模型可以为一种神经网络模型,在训练该神经网络模型的过程中,首先收集多个用户发出的多个语音,以及多个用户发出多个语音时所对应的意图。然后,对上述的多个用户发出的多个语音进行文本识别,得到语音对应的文本,并使用语音对应的文本进行神经网络的模型训练,同时将与文本相近的文字文本的识别语义结果指向对应的用户意图,从而形成适合各个行业使用的神经网络模型。例如,在训练神经网络模型时,将“查余额”、“我有多少钱”、“余额”等文本作为上述的与语音的文本语义相近的文字文本,并确定最终的意图识别结果只有一个,并且,对于上述的意图识别结果,业务办理终端均确定一个相同的执行动作,例如,对于上述文本,业务办理终端均会跳转到“我的账户”页面。
可选的,在步骤S104中,业务办理终端在接收到目标对象发出的目标语音之后,将该目标语音转换为文本,并将该文本输入至意图识别模型中,意图识别模型即可识别出该文本所对应的用户意图,进而可确定该用户意图所对应的意图场景。
步骤S106,在目标意图场景为业务办理场景时,根据目标语音识别出目标对象的待办业务,并为目标对象办理待办业务。
在步骤S106中,当意图识别模型识别出用户的意图为业务办理时,业务办理终端对目标语音进行识别,并跳转到与识别出的业务所对应的业务办理界面中,并在该业务办理界面为目标对象办理待办业务,例如,当用户(即目标对象)的语音为“附件银行网点”时,业务办理终端跳转到网点服务页面,并为用户显示所查找到的附近的银行网点。
基于上述步骤S102至步骤S106所限定的方案,可以获知,在本发明实施例中,采用语音识别用户办理业务的意图的方式,在获取到目标对象发出的目标语音之后,基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景,并在目标意图场景为业务办理场景时,根据目标语音识别出目标对象的待办业务,并为目标对象办理待办业务。
容易注意到的是,在上述过程中,仅需对目标对象的目标语音进行识别即可实现目标对象的业务办理,全程无需用户手动操作,也无需工作人员介入,从而降低了人工为用户办理业务的业务办理成本,提高了业务办理的效率,也为视力障碍人士提供了便利。另外,在本申请中,还可根据目标对象发出的目标语音进行识别,以识别出目标对象的意图,即仅需对目标对象发出的语音进行识别,即可确定目标对象是否需要办理业务,并且,在确定目标对象需办理业务时,可跳转至业务办理场景中以为目标对象办理业务,即在本申请中,通过语音识别可实现意图场景的跳转,进一步降低了人力成本,实现了业务办理现场无人化、智能化的业务办理。
由此可见,本申请所提供的方案达到了无人化为用户办理业务的目的,从而实现了降低用户业务办理的成本的技术效果,进而解决了相关技术中,人工为用户办理业务所存在的业务办理成本高的技术问题。
在一种可选的实施例中,图2示出了一种可选的业务办理终端的示意图,由图2可知,业务办理终端至少包括显示屏、唤醒单元、语音识别单元、意图识别单元以及业务办理单元。其中,显示屏可以为触控显示屏,其不仅可以显示与用户语音对应的反馈结果,还可接收用户的触控指令(例如,选择指令)。唤醒单元用于唤醒业务办理终端的语音识别功能,如图2所示,唤醒单元可以采用人体感应唤醒和语音唤醒两种方式唤醒语音识别功能。
对于人体感应唤醒,在获取目标对象发出的目标语音之前,业务办理终端检测目标区域内是否存在目标对象,并在目标区域内存在目标对象时,生成唤醒指令,其中,唤醒指令用于启动业务办理平台的语音识别功能。
上述的目标区域可以是制动区域,例如,设置在业务办理终端前的一个固定区域。在该场景下,业务办理终端识别目标区域内是否有人,如果检测到目标区域内有人,则业务办理终端自动启动语音识别功能。
需要说明的是,业务办理终端可通过图像识别的方式来检测目标区域内是否有人,例如,业务办理终端可检测目标区域内的红外图像,识别红外图像中的热量,并根据热量的分布图来确定目标区域内是否有人。另外,相关技术中识别目标区域内是否有人的其他方式也可应用在本申请中,在此不再详细举例。
对于语音唤醒,在获取目标对象发出的目标语音之前,业务办理终端检测是否接收到唤醒语音,并在接收到唤醒语音的情况下,生成唤醒指令,其中,唤醒语音的文本识别结果中至少包含用于启动语音识别功能的关键词。例如,用户通过发出“启动语音唤醒功能”的语音的方式来启动语音识别功能。
需要说明的是,无论人体感应唤醒,还是语音唤醒,均通过无接触式的方式唤醒业务办理终端的语音识别功能,该过程无需用户操作,简化了用户的操作流程,也提升了视力障碍人士的使用体验。
另外,在图2中,业务办理终端还具有显示屏,在用户通过唤醒单元唤醒语音识别功能之后,唤醒单元向显示屏发送控制信号,以控制显示屏显示与语音识别功能有关的界面,通过视觉的方式提醒用户目前已进入语音识别功能,用户可通过语音的方式与业务办理终端互动。
进一步的,如图2所示,在唤醒业务办理终端的语音识别功能之后,用户即可发出目标语音,此时业务办理终端的语音识别单元对目标语音进行识别,并将识别结果识别为文本,显示在业务办理终端的显示屏中,以便用户确认语音识别单元是否识别准确,并在识别错误时,重新输入语音或者对识别出的文本进行修改,以保证业务办理终端能够准确的识别出用户的意图。
更进一步的,在图2中,在识别出目标语音所对应的文本之后,语音识别单元将识别出的文本输入至意图识别单元中的意图识别模型中,以对目标对象的意图进行识别。由图2可知,意图识别模型可根据用户的语音对应的文本识别出至少四种意图场景,即业务办理场景、对话场景、聊天场景及无意图搜索场景。
在一种可选的实施例中,在目标意图场景为对话场景时,业务办理终端获取目标对象发出的对话语音,并对对话语音进行语音识别,得到对话语音的对话文本,然后,确定与对话文本所对应的业务界面,并显示业务界面。
可选的,如图2所示,在对话场景中,需要用户单次或多次输入语音以使业务办理终端跳转的具体页面,例如,例如,用户输入“手机充值”的语音,此时,意图识别模型识别出用户的意图,向用户反馈“请输入充值的手机号码”的语音。在用户通过语音输入手机号码,或者通过对业务办理终端的显示屏的触控点击控制的方式输入手机号码之后,业务办理终端向用户反馈“请输入充值的金额”的语音。在用户通过语音输入金额,或者通过对业务办理终端的显示屏的触控点击控制的方式输入金额之后,业务办理终端的显示屏中显示手机充值的业务界面,使用户确认输入的手机号码以及金额是否准确。在用户确认输入的手机号码以及金额准确无误之后,业务办理终端提醒用户输入支付账号和密码,并根据用户输入的支付账号和密码完成手机充值。
在一种可选的实施例中,在目标意图场景为聊天场景时,业务办理终端获取目标对象发出的聊天语音,并对聊天语音进行语音识别,得到聊天语音的聊天文本,然后,确定与聊天文本所对应的应答语音,并播放应答语音。
可选的,如图2所示,在聊天场景中,业务办理终端仅对用户输入的语音信息进行语音回答,并不会进行相关场景或业务界面的跳转。在该场景中,业务办理终端仅对用户的日常询问语音进行文本转换,对转换后的文本进行识别,并确定识别后的文本所对应的应答语音,例如,用户输入的聊天语音为“你叫什么名字”,则业务办理终端播放“我叫***”的语音;又例如,用户输入的聊天语音为“你多大了”,则业务办理终端播放“我*岁了”的语音。
在一种可选的实施例中,在目标意图场景为无意图搜索场景时,业务办理终端获取目标对象发出的搜索语音,并对搜索语音进行语音识别,得到搜索语音的搜索文本。然后,获取与搜索文本对应的至少一个模糊词,确定与至少一个模糊词对应的搜索结果,得到至少一个搜索结果,并显示至少一个搜索结果。最后,响应目标对象对至少一个搜索结果的选择操作,确定目标对象所选择的搜索结果为与搜索文本对应的目标搜索结果。其中,无意图搜索场景为不存在与搜索语音对应的搜索结果的场景,至少一个模糊词的含义与搜索文本的含义之间的相似度大于预设相似度。
可选的,如图2所示,在无意图搜索场景中,业务办理终端根据用户输入的语音信息无法匹配到对应的场景,即业务办理终端根据用户输入的语音无法确定用户的意图属于业务办理场景、对话场景、聊天场景或者其他场景,此时,业务办理终端将该语音所对应的意图场景确认为无意图搜索场景。
在该场景中,业务办理终端对用户(即目标对象)发出的搜索语音进行文本转换,得到搜索文本,并对搜索文本进行关键词提取处理,得到至少一个模糊词,例如,用户的搜索语音为“本地有什么服务”,则其对应的模糊词为“本地”、“服务”。然后,业务办理终端搜索与“本地”、“服务”相关的业务或问题的应答,并将搜索到的相关业务以及应答显示在业务办理终端的显示界面上,例如,将本地分行页面、本地的推荐特色服务等显示在业务办理终端的显示界面上,以供用户选择,并将用户所选择的结果作为目标搜索结果。
需要说明的是,在确定了目标搜索结果之后,业务办理终端可将用户输入的搜索语音与该目标搜索结果建立关联关系,在后续搜索中,如果其他用户输入的语音与该用户输入的搜索语音相近(例如,相似度大于某一阈值),则优先将该目标搜索结果展示给其他用户,并在多个用户的搜索语音所对应的搜索结果均为目标搜索结果,或者搜索结果均为目标搜索结果的比例达到预设比例时,则后续再有用户发出搜索语音,业务办理终端直接确定该搜索语音对应的搜索结果为该目标搜索结果,并根据目标搜索结果确定对应的意图场景。例如,用户的搜索语音为“买产品”,业务办理终端暂无对应的意图场景,则对搜索语音“买产品”进行模糊匹配,返回存款、保险、理财等产品供用户选择。在大部分输入“买产品”语音的用户均选择了“理财产品”时,则业务办理终端自动建立“买产品”语音与“理财产品”之间的关联关系,后续如果其他用户也输入“买产品”语音,则业务办理终端向该用户展示“理财产品”的相关信息。
此外,还需要说明的是,通过意图识别单元可以对用户输入的语音进行识别,自动判断用户的意图,为实现无人银行的业务办理提供了基础。
更进一步的,在目标意图场景为业务办理场景时,业务办理终端根据目标语音识别出目标对象的待办业务。具体的,业务办理终端对目标语音进行文本识别,得到与目标语音对应的目标文本,并确定与目标文本对应的至少一个业务,然后,根据至少一个业务的业务数量,确定目标对象的待办业务。
其中,在业务数量为一个,并且,目标文本对应的业务与目标文本的匹配度大于第一匹配度时,确定目标文本对应的业务为待办业务;在业务数量为多个时,显示多个业务的业务标识,并响应目标对象对多个业务的业务标识的选择操作,确定目标对象所选择的业务标识所对应的业务为待办业务。
可选的,业务办理终端若能够精准命中待办业务,即与目标文本对应的业务数量为一个,并且该业务与目标文本的相关性比较大,则业务办理终端中的业务办理单元直接跳入到对应的业务场景进行办理,例如,如图2所示,业务办理终端可实现现金业务(例如,存钱、现金提取)、办卡业务(例如,储蓄卡办理、***办理)、安全业务(例如,更改手机号、更改密码)以及转账业务(例如,境内外汇款)等业务的办理。
可选的,业务办理终端若模糊命中待办业务,则在业务办理终端的显示屏上显示多个业务的业务标识,以供用户手动选择。在用户选择后,业务办理终端进入到用户所选择的业务中,为用户办理相关业务。例如,用户选择了“办卡”,则业务办理终端继续提示用户办理储蓄卡还是***,则用户选择了储蓄卡之后,业务办理终端进入到储蓄卡的办理流程中,为用户办理储蓄卡。
由上述内容可知,本申请所提供的方案可实现无接触无按键式操作的业务办理,能够吸引大量的客户,提升用户体验,而且,视障人群也可以通过语音实现操作,大大简化业务场景的跳转,降低了人力成本,实现了线下银行网点无人化、智能化办理业务。
实施例2
根据本发明实施例,还提供了一种基于语音识别的业务办理装置的实施例,其中,图3是根据本发明实施例的一种可选的基于语音识别的业务办理装置的示意图,如图3所示,该装置包括:获取模块301、识别模块303以及业务办理模块305。
其中,获取模块301,用于获取目标对象发出的目标语音;识别模块303,用于基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景;业务办理模块305,用于在目标意图场景为业务办理场景时,根据目标语音识别出目标对象的待办业务,并为目标对象办理待办业务。
可选的,基于语音识别的业务办理装置还包括:第一检测模块以及第二检测模块。其中,第一检测模块,用于在获取目标对象发出的目标语音之前,检测目标区域内是否存在目标对象,并在目标区域内存在目标对象时,生成唤醒指令,其中,唤醒指令用于启动业务办理平台的语音识别功能;第二检测模块,用于检测是否接收到唤醒语音,并在接收到唤醒语音的情况下,生成唤醒指令,其中,唤醒语音的文本识别结果中至少包含用于启动语音识别功能的关键词。
可选的,基于语音识别的业务办理装置还包括:第一获取模块、第一识别模块以及第一显示模块。其中,第一获取模块,用于在基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景之后,在目标意图场景为对话场景时,获取目标对象发出的对话语音;第一识别模块,用于对对话语音进行语音识别,得到对话语音的对话文本;第一显示模块,用于确定与对话文本所对应的业务界面,并显示业务界面。
可选的,基于语音识别的业务办理装置还包括:第二获取模块、第二识别模块以及播放模块。其中,第二获取模块,用于在基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景之后,在目标意图场景为聊天场景时,获取目标对象发出的聊天语音;第二识别模块,用于对聊天语音进行语音识别,得到聊天语音的聊天文本;播放模块,用于确定与聊天文本所对应的应答语音,并播放应答语音。
可选的,基于语音识别的业务办理装置还包括:第三获取模块、第三识别模块、第四获取模块、第一确定模块、第二显示模块以及第二确定模块。其中,第三获取模块,用于在基于意图识别模型对目标语音的意图场景进行识别,得到目标对象所对应的目标意图场景之后,在目标意图场景为无意图搜索场景时,获取目标对象发出的搜索语音,其中,无意图搜索场景为不存在与搜索语音对应的搜索结果的场景;第三识别模块,用于对搜索语音进行语音识别,得到搜索语音的搜索文本;第四获取模块,用于获取与搜索文本对应的至少一个模糊词,其中,至少一个模糊词的含义与搜索文本的含义之间的相似度大于预设相似度;第一确定模块,用于确定与至少一个模糊词对应的搜索结果,得到至少一个搜索结果;第二显示模块,用于显示至少一个搜索结果;第二确定模块,用于响应目标对象对至少一个搜索结果的选择操作,确定目标对象所选择的搜索结果为与搜索文本对应的目标搜索结果。
可选的,业务办理模块包括:第四识别模块、第三确定模块以及第四确定模块。其中,第四识别模块,用于对目标语音进行文本识别,得到与目标语音对应的目标文本;第三确定模块,用于确定与目标文本对应的至少一个业务;第四确定模块,用于根据至少一个业务的业务数量,确定目标对象的待办业务。
可选的,第四确定模块包括:第五确定模块以及第六确定模块。其中,第五确定模块,用于在业务数量为一个,并且,目标文本对应的业务与目标文本的匹配度大于第一匹配度时,确定目标文本对应的业务为待办业务;第六确定模块,用于在业务数量为多个时,显示多个业务的业务标识,并响应目标对象对多个业务的业务标识的选择操作,确定目标对象所选择的业务标识所对应的业务为待办业务。
实施例3
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的基于语音识别的业务办理方法。
实施例4
根据本发明实施例的另一方面,还提供了一种电子设备,其中,图4是根据本发明实施例的一种可选的电子设备的示意图,如图4所示,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的基于语音识别的业务办理方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于语音识别的业务办理方法,其特征在于,包括:
获取目标对象发出的目标语音;
基于意图识别模型对所述目标语音的意图场景进行识别,得到所述目标对象所对应的目标意图场景;
在所述目标意图场景为业务办理场景时,根据所述目标语音识别出所述目标对象的待办业务,并为所述目标对象办理所述待办业务。
2.根据权利要求1所述的方法,其特征在于,在获取目标对象发出的目标语音之前,所述方法还包括:
检测目标区域内是否存在所述目标对象,并在所述目标区域内存在所述目标对象时,生成唤醒指令,其中,所述唤醒指令用于启动业务办理平台的语音识别功能;和/或,
检测是否接收到唤醒语音,并在接收到所述唤醒语音的情况下,生成所述唤醒指令,其中,所述唤醒语音的文本识别结果中至少包含用于启动所述语音识别功能的关键词。
3.根据权利要求1所述的方法,其特征在于,在基于意图识别模型对所述目标语音的意图场景进行识别,得到所述目标对象所对应的目标意图场景之后,所述方法还包括:
在所述目标意图场景为对话场景时,获取所述目标对象发出的对话语音;
对所述对话语音进行语音识别,得到所述对话语音的对话文本;
确定与所述对话文本所对应的业务界面,并显示所述业务界面。
4.根据权利要求1所述的方法,其特征在于,在基于意图识别模型对所述目标语音的意图场景进行识别,得到所述目标对象所对应的目标意图场景之后,所述方法还包括:
在所述目标意图场景为聊天场景时,获取所述目标对象发出的聊天语音;
对所述聊天语音进行语音识别,得到所述聊天语音的聊天文本;
确定与所述聊天文本所对应的应答语音,并播放所述应答语音。
5.根据权利要求1所述的方法,其特征在于,在基于意图识别模型对所述目标语音的意图场景进行识别,得到所述目标对象所对应的目标意图场景之后,所述方法还包括:
在所述目标意图场景为无意图搜索场景时,获取所述目标对象发出的搜索语音,其中,所述无意图搜索场景为不存在与所述搜索语音对应的搜索结果的场景;
对所述搜索语音进行语音识别,得到所述搜索语音的搜索文本;
获取与所述搜索文本对应的至少一个模糊词,其中,所述至少一个模糊词的含义与所述搜索文本的含义之间的相似度大于预设相似度;
确定与所述至少一个模糊词对应的搜索结果,得到至少一个搜索结果;
显示所述至少一个搜索结果;
响应所述目标对象对所述至少一个搜索结果的选择操作,确定所述目标对象所选择的搜索结果为与所述搜索文本对应的目标搜索结果。
6.根据权利要求1所述的方法,其特征在于,根据所述目标语音识别出所述目标对象的待办业务,包括:
对所述目标语音进行文本识别,得到与所述目标语音对应的目标文本;
确定与所述目标文本对应的至少一个业务;
根据所述至少一个业务的业务数量,确定所述目标对象的待办业务。
7.根据权利要求6所述的方法,其特征在于,根据所述至少一个业务的业务数量,确定所述目标对象的待办业务,包括:
在所述业务数量为一个,并且,所述目标文本对应的业务与所述目标文本的匹配度大于第一匹配度时,确定所述目标文本对应的业务为所述待办业务;
在所述业务数量为多个时,显示多个业务的业务标识,并响应所述目标对象对所述多个业务的业务标识的选择操作,确定所述目标对象所选择的业务标识所对应的业务为所述待办业务。
8.一种基于语音识别的业务办理装置,其特征在于,包括:
获取模块,用于获取目标对象发出的目标语音;
识别模块,用于基于意图识别模型对所述目标语音的意图场景进行识别,得到所述目标对象所对应的目标意图场景;
业务办理模块,用于在所述目标意图场景为业务办理场景时,根据所述目标语音识别出所述目标对象的待办业务,并为所述目标对象办理所述待办业务。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的基于语音识别的业务办理方法。
10.一种电子设备,其特征在于,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至7任一项中所述的基于语音识别的业务办理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214644.1A CN115602160A (zh) | 2022-09-30 | 2022-09-30 | 基于语音识别的业务办理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214644.1A CN115602160A (zh) | 2022-09-30 | 2022-09-30 | 基于语音识别的业务办理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115602160A true CN115602160A (zh) | 2023-01-13 |
Family
ID=84843995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211214644.1A Pending CN115602160A (zh) | 2022-09-30 | 2022-09-30 | 基于语音识别的业务办理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115602160A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117059074A (zh) * | 2023-10-08 | 2023-11-14 | 四川蜀天信息技术有限公司 | 一种基于意图识别的语音交互方法、装置及存储介质 |
-
2022
- 2022-09-30 CN CN202211214644.1A patent/CN115602160A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117059074A (zh) * | 2023-10-08 | 2023-11-14 | 四川蜀天信息技术有限公司 | 一种基于意图识别的语音交互方法、装置及存储介质 |
CN117059074B (zh) * | 2023-10-08 | 2024-01-19 | 四川蜀天信息技术有限公司 | 一种基于意图识别的语音交互方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488433B (zh) | 一种适用于银行的提升现场体验感的人工智能交互*** | |
WO2020253362A1 (zh) | 基于情绪分析的业务处理方法、装置、设备及存储介质 | |
CN107665708B (zh) | 智能语音交互方法及*** | |
CN106373575B (zh) | 一种用户声纹模型构建方法、装置及*** | |
CN112182197A (zh) | 话术推荐方法、装置、设备及计算机可读介质 | |
WO2020015479A1 (zh) | 播报语音的确定方法、装置和设备 | |
CN109462482B (zh) | 声纹识别方法、装置、电子设备及计算机可读存储介质 | |
CN110399473B (zh) | 为用户问题确定答案的方法和装置 | |
CN114007131A (zh) | 视频监控方法、装置及相关设备 | |
CN111651571A (zh) | 基于人机协同的会话实现方法、装置、设备及存储介质 | |
CN111599359A (zh) | 人机交互方法、服务端、客户端及存储介质 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN111142834B (zh) | 一种业务处理方法及*** | |
CN113470278A (zh) | 一种自助缴费方法和装置 | |
CN115602160A (zh) | 基于语音识别的业务办理方法、装置及电子设备 | |
CN111881273A (zh) | 问答处理方法、装置 | |
CN111553706A (zh) | 一种刷脸支付方法、装置及设备 | |
CN114817507A (zh) | 基于意图识别的回复推荐方法、装置、设备和存储介质 | |
CN113869969A (zh) | 问答信息处理、商品信息展示方法、设备及存储介质 | |
CN113282725A (zh) | 对话交互的方法、装置、电子设备及存储介质 | |
CN109087647A (zh) | 声纹识别处理方法、装置、电子设备及存储介质 | |
CN113064983A (zh) | 语义检测方法、装置、计算机设备及存储介质 | |
CN111986024A (zh) | 交易处理方法、装置及电子终端 | |
CN114464179B (zh) | 语音交互方法、***、装置、设备及存储介质 | |
CN110765242A (zh) | 一种客服信息的提供方法,装置及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |