CN111540353B - 一种语义理解方法、装置、设备及存储介质 - Google Patents

一种语义理解方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111540353B
CN111540353B CN202010300927.2A CN202010300927A CN111540353B CN 111540353 B CN111540353 B CN 111540353B CN 202010300927 A CN202010300927 A CN 202010300927A CN 111540353 B CN111540353 B CN 111540353B
Authority
CN
China
Prior art keywords
user
letter
understood
pinyin
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010300927.2A
Other languages
English (en)
Other versions
CN111540353A (zh
Inventor
秦邱川
刘引
卢华玮
杨声春
徐欣欣
魏鑫
田成志
汪哲逸
王璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Rural Commercial Bank Co ltd
Original Assignee
Chongqing Rural Commercial Bank Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Rural Commercial Bank Co ltd filed Critical Chongqing Rural Commercial Bank Co ltd
Priority to CN202010300927.2A priority Critical patent/CN111540353B/zh
Publication of CN111540353A publication Critical patent/CN111540353A/zh
Application granted granted Critical
Publication of CN111540353B publication Critical patent/CN111540353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语义理解方法、装置、设备及存储介质,该方法包括:将用户发出的语音转换为文字,由文字中提取其包含的全部关键词,确定每个关键词均为待理解关键词;如果用户发出的语音所用语言为地方语言,则将待理解关键词均转换为拼音,基于字母映射关系确定与拼音中指定字母对应的替换字母,利用每个拼音对应的至少一个替换字母替换对应拼音中的指定字母,得到待理解字符串;字母映射关系为标准语言中所用任意字母与该任意字母在用户所用地方语言中所用字母间的对应关系;将待理解字符串分别与各意图中关键词的拼音分别进行匹配,确定匹配成功时对应意图为用户发出的语音对应语义。提高基于用户发出的语音进行用户意图识别的准确性。

Description

一种语义理解方法、装置、设备及存储介质
技术领域
本发明涉及语义智能处理技术领域,更具体地说,涉及一种语义理解方法、装置、设备及存储介质。
背景技术
不同地区的人民所说的语言并不完全相同,也即不同地区具有不同的地方语言(方言),例如在西南地区的人民都是说西南官话,具体来说,重庆人大多说重庆话、四川人大多说四川话,而重庆话和四川话则是地方语言。对于银行等智能外呼、智能客服有客户语音交互的场景下,由于如西南地区等说话发音的特点与普通话(也即标准语言)并不完全相同(例如有些字的翘舌发成平舌,有些字的后鼻音发成前鼻音等),实现客户语音交互的***常常出现不能准确识别出用户发出的语音所要表达的意图的情况,没有实现真正的语义智能化理解,降低了银行等行业竞争力,同时也影响了用户体验。
综上所述,如何提供一种基于用户发出的语音准确识别用户的意图的技术方案,是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种语义理解方法、装置、设备及存储介质,能够提高基于用户发出的语音进行用户意图识别的准确性,实现真正的语义智能化理解,增加了相应行业的行业竞争力,进而提高了用户体验。。
为了实现上述目的,本发明提供如下技术方案:
一种语义理解方法,包括:
将用户发出的语音转换为对应的文字,由转换得到的文字中提取该文字包含的全部关键词,并确定提取得到的每个关键词均为待理解关键词;
如果所述用户发出的语音所用语言为地方语言,则将所述待理解关键词均转换为对应的拼音,基于预设的字母映射关系确定与所述拼音中包含的指定字母对应的替换字母,利用每个所述拼音对应的至少一个所述替换字母替换对应拼音中的指定字母,得到待理解字符串;其中,所述字母映射关系为标准语言中所用任意字母与该任意字母在所述用户所用地方语言中所用字母间的对应关系;
将所述待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配,确定匹配成功时对应的意图为所述用户发出的语音对应语义。
优选的,确定提取得到的每个关键词均为待理解关键词之后,还包括:
将所述待理解关键词分别与各意图中包含的关键词进行比对,如果存在与所述待理解关键词匹配成功的包含于任意意图中的关键词,则确定该任意意图为所述用户发出的语音对应语义,否则,确定所述用户发出的语音所用语言为地方语言,执行所述将所述待理解关键词均转换为对应的拼音的步骤。
优选的,由转换得到的文字中提取该文字包含的全部关键词,包括:
将转换得到的文字进行分词处理,由分词处理得到的多个词语中选取与当前场景对应的语句结构成分的词语为关键词。
优选的,将所述待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配之后,还包括:
如果不存在与所述待理解字符串匹配成功的包含于任意意图中的关键词,则输出语音提示,以提示所述用户重新以语音形式发出指示。
优选的,如果不存在与所述待理解字符串匹配成功的包含于任意意图中的关键词之后,还包括:
如果已经连续N次确定不存在与所述待理解字符串匹配成功的包含于任意意图中的关键词,则发送命令信息至工作人员对应终端,指示所述工作人员为所述用户提供相应的服务。
优选的,确定出所述用户发出的语音对应语义之后,还包括:
将所述用户发出的语音对应语义进行文字显示,并在所述用户确认显示的文字与所述用户发出的语音对应相对应后,继续执行与所述用户发出的语音对应语义相应的操作。
优选的,执行完成与所述用户发出的语音对应语义相应的操作之后,还包括:
将与所述用户发出的语音对应语义相应的操作已经完成的信息,以语音的形式通知所述用户。
一种语义理解装置,包括:
提取模块,用于:将用户发出的语音转换为对应的文字,由转换得到的文字中提取该文字包含的全部关键词,并确定提取得到的每个关键词均为待理解关键词;
替换模块,用于:如果所述用户发出的语音所用语言为地方语言,则将所述待理解关键词均转换为对应的拼音,基于预设的字母映射关系确定与所述拼音中包含的指定字母对应的替换字母,利用每个所述拼音对应的至少一个所述替换字母替换对应拼音中的指定字母,得到待理解字符串;其中,所述字母映射关系为标准语言中所用任意字母与该任意字母在所述用户所用地方语言中所用字母间的对应关系;
匹配模块,用于:将所述待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配,确定匹配成功时对应的意图为所述用户发出的语音对应语义。
一种语义理解设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述语义理解方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述语义理解方法的步骤。
本发明提供了一种语义理解方法、装置、设备及存储介质,该方法包括:将用户发出的语音转换为对应的文字,由转换得到的文字中提取该文字包含的全部关键词,并确定提取得到的每个关键词均为待理解关键词;如果所述用户发出的语音所用语言为地方语言,则将所述待理解关键词均转换为对应的拼音,基于预设的字母映射关系确定与所述拼音中包含的指定字母对应的替换字母,利用每个所述拼音对应的至少一个所述替换字母替换对应拼音中的指定字母,得到待理解字符串;其中,所述字母映射关系为标准语言中所用任意字母与该任意字母在所述用户所用地方语言中所用字母间的对应关系;将所述待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配,确定匹配成功时对应的意图为所述用户发出的语音对应语义。本申请公开的技术方案中,由对用户发出的语音转换得到的文字中提取其包含的全部关键词,如果用户所用语言为地方语言,则将提取的关键词转换为对应的拼音,并基于字母映射关系确定拼音中指定字母的替换字母,进而利用至少一个替换字母替换对应指定字母后,将替换完成后得到的字符串与预设的各意图包含的关键词的拼音进行匹配,以确定匹配成功的意图为用户需表达的语义;其中,字母映射关系为标准语言中所用任意字母与该任意字母在用户所用地方语言中所用字母间的对应关系;从而通过这种方式,能够将用户发出语音中关键词的拼音转换为标准语言中相同语义的关键词的拼音后,也即将用户发出语音中的关键词的发音转换为标准语言中相同语义的关键词的发音后,再实现相应的语义识别,能够避免由于地方语音发音特点与标准语言不通导致无法准确理解用户发出语音的语义的情况,提高基于用户发出的语音进行用户意图识别的准确性,实现真正的语义智能化理解,增加了相应行业的行业竞争力,进而提高了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语义理解方法的流程图;
图2为本发明实施例提供的一种语义理解装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种语义理解方法的流程图,可以包括:
S11:将用户发出的语音转换为对应的文字,由转换得到的文字中提取该文字包含的全部关键词,并确定提取得到的每个关键词均为待理解关键词。
本发明实施例提供的一种语义理解方法的执行主体可以为对应的语义理解装置,该语义理解装置可以设置于用于与用户实现语音交互的语音交互***中,因此,该语义理解方法的执行主体可以为语音交互***,以下以该语义理解方法的执行主体为语音交互***进行具体说明。
在用户实现语音交互时通常通过说话(也即发出语音)来表达意图,意图可以包括身份确认、还款意愿、还款金额确认等;例如,银行的语音交互***(如智能客服机器人)和用户进行语音交互:“你是李四吗?”若客户回答“是的”或者“我是李四”,则匹配出是本人这一意图,进入是本人这一意图对应的后续流程中,若客户回答不是,匹配出非本人这一意图,则进入非本人这一意图对应的后续流程中。
语音交互***将用户发出的语音转换为对应的文字,具体可以是通过ASR(Automatic Speech Recognition,语音识别)将用户发出的语音转译成文字;然后从转换得到的文字中提取其包含的全部的关键词(转换得到的文字中可能包含一个或者多个关键词),具体可以是采用textRank算法与词性分析结合的方式来提取关键词,这种提取关键词的方式与现有技术中对应技术方案的实现原理一致,具体包括先对文件进行分词处理,得到相应的多个词语,然后可以分析每个词语的词性(比如可以包括名词、动词、形容词、副词等),进而基于当前场景确定选取何种词性的词语作为关键词;其中,基于当前场景确定选取何种词性的词语作为关键词时,需要用户通过语音回答的答案为何种词性,则选取该词性的词语作为关键词,举例说明:如果需要用户通过语音回答的答案为动词,则选取词性为动词的词语作为关键词,如需要用户确定是否还款,则选取“还”或者“不还”等作为关键词;需要如果需要用户通过语音回答的答案为名词,则选取词性为名词的词语作为关键词,如需要用户回答其姓名,则选取“李四”“张三”等作为关键词;通过这种方式实现关键词的提取能够提高关键词为表达用户意图的词语的可能性。
S12:如果用户发出的语音所用语言为地方语言,则将待理解关键词均转换为对应的拼音,基于预设的字母映射关系确定与拼音中包含的指定字母对应的替换字母,利用每个拼音对应的至少一个替换字母替换对应拼音中的指定字母,得到待理解字符串;其中,字母映射关系为标准语言中所用任意字母与该任意字母在用户所用地方语言中所用字母间的对应关系。
如果用户发出的语音所用语言(也即用户讲的话)为不同于标准用语(普通话)的地方语言(方言),则由于发音有问题,在将语音转换成文字时会转换成与用户需要表达的意图不对应的其他文字,对语义理解是有影响的,因此本实施例中如果确定出用户发出的语音所用语言为地方语言,则基于该地方语言的发音特点,利用相似发音纠错,从而实现在语言层面的纠正。
具体来说,首先将提取得到的每个关键词均转换为相应的拼音,也即得到每个关键词的拼音,如关键词“李四”的拼音则为“lisi”,关键词“不还”的拼音则为“buhuan”;在得到每个关键词的拼音后,则可以通过调取的字母映射关系确定与关键词中指定字母对应的替换字母,本申请中的字母均为拼音字母,其中,字母映射关系是基于用户所用地方语言的发音特点制定的,由于用户所用地方语言并不是标准语言,因此在用该地方语言和用标准语言表达同一语义的词语时,所发出的音可能并不相同,而发音不同表现到词语的拼音时则是某些字母不同,此时,这些不同的字母在地方语言中则为指定字母,而在标准语言中则为替换字母,而用户表达同一语义的词语的拼音中位于同样位置的按照标准语言发音得到的字母及按照地方语言发音得到的字母则是在字母映射关系中具有对应关系的字母,也即字母映射关系为标准语言中所用任意字母与该任意字母在用户所用地方语言中所用字母间的对应关系,如“今年”在用标准语言讲出时发音为“jinnian”,而用地方方言讲出时发音则可能为“jinlian”,两种拼音在于第二个字的首个字母标准语音中为“n”,地方语言中为“l”,则地方语言中的“l”则为指定字母,而标准语言中的“n”则为替换字母,此时地方语言中的“l”和标准语言中的“n”则在字母映射关系中具有对应关系,且利用“n”替换地方语言发音中的“l”后则可以得到“今年”的标准语言中的拼音“jinnian”;本实施例中正是利用这一点,在确定出字母映射关系中与提取出的关键词的拼音中指定字母对应的替换字母后,则可以利用至少一个替换字母替换对应的指定字母,从而得到多个字符串,其中,实现上述替换时如果拼音中仅包含一个指定字母,则可以是直接利用替换字母替换该指定字母,如果拼音中包含多于一个的指定字母,则可以是利用任意一个替换字母替换对应的指定字母得到相应的字符串,和/或利用任意2个替换字母替换对应的指定字母得到相应的字符串,...,和/或利用任意m个替换字母替换对应的指定字母得到相应的字符串,m大于或者等于2,同时m小于或者等于拼音中包含的指定字母的总个数,从而能够泛化出多个字符串,通过这种方式得到一切有可能的表示拼音的字符串实现后续匹配操作,一定程度上增加了语义理解的准确性。
另外,在得到待理解字符串时,可以先替换拼音中包含多个字符的字母,再替换包含单个字符的字母,避免在替换完成某包含单个字符的字母后,该字母对应替换字母可以和拼音中其他字符组成指定字母,进而被进行错误的替换,如先替换拼音中的an、en、in等,再替换l->n,避免l->n后,n与a组合多出很多an之类需要继续进行替换。
S13:将待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配,确定匹配成功时对应的意图为用户发出的语音对应语义。
意图则为用户可能表达的语音的语义,可以利用提取待理解关键词的方法实现对意图中关键词的提取,进而将每个待理解字符串分别与每个意图中包含的关键词进行匹配,如果能够具有与待理解字符串匹配成功的包含于任意意图中的关键词,则确定该任意意图为用户发出的语音对应语义,否则,则确定无法实现对用户发出的语音的语义识别。具体来说,可以按照预先为意图排列的顺序依次进行关键词的比对,只要出现匹配成功的情况,则不再继续匹配。另外,本实施例中的匹配成功可以是指完全一致。
一般情况下,用户发出的语音转换得到的文字中包含至少一个关键词,而一个关键词的拼音中包含至少一个指定字母,如果无法由文字中提取到关键词和/或无法由关键词的拼音中定位到指定字母,且用户发出的语音所用语言为方言,则可认为无法对用户发出的语音进行语义识别。
本申请公开的技术方案中,由对用户发出的语音转换得到的文字中提取其包含的全部关键词,如果用户所用语言为地方语言,则将提取的关键词转换为对应的拼音,并基于字母映射关系确定拼音中指定字母的替换字母,进而利用至少一个替换字母替换对应指定字母后,将替换完成后得到的字符串与预设的各意图包含的关键词的拼音进行匹配,以确定匹配成功的意图为用户需表达的语义;其中,字母映射关系为标准语言中所用任意字母与该任意字母在用户所用地方语言中所用字母间的对应关系;从而通过这种方式,能够将用户发出语音中关键词的拼音转换为标准语言中相同语义的关键词的拼音后,也即将用户发出语音中的关键词的发音转换为标准语言中相同语义的关键词的发音后,再实现相应的语义识别,能够避免由于地方语音发音特点与标准语言不通导致无法准确理解用户发出语音的语义的情况,提高基于用户发出的语音进行用户意图识别的准确性,实现真正的语义智能化理解,增加了相应行业的行业竞争力,进而提高了用户体验。
本发明实施例提供的一种语义理解方法,确定提取得到的每个关键词均为待理解关键词之后,还可以包括:
将待理解关键词分别与各意图中包含的关键词进行比对,如果存在与待理解关键词匹配成功的包含于任意意图中的关键词,则确定该任意意图为用户发出的语音对应语义,否则,确定用户发出的语音所用语言为地方语言,执行将待理解关键词均转换为对应的拼音的步骤。
需要说明的是,在提取得到待理解关键词后,可以直接将待理解关键词分别与各意图中的关键词分别进行匹配,如果待理解关键词与任意意图包含的关键词匹配成功(一致),则可以确定该任意意图为用户需要表达的语义,否则,则说明无法实现对用户语义的理解,此时则可以确定用户发出的语音所用语言为地方语言,进而实现后续的操作,从而通过这种方式使得在用户发出语音所用语言为标准语言时能够直接确定出用户所要表达的语义,减少了相关步骤的多余执行,避免了步骤执行资源的浪费。
另外,本申请中所说的匹配成功均是指全部待理解关键词均与任一意图中的全部关键词一致,只有在这种情况下才能确定该任一意图为用户所要表达的语义,或者为用户的意图,否则,则无法充分确定该结论。
本发明实施例提供的一种语义理解方法,由转换得到的文字中提取该文字包含的全部关键词,可以包括:
将转换得到的文字进行分词处理,由分词处理得到的多个词语中选取与当前场景对应的语句结构成分的词语为关键词。
另外在实现关键词提取时还可以是先对文字进行分词处理,然后从分词处理得到的多个词语中选取相应的词语为关键词,其中,在从多个词语中选取关键词时可以是先确定当前场景所需的语句结构成分,进而确定这多个词语中在文字里的语句结构成分为当前场景所需的语句结构成分的词语为关键词,如当前场景为询问用户是否还款,则其所需语句结构成分为谓语,因此在用户返回的“我还款”或者“我暂不还款”中,“还款”或者“不还款”则为当前场景对应语句结构成分的词语;从而通过这种方式使得选取出的关键词与当前场景相对应,一定程度上使得选取出的关键词为最能表达用户语义的关键词,进而提高了用户语义理解的准确性。
本发明实施例提供的一种语义理解方法,将待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配之后,还可以包括:
如果不存在与待理解字符串匹配成功的包含于任意意图中的关键词,则输出语音提示,以提示用户重新以语音形式发出指示。
如果不存在与待理解字符串匹配成功的关键词,则为了使得外界用户获知该信息,可以输出相应的语音提示,如“无法获知您的意图”等,以使得外界用户在得知该提示后能够重新实现语音向语音交互***的输入,方便了用户对于其指示下发情况的获知,提升了用户体验。
本发明实施例提供的一种语义理解方法,如果不存在与待理解字符串匹配成功的包含于任意意图中的关键词之后,还可以包括:
如果已经连续N(N为可以根据实际需要设定的数值,如3、4等)次确定不存在与待理解字符串匹配成功的包含于任意意图中的关键词,则发送命令信息至工作人员对应终端,指示工作人员为用户提供相应的服务。
如果已经连续N次确定不存在与待理解字符串匹配成功的关键词,则说明可能用户继续与语音交互***进行交互也无法使得语音交互***获知其真正意图,因此为了避免对语音交互***的资源浪费,也为了避免用户重新进行语音输入导致的使用体验较差,本实施例中可以将相应的命令信息发送给对应终端,以使得该终端对应的工作人员可以定位到相应的用户进而为该用户提供帮助,帮助其利用语音交互***完成所需实现的操作;并且,命令信息中可以包括用户当前使用的语音交互***的编号或者位置信息等,从而使得工作人员可以快速实现用户的定位,以最快的速度为用户提供其所需的帮助,进一步提升了用户体验。
本发明实施例提供的一种语义理解方法,确定出用户发出的语音对应语义之后,还可以包括:
将用户发出的语音对应语义进行文字显示,并在用户确认显示的文字与用户发出的语音对应相对应后,继续执行与用户发出的语音对应语义相应的操作。
另外,为了避免对用户发出的语音的语义理解有误,本实施例中可以在确定出用户的语音对应语义之后,可以将该语义以文字的方式进行显示,并为提供确认或者重新输入语音的按钮,从而在用户确认后执行与用户表达的语义对应的操作,如引导还款或者引导办卡等;在用户选择重新输入语音后重新实现接收用户发出的语音及对语音的语义进行识别等操作;从而通过这种方式进一步保证了后续操作为用户所需执行操作的准确性,进而提升了用户的使用体验。
本发明实施例提供的一种语义理解方法,执行完成与用户发出的语音对应语义相应的操作之后,还可以包括:
将与用户发出的语音对应语义相应的操作已经完成的信息,以语音的形式通知用户。
需要说明的是,为了使得用户获知其发出语音后相应操作的实现情况,本实施例中可以在将与用户发出的语音对应语义相应操作已经完成的信息语音通知给用户,从而进一步提升了用户的使用体验。
以用户所用语言为重庆话对本申请公开的一种语义理解方法进行详细说明,具体可以包括以下步骤:
1)将对用户发出的语音进行ASR转译后得到的文字进行关键词提取,并将提取得到的关键词与与各意图中的关键词进行匹配,若命中某意图,则进入相应意图,实现相应操作;若全都不命中,则进行后续操作;
2)将由用户语音转译得到的文字中提取的关键词均转换为相应的拼音;
3)调取按照重庆话发音特点制定的字母映射关系:
(平舌、翘舌转换)s<->sh
c<->ch
z<->zh
(前鼻音、后鼻音转换)an<->ang
en<->eng
in<->ing
(l、n转换)l->n(例如重庆话今年发音“jinlian”->“jinnian”)
(h、f转换)f->h
其中,双向箭头表示可双向转换,单向箭头表示可单向转换,并且在实现字母转换时是按照箭头所指方向实现的(如f转换成h,l转换成n);
4)按照字母映射关系,将关键词的拼音泛化出多个字符串;此处的泛化则是指利用标准语言中的替换字母实现重庆话中的指定字母,另外,在实现替换字母的确定及替换(这两个动作可统称为转换)时有先后顺序,具体为先转换包含多个字符的字母,再转换包含单个字符的字母,如先转换an、en、in,再转换l->n,避免l->n后,n与a组合多出很多an之类需要继续进行转换);
5)将泛化出的多个字符串分别与各意图中关键词的拼音进行比对,如存在相同的字符串,则认为命中该意图;若仍然没有相同字符串,则认为未命中任何意图。
为了更好地理解本方案,以下将针对上述描述的流程例举一个银行***催收的使用场景进行说明,在该使用场景中,银行的语音交互***(此处可为智能客服机器人)跟客户进行以下语音交互:
客服机器人:“你好,我是重庆农村商业银行的***中心机器人,请问你是李四先生吗?”
客户(说重庆话):“我是李四。”
客服机器人接收到这条语音后,由于重庆话发音导致的转译问题将其转译成了文字“我是历史”;因此首先按照转译文字“我是历史”,从中提取出关键词“历史”,将其转换成拼音“lishi”;基于字母映射关系,将关键词拼音泛化出多个字符串“lisi”、“nishi”、“nisi”;将泛化出的多个字符串与意图理解中关键词的拼音进行比对,比对后发现,“lisi”是存在相同的字符串,则认为命中该意图,“我是李四”。
若按照现有技术的方案,语音交互***在进行客户身份认证这一流程时,处理“我是历史”时,身份认证通不过,则会停留在核对客户身份信息的步骤,不能进行到下一步骤,需要客户重新语音输入“我是李四”,用户体验较差。通过本实施例的方案,银行语音***能快速地识别出该客户的真正意图,流程能顺利进行,提升用户体验,更加智能化。
综上,本申请公开的技术方案能极大程度地识别出使用地方语言的用户的真正意图,提高智能外呼、智能客服有客户语音交互场景下意图理解的准确性,更加智能化,提升了银行的行业竞争力,同时也提高了对地方方言的语音识别的准确性,提升用户体验。并且,本申请公开的技术方案可应用于任意需要实现语音交互的场景中,如银行***逾期催收、银行***发卡、个人贷款催收等,具有广泛适用性。
本发明实施例还提供了一种语义理解装置,如图2所示,可以包括:
提取模块11,用于:将用户发出的语音转换为对应的文字,由转换得到的文字中提取该文字包含的全部关键词,并确定提取得到的每个关键词均为待理解关键词;
替换模块12,用于:如果用户发出的语音所用语言为地方语言,则将待理解关键词均转换为对应的拼音,基于预设的字母映射关系确定与拼音中包含的指定字母对应的替换字母,利用每个拼音对应的至少一个替换字母替换对应拼音中的指定字母,得到待理解字符串;其中,字母映射关系为标准语言中所用任意字母与该任意字母在用户所用地方语言中所用字母间的对应关系;
匹配模块13,用于:将待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配,确定匹配成功时对应的意图为用户发出的语音对应语义。
本发明实施例提供的一种语义理解装置,还可以包括:
确定模块,用于:确定提取得到的每个关键词均为待理解关键词之后,将待理解关键词分别与各意图中包含的关键词进行比对,如果存在与待理解关键词匹配成功的包含于任意意图中的关键词,则确定该任意意图为用户发出的语音对应语义,否则,确定用户发出的语音所用语言为地方语言,执行将待理解关键词均转换为对应的拼音的步骤。
本发明实施例提供的一种语义理解装置,提取模块可以包括:
提取单元,用于:将转换得到的文字进行分词处理,由分词处理得到的多个词语中选取与当前场景对应的语句结构成分的词语为关键词。
本发明实施例提供的一种语义理解装置,还可以包括:
提示模块,用于:将待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配之后,如果不存在与待理解字符串匹配成功的包含于任意意图中的关键词,则输出语音提示,以提示用户重新以语音形式发出指示。
本发明实施例提供的一种语义理解装置,还可以包括:
指示模块,用于:如果不存在与待理解字符串匹配成功的包含于任意意图中的关键词之后,如果已经连续N次确定不存在与待理解字符串匹配成功的包含于任意意图中的关键词,则发送命令信息至工作人员对应终端,指示工作人员为用户提供相应的服务。
本发明实施例提供的一种语义理解装置,还可以包括:
显示模块,用于:确定出用户发出的语音对应语义之后,将用户发出的语音对应语义进行文字显示,并在用户确认显示的文字与用户发出的语音对应相对应后,继续执行与用户发出的语音对应语义相应的操作。
本发明实施例提供的一种语义理解装置,还可以包括:
通知模块,用于:执行完成与用户发出的语音对应语义相应的操作之后,将与用户发出的语音对应语义相应的操作已经完成的信息,以语音的形式通知用户。
本发明实施例还提供了一种语义理解设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项语义理解方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可以实现如上任一项语义理解方法的步骤。
需要说明的是,本发明实施例提供的一种语义理解装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种语义理解方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种语义理解方法,其特征在于,包括:
将用户发出的语音转换为对应的文字,由转换得到的文字中提取该文字包含的全部关键词,并确定提取得到的每个关键词均为待理解关键词;
如果所述用户发出的语音所用语言为地方语言,则将所述待理解关键词均转换为对应的拼音,基于预设的字母映射关系确定与所述拼音中包含的指定字母对应的替换字母,利用每个所述拼音对应的至少一个所述替换字母替换对应拼音中的指定字母,得到待理解字符串;其中,所述字母映射关系为标准语言中所用任意字母与该任意字母在所述用户所用地方语言中所用字母间的对应关系;
将所述待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配,确定匹配成功时对应的意图为所述用户发出的语音对应语义;
其中,所述由转换得到的文字中提取该文字包含的全部关键词,包括:将转换得到的文字进行分词处理,由分词处理得到的多个词语中选取与当前场景对应的语句结构成分的词语为关键词。
2.根据权利要求1所述的方法,其特征在于,确定提取得到的每个关键词均为待理解关键词之后,还包括:
将所述待理解关键词分别与各意图中包含的关键词进行比对,如果存在与所述待理解关键词匹配成功的包含于任意意图中的关键词,则确定该任意意图为所述用户发出的语音对应语义,否则,确定所述用户发出的语音所用语言为地方语言,执行所述将所述待理解关键词均转换为对应的拼音的步骤。
3.根据权利要求1所述的方法,其特征在于,将所述待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配之后,还包括:
如果不存在与所述待理解字符串匹配成功的包含于任意意图中的关键词,则输出语音提示,以提示所述用户重新以语音形式发出指示。
4.根据权利要求3所述的方法,其特征在于,如果不存在与所述待理解字符串匹配成功的包含于任意意图中的关键词之后,还包括:
如果已经连续N次确定不存在与所述待理解字符串匹配成功的包含于任意意图中的关键词,则发送命令信息至工作人员对应终端,指示所述工作人员为所述用户提供相应的服务。
5.根据权利要求4所述的方法,其特征在于,确定出所述用户发出的语音对应语义之后,还包括:
将所述用户发出的语音对应语义进行文字显示,并在所述用户确认显示的文字与所述用户发出的语音对应相对应后,继续执行与所述用户发出的语音对应语义相应的操作。
6.根据权利要求5所述的方法,其特征在于,执行完成与所述用户发出的语音对应语义相应的操作之后,还包括:
将与所述用户发出的语音对应语义相应的操作已经完成的信息,以语音的形式通知所述用户。
7.一种语义理解装置,其特征在于,包括:
提取模块,用于:将用户发出的语音转换为对应的文字,由转换得到的文字中提取该文字包含的全部关键词,并确定提取得到的每个关键词均为待理解关键词;
替换模块,用于:如果所述用户发出的语音所用语言为地方语言,则将所述待理解关键词均转换为对应的拼音,基于预设的字母映射关系确定与所述拼音中包含的指定字母对应的替换字母,利用每个所述拼音对应的至少一个所述替换字母替换对应拼音中的指定字母,得到待理解字符串;其中,所述字母映射关系为标准语言中所用任意字母与该任意字母在所述用户所用地方语言中所用字母间的对应关系;
匹配模块,用于:将所述待理解字符串分别与预设的各意图中包含的关键词的拼音分别进行匹配,确定匹配成功时对应的意图为所述用户发出的语音对应语义;
其中,所述提取模块,还用于:将转换得到的文字进行分词处理,由分词处理得到的多个词语中选取与当前场景对应的语句结构成分的词语为关键词。
8.一种语义理解设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述语义理解方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语义理解方法的步骤。
CN202010300927.2A 2020-04-16 2020-04-16 一种语义理解方法、装置、设备及存储介质 Active CN111540353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010300927.2A CN111540353B (zh) 2020-04-16 2020-04-16 一种语义理解方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010300927.2A CN111540353B (zh) 2020-04-16 2020-04-16 一种语义理解方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111540353A CN111540353A (zh) 2020-08-14
CN111540353B true CN111540353B (zh) 2022-11-15

Family

ID=71974973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010300927.2A Active CN111540353B (zh) 2020-04-16 2020-04-16 一种语义理解方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111540353B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12033615B2 (en) * 2020-11-04 2024-07-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing speech, electronic device and storage medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102833B (zh) * 2020-09-22 2023-12-12 阿波罗智联(北京)科技有限公司 语音识别方法、装置、设备及存储介质
CN112114926A (zh) * 2020-09-25 2020-12-22 北京百度网讯科技有限公司 基于语音识别的页面操作方法、装置、设备和介质
CN112489643B (zh) * 2020-10-27 2024-07-12 广东美的白色家电技术创新中心有限公司 转换方法、转换表的生成方法、装置及计算机存储介质
CN112364212A (zh) * 2020-11-04 2021-02-12 北京致远互联软件股份有限公司 一种基于近似音识别的语音人名识别方法
CN112382275B (zh) * 2020-11-04 2023-08-15 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN114783437A (zh) * 2022-06-15 2022-07-22 湖南正宇软件技术开发有限公司 一种人机语音交互实现方法、***及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索***
CN103678674A (zh) * 2013-12-25 2014-03-26 乐视网信息技术(北京)股份有限公司 通过拼音进行纠错搜索的方法、装置及***
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN105319978A (zh) * 2015-12-09 2016-02-10 上海电机学院 一种基于语音识别的智能家居控制***
CN106782533A (zh) * 2016-12-23 2017-05-31 陈勇 音到字对应中纠正软件生成的错误拼音确认键
CN109446376A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070214118A1 (en) * 2005-09-27 2007-09-13 Schoen Michael A Delivery of internet ads
CN104235891B (zh) * 2013-06-14 2019-01-11 上海能感物联网有限公司 一种用语音指令操控智能电子燃气炉的方法
CN103593340B (zh) * 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及***
CN105912725A (zh) * 2016-05-12 2016-08-31 上海劲牛信息技术有限公司 一种通过自然语言交互调用海量智慧应用的***
CN105913841B (zh) * 2016-06-30 2020-04-03 北京小米移动软件有限公司 语音识别方法、装置及终端
CN106409283B (zh) * 2016-08-31 2020-01-10 上海交通大学 基于音频的人机混合交互***及方法
CN107845381A (zh) * 2017-10-27 2018-03-27 安徽硕威智能科技有限公司 一种机器人语义处理的方法及***
CN109360563B (zh) * 2018-12-10 2021-03-02 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及空调
CN109493848A (zh) * 2018-12-17 2019-03-19 深圳市沃特沃德股份有限公司 语音识别方法、***及电子装置
CN110377908B (zh) * 2019-07-19 2023-05-30 科大讯飞股份有限公司 语义理解方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索***
CN103678674A (zh) * 2013-12-25 2014-03-26 乐视网信息技术(北京)股份有限公司 通过拼音进行纠错搜索的方法、装置及***
CN105117487A (zh) * 2015-09-19 2015-12-02 杭州电子科技大学 一种基于内容结构的图书语义检索方法
CN105319978A (zh) * 2015-12-09 2016-02-10 上海电机学院 一种基于语音识别的智能家居控制***
CN106782533A (zh) * 2016-12-23 2017-05-31 陈勇 音到字对应中纠正软件生成的错误拼音确认键
CN109446376A (zh) * 2018-10-31 2019-03-08 广东小天才科技有限公司 一种通过分词对语音进行分类的方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
语音关键词识别技术的研究;孙成立;《中国博士学位论文全文数据库(信息科技辑)》;20081015;全文 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12033615B2 (en) * 2020-11-04 2024-07-09 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for recognizing speech, electronic device and storage medium

Also Published As

Publication number Publication date
CN111540353A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111540353B (zh) 一种语义理解方法、装置、设备及存储介质
WO2020253362A1 (zh) 基于情绪分析的业务处理方法、装置、设备及存储介质
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
KR102151681B1 (ko) 언어 모델용 대화 상태들 결정
JP4680691B2 (ja) 対話システム
US7184539B2 (en) Automated call center transcription services
US20190279622A1 (en) Method for speech recognition dictation and correction, and system
EP2660810B1 (en) Post processing of natural language ASR
US8165887B2 (en) Data-driven voice user interface
US20160163314A1 (en) Dialog management system and dialog management method
US20050131673A1 (en) Speech translation device and computer readable medium
US7680661B2 (en) Method and system for improved speech recognition
US20080133245A1 (en) Methods for speech-to-speech translation
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
US20030191625A1 (en) Method and system for creating a named entity language model
CN111508479B (zh) 一种语音识别方法、装置、设备及存储介质
WO2018055983A1 (ja) 翻訳装置、翻訳システム、および評価サーバ
US11204964B1 (en) Systems and methods for conversing with a user
CN110866100A (zh) 一种话术泛化方法、装置及电子设备
Hone et al. Designing habitable dialogues for speech-based interaction with computers
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
CN111142834A (zh) 一种业务处理方法及***
JP4000828B2 (ja) 情報システム、電子機器、プログラム
Di Fabbrizio et al. AT&t help desk.
US20190279623A1 (en) Method for speech recognition dictation and correction by spelling input, system and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant