CN112562668A - 一种语义信息纠偏方法和装置 - Google Patents
一种语义信息纠偏方法和装置 Download PDFInfo
- Publication number
- CN112562668A CN112562668A CN202011377435.XA CN202011377435A CN112562668A CN 112562668 A CN112562668 A CN 112562668A CN 202011377435 A CN202011377435 A CN 202011377435A CN 112562668 A CN112562668 A CN 112562668A
- Authority
- CN
- China
- Prior art keywords
- information
- phonetic notation
- similarity
- determining
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004590 computer program Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 16
- 238000012937 correction Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 16
- 238000012545 processing Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种语义信息纠偏方法和装置,所述方法应用于智能座舱,所述智能座舱包括显示组件,所述方法包括:获取语音请求,以及与所述显示组件所显示内容匹配的场景信息;所述场景信息包含至少一个场景元素字符;生成与所述语音请求匹配的语义信息;确定与所述语义信息匹配的第一注音信息,以及与所述场景元素字符匹配的第二注音信息;确定所述第一注音信息与所述第二注音信息的相似度;基于所述相似度,采用所述场景元素字符纠偏所述语义信息。本发明实施例可以实现在避免采用大型模型对语音请求进行识别的情况下,能够基于动态的场景元素字符对语义信息进行实时、动态、高效地纠偏,提高了智能座舱针对语音请求识别的准确性。
Description
技术领域
本发明涉及汽车技术领域,特别是涉及一种语义信息纠偏方法和一种语义信息纠偏装置。
背景技术
ASR(Automatic Speech Recognition,自动语音识别)是一种能够将人的语音转换为文本的技术。
在场景语音中,用户往往会根据当前场景发出相应的语音,当ASR转换得到的文本出现错误时,会直接影响到场景指令的生成。一般的,会针对ASR转换得到的文本设置相应的纠错技术,以使场景指令能够正确生成。
目标现有的纠错技术包括:
一种是利用拼音、编辑距离等相似度计算方法,进行模糊匹配纠错,但是该技术存在以下缺陷:1、无法在线实时动态纠错,需要根据经验整理一个易错集,有很大的时间成本和人力成本。2、影响范围有限,只能解决局部问题。3、不够准确,容易有较多误召回文本情况。
另一种是利用有监督的机器学习方法进行模型训练与预测纠错,但是该技术存在以下缺陷:1、需要大量人工标注数据。2、模型准确度不够,一般用分类模型来做,每一个字的位置都有词典个数的预测结果,会造成标签预测灾难。3、线上推理时延较大。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语义信息纠偏方法和相应的一种语义信息纠偏装置。
为了解决上述问题,本发明实施例公开了一种语义信息纠偏方法,应用于智能座舱,所述智能座舱包括显示组件,所述方法包括:
获取语音请求,以及与所述显示组件所显示内容匹配的场景信息;所述场景信息包含至少一个场景元素字符;
生成与所述语音请求匹配的语义信息;
确定与所述语义信息匹配的第一注音信息,以及与所述场景元素字符匹配的第二注音信息;
确定所述第一注音信息与所述第二注音信息的相似度;
基于所述相似度,采用所述场景元素字符纠偏所述语义信息。
可选地,所述方法还包括:
采用纠偏后的语义信息生成指令信息;
响应于所述指令信息,执行相应的操作。
可选地,所述确定所述第一注音信息以及所述第二注音信息的相似度的步骤,包括:
确定所述第一注音信息以及所述第二注音信息之间的注音差异值;
确定所述第一注音信息以及所述第二注音信息之间的编辑距离差异值;
依据所述发音差异值和所述编辑距离差异值,确定所述第一注音信息与所述第二注音信息的相似度。
可选地,所述确定所述第一注音信息以及所述第二注音信息之间的发音差异值的步骤,包括:
针对所述第一注音信息包含的注音元素以及所述第二注音信息包含的注音元素进行对比,得到对比结果;
采用预设的权重分值以及所述对比结果,生成注音差异值;
其中,所述注音元素包括声母、韵母和声调。
可选地,所述依据所述注音差异值和所述编辑距离差异值,确定所述第一注音信息与所述第二注音信息的相似度的步骤,包括:
对所述注音差异值和所述编辑距离差异值进行归一化处理,得到归一化结果;
确定所述归一化结果为所述第一注音信息与所述第二注音信息的相似度。
可选地,所述基于所述相似度,采用所述场景元素字符纠偏所述语义信息的步骤,包括:
获取与所述场景信息对应的相似度阈值;
确定候选字符;所述候选字符为对应的相似度大于所述相似度阈值的场景元素字符;
确定所述候选字符与所述语义信息的匹配长度值;
采用所述候选字符中匹配长度值最大的一个纠偏所述语义信息。
可选地,所述确定与所述语义信息匹配的第一注音信息的步骤,包括
确定所述场景元素字符的字符长度;
按照所述字符长度将所述语义信息划分成至少一个字符集合;
生成与字符集合匹配的第一注音信息。
本发明实施例还公开了一种语义信息纠偏装置,应用于智能座舱,所述智能座舱包括显示组件,所述装置包括:
获取模块,用于获取语音请求,以及与所述显示组件所显示内容匹配的场景信息;所述场景信息包含至少一个场景元素字符;
语义生成模块,用于生成与所述语音请求匹配的语义信息;
注音信息确定模块,用于确定与所述语义信息匹配的第一注音信息,以及与所述场景元素字符匹配的第二注音信息;
相似度确定模块,用于确定所述第一注音信息与所述第二注音信息的相似度;
语义信息纠偏模块,用于基于所述相似度,采用所述场景元素字符纠偏所述语义信息。
本发明实施例还公开了一种车辆,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的语义信息纠偏方法。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的语义信息纠偏方法。
本发明实施例包括以下优点:通过在获取用户的语音请求后,获取智能座舱中显示组件所显示内容匹配的包含场景元素字符的场景信息,怼语音请求进行ASR识别得到匹配的语义信息,在确定语义信息匹配的第一注音信息以及场景元素字符的第二注音信息后,对比得到第一注音信息与第二注音信息之间的相似度,基于相似度采用场景元素字符纠偏语义信息,从而使得在避免采用大型模型对语音请求进行识别的情况下,能够基于动态的场景元素字符对语义信息进行实时、动态、高效地纠偏,提高了智能座舱针对语音请求识别的准确性。
附图说明
图1是本发明的一种语义信息纠偏方法实施例的步骤流程图;
图2是本发明的另一种语义信息纠偏方法实施例的步骤流程图;
图3是本发明实施例中场景信息的获取方法示意图;
图4是本发明实施例中场景元素字符与语义信息的匹配方法示意图;
图5是本发明实施例中候选结果重排与分场景阈值判断方法示意图;
图6是一种语音信息纠偏方法示例流程示意图;
图7是本发明的一种语义信息纠偏装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
近年来,车辆行业发展的主要驱动力已经由过去供给端的产品和技术驱动,逐步转换为不断提高的用户需求驱动,用户对车辆的认知也逐渐从单一的交通工具向生活空间转变,而驾驶舱作为用户直接体验的空间,提高驾驶舱的智能程度,使驾驶舱成为人车交互的体验核心,可以为用户提供更好的车辆乘坐体验。
智能座舱电子***可以指由中控、全液晶仪表、平视显示器、娱乐***、智能音响、车联网模块、流媒体后视镜、远程信息处理***等组成的一整套***。
智能座舱***可以指以驾驶舱区域控制器为中心,在统一的软硬件平台上实现上述智能座舱电子***功能,并融入智能交互、智能场景、个性化服务的***。智能座舱***可以形成人车交互、车与外界互联的基础。
智能座舱***的使用场景通常可以覆盖用户使用车辆的全部场景。具体地,可以包括用户使用车辆前、用户使用车辆过程中,用户使用车辆后的时间场景,也可以包括驾驶员、副驾驶、后排乘客、车外相关人物或物体的空间场景。
智能座舱中的人机交互,与过去的指令式交互相比,可以结合车辆与用户的使用场景,基于图像识别、语音识别、环境感知等基础技术,实现更加符合用户需求的智能化效果。
在本发明实施例中,通过在获取用户的语音请求后,获取智能座舱中显示组件所显示内容匹配的包含场景元素字符的场景信息,怼语音请求进行ASR识别得到匹配的语义信息,在确定语义信息匹配的第一注音信息以及场景元素字符的第二注音信息后,对比得到第一注音信息与第二注音信息之间的相似度,基于相似度采用场景元素字符纠偏语义信息,从而使得在避免采用大型模型对语音请求进行识别的情况下,能够基于动态的场景元素字符对语义信息进行实时、动态、高效地纠偏,提高了语音请求识别的准确性。
参照图1,示出了本发明的一种语义信息纠偏方法实施例的步骤流程图,本发明实施例可以应用于智能座舱,智能座舱包含有显示组件,本发明实施例具体可以包括如下步骤:
步骤101,获取语音请求,以及与所述显示组件所显示内容匹配的场景信息;所述场景信息包含至少一个场景元素字符;
智能座舱可以设置有语音采集组件(例如:麦克风),通过语音采集组件获取位于智能座舱内的用户的语音输入信息,并针对语音输入信息生成语音请求。
智能座舱还可以设置有显示组件(例如:显示屏),通过显示组件可以向车内用户输出可视化内容,以及接收用户针对可视化内容的触控操作,例如:向用户提供图形用户界面,用户可以通过在图形用户上面进行操作,控制智能座舱完成相应业务。
显示组件所显示内容与当前的场景(例如:导航、音乐、车控、空调、***控制等)相匹配。在获取语音请求后,可以获取相匹配的场景信息。场景信息包含有场景元素字符,场景元素字符可以由显示组件显示的内容对应。
例如:在音乐场景中,显示内容中包含有多个可操作的控件,包括:精选歌单(控件)、最近播放(控件)、搜索(控件)等。可以获取相应的场景元素字符,包括:精选歌单、最近播放、搜索。
步骤102,生成与所述语音请求匹配的语义信息;
针对接收到的语音请求进行ASR识别,生成匹配的语义信息,即ASR识别文本。
步骤103,确定与所述语义信息匹配的第一注音信息,以及与所述场景元素字符匹配的第二注音信息;
注音信息文字发音的语音符号,例如:汉语拼音、英文音标等。第一注音信息为语义信息匹配的语音符号,第二注音信息为场景元素字符匹配的语音符号。
步骤104,确定所述第一注音信息与所述第二注音信息的相似度;
将第一注音信息与第二注音信息进行对比,确定两者的相似度。
步骤105,基于所述相似度,采用所述场景元素字符纠偏所述语义信息。
基于第一注音信息和第二注音信息的相似度,确定场景元素字符中与语音请求相匹配的一个纠偏语义信息,从而实现采用场景元素字符对根据语音请求得到的语音信息进行纠偏,提高语音信息的准确性。
在本发明实施例中,通过在获取用户的语音请求后,获取智能座舱中显示组件所显示内容匹配的包含场景元素字符的场景信息,怼语音请求进行ASR识别得到匹配的语义信息,在确定语义信息匹配的第一注音信息以及场景元素字符的第二注音信息后,对比得到第一注音信息与第二注音信息之间的相似度,基于相似度采用场景元素字符纠偏语义信息,从而使得在避免采用大型模型对语音请求进行识别的情况下,能够基于动态的场景元素字符对语义信息进行实时、动态、高效地纠偏,提高了智能座舱针对语音请求识别的准确性。
参照图2,示出了本发明的另一种语义信息纠偏方法实施例的步骤流程图,本发明实施例可以应用于智能座舱,智能座舱包含有显示组件,本发明实施例具体可以包括如下步骤:
步骤201,获取语音请求,以及与所述显示组件所显示内容匹配的场景信息;所述场景信息包含至少一个场景元素字符;
参照图3,示出了本发明实施例中场景信息的获取方法示意图。
在本发明实施例中,可以在获取用户的语音请求(用户发问)后,通过请求场景服务,实时获取场景元素字符。例如:在音乐界面(音乐场景)下,获取的场景元素词有:精选/流行/精选歌单/读物/精·选/追忆向|白首现代影视剧原声。可以对场景元素字符进行信息预处理以及归一化,例如:将候选元素词中的标点空格去除,重复词去除,具体地:依据“精·选”得到“精选”,依据“精选”得到“精选”,依据“追忆向|白首现代影视剧原声”得到“追忆向白首现代影视剧原声”。对上述两个“精选”进行归一化并使得场景元素字符中保留一个“精选”。在对场景元素字符进行归一化后,对场景元素字符与语音请求进行相似度对比。
步骤202,生成与所述语音请求匹配的语义信息;
步骤203,确定与所述语义信息匹配的第一注音信息,以及与所述场景元素字符匹配的第二注音信息;
注音信息可以包含多种注音元素,以中文为例,第一注音信息为汉语拼音信息,注音元素可以包括声母、韵母和声调,其中,采用数字标识不同声调。
比如:语义信息为竞选歌单,则第一注音信息为jing1xuan3ge1dan1。
在一可选实施例中,步骤203可以包括:
子步骤S11,确定所述场景元素字符的字符长度;
字符长度可以为字符个数,例如:场景元素词为精选,则字符长度为2。
子步骤S12,按照所述字符长度将所述语义信息划分成至少一个字符集合;
例如:场景元素词为精选,语义信息为竞选歌单,则将语义信息划分为3个字符集合,包括:竞选、选歌、歌单。
子步骤S13,生成与字符集合匹配的第一注音信息。
第一注音信息可以包括:jing4xuan3、xuan3ge1、ge1dan1。
步骤204,确定所述第一注音信息与所述第二注音信息的相似度;
在本发明的一种可选实施例中,步骤204可以包括:
子步骤S21,确定所述第一注音信息以及所述第二注音信息之间的注音差异值;
针对第一注音信息和第二注音信息各自包含的注音元素进行对比,得到注音差异值。
具体的,子步骤S21可以包括:
子步骤S211,针对所述第一注音信息包含的注音元素以及所述第二注音信息包含的注音元素进行对比,得到对比结果;
针对第一注音信息和第二注音信息的声母、韵母和声调进行对比,得到相应的对比结果。
对比结果包括但不限于:声母和韵母不同、声母相同且韵母不同、声母不同且韵母相同、声调不同、声母相同且韵母相同且声调相同。
子步骤S212,采用预设的权重分值以及所述对比结果,生成注音差异值;其中,所述注音元素包括声母、韵母和声调。
针对上述对比结果设置不同权重值,例如:声母和韵母不同的权重分值为4、声母相同且韵母不同的权重分值为3、声母不同且韵母相同的权重分值为2、声调不同的权重分值为1、声母相同且韵母相同且声调相同的权重分值为0。按照对比结果得到相应的注音差异值。
在一示例中,若将语义信息按照场景元素字符划分为多个字符集合时,分别将字符集合的第一注音信息与第二注音信息包含的注音元素进行对比,得到候选结果,按照上述权重分值得到候选结果对应的第一候选差异值,将第一候选差异值中最小的一个为注音差异值。
子步骤S22,确定所述第一注音信息以及所述第二注音信息之间的编辑距离差异值;
在一示例中,若将语义信息按照场景元素字符划分为多个字符集合时,分别确定字符集合的第一注音信息与第二注音信息包含的编辑距离,得到第二候选差异值,将第二候选差异值中最小的一个为编辑距离差异值。
子步骤S23,依据所述发音差异值和所述编辑距离差异值,确定所述第一注音信息与所述第二注音信息的相似度。
对发音差异值和编辑距离差异值进行加权归一化处理,得到第一注音信息和第二注音信息的相似度。
在具体应用中,子步骤S13可以包括:
子步骤S231,对所述注音差异值和所述编辑距离差异值进行归一化处理,得到归一化结果;
通过以下方式进行归一化处理:相似度ds=(ds_pinyin+ds_edit)/N*4,其中ds_pinyin为发音差异值,ds_deit为编辑距离差异值,N为场景元素字符的字符长度。
子步骤S232,确定所述归一化结果为所述第一注音信息与所述第二注音信息的相似度。
将归一化处理后的结果为第一注音信息和第二注音信息的相似度。
参照图4,示出了本发明实施例中场景元素字符与语义信息的匹配方法示意图,具体可以包括如下步骤:
1、声母/韵母/音调加权相似度计算。例如:query(语音请求)=竞选歌单,场景词_1(第一个场景元素字符)=精选,用精选(jing1xuan3)依次和竞选(jing4xuan3),选歌(xuan3ge1),歌单(ge1dan1)进行拼音权重计算(拼音后的数字代表音调),选择差异最小各一组,作为候选,此处候选是[竞选],第一差异权重(发音差异值)ds_pinyin=1。
2、拼音编辑距离相似度计算。例如:query=竞选歌单,场景词_1=精选,用精选(jing1xuan3)依次和竞选(jing4xuan3),选歌(xuan3ge1),歌单(ge1dan1)进行拼音编辑距离计算,选择差异最小各一组,作为候选,此处候选是[竞选],第二差异权重(编辑距离差异值)ds_edit=1。
3、相似度加权归一化计算:ds=(ds_pinyin+ds_edit)/场景词_1的字数*4,此处乘以4的意义是:分别对声母,韵母,音调,编辑距离进行了计算,共4部分。
例如:query=竞选歌单,场景词_1=精选,ds_pinyin=1,ds_edit=1,场景词_1的字数=2,ds=(1+1)/2*4=0.25,因此写作{‘ds’:0.25,‘repl’:‘竞选’,‘corr’:‘精选’},意思是,用精选改写竞选的距离相差0.25;ds越小,二者相差越小,纠错概率越大,同理计算后面所有,得到如图4所示。其中,repl为被取代字符,corr表示纠偏后的字符。
步骤205,基于所述相似度,采用所述场景元素字符纠偏所述语义信息。
在具体应用中,步骤205可以包括:
子步骤S31,获取与所述场景信息对应的相似度阈值;
不同的场景可以设置有相应的相似度阈值,通过相似度阈值对场景元素字符进行筛选。
子步骤S32,确定候选字符;所述候选字符为对应的相似度大于所述相似度阈值的场景元素字符;
将相似度大于相似度阈值的场景元素字符为候选字符。
子步骤S33,确定所述候选字符与所述语义信息的匹配长度值;
匹配长度值为候选字符与语音信息中依次相同的字符的个数。
子步骤S34,采用所述候选字符中匹配长度值最大的一个纠偏所述语义信息。
采用匹配长度值最大的一个候选字符对语义信息进行纠偏,得到纠偏后的语义信息,从而提高语音信息的准确性。
参照图5,示出了本发明实施例中候选结果重排与分场景阈值判断方法示意图,具体可以包括如下步骤:
1、初排。按照ds有小到大排序,得到初步结果。
2、阈值筛选。根据不同场景,适配不同阈值,通过离线阈值模板进行配置,此处音乐场景设置为0.4,筛选出两条均合理的结果。
3、最大长度匹配。按照匹配最长的原则对上一步结果进行筛选,遍历query的每个字符,记录能够得到的最大匹配长度,匹配到第三个字[歌]的时候,只剩下候选词[精选歌单],因此最终得到[精选歌单]作为纠正结果(纠偏后的语义信息)。
4、通过显示组件执行纠正结果执行相应操作。
步骤206,采用纠偏后的语义信息生成指令信息;
指令信息可以为智能座舱能够识别并响应的指令。
步骤207,响应于所述指令信息,执行相应的操作。
智能座舱能够响应采用纠偏后的语义信息生成的指令信息执行相应的操作,由于指令信息是针对用户语音请求得到的语义信息,依据当前场景匹配的场景元素字符进行纠偏后生成的,提高了执行信息的准确性。
参照图6,示出了一种语音信息纠偏方法示例流程示意图,在本示例中,具体包括如下步骤:
1、用户发问。智能座舱接受用户的语音请求,并针对语音请求进行ASR识别得到语音信息为竞选歌单。
2、场景信息获取与处理。通过调用在线请求场景元素信息服务,获取场景元素词(场景元素字符),并对场景元素词进行预处理和归一化,场景元素字符归一化后的结果可以包括:“精选”、“流行”、“精选歌单”、“读物”等。
3、候选场景元素与query相似度匹配。将在上一步骤中归一化后得到的场景元素词与语音信息的注音信息进行对比,得到两者的相似度。
4、候选结果重排与最终结果选择。针对上一步骤得到的相似度按照相似度从小到大进行排序,并通过加载离线阈值模板,得到与当前场景匹配的相似度阈值,通过相似度阈值对上一步骤得到的相似度进行筛选,得到对应相似度大于相似度阈值的场景元素字符为候选结果“精选”以及“精选歌单”。并通过最长匹配值计算,得到最终结果为“精选歌单”。
5、大屏执行。依据“精选歌单”生成相应指令信息,智能座舱能够相应于该指令信息,执行相应的操作,并在大屏(显示组件)中输出相应内容。例如:打开“精选歌单”页面。
在本发明实施例中,通过在获取用户的语音请求后,获取智能座舱中显示组件所显示内容匹配的包含场景元素字符的场景信息,怼语音请求进行ASR识别得到匹配的语义信息,在确定语义信息匹配的第一注音信息以及场景元素字符的第二注音信息后,对比得到第一注音信息与第二注音信息之间的相似度,基于相似度采用场景元素字符纠偏语义信息,针对纠偏后的语义信息生成指令信息,通过相应于指令信息执行相应操作,从而使得在避免采用大型模型对语音请求进行识别的情况下,能够基于动态的场景元素字符对语义信息进行实时、动态、高效地纠偏,提高了智能座舱针对语音请求识别的准确性,进一步地,提高了智能座舱响应用户的语音请求的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图7,示出了本发明的一种语义信息纠偏装置实施例的结构框图,本发明实施例可以应用于智能座舱,所述智能座舱包括显示组件,所述装置具体可以包括如下模块:
获取模块701,用于获取语音请求,以及与所述显示组件所显示内容匹配的场景信息;所述场景信息包含至少一个场景元素字符;
语义生成模块702,用于生成与所述语音请求匹配的语义信息;
注音信息确定模块703,用于确定与所述语义信息匹配的第一注音信息,以及与所述场景元素字符匹配的第二注音信息;
相似度确定模块704,用于确定所述第一注音信息与所述第二注音信息的相似度;
语义信息纠偏模块705,用于基于所述相似度,采用所述场景元素字符纠偏所述语义信息。
在本发明的一种可选实施例中,所述装置还包括:
指令生成模块,用于采用纠偏后的语义信息生成指令信息;
指令响应模块,用于响应于所述指令信息,执行相应的操作。
在本发明的一种可选实施例中,所述相似度确定模块704,包括:
注音差异值子模块,用于确定所述第一注音信息以及所述第二注音信息之间的注音差异值;
编辑距离差异值子模块,用于确定所述第一注音信息以及所述第二注音信息之间的编辑距离差异值;
相似度子模块,用于依据所述发音差异值和所述编辑距离差异值,确定所述第一注音信息与所述第二注音信息的相似度。
在本发明的一种可选实施例中,所述注音差异值子模块包括:
注音元素对比单元,用于针对所述第一注音信息包含的注音元素以及所述第二注音信息包含的注音元素进行对比,得到对比结果;
注音差异值生成单元,用于采用预设的权重分值以及所述对比结果,生成注音差异值;
其中,所述注音元素包括声母、韵母和声调。
在本发明的一种可选实施例中,所述相似度子模块包括:
归一化单元,用于对所述注音差异值和所述编辑距离差异值进行归一化处理,得到归一化结果;
相似度单元,用于确定所述归一化结果为所述第一注音信息与所述第二注音信息的相似度。
在本发明的一种可选实施例中,所述语义信息纠偏模块705包括:
相似度阈值获取子模块,用于获取与所述场景信息对应的相似度阈值;
候选字符确定子模块,用于确定候选字符;所述候选字符为对应的相似度大于所述相似度阈值的场景元素字符;
匹配长度值确定子模块,用于确定所述候选字符与所述语义信息的匹配长度值;
语义信息纠偏子模块,用于采用所述候选字符中匹配长度值最大的一个纠偏所述语义信息。
在本发明的一种可选实施例中,所述确定注音信息确定模块703包括:
字符长度确定子模块,用于确定所述场景元素字符的字符长度;
字符划分子模块,用于按照所述字符长度将所述语义信息划分成至少一个字符集合;
第一注音信息生成子模块,用于生成与字符集合匹配的第一注音信息。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还公开了一种车辆,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的语义信息纠偏方法。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的语义信息纠偏方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语义信息纠偏方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语义信息纠偏方法,其特征在于,应用于智能座舱,所述智能座舱包括显示组件,所述方法包括:
获取语音请求,以及与所述显示组件所显示内容匹配的场景信息;所述场景信息包含至少一个场景元素字符;
生成与所述语音请求匹配的语义信息;
确定与所述语义信息匹配的第一注音信息,以及与所述场景元素字符匹配的第二注音信息;
确定所述第一注音信息与所述第二注音信息的相似度;
基于所述相似度,采用所述场景元素字符纠偏所述语义信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采用纠偏后的语义信息生成指令信息;
响应于所述指令信息,执行相应的操作。
3.根据权利要求1或2所述的方法,其特征在于,所述确定所述第一注音信息以及所述第二注音信息的相似度的步骤,包括:
确定所述第一注音信息以及所述第二注音信息之间的注音差异值;
确定所述第一注音信息以及所述第二注音信息之间的编辑距离差异值;
依据所述发音差异值和所述编辑距离差异值,确定所述第一注音信息与所述第二注音信息的相似度。
4.根据权利要求3所述的方法,其特征在于,所述确定所述第一注音信息以及所述第二注音信息之间的发音差异值的步骤,包括:
针对所述第一注音信息包含的注音元素以及所述第二注音信息包含的注音元素进行对比,得到对比结果;
采用预设的权重分值以及所述对比结果,生成注音差异值;
其中,所述注音元素包括声母、韵母和声调。
5.根据权利要求3所述的方法,其特征在于,所述依据所述注音差异值和所述编辑距离差异值,确定所述第一注音信息与所述第二注音信息的相似度的步骤,包括:
对所述注音差异值和所述编辑距离差异值进行归一化处理,得到归一化结果;
确定所述归一化结果为所述第一注音信息与所述第二注音信息的相似度。
6.根据权利要求1或2所述的方法,其特征在于,所述基于所述相似度,采用所述场景元素字符纠偏所述语义信息的步骤,包括:
获取与所述场景信息对应的相似度阈值;
确定候选字符;所述候选字符为对应的相似度大于所述相似度阈值的场景元素字符;
确定所述候选字符与所述语义信息的匹配长度值;
采用所述候选字符中匹配长度值最大的一个纠偏所述语义信息。
7.根据权利要求1或2所述的方法,其特征在于,所述确定与所述语义信息匹配的第一注音信息的步骤,包括
确定所述场景元素字符的字符长度;
按照所述字符长度将所述语义信息划分成至少一个字符集合;
生成与字符集合匹配的第一注音信息。
8.一种语义信息纠偏装置,其特征在于,应用于智能座舱,所述智能座舱包括显示组件,所述装置包括:
获取模块,用于获取语音请求,以及与所述显示组件所显示内容匹配的场景信息;所述场景信息包含至少一个场景元素字符;
语义生成模块,用于生成与所述语音请求匹配的语义信息;
注音信息确定模块,用于确定与所述语义信息匹配的第一注音信息,以及与所述场景元素字符匹配的第二注音信息;
相似度确定模块,用于确定所述第一注音信息与所述第二注音信息的相似度;
语义信息纠偏模块,用于基于所述相似度,采用所述场景元素字符纠偏所述语义信息。
9.一种车辆,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的语义信息纠偏方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语义信息纠偏方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011377435.XA CN112562668A (zh) | 2020-11-30 | 2020-11-30 | 一种语义信息纠偏方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011377435.XA CN112562668A (zh) | 2020-11-30 | 2020-11-30 | 一种语义信息纠偏方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562668A true CN112562668A (zh) | 2021-03-26 |
Family
ID=75045627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011377435.XA Pending CN112562668A (zh) | 2020-11-30 | 2020-11-30 | 一种语义信息纠偏方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562668A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052657A (zh) * | 2022-08-01 | 2023-05-02 | 荣耀终端有限公司 | 语音识别的字符纠错方法和装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
CN101196900A (zh) * | 2007-12-27 | 2008-06-11 | ***通信集团湖北有限公司 | 一种基于元数据的信息检索方法 |
CN106297799A (zh) * | 2016-08-09 | 2017-01-04 | 乐视控股(北京)有限公司 | 语音识别处理方法及装置 |
CN106548777A (zh) * | 2016-11-25 | 2017-03-29 | 北京光年无限科技有限公司 | 一种用于智能机器人的数据处理方法及装置 |
CN109036419A (zh) * | 2018-07-23 | 2018-12-18 | 努比亚技术有限公司 | 一种语音识别匹配方法、终端及计算机可读存储介质 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN110705267A (zh) * | 2019-09-29 | 2020-01-17 | 百度在线网络技术(北京)有限公司 | 语义解析方法、装置及存储介质 |
CN110992944A (zh) * | 2019-12-17 | 2020-04-10 | 广州小鹏汽车科技有限公司 | 语音导航的纠错方法、语音导航装置、车辆和存储介质 |
CN111508482A (zh) * | 2019-01-11 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 语义理解及语音交互方法、装置、设备及存储介质 |
CN111611792A (zh) * | 2020-05-21 | 2020-09-01 | 全球能源互联网研究院有限公司 | 一种语音转录文本的实体纠错方法及*** |
CN111768777A (zh) * | 2020-06-28 | 2020-10-13 | 广州小鹏车联网科技有限公司 | 语音控制方法、信息处理方法、车辆和服务器 |
-
2020
- 2020-11-30 CN CN202011377435.XA patent/CN112562668A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6064959A (en) * | 1997-03-28 | 2000-05-16 | Dragon Systems, Inc. | Error correction in speech recognition |
CN101196900A (zh) * | 2007-12-27 | 2008-06-11 | ***通信集团湖北有限公司 | 一种基于元数据的信息检索方法 |
CN106297799A (zh) * | 2016-08-09 | 2017-01-04 | 乐视控股(北京)有限公司 | 语音识别处理方法及装置 |
CN106548777A (zh) * | 2016-11-25 | 2017-03-29 | 北京光年无限科技有限公司 | 一种用于智能机器人的数据处理方法及装置 |
CN109036419A (zh) * | 2018-07-23 | 2018-12-18 | 努比亚技术有限公司 | 一种语音识别匹配方法、终端及计算机可读存储介质 |
CN109145276A (zh) * | 2018-08-14 | 2019-01-04 | 杭州智语网络科技有限公司 | 一种基于拼音的语音转文字后的文本校正方法 |
CN111508482A (zh) * | 2019-01-11 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 语义理解及语音交互方法、装置、设备及存储介质 |
CN110705267A (zh) * | 2019-09-29 | 2020-01-17 | 百度在线网络技术(北京)有限公司 | 语义解析方法、装置及存储介质 |
CN110992944A (zh) * | 2019-12-17 | 2020-04-10 | 广州小鹏汽车科技有限公司 | 语音导航的纠错方法、语音导航装置、车辆和存储介质 |
CN111611792A (zh) * | 2020-05-21 | 2020-09-01 | 全球能源互联网研究院有限公司 | 一种语音转录文本的实体纠错方法及*** |
CN111768777A (zh) * | 2020-06-28 | 2020-10-13 | 广州小鹏车联网科技有限公司 | 语音控制方法、信息处理方法、车辆和服务器 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052657A (zh) * | 2022-08-01 | 2023-05-02 | 荣耀终端有限公司 | 语音识别的字符纠错方法和装置 |
CN116052657B (zh) * | 2022-08-01 | 2023-10-20 | 荣耀终端有限公司 | 语音识别的字符纠错方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106485984B (zh) | 一种钢琴的智能教学方法和装置 | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
CN109348275B (zh) | 视频处理方法和装置 | |
US8666743B2 (en) | Speech recognition method for selecting a combination of list elements via a speech input | |
US7792671B2 (en) | Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments | |
CN108305618B (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
CN109616101B (zh) | 声学模型训练方法、装置、计算机设备和可读存储介质 | |
JP2021105736A (ja) | 情報処理装置、方法及びプログラム | |
CN110097870A (zh) | 语音处理方法、装置、设备和存储介质 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及*** | |
CN114143479B (zh) | 视频摘要的生成方法、装置、设备以及存储介质 | |
CN114550718A (zh) | 热词语音识别方法、装置、设备与计算机可读存储介质 | |
CN113327586A (zh) | 一种语音识别方法、装置、电子设备以及存储介质 | |
CN112668337A (zh) | 一种语音指令分类方法和装置 | |
CN114996506A (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
CN112562668A (zh) | 一种语义信息纠偏方法和装置 | |
CN112446219A (zh) | 一种中文请求文本意图分析方法 | |
CN112116181B (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN116645683A (zh) | 基于提示学习的签名笔迹鉴别方法、***及存储介质 | |
CN112883221B (zh) | 一种语义信息纠正方法、装置和智能座舱 | |
US20200387806A1 (en) | Idea generation support device, idea generation support system, and recording medium | |
CN114239545A (zh) | 自然语言生成方法、装置、设备、介质及产品 | |
CN110232911B (zh) | 跟唱识别方法、装置、存储介质及电子设备 | |
Hempel | Usability of speech dialog systems: listening to the target audience | |
CN116168704B (zh) | 语音交互的引导方法、装置、设备、介质及车辆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |