CN107705793A - 基于声纹识别的信息推送方法、***及其设备 - Google Patents
基于声纹识别的信息推送方法、***及其设备 Download PDFInfo
- Publication number
- CN107705793A CN107705793A CN201710866615.6A CN201710866615A CN107705793A CN 107705793 A CN107705793 A CN 107705793A CN 201710866615 A CN201710866615 A CN 201710866615A CN 107705793 A CN107705793 A CN 107705793A
- Authority
- CN
- China
- Prior art keywords
- classification results
- user
- vocal print
- application
- voice messaging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000001755 vocal effect Effects 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000003860 storage Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 abstract description 10
- 238000001228 spectrum Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 230000006855 networking Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000000470 constituent Substances 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提出一种基于声纹识别的信息推送方法、***及其设备,其中,方法包括:当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息;提取第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果;根据第一用户分类结果向乘客推送相关的资源信息。由此,通过对车内语音信息的声纹识别来实现内容及服务的精准推送,提高了信息推送的精确度和转化率,提升用户体验。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于声纹识别的信息推送方法、***及其设备。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家***等。其中,人工智能最重要的方面就是语音识别技术。
目前,随着车联网与语音识别技术的迅猛发展,车内乘客从被动收听FM收音机逐步向主动语音搜索内容及服务的车联网平台转化。在被动收听FM节目中,车内乘客每次调节频道被动收听节目,随着最近车联网及语音识别技术的迅猛发展,使车内乘客能够进行主动语音搜索互联网内容及服务。
然而,相关技术中的车联网车载***只能根据用户的手动或语音搜索进行内容及服务的查询或查找,根据一段时间的用户习惯进而进行内容或服务推送,导致推送服务不够精准。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种基于声纹识别的信息推送方法,用于解决现有技术中车联网车载***不能够主动进行内容及服务的精准推送,导致信息推送的精确度和转化率比较低的问题。
本发明的第二个目的在于提出一种基于声纹识别的信息推送***。
本发明的第三个目的在于提出一种计算机设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种基于声纹识别的信息推送方法,所述方法包括以下步骤:当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息;提取所述第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与所述第一声纹特征对应的第一用户分类结果;根据所述第一用户分类结果向所述乘客推送相关的资源信息。
本发明实施例的基于声纹识别的信息推送方法,通过在检测到满足乘客乘车的初始启动条件时采集预设第一时长内的第一语音信息,并提取第一语音信息的第一声纹特征,以及应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果,最后根据第一用户分类结果向乘客推送相关的资源信息。由此,通过对车内语音信息的声纹识别来实现内容及服务的精准推送,提高了信息推送的精确度和转化率,提升用户体验。
为达上述目的,本发明第二方面实施例提出了一种基于声纹识别的信息推送***,所述***包括:车载终端,用于当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息,并发送给分类服务器;所述分类服务器,用于提取所述第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与所述第一声纹特征对应的第一用户分类结果,并发送给内容服务器;所述内容服务器,用于根据所述第一用户分类结果向所述乘客推送相关的资源信息,将所述资源信息发送给所述车载终端。
本发明实施例的基于声纹识别的信息推送***,通过车载终端在检测到满足乘客乘车的初始启动条件时采集预设第一时长内的第一语音信息,并发送给分类服务器,接着分类服务器提取第一语音信息的第一声纹特征,并应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果,并发送给内容服务器,最后内容服务器根据第一用户分类结果向乘客推送相关的资源信息,将资源信息发送给车载终端。由此,通过对车内语音信息的声纹识别来实现内容及服务的精准推送,提高了信息推送的精确度和转化率,提升用户体验。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如一种基于声纹识别的信息推送方法,所述方法包括:当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息;提取所述第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与所述第一声纹特征对应的第一用户分类结果;根据所述第一用户分类结果向所述乘客推送相关的资源信息。
为了实现上述目的,本发明第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得能够执行一种基于声纹识别的信息推送方法,所述方法包括:当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息;提取所述第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与所述第一声纹特征对应的第一用户分类结果;根据所述第一用户分类结果向所述乘客推送相关的资源信息。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于声纹识别的信息推送方法,所述方法包括:当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息;提取所述第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与所述第一声纹特征对应的第一用户分类结果;根据所述第一用户分类结果向所述乘客推送相关的资源信息。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于声纹识别的信息推送方法的流程示意图;
图2是根据本发明另一个实施例的基于声纹识别的信息推送方法的流程示意图;
图3是根据本发明又一个实施例的基于声纹识别的信息推送方法的流程示意图
图4是根据本发明一个实施例的基于声纹识别的信息推送***的结构示意图;
图5是根据本发明一个实施例的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的基于声纹识别的信息推送方法、***及其设备。
目前,车联网车载***只能根据用户的手动或语音搜索进行内容及服务的查询或查找,以及根据一段时间的用户习惯进而进行内容或服务推送,导致推送服务不够精准。也就是不能够主动进行内容及服务的精准推送,如果车内乘客有变化(如出租车)推送服务就不能进行精准推送,进而无法进行用户内容或服务运营。
针对这一问题,本发明实施例提供了基于声纹识别的信息推送方法,通过对车内语音信息的声纹识别来实现内容及服务的精准推送,提高了信息推送的精确度和转化率,提升用户体验。比如通过本发明实施例的基于声纹识别的信息推送方法可以识别男,女,儿童,老人等,从而内容及服务提供商可以根据车内乘客进行内容及服务的精准推送或进行内容及服务运营,比如有儿童的话可以进行童话故事、儿歌、玩具广告或动画片推送,有男有女的话可以推送新影片介绍、音乐服务或购物指南等等。具体如下:
需要说明的是,本发明实施例的基于声纹识别的信息推送方法可以应用于车载DuerOS,百度地图,百度视频,百度新闻或网络广播等等,可以根据实际应用需要进行选择设置。
图1是根据本发明一个实施例的基于声纹识别的信息推送方法的流程示意图。如图1所示,该基于声纹识别的信息推送方法包括:
步骤101,当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息。
具体地,在实际应用中,车辆启动后,乘客刚上车后进行交流的时候,可以通过预设的传感器等设备检测当前状态是否满足乘客乘车的初始启动条件,其中,乘客乘车的初始启动条件可以根据实际应用需要进行选择设置,比如车载终端开启等等。
需要说明的是,车辆初始启动可以是车辆第一次启动。
进一步地,可以采取很多种方式采集预设第一时长内的第一语音信息,作为一种示例,通过车载终端中的语音采集模块(比如麦克风阵列)等采集预设第一时长内的第一语音信息;作为另一种示例,通过手机等终端设备中的语音采集模块(比如麦克风阵列)等采集预设第一时长内的第一语音信息并通过有线或者无线等方式发送至车载终端。
其中,预设第一时长可以根据实际应用需要进行选择设置,比如10秒、30秒等。
步骤102,提取第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果。
步骤103,根据第一用户分类结果向乘客推送相关的资源信息。
具体地,在采集预设第一时长内的第一语音信息后可以在本地进行保存,也可以发送至分类服务器等等。进一步地,可以在本地或者分类服务器等中对第一语音信息进行第一声纹特征的提取,并应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果。
需要说明的是,声纹特征也就是把第一语音信息中具有辨识性的成分提取出来,比如频谱、倒频谱、共振峰、基音、反射系数等等,不同的人发出的语音信息对应的声纹特征不同。
可以理解的是,预先训练好声纹识别模型,将提取好的第一声纹特征应用到预先训练的声纹识别模型可以获取与第一声纹特征对应的第一用户分类结果。比如根据频谱确定其对应的第一用户分类结果为女、或者是根据频谱确定其对应的第一用户分类结果为儿童等等。
进一步地,在确定好第一用户分类结果后,根据第一用户分类结果向乘客推送相关的资源信息。比如第一用户分类结果为儿童,可以进行童话故事、儿歌、玩具广告或动画片推送,从而可以利用车内乘客的性别及年龄等识别来实现内容及服务的精准推送,以提高内容服务运营的精确度和转化率。
综上所述,本发明实施例的基于声纹识别的信息推送方法,通过在检测到满足乘客乘车的初始启动条件时采集预设第一时长内的第一语音信息,并提取第一语音信息的第一声纹特征,以及应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果,最后根据第一用户分类结果向乘客推送相关的资源信息。由此,通过对车内语音信息的声纹识别来实现内容及服务的精准推送,提高了信息推送的精确度和转化率,提升用户体验。
基于上述实施例,可以理解的是,车辆内乘客可以为一个或者多个,下面举例说明当存在多个声纹特征对应多个用户分类结果时如何处理,具体如下:
图2是根据本发明另一个实施例的基于声纹识别的信息推送方法的流程示意图。如图2所示,在步骤103之后,还包括:
步骤201,采集预设第二时长内的第二语音信息。
步骤202,提取第二语音信息的第二声纹特征,应用预先训练的声纹识别模型获取与第二声纹特征对应的第二用户分类结果。
具体地,可以采取很多种方式采集预设第二时长内的第二语音信息,作为一种示例,通过车载终端中的语音采集模块(比如麦克风阵列)等采集预设第二时长内的第二语音信息;作为另一种示例,通过手机等终端设备中的语音采集模块(比如麦克风阵列)等采集预设第二时长内的第二语音信息并通过有线或者无线等方式发送至车载终端。
其中,预设第二时长可以根据实际应用需要进行选择设置,比如10秒、30秒等。
具体地,在采集预设第二时长内的第二语音信息后可以在本地进行保存,也可以发送至分类服务器等等。进一步地,可以在本地或者分类服务器等中对第二语音信息进行第二声纹特征的提取,并应用预先训练的声纹识别模型获取与第二声纹特征对应的第二用户分类结果。
需要说明的是,声纹特征也就是把第二语音信息中具有辨识性的成分提取出来,比如频谱、倒频谱、共振峰、基音、反射系数等等,不同的人发出的语音信息对应的声纹特征不同。
可以理解的是,预先训练好声纹识别模型,将提取好的第二声纹特征应用到预先训练的声纹识别模型可以获取与第二声纹特征对应的第二用户分类结果。比如根据频谱确定其对应的第二用户分类结果为女、或者是根据频谱确定其对应的第二用户分类结果为儿童等等。
步骤203,根据第一用户分类结果和第二用户分类结果,生成与车载终端标识对应的总用户分类结果。
步骤204,将车载终端标识与总用户分类结果的对应关系存储到数据库。
具体地,可以理解的是,第一用户分类结果和第二用户分类结果可以相同也可以不同,因此生成与车载终端标识对应的总用户分类结果可以是第一用户分类结果、也可以是第二用户分类结果,还可以是第一用户分类结果和第二用户分类结果的总和。进一步地,将车载终端标识与总用户分类结果的对应关系存储到数据库。
也就是说,车载客户端可以将车内乘客剩余的对话的第二语音信息传送至本地或者是分类服务器,将声纹特征进行综合,进一步确认该车内乘客用户的性别年龄等分类。然后,将该性别年龄等分类标签一同写到数据库中。
需要说明的是,若比较获知第一用户分类结果和第二用户分类结果不同,则根据总用户分类结果推送相关的资源信息。
由此,通过对车内语音信息的声纹识别来实现内容及服务的精准推送,提高了信息推送的精确度和转化率,提升用户体验。
基于上述实施例,可以理解的是,车辆再次启动可以是等候红绿灯后/熄火后重新启动,乘客保持不变;或者是停车后新的乘客上车后重新启动等等。针对上述情况,在车辆再次启动时如何处理,进行详细说明如下:
图3是根据本发明又一个实施例的基于声纹识别的信息推送方法的流程示意图。如图3所示,在步骤204之后,还包括:
步骤301,当检测到满足车辆再次启动条件时,采集预设第一时长内的第三语音信息。
步骤302,提取第三语音信息的第三声纹特征,应用预先训练的声纹识别模型获取与第三声纹特征对应的第三用户分类结果。
具体地,在实际应用中,车辆再次启动后,可以通过预设的传感器等设备检测当前状态是否满足乘客乘车的再次启动条件,其中,乘客乘车的再次启动条件可以根据实际应用需要进行选择设置,比如车载终端开启等等。
进一步地,可以采取很多种方式采集预设第一时长内的第三语音信息,作为一种示例,通过车载终端中的语音采集模块(比如麦克风阵列)等采集预设第一时长内的第三语音信息;作为另一种示例,通过手机等终端设备中的语音采集模块(比如麦克风阵列)等采集预设第一时长内的第三语音信息并通过有线或者无线等方式发送至车载终端。
其中,预设第一时长可以根据实际应用需要进行选择设置,比如10秒、30秒等。
具体地,在采集预设第一时长内的第三语音信息后可以在本地进行保存,也可以发送至分类服务器等等。进一步地,可以在本地或者分类服务器等中对第三语音信息进行第一声纹特征的提取,并应用预先训练的声纹识别模型获取与第三声纹特征对应的第三用户分类结果。
需要说明的是,声纹特征也就是把第三语音信息中具有辨识性的成分提取出来,比如频谱、倒频谱、共振峰、基音、反射系数等等,不同的人发出的语音信息对应的声纹特征不同。
可以理解的是,预先训练好声纹识别模型,将提取好的第三声纹特征应用到预先训练的声纹识别模型可以获取与第三声纹特征对应的第三用户分类结果。比如根据频谱确定其对应的第三用户分类结果为女、或者是根据频谱确定其对应的第三用户分类结果为儿童等等。
步骤303,查询数据库获取上次存储的与车载终端标识对应的总用户分类结果。
步骤304,比较第三用户分类结果与总用户分类结果。
步骤305,若比较获知第三用户分类结果与总用户分类结果相同,则继续向乘客推送相关的资源信息。
步骤306,若比较获知第三用户分类结果与总用户分类结果不相同,则根据第三用户分类结果向乘客推送相关的资源信息。
具体地,可以根据车载客户端的标识从数据库中提取出该客户端的上次的总用户分类结果,与第三用户分类结果进行对比。如果对比结果没有发现改变,可以根据上次总用户分类结果,将相应的内容及服务推送到客户端;如果发生改变,需要根据第三用户分类结果,将相应的内容及服务向乘客推送。
基于上述实施例,本发明实施例的基于声纹识别的信息推送方法可以配置于不同的***中执行,下面以基于声纹识别的信息推送***为例进行举例说明如下:
为了实现上述实施例,本发明还提出一种基于声纹识别的信息推送***,图4是根据本发明一个实施例的基于声纹识别的信息推送***的结构示意图。如图4所示,该基于声纹识别的信息推送***包括:车载终端11、分类服务器12和内容服务器13。
其中,车载终端11,用于当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息,并发送给分类服务器12。
分类服务器12,用于提取第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果,并发送给内容服务器13。
内容服务器13,用于根据第一用户分类结果向乘客推送相关的资源信息,将资源信息发送给车载终端11。
基于上述实施例,可以理解的是,车辆内乘客可以为一个或者多个,下面举例说明当存在多个声纹特征对应多个用户分类结果时如何处理,具体如下:
车载终端11,还用于采集预设第二时长内的第二语音信息。
分类服务器12,还用于提取第二语音信息的第二声纹特征,应用预先训练的声纹识别模型获取与第二声纹特征对应的第二用户分类结果。
分类服务器12,还用于根据第一用户分类结果和第二用户分类结果,生成与车载终端标识对应的总用户分类结果。
分类服务器12,还用于将车载终端标识与总用户分类结果的对应关系存储到数据库。
内容服务器13,还用于若比较获知第一用户分类结果和第二用户分类结果不同,则根据总用户分类结果推送相关的资源信息,将资源信息发送给车载终端11。
基于上述实施例,可以理解的是,车辆再次启动可以是等候红绿灯后/熄火后重新启动,乘客保持不变;或者是停车后新的乘客上车后重新启动等等。针对上述情况,在车辆再次启动时如何处理,进行详细说明如下:
车载终端11,还用于当检测到满足车辆再次启动条件时,采集预设第一时长内的第三语音信息。
分类服务器12,还用于提取第三语音信息的第三声纹特征,应用预先训练的声纹识别模型获取与第三声纹特征对应的第三用户分类结果。
分类服务器12,还用于查询数据库获取上次存储的与车载终端标识对应的总用户分类结果。
分类服务器12,还用于比较第三用户分类结果与总用户分类结果。
内容服务器13,还用于若比较获知第三用户分类结果与总用户分类结果相同,则继续向乘客推送相关的资源信息,将资源信息发送给车载终端11。
内容服务器13,还用于若比较获知第三用户分类结果与总用户分类结果不相同,则根据第三用户分类结果向乘客推送相关的资源信息,将资源信息发送给车载终端11。
需要说明的是,前述对基于声纹识别的信息推送方法实施例的解释说明也适用于该实施例的基于声纹识别的信息推送***,此处不再赘述。
综上所述,本发明实施例的基于声纹识别的信息推送***,通过车载终端在检测到满足乘客乘车的初始启动条件时采集预设第一时长内的第一语音信息,并发送给分类服务器,接着分类服务器提取第一语音信息的第一声纹特征,并应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果,并发送给内容服务器,最后内容服务器根据第一用户分类结果向乘客推送相关的资源信息,将资源信息发送给车载终端。由此,通过对车内语音信息的声纹识别来实现内容及服务的精准推送,提高了信息推送的精确度和转化率,提升用户体验。
本发明提出一种计算机设备,图5是根据本发明一个实施例的计算机设备的结构示意图。如图5所示,存储器21、处理器22及存储在存储器21上并可在处理器22上运行的计算机程序。
处理器22执行所述程序时实现上述实施例中提供的基于声纹识别的信息推送方法。
进一步地,计算机设备还包括:
通信接口23,用于存储器21和处理器22之间的通信。
存储器21,用于存放可在处理器22上运行的计算机程序。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
处理器22,用于执行所述程序时实现上述实施例所述的基于声纹识别的信息推送方法。
如果存储器21、处理器22和通信接口23独立实现,则通信接口21、存储器21和处理器22可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23,集成在一块芯片上实现,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
处理器22可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得能够执行一种基于声纹识别的信息推送方法,所述方法包括:当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息;提取第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果;根据第一用户分类结果向乘客推送相关的资源信息。
为了实现上述实施例,本发明还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于声纹识别的信息推送方法,所述方法包括:当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息;提取第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与第一声纹特征对应的第一用户分类结果;根据第一用户分类结果向乘客推送相关的资源信息。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (13)
1.一种基于声纹识别的信息推送方法,其特征在于,包括以下步骤:
当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息;
提取所述第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与所述第一声纹特征对应的第一用户分类结果;
根据所述第一用户分类结果向所述乘客推送相关的资源信息。
2.如权利要求1所述的方法,其特征在于,还包括:
采集预设第二时长内的第二语音信息;
提取所述第二语音信息的第二声纹特征,应用预先训练的声纹识别模型获取与所述第二声纹特征对应的第二用户分类结果;
根据所述第一用户分类结果和所述第二用户分类结果,生成与车载终端标识对应的总用户分类结果;
将所述车载终端标识与所述总用户分类结果的对应关系存储到数据库。
3.如权利要求2所述的方法,其特征在于,还包括:
若比较获知所述第一用户分类结果和所述第二用户分类结果不同,则根据所述总用户分类结果推送相关的资源信息。
4.如权利要求2所述的方法,其特征在于,还包括:
当检测到满足车辆再次启动条件时,采集预设第一时长内的第三语音信息;
提取所述第三语音信息的第三声纹特征,应用预先训练的声纹识别模型获取与所述第三声纹特征对应的第三用户分类结果;
查询所述数据库获取上次存储的与车载终端标识对应的总用户分类结果;
比较所述第三用户分类结果与所述总用户分类结果;
若比较获知所述第三用户分类结果与所述总用户分类结果相同,则继续向所述乘客推送相关的资源信息。
5.如权利要求4所述的方法,其特征在于,还包括:
若比较获知所述第三用户分类结果与所述总用户分类结果不相同,则根据所述第三用户分类结果向乘客推送相关的资源信息。
6.一种基于声纹识别的信息推送***,其特征在于,包括:
车载终端,用于当检测到满足乘客乘车的初始启动条件,采集预设第一时长内的第一语音信息,并发送给分类服务器;
所述分类服务器,用于提取所述第一语音信息的第一声纹特征,应用预先训练的声纹识别模型获取与所述第一声纹特征对应的第一用户分类结果,并发送给内容服务器;
所述内容服务器,用于根据所述第一用户分类结果向所述乘客推送相关的资源信息,将所述资源信息发送给所述车载终端。
7.如权利要求6所述的***,其特征在于,还包括:
所述车载终端,还用于采集预设第二时长内的第二语音信息;
所述分类服务器,还用于提取所述第二语音信息的第二声纹特征,应用预先训练的声纹识别模型获取与所述第二声纹特征对应的第二用户分类结果;
所述分类服务器,还用于根据所述第一用户分类结果和所述第二用户分类结果,生成与车载终端标识对应的总用户分类结果;
所述分类服务器,还用于将所述车载终端标识与所述总用户分类结果的对应关系存储到数据库。
8.如权利要求6所述的***,其特征在于,还包括:
所述内容服务器,还用于若比较获知所述第一用户分类结果和所述第二用户分类结果不同,则根据所述总用户分类结果推送相关的资源信息,将所述资源信息发送给所述车载终端。
9.如权利要求7所述的***,其特征在于,还包括:
所述车载终端,还用于当检测到满足车辆再次启动条件时,采集预设第一时长内的第三语音信息;
所述分类服务器,还用于提取所述第三语音信息的第三声纹特征,应用预先训练的声纹识别模型获取与所述第三声纹特征对应的第三用户分类结果;
所述分类服务器,还用于查询所述数据库获取上次存储的与车载终端标识对应的总用户分类结果;
所述分类服务器,还用于比较所述第三用户分类结果与所述总用户分类结果,并发送给内容服务器;
所述内容服务器,还用于若比较获知所述第三用户分类结果与所述总用户分类结果相同,则继续向所述乘客推送相关的资源信息,将所述资源信息发送给所述车载终端。
10.如权利要求9所述的***,其特征在于,还包括:
所述内容服务器,还用于若比较获知所述第三用户分类结果与所述总用户分类结果不相同,则根据所述第三用户分类结果向乘客推送相关的资源信息,将所述资源信息发送给所述车载终端。
11.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-5中任一所述的基于声纹识别的信息推送方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求权利要求1-5中任一所述的基于声纹识别的信息推送方法。
13.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-5中任一所述的基于声纹识别的信息推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710866615.6A CN107705793B (zh) | 2017-09-22 | 2017-09-22 | 基于声纹识别的信息推送方法、***及其设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710866615.6A CN107705793B (zh) | 2017-09-22 | 2017-09-22 | 基于声纹识别的信息推送方法、***及其设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107705793A true CN107705793A (zh) | 2018-02-16 |
CN107705793B CN107705793B (zh) | 2023-01-31 |
Family
ID=61174268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710866615.6A Active CN107705793B (zh) | 2017-09-22 | 2017-09-22 | 基于声纹识别的信息推送方法、***及其设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107705793B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875682A (zh) * | 2018-06-29 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
CN110033381A (zh) * | 2019-01-11 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种针对视障群体的保险推荐方法和装置 |
CN110392011A (zh) * | 2018-04-12 | 2019-10-29 | 上海博泰悦臻网络技术服务有限公司 | 音乐播放方法和音乐播放*** |
CN110784523A (zh) * | 2019-10-11 | 2020-02-11 | 北京地平线机器人技术研发有限公司 | 一种目标物信息的推送方法及装置 |
WO2020029495A1 (zh) * | 2018-08-10 | 2020-02-13 | 珠海格力电器股份有限公司 | 信息推送方法及家电设备 |
CN111274470A (zh) * | 2020-03-20 | 2020-06-12 | Oppo广东移动通信有限公司 | 乘车服务应用方法、装置、设备及计算机可读存储介质 |
CN111371838A (zh) * | 2020-02-14 | 2020-07-03 | 厦门快商通科技股份有限公司 | 基于声纹识别的信息推送方法、***及移动终端 |
CN112530418A (zh) * | 2019-08-28 | 2021-03-19 | 北京声智科技有限公司 | 一种语音唤醒方法、装置及相关设备 |
CN113656609A (zh) * | 2021-08-13 | 2021-11-16 | 阿波罗智联(北京)科技有限公司 | 推荐多媒体信息的方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012091883A (ja) * | 2010-10-25 | 2012-05-17 | Mitsubishi Electric Corp | エレベーターシステム |
CN103970808A (zh) * | 2013-01-25 | 2014-08-06 | 纬创资通股份有限公司 | 媒体内容推荐方法及媒体播放*** |
CN105898487A (zh) * | 2016-04-28 | 2016-08-24 | 北京光年无限科技有限公司 | 一种面向智能机器人的交互方法和装置 |
CN106056996A (zh) * | 2016-08-23 | 2016-10-26 | 深圳市时尚德源文化传播有限公司 | 一种多媒体交互教学***及方法 |
CN106128467A (zh) * | 2016-06-06 | 2016-11-16 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
-
2017
- 2017-09-22 CN CN201710866615.6A patent/CN107705793B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012091883A (ja) * | 2010-10-25 | 2012-05-17 | Mitsubishi Electric Corp | エレベーターシステム |
CN103970808A (zh) * | 2013-01-25 | 2014-08-06 | 纬创资通股份有限公司 | 媒体内容推荐方法及媒体播放*** |
CN105898487A (zh) * | 2016-04-28 | 2016-08-24 | 北京光年无限科技有限公司 | 一种面向智能机器人的交互方法和装置 |
CN106128467A (zh) * | 2016-06-06 | 2016-11-16 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
CN106056996A (zh) * | 2016-08-23 | 2016-10-26 | 深圳市时尚德源文化传播有限公司 | 一种多媒体交互教学***及方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110392011A (zh) * | 2018-04-12 | 2019-10-29 | 上海博泰悦臻网络技术服务有限公司 | 音乐播放方法和音乐播放*** |
CN108875682A (zh) * | 2018-06-29 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 信息推送方法和装置 |
WO2020029495A1 (zh) * | 2018-08-10 | 2020-02-13 | 珠海格力电器股份有限公司 | 信息推送方法及家电设备 |
CN110033381A (zh) * | 2019-01-11 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种针对视障群体的保险推荐方法和装置 |
CN112530418A (zh) * | 2019-08-28 | 2021-03-19 | 北京声智科技有限公司 | 一种语音唤醒方法、装置及相关设备 |
CN110784523A (zh) * | 2019-10-11 | 2020-02-11 | 北京地平线机器人技术研发有限公司 | 一种目标物信息的推送方法及装置 |
CN110784523B (zh) * | 2019-10-11 | 2022-08-02 | 北京地平线机器人技术研发有限公司 | 一种目标物信息的推送方法及装置 |
CN111371838A (zh) * | 2020-02-14 | 2020-07-03 | 厦门快商通科技股份有限公司 | 基于声纹识别的信息推送方法、***及移动终端 |
CN111274470A (zh) * | 2020-03-20 | 2020-06-12 | Oppo广东移动通信有限公司 | 乘车服务应用方法、装置、设备及计算机可读存储介质 |
CN113656609A (zh) * | 2021-08-13 | 2021-11-16 | 阿波罗智联(北京)科技有限公司 | 推荐多媒体信息的方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107705793B (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107705793A (zh) | 基于声纹识别的信息推送方法、***及其设备 | |
CN110838286B (zh) | 一种模型训练的方法、语种识别的方法、装置及设备 | |
CN112100349B (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN108509619B (zh) | 一种语音交互方法及设备 | |
CN107680591A (zh) | 基于车载终端的语音交互方法、装置及其设备 | |
CN105654950B (zh) | 自适应语音反馈方法和装置 | |
CN109523986B (zh) | 语音合成方法、装置、设备以及存储介质 | |
CN106294774A (zh) | 基于对话服务的用户个性化数据处理方法及装置 | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
CN106682090A (zh) | 主动交互实现装置、方法及智能语音交互设备 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN109190124B (zh) | 用于分词的方法和装置 | |
CN111261151B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN108009303A (zh) | 基于语音识别的搜索方法、装置、电子设备和存储介质 | |
CN108932220A (zh) | 文章生成方法和装置 | |
CN107564531A (zh) | 基于声纹特征的会议记录方法、装置及计算机设备 | |
CN110972112B (zh) | 地铁运行方向的确定方法、装置、终端及存储介质 | |
CN111737990B (zh) | 一种词槽填充方法、装置、设备及存储介质 | |
CN107122492A (zh) | 基于图片内容的歌词生成方法和装置 | |
CN107193941A (zh) | 基于图片内容的故事生成方法和装置 | |
CN111177296B (zh) | 信息推荐方法、装置、电子设备及计算机存储介质 | |
CN112860871A (zh) | 自然语言理解模型训练方法、自然语言理解方法及装置 | |
CN113689633B (zh) | 一种景区人机交互方法、装置及*** | |
CN109074809A (zh) | 信息处理设备、信息处理方法和程序 | |
CN109887490A (zh) | 用于识别语音的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |