CN113535925B - 语音播报方法、装置、设备及存储介质 - Google Patents
语音播报方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113535925B CN113535925B CN202110851156.0A CN202110851156A CN113535925B CN 113535925 B CN113535925 B CN 113535925B CN 202110851156 A CN202110851156 A CN 202110851156A CN 113535925 B CN113535925 B CN 113535925B
- Authority
- CN
- China
- Prior art keywords
- voice
- target
- broadcasting
- information
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims description 88
- 230000011218 segmentation Effects 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 26
- 238000001356 surgical procedure Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 8
- 230000005484 gravity Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004378 air conditioning Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 235000012222 talc Nutrition 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及人工智能,提供一种语音播报方法、装置、设备及存储介质。该方法能够获取目标话术,识别目标话术所属的话术类型,若话术类型为可中断类型,接收用户输入语音,确定用户输入语音的语音时长,确定用户输入语音的音量强度,若语音时长大于第一时长阈值,或者语音时长处于预设时长区间且音量强度大于预设音量阈值,将用户输入语音转换为文本信息,提取文本信息中的特征信息,将文本信息输入至意图识别模型中,得到目标意图,根据特征信息及目标意图计算中断概率,若中断概率大于预设阈值,停止播报目标话术。本发明能够提高目标话术的执行准确性。此外,本发明还涉及区块链技术,所述中断概率可存储于区块链中。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音播报方法、装置、设备及存储介质。
背景技术
在人机交互的语音播报过程中,语音打断功能可以提前获取到用户意图,从而节省人机交互时间。在目前的语音打断功能中,通过直接识别用户语音的意图,进而在识别到意图时直接中断语音播报,然而,这种方式识别到的意图可能是背景音所表征的意图,造成语音播报过程存在误打断的情况。
发明内容
鉴于以上内容,有必要提供一种语音播报方法、装置、设备及存储介质,能够提高目标话术的执行准确性。
一方面,本发明提出一种语音播报方法,所述语音播报方法包括:
当接收到语音播报请求时,根据所述语音播报请求获取目标话术;
识别所述目标话术所属的话术类型;
若所述话术类型为可中断类型,接收用户输入语音;
确定所述用户输入语音的语音时长,并确定所述用户输入语音的音量强度;
若所述语音时长大于第一时长阈值,或者所述语音时长处于预设时长区间且所述音量强度大于预设音量阈值,将所述用户输入语音转换为文本信息,所述预设时长区间是以第二时长阈值为左区间及以所述第一时长阈值为右区间确定的;
提取所述文本信息中的特征信息,并将所述文本信息输入至意图识别模型中,得到目标意图;
根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率;
若所述中断概率大于预设阈值,停止播报所述目标话术。
根据本发明优选实施例,所述根据所述语音播报请求获取目标话术包括:
解析所述语音播报请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示地址的信息作为存储路径,并从所述数据信息中获取指示话术的信息作为话术编号;
确定所述存储路径与所述话术编号的信息总量,并获取与所述信息总量对应的预设查询模板;
将所述存储路径及所述话术编号写入所述预设查询模板中,得到查询语句;
运行所述查询语句,得到所述目标话术。
根据本发明优选实施例,所述识别所述目标话术所属的话术类型包括:
从所述语音播报请求中获取播报领域;
从配置表中获取同时与所述目标话术及所述播报领域对应的信息作为历史播报记录;
获取所述历史播报记录的播报评分,并选取所述播报评分大于预设评分阈值的所述历史播报记录作为目标记录;
获取用户进行打断的所述目标记录作为打断记录;
获取所述目标记录的记录总量,并获取所述打断记录的打断总量;
将所述打断总量除以所述记录总量,得到所述打断记录在所述目标记录中的目标概率;
若所述目标概率大于或者等于预设阈值,将所述话术类型确定为所述可中断类型;或者
若所述目标概率小于所述预设阈值,将所述话术类型确定为不可中断类型。
根据本发明优选实施例,所述确定所述用户输入语音的语音时长包括:
获取所述语音通道的通道编号,并获取与所述通道编号对应的目标日志;
从所述目标日志中获取所述用户输入语音的采集时间;
将所述采集时间中取值最小的时间确定为第一时间,并将所述采集时间中取值最大的时间确定为第二时间;
计算所述第二时间与所述第一时间的时间差,得到所述语音时长。
根据本发明优选实施例,所述提取所述文本信息中的特征信息包括:
根据预设词典对所述文本信息进行切分,得到多个路径及每个路径对应的路径分词;
从所述预设词典中获取所述路径分词的分词权值,并计算所述分词权值的总和,得到每个路径的路径概率;
将所述路径概率最大的路径对应的所述路径分词确定为初始分词;
基于预设语料库剔除所述初始分词中的信息,得到多个语句分词;
分析每个语句分词在所述文本信息中的语句词性;
将与预设词性相同的所述语句词性对应的语句分词确定为所述特征信息。
根据本发明优选实施例,所述将所述文本信息输入至意图识别模型中,得到目标意图包括:
对所述文本信息进行编码处理,得到编码向量;
获取双向长短期记忆网络中的正向网络及反向网络;
基于所述正向网络对所述编码向量进行特征提取,得到第一特征向量,并基于所述反向网络对所述编码向量进行特征提取,得到第二特征向量;
拼接所述第一特征向量及所述第二特征向量,得到目标特征向量;
获取所述意图识别模型中的权重矩阵及偏置值;
计算所述目标特征向量与所述权重矩阵的乘积,并计算所述乘积与所述偏置值的总和,得到意图向量;
对所述意图向量进行映射处理,得到所述目标意图。
根据本发明优选实施例,所述根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率包括:
获取所述播报领域的中断话术库;
基于所述特征信息遍历所述中断话术库,并确定在所述中断话术库中遍历到的特征信息的数量作为目标数量;
计算所述特征信息的特征总量,并计算所述目标数量在所述特征总量中所占的比值,得到第一中断比重;
获取所述目标意图在所述播报领域中的第二中断比重;
对所述第一中断比重及所述第二中断比重进行加权和运算,得到所述中断概率。
另一方面,本发明还提出一种语音播报装置,所述语音播报装置包括:
获取单元,用于当接收到语音播报请求时,根据所述语音播报请求获取目标话术;
识别单元,用于识别所述目标话术所属的话术类型;
接收单元,用于若所述话术类型为可中断类型,接收用户输入语音;
确定单元,用于确定所述用户输入语音的语音时长,并确定所述用户输入语音的音量强度;
转换单元,用于若所述语音时长大于第一时长阈值,或者所述语音时长处于预设时长区间且所述音量强度大于预设音量阈值,将所述用户输入语音转换为文本信息,所述预设时长区间是以第二时长阈值为左区间及以所述第一时长阈值为右区间确定的;
输入单元,用于提取所述文本信息中的特征信息,并将所述文本信息输入至意图识别模型中,得到目标意图;
计算单元,用于根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率;
播报单元,用于若所述中断概率大于预设阈值,停止播报所述目标话术。
另一方面,本发明还提出一种电子设备,所述电子设备包括:
存储器,存储计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现所述语音播报方法。
另一方面,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现所述语音播报方法。
由以上技术方案可以看出,本发明通过识别所述目标话术所属的话术类型,进而在所述话术类型为可中断类型时接收所述用户输入语音,能够避免所述目标话术中的重要信息被中断,从而提高所述目标话术中的重要信息的播报连续性,进而通过所述语音时长以及所述音量强度的判定,能够避免识别出的所述目标意图为背景音所表征的,从而能够提高所述目标话术的执行准确性,本发明还结合所述特征信息及所述目标意图对所述中断概率的确定,根据所述中断概率能够提高所述目标话术的执行准确性。
附图说明
图1是本发明语音播报方法的较佳实施例的流程图。
图2是本发明语音播报装置的较佳实施例的功能模块图。
图3是本发明实现语音播报方法的较佳实施例的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,是本发明语音播报方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
所述语音播报方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的计算机可读指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字信号处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能穿戴式设备等。
所述电子设备可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络电子设备、多个网络电子设备组成的电子设备组或基于云计算(CloudComputing)的由大量主机或网络电子设备构成的云。
所述电子设备所处的网络包括,但不限于:互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
S10,当接收到语音播报请求时,根据所述语音播报请求获取目标话术。
在本发明的至少一个实施例中,所述语言播报请求可以由播报所述目标话术的机器人触发。所述语音播报请求携带的信息包括,但不限于:存储路径、话术编号、播报领域等。
所述目标话术是指正在进行语音播报的信息。
在本发明的至少一个实施例中,所述电子设备根据所述语音播报请求获取目标话术包括:
解析所述语音播报请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示地址的信息作为存储路径,并从所述数据信息中获取指示话术的信息作为话术编号;
确定所述存储路径与所述话术编号的信息总量,并获取与所述信息总量对应的预设查询模板;
将所述存储路径及所述话术编号写入所述预设查询模板中,得到查询语句;
运行所述查询语句,得到所述目标话术。
其中,所述数据信息中包括,但不限于:所述存储路径、指示所述存储路径的标签、所述话术编号、指示所述话术编号的标签等。例如,所述数据信息表现为:{add:路径A,num:话术456,field:保险销售}。
所述预设查询模板中存储有搜索对象的填充位置,所述填充位置的数量与所述信息总量相同。
通过解析所述报文,由于无需解析整个所述语音播报请求,因此能够提高所述数据信息的获取效率,通过将所述存储路径及所述话术编号同时写入所述预设查询模板,由于能够在指定路径下对所述目标话术进行搜索,因此,能够提高所述目标话术的搜索效率。
S11,识别所述目标话术所属的话术类型。
在本发明的至少一个实施例中,所述话术类型是指所述目标话术的类型。所述话术类型包括可中断类型、不可中断类型,所述可中断类型是指所述目标话术在播报的过程当中可以被中断,所述不可中断类型是指所述目标话术在播报的过程当中不可以被中断。
在本发明的至少一个实施例中,所述电子设备识别所述目标话术所属的话术类型包括:
从所述语音播报请求中获取播报领域;
从配置表中获取同时与所述目标话术及所述播报领域对应的信息作为历史播报记录;
获取所述历史播报记录的播报评分,并选取所述播报评分大于预设评分阈值的所述历史播报记录作为目标记录;
获取用户进行打断的所述目标记录作为打断记录;
获取所述目标记录的记录总量,并获取所述打断记录的打断总量;
将所述打断总量除以所述记录总量,得到所述打断记录在所述目标记录中的目标概率;
若所述目标概率大于或者等于预设阈值,将所述话术类型确定为所述可中断类型;或者
若所述目标概率小于所述预设阈值,将所述话术类型确定为不可中断类型。
其中,所述配置表中存储有所述播报领域、所述目标话术、所述历史播报记录与所述播报评分的映射关系。例如,保险咨询领域:话术A:历史播报记录002:播报评分为85分。
所述预设评分阈值及所述预设阈值可以根据需求设置。
通过所述播报领域及所述播报评分,能够准确的确定出大数据用户在所述播报领域的打断喜好,从而获取到符合用户打断喜好的目标记录,进而通过分析打断在所述目标记录中所占的目标概率,能够准确的确定出所述目标话术所属的话术类型。
S12,若所述话术类型为可中断类型,接收用户输入语音。
在本发明的至少一个实施例中,所述用户输入语音是指在播报所述目标话术的过程中用户发出的语音。
在本发明的至少一个实施例中,所述电子设备接收用户输入语音包括:
从所述语音播报请求中获取播报场次;
获取所述播报场次的语音通道;
当检测到所述目标话术进行播报时,启动所述语音通道,并从所述语音通道中获取所述用户输入语音。
其中,所述播报场次是指所述目标话术进行播报的房间号。
所述语音通道是指人机交互过程中的语音交互通道。
通过上述实施方式,能够在播报所述目标话术时快速获取所述用户输入语音。
在本发明的至少一个实施例中,所述方法还包括:
若所述话术类型为不可中断类型,控制所述语音通道关闭。
S13,确定所述用户输入语音的语音时长,并确定所述用户输入语音的音量强度。
在本发明的至少一个实施例中,所述语音时长是指所述用户输入语音的发出时刻及所述用户输入语音的结束时刻的时间差。
所述音量强度是指所述用户输入语音的音量响度。若所述用户输入语音是背景因,则所述音量强度较弱。
在本发明的至少一个实施例中,所述电子设备确定所述用户输入语音的语音时长包括:
获取所述语音通道的通道编号,并获取与所述通道编号对应的目标日志;
从所述目标日志中获取所述用户输入语音的采集时间;
将所述采集时间中取值最小的时间确定为第一时间,并将所述采集时间中取值最大的时间确定为第二时间;
计算所述第二时间与所述第一时间的时间差,得到所述语音时长。
其中,所述通道编号用于指示所述语音通道。
所述目标日志是指包含有所述通道编号的日志。
通过所述通道编号能够准确的确定出所述目标日志,从而能够准确的获取到所述采集时间,进而根据所述采集时间能够准确的确定出所述语音时长。
具体地,所述电子设备获取与所述通道编号对应的目标日志包括:
获取配置搜索模板,并从所述配置搜索模板中获取待搜索对象的对象标签;
确定所述对象标签在所述配置搜索模板中的填充位置;
将所述通道编号写入所述填充位置,得到搜索语句;
基于日志库运行所述搜索语句,得到所述目标日志。
其中,所述配置搜索模板中存储有待搜索对象的对象标签等。
由于所述目标日志是指包含有所述通道编号的日志,因此,通过将所述通道编号写入所述配置搜索模板中,能够快速生成所述搜索语句,同时还能够基于生成的所述搜索语句准确的获取到所述目标日志。
在本发明的至少一个实施例中,所述电子设备确定所述用户输入语音的音量强度包括:
对所述用户输入语音进行预处理,得到波形信息;
从所述波形信息中获取每个时刻对应的强度值;
计算所述强度值的平均值,得到所述音量强度。
通过上述实施方式,能够根据所述波形信息快速确定出所述音量强度。
S14,若所述语音时长大于第一时长阈值,或者所述语音时长处于预设时长区间且所述音量强度大于预设音量阈值,将所述用户输入语音转换为文本信息,所述预设时长区间是以第二时长阈值为左区间及以所述第一时长阈值为右区间确定的。
在本发明的至少一个实施例中,所述第一时长阈值大于所述第二时长阈值。所述第一时长阈值、所述第二时长阈值及所述预设音量阈值可以根据需求设置,本发明对此不作限制。
所述文本信息是指所述用户输入语音的文本表征。
在本发明的至少一个实施例中,所述电子设备将所述用户输入语音转换为文本信息包括:
提取所述波形信息中的特征,得到语音特征;
利用维特比算法对所述语音特征进行解码处理,得到语音最优路径;
根据所述语音最优路径确定所述文本信息。
通过对所述语音信息进行预处理,能够从所述语音信息中剔除掉干扰信息,进而利用维特比算法对所述语音特征进行解码,能够准确地将所述语音信息转换为所述文本信息。
在本发明的至少一个实施例中,所述方法还包括:
若所述语音时长小于或者等于所述第二时长阈值,继续播放所述目标话术。
在本发明的至少一个实施例中,所述方法还包括:
若所述音量强度小于或者等于所述预设音量阈值,继续播放所述目标话术。
S15,提取所述文本信息中的特征信息,并将所述文本信息输入至意图识别模型中,得到目标意图。
在本发明的至少一个实施例中,所述特征信息是指能够表征所述文本信息的特征的信息。
所述意图识别模型是指能够进行文本意图识别的模型。
所述目标意图是指所述文本信息所表征的意图。
在本发明的至少一个实施例中,所述电子设备提取所述文本信息中的特征信息包括:
根据预设词典对所述文本信息进行切分,得到多个路径及每个路径对应的路径分词;
从所述预设词典中获取所述路径分词的分词权值,并计算所述分词权值的总和,得到每个路径的路径概率;
将所述路径概率最大的路径对应的所述路径分词确定为初始分词;
基于预设语料库剔除所述初始分词中的信息,得到多个语句分词;
分析每个语句分词在所述文本信息中的语句词性;
将与预设词性相同的所述语句词性对应的语句分词确定为所述特征信息。
其中,所述预设词典中包括多个自定义词及每个自定义词的切分权值。所述预设词典中的自定义词是根据所述播报领域生成的。
所述预设语料库中存储有确认播报目标话术的词汇。例如,所述预设词汇可以是:哦、嗯等。
所述预设词性可以是动词,所述预设词性也可以是名词。
通过所述预设词典能够根据所述播报领域准确的切分所述文本信息,从而得到准确的初始分词,进而根据所述预设语料库过滤掉所述初始分词中无意义的确认响应词,以及根据所述语句分词的语句词性能够准确的确定出所述特征信息。
在本发明的至少一个实施例中,所述电子设备将所述文本信息输入至意图识别模型中,得到目标意图包括:
对所述文本信息进行编码处理,得到编码向量;
获取双向长短期记忆网络中的正向网络及反向网络;
基于所述正向网络对所述编码向量进行特征提取,得到第一特征向量,并基于所述反向网络对所述编码向量进行特征提取,得到第二特征向量;
拼接所述第一特征向量及所述第二特征向量,得到目标特征向量;
获取所述意图识别模型中的权重矩阵及偏置值;
计算所述目标特征向量与所述权重矩阵的乘积,并计算所述乘积与所述偏置值的总和,得到意图向量;
对所述意图向量进行映射处理,得到所述目标意图。
其中,所述双向长短期记忆网络包括所述正向网络及所述反向网络。所述正向网络能够提取出所述文本信息中过去时刻的特征信息,所述反向网络能够提取出所述文本信息中未来时刻的特征信息。
所述权重矩阵及所述偏置值是在训练所述意图识别模型时生成的。
通过所述双向长短期记忆网络能够同时提取到所述文本信息中过去时刻及未来时刻的特征信息,进而通过权重矩阵及偏置值能够准确的确定出所述意图向量,从而能够准确的确定出所述目标意图。
具体地,所述电子设备对所述文本信息进行编码处理,得到编码向量包括:
从向量映射表中获取所述初始分词的词汇向量;
确定所述初始分词在所述文本信息中的词汇位置;
根据所述词汇位置拼接所述词汇向量,得到所述编码向量。
其中,所述向量映射表中存储有多个向量值与词汇的映射关系。
通过所述向量映射表能够从同一维度上获取到所述初始分词的向量值,进而根据所述词汇位置拼接所述词汇向量,能够直接生成表征所述文本信息的所述编码向量。
具体地,所述电子设备对所述意图向量进行映射处理,得到所述目标意图包括:
对所述意图向量进行归一化处理,得到概率向量;
将所述概率向量中取值最大的向量值对应的维度确定为目标维度;
从维度映射表中获取所述目标维度对应的意图作为所述目标意图。
其中,所述意图向量中每个维度都对应有相应的意图,相应的,所述概率向量中每个维度也都对应有相应的意图。所述概率向量中所有维度的元素总和为1。
所述维度映射表中存储有多个维度与多个意图的映射关系,所述电子设备基于所述维度映射表对样本进行训练,进而得到所述意图识别模型。
例如:所述概率向量为(0.1,0.85,0.05),所述维度映射表为:{第1维度:意图X;第2维度:意图Y;第3维度:意图Z}。
通过对所述意图向量进行归一化处理,能够快速确定出所述目标维度,进而通过所述维度映射表能够快速确定出所述目标意图。
S16,根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率。
需要强调的是,为进一步保证上述中断概率的私密和安全性,上述中断概率还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述中断概率是指需要对所述目标话术进行中断的概率。
在本发明的至少一个实施例中,所述电子设备根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率包括:
获取所述播报领域的中断话术库;
基于所述特征信息遍历所述中断话术库,并确定在所述中断话术库中遍历到的特征信息的数量作为目标数量;
计算所述特征信息的特征总量,并计算所述目标数量在所述特征总量中所占的比值,得到第一中断比重;
获取所述目标意图在所述播报领域中的第二中断比重;
对所述第一中断比重及所述第二中断比重进行加权和运算,得到所述中断概率。
其中,所述中断话术库中存储有多个指示中断的通用词汇。
所述目标数量是指所述特征信息与所述中断话术库中的通用词汇相同的词汇数量。
所述特征总量是指所述特征信息中所有词汇的数量。
通过上述实施方式,能够从所述特征信息上确定出所述第一中断比重,以及从所述目标意图上确定出所述第二中断比重,从而结合所述特征信息及所述目标意图能够准确的确定出所述中断概率,从而提高所述目标话术的执行准确性。
S17,若所述中断概率大于预设阈值,停止播报所述目标话术。
在本发明的至少一个实施例中,所述预设阈值可以根据播报评分确定,本发明对所述预设阈值的确定方式不作赘述。
在本发明的至少一个实施例中,所述方法还包括:
若所述中断概率小于或者等于所述预设阈值,继续播报所述目标话术。
由以上技术方案可以看出,本发明通过识别所述目标话术所属的话术类型,进而在所述话术类型为可中断类型时接收所述用户输入语音,能够避免所述目标话术中的重要信息被中断,从而提高所述目标话术中的重要信息的播报连续性,进而通过所述语音时长以及所述音量强度的判定,能够避免识别出的所述目标意图为背景音所表征的,从而能够提高所述目标话术的执行准确性,本发明还结合所述特征信息及所述目标意图对所述中断概率的确定,根据所述中断概率能够提高所述目标话术的执行准确性。
如图2所示,是本发明语音播报装置的较佳实施例的功能模块图。所述语音播报装置11包括获取单元110、识别单元111、接收单元112、确定单元113、转换单元114、输入单元115、计算单元116、播报单元117及控制单元118。本发明所称的模块/单元是指一种能够被处理器13所获取,并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器12中。在本实施例中,关于各模块/单元的功能将在后续的实施例中详述。
当接收到语音播报请求时,获取单元110根据所述语音播报请求获取目标话术。
在本发明的至少一个实施例中,所述语言播报请求可以由播报所述目标话术的机器人触发。所述语音播报请求携带的信息包括,但不限于:存储路径、话术编号、播报领域等。
所述目标话术是指需要进行语音播报的信息。
在本发明的至少一个实施例中,所述获取单元110根据所述语音播报请求获取目标话术包括:
解析所述语音播报请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示地址的信息作为存储路径,并从所述数据信息中获取指示话术的信息作为话术编号;
确定所述存储路径与所述话术编号的信息总量,并获取与所述信息总量对应的预设查询模板;
将所述存储路径及所述话术编号写入所述预设查询模板中,得到查询语句;
运行所述查询语句,得到所述目标话术。
其中,所述数据信息中包括,但不限于:所述存储路径、指示所述存储路径的标签、所述话术编号、指示所述话术编号的标签等。例如,所述数据信息表现为:{add:路径A,num:话术456,field:保险销售}。
所述预设查询模板中存储有搜索对象的填充位置,所述填充位置的数量与所述信息总量相同。
通过解析所述报文,由于无需解析整个所述语音播报请求,因此能够提高所述数据信息的获取效率,通过将所述存储路径及所述话术编号同时写入所述预设查询模板,由于能够在指定路径下对所述目标话术进行搜索,因此,能够提高所述目标话术的搜索效率。
识别单元111识别所述目标话术所属的话术类型。
在本发明的至少一个实施例中,所述话术类型是指所述目标话术的类型。所述话术类型包括可中断类型、不可中断类型,所述可中断类型是指所述目标话术在播报的过程当中可以被中断,所述不可中断类型是指所述目标话术在播报的过程当中不可以被中断。
在本发明的至少一个实施例中,所述识别单元111识别所述目标话术所属的话术类型包括:
从所述语音播报请求中获取播报领域;
从配置表中获取同时与所述目标话术及所述播报领域对应的信息作为历史播报记录;
获取所述历史播报记录的播报评分,并选取所述播报评分大于预设评分阈值的所述历史播报记录作为目标记录;
获取用户进行打断的所述目标记录作为打断记录;
获取所述目标记录的记录总量,并获取所述打断记录的打断总量;
将所述打断总量除以所述记录总量,得到所述打断记录在所述目标记录中的目标概率;
若所述目标概率大于或者等于预设阈值,将所述话术类型确定为所述可中断类型;或者
若所述目标概率小于所述预设阈值,将所述话术类型确定为不可中断类型。
其中,所述配置表中存储有所述播报领域、所述目标话术、所述历史播报记录与所述播报评分的映射关系。例如,保险咨询领域:话术A:历史播报记录002:播报评分为85分。
所述预设评分阈值及所述预设阈值可以根据需求设置。
通过所述播报领域及所述播报评分,能够准确的确定出大数据用户在所述播报领域的打断喜好,从而获取到符合用户打断喜好的目标记录,进而通过分析打断在所述目标记录中所占的目标概率,能够准确的确定出所述目标话术所属的话术类型。
若所述话术类型为可中断类型,接收单元112接收用户输入语音。
在本发明的至少一个实施例中,所述用户输入语音是指在播报所述目标话术的过程中用户发出的语音。
在本发明的至少一个实施例中,所述接收单元112接收用户输入语音包括:
从所述语音播报请求中获取播报场次;
获取所述播报场次的语音通道;
当检测到所述目标话术进行播报时,启动所述语音通道,并从所述语音通道中获取所述用户输入语音。
其中,所述播报场次是指所述目标话术进行播报的房间号。
所述语音通道是指人机交互过程中的语音交互通道。
通过上述实施方式,能够在播报所述目标话术时快速获取所述用户输入语音。
在本发明的至少一个实施例中,若所述话术类型为不可中断类型,控制单元118控制所述语音通道关闭。
确定单元113确定所述用户输入语音的语音时长,并确定所述用户输入语音的音量强度。
在本发明的至少一个实施例中,所述语音时长是指所述用户输入语音的发出时刻及所述用户输入语音的结束时刻的时间差。
所述音量强度是指所述用户输入语音的音量响度。若所述用户输入语音是背景因,则所述音量强度较弱。
在本发明的至少一个实施例中,所述确定单元113确定所述用户输入语音的语音时长包括:
获取所述语音通道的通道编号,并获取与所述通道编号对应的目标日志;
从所述目标日志中获取所述用户输入语音的采集时间;
将所述采集时间中取值最小的时间确定为第一时间,并将所述采集时间中取值最大的时间确定为第二时间;
计算所述第二时间与所述第一时间的时间差,得到所述语音时长。
其中,所述通道编号用于指示所述语音通道。
所述目标日志是指包含有所述通道编号的日志。
通过所述通道编号能够准确的确定出所述目标日志,从而能够准确的获取到所述采集时间,进而根据所述采集时间能够准确的确定出所述语音时长。
具体地,所述确定单元113获取与所述通道编号对应的目标日志包括:
获取配置搜索模板,并从所述配置搜索模板中获取待搜索对象的对象标签;
确定所述对象标签在所述配置搜索模板中的填充位置;
将所述通道编号写入所述填充位置,得到搜索语句;
基于日志库运行所述搜索语句,得到所述目标日志。
其中,所述配置搜索模板中存储有待搜索对象的对象标签等。
由于所述目标日志是指包含有所述通道编号的日志,因此,通过将所述通道编号写入所述配置搜索模板中,能够快速生成所述搜索语句,同时还能够基于生成的所述搜索语句准确的获取到所述目标日志。
在本发明的至少一个实施例中,所述确定单元113确定所述用户输入语音的音量强度包括:
对所述用户输入语音进行预处理,得到波形信息;
从所述波形信息中获取每个时刻对应的强度值;
计算所述强度值的平均值,得到所述音量强度。
通过上述实施方式,能够根据所述波形信息快速确定出所述音量强度。
若所述语音时长大于第一时长阈值,或者所述语音时长处于预设时长区间且所述音量强度大于预设音量阈值,转换单元114将所述用户输入语音转换为文本信息,所述预设时长区间是以第二时长阈值为左区间及以所述第一时长阈值为右区间确定的。
在本发明的至少一个实施例中,所述第一时长阈值大于所述第二时长阈值。所述第一时长阈值、所述第二时长阈值及所述预设音量阈值可以根据需求设置,本发明对此不作限制。
所述文本信息是指所述用户输入语音的文本表征。
在本发明的至少一个实施例中,所述转换单元114将所述用户输入语音转换为文本信息包括:
提取所述波形信息中的特征,得到语音特征;
利用维特比算法对所述语音特征进行解码处理,得到语音最优路径;
根据所述语音最优路径确定所述文本信息。
通过对所述语音信息进行预处理,能够从所述语音信息中剔除掉干扰信息,进而利用维特比算法对所述语音特征进行解码,能够准确地将所述语音信息转换为所述文本信息。
在本发明的至少一个实施例中,若所述语音时长小于或者等于所述第二时长阈值,播报单元117继续播放所述目标话术。
在本发明的至少一个实施例中,若所述音量强度小于或者等于所述预设音量阈值,所述播报单元117继续播放所述目标话术。
输入单元115提取所述文本信息中的特征信息,并将所述文本信息输入至意图识别模型中,得到目标意图。
在本发明的至少一个实施例中,所述特征信息是指能够表征所述文本信息的特征的信息。
所述意图识别模型是指能够进行文本意图识别的模型。
所述目标意图是指所述文本信息所表征的意图。
在本发明的至少一个实施例中,所述输入单元115提取所述文本信息中的特征信息包括:
根据预设词典对所述文本信息进行切分,得到多个路径及每个路径对应的路径分词;
从所述预设词典中获取所述路径分词的分词权值,并计算所述分词权值的总和,得到每个路径的路径概率;
将所述路径概率最大的路径对应的所述路径分词确定为初始分词;
基于预设语料库剔除所述初始分词中的信息,得到多个语句分词;
分析每个语句分词在所述文本信息中的语句词性;
将与预设词性相同的所述语句词性对应的语句分词确定为所述特征信息。
其中,所述预设词典中包括多个自定义词及每个自定义词的切分权值。所述预设词典中的自定义词是根据所述播报领域生成的。
所述预设语料库中存储有确认播报目标话术的词汇。例如,所述预设词汇可以是:哦、嗯等。
所述预设词性可以是动词,所述预设词性也可以是名词。
通过所述预设词典能够根据所述播报领域准确的切分所述文本信息,从而得到准确的初始分词,进而根据所述预设语料库过滤掉所述初始分词中无意义的确认响应词,以及根据所述语句分词的语句词性能够准确的确定出所述特征信息。
在本发明的至少一个实施例中,所述输入单元115将所述文本信息输入至意图识别模型中,得到目标意图包括:
对所述文本信息进行编码处理,得到编码向量;
获取双向长短期记忆网络中的正向网络及反向网络;
基于所述正向网络对所述编码向量进行特征提取,得到第一特征向量,并基于所述反向网络对所述编码向量进行特征提取,得到第二特征向量;
拼接所述第一特征向量及所述第二特征向量,得到目标特征向量;
获取所述意图识别模型中的权重矩阵及偏置值;
计算所述目标特征向量与所述权重矩阵的乘积,并计算所述乘积与所述偏置值的总和,得到意图向量;
对所述意图向量进行映射处理,得到所述目标意图。
其中,所述双向长短期记忆网络包括所述正向网络及所述反向网络。所述正向网络能够提取出所述文本信息中过去时刻的特征信息,所述反向网络能够提取出所述文本信息中未来时刻的特征信息。
所述权重矩阵及所述偏置值是在训练所述意图识别模型时生成的。
通过所述双向长短期记忆网络能够同时提取到所述文本信息中过去时刻及未来时刻的特征信息,进而通过权重矩阵及偏置值能够准确的确定出所述意图向量,从而能够准确的确定出所述目标意图。
具体地,所述输入单元115对所述文本信息进行编码处理,得到编码向量包括:
从向量映射表中获取所述初始分词的词汇向量;
确定所述初始分词在所述文本信息中的词汇位置;
根据所述词汇位置拼接所述词汇向量,得到所述编码向量。
其中,所述向量映射表中存储有多个向量值与词汇的映射关系。
通过所述向量映射表能够从同一维度上获取到所述初始分词的向量值,进而根据所述词汇位置拼接所述词汇向量,能够直接生成表征所述文本信息的所述编码向量。
具体地,所述输入单元115对所述意图向量进行映射处理,得到所述目标意图包括:
对所述意图向量进行归一化处理,得到概率向量;
将所述概率向量中取值最大的向量值对应的维度确定为目标维度;
从维度映射表中获取所述目标维度对应的意图作为所述目标意图。
其中,所述意图向量中每个维度都对应有相应的意图,相应的,所述概率向量中每个维度也都对应有相应的意图。所述概率向量中所有维度的元素总和为1。
所述维度映射表中存储有多个维度与多个意图的映射关系,所述电子设备基于所述维度映射表对样本进行训练,进而得到所述意图识别模型。
例如:所述概率向量为(0.1,0.85,0.05),所述维度映射表为:{第1维度:意图X;第2维度:意图Y;第3维度:意图Z}。
通过对所述意图向量进行归一化处理,能够快速确定出所述目标维度,进而通过所述维度映射表能够快速确定出所述目标意图。
计算单元116根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率。
需要强调的是,为进一步保证上述中断概率的私密和安全性,上述中断概率还可以存储于一区块链的节点中。
在本发明的至少一个实施例中,所述中断概率是指需要对所述目标话术进行中断的概率指。
在本发明的至少一个实施例中,所述计算单元116根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率包括:
获取所述播报领域的中断话术库;
基于所述特征信息遍历所述中断话术库,并确定在所述中断话术库中遍历到的特征信息的数量作为目标数量;
计算所述特征信息的特征总量,并计算所述目标数量在所述特征总量中所占的比值,得到第一中断比重;
获取所述目标意图在所述播报领域中的第二中断比重;
对所述第一中断比重及所述第二中断比重进行加权和运算,得到所述中断概率。
其中,所述中断话术库中存储有多个指示中断的通用词汇。
所述目标数量是指所述特征信息与所述中断话术库中的通用词汇相同的词汇数量。
所述特征总量是指所述特征信息中所有词汇的数量。
通过上述实施方式,能够从所述特征信息上确定出所述第一中断比重,以及从所述目标意图上确定出所述第二中断比重,从而结合所述特征信息及所述目标意图能够准确的确定出所述中断概率,从而提高所述目标话术的执行准确性。
若所述中断概率大于预设阈值,播报单元117停止播报所述目标话术。
在本发明的至少一个实施例中,所述预设阈值可以根据播报评分确定,本发明对所述预设阈值的确定方式不作赘述。
在本发明的至少一个实施例中,若所述中断概率小于或者等于所述预设阈值,所述播报单元117继续播报所述目标话术。
由以上技术方案可以看出,本发明通过识别所述目标话术所属的话术类型,进而在所述话术类型为可中断类型时接收所述用户输入语音,能够避免所述目标话术中的重要信息被中断,从而提高所述目标话术中的重要信息的播报连续性,进而通过所述语音时长以及所述音量强度的判定,能够避免识别出的所述目标意图为背景音所表征的,从而能够提高所述目标话术的执行准确性,本发明还结合所述特征信息及所述目标意图对所述中断概率的确定,根据所述中断概率能够提高所述目标话术的执行准确性。
如图3所示,是本发明实现语音播报方法的较佳实施例的电子设备的结构示意图。
在本发明的一个实施例中,所述电子设备1包括,但不限于,存储器12、处理器13,以及存储在所述存储器12中并可在所述处理器13上运行的计算机可读指令,例如语音播报程序。
本领域技术人员可以理解,所述示意图仅仅是电子设备1的示例,并不构成对电子设备1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备1还可以包括输入输出设备、网络接入设备、总线等。
所述处理器13可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器13是所述电子设备1的运算核心和控制中心,利用各种接口和线路连接整个电子设备1的各个部分,及执行所述电子设备1的操作***以及安装的各类应用程序、程序代码等。
示例性的,所述计算机可读指令可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该计算机可读指令段用于描述所述计算机可读指令在所述电子设备1中的执行过程。例如,所述计算机可读指令可以被分割成获取单元110、识别单元111、接收单元112、确定单元113、转换单元114、输入单元115、计算单元116、播报单元117及控制单元118。
所述存储器12可用于存储所述计算机可读指令和/或模块,所述处理器13通过运行或执行存储在所述存储器12内的计算机可读指令和/或模块,以及调用存储在存储器12内的数据,实现所述电子设备1的各种功能。所述存储器12可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。存储器12可以包括非易失性和易失性存储器,例如:硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他存储器件。
所述存储器12可以是电子设备1的外部存储器和/或内部存储器。进一步地,所述存储器12可以是具有实物形式的存储器,如内存条、TF卡(Trans-flash Card)等等。
所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
其中,所述计算机可读指令包括计算机可读指令代码,所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
结合图1,所述电子设备1中的所述存储器12存储计算机可读指令实现一种语音播报方法,所述处理器13可执行所述计算机可读指令从而实现:
当接收到语音播报请求时,根据所述语音播报请求获取目标话术;
识别所述目标话术所属的话术类型;
若所述话术类型为可中断类型,接收用户输入语音;
确定所述用户输入语音的语音时长,并确定所述用户输入语音的音量强度;
若所述语音时长大于第一时长阈值,或者所述语音时长处于预设时长区间且所述音量强度大于预设音量阈值,将所述用户输入语音转换为文本信息,所述预设时长区间是以第二时长阈值为左区间及以所述第一时长阈值为右区间确定的;
提取所述文本信息中的特征信息,并将所述文本信息输入至意图识别模型中,得到目标意图;
根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率;
若所述中断概率大于预设阈值,停止播报所述目标话术。
具体地,所述处理器13对上述计算机可读指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述计算机可读存储介质上存储有计算机可读指令,其中,所述计算机可读指令被处理器13执行时用以实现以下步骤:
当接收到语音播报请求时,根据所述语音播报请求获取目标话术;
识别所述目标话术所属的话术类型;
若所述话术类型为可中断类型,接收用户输入语音;
确定所述用户输入语音的语音时长,并确定所述用户输入语音的音量强度;
若所述语音时长大于第一时长阈值,或者所述语音时长处于预设时长区间且所述音量强度大于预设音量阈值,将所述用户输入语音转换为文本信息,所述预设时长区间是以第二时长阈值为左区间及以所述第一时长阈值为右区间确定的;
提取所述文本信息中的特征信息,并将所述文本信息输入至意图识别模型中,得到目标意图;
根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率;
若所述中断概率大于预设阈值,停止播报所述目标话术。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。所述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (9)
1.一种语音播报方法,其特征在于,所述语音播报方法包括:
当接收到语音播报请求时,根据所述语音播报请求获取目标话术;
识别所述目标话术所属的话术类型,包括:从所述语音播报请求中获取播报领域;从配置表中获取同时与所述目标话术及所述播报领域对应的信息作为历史播报记录;获取所述历史播报记录的播报评分,并选取所述播报评分大于预设评分阈值的所述历史播报记录作为目标记录;获取用户进行打断的所述目标记录作为打断记录;获取所述目标记录的记录总量,并获取所述打断记录的打断总量;将所述打断总量除以所述记录总量,得到所述打断记录在所述目标记录中的目标概率;若所述目标概率大于或者等于预设阈值,将所述话术类型确定为可中断类型;或者若所述目标概率小于所述预设阈值,将所述话术类型确定为不可中断类型;
若所述话术类型为所述可中断类型,接收用户输入语音;
确定所述用户输入语音的语音时长,并确定所述用户输入语音的音量强度,包括:对所述用户输入语音进行预处理,得到波形信息;从所述波形信息中获取每个时刻对应的强度值;计算所述强度值的平均值,得到所述音量强度;
若所述语音时长大于第一时长阈值,或者所述语音时长处于预设时长区间且所述音量强度大于预设音量阈值,将所述用户输入语音转换为文本信息,所述预设时长区间是以第二时长阈值为左区间及以所述第一时长阈值为右区间确定的;
提取所述文本信息中的特征信息,并将所述文本信息输入至意图识别模型中,得到目标意图;
根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率;
若所述中断概率大于预设阈值,停止播报所述目标话术。
2.如权利要求1所述的语音播报方法,其特征在于,所述根据所述语音播报请求获取目标话术包括:
解析所述语音播报请求的报文,得到所述报文携带的数据信息;
从所述数据信息中获取指示地址的信息作为存储路径,并从所述数据信息中获取指示话术的信息作为话术编号;
确定所述存储路径与所述话术编号的信息总量,并获取与所述信息总量对应的预设查询模板;
将所述存储路径及所述话术编号写入所述预设查询模板中,得到查询语句;
运行所述查询语句,得到所述目标话术。
3.如权利要求1所述的语音播报方法,其特征在于,所述确定所述用户输入语音的语音时长包括:
获取所述语音通道的通道编号,并获取与所述通道编号对应的目标日志;
从所述目标日志中获取所述用户输入语音的采集时间;
将所述采集时间中取值最小的时间确定为第一时间,并将所述采集时间中取值最大的时间确定为第二时间;
计算所述第二时间与所述第一时间的时间差,得到所述语音时长。
4.如权利要求1所述的语音播报方法,其特征在于,所述提取所述文本信息中的特征信息包括:
根据预设词典对所述文本信息进行切分,得到多个路径及每个路径对应的路径分词;
从所述预设词典中获取所述路径分词的分词权值,并计算所述分词权值的总和,得到每个路径的路径概率;
将所述路径概率最大的路径对应的所述路径分词确定为初始分词;
基于预设语料库剔除所述初始分词中的信息,得到多个语句分词;
分析每个语句分词在所述文本信息中的语句词性;
将与预设词性相同的所述语句词性对应的语句分词确定为所述特征信息。
5.如权利要求1所述的语音播报方法,其特征在于,所述将所述文本信息输入至意图识别模型中,得到目标意图包括:
对所述文本信息进行编码处理,得到编码向量;
获取双向长短期记忆网络中的正向网络及反向网络;
基于所述正向网络对所述编码向量进行特征提取,得到第一特征向量,并基于所述反向网络对所述编码向量进行特征提取,得到第二特征向量;
拼接所述第一特征向量及所述第二特征向量,得到目标特征向量;
获取所述意图识别模型中的权重矩阵及偏置值;
计算所述目标特征向量与所述权重矩阵的乘积,并计算所述乘积与所述偏置值的总和,得到意图向量;
对所述意图向量进行映射处理,得到所述目标意图。
6.如权利要求1所述的语音播报方法,其特征在于,所述根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率包括:
获取所述播报领域的中断话术库;
基于所述特征信息遍历所述中断话术库,并确定在所述中断话术库中遍历到的特征信息的数量作为目标数量;
计算所述特征信息的特征总量,并计算所述目标数量在所述特征总量中所占的比值,得到第一中断比重;
获取所述目标意图在所述播报领域中的第二中断比重;
对所述第一中断比重及所述第二中断比重进行加权和运算,得到所述中断概率。
7.一种语音播报装置,其特征在于,所述语音播报装置包括:
获取单元,用于当接收到语音播报请求时,根据所述语音播报请求获取目标话术;
识别单元,用于识别所述目标话术所属的话术类型,包括:从所述语音播报请求中获取播报领域;从配置表中获取同时与所述目标话术及所述播报领域对应的信息作为历史播报记录;获取所述历史播报记录的播报评分,并选取所述播报评分大于预设评分阈值的所述历史播报记录作为目标记录;获取用户进行打断的所述目标记录作为打断记录;获取所述目标记录的记录总量,并获取所述打断记录的打断总量;将所述打断总量除以所述记录总量,得到所述打断记录在所述目标记录中的目标概率;若所述目标概率大于或者等于预设阈值,将所述话术类型确定为可中断类型;或者若所述目标概率小于所述预设阈值,将所述话术类型确定为不可中断类型;
接收单元,用于若所述话术类型为所述可中断类型,接收用户输入语音;
确定单元,用于确定所述用户输入语音的语音时长,并确定所述用户输入语音的音量强度,包括:对所述用户输入语音进行预处理,得到波形信息;从所述波形信息中获取每个时刻对应的强度值;计算所述强度值的平均值,得到所述音量强度;
转换单元,用于若所述语音时长大于第一时长阈值,或者所述语音时长处于预设时长区间且所述音量强度大于预设音量阈值,将所述用户输入语音转换为文本信息,所述预设时长区间是以第二时长阈值为左区间及以所述第一时长阈值为右区间确定的;
输入单元,用于提取所述文本信息中的特征信息,并将所述文本信息输入至意图识别模型中,得到目标意图;
计算单元,用于根据所述特征信息及所述目标意图计算所述用户输入语音的中断概率;
播报单元,用于若所述中断概率大于预设阈值,停止播报所述目标话术。
8.一种电子设备,其特征在于,所述电子设备包括:
存储器,存储有计算机可读指令;及
处理器,执行所述存储器中存储的计算机可读指令以实现如权利要求1至6中任意一项所述的语音播报方法。
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被电子设备中的处理器执行以实现如权利要求1至6中任意一项所述的语音播报方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110851156.0A CN113535925B (zh) | 2021-07-27 | 2021-07-27 | 语音播报方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110851156.0A CN113535925B (zh) | 2021-07-27 | 2021-07-27 | 语音播报方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113535925A CN113535925A (zh) | 2021-10-22 |
CN113535925B true CN113535925B (zh) | 2023-09-05 |
Family
ID=78089230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110851156.0A Active CN113535925B (zh) | 2021-07-27 | 2021-07-27 | 语音播报方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535925B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114519094A (zh) * | 2022-02-16 | 2022-05-20 | 平安普惠企业管理有限公司 | 基于随机状态的话术推荐方法、装置及电子设备 |
CN114528822B (zh) * | 2022-02-25 | 2024-02-06 | 平安科技(深圳)有限公司 | 客服机器人的对话流程控制方法、装置、服务器及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481721A (zh) * | 2017-08-16 | 2017-12-15 | 北京百度网讯科技有限公司 | 用于可穿戴电子设备的语音交互方法和可穿戴电子设备 |
CN108735219A (zh) * | 2018-05-09 | 2018-11-02 | 深圳市宇恒互动科技开发有限公司 | 一种声音识别控制方法及装置 |
CN110557451A (zh) * | 2019-08-30 | 2019-12-10 | 北京百度网讯科技有限公司 | 对话交互处理方法、装置、电子设备和存储介质 |
CN111128140A (zh) * | 2019-12-30 | 2020-05-08 | 云知声智能科技股份有限公司 | 语音播报的中断方法及装置 |
CN111508474A (zh) * | 2019-08-08 | 2020-08-07 | 马上消费金融股份有限公司 | 一种语音打断方法、电子设备及存储装置 |
CN111508477A (zh) * | 2019-08-02 | 2020-08-07 | 马上消费金融股份有限公司 | 语音播报方法、装置、设备及存储装置 |
CN112188017A (zh) * | 2020-08-24 | 2021-01-05 | 维知科技张家口有限责任公司 | 信息交互方法及信息交互***、处理设备、存储介质 |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014107141A1 (en) * | 2013-01-03 | 2014-07-10 | Sestek Ses Ve Iletişim Bilgisayar Teknolojileri Sanayii Ve Ticaret Anonim Şirketi | Speech analytics system and methodology with accurate statistics |
EP3844746A4 (en) * | 2019-04-17 | 2022-03-16 | Samsung Electronics Co., Ltd. | METHOD AND DEVICE FOR DETECTING INTERRUPTIONS |
-
2021
- 2021-07-27 CN CN202110851156.0A patent/CN113535925B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481721A (zh) * | 2017-08-16 | 2017-12-15 | 北京百度网讯科技有限公司 | 用于可穿戴电子设备的语音交互方法和可穿戴电子设备 |
CN108735219A (zh) * | 2018-05-09 | 2018-11-02 | 深圳市宇恒互动科技开发有限公司 | 一种声音识别控制方法及装置 |
CN111508477A (zh) * | 2019-08-02 | 2020-08-07 | 马上消费金融股份有限公司 | 语音播报方法、装置、设备及存储装置 |
CN111508474A (zh) * | 2019-08-08 | 2020-08-07 | 马上消费金融股份有限公司 | 一种语音打断方法、电子设备及存储装置 |
CN110557451A (zh) * | 2019-08-30 | 2019-12-10 | 北京百度网讯科技有限公司 | 对话交互处理方法、装置、电子设备和存储介质 |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN111128140A (zh) * | 2019-12-30 | 2020-05-08 | 云知声智能科技股份有限公司 | 语音播报的中断方法及装置 |
CN112188017A (zh) * | 2020-08-24 | 2021-01-05 | 维知科技张家口有限责任公司 | 信息交互方法及信息交互***、处理设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113535925A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
CN108959257B (zh) | 一种自然语言解析方法、装置、服务器及存储介质 | |
CN110795532A (zh) | 一种语音信息的处理方法、装置、智能终端以及存储介质 | |
CN113535925B (zh) | 语音播报方法、装置、设备及存储介质 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN113032528B (zh) | 案件分析方法、装置、设备及存储介质 | |
CN113656547B (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN113435196B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN111814467A (zh) | 催收通话的标签建立方法、装置、电子设备及介质 | |
CN110717021A (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN113268597B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN113705468A (zh) | 基于人工智能的数字图像识别方法及相关设备 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN110263346B (zh) | 基于小样本学习的语意分析方法、电子设备及存储介质 | |
CN113627186B (zh) | 基于人工智能的实体关系检测方法及相关设备 | |
CN116628161A (zh) | 答案生成方法、装置、设备及存储介质 | |
CN113326365B (zh) | 回复语句生成方法、装置、设备及存储介质 | |
CN112786041B (zh) | 语音处理方法及相关设备 | |
CN113421594B (zh) | 语音情感识别方法、装置、设备及存储介质 | |
CN112949305B (zh) | 负反馈信息采集方法、装置、设备及存储介质 | |
CN113408265B (zh) | 基于人机交互的语义解析方法、装置、设备及存储介质 | |
CN113420143B (zh) | 文书摘要生成方法、装置、设备及存储介质 | |
CN113486680B (zh) | 文本翻译方法、装置、设备及存储介质 | |
CN115691503A (zh) | 语音识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |