CN112154640B

CN112154640B - 一种消息的播放方法及终端

Info

Publication number: CN112154640B
Application number: CN201880093445.5A
Authority: CN
Inventors: 张跃; 陶强
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2024-04-30
Anticipated expiration: 2038-07-04
Also published as: US11837217B2; CN112154640A; EP3809671A1; US20210210068A1; WO2020006711A1; EP3809671A4

Abstract

本申请提供的一种消息的播放方法及终端，涉及通信技术领域，有利于提高用户与终端的交互效率，提升用户体验。该方法具体包括：终端接收到第一消息，终端语音询问是否播放第一消息，若用户的第一语音不匹配肯定答复的关键词，则终端继续检测用户语音，若用户检测到的用户的第二语音匹配肯定答复的关键词，则终端语音播放第一消息，且记录第一语音对应文本的次数；当终端记录的第一语音对应的文本的次数大于第一阈值时，终端将该文本添加到肯定答复的关键词中。

Description

一种消息的播放方法及终端

技术领域

本申请涉及通信技术领域，尤其涉及一种消息的播放方法及终端。

背景技术

随着终端技术的发展，手机上的即时通信类应用(例如：短信、微信、QQ等)逐渐成为用户生活、工作和学习中必不可少的通信工具。在终端接收到即时通信类应用的消息时，用户需要手动操作手机，以查看和处理消息。在某些用户不方便操作手机的场景下，例如：用户正在驾车，终端与用户可以通过语音的方式进行交互，以确定是否语音播放消息。

然而，在终端与用户通过语音的方式进行交互的过程中，常常出现终端不能识别出语音中用户的真实意图，从而造成终端不能按照用户意图对消息进行播放等处理，影响了用户的使用体验。

发明内容

本申请提供的一种消息的播放方法及终端，可以对用户的语音命令进行学习，从而识别出用户的意图，执行相应的操作，有利于提高用户与终端的交互效率，提升用户体验。

第一方面，本申请实施例提供的方法可应用于终端，该方法包括：终端接收第一消息，第一消息为文本信息；响应于接收到第一消息，终端播放第一语音，第一语音用于询问用户是否语音播放第一消息；终端检测到用户的第二语音；终端将第二语音转化为第一文本；若第一文本不匹配第一关键词，终端继续检测用户的语音；第一关键词为肯定关键词；当终端检测到用户的第三语音，终端将第三语音转化为第二文本；若第二文本匹配第一关键词，终端语音播放第一消息，且终端记录第一文本的次数；若第一文本的次数大于第一阈值，则终端将第一文本添加到第一关键词中。

由此可见，本申请实施例提供的技术方案能够通过对用户的非预先设置的回答进行学习，从而确定是否是肯定答复，即用户是否希望播放消息。这样，提升终端执行命令的准确性，提高终端语音播放消息的成功率，使得终端更加智能化，有利于提升用户使用终端的体验。

一种可能的实现方式中，该方法还包括：终端将第一消息转换为第四语音；终端语音播报第一消息具体为：终端播放第四语音。

在本申请的一些实施例中，终端可以在确定第二文本匹配第一关键词后，将第一消息的文本信息转换成语音消息(即第四语音)，然后播放该语音消息。在本申请的另一些实施例中，终端可以在确定第二文本匹配第一关键词之前，将第一消息的文本信息转换成语音消息(即第四语音)。当确定第二文本匹配第一关键词后，终端可以直接播放该语音消息。这样，有利于减少用户等待终端语音播放第一消息的时间，提升用户体验。例如：终端可以在接收到第一消息后，或者接收到用户的第一语音后，或将用户的第三语音转换成第二文本后，或用户将第二文本与预先设置的第一关键词进行匹配后，将第一消息的文本信息转换为第四语音。本申请实施例对终端将第一消息的文本信息转化为语音消息的时间不做限定。

一种可能的实现方式中，在终端将第一文本添加到第一关键词中之后，该方法还包括：终端接收第二消息，第二消息为文本信息；响应于接收到第二消息，终端播放第五语音，第五语音用于询问用户是否语音播放第二消息；终端检测到用户的第六语音；终端将第六语音转化为第三文本；若第三文本匹配添加后的第一关键词，终端语音播报第二消息。

由此可见，终端成功学习了第一文本中用户的意图后，当用户再次使用第一文本对应的语音时，终端可以快速识别出用户的意图，语音播放第二消息。提升了用户和终端之间的交互效率，提升用户体验。

一种可能的实现方式中，在终端播放第一语音之前，该方法还包括：若终端确定第一消息属于预设应用、和/或第一消息的发件人属于预设联系人群组、和/或第一消息包含第二关键词，终端确定播放第一语音。

由此可见，终端在进行语音播放消息之前，还可以对消息进行筛选。这样，有利于用户根据需求选择特定的消息进行语音播放，能够避免过多的消息通过语音播放，而打扰到用户，有利于提升用户体验。

一种可能的实现方式中，在终端播放第一语音之前，该方法还包括：终端在接收到第一消息的同时，还接收到第三消息；终端根据预设的优先级顺序，确定第一消息的优先级高于第三消息的优先级。

由此可见，终端在同时接收到多条消息时，可以根据预设的优先级顺序确定消息的播放顺序，有利于满足用户多样化的需求，提升用户体验。

一种可能的实现方式中，在终端将第一文本添加到第一关键词中之后，该方法还包括：终端显示提示信息，用于提示终端已更新第一关键词。

一种可能的实现方式中，在终端播放第一语音之后，该方法还包括：若终端在预设时间段内一直未检测到用户的语音，或者终端在预设时间段内一直未检测到与第一关键词匹配的用户的语音，则终端确定不语音播放第一消息。

一种可能的实现方式中，在终端播放第一语音之后，该方法还包括：若终端在预设时间段内检测到，与第一关键词不匹配的用户的语音的次数大于第二阈值，则终端确定不语音播放第一消息。

一种可能的实现方式中，第一消息为即时通信类应用的消息。

第二方面，本申请实施例提供的一种消息的播放方法，可应用于终端，该方法包括：终端接收第一消息，第一消息为文本信息；响应于接收到第一消息，终端播放第一语音，第一语音用于询问用户是否语音播放第一消息；终端检测到用户的第二语音；终端将第二语音转化为第一文本；若第一文本不匹配第一关键词，终端继续检测用户的语音；第一关键词包括肯定关键词和否定关键词；当终端检测到用户的第三语音，终端将第三语音转化为第二文本；若第二文本匹配肯定关键词，则终端语音播放第一消息，且终端记录第一文本的次数；若第一文本的次数大于第一阈值，则终端将第一文本添加到肯定关键词中。若第二文本匹配否定关键词，则终端确定不语音播放第一消息，且终端记录第一文本的次数；若第一文本的次数大于第一阈值，则终端将第一文本添加到否定关键词中。

由此可见，本申请实施例提供的技术方案能够通过对用户的非预先设置的回答进行学习，从而确定是肯定答复还是否定答复，即用户是否希望播放消息。这样，提升终端执行命令的准确性，提高终端语音播放消息的成功率，使得终端更加智能化，有利于提升用户使用终端的体验。

一种可能的实现方式中，在终端将第一文本添加到肯定关键词中或否定关键词中之后，该方法还包括：终端接收第二消息，第二消息为文本信息；响应于接收到第二消息，终端播放第四语音，第四语音用于询问用户是否语音播放第二消息；终端检测到用户的第五语音；终端将第五语音转化为第三文本；若第三文本匹配添加后的肯定关键词，终端语音播放第二消息；若第三文本匹配添加后的否定关键词，终端确定不语音播报第二消息。

一种可能的实现方式中，在终端将第一文本添加到肯定关键词或否定关键词之后，该方法还包括：终端显示提示信息，用于提示用户第一关键词已更新。

第三方面、一种终端，包括：处理器、存储器和触摸屏，存储器、触摸屏与处理器耦合，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器从存储器中读取计算机指令，以执行如第一方面及其中任一种可能的实现方式中的所述的方法。

第四方面、一种终端，包括：处理器、存储器和触摸屏，存储器、触摸屏与处理器耦合，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器从存储器中读取计算机指令，以执行如第二方面及其中任一种可能的实现方式中的所述的方法。

第五方面、一种计算机存储介质，包括计算机指令，当计算机指令在终端上运行时，使得终端执行如第一方面及其中任一种可能的实现方式中所述的方法。

第六方面、一种计算机存储介质，包括计算机指令，当计算机指令在终端上运行时，使得终端执行如第二方面及其中任一种可能的实现方式中所述的方法。

第七方面、一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第一方面中及其中任一种可能的实现方式中所述的方法。

第八方面、一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行如第二方面中及其中任一种可能的实现方式中所述的方法。

附图说明

图1为本申请实施例提供的一种终端的结构示意图一；

图2为本申请实施例提供的一种终端的结构示意图二；

图3为本申请实施例提供的一种消息的播放方法的流程示意图一；

图4为本申请实施例提供的一种消息的播放方法的流程示意图二；

图5为本申请实施例提供的一种消息的播放方法的流程示意图三；

图6为本申请实施例提供的一种消息的播放方法的流程示意图四；

图7为本申请实施例提供的一些终端界面的示意图；

图8为本申请实施例提供的又一些终端界面的示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

示例性的，本申请中的终端可以为手机、平板电脑、个人计算机(PersonalComputer，PC)、个人数字助理(personal digital assistant，PDA)、智能手表、上网本、可穿戴电子设备、增强现实技术(Augmented Reality，AR)设备、虚拟现实(Virtual Reality，VR)设备等，本申请对该终端的具体形式不做特殊限制。

如图1所示，是本发明实施例的终端100的一种结构框图的示例。

终端100可以包括处理器110，外部存储器接口120，内部存储器121，USB接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，射频模块150，通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及SIM卡接口195等。其中传感器模块可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

本发明实施例示意的结构并不构成对终端100的限定。可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(Neural-network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以是集成在同一个处理器中。

其中，控制器可以是指挥终端100的各个部件按照指令协调工作的决策者。是终端100的神经中枢和指挥中心。控制器根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

在本申请的一些实施例中，应用处理器用于获取用户语音，并将获取到的用户语音转化成文本，还可将转化成的文本与预先存储的关键词进行匹配，记录文本的次数，当文本的次数达到预设次数时，将该文本添加到对应的关键词中等。应用处理器还可以用于通过射频模块或通信模块等获取其他终端或服务器发送给该终端的文本消息，将接收到的文本消息转化成语音等。

此外，处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器中的存储器为高速缓冲存储器。可以保存处理器刚用过或循环使用的指令或数据。如果处理器需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器的等待时间，因而提高了***的效率。

在本申请的一些实施例中，终端可以在处理器110中的存储器中存储用户预先设置的关键词，例如肯定答复的关键词、和/或否定答复的关键词等。终端还可以在存储器中存储记录的语音命令的内容以及语音命令的次数等。在本申请的另一些实施例中，终端也可以在内部存储器121或外部存储器中存储这些数据，本申请实施例不做具体限定。

在一些实施例中，处理器110可以包括接口。其中接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

其中，I2C接口是一种双向同步串行总线，包括一根串行数据线(serial dataline，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器可以包含多组I2C总线。处理器可以通过不同的I2C总线接口分别耦合触摸传感器，充电器，闪光灯，摄像头等。例如：处理器可以通过I2C接口耦合触摸传感器，使处理器与触摸传感器通过I2C总线接口通信，实现终端100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器可以包含多组I2S总线。处理器可以通过I2S总线与音频模块耦合，实现处理器与音频模块之间的通信。在一些实施例中，音频模块可以通过I2S接口向通信模决传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块与通信模块可以通过PCM总线接口耦合。在一些实施例中，音频模块也可以通过PCM接口向通信模块传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信，两种接口的采样速率不同。

UART接口是一种通用串行数据总线，用于异步通信。该总线为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器与通信模块160。例如：处理器通过UART接口与蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块可以通过UART接口向通信模块传递音频信号，实现通过蓝牙耳机播放音乐的功能。

在本申请实施例中，终端可以通过I2S接口、PCM接口和UART接口中任一种或任几种的接口，来实现消息的语音播放，以及将录制的用户语音传递给处理器等。

MIPI接口可以被用于连接处理器与显示屏，摄像头等***器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serialinterface，DSI)等。在一些实施例中，处理器和摄像头通过CSI接口通信，实现终端100的拍摄功能。处理器和显示屏通过DSI接口通信，实现终端100的显示功能。

在本申请实施例中，终端可以通过MIPI接口显示终端在执行语音播放的过程中涉及到的界面图，例如：用户的设置界面等。

GPIO接口可以通过软件配置。GPIO接口可以配置为控制信号，也可配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器与摄像头，显示屏，通信模块，音频模块，传感器等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口可以用于连接充电器为终端100充电，也可以用于终端100与***设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。还可以用于连接其他电子设备，例如AR设备等。

本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端100的结构限定。终端100可以采用本发明实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块接收所述电池和/或充电管理模块的输入，为处理器，内部存储器，外部存储器，显示屏，摄像头，和通信模块等供电终端100的无线通信功能可以通过天线1，天线2，射频模块150，通信模块160，调制解调处理器以及基带处理器等实现。

其中，天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带射频模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案的通信处理模块。可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(Low Noise Amplifier，LNA)等。调制解调处理器可以包括调制器和解调器。调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器，受话器等)输出声音信号，或通过显示屏显示图像或视频通信模块160可以提供应用在终端100上的包括无线局域网(wireless local area networks，WLAN)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案的通信处理模块。通信模块160可以是集成至少一个通信处理模块的一个或多个器件。通信模块经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器。通信模块160还可以从处理器接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在本申请的一些实施例中，可以通过蓝牙耳机(或蓝牙音箱等)中的麦克风录制用户语音，并将录制的语音经蓝牙通信处理模块和音频模块170传递到处理器110处。在处理器110将接收到的文本消息转化成语音后，终端还可以将该语音通过音频模块170和蓝牙通信处理模块，由蓝牙耳机(或蓝牙音箱等)播放该语音。

在一些实施例中，终端100的天线1和射频模块耦合，天线2和通信模块耦合。使得终端100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯***(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multipleaccess，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(longterm evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位***(global positioning system，GPS)，全球导航卫星***(global navigationsatellite system，GLONASS)，北斗卫星导航***(beidou navigation satellitesystem，BDS)，准天顶卫星***(quasi-zenith satellite system，QZSS))和/或星基增强***(satellite based augmentation systems，SBAS)。

在本申请实施例中，终端可以通过天线1和射频模块接收其他终端发送的消息，例如：短信消息。终端还可以通过天线2和通信模块接收其他终端发送的消息，例如：微信消息、QQ消息等。本申请实施例对消息不做具体限定。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏包括显示面板。显示面板可以采用LCD(liquid crystal display，液晶显示屏)，OLED(organic light-emitting diode，有机发光二极管)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，终端100可以包括1个或N个显示屏，N为大于1的正整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏以及应用处理器等实现拍摄功能。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口与处理器通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行终端100的各种功能应用以及数据处理。存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，其他易失性固态存储器件，通用闪存存储器(universal flash storage，UFS)等。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块还可以用于对音频信号编码和解码。在一些实施例中，音频模块可以设置于处理器110中，或将音频模块的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风发声，将声音信号输入到麦克风。终端100可以设置至少一个麦克风。在一些实施例中，终端100可以设置两个麦克风，除了采集声音信号，还可以实现降噪功能。在一些实施例中，终端100还可以设置三个，四个或更多麦克风，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口可以是USB接口，也可以是3.5mm的开放移动终端平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

在本申请的一些实施例中，终端可以通过麦克风170C录制用户语音，并将录制的语音经音频模块170传递到处理器110处。在处理器110将接收到的文本消息转化成语音后，终端还可以将该语音通过音频模块170，由扬声器播放该语音。在本申请的另一些实施例中，终端可以通过有线耳机中的麦克风录制用户语音，并将录制的语音经耳机接口170D和音频模块170传递到处理器110处。在处理器110将接收到的文本消息转化成语音后，终端还可以将该语音通过音频模块170和耳机接口170D，由有线耳机播放该语音。

触摸传感器180K，也称“触控面板”。可设置于显示屏。用于检测作用于其上或附近的触摸操作。可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型，并通过显示屏提供相应的视觉输出。

按键190包括开机键，音量键等。按键可以是机械按键。也可以是触摸式按键。终端100接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏不同区域的触摸操作，也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接用户标识模块(subscriber identity module，SIM)。SIM卡可以通过***SIM卡接口，或从SIM卡接口拔出，实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口可以支持Nano SIM卡，MicroSIM卡，SIM卡等。同一个SIM卡接口可以同时***多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口也可以兼容不同类型的SIM卡。SIM卡接口也可以兼容外部存储卡。终端100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端100中，不能和终端100分离。

终端100的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android***为例，示例性说明终端100的软件结构。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图2所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息，微信，QQ，设置等应用程序。

在本申请的一些实施例中，涉及到的应用程序包主要包括即时通信类的应用，包括但不限于短信息、微信、QQ等应用程序。在本申请另一些实施例中，还涉及到设置应用，为用户提供对语音播放消息进行设置的界面。设置的内容包括且不限于预设应用、预设联系人、预设联系人群组、预设的第二关键词、以及播放优先级等。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图2所示，应用程序框架层可以包括窗口管理器，内容提供器，视图***，电话管理器，资源管理器，通知管理器等。

其中，窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图***包括可视控件，例如显示文字的控件，显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端振动，指示灯闪烁等。

在本申请一些实施例中，应用程序框架层还可包括语音播放***，该语音播放***提供对即时消息进行语音播放的服务。需要说明的是，语音播放***可以是应用框架层中独立的一个模块，语音播放***也可以调用应用程序框架层的其他模块，共同完成即时消息的语音播放功能，本申请实施例不做具体限定。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(OpenGL ES)，2D图形引擎(SGL)等。

其中，表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

OpenGL ES用于实现三维图形绘图，图像渲染，合成，和图层处理等。

SGL是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面以处理短信息应用的消息为例，示例性说明终端100软件以及硬件的工作流程。

当应用程序层中的短信息应用接收到一条消息时，可通过调用内核层的显示驱动，通过硬件层的触摸屏中显示一条消息的提示信息，提示用户查看该消息。那么，用户通过硬件层的触摸屏点击该消息的提示信息所对应的控件后，可触发触摸屏通过相应的驱动向内核层上报用户这一触摸动作产生的触摸事件(例如触摸点位置、时间等参数)，内核层将该触摸事件封装后调用相应的API向短信息应用分发该触摸事件。而后，终端打开短消息应用，显示查看该消息的界面。这样，用户便可查看消息的内容。

考虑到用户不方便手动操作终端情况，应用程序层中的短信息应用接收到一条消息时，可以调用框架层的语音播放***。语音播放***可以通过调用内核层的音频驱动，通过音频输出设备(例如：蓝牙耳机、扬声器等)，播放询问用户是否播放该消息的语音。而后，音频输入设备(例如：蓝牙耳机、麦克风等)录制用户的语音，然后将录制的用户的语音通过相应的驱动向内核层上报，内核层将该事件封装后调用相应的API向框架层的语音播放***分发该事件。而后，语音播放***根据该事件确定是否语音播放消息。具体的，语音播放***可将上报的用户语音转化成文本，并将转化后的文本与预先存储的关键词(肯定答复关键词和/或否定答复关键词)进行匹配。若匹配肯定答复的关键词，则确定语音播放该消息。那么，语音播放***将该消息转化成语音消息，并调用内核层中的音频驱动，通过音频输出设备播放该语音消息。若匹配否定答复的关键词，则确定不语音播放该消息。这样，用户在不方便手动操作终端的时候，也可以处理消息了。

再有，在本申请实施例中，语音播放***还可以记录转化后文本的次数，当转化后文本的次数达到预定次数后，还可以将该文本添加到关键词中，以达到学习用户语音的效果。此外，语音播放***还可以调用内核层的显示驱动，通过触摸屏显示本申请实施例中涉及的界面，例如：图7和图8中所示的界面图。

以下实施例中的方法均可以在具有上述硬件结构和软件结构的终端100中实现。

为了使得用户在使用终端时，能在不方便手动操作终端的情况下，也能够及时处理一些重要的紧急的即时消息，本申请实施例提供了一种通过语音播放即时消息的方法。进一步的，考虑到用户可能忘记预先设置的语音命令或者用户的语言习惯等因素，造成用户的语音命令不是终端预先设置的语音命令，从而终端不能识别出用户的意图，不能执行用户希望的操作。为此，在本申请实施例提供的技术方案中，能够对用户的语音命令进行学习，自动识别出用户语音命令的真实意思，提升终端的使用效率，提升用户体验。

下面结合附图和具体的应用场景，对本申请实施例提供的技术方案进行介绍。

第一种应用场景，终端询问用户是否语音播放新接收到的消息。

如图3所示，为本申请实施例提供的一种语音播放消息的方法的流程示意图，具体包括：

S301、终端接收到第一消息。

在本申请的一些实施例中，终端接收其他终端或服务器发送的第一消息。其中，第一消息可以是即时通信类应用的消息，例如：短信应用的消息、微信应用的消息、QQ应用的消息等。

S302、终端语音询问是否播放第一消息。

终端新接收到第一消息后，在终端界面中显示第一消息的提示信息。终端可以在显示第一消息的提示信息之前、或同时、或之后，通过语音的方式询问用户是否播放该第一消息。

在本申请实施例中，终端可以通过扬声器、有线耳机、无线耳机、蓝牙音箱、蓝牙车载设备等音频设备进行语音播放，本申请实施例对此不做具体限定。

示例性的，如图8中(1)所示，为终端显示的一种界面801。其中，界面801中可以显示有状态栏802、消息提示框803、图案804、以及时间Widget等。其中，状态栏802可以包括运营商的名称(例如***)、时间、WiFi图标、信号强度和当前的剩余电量等。界面801为终端语音询问用户是否播放第一消息的界面图。其中，终端可以动态显示图案804，或者改变图案804的颜色、灰度等方式，以提示用户终端正在播放语音。终端也可以在显示文本信息，提示终端正在询问用户是否播放第一消息。需要说明的是，本申请实施例对终端的提示方式不做限定。

S303、终端检测到用户的第一语音。

具体的，终端通过音频输入设备录制用户的第一语音，并将录制的用户的第一语音发送到终端的应用处理器中进行处理。

示例性的，如图8中(2)所示，为终端显示的一种界面805。其中，界面805中可以显示有状态栏802、消息提示框803、图案806、以及时间Widget等。界面805为终端检测到用户语音的界面。其中，终端可以动态显示图案806，或者改变图案806的颜色、灰度等方式，以提示用户终端检测到用户语音，或者正在处理检测到的用户语音。终端也可以在显示文本信息，以提示终端检测到用户语音，以及对检测到的用户语音进行处理中。需要说明的是，本申请实施例对终端检测到用户语音(或正在处理用户语音)的提示方式不做限定。

S304、终端将第一语音转化为文本信息，记为第一命令。

S305、终端将第一命令与终端预先存储的第一关键词进行匹配。

其中，第一关键词可以包括终端预先设置的命令，例如：肯定答复的命令、否定答复的命令等。第一关键词可以是终端默认的，也可以是用户设置的。第一关键词还可以是终端学习到的，具体学习方法可参考下面的描述。

具体的，在本申请的一些实施例中，预先设置的第一关键词可以为肯定答复的关键词，也就是说，第一命令若与第一关键词匹配，则能确定第一命令为用户希望语音播放第一消息。那么，第一命令若与第一关键词不匹配，则需要采用本申请实施例的方法(如图3所示)，对第一命令进行学习，以确定第一命令是否为肯定答复。

在本申请的另一些实施例中，预先设置的第一关键词还可以为否定答复的关键词，也就是说，第一命令若与第一关键词匹配，则能确定第一命令为用户不希望语音播放第一消息。那么，终端对第一命令进行学习，以确定第一命令为否定答复。在本申请的又一些实施例中，预先设置的第一关键词还可以既包括肯定答复的关键词，又包括否定答复的关键词。那么，终端需要根据第一命令与哪类第一关键词匹配，分别处理。这种情况会在下文进行阐述。本申请实施例对此不限定。

以下步骤S306-S313以第一关键词是肯定答复为例，对终端学习第一命令的过程进行说明。若第一命令与第一关键词匹配，则确定第一命令为肯定答复，用户希望语音播放第一消息。于是则终端通过语音方式播放第一消息，即执行步骤S306。否则，则执行步骤S307。

S306、终端语音播放第一消息。

其中，语音播放第一消息具体包括：语音播放第一消息的内容，也可以播放第一消息所属的应用名称，第一消息的发件人的名称等。

在本申请的一些实施例中，终端可以在确定第一命令为肯定答复后，将第一消息的文本信息转换成语音消息，然后播放该语音消息。

在本申请的另一些实施例中，终端可以在确定第一命令为肯定答复之前，将第一消息的文本信息转换成语音消息。当确定第一命令为肯定答复后，终端可以直接播放该语音消息。这样，有利于减少用户等待终端语音播放第一消息的时间，提升用户体验。例如：终端可以在接收到第一消息后，或者接收到用户的第一语音后，或将用户的第一语音转换成第一命令后，或用户将第一命令与预先设置的第一关键词进行匹配后，将第一消息的文本信息转换为语音消息。本申请实施例对终端将第一消息的文本信息转化为语音消息的时间不做限定。

示例性的，如图8中(3)所示，为终端显示的一种界面807。其中，界面807中可以显示有状态栏802、消息提示框803、图案804、以及时间Widget等。界面807为终端正在播放第一消息的界面。其中，终端可以动态显示图案804，或者改变图案804的颜色、灰度等方式，以提示用户终端正在播放第一消息。终端也可以在显示提示信息，提示用户终端正在播放第一消息。需要说明的是，本申请实施例对终端正在播放第一消息的提示方式不做限定。

S307、终端暂不播放第一消息，继续监听用户的语音。

示例性的，如图8中(5)所示，为终端显示的一种界面809。其中，界面809中可以显示有状态栏802、消息提示框803、图案806、以及时间Widget等。界面809为终端未识别出用户语音命令，继续监听用户语音的界面。其中，终端可以动态显示图案806，或者改变图案806的颜色、灰度等方式，以提示用户终端未识别出用户语音命令。终端也可以在显示文本信息，提示用户终端未识别出用户语音命令，继续监听用户语音。终端还可以通过语音的方式，提示用户终端未识别出用户的指示，而后再继续监测用户语音。需要说明的是，本申请实施例对终端具体的提示形式不做限定。

S308、终端检测用户的第二语音。

S309、终端将检测到的第二语音转换成文本信息，记为第二命令。

S310、终端将第二命令与终端预先设置的第一关键词进行匹配。若第二命令与预先设置的第一关键词不匹配，则执行步骤S311。若第二命令与预先设置的第一关键词匹配，则执行步骤S312。

S311、终端暂不播放第一消息，终端继续监听用户的语音。

在本申请的另一些实施例中，若终端在预设的时间段内(例如：30秒，该预设时间段可以是终端默认的，也可以是用户设置的)一直未接收到用户的语音，或者在预设的时间段内一直未接收到与设置的第一关键词相匹配的用户的语音时，终端可以结束本次流程。也就是说，终端默认用户不希望通过语音播放该第一消息。

在本申请的又一些实施例中，若终端在检测到与设置的第一关键词不匹配的用户语音达到预设次数时，终端可以结束本次流程。也就是说，终端默认用户不希望通过语音播放该第一消息。

示例性的，如图8中(4)所示，为终端显示的一种界面808。其中，界面808中可以显示有状态栏802、消息提示框803、图案804、以及时间Widget等。界面808为终端确定不播放第一消息的界面。其中，终端可以改变图案804的颜色、灰度等方式，以提示用户终端不播放第一消息。终端也可以显示文本信息，以提示用户终端不播放第一消息。需要说明的是，本申请实施例对终端提示用户，终端不播放第一消息的方式不做限定。

S312、终端通过语音方式播放第一消息。并且，终端记录第一命令的内容以及第一命令的次数。

需要说明的是，当第一命令与预先设置的第一关键词不匹配时存在两种可能的情况。一种可能是，用户希望播放第一消息的，但可能忘记预先设置的肯定答复的内容，故第一语音转化的第一命令与预先设置的肯定答复不同。另一种可能是，用户的第一语音不是针对终端询问进行的回答。例如：第一语音可能是用户与其他人的对话。终端接收到第一语音后，误认为是用户的第一命令。

此时，终端需要记录第一命令的内容，以及用户使用第一命令的次数。

S313、当终端记录第一命令的次数为预定次数(或者第一命令的次数大于预定次数)时，终端自动将第一命令添加到第一关键词。

若在预定次数(例如：M次，M为大于2的自然数)的场景中，用户都是先使用第一命令回复终端询问是否播放消息，之后再使用终端设置的肯定答复进行回答的，则终端可以认为用户的第一命令为肯定答复，用户是希望终端通过语音播放消息的。于是，终端学习到用户的第一命令是肯定答复。

示例性的，如图8中(6)所示，为终端显示的一种界面810。其中，界面810中可以显示有状态栏802、消息提示框803、图案806、以及时间Widget等。界面810为终端已成功学习第一命令的界面。其中，终端可以改变图案806的颜色、灰度等方式，以提示用户终端已学习第一命令。终端也可以显示文本信息，以提示用户终端已成功学习第一命令，或将第一命令添加到肯定答复的关键词中。需要说明的是，本申请实施例对终端的提示方式不做限定。

需要说明的是，终端可以在播放消息之后，显示已成功学习第一命令的提示信息，也可以在播放消息之前，显示已成功学习第一命令的提示信息，也可以不显示成功学习的提示信息，本申请实施例对此不做限定。

而后，当终端再次接收到消息(例如第三消息)时，终端语音询问是否播放该消息。当终端检测到用户的语音，且用户的语音被转化为第一命令(也就是说此时用户语音与第一语音的内容相同)。终端将第一命令与设置的第一关键词进行匹配。此时，由于终端设置的第一关键词中包含有第一命令(学习的结果)，故匹配成功。终端确定用户希望语音播放消息，故终端语音播放第三消息。

例如：用户设置的肯定答复为“是”和“播放”。那么，当用户第一次回答使用“请说”，终端将“请说”与设置的肯定答复进行匹配。确定“请说”不是设置的肯定答复，则终端暂不语音播放消息，终端继续监听用户的回答。用户第二次回答使用“播放”，终端将“播放”与设置的肯定答复进行匹配。确定“播放”是设置的肯定答复，则终端语音播放消息。并且，终端记录“请说”一次。之后，在终端询问用户是否需要语音播放消息后，若用户仍然先回答“请说”，后再回答终端设置的肯定答复进行回答的。终端记录“请说”两次。一直到终端记录“请说”达到预设次数后，则终端学习到“请说”为肯定答复。则终端可以将“请说”设置为肯定答复。再之后，当终端再次接收到用户使用“请说”，终端将“请说”与设置的肯定答复进行匹配时，能够确定“请说”为肯定答复，则终端语音播放消息。

由此可见，本申请实施例提供的技术方案能够通过对用户的非预先设置的回答进行学习，从而确定用户的真实意图，用户是否希望播放消息。这样，提升终端执行命令的准确性，提高终端语音播放消息的成功率，使得终端更加智能化，有利于提升用户使用终端的体验。

如图4所示，为本申请实施例提供的另一种语音播放消息的方法的流程示意图，具体包括：S101-S113，如下：

S101、终端新接收到消息。

S102、终端语音询问用户是否播放该消息。

示例性的，在S102的执行前，执行时或者执行后，终端初始化各个参数，n＝0，time＝0。其中，n用于标记终端从本步骤开始，一直到该流程结束的过程中，检测到用户语音命令的次数。time用于计时。在预设时间段内，若终端一直未检测到用户语音命令，或者用户的语音一直未确定是命令播放消息，则终端结束本流程，默认用户不希望语音播放该消息。在本申请的一些实施例中，终端也可以在步骤S101中初始化time，从步骤S101开始计时，本申请实施例对此不做限定。

需要说明的是，m用于标记终端学习用户语音命令过程中，对语音的文本学习的记录的次数。在本申请的一些实施例中，m值的初始化(m＝1)，可以是终端在第一次记录需要学习的语音命令的时候。在本申请的另一些实例中，m值的初始化(m＝0)，可以是终端第一次开启语音播放消息的功能的时候，也可以是终端第一次开启学习语音命令功能的时候。本申请实施例对此不做限定。

S103，终端检测到用户语音，记录检测到用户语音的次数n。

需要说明的是，本实施例中n的初始值为0，当终端每次在检测到用户语音后，更新n的值，将n加1，具体实现时，可以通过代码“n＝n+1”实现。并将本次检测到的用户语音记录为第n次检测到的用户语音。

S104、终端将第n次检测到的语音转化为文本。

S105、终端将转化的文本与设置的第一关键词进行匹配。若不匹配则执行步骤S106，若匹配，则执行步骤S108。

其中，这里设置的第一关键词为肯定答复。也就是说，若转化的文本与肯定答复的第一关键词匹配，则认为用户希望语音播放消息。否则，需进一步学习用户语音是否希望语音播放消息。

S106、终端暂不语音播放消息。

S107、终端判断计时(time)是否达到预设时间。若计时达到预设时间，则流程结束。若计时未达到预设时间，继续执行步骤S103。

S108、终端语音播放消息。

S109、终端判断n是否大于或等于2。若大于或等于2，则执行步骤S110，否则，本流程结束。

若n不是大于或等于2，那么，说明用户在接收到该消息后，第一次发出语音命令时，就使用了预先设置的肯定答复的第一关键词进行答复。那么，终端识别出用户的语音命令，语音播放该消息。故也就不存在要对用户上一次语音命令进行学习，即不用再执行下面的学习过程，流程结束。

若n大于或等于2，那么，说明用户在接收到该消息后，是在第二次或再之后发出语音命令时，才使用了预先设置的肯定答复的第一关键词进行答复的。也就是说，在这之前，用户有至少一次语音命令没有使用预先设置的肯定答复的第一关键词，于是，终端需要对这至少一次的语音命令进行学习，以确定这至少一次的语音命令是否是肯定答复，即执行S110及之后的步骤。

S110、终端对上一次(即第n-1次)检测到的语音的文本进行语义分析，确定上一次检测到的语音的文本是否是肯定答复。若上一次检测到的语音的文本是肯定答复，则执行步骤S111。否则，本流程结束。

在本申请的一些实施例中，本步骤可以通过语义分析对上一次检测到的语音的文本是肯定答复、还是否定答复，或者两者都不是进行确定，能够为终端确定上一次检测到的语音的文本是否是肯定答复提供更多依据。

在本申请的另一些实施例中，终端可以对本次之前(从第1次到第n-1次)检测的语音的文本都进行语义分析。这是由于第1次到第n-1次检测到的语音都有可能是用户希望语音播放消息的不同表达方式。这样，有利于提高终端学习的能力和效率。

在本申请的又一些实施例中，终端也可以不执行步骤S110，直接执行S111，本申请实施例不做具体限定。

S111、终端记录上一次(即第n-1次)检测到语音的文本，m＝m+1。

在本申请的另一些实施例中，终端可以对本次之前(从第1次到第n-1次)检测到的所有语音的文本进行分别记录。在这种情况下，每一次检测到的语音的文本对应一个m值，每次检测到的语音的文本对应的m加1。

S112、终端判断m是否为预定次数。若m为预定次数，则执行步骤S113。否则，本流程结束。

在本申请的另一些实施例中，终端记录从第1次到第n-1次检测到的语音的文本。在这种情况下，终端可以针对每一次检测到的语音的文本对应的m值，分别确定每次检测到的语音的文本对应的m值是否为预定次数。

S113、终端将上一次(即第n-1次)检测到的语音的文本添加到第一关键词中。

在本申请的另一些实施例中，终端记录从第1次到第n-1次检测到的语音的文本。在这种情况下，终端可以将对应的m值满足预定次数的那一次或几次检测到的语音的文本设置为第一关键词。

如图5所示，为本申请实施例提供的另一种语音播放消息的方法的流程示意图，该流程中以设置的第一关键词包括肯定答复和否定答复为例进行说明，该流程具体包括步骤S101-S104，以及步骤S201-S215。具体如下：

S201、终端判断第n次检测到的语音的文本是否与设置的关键匹配。若确定第n次检测到的语音的文本与肯定答复的第一关键词以及否定答复的第一关键词均不匹配，则执行步骤S202。若确定第n次检测到的语音的文本与肯定答复的第一关键词匹配，则执行步骤S204。若确定第n次检测到的语音的文本与否定答复的第一关键词匹配，则执行步骤S210。

S202、终端暂不语音播放消息。

S203、终端判断计时(time)是否达到预设时间。若计时达到预设时间，则流程结束。若计时未达到预设时间，继续执行步骤S103。

S204、终端语音播放消息。

S205、终端判断n是否大于或等于2。若大于或等于2，则执行步骤S206，否则，本流程结束。

S206、终端对第n-1次检测到的语音的文本进行语义分析，确定第n-1次检测到的语音的文本是否是肯定答复。若第n-1次检测到的语音的文本是肯定答复，则执行步骤S207。否则，本流程结束。

S207、终端记录第n-1次检测到语音的文本，记录m＝m+1。

S208、终端判断m是否为预定次数。若m为预定次数，则执行步骤S209。否则，本流程结束。

S209、终端将第n-1次检测到的语音的文本添加到肯定答复的第一关键词中。

其中，步骤S204-S209可参考步骤S108-S113，不再重复赘述。

S210、终端不语音播放消息。

S211、终端判断n是否大于或等于2。若大于或等于2，则执行步骤S212，否则，本流程结束。

S212、终端对第n-1次检测到的语音的文本进行语义分析，确定第n-1次检测到的语音的文本是否是肯定答复。若第n-1次检测到的语音的文本是肯定答复，则执行步骤S213。否则，本流程结束。

在本申请的一些实施例中，本步骤可以通过语音分析对第n-1次检测到的语音的文本是肯定答复、还是否定答复，或者两者都不是进行确定，能够为终端确定第n-1次检测到的语音的文本是否定答复提供更多依据。

在本申请的另一些实施例中，终端可以对本次之前(从第1次到第n-1次)检测到的语音的文本都进行语义分析。这是由于第1次到第n-1次检测到的语音都有可能是用户希望不语音播放消息的不同表达方式。这样，有利于提高终端学习的能力和效率。

在本申请的又一些实施例中，终端也可以不执行本步骤，直接执行S213，本申请实施例不做具体限定。

S213、终端记录第n-1次检测到语音的文本，记录m＝m+1。

在本申请的另一些实施例中，终端可以分别记录本次之前(从第1次到第n-1次)检测到的语音的文本进行。在这种情况下，每一次检测到的语音的文本对应一个m值，每次检测到的语音的文本对应的m加1。

S214、终端判断m是否为预定次数。若m为预定次数，则执行步骤S215。否则，本流程结束。

在本申请的另一些实施例中，终端分别记录从第1次到第n-1次检测到的语音的文本。在这种情况下，终端可以针对每一次检测到的语音的文本对应的m值，分别确定每次检测到的语音的文本对应的m值是否为预定次数。

S215、终端将第n-1次检测到的语音的文本添加到否定答复的第一关键词中。

在本申请的另一些实施例中，终端分别记录从第1次到第n-1次检测到的语音的文本。在这种情况下，终端可以将对应的m值满足预定次数的那一次或几次检测到的语音的文本设置为第一关键词。本流程结束。

由上可见，本申请实施例提供的一种语音播放的方法，当用户的语音命令不是预先设置的命令时，终端可以对用户的语音命令进行学习，从而识别出用户的意图，执行相应的操作。使得用户与终端的交互更加个性化和智能化，有利于提升终端的使用效率，提升用户体验。

第二种应用场景，终端自动通过语音播放新接收到的消息。

如图6所示，为本申请实施例提供一种语音播放消息的方法的流程示意图，包括步骤S501a-S505，具体如下：

S501a、终端显示设置界面。

S501b、终端检测到用户的设置操作。

S501c、响应于用户的设置操作，终端设置自动语音播放消息的功能。

在本申请的一些实施例中，用户可以对终端自动播放的消息进行设置。例如：终端可以设置自动播放消息的应用(即预设应用)，那么终端在接收到预设应用的消息时，可以自动播放该消息。终端也可以设置自动播放的消息对应的联系人(即预设联系人)、或者自动播放的消息对应的联系人的群组(即预设联系人群组)。那么，终端接收到预设联系人或预设联系人群组发送的消息时，可以自动语音播放该消息。终端还可以设置自动播放的消息内容中包含的第二关键词(预设的第二关键词)，那么当终端接收到的消息中包含预设的第二关键词时，终端自动播放该消息。类似的，终端还可以设置自动播放消息的类型(例如微信中的聊天消息、朋友圈消息，以及***消息等)，自动播放消息的时间段、自动播放消息的位置等，本申请实施例不一一赘述。

在本申请的另一些实施例中，终端还可以设置消息的播放优先级。具体的，用户可以根据各个应用的使用频繁程度、各个联系人或联系人群组的重要性、第二关键词的具体设置内容来确定消息的播放优先级。例如：若某用户使用微信更为频繁，那么可以将微信的优先级设置高于短信的优先级。又例如：设置微信中星标联系人的优先级高于普通联系人的优先级。再例如：将第二关键词设置为“紧急”，则包含第二关键词的消息优先级可以设置为最高。本申请实施例对此不做具体限定。

示例性的，如图7所示，为终端的一些界面示意图。其中，图7中(1)所示的界面701，可用于设置可以自动播放消息的应用。界面701可以包括状态栏712、多个控件702、多个控件703、控件704。其中，状态栏712可以包括运营商的名称(例如***)、时间、WiFi图标、信号强度和当前的剩余电量等。控件702可用于删除自动播放消息的应用，控件703可用于增加自动播放消息的应用，控件704可用于选中的应用的进行进一步的设置。例如：终端接收用户对点击“微信”对应的控件704的操作，例如点击操作，则终端显示如图7中(2)所示的界面705。界面705可用于对“微信”中联系人的进行设置。联系人的设置包括群组设置和具体联系人的设置。这里以群组设置为例进行说明。控件706可用于开启联系人中群组的自动播放消息的功能。也就是说，终端可以设置自动播放消息的群组。控件707用于对选中群组的进行进一步设置。例如：终端接收用户对群组对应的控件707的操作，例如：点击，则终端显示如图7中(3)所示的界面708。该界面708中可供用户选择自动播放消息的群组，以及对选中的群组进行具体设置。例如：终端接收用户对“家人”对应的控件709的操作，例如：点击，则终端显示如图7中(4)所示的界面710。该界面710中可以开启是否启用关键词的功能。开启关键词的功能后，若消息的内容中包含这些关键词时，可认为需要自动播放该消息。控件711中可用于接收用户输入的关键词。在本申请的另一些示例中，启用关键词的功能也可以不与应用或联系人进行关联，也就是说，终端也可以设置若消息的内容中包含某些关键词，就自动播放该消息的内容。与该消息属于什么应用，该消息是否为某个联系人发送的无关。本申请实施例对此不做具体限定。

S502、终端接收到第四消息。

S503、终端判断第四消息是否属于预设应用。若属于预设应用，则执行步骤S505，若不属于预设应用，则执行步骤S504。

S504、终端播放提示音，用于提示用户收到第四消息。

本流程结束。

S505、终端判断第四消息是否是预设联系人发送的。若是，则执行步骤S506。否则，执行步骤S504。

S506、终端判断第四消息的内容中是否包含第二关键词。若包含，则执行步骤S507.若不包含，则执行步骤S504。

需要说明的是，本申请实施例中并不限定步骤S503-S504的执行顺序，以及各个步骤中具体的判断内容。终端具体判断过程和具体判断的内容，与用户在步骤S501中的具体设置相关。本申请实施例对此不做具体限定。

S507、终端语音播放该第四消息。

在本申请一些实施例中，在本步骤之前，终端也可以通过语音询问用户是否播放第四消息，询问过程可参考应用场景一中的相关内容，在此不赘述。

在第一种应用场景和第二种应用场景中，在一些实施例中，为了保证用户信息的隐私性，在终端语音播放消息(例如：第一消息或第四消息)之前，终端还可以接收用户对是否开启语音播放功能的设置。若用户开启语音播放功能，则终端具有通过语音播放消息的权限，在满足条件后可以通过语音播放消息。若用户未开启语音播放功能，则终端不具有语音播放消息的权限，不能进行语音播放消息。

在第一种应用场景和第二种应用场景中，在另一些实施例中，在终端语音播放消息(例如：第一消息或第四消息)之后，还可以接收用户的语音命令，对该消息进行回复。此时，用户的语音命令可以第三关键词作为语音的前缀，用于标识该用户语音为用户对消息的回复。例如：第三关键词可以是“请回复”、“请答复”等。

举例来说，终端在播放第一消息或第四消息后，接收到用户的第四语音。终端将第四语音转化成文本信息。当根据文本信息确定第四语音是以第三关键词作为开头的，则确定第四语音为用户是对第一消息或第四消息的回复。那么，终端将第四语音中第三关键词后的语音信息，回复给发送消息的联系人。可选的，终端也可以将第四语音中第三关键词后的语音信息转化成文本信息，回复给发送消息的联系人。本申请实施例不做具体限定。

需要说明的是，可选的，终端可以在接收第四语音后，将第四语音转化为文本信息。可选的，终端可以在接收第四语音的同时，将接收到的第四语音的部分语音转化为文本信息。当确定第四语音前缀是第三关键词时，确定第四语音是用户的回复，继续执行后续步骤。当确定第四语音前缀不是第三关键词时，确定第四语音不是用户的回复，可停止后续步骤。这样，有利于减轻终端的处理负荷，提升终端的处理能力。

在本申请的一些实施例中，终端可以对第三关键词进行学习，学习方法与应用场景一中终端学习第一关键词的方法类似。在此，不再赘述。

在本申请的另一些实施例中，终端可以根据用户的语音回复一些图片(例如：输入法中的笑脸图片、生气脸图片等)给发件人。用户可以预先设置第四关键词与输入法中图片的对应关系。例如：“微笑”对应于笑脸图片，“生气”对应于生气脸图片等。这样，当终端已确定第四语音为用户针对第一消息或第四消息的回复，且检测到用户的第四语音中，包含有第四关键词时，终端根据第四关键词与图片的对应关系，回复相应的图片给发件人。这样，丰富了用户回复消息的多样性，提升用户体验。

在本申请的又一些实施例中，终端在接收到消息时，也可以对消息的内容进行自然语义分析。终端可以根据自然语义分析的结果，调用相关的应用模块或功能模块，并通过语音播放的方式为用户提供更多相关信息。例如：消息的内容为“我明天去你们那出差，那边天气怎么样啊？”。终端通过语义分析出询问天气，那么可以调用终端中天气相关的应用，从天气相关的应用中获取天气信息，并播放给用户。又例如：消息的内容为“今天去哪里吃饭？”，终端通过自然语言分析出询问餐馆，那么终端可以调用地图查询终端附近的餐馆，或者终端可以调用例如大众点评应用查询用户常去的餐馆等信息，并播放给用户。这样，用户和终端之间的交互更加高效，提升用户体验。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种消息的播放方法，其特征在于，可应用于终端，所述方法包括：

所述终端接收第一消息，所述第一消息为文本信息；

响应于接收到所述第一消息，所述终端播放第一语音，所述第一语音用于询问用户是否语音播放所述第一消息；

所述终端检测到用户的第二语音；

所述终端将所述第二语音转化为第一文本；

若所述第一文本不匹配第一关键词，所述终端继续检测用户的语音；所述第一关键词为肯定关键词，所述第一关键词用于指示所述终端设备是否播放所述第一消息；

当所述终端检测到用户的第三语音，所述终端将所述第三语音转化为第二文本；

若所述第二文本匹配所述第一关键词且所述终端的语音播放功能处于开启状态，所述终端语音播放所述第一消息，且所述终端记录所述第一文本的次数，所述终端在第二文本匹配所述第一关键词之前将第一消息的文本信息转换成语音；

所述终端记录所述第一文本的次数包括：

所述终端在预设时间内检测到用户语音为n次，n为大于或等于2的整数，第n次用户语音为第三语音时，分别记录第n次用户语音之前的所有用户语音对应第一文本的次数；

若所述第一文本的次数大于第一阈值，则所述终端将所述第一文本添加到所述第一关键词中；

若所述第一消息与天气相关，则所述终端调用与天气相关的应用程序，并获取天气信息；

响应于接收到所述天气信息，所述终端将所述天气信息转化为第七语音，并播放所述第七语音；

若所述终端确定所述第一消息包含第二关键词，所述终端将所述第一消息转换为第四语音，并播放所述第四语音；

所述终端检测到所述用户的回复语音，将所述回复语音转化为回复文本，并若所述回复文本包括第四关键词，则获取与所述第四关键词对应的图片；

所述终端发送所述图片。

2.根据权利要求1所述的消息的播放方法，其特征在于，在所述终端将所述第一文本添加到所述第一关键词中之后，所述方法还包括：

所述终端接收第二消息，所述第二消息为文本信息；

响应于接收到所述第二消息，所述终端播放第五语音，所述第五语音用于询问用户是否语音播放所述第二消息；

所述终端检测到用户的第六语音；

所述终端将所述第六语音转化为第三文本；

若所述第三文本匹配添加后的第一关键词，所述终端语音播报所述第二消息。

3.根据权利要求1所述的消息的播放方法，其特征在于，在所述终端播放第一语音之前，所述方法还包括：

所述终端在接收到所述第一消息的同时，还接收到第三消息；

所述终端根据预设的优先级顺序，确定所述第一消息的优先级高于所述第三消息的优先级。

4.根据权利要求1所述的消息的播放方法，其特征在于，在所述终端将所述第一文本添加到所述第一关键词中之后，所述方法还包括：

所述终端显示提示信息，用于提示所述终端已更新所述第一关键词。

5.根据权利要求1所述的消息的播放方法，其特征在于，在所述终端播放第一语音之后，所述方法还包括：

若所述终端在预设时间段内一直未检测到用户的语音，或者所述终端在所述预设时间段内一直未检测到与所述第一关键词匹配的用户的语音，则所述终端确定不语音播放所述第一消息。

6.根据权利要求1所述的消息的播放方法，其特征在于，在所述终端播放第一语音之后，所述方法还包括：

若所述终端在预设时间段内检测到，与所述第一关键词不匹配的用户的语音的次数大于第二阈值，则所述终端确定不语音播放所述第一消息。

7.根据权利要求1-6任一项所述的消息的播放方法，其特征在于，所述第一消息为即时通信类应用的消息。

8.一种消息的播放方法，其特征在于，可应用于终端，所述方法包括：

所述终端接收第一消息，所述第一消息为文本信息；

所述终端检测到用户的第二语音；

所述终端将所述第二语音转化为第一文本；

若所述第一文本不匹配第一关键词，所述终端继续检测用户的语音；所述第一关键词包括肯定关键词和否定关键词，所述第一关键词用于指示所述终端设备是否播放所述第一消息；

若所述第二文本匹配所述肯定关键词且所述终端的语音播放功能处于开启状态，则所述终端语音播放所述第一消息，且所述终端记录所述第一文本的次数，所述终端在第二文本匹配所述第一关键词之前将第一消息的文本信息转换成语音；

所述终端记录所述第一文本的次数包括：

若所述第一文本的次数大于第一阈值，则所述终端将所述第一文本添加到所述肯定关键词中；

若所述第二文本匹配所述否定关键词，则所述终端确定不语音播放所述第一消息，且所述终端记录所述第一文本的次数；若所述第一文本的次数大于第一阈值，则所述终端将所述第一文本添加到所述否定关键词中；

若所述终端确定所述第一消息包含第二关键词，所述终端将所述第一消息转换为第四语音，并播放所述第四语音。

9.根据权利要求8所述的消息的播放方法，其特征在于，在所述终端将所述第一文本添加到所述肯定关键词中或所述否定关键词中之后，所述方法还包括：

所述终端接收第二消息，所述第二消息为文本信息；

响应于接收到所述第二消息，所述终端播放第四语音，所述第四语音用于询问用户是否语音播放所述第二消息；

所述终端检测到用户的第五语音；

所述终端将所述第五语音转化为第三文本；

若所述第三文本匹配添加后的所述肯定关键词，所述终端语音播放所述第二消息；

若所述第三文本匹配添加后的所述否定关键词，所述终端确定不语音播报所述第二消息；

所述终端发送所述图片。

10.根据权利要求9所述的消息的播放方法，其特征在于，在所述终端播放第一语音之前，所述方法还包括：

所述终端在接收到第一消息的同时，还接收到第三消息；

11.根据权利要求9所述的消息的播放方法，其特征在于，在所述终端将所述第一文本添加到所述肯定关键词或所述否定关键词之后，所述方法还包括：

所述终端显示提示信息，用于提示用户所述第一关键词已更新。

12.根据权利要求9所述的消息的播放方法，其特征在于，在所述终端播放第一语音之后，所述方法还包括：

13.根据权利要求9所述的消息的播放方法，其特征在于，在所述终端播放第一语音之后，所述方法还包括：

14.根据权利要求9-13任一项所述的消息的播放方法，其特征在于，所述第一消息为即时通信类应用的消息。

15.一种终端，其特征在于，包括：处理器、存储器和触摸屏，所述存储器、所述触摸屏与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，以使得所述终端执行如权利要求1-7中任一项所述的消息的播放方法。

16.一种终端，其特征在于，包括：处理器、存储器和触摸屏，所述存储器、所述触摸屏与所述处理器耦合，所述存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述处理器从所述存储器中读取所述计算机指令，以使得所述终端执行如权利要求8-14中任一项所述的消息的播放方法。

17.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如权利要求1-7中任一项所述的消息的播放方法。

18.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在终端上运行时，使得所述终端执行如权利要求8-14中任一项所述的消息的播放方法。

19.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1-7中任一项所述的消息的播放方法。

20.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求8-14中任一项所述的消息的播放方法。