CN113163053A - 电子装置及播放控制方法 - Google Patents
电子装置及播放控制方法 Download PDFInfo
- Publication number
- CN113163053A CN113163053A CN202010074142.8A CN202010074142A CN113163053A CN 113163053 A CN113163053 A CN 113163053A CN 202010074142 A CN202010074142 A CN 202010074142A CN 113163053 A CN113163053 A CN 113163053A
- Authority
- CN
- China
- Prior art keywords
- voice
- message
- voice message
- electronic device
- detection unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 71
- 238000006243 chemical reaction Methods 0.000 claims abstract description 43
- 238000004891 communication Methods 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种电子装置及播放控制方法。电子装置具有:检测部,针对由接收部接收的语音消息,检测该语音消息的声音特征量是否为规定的允许播放阈值以下;文字转换部,在由检测部检测为语音消息的声音特征量为允许播放阈值以下的情况下,将语音消息转换为文字消息;以及语音播放控制部,进行控制,以使播放部通过语音来播放由文字转换部转换出的文字消息。由此,针对用户难以及时掌握其内容的可能性高的语音消息,转换为文字消息并通过例如***语音来播放该文字消息,能够有助于用户及时掌握该语音消息的内容,进而减少用户重新播放该语音消息或者向发送方请求重新录制并发送该语音消息的操作负担,并且减少电子装置的处理负担和通信负担。
Description
技术领域
本发明涉及电子装置及播放控制方法,尤其涉及对语音消息的播放进行控制的电子装置及语音消息的播放控制方法。
背景技术
随着各种社交软件的普及,在智能手机、个人计算机或车载设备等具有数据通信功能的电子装置之间使用社交软件收发消息进行联系交流,已经成为了日常生活中不可或缺的部分。在人们使用社交软件进行联系交流时,不仅可以收发文字消息,还可以收发语音消息。
在收发语音消息时,发送方录制音频数据,并将该音频数据通过数据通信发送给接收方,接收方接收该音频数据并播放。然而,语音消息不同于文字消息,其受到发送方进行录制时的自身情况和周边环境影响,其内容有可能不连贯,或者语速过快,音量过小,噪音过大,导致接收方在播放该语音消息时无法听清其内容。
在这种情况下,接收方无法及时掌握该语音消息的内容,损害了通过语音消息进行联系交流时的便利性。
进而,接收方为了听清该语音消息的内容,很可能再次播放该语音消息,如果还是无法听清,只能向发送方请求重新录制并发送该语音消息。结果,导致接收方及/或发送方的操作负担增加,电子装置的处理负担和通信负担加重。
由于社交软件中语音消息的使用变得越来越普遍,特别是在车载装置等的应用场景下也开始使用,为了提高方便性和安全性,现有技术中的上述技术问题迫切需要得到解决。
发明内容
本发明鉴于现有技术中的上述技术问题,其目的在于,提供有助于用户及时掌握语音消息的内容的电子装置及播放控制方法。
本发明的一个实施方式提供一种电子装置,具有:接收部,接收语音消息;以及播放部,播放由所述接收部接收的语音消息;所述电子装置的特征在于,还具有:检测部,针对由所述接收部接收的语音消息,检测该语音消息的声音特征量是否为规定的允许播放阈值以下;文字转换部,在由所述检测部检测为所述语音消息的声音特征量为所述允许播放阈值以下的情况下,将所述语音消息转换为文字消息;以及语音播放控制部,进行控制,以使所述播放部通过语音来播放由所述文字转换部转换出的所述文字消息。
由此,针对用户难以及时掌握其内容的可能性高的语音消息,转换为文字消息并通过例如***语音来播放该文字消息,能够有助于用户及时掌握该语音消息的内容,进而减少用户重新播放该语音消息或者向发送方请求重新录制并发送该语音消息的操作负担,并且减少电子装置的处理负担和通信负担。
本发明的一个实施方式的电子装置也可以是,所述检测部基于所述语音消息的语速、音量、音高、音质、时间信息、噪声等级和识别度之中的至少一个特征,计算该语音消息的声音特征量,所述检测部进而将计算出的该语音消息的声音特征量与基于该至少一个特征预先设定的所述允许播放阈值进行比较,从而判断该语音消息的声音特征量是否为所述允许播放阈值以下。
由此,通过将语音消息本身的特征与基于该特征预先设定的阈值进行比较,能够可靠地判断所接收到的语音消息的内容难以被及时掌握的可能性。
本发明的一个实施方式的电子装置也可以是,所述检测部根据语音消息的间断特征,计算该语音消息的声音特征量,所述检测部进而将计算出的该语音消息的声音特征量与基于间断特征预先设定的所述允许播放阈值进行比较,从而判断该语音消息的声音特征量是否为所述允许播放阈值以下。
由此,通过将语音消息的间断特征与基于间断特征预先设定的阈值进行比较,能够可靠地判断所接收到的语音消息由于间断而内容难以被及时掌握的可能性。进而,通过将这样的语音消息转换为文字消息并通过例如***语音来播放该文字消息,能够有助于用户听清该语音消息的内容,或者节省用户由于等待该语音消息的间断而浪费的时间。
本发明的一个实施方式的电子装置也可以是,所述检测部检测所述语音消息中是否包括特定信息,所述检测部在检测出所述语音消息中包括特定信息的情况下,检测该语音消息的声音特征量是否为所述允许播放阈值以下。
由此,在语音消息中包括特别需要用户掌握的特定信息的情况下,能够可靠地判断所接收到的语音消息难以被及时掌握的可能性,从而有助于用户及时掌握该包括特定信息的语音消息的内容。另外,仅针对包括特定信息的语音消息检测声音特征量是否为阈值以下,还能够减少电子装置针对接收到的语音消息检测声音特征量的处理负担。
本发明的一个实施方式的电子装置也可以是,所述检测部在检测出所述语音消息中包括特定信息的情况下,至少基于语速计算该语音消息的声音特征量,并判断该语音消息的声音特征量是否为至少基于语速预先设定的所述允许播放阈值以下,在由所述检测部判断为所述语音消息的声音特征量为所述允许播放阈值以下的情况下,所述文字转换部将所述语音消息转换为文字消息,所述语音播放控制部进行控制,以使所述播放部以比所述语音消息的语速低的语速,通过语音来播放由所述文字转换部转换出的所述文字消息。
由此,在语音消息中包括特别需要用户掌握的特定信息、且该语音消息的语速过快的情况下,通过将这样的语音消息转换为文字消息并通过较低的语速来播放该文字消息,能够有助于用户可靠地掌握该包括特定信息的语音消息的内容。
本发明的一个实施方式的电子装置也可以还具有:受理部,从本电子装置的用户受理消息的输入,所述检测部检测在由所述接收部接收到语音消息之后是否从本电子装置的用户受理了表示特定含义的消息,所述检测部在检测出接收到语音消息之后从本电子装置的用户受理了表示所述特定含义的消息的情况下,检测语音消息的声音特征量是否为所述允许播放阈值以下。
由此,在从用户受理了表示特定含义(例如,请求发送方重新录制并发送,或者表示听不清)的消息的情况下,判断所接收到的语音消息难以被及时掌握的可能性,能够更有针对性地帮助用户及时掌握语音消息的内容。另外,仅在从用户受理了表示特定含义的消息的情况下判断声音特征量是否为阈值以下,还能够减少电子装置针对接收到的语音消息检测声音特征量的处理负担。
本发明的一个实施方式的电子装置也可以是,在由所述检测部检测出接收到语音消息之后从本电子装置的用户受理了所述表示特定含义的消息的情况下,针对所述语音消息,所述文字转换部将该语音消息转换为文字消息,所述语音播放控制部进行控制,以使所述播放部通过语音来播放由所述文字转换部转换出的所述文字消息,针对所述语音消息之后由相同联系对象发出的至少一个后续语音消息,所述检测部检测后续语音消息的声音特征量是否为所述允许播放阈值以下,在由所述检测部检测为后续语音消息的声音特征量为所述允许播放阈值以下的情况下,所述文字转换部将后续语音消息转换为文字消息,所述语音播放控制部进行控制,以使所述播放部通过语音来播放由所述文字转换部转换出的所述文字消息。
由此,在从用户受理了表示特定含义(例如,请求发送方重新录制并发送,或者表示听不清)的消息的情况下,直接将此前接收的该语音消息转换为文字消息并通过例如***语音来播放,并对由同一联系对象发送的后续语音消息判断声音特征量是否为阈值以下,能够在帮助用户可靠地掌握由该联系对象发出的语音消息的内容的基础上,尽量减少用户的操作负担。
本发明的一个实施方式的电子装置也可以是,在由所述检测部检测出接收到语音消息之后从本电子装置的用户受理了所述表示特定含义的消息的情况下,不从本电子装置向发出了所述语音消息的联系对象发送所述表示特定含义的消息,而由所述播放部通过语音来播放由所述文字转换部转换出的所述文字消息。
由此,不把从用户受理的表示特定含义(例如,请求发送方重新录制并发送,或者表示听不清)的消息发送给联系对象,而直接将此前接收的该语音消息转换为文字消息并通过例如***语音来播放,能够提高用户与联系对象之间的联系效率,减少无用的通信负担。
本发明的一个实施方式的电子装置也可以是车载装置。
本实施方式的电子装置如上所述,有助于用户及时掌握该语音消息的内容,进而减少用户重新播放该语音消息或者向发送方请求重新录制并发送该语音消息的操作负担。在电子装置为车载装置的情况下,减少用户的操作负担能够提高驾驶的安全性。
本发明的一个实施方式还提供一种语音消息的播放控制方法,其特征在于,包括:检测步骤,针对接收的语音消息,检测该语音消息的声音特征量是否为规定的允许播放阈值以下;文字转换步骤,在由所述检测步骤检测为所述语音消息的声音特征量为所述允许播放阈值以下的情况下,将所述语音消息转换为文字消息;以及语音播放控制步骤,进行控制,以通过语音来播放由所述文字转换步骤转换出的所述文字消息。
本发明的电子装置的上述各种方式也可以适用于本发明的播放控制方法、播放控制***、播放控制程序以及记录了上述播放控制程序的记录介质,并获得相应的技术效果。
附图说明
图1是本发明第一实施方式的电子装置的结构框图。
图2是本发明第一实施方式的播放控制方法的一例的流程图。
图3是本发明第一实施方式的一个具体例中声音特征量计算表的说明图。
图4是本发明第二实施方式的一个具体例的音频波形图。
图5是本发明第三实施方式的播放控制方法的一例的流程图。
图6是本发明第三实施方式的一个具体例的音频波形图。
图7是本发明第三实施方式的播放控制方法的另一例的流程图。
图8是本发明第四实施方式的电子装置的结构框图。
图9是本发明第四实施方式的播放控制方法的一例的流程图。
图10是本发明第四实施方式的播放控制方法的另一例的流程图。
附图标记说明:
1、1A:电子装置;11:接收部;12:播放部;13:检测部;14:文字转换部;15:语音播放控制部;16:受理部。
具体实施方式
以下结合附图、实施方式及具体例对本发明进行更详细的说明。其中,下述说明只是为了方便理解本发明而举出的例子,不用于限定本发明的范围。在具体实施方式中,装置的部件可以根据实际情况变更、删减或追加,方法的步骤可以根据实际情况变更、删减、追加或改变顺序。
(第一实施方式)
具体说明本发明的第一实施方式。首先说明本发明的第一实施方式的电子装置1。电子装置1例如是智能手机、计算机、车载装置等电子设备。图1是本发明第一实施方式的电子装置1的结构框图。如图1所示,电子装置1具有接收部11、播放部12、检测部13、文字转换部14、语音播放控制部15,以下具体说明。
接收部11接收语音消息。接收部11能够从联系对象接收语音消息。接收部11可以自身具有数据通信功能,从而能够从其他电子设备的联系对象接收语音消息。或者,接收部11也可以通过与具有数据通信功能的其他电子设备建立有线或无线连接,从而能够接收由其他电子设备接收到的语音消息。另外,接收部11不限于仅接收语音消息,也可以还接收文字消息、视频消息等,其中视频消息在被作为语音播放时,也可以看作语音消息的一种。
播放部12播放由接收部11接收的语音消息,例如可以通过扬声器等进行播放,或者通过接口将音频信号输出至外部的播放装置。另外,播放部12可以播放视频消息中的音频部分,由此将视频消息作为语音消息的一种进行播放。
另外,电子装置1还具有检测部13、文字转换部14、语音播放控制部15作为特征性的结构。检测部13、文字转换部14、语音播放控制部15例如由电子装置1所具备的处理器执行与各部分的功能相对应的程序实现,也可以通过专用电路实现。
检测部13针对由接收部11接收的语音消息,检测该语音消息的声音特征量是否为规定的允许播放阈值以下。例如,检测部13可以通过分析由接收部11接收的语音消息所对应的音频数据,提取该音频数据所反映的语音消息的声音特征量,并与预先设定的语音数据的允许播放阈值进行比较。其中,语音数据的允许播放阈值是用于判断语音数据的内容能否被用户及时掌握的阈值,例如被存储于电子装置1所具备的存储器(未图示)中,或者也可以被存储于云服务器等并由电子装置1通过数据通信实时地获取。作为语音数据的允许播放阈值,既可以根据本电子装置1以往接收的语音消息中被用户确认为难以及时掌握的历史数据计算,也可以通过综合多台电子装置1的历史数据的大数据计算,还可以通过机器学习等方式确定。
文字转换部14在由检测部13检测为语音消息的声音特征量为允许播放阈值以下的情况下,将语音消息转换为文字消息。例如,文字转换部14通过语音识别技术,对接收部11接收的语音消息所对应的音频数据进行语音识别,提取出该语音消息中的文字信息,从而构成与该语音消息对应的文字消息。
语音播放控制部15进行控制,以使播放部12通过语音来播放由文字转换部14转换出的文字消息。在此,语音播放控制部15例如进行控制,使播放部12基于例如被存储于电子装置1所具备的存储器(未图示)中的***语音数据,以***语音播放由文字转换部14转换出的文字消息。或者,语音播放控制部15也可以进行控制,使播放部12基于例如被存储于云服务器的外部语音数据,以外部语音播放由文字转换部14转换出的文字消息。或者,电子装置1也可以基于用户操作,预先设定表现用户个人喜好的目标语音的目标语音数据,语音播放控制部15进行控制,使播放部12以目标语音播放由文字转换部14转换出的文字消息。
根据本实施方式,针对用户难以及时掌握其内容的可能性高的语音消息,转换为文字消息并通过例如***语音来播放该文字消息,能够有助于用户及时掌握该语音消息的内容,进而减少用户重新播放该语音消息或者向发送方请求重新录制并发送该语音消息的操作负担,并且减少电子装置的处理负担和通信负担。
接着说明本发明的第一实施方式的电子装置1所执行的播放控制方法。图2是本发明第一实施方式的播放控制方法的一例的流程图。图2的流程例如可以在电子装置1通过接收部11接收到语音消息时执行,但不限于此,也可以在电子装置1准备通过播放部12播放语音消息时执行,或者在接收部11接收到语音消息到播放部12播放语音消息之间的任意时刻执行。下述步骤S101对应于检测步骤,步骤S102对应于文字转换步骤,步骤S103、S104对应于语音播放控制步骤。
在步骤S101中,检测部13针对由接收部11接收的语音消息,检测该语音消息的声音特征量是否为规定的允许播放阈值以下。作为一例,检测部13例如基于语音消息的语速、音量、音高、音质、时间信息、噪声等级和识别度之中的至少一个特征,计算该语音消息的声音特征量。进而,检测部13将计算出的该语音消息的声音特征量与基于该至少一个特征预先设定的允许播放阈值进行比较,从而判断该语音消息的声音特征量是否为允许播放阈值以下。
在语音消息的上述特征之中,时间信息可以包括语音消息的时长、语音消息中超过或低于规定音量的时长、语音消息中噪声等级超过规定等级的时长等。识别度表示用户能够识别的程度,例如可以由上述多个参数之中的一部分参数加权相加计算,或者也可以利用机器学习。另外,在预先设定允许播放阈值时,可以利用用户刚好能够及时识别的临界语音数据,基于该临界语音数据中的上述至少一个特征来设定允许播放阈值。
图3是本发明第一实施方式的一个具体例中声音特征量计算表的说明图。如图3所示,例如可以针对语音消息的语速特征赋予权重w1,针对音量特征赋予权重w2,针对音高特征赋予权重w3,针对音质特征赋予权重w4,针对时间信息特征赋予权重w5,针对噪声等级特征赋予权重w6,通过加权相加计算声音特征量。或者,也可以基于同样的加权相加来计算识别度,并将识别度本身或者对识别度进行了规定运算(例如取识别度的规定比例)而得到的值作为声音特征量。另外,在预先设定允许播放阈值时,也可以通过利用用户刚好能够及时识别的临界语音数据,基于该临界语音数据中的上述特征的加权相加来预先设定允许播放阈值。
或者,也可以在由上述特征之中的多个特征组成的矢量空间中,将由上述多个特征构成的多维数据(矢量)作为声音特征量。在此情况下,可以将上述临界语音数据的上述多个特征构成的多维数据(矢量)作为允许播放阈值,通过将所接收到的语音消息的声音特征量矢量与允许播放阈值矢量进行比较,来判断该语音消息的声音特征量是否为允许播放阈值以下。
在步骤S101中判断为该语音消息的声音特征量不是规定的允许播放阈值以下的情况下(步骤S101:否),执行步骤S104,播放部12直接播放该语音消息。
在步骤S101中判断为该语音消息的声音特征量是规定的允许播放阈值以下的情况下(步骤S101:是),执行步骤S102。例如,在上述具体例中,在通过上述加权相加而计算的语音消息的声音特征量是预先利用临界语音数据设定的允许播放阈值以下的情况下,执行步骤S102,文字转换部14将该语音消息转换为文字消息。
接着,在步骤S103中,语音播放控制部15进行控制,以通过语音来播放由步骤S102转换出的文字消息。
根据本例,通过将语音消息本身的特征与基于该特征预先设定的阈值进行比较,能够可靠地判断所接收到的语音消息的内容难以被及时掌握的可能性。
(第二实施方式)
具体说明本发明的第二实施方式。本实施方式是第一实施方式的一例,根据语音消息的间断特征来计算声音特征量。以下着重说明本实施方式相对于第一实施方式的不同点,关于与第一实施方式相同或类似的内容,在本实施方式中省略说明。
本实施方式的电子装置1的结构及其执行的播放控制方法的流程与第一实施方式的电子装置1的结构及其执行的播放控制方法相同,在此不作赘述。以下结合本实施方式的一个具体例进行说明。
图4是本发明第二实施方式的一个具体例的音频波形图。在图4中,示出了语音消息“大连星海广场”的音频波形。可以看到,在该语音消息的音频波形中,在时刻t1至t2之间、时刻t3至t4之间、时间t5至t6之间存在明显的间断。
对此,检测部13根据语音消息的间断特征,计算该语音消息的声音特征量。例如,可以根据间断的次数、间断时间的比例、间断的最长时间等间断特征之中的任一项计算该语音消息的声音特征量,也可以根据多项间断特征的加权相加来计算该语音消息的声音特征量。例如,在图4所示的具体例中,间断的次数为3次,间断的最长时间为t4-t3,间断时间的比例可以根据下式计算:
间断时间比例=间断时长/消息总时长
另外,检测部13可以根据语音消息的音量低于规定阈值来判断出现了间断,也可以通过排除语音消息之中的噪音和环境音等提取语音消息之中的语音音量,并根据语音音量低于规定阈值来判断出现了间断。
进而,检测部13将计算出的该语音消息的声音特征量与基于间断特征预先设定的允许播放阈值进行比较,从而判断该语音消息的声音特征量是否为允许播放阈值以下。
例如,设为在间断时间比例大于30%的情况下,语音消息的声音特征量为允许播放阈值以下。此时,在图4所示的具体例中,检测部13判断为语音消息的声音特征量为允许播放阈值以下,文字转换部14将该语音消息转换为文字消息“大连星海广场”,语音播放控制部15进行控制,以通过***语音来连贯地播放该文字消息“大连星海广场”。
由此,通过将语音消息的间断特征与基于间断特征预先设定的阈值进行比较,能够可靠地判断所接收到的语音消息由于间断而内容难以被及时掌握的可能性。进而,通过将这样的语音消息转换为文字消息并通过例如***语音来播放该文字消息,能够有助于用户听清该语音消息的内容,或者节省用户由于等待该语音消息的间断而浪费的时间。
(第三实施方式)
具体说明本发明的第三实施方式。本实施方式是第一实施方式或第二实施方式的一例,以语音消息中包括特定信息为前提来检测该语音消息的声音特征量是否为允许播放阈值以下。以下着重说明本实施方式相对于第一实施方式或第二实施方式的不同点,关于与第一实施方式或第二实施方式相同或类似的内容,在本实施方式中省略说明。
本实施方式的电子装置的结构与第一实施方式的电子装置1的结构相同,在此不作赘述。以下说明本实施方式的电子装置1所执行的播放控制方法。图5是本发明第三实施方式的播放控制方法的一例的流程图。图5的流程例如可以在电子装置1通过接收部11接收到语音消息时执行,但不限于此,也可以在电子装置1准备通过播放部12播放语音消息时执行,或者在接收部11接收到语音消息到播放部12播放语音消息之间的任意时刻执行。下述步骤S201、S202对应于检测步骤,步骤S203对应于文字转换步骤,步骤S204、S205对应于语音播放控制步骤。
在步骤S201中,检测部13检测由接收部11接收到的语音消息中是否包括特定信息。特定信息例如包括电话号码、住址等,可以通过语音识别等手段检测。图6是本发明第三实施方式的一个具体例的音频波形图。在图6中,示出了语音消息“我的电话号码是84757138”的音频波形。检测部13例如通过语音识别技术,识别出该语音消息中包括电话号码这样的特定信息。
在步骤S201中检测部13检测为语音消息中包括特定信息的情况下(步骤S201:是),执行步骤S202。在步骤S201中检测部13检测为语音消息中不包括特定信息的情况下(步骤S201:否),执行步骤S205。其后的步骤S202、S203、S204、S205分别对应于第一实施方式或第二实施方式中的步骤S101、S102、S103、S104。在图6所示的具体例中,语音消息“我的电话号码是84757138”被转换为文字消息,并例如通过***语音播放转换出的文字消息。
由此,在语音消息中包括特别需要用户掌握的特定信息的情况下,能够可靠地判断所接收到的语音消息难以被及时掌握的可能性,从而有助于用户及时掌握该包括特定信息的语音消息的内容。另外,仅针对包括特定信息的语音消息检测声音特征量是否为阈值以下,还能够减少电子装置针对接收到的语音消息检测声音特征量的处理负担。
以下说明本实施方式的播放控制方法的另一例。图7是本发明第三实施方式的播放控制方法的另一例的流程图。图7的流程例如可以在电子装置1通过接收部11接收到语音消息时执行,但不限于此,也可以在电子装置1准备通过播放部12播放语音消息时执行,或者在接收部11接收到语音消息到播放部12播放语音消息之间的任意时刻执行。下述步骤S301、S302对应于检测步骤,步骤S303对应于文字转换步骤,步骤S304、S305、S306对应于语音播放控制步骤。
图7的步骤S301相当于图5所示的步骤S201,在此不作赘述。仍然参照图6所示的具体例进行说明,检测部13例如通过语音识别技术,识别出语音消息“我的电话号码是84757138”中包括电话号码这样的特定信息。
在步骤S301中检测部13检测为语音消息中包括特定信息的情况下(步骤S301:是),执行步骤S302。在步骤S301中检测部13检测为语音消息中不包括特定信息的情况下(步骤S301:否),执行步骤S306。
在步骤S302中,检测部13至少基于语速计算该语音消息的声音特征量,并判断该语音消息的声音特征量是否为至少基于语速预先设定的允许播放阈值以下。例如,语音消息的语速越快,计算出的声音特征量越小。另外,在计算声音特征量和预先设定允许播放阈值时,除了语速之外,也可以还结合其他特征量,例如通过加权相加或多维矢量的方式计算。
在步骤S302中检测部13判断为语音消息的声音特征量为允许播放阈值以下的情况下(步骤S302:是),执行步骤S303。在步骤S302中检测部13判断为语音消息的声音特征量不是允许播放阈值以下的情况下(步骤S302:否),执行步骤S306。
步骤S303相当于图2所述的步骤S102或图5所示的步骤S203,在此不作赘述。接下来,在步骤S304中,语音播放控制部15进行控制,将播放部12将要播放步骤S303中转换出的文字消息的语速设定为比接收部11接收到的原语音消息的语速低的语速。接下来,在步骤S305中,语音播放控制部15进行控制,以使播放部12以所设定的比原语音消息的语速低的语速,通过语音来播放步骤S303中转换出的文字消息。
在图6所示的具体例中,所接收到的原语音消息“我的电话号码是84757138”如果语速过快,导致声音特征量为预先设定的允许播放阈值以下,则被转换为文字消息,并通过比原语音消息的语速低的语速播放转换出的文字消息。
由此,在语音消息中包括特别需要用户掌握的特定信息、且该语音消息的语速过快的情况下,通过将这样的语音消息转换为文字消息并通过较低的语速来播放该文字消息,能够有助于用户可靠地掌握该包括特定信息的语音消息的内容。
(第四实施方式)
具体说明本发明的第四实施方式。本实施方式是第一实施方式或第二实施方式的一例,以从本用户受理了表示特定含义的消息为前提来检测该语音消息的声音特征量是否为允许播放阈值以下。以下着重说明本实施方式相对于第一实施方式或第二实施方式的不同点,关于与第一实施方式或第二实施方式相同或类似的内容,在本实施方式中省略说明。
首先说明本实施方式的电子装置1A的结构。图8是本发明第四实施方式的电子装置1A的结构框图。如图8所示,本实施方式的电子装置1A在第一或第二实施方式的电子装置1的基础上,还具有受理部16。受理部16从本电子装置1A的用户受理消息的输入,例如可以通过麦克风等受理用户的语音输入,或者通过触摸屏、鼠标、键盘等受理用户的文字输入。
以下说明本实施方式的电子装置1A所执行的播放控制方法。图9是本发明第四实施方式的播放控制方法的一例的流程图。图9的流程例如可以以规定周期执行或实时地执行。下述步骤S401、S402、S403对应于检测步骤,步骤S404对应于文字转换步骤,步骤S405、S406对应于语音播放控制步骤。
在步骤S401中,检测部13检测是否由接收部11接收到语音消息。在步骤S401中检测为未接收到语音消息的情况下(步骤S401:否),反复执行步骤S401。在步骤S401中检测为接收到语音消息的情况下(步骤S401:是),执行步骤S402。
在步骤S402中,检测部13检测是否从本电子装置1A的用户受理了表示特定含义的消息。表示特定含义的消息,例如是“请重发”、“请再说一次”等要求联系对象重新发送的消息,或者也可以是“听不清”、“你说得不清楚”等表示从联系对象发送的语音消息的内容难以掌握的消息。例如,检测部13可以通过语音识别技术对从本电子装置1A的用户受理的消息的内容进行识别,并与预先设定的表示特定含义的模板消息进行比对,从而检测是否从本电子装置1A的用户受理了表示特定含义的消息。
在步骤S402中检测为从本电子装置1A的用户受理了表示特定含义的消息的情况下(步骤S402:是),执行步骤S403。在步骤S402中检测为未从本电子装置1A的用户受理了表示特定含义的消息的情况下(步骤S402:否),执行步骤S406。其后的步骤S403、S404、S405、S406分别对应于第一实施方式或第二实施方式中的步骤S101、S102、S103、S104。
由此,在从用户受理了表示特定含义(例如,请求发送方重新录制并发送,或者表示听不清)的消息的情况下,判断所接收到的语音消息难以被及时掌握的可能性,能够更有针对性地帮助用户及时掌握语音消息的内容。另外,仅在从用户受理了表示特定含义的消息的情况下判断声音特征量是否为阈值以下,还能够减少电子装置针对接收到的语音消息检测声音特征量的处理负担。
以下说明本实施方式的播放控制方法的另一例。图10是本发明第四实施方式的播放控制方法的另一例的流程图。图10的流程例如可以以规定周期执行或实时地执行。下述步骤S501、S502、S505、S506、S507对应于检测步骤,步骤S503、S508对应于文字转换步骤,步骤S504、S509、S510对应于语音播放控制步骤。
步骤S501、S502分别对应于图9所示的步骤S401、S402,在此不作赘述。在步骤S502中检测为从本电子装置1A的用户受理了表示特定含义的消息的情况下(步骤S502:是),执行步骤S503。在步骤S502中检测为未从本电子装置1A的用户受理了表示特定含义的消息的情况下(步骤S502:否),执行步骤S510。
在一个具体例中,设为在步骤S501中检测部13检测出从联系对象接收到图4所示的“大连星海广场”的语音消息,并且在步骤S502中检测部13检测出从本用户受理了“请重发”的消息,因此接下来执行步骤S503。
步骤S503、S504分别对应于图9所示的步骤S404、S405。在上述具体例中,在步骤S503中文字转换部14将“大连星海广场”的语音消息转换为文字消息,在步骤S504中语音播放控制部15进行控制,以使播放部12通过语音来播放转换出的文字消息。即,在从用户受理了表示特定含义的消息(“请重发”)的情况下,不检测此前从联系对象接收的语音消息(“大连星海广场”)的声音特征量,而直接将该语音消息转换为文字消息并通过语音来播放。
接下来执行步骤S505。步骤S505与步骤S501相同,在此不作赘述。在步骤S505中检测部13检测出接收了语音消息的情况下,执行步骤S506,判断在步骤S505中接收的语音消息与在步骤S501中接收的语音消息是否为相同联系对象发出的语音消息。
在步骤S506中检测为不是从相同联系对象发出的语音消息的情况下(步骤S506:否),返回执行步骤S502。在步骤S506中检测为是从相同联系对象发出的语音消息的情况下(步骤S506:是),执行步骤S507。
步骤S507、S508、S509、S510分别对应于图9中的步骤S403、S404、S405、S406,在此不作赘述。在上述具体例中,设为从相同联系对象又接收到了“下午6点吃饭”的语音消息。针对该语音消息,检测声音特征量是否为允许播放阈值以下,在声音特征量是否为允许播放阈值以下的情况下,将该语音消息(“下午6点吃饭”)转换为文字消息并通过如***语音播放。
由此,在从用户受理了表示特定含义(例如,请求发送方重新录制并发送,或者表示听不清)的消息的情况下,直接将此前接收的该语音消息转换为文字消息并通过例如***语音来播放,并对由同一联系对象发送的后续语音消息判断声音特征量是否为阈值以下,能够在帮助用户可靠地掌握由该联系对象发出的语音消息的内容的基础上,尽量减少用户的操作负担。
另外,在本实施方式及其具体例中,在由检测部13检测出接收到语音消息之后从本电子装置1A的用户受理了表示特定含义的消息的情况下,也可以不从本电子装置1A向发出了语音消息的联系对象发送该表示特定含义的消息,而由播放部12通过语音来播放由文字转换部14转换出的文字消息。例如,在上述具体例中,也可以不向联系对象发送从本电子装置1A的用户受理的消息(“请重发”)。
由此,不把从用户受理的表示特定含义(例如,请求发送方重新录制并发送,或者表示听不清)的消息发送给联系对象,而直接将此前接收的该语音消息转换为文字消息并通过例如***语音来播放,能够提高用户与联系对象之间的联系效率,减少无用的通信负担。
以上参照附图说明了本发明的具体实施方式和具体例。其中,以上说明的具体实施方式和具体例仅是本发明的具体例子,用于理解本发明,而不用于限定本发明的范围。本领域技术人员能够基于本发明的技术思想对具体实施方式和具体例进行各种变形、组合和要素的合理省略,由此得到的方式也包括在本发明的范围内。例如,上述各实施方式和具体例皆可以相互组合,其组合而成的实施方式也包含在本发明的范围中。
例如,本发明的实施方式的电子装置1、1A可以是车载装置。如上所述,电子装置1、1A有助于用户及时掌握该语音消息的内容,进而减少用户重新播放该语音消息或者向发送方请求重新录制并发送该语音消息的操作负担。在电子装置1、1A为车载装置的情况下,减少用户的操作负担能够提高驾驶的安全性。
例如,本发明的实施方式的电子装置1、1A也可以与具有数据通信功能的其他电子设备构成播放控制***,通过与其他电子设备建立有线或无线连接,从而能够接收由其他电子设备接收到的语音消息。
另外,本发明的上述各实施方式的播放控制方法中包括的各步骤也可以作为播放控制***所包括的各部(单元)、或者播放控制程序所包括的各步骤、或者记录有上述播放控制程序的记录介质实现,并获得同样的技术效果。
Claims (10)
1.一种电子装置,具有:
接收部,接收语音消息;以及
播放部,播放由所述接收部接收的语音消息;
所述电子装置的特征在于,还具有:
检测部,针对由所述接收部接收的语音消息,检测该语音消息的声音特征量是否为规定的允许播放阈值以下;
文字转换部,在由所述检测部检测为所述语音消息的声音特征量为所述允许播放阈值以下的情况下,将所述语音消息转换为文字消息;以及
语音播放控制部,进行控制,以使所述播放部通过语音来播放由所述文字转换部转换出的所述文字消息。
2.如权利要求1所述的电子装置,其特征在于,
所述检测部基于所述语音消息的语速、音量、音高、音质、时间信息、噪声等级和识别度之中的至少一个特征,计算该语音消息的声音特征量,
所述检测部进而将计算出的该语音消息的声音特征量与基于该至少一个特征预先设定的所述允许播放阈值进行比较,从而判断该语音消息的声音特征量是否为所述允许播放阈值以下。
3.如权利要求1所述的电子装置,其特征在于,
所述检测部根据语音消息的间断特征,计算该语音消息的声音特征量,
所述检测部进而将计算出的该语音消息的声音特征量与基于间断特征预先设定的所述允许播放阈值进行比较,从而判断该语音消息的声音特征量是否为所述允许播放阈值以下。
4.如权利要求1所述的电子装置,其特征在于,
所述检测部检测所述语音消息中是否包括特定信息,
所述检测部在检测出所述语音消息中包括特定信息的情况下,检测该语音消息的声音特征量是否为所述允许播放阈值以下。
5.如权利要求4所述的电子装置,其特征在于,
所述检测部在检测出所述语音消息中包括特定信息的情况下,至少基于语速计算该语音消息的声音特征量,并判断该语音消息的声音特征量是否为至少基于语速预先设定的所述允许播放阈值以下,
在由所述检测部判断为所述语音消息的声音特征量为所述允许播放阈值以下的情况下,所述文字转换部将所述语音消息转换为文字消息,所述语音播放控制部进行控制,以使所述播放部以比所述语音消息的语速低的语速,通过语音来播放由所述文字转换部转换出的所述文字消息。
6.如权利要求1所述的电子装置,其特征在于,还具有:
受理部,从本电子装置的用户受理消息的输入,
所述检测部检测在由所述接收部接收到语音消息之后是否从本电子装置的用户受理了表示特定含义的消息,
所述检测部在检测出接收到语音消息之后从本电子装置的用户受理了表示所述特定含义的消息的情况下,检测语音消息的声音特征量是否为所述允许播放阈值以下。
7.如权利要求6所述的电子装置,其特征在于,
在由所述检测部检测出接收到语音消息之后从本电子装置的用户受理了所述表示特定含义的消息的情况下,
针对所述语音消息,所述文字转换部将该语音消息转换为文字消息,所述语音播放控制部进行控制,以使所述播放部通过语音来播放由所述文字转换部转换出的所述文字消息,
针对所述语音消息之后由相同联系对象发出的至少一个后续语音消息,所述检测部检测后续语音消息的声音特征量是否为所述允许播放阈值以下,在由所述检测部检测为后续语音消息的声音特征量为所述允许播放阈值以下的情况下,所述文字转换部将后续语音消息转换为文字消息,所述语音播放控制部进行控制,以使所述播放部通过语音来播放由所述文字转换部转换出的所述文字消息。
8.如权利要求7所述的电子装置,其特征在于,
在由所述检测部检测出接收到语音消息之后从本电子装置的用户受理了所述表示特定含义的消息的情况下,不从本电子装置向发出了所述语音消息的联系对象发送所述表示特定含义的消息,而由所述播放部通过语音来播放由所述文字转换部转换出的所述文字消息。
9.如权利要求1至8中任一项所述的电子装置,其特征在于,
所述电子装置是车载装置。
10.一种语音消息的播放控制方法,其特征在于,包括:
检测步骤,针对接收的语音消息,检测该语音消息的声音特征量是否为规定的允许播放阈值以下;
文字转换步骤,在由所述检测步骤检测为所述语音消息的声音特征量为所述允许播放阈值以下的情况下,将所述语音消息转换为文字消息;以及
语音播放控制步骤,进行控制,以通过语音来播放由所述文字转换步骤转换出的所述文字消息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010074142.8A CN113163053B (zh) | 2020-01-22 | 2020-01-22 | 电子装置及播放控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010074142.8A CN113163053B (zh) | 2020-01-22 | 2020-01-22 | 电子装置及播放控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113163053A true CN113163053A (zh) | 2021-07-23 |
CN113163053B CN113163053B (zh) | 2024-05-28 |
Family
ID=76881529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010074142.8A Active CN113163053B (zh) | 2020-01-22 | 2020-01-22 | 电子装置及播放控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113163053B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030000400A (ko) * | 2001-06-25 | 2003-01-06 | 주식회사 보이스텍 | 음성 재생속도 실시간 변환 방법 및 장치 |
KR20120126649A (ko) * | 2011-05-12 | 2012-11-21 | 주식회사 유피아이케이 | 통화 내용 제공 방법, 그 제공 시스템 및 그 제공 방법을 기록한 기록매체 |
CN104285428A (zh) * | 2012-05-08 | 2015-01-14 | 三星电子株式会社 | 用于运行通信服务的方法和*** |
US20150317979A1 (en) * | 2014-04-30 | 2015-11-05 | Samsung Electronics Co., Ltd. | Method for displaying message and electronic device |
KR20160008311A (ko) * | 2014-07-14 | 2016-01-22 | 박철 | 음성메시지 전달에 있어서 음성인식과 문자 변환 |
CN106210323A (zh) * | 2016-07-13 | 2016-12-07 | 广东欧珀移动通信有限公司 | 一种语音播放方法及终端设备 |
CN106448665A (zh) * | 2016-10-28 | 2017-02-22 | 努比亚技术有限公司 | 语音处理装置及方法 |
CN106847256A (zh) * | 2016-12-27 | 2017-06-13 | 苏州帷幄投资管理有限公司 | 一种语音转化聊天方法 |
CN108831475A (zh) * | 2018-05-24 | 2018-11-16 | 广州市千钧网络科技有限公司 | 一种文本消息提取方法及*** |
CN110033769A (zh) * | 2019-04-23 | 2019-07-19 | 努比亚技术有限公司 | 一种录入语音处理方法、终端及计算机可读存储介质 |
-
2020
- 2020-01-22 CN CN202010074142.8A patent/CN113163053B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030000400A (ko) * | 2001-06-25 | 2003-01-06 | 주식회사 보이스텍 | 음성 재생속도 실시간 변환 방법 및 장치 |
KR20120126649A (ko) * | 2011-05-12 | 2012-11-21 | 주식회사 유피아이케이 | 통화 내용 제공 방법, 그 제공 시스템 및 그 제공 방법을 기록한 기록매체 |
CN104285428A (zh) * | 2012-05-08 | 2015-01-14 | 三星电子株式会社 | 用于运行通信服务的方法和*** |
US20150317979A1 (en) * | 2014-04-30 | 2015-11-05 | Samsung Electronics Co., Ltd. | Method for displaying message and electronic device |
KR20160008311A (ko) * | 2014-07-14 | 2016-01-22 | 박철 | 음성메시지 전달에 있어서 음성인식과 문자 변환 |
CN106210323A (zh) * | 2016-07-13 | 2016-12-07 | 广东欧珀移动通信有限公司 | 一种语音播放方法及终端设备 |
CN106448665A (zh) * | 2016-10-28 | 2017-02-22 | 努比亚技术有限公司 | 语音处理装置及方法 |
CN106847256A (zh) * | 2016-12-27 | 2017-06-13 | 苏州帷幄投资管理有限公司 | 一种语音转化聊天方法 |
CN108831475A (zh) * | 2018-05-24 | 2018-11-16 | 广州市千钧网络科技有限公司 | 一种文本消息提取方法及*** |
CN110033769A (zh) * | 2019-04-23 | 2019-07-19 | 努比亚技术有限公司 | 一种录入语音处理方法、终端及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113163053B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6489563B2 (ja) | 音量調節方法、システム、デバイス及びプログラム | |
CN113138743B (zh) | 使用音频水印的关键词组检测 | |
US9756439B2 (en) | Method and devices for outputting an audio file | |
EP3664291A1 (en) | Audio signal adjustment method and device, storage medium, and terminal | |
MX2008016354A (es) | Deteccion de una maquina contestadora utilizando reconocimiento de dialogo. | |
CN103973877A (zh) | 一种在移动终端中利用文字实现实时通话的方法和装置 | |
JP6904357B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US20120053937A1 (en) | Generalizing text content summary from speech content | |
JP2007049657A (ja) | 留守番電話装置 | |
CN109348048B (zh) | 通话留言方法、终端和具有存储功能的装置 | |
CN109347980B (zh) | 呈现、推送信息的方法、介质、装置和计算设备 | |
CN103916511A (zh) | 信息处理的方法及电子设备 | |
KR101643808B1 (ko) | 어플리케이션과 서버 간의 연동을 이용한 음성 서비스 제공 방법 및 그 시스템 | |
CN104980583A (zh) | 一种事件提醒方法及终端 | |
CN113163053B (zh) | 电子装置及播放控制方法 | |
CN112399638B (zh) | 一种通信连接建立方法、存储介质及设备 | |
CN101827153A (zh) | 一种信息交互的***和方法 | |
US11244697B2 (en) | Artificial intelligence voice interaction method, computer program product, and near-end electronic device thereof | |
CN108281145B (zh) | 语音处理方法、语音处理装置和电子设备 | |
JP5427102B2 (ja) | 伝言通信システム | |
CN113271491B (zh) | 电子装置以及播放控制方法 | |
CN104967728A (zh) | 一种语音通信方法 | |
CN104869240A (zh) | 一种终端 | |
CN104683550A (zh) | 一种信息处理方法及电子设备 | |
KR101621136B1 (ko) | 조도 센서를 이용한 음성 인식 서비스 제공 방법 및 음성 인식 서비스를 제공하는 통신 단말기 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |