CN110910898A - 一种语音信息处理的方法和装置 - Google Patents

一种语音信息处理的方法和装置 Download PDF

Info

Publication number
CN110910898A
CN110910898A CN201811077551.2A CN201811077551A CN110910898A CN 110910898 A CN110910898 A CN 110910898A CN 201811077551 A CN201811077551 A CN 201811077551A CN 110910898 A CN110910898 A CN 110910898A
Authority
CN
China
Prior art keywords
information
voice
emotion polarity
emotion
polarity result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811077551.2A
Other languages
English (en)
Other versions
CN110910898B (zh
Inventor
孟笑君
王雅圣
张旸
魏建生
邓利群
包飞
黄雪妍
梁伟宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201811077551.2A priority Critical patent/CN110910898B/zh
Publication of CN110910898A publication Critical patent/CN110910898A/zh
Application granted granted Critical
Publication of CN110910898B publication Critical patent/CN110910898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/001Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means with emotions simulating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术,提供一种语音信息处理方法。在该方法中,信息处理设备接收语音信息,获取所述语音信息的语音情感极性结果和所述语音信息的语义情感极性结果,并根据所述语音情感极性结果和所述语义情感极性结果,获取所述语音信息对应的一个或多个表情信息。本发明提供的方法根据语音信息的语音和语义两方面的情感极性结果为语音信息获取表情信息,能够更准确地确认语音信息传递的感情,提高了为所述语音信息匹配表情信息的准确度。

Description

一种语音信息处理的方法和装置
技术领域
本发明涉及自然语言处理领域,特别涉及一种语音信息处理的方法和装置。
背景技术
随着人工智能、通信和计算机技术的快速发展,语音文字转换技术被越来越多地应用 于各种场合,例如,即时通讯应用,社交媒体应用,文字处理应用等。然而,仅仅将语音转换为枯燥的文字,无法真实地反映说话者的语气和心情,使得用户间的交流丰富性和生动性较差。
目前主流的输入法软件或即时通讯工具都支持***表情图标,并且可以根据输入文本 的内容推荐合适的表情供用户选择***。比如在用户输入“开心”的时候,表情输入法自 动推荐表情符号“O(∩_∩)Oˉˉ”在客户端界面,供用户选择使用。这种表情输入基于检索,当匹配到关键词以后,会推荐相应的表情。类似的变体还有通过网络搜索海量符号表情进行推荐,也是基于基本的关键词匹配。但是同一句话,用不同的语调和语气表达,所 传达的情感信息可能完全不同。基于语义理解的表情输入法缺失语音特征,无法支持语音 交互,对于语音输入无法推荐合适的表情。
发明内容
本发明实施例提供一种语音信息处理的方法和装置,根据语音信息的语音和语义两方 面的情感极性结果为语音信息获取表情信息,能够更准确地确认语音信息传递的感情,提 高了为所述语音信息匹配表情信息的准确度。
本发明第一方面提供一种语音信息处理方法。在该方法中,信息处理设备接收语音信 息,获取所述语音信息的语音情感极性结果和所述语音信息的语义情感极性结果,并根据 所述语音情感极性结果和所述语义情感极性结果,获取所述语音信息对应的一个或多个表 情信息,其中,所述语音情感极性结果或所述语义情感极性结果为根据所述语音信息产生 的,表示一种或多种情感程度的值。当终端设备的数据处理能力强大时,所述方法中也可 以由终端设备完成。
在第一方面的第一种可能的实现方式中,获取所述语音信息的语音情感极性结果按以 下步骤实现:提取所述语音信息中的语音特征并将所述语音特征代入语音情感分类模型获 取所述语音信息的语音情感极性结果。在一种可能的实现方式中,所述语音情感分类模型 由深度学习模型训练得到。
在第一方面的第二种可能的实现方式中,获取所述语音信息的语义情感极性结果按以 下步骤实现:将所述语音信息转换成文本序列,提取所述文本序列的文本特征并将所述文 本特征代入语义情感分类模型获取所述语音信息的语义情感极性结果。在一种可能的实现 方式中,所述语义情感分类模型由深度学习模型训练得到。
在第一方面的第三种可能的实现方式中,所述语音情感极性结果或所述语义情感极性 结果为一个多维度向量,所述多维度向量的每一个维度表示一种情感类别,所述每一个维 度的值表示一种情感的程度。
在第一方面的第四种可能的实现方式中,根据所述语音情感极性结果和所述语义情感 极性结果,获取所述语音信息对应的一个或多个表情信息按以下步骤实现:对所述语音情 感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极 性结果;和根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应 的一个或多个表情信息。本实现方式根据语音和语义两方面的情感极性查询极性相同或相 近的表情信息,提高了为所述语音信息匹配表情信息的准确性。
在第一方面的第五种可能的实现方式中,根据所述语音情感极性结果和所述语义情感 极性结果,获取所述语音信息对应的一个或多个表情信息按以下步骤实现:构建超平面 Vγ=γV1+(1-γ)V2,其中,V1为所述语音情感极性结果,V2为所述语义情感极性结果, 0≤γ≤1;和获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或多个表情信息。本实现方式通过构建超平面查询表情信息,避免查询结果聚拢在特定区域,以保证获取的表情信息能覆盖所述语音信息传递的用户情感。
在第一方面的第六种可能的实现方式中,信息处理设备或终端设备根据所述语音情感 极性结果和/或所述语义情感极性结果标识所述语音信息的情感类别。
在第一方面的第七种可能的实现方式中,终端设备根据所述语音情感极性结果和/或 所述语义情感极性结果提示所述语音消息。
在第一方面的第八种可能的实现方式中,终端设备将所述表情信息***所述语音信息 或所述语音信息转换成的文本信息中,或提示用户将所述表情信息***所述语音信息或所 述语音信息转换成的文本信息中。
在第一方面的第九种可能的实现方式中,终端设备使用所述表情信息标识联系人或使 用所述表情信息表示发送所述语音信息的用户的情绪。
在第一方面的第十种可能的实现方式中,终端设备查询预设的表情信息与动作控制指 令的对应关系表,获得所述表情信息对应的动作控制指令,和执行所述动作控制指令。
本发明第二方面提供一种语音信息处理方法。在该方法中,信息处理设备或终端设备 接收语音信息,获取所述语音信息的语音情感极性结果和/或所述语音信息的语义情感极 性结果,所述终端设备根据所述语音情感极性结果和/或所述语义情感极性结果提示所述 语音消息或者所述终端设备根据所述语音情感极性结果和/或所述语义情感极性结果对所 述语音消息进行分类标识。
本发明第三方面提供一种信息处理设备。所述信息处理设备包括收发模块、语音情感 极性获取模块、语义情感极性获取模块和表情信息获取模块。所述收发模块用于接收语音 信息。所述语音情感极性获取模块用于获取所述语音信息的语音情感极性结果。所述语义 情感极性获取模块用于获取所述语音信息的语义情感极性结果。所述表情信息获取模块用 于根据所述语音情感极性结果和所述语义情感极性结果,获取所述语音信息对应的一个或 多个表情信息,其中,所述语音情感极性结果或所述语义情感极性结果为根据所述语音信 息产生的,表示一种或多种情感程度的值。
在第三方面的第一种实现方式中,所述语音情感极性获取模块具体用于提取所述语音 信息中的语音特征和将所述语音特征代入语音情感分类模型获取所述语音情感极性结果。
在第三方面的第二种实现方式中,所述语义情感极性获取模块具体用于将所述语音信 息转换成文本序列,提取所述文本序列的文本特征和将所述文本特征代入语义情感分类模 型获取所述语义情感极性结果。
在第三方面的第三种实现方式中,所述表情信息获取模块具体用于对所述语音情感极 性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极性结 果,并根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应的一 个或多个表情信息。
在第三方面的第四种实现方式中,所述表情信息获取模块具体用于构建超平面Vγ=γV1+(1-γ)V2,其中,V1为所述语音情感极性结果,V2为所述语义情感极性结果, 0≤γ≤1;并获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或 多个表情信息。
在第三方面的第五种实现方式中,所述信息处理设备进一步包括情感极性结果使用模 块,用于根据所述语音情感极性结果和/或所述语义情感极性结果标识所述语音信息的情 感类别。
在第三方面的第六种实现方式中,所述信息处理设备进一步包括情感极性结果使用模 块,用于根据所述语音情感极性结果和/或所述语义情感极性结果提示所述语音消息。
在第三方面的第七种实现方式中,所述信息处理设备进一步包括表情信息使用模块, 用于将所述表情信息***所述语音信息或所述语音信息转换成的文本信息中,或提示用户 将所述表情信息***所述语音信息或所述语音信息转换成的文本信息中。
在第三方面的第八种实现方式中,所述信息处理设备进一步包括表情信息使用模块, 用于使用所述表情信息标识联系人或使用所述表情信息表示发送所述语音信息的用户的 情绪。
在第三方面的第九种实现方式中,所述信息处理设备进一步包括表情信息使用模块, 用于查询预设的表情信息与动作控制指令的对应关系表,获得所述表情信息对应的动作控 制指令并执行所述动作控制指令。
本发明第四方面提供一种信息处理设备,所述信息处理设备包括存储器、处理器、通 信接口以及总线。其中,存储器、处理器、通信接口通过总线实现彼此之间的通信连接。所述存储器存储有程序,当所述程序被处理器执行时,处理器和通信接口用于执行如前述本发明第一方面、本发明第一方面的第一至十种实现方式或本发明第二方面中任意一项所述的方法。
本发明第五方面提供一种计算机可读存储介质,其中,所述存储介质包括指令,当所 述指令在计算机上运行时,使得计算机执行如前述本发明第一方面、本发明第一方面的第 一至十种实现方式或本发明第二方面中任意一项所述的方法。
本发明第六方面提供一种计算机程序产品,当其在计算机上运行时,使得计算机执行 如前述本发明第一方面、本发明第一方面的第一至十种实现方式或本发明第二方面中任意 一项所述的方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种语音信息处理***示意图;
图2为本发明实施例提供的一种语音信息处理方法流程图;
图3为本发明实施例提供的二维平面表情信息查询示意图;
图4为本发明实施例提供的另一种语音信息处理方法流程图;
图5为本发明实施例提供的一种信息处理设备的示意性框图;
图6为本发明实施例提供的一种信息处理设备的硬件结构图。
具体实施方式
下面将结合附图对本发明实施例中的技术方案进行描述。
如图1所示,本发明实施例提供的一种语音信息处理***包括终端设备101以及信息 处理设备102。所述终端设备101和信息处理设备102通过网络连接,其连接方式可以为有线或无线。
所述终端设备101包括手机、个人电脑、穿戴设备、车载终端、机器人等智能终端。所述终端设备101上可以安装各种应用,例如:输入法类应用、即时通信类应用、社交媒 体类应用、浏览器类应用、搜索类应用、文字处理类应用等。所述终端设备101可以接收 来自用户的语音信息,所述语音信息可以用户在使用上述终端设备101上的应用时使用语 音输入功能输入的语音信息,也可以是机器人产品使用者在与机器人交互的过程中输入的 语音信息。
所述信息处理设备102可以是云服务器、网络服务器、应用服务器以及管理服务器等 具有数据处理功能的设备。所述信息处理设备102通过网络接收来自所述用户设备的语音、文本等信息,再通过存储数据的存储器以及数据处理的处理器环节进行机器学习,深度学习,搜索,推理,决策等方式的语言数据处理。所述存储器可以是一个统称,包括本 地存储以及存储历史数据的数据库,所述数据库可以在信息处理设备上,也可以在其它网 络服务器上。可选地,在一些实现方式中,根据终端设备不同的数据处理能力,上述信息 处理设备102的部分或全部功能也可以由终端设备101实现。
在本发明的一个实施例中,所述信息处理设备102接收所述终端设备101发送的语音 信息,获取所述语音信息的语音情感极性结果和语义情感极性结果,并根据所述语音情感 极性结果和所述语义情感极性结果,获取所述语音对应的一个或多个表情信息。在本发明 实施例中,所述情感极性结果,包括所述语音情感极性结果或所述语义情感极性结果,为 根据所述语音信息识别或产生的表示一种或多种情感程度的值。
可选地,该语音信息处理***还可以包括数据采集设备103和训练设备104。数据采 集设备103用于采集语音数据并存入数据库,训练设备104基于数据库中维护的语音数据 生成目标模型/规则。根据训练设备训练得到的目标模型/规则可以应用于不同的***或设 备中,如应用于图1所示的信息处理设备或终端设备上。在实际的应用中,所述数据库中 维护的训练数据不一定都来自于数据采集设备103的采集,也有可能是从其他设备接收得 到的。另外需要说明的是,训练设备104也不一定完全基于数据库维护的训练数据进行目 标模型/规则的训练,也有可能从云端或其他设备获取训练数据进行模型训练。在本发明 的一个实施例中,所述训练设备104利用深度学习模型训练得到语音情感分类模型和语义 情感分类模型以供信息处理设备102使用。信息处理设备102将语音特征向量代入语音情 感分类模型计算得到语音情感极性结果,将文本特征向量代入语义情感分类模型计算得到 语义情感极性结果。
可选地,在一些实现方式中,所述数据采集设备103、数据库及训练设备104可以全部或部分集成在信息处理设备102中,也可以设置其它网络服务器上。可选地,在一些实 施例中,根据终端设备101不同的数据处理能力,上述数据采集设备103、数据库及训练 设备104也可以全部或部分集成在终端设备101中。
在本发明的一个实施例中,所述训练设备104利用深度学习模型,例如多层感知器MLP(Multi-Layer Perceptron),训练得到语音情感分类模型和语义情感分类模型。所 述语音情感分类模型和语义情感分类模型用来供所述信息处理设备102计算所述语音信 息的语音情感极性结果和语义情感极性结果使用。
如图2所示,本发明实施例提供一种语音信息处理方法。
在步骤201中:信息处理设备接收语音信息。
具体地,信息处理设备可以从终端设备或其他网络设备或者用户处接收语音信息。
在步骤202中:信息处理设备获取所述语音信息的语音情感极性结果。
具体地,信息处理设备从所述语音信息中提取语音特征,例如,信息处理设备经过预 处理、频谱分析等提取所述语音信息中和语气、语调等相关的语音特征。所述预处理可以 包括去躁或去静音等操作。
所述语音特征包括韵律、音量、音高、谱通量或共振峰等中的一个或多个参数,这些 参数可以从不同角度来反映语音中的情感信息。所述语音特征可以用向量的形式表达,例 如,语音特征向量F=(韵律,音量,音高,谱通量,共振峰)。然后,信息处理设备可 以将语音特征向量代入语音情感分类模型获取所述语音特征的情感极性结果,即语音情感 极性结果V1。所述语音情感分类模型可以由训练设备利用深度学习模型,例如多层感知器MLP(Multi-Layer Perceptron),训练得到。
在本发明实施例中,所述语音情感极性结果可以通过一个多维的向量表达。例如,通 过Happy(高兴),Peace(平和),Angry(生气),Sad(伤心)四个维度的向量来表 示,即向量(Happy,Peace,Angry,Sad),向量的每个维度表示一种情感类别,每个维 度的值表示相应类别情感的程度。例如,语音情感极性结果V1=(1,0,0,0)表示该情 感极性结果是完全Happy(高兴)的,或者语音情感极性结果V1=(0.5,0,0,0.5)表 示该情感极性结果是喜忧参半的。上述四个维度只是一个举例,当然也可以采用更多,更 丰富的维度,或者采用更少,更简洁的维度来表示所述情感极性结果,本发明对此不做限 定。
在步骤203中:信息处理设备获取所述语音信息的语义情感极性结果。
具体地,信息处理设备从所述语音信息中提取文本特征,例如,将所述语音信息转换 成文本序列,例如,通过ASR(Automatic Speech Recognition)技术将所述语音信息语音转文本技术转换成文本序列。可选地,信息处理设备可以对所述文本序列进行文本处理,例如,分词、过滤等操作,提取文本特征。
在本发明实施例中,信息处理设备可以将所述本文特征通过词嵌入(wordembedding)、句嵌入(sentence embedding)技术,将一个单词或者句子转换成文本特 征向量表示。然后,信息处理设备可以将文本特征向量作为输入向量,代入语义情感分 类器获取该文本特征的情感极性结果,即语义情感极性结果V2。所述语义情感分类器可以 利用深度学习模型,例如多层感知器MLP训练得到。所述语义情感极性结果V2可以通过一 个多维的向量表达,与前述语音情感极性结果的表达一样,具体示例可参考语音情感极性 结果部分的描述。
本发明实施例对步骤202和步骤203的执行先后顺序不做限定,也可以两个步骤同时 进行。
在步骤204中,信息处理设备根据所述语音信息的语音情感极性结果和语义情感极性 结果,获取所述语音信息对应的表情信息。
可选地,所述信息处理设备可以通过查询表情信息数据库,例如emoji(日本舶来语, 含义是:表情符号/图标)表情词典,获取所述语音信息相应的一表情信息,例如,一个或多个表情符号、图片。所述表情信息数据库可以存储在信息处理设备上,也可以存储在终端设备或其他设备,例如云服务器上。
表情信息数据库可以利用现有的数据库,也可以按照本发明实施例建立一个。在本发 明实施例的一个示例中,所述表情信息数据库可以按照如下方法建立:收集有emoji表情 信息的语料,标识所述语料中每条语句所属的情感类别,将所述语句中的表情信息的情感 极性结果以向量的形式表示。例如,可以通过Happy(高兴),Peace(平和),Angry(生气),Sad(伤心)四个维度来表示所述情感类别,当然,也可以采用更多或更少的维度 来表示。
示例性地,如果某条语句的表情信息为大笑表情符
Figure BDA0001801158290000081
则可以将所述语句的情感 类别标识为Happy(高兴),相应地,所述表情信息,即大笑表情符
Figure BDA0001801158290000082
的情感极性向量表达为V=(1,0,0,0)。
然后,可以将所述表情信息加入到所述表情信息数据库中。如果所述表情信息已经存 在,则可以更新表情信息数据库中所述表情信息的频数N和情感极性向量V。示例性的, 更新方法可以是求平均值,例如按照以下公式更新:
Nnew=Nold+1;
Figure BDA0001801158290000083
其中,Nnew为更新后的频数,Nold为更 新前的频数,Vnew为更新后的情感极性向量,Vold为更新前的情感极性向量。
在本发明实施例中,可以通过如下方法查询所述表情信息数据库:
1.根据所述语音情感极性结果V1和所述语义情感极性结果V2得到所述语音信息的情 感极性结果,例如,可以对所述V1和V2求平均值或求加权平均值得到所述语音信息 的情感极性结果V。然后根据所述语音信息的情感极性结果V查询表情信息数据库 得到相应的表情信息。
本发明实施例根据语音和语义两方面的情感极性查询极性相同或相近的表情信息,提 高了为所述语音信息匹配表情信息的准确性。
或者,通过构建超平面的方式查询表情信息数据库,如下:
2.基于所述语音情感极性结果V1和所述语义情感极性结果V2构建超平面 Vγ=γV1+(1-γ)V2(0≤γ≤1)。在所述表情信息数据库中查询距离Vγ所构成的超平 面最近的一个或较近的多个表情符号、图片作为所述语音消息对应的表情信息。 其中,所述表情信息与超平面的距离是指欧几里得距离。例如,可以计算各个表 情符号距离所述超平面的欧几里得距离,并按距离由近及远选取三个表情符号作 为查询得到的表情信息。
图3为二维平面表情信息查询示意图。在该示例中,情感极性结果为二维向量,则由 语音信息的语音情感极性结果V1和语义情感极性结果V2构建的超平面Vγ是V1和V2之间的线 段,在表情信息数据库中,距离该线段最近的三个表情图片,即图3中虚线框标识的三个 表情图片为语音消息对应的表情信息。以二维向量和二维平面为例只是为了方便图示,本 领域技术人员在此基础上可以理解更高维度的情感极性结果向量及更高维度的超平面如 何实现表情信息的查询。
本发明实施例通过构建超平面查询表情信息,避免查询结果聚拢在特定区域,以保 证获取的表情信息能覆盖所述语音信息传递的用户情感。
信息处理设备获取表情信息后可以将所述发送给终端设备以便终端设备使用。终端 设备使用所述表情信息可以是直接使用,例如,在输入法应用或社交媒体应用中,终端设备直接将所述表情信息***用户编辑的语音或文本信息中。或者,在机器人产品中, 机器人使用所述表情信息来表示与所述机器人交互的用户的情绪。
终端设备使用所述表情信息也可以是提示用户使用,例如,在输入法应用或社交媒体 应用中,终端设备显示所述表情信息,供用户从候选的表情符号、图片中选择合适的使用。 用户可以手动点击所述表情符号、图片进行选择,也可以通过语音进行选择,例如用语音 指令“选择表情一”来指示终端设备选择所述表情符合、图片。
如前述的***实施例中描述,根据终端设备不同的数据处理能力,信息处理设备的部 分或全部功能也可以由终端设备实现。因此,本实施例中步骤201-204中的一个或多个步 骤也可以由终端设备执行。
本发明实施例提供的语音信息处理方法根据语音信息的语音和语义两方面的情感极 性结果为语音信息获取表情信息,能够更准确地确认语音信息传递的感情,提高了为所述 语音信息匹配表情信息的准确度。
本发明实施例还提供的另一种语音信息处理方法,该方法使用前述方法步骤202和 203产生的情感极性结果对所述语音信息进行提示或分类标识。如图4所示,所述方法包括如下步骤:
在步骤401中:信息处理设备接收语音信息。
在步骤402中:信息处理设备并获取所述语音信息的语音情感极性结果。
在步骤403中:信息处理设备获取所述语音信息的语义情感极性结果。
步骤401-403与前述方法实施例中的步骤201-203类似,此处不再赘述。
可选地,在步骤404中:终端设备根据所述语音情感极性结果和/或所述语义情感极 性结果提示所述语音消息。
例如,当所述语音情感极性结果和/或所述语义情感极性结果为Happy(高兴)时,所述终端设备在提示用户有新的消息时,可以用高兴的合成语音来提示用户“您有一条新的消息”。
可选地,在步骤405中:终端设备根据所述语音情感极性结果和/或所述语义情感极 性结果对所述语音消息进行分类标识。
例如,当所述语音情感极性结果和/或所述语义情感极性结果为Happy(高兴)时,所述终端设备将所述语音消息分类标识为“高兴”类别。在后续的使用中,例如,用户指 示终端设备想听“高兴”的消息,则所述终端设备显示或播报情感极性结果分类标识为 Happy(高兴)的消息。
步骤404和405为可选步骤,它们可以被择一执行或都被执行。步骤404和405中可以单独使用所述语音情感极性结果或所述语义情感极性结果,相应的,所述步骤402和 403只需执行一个。步骤404和405中也可以同时使用所述语音情感极性结果和所述语义 情感极性结果,此时可以对所述语音情感极性结果和所述语义情感极性结果进行求平均值 或求加权平均值操作或其他操作。
本发明实施例还提供了终端设备对表情信息的多种使用方法,在下面介绍的使用方法 中,所述表情信息,即表情符号或图片可以是按照前述本发明实施例提供的语音信息处理 方法确定的,也可以是按照其他现有的方法产生或确认的,本发明对此不做限定。
表情信息使用方案一:
在本发明的一个表情信息使用实施例中,终端设备是智能手表或者机器人,例如,用 于儿童陪伴或老人陪伴的机器人。在该方法中,终端设备获取与用户交互过程中的语义和 /或语音情感极性结果,并通过与所述语义和/或语音情感极性结果对应的表情信息来表示 用户的情绪/情感。
例如,终端设备与用户每一次交流的语音,都生成一个相应的表情符号,用表情符号 生成一段时间内的用户的情感变化趋势图,以体现用户的心理/情感状态。或者把一天内 出现次数最多的表情符号作为当日表情符号呈现一周内的情绪变化。
表情信息使用方案二:
本发明的另一个实施例提供的表情信息使用方法中,终端设备或信息处理设备对用户 使用所述终端设备上安装的应用发出或记录的文本和/或语音信息进行情感极性分析和统 计,例如,用户发出/记录一次文本和/或语音信息,就相应生成一个表情符号,并将一定 周期内出现最多的表情符号用于标识所述用户使用所述应用联系的对象。例如,如图所示, 在即时通信应用中,将用户对某个联系人发送文本和/或语音信息对应的表情符号作为该 联系人的头像。
表情信息使用方案三:
本发明的另一个实施例提供的表情信息使用方法用于为用户提供隐私保护。在本实施 例中,当终端设备收到一个与所述终端设备的用户关系亲密的联系人的文本和/或语音信 息时,或者,当所述终端设备收到的文本和/或语音信息涉及到用户隐私时,用户正处于 公共场合或用户旁边有其他人,则终端设备用所述表情信息来代替显示所述文本和/或语 音信息。
用户是否处于公共场合或旁边有其他人,终端设备可以通过声纹或图像识别等身份识 别技术来确定。或者用户也可以通过在终端设备上设置的隐私模式,从而触发终端设备以 表情信息来呈现文本和/或语音信息。
表情信息使用方案四:
在本发明的另一个实施例提供的表情信息使用方法中,终端设备,例如机器人,可以 根据所述表情信息表达相应的表情或动作。所述表情信息与所述表情或动作的对应关系可 以预先存储在终端设备中。例如,当确定表情信息为“微笑”的表情符号
Figure BDA0001801158290000111
所述机器人 可以做出“微笑”的表情。例如,机器人的面部可以是一块高清LCD或LED显示屏,或者 通过三块显示屏分别显示左眼、右眼和嘴巴。所述表示微笑的表情符号可以显示在机器人 的面部显示屏上。如前面所述,本发明表情信息使用的实施例并不限定所述表情信息的产 生或确认方式。
本发明的另一个实施例提供的表情信息使用方法包括以下步骤:
提取输入的文本和/语音信息所携带的表情信息,如果在所述输入的信息中没有检测 到表情信息,则利用前述本发明实施例提供的方法生成所述输入信息对应的表情信息;
在预先设定的表情信息与动作控制指令的对应关系表中,查询所述表情信息对应的动 作控制指令,终端设备(例如机器人)执行所述动作控制指令以模拟所述表情信息对应的 动作;
如果没有查询到所述表情信息对应的动作,终端设备可以利用图像识别技术,提取所 述表情信息中的肢体特征和/或动作,并模拟所述肢体特征和/或动作。
所述机器人具有处理单元、存储单元,以及以下至少之一:可以活动的主体、头部和 肢体。所述肢体至少包括手臂、手掌,以及连接手掌和手臂的关节。其中,手臂可以是一个整体的部件,或者由前臂和上臂以及连接二者的关节组成。存储单元中存储有表情信息与动作控制之间的对应关系,其中,动作控制指令可以包括拥抱、摸头、握手、抬头、低 头、转身等。
示例性的,动作控制指令与所述控制指令执行后机器人的动作的对应关系如下表所 示。
动作控制指令 动作
拥抱 左右手臂张开再抱紧,过一段预设时间后手臂松开再还原;
摸头 上臂抬起,在用户头部位置小幅度摆动,一段预设时间后放下
握手 右上臂抬起,握手,放下
抬头 按照预设角度向上转动头部
低头 按照预设角度向下转动头部
转身 主体扭转180度
处理器根据表情信息确定动作控制指令后,调用动作控制指令对应的动作函数,使机 器人完成相应的动作。
在一个示例中,所述机器人接收到妈妈发送的“拥抱”表情图片,根据查询表情信息 与表情或动作的对应关系,所述机器人得到动作控制指令为“拥抱”,并调用动作函数执行“拥抱”所对应的动作。
表情信息使用方案五:
本发明的另一个实施例提供的表情信息使用方法用表情信息对终端设备或终端设备 上运行的应用程序进行设置。
在本实施例中可以预先定义不同的表情信息终端设备的设置之间的对应关系和/或不 同的表情信息与应用程序的运行步骤之间的应关系。当终端设备接收或产生表情信息时, 终端设备根据所述对应关系做出与所述表情信息对应的设置,或者应用程序根据所述对应 关系执行与所述表情信息对应的运行步骤。
在一个示例中,终端设备为智能空调,当所述智能空调接收到有风和落叶的“冷”表 情图片,则所述智能空调提高温度设置。在另一个示例中,终端设备智能手机,当所述智能手机接收到有风和落叶的“冷”表情图片时,触发所述智能手机上安装的音乐应用程序播放与“秋风”、“落叶”相关的歌曲。
图5为本发明实施例提供的一种信息处理设备的示意性框图。如图5所示,所述信息 处理设备包括收发模块501、语音情感极性获取模块502、语义情感极性获取模块502和表情信息获取模块504。
所述收发模块501用于接收语音信息。例如,从终端设备或其他设备或用户处接收语 音消息。
所述语音情感极性获取模块502用于获取所述语音信息的语音情感极性结果。具体 地,所述语音情感极性获取模块502可以用于执行前述方法实施例中的步骤来获取所述语 音特征的情感极性结果。在一个示例中,所述语音情感极性获取模块具体用于提取所述语 音信息中的语音特征和将所述语音特征代入语音情感分类模型获取所述语音情感极性结 果。
所述语义情感极性获取模块503用于获取所述语音信息的语义情感极性结果。具体 地,所述语义情感极性获取模块503可以用于执行前述方法实施例中的步骤来获取所述语 义情感极性结果。在一个示例中,所述语义情感极性获取模块具体用于将所述语音信息转 换成文本序列,提取所述文本序列的文本特征和将所述文本特征代入语义情感分类模型获 取所述语义情感极性结果。
所述表情信息获取模块504用于根据所述语音情感极性结果和所述语义情感极性结 果,获取所述语音信息对应的表情信息。所述情感极性获取模块504可以用于执行前述方 法实施例中的步骤来获取所述表情信息。在一个示例中,所述表情信息获取模块具体用于 对所述语音情感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音 信息的情感极性结果,并根据所述语音信息的情感极性结果查询表情信息数据库获取所述 语音信息对应的一个或多个表情信息。在另一个示例中,所述表情信息获取模块具体用于 构建超平面Vγ=γV1+(1-γ)V2,其中,V1为所述语音情感极性结果,V2为所述语义情感极 性结果,0≤γ≤1;并获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远 的一个或多个表情信息。
可选地,所述收发模块501还用于将所述表情信息发送给终端设备。
可选的,在另一个实施例中,所述信息处理设备还包括情感极性结果使用模块505, 所述情感极性结果使用模块505用于根据所述语音情感极性结果和/或所述语义情感极性 结果标识所述语音信息的情感类别。或者,所述情感极性结果使用模块505用于根据所述 语音情感极性结果和/或所述语义情感极性结果提示所述语音消息。
可选地,在另一个实施例中,述信息处理设备还包括表情信息使用模块506。
在一个示例中,所述表情信息使用模块用于将所述表情信息***所述语音信息或所述 语音信息转换成的文本信息中,或提示用户将所述表情信息***所述语音信息或所述语音 信息转换成的文本信息中。
在另一个示例中,所述表情信息使用模块用于使用所述表情信息标识联系人或使用所 述表情信息表示发送所述语音信息的用户的情绪。
在另一个示例中,所述表情信息使用模块用于查询预设的表情信息与动作控制指令的 对应关系表,获得所述表情信息对应的动作控制指令并执行所述动作控制指令。
情感极性结果使用模块505和表情信息使用模块506为可选模块,它们通过执行前述 方法实施例中的步骤来实现相应功能。
以上所描述的信息处理设备的结构是示意性的,例如,所述模块的划分,仅仅为一种 逻辑功能划分,实际实现时可以有另外的划分方式。例如,本发明实施例中描述的各个功 能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两 个以上模块集成在一个模块中,或者是一个或以上模块集成在另一个设备上。上述模块既 可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储 在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现 有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来, 该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以 是个人计算机,服务器,或者网络设备等)执行本发明各个方法实施例中的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代 码的介质。
图6是本发明实施例提供的信息处理设备的硬件结构示意图。图6所示信息处理设备 包括存储器601、处理器602、通信接口603以及总线604。其中,存储器601、处理器 602、通信接口603通过总线604实现彼此之间的通信连接。
存储器601可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器601可以存储程序, 当存储器601中存储的程序被处理器602执行时,处理器602和通信接口603用于执行前 述方法实施例中的步骤。
在一种示例中,处理器602可以采用通用的中央处理器(Central ProcessingUnit, CPU),数字信号处理器(Digital Signal Processing,DSP),应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processingunit,GPU),现成可编程门阵列(Field Programmable Gate Array,FPGA)或者一个或 多个集成电路,用于执行相关程序,以实现前述实施例提供的信息处理设备中的模块所需 执行的功能,或者执行前述方法实施例中的步骤。
在另一种示例中,处理器602还可以是一种集成电路芯片,具有信号的处理能力。在 实现过程中,前述实施例提供的语音信息处理方法的各个步骤可以通过处理器902中硬件 的集成逻辑电路或者软件形式的指令完成。
通信接口603使用例如但不限于收发器一类的收发装置,来实现信息处理设备与其他 设备或通信网络之间的通信。
总线904可包括信息处理设备各个部件之间传送信息的通路。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,本申请描述的***、 装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟 悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵 盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (23)

1.一种语音信息处理方法,其特征在于,包括:
接收语音信息;
获取所述语音信息的语音情感极性结果;
获取所述语音信息的语义情感极性结果;和
根据所述语音情感极性结果和所述语义情感极性结果,获取所述语音信息对应的一个或多个表情信息,其中,所述语音情感极性结果或所述语义情感极性结果为根据所述语音信息产生的,表示一种或多种情感程度的值。
2.如权利要求1所述的方法,其特征在于,所述获取所述语音信息的语音情感极性结果包括:
提取所述语音信息中的语音特征;和
将所述语音特征代入语音情感分类模型获取所述语音信息的语音情感极性结果。
3.如权利要求1所述的方法,其特征在于,所述获取所述语音信息的语义情感极性结果包括:
将所述语音信息转换成文本序列;
提取所述文本序列的文本特征;和
将所述文本特征代入语义情感分类模型获取所述语音信息的语义情感极性结果。
4.如权利要求1-3任意一项所述的方法,其特征在于,所述语音情感极性结果或所述语义情感极性结果为一个多维度向量,所述多维度向量的每一个维度表示一种情感类别,所述每一个维度的值表示一种情感的程度。
5.如权利要求1-4任意一项所述的方法,其特征在于,所述根据所述语音情感极性结果和所述语义情感极性结果,获取所述语音信息对应的一个或多个表情信息包括:
对所述语音情感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极性结果;和
根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应的一个或多个表情信息。
6.如权利要求1-4任意一项所述的方法,其特征在于,所述根据所述语音情感极性结果和所述语义情感极性结果,获取所述语音信息对应的一个或多个表情信息包括:
构建超平面Vγ=γV1+(1-γ)V2,其中,V1为所述语音情感极性结果,V2为所述语义情感极性结果,0≤γ≤1;和
获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或多个表情信息。
7.如权利要求1-6任意一项所述的方法,其特征在于,所述方法进一步包括:
根据所述语音情感极性结果和/或所述语义情感极性结果标识所述语音信息的情感类别。
8.如权利要求1-6任意一项所述的方法,其特征在于,所述方法进一步包括:
根据所述语音情感极性结果和/或所述语义情感极性结果提示所述语音消息。
9.如权利要求1-6任意一项所述的方法,其特征在于,所述方法进一步包括:
将所述表情信息***所述语音信息或所述语音信息转换成的文本信息中,或提示用户将所述表情信息***所述语音信息或所述语音信息转换成的文本信息中。
10.如权利要求1-6任意一项所述的方法,其特征在于,所述方法进一步包括:
使用所述表情信息标识联系人或使用所述表情信息表示发送所述语音信息的用户的情绪。
11.如权利要求1-6任意一项所述的方法,其特征在于,所述方法进一步包括:
查询预设的表情信息与动作控制指令的对应关系表,获得所述表情信息对应的动作控制指令,并执行所述动作控制指令。
12.一种信息处理设备,其特征在于,包括:
收发模块,用于接收语音信息;
语音情感极性获取模块,用于获取所述语音信息的语音情感极性结果;
语义情感极性获取模块,用于获取所述语音信息的语义情感极性结果;和
表情信息获取模块,用于根据所述语音情感极性结果和所述语义情感极性结果,获取所述语音信息对应的一个或多个表情信息,其中,所述语音情感极性结果或所述语义情感极性结果为根据所述语音信息产生的,表示一种或多种情感程度的值。
13.如权利要求12所述的设备,其特征在于,所述语音情感极性获取模块具体用于提取所述语音信息中的语音特征和将所述语音特征代入语音情感分类模型获取所述语音情感极性结果。
14.如权利要求12所述的设备,其特征在于,所述语义情感极性获取模块具体用于将所述语音信息转换成文本序列,提取所述文本序列的文本特征和将所述文本特征代入语义情感分类模型获取所述语义情感极性结果。
15.如权利要求12-14任意一项所述的设备,其特征在于,所述表情信息获取模块具体用于对所述语音情感极性结果和所述语义情感极性结果求平均值或加权平均值得到所述语音信息的情感极性结果,并根据所述语音信息的情感极性结果查询表情信息数据库获取所述语音信息对应的一个或多个表情信息。
16.如权利要求12-14任意一项所述的设备,其特征在于,所述表情信息获取模块具体用于构建超平面Vγ=γV1+(1-γ)V2,其中,V1为所述语音情感极性结果,V2为所述语义情感极性结果,0≤γ≤1;并获取所述表情信息数据库中距离所述超平面欧几里得距离由近及远的一个或多个表情信息。
17.如权利要求12-16任意一项所述的设备,其特征在于,所述设备进一步包括:
情感极性结果使用模块:用于根据所述语音情感极性结果和/或所述语义情感极性结果标识所述语音信息的情感类别。
18.如权利要求12-16任意一项所述的设备,其特征在于,所述设备进一步包括:
情感极性结果使用模块:用于根据所述语音情感极性结果和/或所述语义情感极性结果提示所述语音消息。
19.如权利要求12-16任意一项所述的设备,其特征在于,所述设备进一步包括:
表情信息使用模块:用于将所述表情信息***所述语音信息或所述语音信息转换成的文本信息中,或者提示用户将所述表情信息***所述语音信息或所述语音信息转换成的文本信息中。
20.如权利要求12-16任意一项所述的设备,其特征在于,所述设备进一步包括:
表情信息使用模块:用于使用所述表情信息标识联系人,或者使用所述表情信息表示发送所述语音信息的用户的情绪。
21.如权利要求12-16任意一项所述的设备,其特征在于,所述设备进一步包括:
表情信息使用模块:用于查询预设的表情信息与动作控制指令的对应关系表,获得所述表情信息对应的动作控制指令并执行所述动作控制指令。
22.一种信息处理设备,其特征在于,包括:处理器,存储器和通信接口,其中,所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,所述处理器和通信接口用于执行如权利要求1-11任意一项所述的方法。
23.一种计算机可读存储介质,其特征在于,所述存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1-11任意一项所述的方法。
CN201811077551.2A 2018-09-15 2018-09-15 一种语音信息处理的方法和装置 Active CN110910898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811077551.2A CN110910898B (zh) 2018-09-15 2018-09-15 一种语音信息处理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811077551.2A CN110910898B (zh) 2018-09-15 2018-09-15 一种语音信息处理的方法和装置

Publications (2)

Publication Number Publication Date
CN110910898A true CN110910898A (zh) 2020-03-24
CN110910898B CN110910898B (zh) 2022-12-30

Family

ID=69812385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811077551.2A Active CN110910898B (zh) 2018-09-15 2018-09-15 一种语音信息处理的方法和装置

Country Status (1)

Country Link
CN (1) CN110910898B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331209A (zh) * 2020-11-03 2021-02-05 建信金融科技有限责任公司 一种语音转文本的方法、装置、电子设备及可读存储介质
CN113076407A (zh) * 2021-03-22 2021-07-06 联想(北京)有限公司 一种信息处理方法及装置
US11727915B1 (en) * 2022-10-24 2023-08-15 Fujian TQ Digital Inc. Method and terminal for generating simulated voice of virtual teacher

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661569A (zh) * 2009-09-18 2010-03-03 北京科技大学 一种智能情感机器人多模态行为关联表达***
US20100094634A1 (en) * 2008-10-14 2010-04-15 Park Bong-Cheol Method and apparatus for creating face character based on voice
CN101710910A (zh) * 2009-12-09 2010-05-19 深圳华为通信技术有限公司 终端用户情感信息的发送方法及移动终端
CN106024014A (zh) * 2016-05-24 2016-10-12 努比亚技术有限公司 一种语音转换方法、装置及移动终端
CN106372059A (zh) * 2016-08-30 2017-02-01 北京百度网讯科技有限公司 信息输入方法和装置
US20170083506A1 (en) * 2015-09-21 2017-03-23 International Business Machines Corporation Suggesting emoji characters based on current contextual emotional state of user
CN106570106A (zh) * 2016-11-01 2017-04-19 北京百度网讯科技有限公司 一种输入过程中将语音信息转化为表情的方法和装置
CN106782615A (zh) * 2016-12-20 2017-05-31 科大讯飞股份有限公司 语音数据情感检测方法和装置及***
CN106886606A (zh) * 2017-03-21 2017-06-23 联想(北京)有限公司 用于根据用户语音推荐表情的方法和***
CN106910514A (zh) * 2017-04-30 2017-06-30 上海爱优威软件开发有限公司 语音处理方法及***
CN107450746A (zh) * 2017-08-18 2017-12-08 联想(北京)有限公司 一种表情符号的***方法、装置和电子设备
CN107526831A (zh) * 2017-09-04 2017-12-29 华为技术有限公司 一种自然语言处理方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094634A1 (en) * 2008-10-14 2010-04-15 Park Bong-Cheol Method and apparatus for creating face character based on voice
CN101661569A (zh) * 2009-09-18 2010-03-03 北京科技大学 一种智能情感机器人多模态行为关联表达***
CN101710910A (zh) * 2009-12-09 2010-05-19 深圳华为通信技术有限公司 终端用户情感信息的发送方法及移动终端
US20170083506A1 (en) * 2015-09-21 2017-03-23 International Business Machines Corporation Suggesting emoji characters based on current contextual emotional state of user
CN106024014A (zh) * 2016-05-24 2016-10-12 努比亚技术有限公司 一种语音转换方法、装置及移动终端
CN106372059A (zh) * 2016-08-30 2017-02-01 北京百度网讯科技有限公司 信息输入方法和装置
CN106570106A (zh) * 2016-11-01 2017-04-19 北京百度网讯科技有限公司 一种输入过程中将语音信息转化为表情的方法和装置
CN106782615A (zh) * 2016-12-20 2017-05-31 科大讯飞股份有限公司 语音数据情感检测方法和装置及***
CN106886606A (zh) * 2017-03-21 2017-06-23 联想(北京)有限公司 用于根据用户语音推荐表情的方法和***
CN106910514A (zh) * 2017-04-30 2017-06-30 上海爱优威软件开发有限公司 语音处理方法及***
CN107450746A (zh) * 2017-08-18 2017-12-08 联想(北京)有限公司 一种表情符号的***方法、装置和电子设备
CN107526831A (zh) * 2017-09-04 2017-12-29 华为技术有限公司 一种自然语言处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈媛: "《大数据与社会网络》", 31 May 2017, 上海财经大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112331209A (zh) * 2020-11-03 2021-02-05 建信金融科技有限责任公司 一种语音转文本的方法、装置、电子设备及可读存储介质
CN112331209B (zh) * 2020-11-03 2023-08-08 建信金融科技有限责任公司 一种语音转文本的方法、装置、电子设备及可读存储介质
CN113076407A (zh) * 2021-03-22 2021-07-06 联想(北京)有限公司 一种信息处理方法及装置
US11727915B1 (en) * 2022-10-24 2023-08-15 Fujian TQ Digital Inc. Method and terminal for generating simulated voice of virtual teacher

Also Published As

Publication number Publication date
CN110910898B (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
US20210081056A1 (en) Vpa with integrated object recognition and facial expression recognition
CN110265040B (zh) 声纹模型的训练方法、装置、存储介质及电子设备
EP3665676B1 (en) Speaking classification using audio-visual data
WO2017112813A1 (en) Multi-lingual virtual personal assistant
US20200075024A1 (en) Response method and apparatus thereof
EP3424044A1 (en) Modular deep learning model
CN106157956A (zh) 语音识别的方法及装置
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
CN110910898B (zh) 一种语音信息处理的方法和装置
CN112528004B (zh) 语音交互方法、装置、电子设备、介质和计算机程序产品
CN107832720B (zh) 基于人工智能的信息处理方法和装置
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN114429767A (zh) 视频生成方法、装置、电子设备以及存储介质
CN109961152B (zh) 虚拟偶像的个性化互动方法、***、终端设备及存储介质
CN111126084A (zh) 数据处理方法、装置、电子设备和存储介质
US20210166685A1 (en) Speech processing apparatus and speech processing method
CN117152308B (zh) 一种虚拟人动作表情优化方法与***
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
KR20170086233A (ko) 라이프 음성 로그 및 라이프 영상 로그를 이용한 점증적 음향 모델 및 언어 모델 학습 방법
CN112233655A (zh) 一种提高语音命令词识别性能的神经网络训练方法
US20230290371A1 (en) System and method for automatically generating a sign language video with an input speech using a machine learning model
CN112347788A (zh) 语料处理方法、装置及存储介质
CN112017690A (zh) 一种音频处理方法、装置、设备和介质
CN114786059B (zh) 视频生成方法、视频生成装置、电子设备、存储介质
CN107180629B (zh) 一种语音采集识别方法与***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant