CN114740985A - 一种功能调用方法、装置和用于调用功能的装置 - Google Patents

一种功能调用方法、装置和用于调用功能的装置 Download PDF

Info

Publication number
CN114740985A
CN114740985A CN202011541851.9A CN202011541851A CN114740985A CN 114740985 A CN114740985 A CN 114740985A CN 202011541851 A CN202011541851 A CN 202011541851A CN 114740985 A CN114740985 A CN 114740985A
Authority
CN
China
Prior art keywords
user
voice
input
function
input method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011541851.9A
Other languages
English (en)
Inventor
冯静静
陈婷
葛晓娟
鲁剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN202011541851.9A priority Critical patent/CN114740985A/zh
Publication of CN114740985A publication Critical patent/CN114740985A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例公开了一种功能调用方法、装置和用于调用功能的装置。该方法的实施例包括:接收用户输入的语音;对该语音进行解析,确定用户对输入法应用的使用需求;调用输入法应用中与该使用需求相匹配的目标功能。该实施方式能够更便捷地为用户提供其所需的输入法应用中的功能,提高了输入法应用使用过程中的操作效率。

Description

一种功能调用方法、装置和用于调用功能的装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种功能调用方法、装置和用于调用功能的装置。
背景技术
随着计算机技术的发展,输入法应用的功能越来越丰富。例如,输入法应用能够为用户提供内容扩展、语句改写、写作素材推荐、表情推荐、图片推荐、小程序、搜索、翻译等各种各样的功能。
现有技术中,通常需要用户熟知功能入口,并自行查找功能入口以手动触发输入法应用中的功能。然而,面对复杂的输入法应用功能,用户通常无法快速且准确地查找到其所需的功能入口,导致输入法应用使用过程中的操作效率较低。
发明内容
本申请实施例提出了一种功能调用方法、装置和用于调用功能的装置,以解决现有技术中在输入法应用使用过程中操作效率较低的技术问题。
第一方面,本申请实施例提供了一种功能调用方法,该方法包括:接收用户输入的语音;对所述语音进行解析,确定所述用户对所述输入法应用的使用需求;调用所述输入法应用中与所述使用需求相匹配的目标功能。
在一些实施例中,所述接收用户输入的语音,包括:在检测到用户触发输入法应用的对话功能后,接收用户输入的语音。
在一些实施例中,在检测到用户触发输入法应用的对话功能后,所述方法还包括:基于所述用户的输入相关信息,生成建议信息;显示语音面板,并在所述语音面板中显示所述建议信息,所述建议信息用于向用户提供语音输入建议。
在一些实施例中,在检测到用户触发输入法应用的对话功能后,所述方法还包括:显示语音面板,并在所述语音面板中显示任一预置的建议信息,所述建议信息用于向用户提供语音输入建议。
在一些实施例中,所述对所述语音进行解析,确定所述用户对所述输入法应用的使用需求,包括:将所述语音转换为文本;基于所述文本,确定所述用户对所述输入法应用的使用需求。
在一些实施例中,所述方法还包括:若所述使用需求获取成功,则基于所述使用需求生成提示信息,并显示所述提示信息或者语音输出所述提示信息。
在一些实施例中,所述方法还包括:若所述使用需求获取失败,则显示默认信息或者语音输出所述默认信息,所述默认信息用于指示语音指令获取失败。
在一些实施例中,在确定所述用户对所述输入法应用的使用需求之后,所述方法还包括:显示所述输入法应用中与所述使用需求相匹配的目标功能的入口;或者,显示所述输入法应用中与所述使用需求相匹配的目标功能的介绍信息。
在一些实施例中,在调用所述输入法应用中与所述使用需求相匹配的目标功能之后,所述方法还包括:在输入法界面中呈现所述目标功能的调用结果;在用户触发所述调用结果的情况下,执行与所述调用结果的展现形式相匹配的操作。
在一些实施例中,所述调用结果的展现形式包括以下至少一项:文本、图像、表情、链接、动画、页面、视频、语音。
在一些实施例中,所述操作包括以下至少一项:上屏所述调用结果、发送所述调用结果、将所述用户的输入内容替换为所述调用结果、基于所述调用结果进行页面跳转、播放所述调用结果。
在一些实施例中,所述使用需求包括以下至少一项:内容扩写需求、语句改写需求、写作素材需求、表情推荐需求、图片推荐需求、小程序调用需求、搜索需求、翻译需求、应用设置需求。
第二方面,本申请实施例提供了一种功能调用装置,该装置包括:接收单元,被配置成接收用户输入的语音;解析单元,被配置成对所述语音进行解析,确定所述用户对所述输入法应用的使用需求;调用单元,被配置成调用所述输入法应用中与所述使用需求相匹配的目标功能。
在一些实施例中,所述接收单元,进一步被配置成:在检测到用户触发输入法应用的对话功能后,接收用户输入的语音。
在一些实施例中,所述装置还包括第一显示单元,被配置成:基于所述用户的输入相关信息,生成建议信息;显示语音面板,并在所述语音面板中显示所述建议信息,所述建议信息用于向用户提供语音输入建议。
在一些实施例中,所述装置还包括第二显示单元,被配置成:显示语音面板,并在所述语音面板中显示任一预置的建议信息,所述建议信息用于向用户提供语音输入建议。
在一些实施例中,所述解析单元,进一步被配置成:将所述语音转换为文本;基于所述文本,确定所述用户对所述输入法应用的使用需求。
在一些实施例中,所述装置还包括第三显示单元,被配置成:若所述使用需求获取成功,则基于所述使用需求生成提示信息,并显示所述提示信息或者语音输出所述提示信息。
在一些实施例中,所述装置还包括第四显示单元,被配置成:若所述使用需求获取失败,则显示默认信息或者语音输出所述默认信息,所述默认信息用于指示语音指令获取失败。
在一些实施例中,所述装置还包括第五显示单元,被配置成:显示所述输入法应用中与所述使用需求相匹配的目标功能的入口;或者,显示所述输入法应用中与所述使用需求相匹配的目标功能的介绍信息。
在一些实施例中,所述装置还包括第六显示单元,被配置成:在输入法界面中呈现所述目标功能的调用结果;在用户触发所述调用结果的情况下,执行与所述调用结果的展现形式相匹配的操作。
在一些实施例中,所述调用结果的展现形式包括以下至少一项:文本、图像、表情、链接、动画、页面、视频、语音。
在一些实施例中,所述操作包括以下至少一项:上屏所述调用结果、发送所述调用结果、将所述用户的输入内容替换为所述调用结果、基于所述调用结果进行页面跳转、播放所述调用结果。
在一些实施例中,所述使用需求包括以下至少一项:内容扩写需求、语句改写需求、写作素材需求、表情推荐需求、图片推荐需求、小程序调用需求、搜索需求、翻译需求、应用设置需求。
第三方面,本申请实施例提供了一种用于调用功能的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令:接收用户输入的语音;对所述语音进行解析,确定所述用户对所述输入法应用的使用需求;调用所述输入法应用中与所述使用需求相匹配的目标功能。
在一些实施例中,所述接收用户输入的语音,包括:在检测到用户触发输入法应用的对话功能后,接收用户输入的语音。
在一些实施例中,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:基于所述用户的输入相关信息,生成建议信息;显示语音面板,并在所述语音面板中显示所述建议信息,所述建议信息用于向用户提供语音输入建议。
在一些实施例中,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:显示语音面板,并在所述语音面板中显示任一预置的建议信息,所述建议信息用于向用户提供语音输入建议。
在一些实施例中,所述对所述语音进行解析,确定所述用户对所述输入法应用的使用需求,包括:将所述语音转换为文本;基于所述文本,确定所述用户对所述输入法应用的使用需求。
在一些实施例中,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:若所述使用需求获取成功,则基于所述使用需求生成提示信息,并显示所述提示信息或者语音输出所述提示信息。
在一些实施例中,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:若所述使用需求获取失败,则显示默认信息或者语音输出所述默认信息,所述默认信息用于指示语音指令获取失败。
在一些实施例中,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:显示所述输入法应用中与所述使用需求相匹配的目标功能的入口;或者,显示所述输入法应用中与所述使用需求相匹配的目标功能的介绍信息。
在一些实施例中,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:在输入法界面中呈现所述目标功能的调用结果;在用户触发所述调用结果的情况下,执行与所述调用结果的展现形式相匹配的操作。
在一些实施例中,所述调用结果的展现形式包括以下至少一项:文本、图像、表情、链接、动画、页面、视频、语音。
在一些实施例中,所述操作包括以下至少一项:上屏所述调用结果、发送所述调用结果、将所述用户的输入内容替换为所述调用结果、基于所述调用结果进行页面跳转、播放所述调用结果。
在一些实施例中,所述使用需求包括以下至少一项:内容扩写需求、语句改写需求、写作素材需求、表情推荐需求、图片推荐需求、小程序调用需求、搜索需求、翻译需求、应用设置需求。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所描述的方法。
本申请实施例提供的功能调用方法、装置和用于调用功能的装置,通过接收用户输入的语音,之后对该语音进行解析以确定用户对输入法应用的使用需求,最后调用输入法应用中与该使用需求相匹配的目标功能,由此,能够通过语音对话方式智能化地识别出用户所需使用的输入法功能,无需用户熟记及手动查找功能入口,甚至无需用户知晓功能名称,可在任意条件下方便快捷地调用其所需的功能,提高了输入法应用中的功能查找及使用的便捷性,从而提高了输入法应用使用过程中的操作效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是根据本申请的功能调用方法的一个实施例的流程图;
图2是根据本申请的功能调用方法的显示有建议信息的界面示意图;
图3是根据本申请的功能调用方法的输入语音后的界面变化示意图;
图4是根据本申请的功能调用方法的调用结果呈现过程的示意图;
图5是根据本申请的功能调用方法的又一个实施例的流程图;
图6是根据本申请的功能调用装置的一个实施例的结构示意图;
图7是根据本申请的一种用于调用功能的装置的结构示意图;
图8是根据本申请的一些实施例中服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
请参考图1,其示出了根据本申请的功能调用方法的一个实施例的流程100。上述功能调用方法可运行于各种电子设备,上述电子设备包括但不限于:服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
本申请实施例中所提到的输入法应用能够支持多种输入法。其中,输入法可以是一种为了将各种符号输入到如计算机、手机等电子设备而采用的编码方法,用户可以使用输入法应用便利地将需要的字符或者字符串输入电子设备。需要注意的是,在本申请实施例中输入法除了支持常见的中文输入法(比如拼音输入法、五笔输入法、注音输入法、语音输入法、手写输入法等)以外,还可以支持其他语种的输入法(比如英文输入法、日文平假名输入法、韩文输入法等),在此不对输入法以及输入法的语言种类做任何限定。
本实施例中的功能调用方法,可以包括以下步骤:
步骤101,接收用户输入的语音。
在本实施例中,功能调用方法的执行主体(如上述电子设备)中可以安装输入法应用,输入法应用可以支持语音输入。上述执行主体可以通过输入法应用接收用户输入的语音。例如,可在检测到用户触发输入法应用的一些语音相关功能后,通过输入法应用接收用户输入的语音。
在一些可选的实施例中,输入法应用可配置有对话功能。对话功能能够识别用户输入的语音,且能够基于该语音向用户反馈相关信息或执行相关操作。在检测到用户触发输入法应用的对话功能后,上述执行主体可以接收用户输入的语音。实践中,对话功能可以通过多种方式触发。
作为示例,输入法界面中可以显示有含键盘区域和各种功能按键等,如语音输入功能按键、小程序功能按键、搜索功能按键、表情输入功能按键、扩写功能按键、对话功能按键等。每一个按键对应输入法应用中的一种功能。当用户触发(如点击)对话功能按键后,即可触发输入法应用的对话功能。上述对话功能按键可以以各种样式显示,本实施例对扩写功能按键的样式及位置不作限定。
作为又一示例,输入法界面中可以显示有一综合按键。该综合按键可基于触发方式的不同对应不同的功能。例如,在点击该综合按键时,可触发内容扩写功能;在长按该综合按键时,可触发对话功能;在双击该综合按键时,可触发设置功能等。本实施例对综合按键的样式及位置不作限定。
作为再一示例,还可通过某一语音指令触发对话功能。该语音指令可以是固定的语音指令,也可以是由用户预先配置的个性化的语音指令。例如,每当用户说出“hello,汪仔”时,可自动触发对话功能。
可以理解的是,输入法应用的对话功能还可根据其他方式触发,不限于上述列举。
在一些可选的实施例中,在检测到用户触发输入法应用的对话功能后,上述执行主体还可以呈现一个对话面板。该对话面板可以位于输入法界面中的某一固定区域,也可由用户拖动至输入法界面内部或外部的其他区域。在用户输入语音的过程中,上述执行主体可以采用语音识别技术(Automatic Speech Recognition,ASR)实时地将所接收到的语音转换为文本,并在该对话面板中显示转换后的文本。由此可便于用户得知输入法应用是否准确识别出语音,从而用户能够基于语音识别结果调整语音输入速度、语调、吐字清晰度等。
在一些可选的实施例中,在检测到用户触发输入法应用的对话功能后,上述执行主体还可以在语音面板中显示建议信息,以向用户提供语音输入建议。
在一些可选的实现方式中,上述建议信息可以预先设置。例如,可在输入法应用中预置一个或多个语句作为建议信息。如“您可以说:给我一个表情包”、“您可以说:帮我撩人”、“您可以说:怎样描写XX”等、“您可以尝试这样说:生日祝福怎么写”、“您可以这样说:如何启用XX功能”等。在检测到用户触发输入法应用的对话功能后,可以展现语音面板,并可以选取(如随机选取、按预设顺序选取等)其中一个预置的建议信息,将其显示于语音面板中。
在另一些实现方式中,上述建议信息也可以基于用户的输入相关信息实时生成。此时,在检测到用户触发输入法应用的对话功能后,上述执行主体可以首先获取用户的输入相关信息,而后基于输入相关信息生成建议信息。最后,可显示语音面板,并在语音面板中显示该建议信息。其中,输入相关信息可包括但不限于用户输入的内容、对端用户发送的内容、上下文内容、输入场景等信息。上述执行主体可基于其中的一项或多项生成建议信息。
作为示例,首先可从用户输入的内容、对端用户发送的内容、上下文内容中的一项或多项中提取关键词,如“雪花”。而后,可获取默认语句模板,如“您可以这样说:如何描写XX”,其中“XX”为关键词的位置。之后,可将该关键词与默认语句模板相结合,得到建议信息,如“您可以这样说:如何描写雪花”。
作为又一示例,上述执行主体中可以预先部署有语义理解模型。该语义理解模型可以是现有的语义理解模型,也可通过机器学习方法训练得到,还可以是对现实语义理解模型进行再训练后得到,此处不作具体限定。上述执行主体可以将输入相关信息输入至该语义理解模型,得到该语义理解模型输出的文本,并基于该文本得到建议信息。参见图2,输入相关信息中包括用户输入的内容“老婆我错了”,此时可通过语义模型得到文本“向老婆道歉”,从而得到建议信息:例如这样对汪仔说:“怎么给老婆道歉”。
步骤102,对语音进行解析,确定用户对输入法应用的使用需求。
在本实施例中,上述执行主体可以通过语义识别和理解技术,对所接收到的语音进行解析,以确定用户对输入法应用的使用需求。其中,使用需求可以是针对输入法应用可提供的任一功能的使用需求。具体可以包括但不限于以下至少一项:内容扩写需求、语句改写需求、写作素材需求、表情推荐需求、图片推荐需求、小程序调用需求、搜索需求、翻译需求、应用设置需求。
在一些可选的实施例中,上述执行主体可以首先将语音转换为文本,而后基于该文本确定用户对输入法应用的使用需求。具体地,可以采用自然语言处理技术对该文本进行语义识别和理解后,得到用户对输入法应用的使用需求。例如,可将该文本输入至预先训练的需求预测模型,得到用户针对输入法应用的使用需求。该需求预测模型可基于机器学习方法(如有监督学习方法)预先训练得到。其中,训练预测模型所使用的基础模型可以是BERT(Bidirectional Encoder Representations from Transformer,基于转换器的双向编码器表征)模型等能够进行文本特征提取及分类的模型。
在训练预测模型的过程中,可以逐一地将样本文本输入至模型中,得到模型输出的预测结果。而后,可以基于预测结果与所输入的样本文本的标注,确定模型的损失值。上述损失值为损失函数(loss function)的值,损失函数是一个非负实值函数,可以用于表征检测结果与真实结果的差异。一般情况下,损失值越小,模型的鲁棒性就越好。损失函数可以根据实际需求来设置,此处不作限定。之后,可以利用该损失值,更新模型的参数。由此,每输入一次样本文本,可以基于该样本文本对应的损失值,对模型的参数进行一次更新,直至训练完成。训练完成后的模型,即为需求预测模型。
需要说明的是,本申请实施例不限于仅依据语音转换后的文本确定使用需求,还可结合用户的输入相关信息(如输入的内容、上下文内容等)确定使用需求。例如,可同时将输入相关信息和上述文本输入至需求预测模型,确定用户对输入法应用的使用需求。
在一些可选的实施例中,若使用需求获取成功,则可以基于该使用需求生成提示信息。该提示信息可以是文本形式,也可以是语音形式。当提示信息为文本形式时,可在对话界面中直接显示。当提示信息为语音形式时,可通过扬声器播放。上述语音信息可提示用户语音指令是否成功获得。作为示例,图3示出了输入语音后的界面变化示意图。当用户输入“怎么给老婆道歉”的语音后,对话面板中呈现有:指令get!智能汪仔正在生成“给老婆道歉”的提示信息。
在一些可选的实施例中,若使用需求获取失败,则可以显示默认信息或者语音输出默认信息,默认信息用于指示语音指令获取失败。例如“抱歉,汪仔没听懂你的意思呢”。由此可便于用户重新进行语音输入或退出对话面板。
在一些可选的实施例中,在确定用户对输入法应用的使用需求之后,上述执行主体可以显示输入法应用中与该使用需求相匹配的目标功能的入口;或者,显示输入法应用中与使用需求相匹配的目标功能的介绍信息,如使用技巧、触发方式信息等。
例如,若用户的使用需求是内容扩写需求,则可以显示内容扩写功能的触发方式信息。若用户的使用需求是手写键盘,则可以显示手写键盘的使用方法信息等。需要说明的是,在确定出使用需求后,还可以显示与该使用需求相匹配的目标功能的其他相关信息,不限于上述示例。
步骤103,调用输入法应用中与使用需求相匹配的目标功能。
在本实施例中,在确定出用户针对输入法应用的使用需求后,上述执行主体可以调用输入法应用中与使用需求相匹配的目标功能。其中,使用需求与输入法应用中的功能可以一一对应,且二者的对应关系可以预先存储。
在一些可选的实施例中,在调用输入法应用中与所述使用需求相匹配的目标功能之后,上述执行主体可以展示该功能的调用结果。作为示例,图4示出了调用结果呈现过程的示意图。如图4所示,用户在输入了“怎么给老婆道歉”的语音内容。上述执行主体可识别出用户针对输入法应用的使用需求为内容扩写需求,并可将内容扩写功能作为目标功能,从而调用内容扩写功能,得到扩写后的内容“老婆我错了,我错了!娘子温柔娴淑,持家有道,知书达理…”。
作为又一示例,用户在输入了“香蕉皮属于什么垃圾”的语音内容后,上述执行主体可识别出用户针对输入法应用的使用需求为垃圾分类小程序的使用需求,并可将垃圾分类小程序作为目标功能,从而调用垃圾分类小程序,如启动垃圾分类小程序、提供垃圾分类小程序的跳转链接、或者启用垃圾分类小程序并在该小程序内搜索“香蕉皮属于什么垃圾”,以得到识别结果。
作为再一示例,用户在输入了“切换为英文键盘”的语音内容后,上述执行主体可识别出用户针对输入法应用的使用需求为英文键盘切换需求,并可英文键盘作为目标功能,从而直接将当前的键盘切换为英文键盘。
由此,通过输入法应用的语音对话功能即可识别及调用用户所需的输入法功能,无需用户熟记及手动查找功能入口,且无需检测用户当前的输入内容是否满足某些调用条件,可在任意条件下进行功能调用,由此提高了输入法应用中的功能查找及使用的便捷性。
本申请的上述实施例提供的方法,通过在检测到用户触发输入法应用的对话功能后,接收用户输入的语音,之后对该语音进行解析以确定用户对输入法应用的使用需求,最后调用输入法应用中与该使用需求相匹配的目标功能,由此,能够通过语音对话方式智能化地识别出用户所需使用的输入法功能,无需用户熟记及手动查找功能入口,甚至无需用户知晓功能名称,可在任意条件下方便快捷地调用其所需的功能,提高了输入法应用中的功能查找及使用的便捷性,从而提高了输入法应用使用过程中的操作效率。
进一步参考图5,其示出了功能调用方法的又一个实施例的流程500。该功能调用方法的流程500,包括以下步骤:
步骤501,在检测到用户触发输入法应用的对话功能后,接收用户输入的语音。
在本实施例中,功能调用方法的执行主体中可以安装有输入法应用,输入法应用可以配置有对话功能。对话功能能够识别用户输入的语音且能够基于该语音向用户反馈相应的信息或者执行相应的操作。在检测到用户触发输入法应用的对话功能后,上述执行主体可以接收用户输入的语音。
本实施例的步骤501可参见图1对应实施例的步骤101,此处不再赘述。
步骤502,对语音进行解析,确定用户对输入法应用的使用需求。
在本实施例中,上述执行主体可以首先将语音转换为文本,而后基于该文本确定用户对输入法应用的使用需求。例如,可将该文本输入至预先训练的需求预测模型,得到用户针对输入法应用的使用需求。该需求预测模型可基于机器学习方法(如有监督学习方法)预先训练得到。
上述使用需求可包括但不限于以下至少一项:内容扩写需求、语句改写需求、写作素材需求、表情推荐需求、图片推荐需求、小程序调用需求、搜索需求、翻译需求、应用设置需求。
本实施例的步骤502可参见图1对应实施例的步骤102,此处不再赘述。
步骤503,调用输入法应用中与使用需求相匹配的目标功能。
在本实施例中,在确定出用户针对输入法应用的使用需求后,上述执行主体可以调用输入法应用中与该使用需求相匹配的目标功能。其中,使用需求与输入法应用中的功能可以一一对应,且二者的对应关系可以预先存储。上述目标功能可包括但不限于以下至少一项:内容扩写功能、语句改写功能、写作素材功能、表情推荐功能、图片推荐功能、小程序调用功能、搜索功能、翻译功能、应用设置功能。
本实施例的步骤503可参见图1对应实施例的步骤103,此处不再赘述。
步骤504,在输入法界面中呈现目标功能的调用结果。
在本实施例中,上述执行主体可以在输入法界面中呈现目标功能的调用结果。其中,对于类型的目标功能,调用结果可以的展现形式可以不同。例如,调用结果可以的展现形式可以包括但不限于文本、图像、表情、链接、动画、页面、视频、语音等等。
作为示例,如图4所示,目标功能为内容扩写功能,则调用内容扩写功能后可得到文本形式的内容扩写结果,如“老婆我错了,我错了!娘子温柔娴淑,持家有道,知书达理…”。该结果可展示于输入法界面中的内容扩写面板中。实践中,可将对话面板直接切换为内容扩写面板,从而在内容扩写面板中进行内容扩写结果的展示。
作为又一示例,目标功能为垃圾分类小程序,则调用垃圾分类小程序后,可得到页面形式或者跳转链接形式的调用结果,即,可直接呈现垃圾分类小程序的首页,也可以呈现垃圾分类小程序的跳转链接。
步骤505,在用户触发调用结果的情况下,执行与调用结果的展现形式相匹配的操作。
在本实施例中,在用户触发(如点击)调用结果的情况下,上述执行主体可以执行与调用结果的展现形式相匹配的操作。
作为示例,当调用结果为文本、图像、表情等可输入的内容时,在用户触发调用结果的情况下,上述执行主体可以上屏该调用结果,也可以发送该调用结果,还可以将用户的输入内容替换为该调用结果。以图4为例,当用户点击内容扩写结果后,即可将用户当前输入的内容“老婆我错了”替换为内容扩写结果“老婆我错了,我错了!娘子温柔娴淑,持家有道,知书达理…”。
作为又一示例,调用结果为链接等形式时,在用户触发调用结果的情况下,上述执行主体可以跳转至该链接所指示的页面。
作为再一示例,调用结果为语音、视频或动画等形式时,在用户触发调用结果的情况下,上述执行主体可以播放该调用结果。
需要说明的是,调用结果的展现形式以及针对调用结果的操作还可以根据需要进行其他设定,不限于以上示例。
从图5中可以看出,与图1对应的实施例相比,本实施例中的功能调用方法的流程500涉及了在输入法界面中呈现目标功能的调用结果,并在用户触发调用结果的情况下,基于调用结果的展现形式,执行相应操作的步骤。由此,能够通过语音对话方式智能化地识别出用户所需使用的输入法功能并直接显示该功能的执行结果,进一步提高了输入法应用中的功能查找及使用的便捷性,从而进一步提高了输入法应用使用过程中的操作效率。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种功能调用装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例上述的功能调用装置600包括:接收单元601,被配置成接收用户输入的语音;解析单元602,被配置成对上述语音进行解析,确定上述用户针对上述输入法应用的使用需求;调用单元603,被配置成调用上述输入法应用中与上述使用需求相匹配的目标功能。
在本实施例的一些可选的实现方式中,上述接收单元601,进一步被配置成:在检测到用户触发输入法应用的对话功能后,接收用户输入的语音。
在本实施例的一些可选的实现方式中,上述装置还包括:第一显示单元,被配置成基于上述用户的输入相关信息,生成建议信息;显示语音面板,并在上述语音面板中显示上述建议信息,上述建议信息用于向用户提供语音输入建议。
在本实施例的一些可选的实现方式中,上述装置还包括:第二显示单元,被配置成显示语音面板,并在上述语音面板中显示任一预置的建议信息,上述建议信息用于向用户提供语音输入建议。
在本实施例的一些可选的实现方式中,上述解析单元602,进一步被配置成:将上述语音转换为文本;基于上述文本确定上述用户针对上述输入法应用的使用需求。
在本实施例的一些可选的实现方式中,上述装置还包括:第三显示单元,被配置成若上述使用需求获取成功,则基于上述使用需求生成提示信息,并显示上述提示信息或者语音输出上述提示信息。
在本实施例的一些可选的实现方式中,上述装置还包括:第四显示单元,被配置成若上述使用需求获取失败,则显示默认信息或者语音输出上述默认信息,上述默认信息用于指示语音指令获取失败。
在本实施例的一些可选的实现方式中,上述装置还包括:第五显示单元,被配置成:显示所述输入法应用中与所述使用需求相匹配的目标功能的入口;或者,显示所述输入法应用中与所述使用需求相匹配的目标功能的介绍信息。
在本实施例的一些可选的实现方式中,上述装置还包括:第六显示单元,被配置成在输入法界面中呈现上述目标功能的调用结果;在用户触发上述调用结果的情况下,执行与上述调用结果的展现形式相匹配的操作。
在本实施例的一些可选的实现方式中,上述调用结果的展现形式包括以下至少一项:文本、图像、表情、链接、动画、页面、视频、语音。
在本实施例的一些可选的实现方式中,上述操作包括以下至少一项:上屏上述调用结果、发送上述调用结果、将上述用户的输入内容替换为上述调用结果、基于上述调用结果进行页面跳转、播放上述调用结果。
在本实施例的一些可选的实现方式中,上述使用需求包括以下至少一项:内容扩写需求、语句改写需求、写作素材需求、表情推荐需求、图片推荐需求、小程序调用需求、搜索需求、翻译需求、应用设置需求。
本申请的上述实施例提供的装置,通过在检测到用户触发输入法应用的对话功能后,接收用户输入的语音,之后对该语音进行解析以确定用户对输入法应用的使用需求,最后调用输入法应用中与该使用需求相匹配的目标功能,由此,能够通过语音对话方式智能化地识别出用户所需使用的输入法功能,无需用户熟记及手动查找功能入口,甚至无需用户知晓功能名称,可在任意条件下方便快捷地调用其所需的功能,提高了输入法应用中的功能查找及使用的便捷性,从而提高了输入法应用使用过程中的操作效率。
图7是根据一示例性实施例示出的用于输入的装置700的框图,该装置700可以为智能终端或者服务器。例如,装置700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口712,传感器组件714,以及通信组件716。
处理组件702通常控制装置700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理***,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。
多媒体组件708包括在上述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与上述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件714可以检测到设备700的打开/关闭状态,组件的相对定位,例如上述组件为装置700的显示器和小键盘,传感器组件714还可以检测装置700或装置700一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,上述通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由装置700的处理器720执行以完成上述方法。例如,上述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是本申请的一些实施例中服务器的结构示意图。该服务器800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器800上执行存储介质830中的一系列指令操作。
服务器800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,一个或一个以上键盘856,和/或,一个或一个以上操作***841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当上述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时,使得装置能够执行一种功能调用方法,上述方法包括接收用户输入的语音;对所述语音进行解析,确定所述用户对所述输入法应用的使用需求;调用所述输入法应用中与所述使用需求相匹配的目标功能。
可选的,所述接收用户输入的语音,包括:在检测到用户触发输入法应用的对话功能后,接收用户输入的语音。
可选的,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:基于所述用户的输入相关信息,生成建议信息;显示语音面板,并在所述语音面板中显示所述建议信息,所述建议信息用于向用户提供语音输入建议。
可选的,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:显示语音面板,并在所述语音面板中显示任一预置的建议信息,所述建议信息用于向用户提供语音输入建议。
可选的,所述对所述语音进行解析,确定所述用户对所述输入法应用的使用需求,包括:将所述语音转换为文本;基于所述文本确定所述用户对所述输入法应用的使用需求。
可选的,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:若所述使用需求获取成功,则基于所述使用需求生成提示信息,并显示所述提示信息或者语音输出所述提示信息。
可选的,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:若所述使用需求获取失败,则显示默认信息或者语音输出所述默认信息,所述默认信息用于指示语音指令获取失败。
可选的,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:显示所述输入法应用中与所述使用需求相匹配的目标功能的入口;或者,显示所述输入法应用中与所述使用需求相匹配的目标功能的介绍信息。
可选的,所述装置经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:在输入法界面中呈现所述目标功能的调用结果;在用户触发所述调用结果的情况下,执行与所述调用结果的展现形式相匹配的操作。
可选的,所述调用结果的展现形式包括以下至少一项:文本、图像、表情、链接、动画、页面、视频、语音。
可选的,所述操作包括以下至少一项:上屏所述调用结果、发送所述调用结果、将所述用户的输入内容替换为所述调用结果、基于所述调用结果进行页面跳转、播放所述调用结果。
可选的,所述使用需求包括以下至少一项:内容扩写需求、语句改写需求、写作素材需求、表情推荐需求、图片推荐需求、小程序调用需求、搜索需求、翻译需求、应用设置需求。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
以上上述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
以上对本申请所提供的一种功能调用方法、装置和一种用于调用功能的装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种功能调用方法,其特征在于,所述方法包括:
接收用户输入的语音;
对所述语音进行解析,确定所述用户对所述输入法应用的使用需求;
调用所述输入法应用中与所述使用需求相匹配的目标功能。
2.根据权利要求1所述的方法,其特征在于,所述接收用户输入的语音,包括:
在检测到用户触发输入法应用的对话功能后,接收用户输入的语音。
3.根据权利要求2所述的方法,其特征在于,在检测到用户触发输入法应用的对话功能后,所述方法还包括:
基于所述用户的输入相关信息,生成建议信息;
显示语音面板,并在所述语音面板中显示所述建议信息,所述建议信息用于向用户提供语音输入建议。
4.根据权利要求2所述的方法,其特征在于,在检测到用户触发输入法应用的对话功能后,所述方法还包括:
显示语音面板,并在所述语音面板中显示任一预置的建议信息,所述建议信息用于向用户提供语音输入建议。
5.根据权利要求1所述的方法,其特征在于,所述对所述语音进行解析,确定所述用户对所述输入法应用的使用需求,包括:
将所述语音转换为文本;
基于所述文本,确定所述用户对所述输入法应用的使用需求。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述使用需求获取成功,则基于所述使用需求生成提示信息,并显示所述提示信息或者语音输出所述提示信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述使用需求获取失败,则显示默认信息或者语音输出所述默认信息,所述默认信息用于指示语音指令获取失败。
8.一种功能调用装置,其特征在于,所述装置包括:
接收单元,被配置成接收用户输入的语音;
解析单元,被配置成对所述语音进行解析,确定所述用户对所述输入法应用的使用需求;
调用单元,被配置成调用所述输入法应用中与所述使用需求相匹配的目标功能。
9.一种用于调用功能的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收用户输入的语音;
对所述语音进行解析,确定所述用户对所述输入法应用的使用需求;
调用所述输入法应用中与所述使用需求相匹配的目标功能。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202011541851.9A 2020-12-23 2020-12-23 一种功能调用方法、装置和用于调用功能的装置 Pending CN114740985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011541851.9A CN114740985A (zh) 2020-12-23 2020-12-23 一种功能调用方法、装置和用于调用功能的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011541851.9A CN114740985A (zh) 2020-12-23 2020-12-23 一种功能调用方法、装置和用于调用功能的装置

Publications (1)

Publication Number Publication Date
CN114740985A true CN114740985A (zh) 2022-07-12

Family

ID=82273786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011541851.9A Pending CN114740985A (zh) 2020-12-23 2020-12-23 一种功能调用方法、装置和用于调用功能的装置

Country Status (1)

Country Link
CN (1) CN114740985A (zh)

Similar Documents

Publication Publication Date Title
CN107632980B (zh) 语音翻译方法和装置、用于语音翻译的装置
CN111831806B (zh) 语义完整性确定方法、装置、电子设备和存储介质
CN107291704B (zh) 处理方法和装置、用于处理的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
EP3790001B1 (en) Speech information processing method, device and storage medium
CN111898388A (zh) 视频字幕翻译编辑方法、装置、电子设备及存储介质
CN111368541A (zh) 命名实体识别方法及装置
CN108628819B (zh) 处理方法和装置、用于处理的装置
CN114154459A (zh) 语音识别文本处理方法、装置、电子设备及存储介质
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
CN111369978A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN111414772A (zh) 一种机器翻译方法、装置及介质
CN112036174A (zh) 一种标点标注方法及装置
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
CN112948565A (zh) 人机对话方法、装置、电子设备及存储介质
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
CN111667829B (zh) 信息处理方法及装置、存储介质
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN113591495A (zh) 语音翻译方法、装置及存储介质
CN114740985A (zh) 一种功能调用方法、装置和用于调用功能的装置
CN113515618A (zh) 语音处理方法、装置和介质
CN113409766A (zh) 一种识别方法、装置、用于识别的装置及语音合成方法
US20230196001A1 (en) Sentence conversion techniques
CN114661172A (zh) 一种指令响应方法、装置和用于响应指令的装置
CN111381688B (zh) 实时转录的方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination