CN116243804A - 一种语音控制键盘 - Google Patents
一种语音控制键盘 Download PDFInfo
- Publication number
- CN116243804A CN116243804A CN202211558374.6A CN202211558374A CN116243804A CN 116243804 A CN116243804 A CN 116243804A CN 202211558374 A CN202211558374 A CN 202211558374A CN 116243804 A CN116243804 A CN 116243804A
- Authority
- CN
- China
- Prior art keywords
- voice
- keyboard
- module
- command
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 10
- 230000001960 triggered effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 7
- 238000011161 development Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/0227—Cooperation and interconnection of the input arrangement with other functional units of a computer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
一种语音控制键盘,能够进行语音输入和语音操控,支持用户进行语音命令定制,还可以根据声纹识别对现场多人同时录音并自动辨别声音主体。该键盘通过语音命令定制,使用户的人机交互更加简化;并通过语音主体的自动识别,进一步提高了人机之间的自动化语音交互能力。
Description
技术领域
本公开涉及语音交互技术领域,具体涉及一种语音控制键盘。
背景技术
目前,通常的键盘显然已以满足不同人群和不同使用场合的人机交互需求,随着语音识别技术的发展,语音输入控制键盘开始出现,但目前的这类键盘的功能还主要在于实现用语音替代普通键盘的输入功能上,但事实上键盘作为一个独立的硬件,还可以实现更多便捷的人机交互功能。
发明内容
本公开提供一种语音控制键盘,其能够实现对语音指令和语音输入进行识别的同时,还能够实现对声音主体的辨别;以及语音指令的定制,实现更加便捷的办公。
本公开提供的语音控制键盘,包括:主板,壳体,以及驱动模块,其中:
所述壳体上设有文字字符输入按键和操控按键,包括用于进入语音录入模式的按键,和/或进入语音操控模式的按键;
所述主板中运行的功能模块包括:
键盘控制识别模块,用于识别各类按键的输入;
语音综合处理模块,用于接收语音,进行语音信号预处理;
语音识别模块,用于进行语音识别,并结合操控按键的输入,将语音信号转换为语音命令或文字;
所述驱动模块,用于键盘和主机的通讯,提供语音转文字结果选择工具,以及语音命令的执行。
进一步的,所述驱动模块包括:语音命令定制与启动子模块,用于:录制用户的鼠标键盘操作、或获取用户编辑好的脚本命令文件、或设置要启动的可执行文件,将其定义为简单的语音名令;根据用户输入的语音命令,启动对应的可执行文件、录制的键鼠操作或脚本命令。
进一步的,所述壳体上设有控制进入录音模式的操控按键;
所述键盘带有硬件存储部件,用于对录制的语音和识别结果进行暂存;
所述驱动模块将暂存的录制语音和识别结果传输至主机保存。
进一步的,所述语音综合处理模块还用于对接收到的语音进行声纹区分,以辨别不同的声音主体。
进一步的,所述硬件存储部件还用于保存键盘主板运行的操作***数据,以防止异常断电。
一种应用上述键盘进行多人现场录音的方法,包括以下步骤:
通过操控按键或语音名令,进入录音模式;
语音综合处理模块对提取到的语音信号进行声纹特征提取,辨别不同的声音主体,对语音进行标记;
把标记声纹特征后的语音,送给语音识别模块进行识别;
语音识别模块输出不同语音主体的语音识别结果,生成对应的文字文档;
录音时,将音频和识别结果同步暂存在键盘硬件存储部件中,录音完成后,去除音频中的背景噪音,经由驱动模块保存至主机。
一种应用上述键盘进行语音命令定制与启动的方法,包括:
利用键盘驱动提供的工具:对键盘鼠标的系列操作进行录制,并以语音命令词进行标注;或者选中用户编辑好的所需要的脚本命令文件,标记为语音命令词;或者设置语音命令词对应的可执行文件;
当识别到用户输入了语音命令时,触发对应的键盘鼠标操作、脚本命令或可执行文件。
与现有技术相比,本公开的有益效果是:(1)能够进行同一现场的多人录音且自动区分声音主体;(2)通过语音命令定制,使用户的人机交互更加简化;(3)设置硬件存储部件,提高了对数据和语音的缓存能力。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例方式中,相同的参考标号通常代表相同部件。
图1显示根据本公开的示例性键盘结构示意图;
图2为示例性键盘壳体上的按键分布。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本公开提供了一种可以语音输入控制的键盘,能够进行语音输入和语音操控。根据本公开的示例性实施例如附图1所示,包括:主板、键盘壳体,以及键盘驱动。
(1)键盘壳体上在常规按键之外,还设有语音输入与控制相关的两个键:“控制”键,用于进入语音操控模式;话筒键,用于进入语音输入模式。键盘壳体上自带键盘灯支持键盘整体调光。
(2)主板内运行操作***,操作***内运行语音识别***程序,其中包括:键盘按键控制模块、语音频综合处理模块、语音识别模块,以及通讯协议模块、在线升级模块等;其中:
1)键盘按键控制模块用于识别键盘按键信息,经通信协议模块输入到电脑;
2)语音频综合处理模块用于对语音进行降噪、去除背景噪音和回声等预处理;
3)语音识别模块用于对处理后得到的语音信号识别为相应的文字;并根据用户按下语音按键或者控制按键的情况,来确定是作为控制命令还是输出文字。
该键盘可以在切换到本键盘驱动附带的输入法时候,按下键盘的话筒按键,话筒按键灯亮起开始录音,键盘把语音转化为文字输出到输入法选择框内,键盘按下回车后,转化的文字自动输出到光标后,当10秒(可通过驱动调节)后录音自动关闭话筒按键灯熄。键盘语音转化文字会结合上下文语境并判断是否在进行长文本的识别,自动切换对应识别模式输出识别结果。
该实施例的语音识别还支持离线识别模式,连网时自动切换到网络识别模式。连网识别模式比离线识别模式识别率在结合上下文语境和长文本的识别环境下识别率略高。
4)通讯协议模块用于和电脑通讯;在线升级模块用于在线自动升级主板固件。
主板通过USB接口和电脑通讯。在一个优选实施例中,主板采用rk3568芯片,四核最高2.0GHz,支持高速USB3.0接口。操作***为Linux***,内核稳定、实时性高、通讯功能强,扩展性好,便于二次开发和扩展升级功能。
作为优选,该实施例键盘中的语音综合处理模块还用于对接收到的语音进行声纹区分,以辨别不同的声音主体。同时带有硬件内存,对录音方式下的音频文件进行暂存。所述硬件内存还用于保存键盘主板运行的操作***数据,以防止异常断电。
这种键盘可以实现多人现场录音,包括以下步骤:
通过操控按键或语音指令,进入录音模式;
语音综合处理模块对提取到的语音信号进行声纹特征提取,辨别不同的声音主体,对语音进行标记;
把标记声纹特征后的语音,送给语音识别模块进行识别;
语音识别模块输出不同语音主体的语音识别结果,生成对应的文字文档保存到设定路径文件夹中;
录音时,将音频同步保存在键盘硬件内存中,录音完成后,去除音频中的背景噪音,以音频文件方式保存到键盘驱动安装的文件夹中。
该示例性键盘驱动内可以设置语音指令驱动脚本命令,实现打开特定应用或者特定操作模式,例如:模仿鼠标键盘操作、浏览器搜索、音视频播放器播放快进暂停等等。
同时还支持定制化的键盘驱动,与电脑使用软件深度结合,实现特定语音命令,以进行快捷办公、设备操作等。之后,用户只需按下“控制”按键,“控制”按键灯亮起,键盘开始打开录音功能接收语音控制命令,识别出用户语音输入的控制命令后,键盘驱动脚本即可做出与语音控制命令对应的控制动作。
该键盘还允许用户自己定制语音命令:通过录制用户的一系列鼠标键盘操作,或利用用户编写的脚本命令文件,并定义为简单的语音操控指令:
(a)第一种方式,具体步骤包括:
首先通过驱动工具(与该键盘驱动一起提供的软件工具)来对键盘和鼠标操作进行录制;
然后对此次操作进行语音命令词标注;
当触发此次语音命令时就会触发此次键盘和鼠标操作。
例如:客户可以通过该方法设置直接打开应用程序的功能。首先,通过驱动工具选择直接打开应用程序功能,然后点选需要打开的程序可执行文件;然后标记语音命令词;触发语音命令时就会打开对应程序。
(b)第二种方式具体步骤包括:用户编辑好自己需要的脚本命令,然后在驱动工具里选择自主触发脚本功能,选中编辑好的脚本;然后标记语音命令词;当触发语音命令时就会触发脚本命令。
还可以在驱动中通过设置,直接记录某个语音命令对应的可执行文件,如QQ.exe、phtoshop.exe等,当键盘识别到用户输入了该语音命令时,即触发启动该可执行文件。
上述技术方案只是本发明的示例性实施例,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施例所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
Claims (7)
1.一种语音控制键盘,其特征在于,包括:主板,壳体,以及驱动模块,其中:
所述壳体上设有文字字符输入按键和操控按键,包括用于进入语音录入模式的按键,和/或进入语音操控模式的按键;
所述主板中运行的功能模块包括:
键盘控制识别模块,用于识别各类按键的输入;
语音综合处理模块,用于接收语音,进行语音信号预处理;
语音识别模块,用于进行语音识别,并结合操控按键的输入,将语音信号转换为语音命令或文字;
所述驱动模块,用于键盘和主机的通讯,提供语音转文字结果选择工具,以及语音命令的执行。
2.根据权利要求1所述的键盘,其特征在于,所述驱动模块包括:语音命令定制与启动子模块,用于:录制用户的鼠标键盘操作、或获取用户编辑好的脚本命令文件、或设置要启动的可执行文件,将其定义为简单的语音名令;根据用户输入的语音命令,启动对应的可执行文件、录制的键鼠操作或脚本命令。
3.根据权利要求1或2所述的键盘,其特征在于:
所述壳体上设有控制进入录音模式的操控按键;
所述键盘带有硬件存储部件,用于对录制的语音和识别结果进行暂存;
所述驱动模块将暂存的录制语音和识别结果传输至主机保存。
4.根据权利要求3所述的键盘,其特征在于,所述语音综合处理模块还用于对接收到的语音进行声纹区分,以辨别不同的声音主体。
5.根据权利要求3所述的键盘,其特征在于:所述硬件存储部件还用于保存键盘主板运行的操作***数据,以防止异常断电。
6.一种应用权利要求4所述键盘进行多人现场录音的方法,包括以下步骤:
通过操控按键或语音名令,进入录音模式;
语音综合处理模块对提取到的语音信号进行声纹特征提取,辨别不同的声音主体,对语音进行标记;
把标记声纹特征后的语音,送给语音识别模块进行识别;
语音识别模块输出不同语音主体的语音识别结果,生成对应的文字文档;
录音时,将音频和识别结果同步暂存在键盘硬件存储部件中,录音完成后,去除音频中的背景噪音,经由驱动模块保存至主机。
7.一种应用权利要求2所述的键盘进行语音命令定制与启动的方法,包括:
利用键盘驱动提供的工具:对键盘鼠标的系列操作进行录制,并以语音命令词进行标注;或者选中用户编辑好的所需要的脚本命令文件,标记为语音命令词;或者设置语音命令词对应的可执行文件;
当识别到用户输入了语音命令时,触发对应的键盘鼠标操作、脚本命令或可执行文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211558374.6A CN116243804A (zh) | 2022-12-06 | 2022-12-06 | 一种语音控制键盘 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211558374.6A CN116243804A (zh) | 2022-12-06 | 2022-12-06 | 一种语音控制键盘 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116243804A true CN116243804A (zh) | 2023-06-09 |
Family
ID=86628447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211558374.6A Pending CN116243804A (zh) | 2022-12-06 | 2022-12-06 | 一种语音控制键盘 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116243804A (zh) |
-
2022
- 2022-12-06 CN CN202211558374.6A patent/CN116243804A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101213835B1 (ko) | 음성 인식에 있어서 동사 에러 복원 | |
US6415258B1 (en) | Background audio recovery system | |
US5208897A (en) | Method and apparatus for speech recognition based on subsyllable spellings | |
US6233559B1 (en) | Speech control of multiple applications using applets | |
JP4987623B2 (ja) | ユーザと音声により対話する装置および方法 | |
CN100403828C (zh) | 一种便携式数字移动通讯设备及其语音控制方法和*** | |
US20160328205A1 (en) | Method and Apparatus for Voice Operation of Mobile Applications Having Unnamed View Elements | |
US6513009B1 (en) | Scalable low resource dialog manager | |
JP7328265B2 (ja) | 音声インタラクション制御方法、装置、電子機器、記憶媒体及びシステム | |
WO2020024620A1 (zh) | 语音信息的处理方法以及装置、设备和存储介质 | |
US6499015B2 (en) | Voice interaction method for a computer graphical user interface | |
JP2007264471A (ja) | 音声認識装置および音声認識方法 | |
US8606560B2 (en) | Automatic simultaneous interpertation system | |
EP1346343A1 (en) | Speech recognition using word-in-phrase command | |
JP2006515073A (ja) | 音声認識を実行するための方法、システム、及びプログラミング | |
KR20080083290A (ko) | 디지털 파일의 컬렉션에서 디지털 파일을 액세스하기 위한방법 및 장치 | |
CN101825953A (zh) | 一种语音输入和拼音输入相结合的中文输入法产品 | |
CN116243804A (zh) | 一种语音控制键盘 | |
US7036130B2 (en) | Method for expanding in friendly manner the functionality of a portable electronic device and corresponding portable electronic device | |
CN100375084C (zh) | 一种带有语言复读功能的计算机及其实现方法 | |
JPH04311222A (ja) | 電子ドキュメントを音声処理するポータブル・コンピュータ装置 | |
JP2001306090A (ja) | 対話装置および方法、音声制御装置および方法、ならびにコンピュータを対話装置および音声制御装置として機能させるためのプログラムをそれぞれ記録したコンピュータ読取可能な記録媒体 | |
JP7511623B2 (ja) | 情報処理装置、情報処理システム、情報処理方法及びプログラム | |
AU2021103652A4 (en) | A speech assisted presentation system and a method to operate the same | |
CN113314123B (zh) | 语音处理方法、电子设备及存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |