CN110915239B - 用于助听器用户的在线自动音频转录 - Google Patents
用于助听器用户的在线自动音频转录 Download PDFInfo
- Publication number
- CN110915239B CN110915239B CN201780093288.3A CN201780093288A CN110915239B CN 110915239 B CN110915239 B CN 110915239B CN 201780093288 A CN201780093288 A CN 201780093288A CN 110915239 B CN110915239 B CN 110915239B
- Authority
- CN
- China
- Prior art keywords
- audio
- hearing aid
- stream
- support server
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 69
- 230000035897 transcription Effects 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000004891 communication Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013519 translation Methods 0.000 description 22
- 230000014616 translation Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 5
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 239000003826 tablet Substances 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 206010011878 Deafness Diseases 0.000 description 1
- 241001620634 Roger Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010370 hearing loss Effects 0.000 description 1
- 231100000888 hearing loss Toxicity 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
- H04R27/02—Amplifying systems for the deaf
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/55—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
- H04R25/554—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/55—Communication between hearing aids and external devices via a network for data exchange
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种自动音频转录方法,包括:从麦克风设备(12)向音频支持服务器(24)和至少一个助听器***(14)发送音频流(38)和音频流(38)的标识符(36),该至少一个助听器***(14)包括助听器(20)和连接到该助听器(20)的便携式设备(22);利用助听器(20)播放音频流(38);通过从助听器***(14)向音频支持服务器(24)发送标识符(36)在音频支持服务器(24)上注册至少一个助听器***(14);将音频流(38)转录为文本流(40);将文本流(40)从音频支持服务器(24)发送到与音频流(36)的标识符(36)相关联的便携式设备(22);以及利用便携式设备(22)显示文本流(40)。
Description
技术领域
本发明涉及一种用于自动音频转录的方法、计算机程序和计算机可读介质。此外,本发明涉及一种音频转录***。
背景技术
自动音频转录服务提供将口语的音频流转录为相同文本内容的文本流的机会。可以经由Web服务API或直接与智能手机的应用一起提供此类服务。该应用通常提供给个人使用,而作为基本服务的Web服务API主要提供给希望在基本服务之上为最终用户开发进一步的服务的商业用户。
对于助听器的用户来说,自动转录服务很有趣,因为他们有可能同时阅读附近的人在说什么的转录。例如,正在听讲座或演讲的助听器佩戴者也可以利用他的智能手机来阅读转录。
US 2015/0287408 A1描述了一种在移动设备上向用户提供语音识别的方法。该方法包括由处理器接收音频数据,以及由语音识别引擎处理音频数据,以确定相应的文本。
发明内容
本发明的目的是促进助听器用户对自动在线音频转录服务的使用。本发明的进一步的目的是减少对与多个助听器的分布式音频转录服务交互的需求。
这些目的是通过独立权利要求的主题来实现。根据从属权利要求和以下描述,进一步的示例性实施例是显而易见的。
本发明的方面涉及一种自动音频转录方法。该方法可以由包括服务器的分布式***执行,该服务器从音频流生成由麦克风设备发送的文本流。此外,音频流和文本流由助听器***播放和显示。必须理解,服务器可以远离麦克风设备和助听器***。另一方面,助听器***中的麦克风设备可以彼此靠近和/或可以由在远处的人携带,使得他们可以彼此听到。术语“远的”可以意指可以大于1km的距离。术语“近的”可以意指小于100m的距离。例如,服务器可以由甚至可以在不同大洲上提供的云计算设施来提供,而麦克风设备和助听器***可以位于同一房间中。
自动音频转录可以涉及将可以以音频流的形式提供的口头语言转录为可以被提供为文本流的相同内容的可读文本。音频流可以是由麦克风设备记录的数字化数据。文本流可以是包括表示文本的字符的数字化数据。
根据本发明的实施例,该方法包括:从麦克风设备向音频支持服务器和包括助听器和连接至助听器的便携式设备的至少一个助听器***发送音频流和音频流的标识符;使用助听器播放音频流;通过从助听器***向音频支持服务器发送标识符,在音频支持服务器上注册至少一个助听器***;将音频流转录为文本流;将文本流从音频支持服务器发送到与音频流的标识符相关联的便携式设备;以及使用便携式设备显示文本流。
总之,音频流从麦克风设备被发送到服务器,该服务器将其转换为文本流,并且将文本流发送到助听器***。对于将转录的文本流与音频流相关联以及对于将麦克风设备与音频流相关联可以是很重要的标识符通常经由两个不同的通道发送到服务器,即,从麦克风设备直接发送到服务器,以及从麦克风设备经由助听器***间接发送到服务器。在在助听器***中接收到标识符之后,可以在服务器处自动执行助听器***的注册。以这种方式,在服务器处必须手动注册助听器***以接收文本流是不必要的。
当生成新的音频流时,可以由麦克风设备自动生成音频流的标识符。例如,可能是这样的情况,当麦克风设备开启时和/或当利用麦克风执行相应的命令时,取消静音。标识符可以是数字代码,例如,数字或字符和数字的组合。
麦克风设备可以是可由正在作讲座或作演讲的人携带的便携式设备。它还可以是是包含麦克风的另一个助听器、耳塞或其他耳级佩戴的设备。它可以是连接到例如电视的音频收集设备,并且将电视音频信号无线传输到助听器***。麦克风设备可以具有到服务器的接口,例如经由无线无线电连接和/或此外,麦克风设备可以具有到助听器***的接口,该接口可以不同于到服务器的接口。例如,该接口可以处于不同于到服务器的无线无线电连接的第二无线无线电连接。
助听器***可以包括助听器和进一步的便携式设备。助听器可以是适合于至少部分地在耳朵内或耳朵上的适合由用户携带的设备。另外,助听器也可以是具有被植入头部内部的部件的耳蜗植入装置。助听器可以补偿或不补偿佩戴者的听力损失,例如也可以是可听或无线耳机。助听器可以具有麦克风设备的接口,诸如上述的第二无线无线电连接,并且可以具有到进一步的便携式设备的进一步的接口,该进一步的接口可以是与麦克风设备和服务器之间的接口类型相同的诸如的接口。
进一步的便携式设备可以是智能电话或平板电脑,和/或可以具有用于与助听器和服务器通信的接口。该接口可以基于进一步的便携式设备可以包括适于显示文本流的显示器。另一方面,麦克风设备和/或助听器可以没有显示器。
根据本发明的实施例,音频流和标识符被发送到助听器。可以基于传输音频流的协议在麦克风设备和助听器之间建立数字数据通信,该协议以这样的方式传输音频流,使得在助听器中的音频流的记录与音频流的播放之间的时间延迟小于40ms以便于比到助听器佩戴者的音频源的声延迟更快或至少不明显更慢,和/或定制该协议使得助听器在良好的接收条件期间使用最小功率值,同时仍具有抗干扰能力。例如,“Phonak Roger”设备利用这样的协议。该数字数据通信还可以用于将标识符从麦克风设备传输到助听器***。
根据本发明的实施例,音频流和/或标识符被发送到进一步的便携式设备。音频流被转发到助听器,而标识符被转发到服务器。音频流也可能被转发到服务器。即,从麦克风设备到音频支持服务器的传输路径正在使用进一步的便携式设备。检测来自不同的便携式设备、但都具有同一的标识符的多个音频流的音频支持服务器,丢弃除了一个音频流之外的所有音频流。剩余的音频流被转录。然后将转录的文本流从音频支持服务器发送到具有相应标识符的所有便携式设备。
根据本发明的实施例,将标识符从助听器发送到便携式设备。助听器***在音频支持服务器上的注册可以由便携式设备执行。因此,已经由助听器接收到的标识符可以经由助听器与便携式设备之间的通信连接提供给便携式设备,该通信连接例如可以基于可以经由将标识符从助听器发送到便携式设备。
根据本发明的实施例,将音频流和标识符经由无线数字无线电通信从麦克风设备直接发送到助听器。如已经提到的,可以在麦克风设备和助听器之间建立特定的通信连接,该通信连接特别适合传输包含口头语言的音频流。当助听器检测到麦克风设备在助听器的通信范围内时,自动建立麦克风设备与助听器之间的无线数字无线电通信是可能的。可以关于无线数字无线电复杂化来定义通信范围。例如,助听器可以用相关的接口扫描它的环境,并且可以以最高的信号强度在麦克风设备上注册,和/或通过麦克风设备从广播的无线电信号切换到接收到的这样的音频信号。
根据本发明的实施例,来自麦克风设备的音频流和标识符经由便携式设备被发送到音频支持服务器。通常,音频流可能不是从麦克风设备直接被发送到音频支持服务器,而是经由一个或多个便携式设备发送。单独的数据连接不可以用作从麦克风设备到音频支持服务器的路径,而一个或多个便携式设备可以用作从麦克风设备到音频支持服务器的路径。然后,便携式设备可以将音频流转发给相关联的助听器,同时将标识符转发给音频支持服务器。
根据本发明的实施例,音频支持服务器从至少两个便携式设备接收音频流和/或仅一次将音频流转录为文本流。音频支持服务器可以接收一个或多个音频流,然而该一个或多个音频流可以与同一的标识符相关联。音频支持服务器可以过滤出具有同一标识符的音频流,并且可以仅将一个音频流转发到转录服务器。具有同一关联标识符的除了一个音频流之外的所有音频流可以被音频支持服务器丢弃,并且仅一个这样的音频流可以被转录。
根据本发明的实施例,音频流和标识符经由互联网连接被发送到音频支持服务器。音频支持服务器可能远离麦克风设备。提供例如作为麦克风设备与音频支持服务器之间的通信连接的一部分的或Wi-Fi连接的本地网络可以与全球互联网相连接。
根据本发明的实施例,标识符经由互联网连接从便携式设备被发送到音频支持服务器。是助听器***的一部分的便携式设备,可以与提供例如或Wi-Fi连接的相同本地网络连接。例如,本地网络可以由建筑物提供,携带麦克风设备和助听器***的人位于该建筑物中。
根据本发明的实施例,经由互联网连接将音频流从便携式设备发送到音频支持服务器。在这种情况下,当音频流经由一个或多个便携式设备发送到音频支持服务器时,这可以通过互联网连接执行,该互联网连接也用于发送标识符。
根据本发明的实施例,经由互联网连接将文本流从音频支持服务器发送到便携式设备。可以经由音频支持服务器与便携式设备之间的同一通信连接来发送用于便携式设备的文本流,该通信连接还用于传输标识符。
根据本发明的实施例,音频流从音频支持服务器被发送到文本转录服务器,该文本转录服务器将音频流转录成文本流并将文本流发送回音频支持服务器。可能是,音频支持服务器仅负责处理麦克风设备和助听器***之间的音频流和文本流的关联。音频支持服务器可以使用进一步的服务器,即,文本转录服务器,以用于转录音频流。音频支持服务器可以使用Web服务API调用文本转录服务器,并且/或者可以由与提供音频支持服务器的公司不同的公司提供文本转录服务器,该不同的公司将自动文本转录提供为服务。
然而,音频支持服务器也提供文本转录也是可能的。通常,必须注意,本文提到的服务器可以是由相同硬件或不同硬件提供的虚拟服务器。然而,音频支持服务器和/或文本转录服务器的硬件可能远离麦克风设备和助听器***。
根据本发明的实施例,音频流和标识符被发送到多个助听器***,该助听器***正在音频支持服务器上使用标识符进行注册并且接收转录的文本流。以这种方式,对于多个助听器***,音频流可以仅一次被转录。音频支持服务器可以将一个音频流转录为一个文本流或可以建议转录服务器将一个音频流转录为一个文本流,然后由音频支持服务器将该文本流分发到多个助听器***。这可以具有可以降低转录服务器上的计算量的优点。另外,当将转录提供为服务时,因为可以避免针对多个听力***用户的同一音频流的转录,所以可以降低服务费用。
根据本发明的实施例,该方法还包括:将文本流翻译成另一种语言。另外,可以以第一语言呈现的文本流可以被自动翻译成另一种语言。这可以由音频支持服务器、转录服务器和/或可以是翻译服务器的第三服务器执行。可以是每个助听器***以特定语言在音频支持服务器上注册,并且音频支持服务器将所需语言的翻译文本流发送到特定助听器***。同样,可以避免同一文本流到同一语言的多次翻译。
根据本发明的实施例,该方法还包括:通过将标识符输入便携式设备并将标识符发送到音频支持服务器,来在音频支持服务器上注册便携式设备;以及将文本流从音频支持服务器发送到与音频流的标识符相关联的便携式设备。不使用助听器***但是具有诸如智能手机或平板电脑的便携式设备的人也可以在音频支持服务器上注册并且也接收文本流。标识符可以手动输入到便携式设备中。例如,麦克风设备的标识符可以以诸如条形码或QR码的计算机可读代码被提供,该计算机可读代码可以由便携式设备(其未与助听器连接)扫描。也有可能在麦克风设备附近使用近场通信以将标识符输入到便携式设备中。
根据本发明的实施例,由麦克风设备生成标识符。如上所述,标识符可以与麦克风设备生成的音频流相关联。而且,标识符对于音频支持服务器可以是唯一的。从音频支持服务器从不同的麦克风设备和/或不同的会话接收到的每个音频流由不同的标识符标识的意义上,标识符可以是唯一的。会话是指演讲、谈话、在学校上课等的持续时间。
本发明的进一步的方面涉及一种用于自动音频转录的、当由麦克风设备、音频支持服务器和至少一个助听器***执行时,适于执行以上和以下描述的方法的步骤的计算机程序或更一般地涉及计算机程序集。本发明的进一步的方面涉及一种计算机可读介质,其中存储这样的计算机程序。例如,计算机程序可以包括在音频支持服务器中执行的功能、在麦克风设备中执行的功能、在助听器中执行的功能以及在便携式设备中执行的功能。
计算机可读介质可以是硬盘、USB(通用串行总线)存储设备、RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦可编程只读存储器)或闪存。计算机可读介质还可以是或涉及允许下载程序代码的数据通信网络,例如互联网。通常,计算机可读介质可以是非暂时性或暂时性介质。
本发明的进一步的方面涉及一种音频转录***,其包括麦克风设备、音频支持服务器和至少一个助听器***。
根据本发明的实施例,音频支持服务器适于将音频流转录为文本流。可替选地,音频支持服务器适于将音频流发送到音频转录服务器,并适于从音频转录服务器接收转录的文本流。
根据本发明的实施例,助听器***包括:用于播放音频流的助听器;以及适于显示文本流的便携式设备。音频流可以由同一扬声器播放,该扬声器也用于播放由助听器直接记录并根据助听器佩戴者的需要进行放大的声音。便携式设备具有用于显示文本流的显示器。作为与便携式设备不同的设备的助听器通常不具有显示器。
根据本发明的实施例,音频转录***适于执行以上和以下所述的方法。麦克风设备适于将音频流和音频流的标识符发送到音频支持服务器和至少一个助听器***。助听器***适于通过将标识符发送到音频支持服务器来在音频支持服务器上注册。音频支持服务器适于将文本流发送到至少一个助听器***。
应当理解,如上和如下所述的方法的特征可以是如上和如下所述的计算机程序、计算机可读介质和音频转录***的特征,反之亦然。
根据下文描述的实施例,本发明的这些和其他方面将变得显而易见并得到阐明。
附图说明
下面,参考附图更详细地描述本发明的实施例。
图1示意性地示出根据本发明的实施例的音频转录***。
图2示出根据本发明的实施例的自动音频转录方法。
图3示意性地示出根据本发明的进一步的实施例的音频转录***。
图4图示根据本发明的进一步的实施例的自动音频转录方法。
在附图标记列表中以摘要形式列出附图中使用的附图标记及其含义。原则上,在附图中相同的部分被提供相同的附图标记。
具体实施方式
图1示出包括麦克风设备12和多个助听器***14的自动音频转录***10。麦克风设备12可以由诸如老师、导游、主持人等的说话者16持有。每个助听器***14可以由诸如学生、听众等的收听者18佩戴。
助听器***14包括通常被佩戴在收听者18的耳朵中或靠近收听者18的耳朵的助听器20和诸如智能手机、平板电脑,笔记本电脑等的便携式设备22。
也可以是,由进一步的收听者使用的、不是助听器***的成员的进一步的便携式设备22’是音频转录***10的一部分。
到目前为止描述的音频转录***10的部分都可以被定位于彼此靠近,即,更靠近100m和/或在同一房间内。通常,所有的人16、18都将处于他们将能够彼此交谈的范围内。
音频转录***10的其他部分可以是音频支持服务器24和可选的音频转录和/或翻译服务器26,其可以远离上述***10的部分。例如,服务器24、26可以位于一个不同的建筑物或多个不同的建筑物中,例如位于不同的云计算设施中。音频支持服务器24和可选的音频转录和/或翻译服务器26可以与互联网连接30连接。
麦克风设备12和音频支持服务器24可以与互联网连接30连接,该互联网连接可以经由诸如和/或Wi-Fi的无线通信连接被本地提供。便携式设备22、22’也可以经由互联网连接与音频支持服务器24连接,该互联网连接可以经由诸如和/或Wi-Fi的无线通信连接被本地提供。
麦克风设备12和助听器20可以与第二类型的无线通信连接32连接,该第二类型的无线通信连接32适于以快到使助听器佩戴者在看到讲话者和听到他之间不会感到延迟而传输音频数据。
图2示出可以用图1所示的***10执行的自动音频转录方法。
通常,***10允许为多个收听者18提供说话者16的语音的自动转录和可选的自动翻译。特别地,音频流38和音频流的标识符36由麦克风设备生成并转录并可选地翻译成文本流40,然后该文本流40由便携式设备22、22’显示。
在该方法期间,麦克风设备12根据说话者16的语音生成音频流38。说话者16可以向麦克风设备的扬声器讲话,该麦克风设备可以将记录的声音数字化为音频流38。因为麦克风设备12可以由说话者16佩戴,或者至少可以随着助听器佩带者18位于更靠近说话者16,所以作为通过助听器20的麦克风收集的音频数据,音频流可以具有更好的声噪比。
此外,麦克风设备12可以生成音频流38的标识符36。该标识符36将在***10中用于将助听器***14与正确的文本流40相关联。标识符36对于音频流38可以是唯一的。例如,根据麦克风设备12的序列号、一天中的时间等,可以利用适当的种子值随机生成标识符36。
然后,将音频流38和音频流38的标识符36从麦克风设备12发送到助听器***14。可以是助听器***14本身已在麦克风设备12上注册。还可以是麦克风设备12经由其用于通信连接32的接口广播音频流36和标识符,并且在麦克风设备12的适当范围内的每个助听器***14可以接收数据36、38。
音频流38和标识符36可以经由无线数字无线电通信连接32从麦克风设备12直接发送到助听器20。助听器20可以播放音频流38,该音频流作为在助听器20内用其内置麦克风生成的音频数据,通常具有更好的质量。
并且,助听器20可以经由通信连接34将标识符发送到便携式设备22。在便携式设备22中,可以用来控制助听器20的助听器应用可以正在运行。这样的应用也可以用于进一步处理标识符36。
每个助听器***14现在能够在音频支持服务器24上利用音频流38的标识符36注册。标识符36也可以经由互联网连接30从便携式设备22发送到音频支持服务器24,例如,首先经由和/或Wi-Fi发送到路由器,并且那里经由有线连接发送到服务器24。音频支持服务器24可以生成与音频流36相关联的收听听力***14的列表。
例如,在便携式设备22中运行的上述控制应用可以连接到音频支持服务器24,并且可以利用相应的标识符认证来请求音频流38的文本流40。可选地,便携式设备22,尤其是应用,可以向音频支持服务器24发送期望的目标语言。该语言也可以被保存为收听听力***14的列表中的相应的听力***14。
在接收到音频流38之后,并且当至少一个助听器***14已在音频支持服务器24上注册时,音频支持服务器24控制音频流38向文本流40的转录。为此,音频支持服务器24可以将音频流38转发到转录/翻译服务器26,该转录/翻译服务器26可以提供转录/翻译服务。可以经由互联网连接30将音频流38从音频支持服务器24发送到文本转录/翻译服务器26。然后,服务器26将音频流38转录成文本流40,并将文本流40发送回音频支持服务器24。
也可以是文本流40被翻译成一种或多种目标语言。服务器24可以从便携式设备22、22’收集所有翻译请求和目标语言,并且可以要求每种语言仅一种翻译。为此目的,服务器24可以将音频流38一次发送到转录/翻译服务器26,并且可以直接请求向一种或多种目标语言的翻译。
可替选地,服务器24还可以从服务器26仅请求原始语言的转录。利用该转录,然后服务器24可以访问同一或进一步的翻译服务器26以获取一个或多个经翻译的文本流40。
因为服务器26仅生成原始语言的一种转录文本流和/或每种要求的目标语言的至少一种文本流40,所以使用更多的助听器***14,***10易于扩展。
然后,音频支持服务器23将转录/翻译分发到助听器***14。可以通过互联网连接30从音频支持服务器24向与音频流36的标识符36相关联的便携式设备22发送转录的和可选的相应的经翻译的文本流40。
最后,文本流40可以由便携式设备22显示。没有任何用户交互以注册到正确的源,收听者18可以从说话者16的讲话中获得正确的转录/翻译。还可能是,例如,通过文本语音转换(TTS)合成器,将转录的和可选的经翻译的文本流40转换回可听音频流。这可以在便携式设备22中本地执行。类似地,进一步的翻译服务器可以位于便携式设备22内。因此,音频支持服务器24可以将转录的文本发送回便携式设备22,该便携式设备22向用户示出转录的文本和/或先将其翻译和/或将其转换回可听音频信号。
潜在地,便携式设备22可以本地适应转录和/或翻译,例如,给定关于正确转录和/或翻译的概率或由转录服务器和具有由佩戴者和他的/她的社交网络中的人们使用的词语和表达的本地数据库提供的可替选的单词的元信息。
也可能是,通过将标识符36或其表示输入到便携式设备22'中并且将标识符36发送到音频支持服务器24,收听者18(可能没有助听器20)可以在音频支持服务器24上手动注册进一步的便携式设备22'。例如,在没有直接连接到麦克风设备12的情况下,使用助听器20的收听者18可以以这样的方式手动注册。标识符36可以被手动输入为字母数字代码。而且,可以通过扫描QR码或通过NFC(近场通信),即通过持有便携式设备短暂地进入麦克风设备附近来手动输入标识符36。
另外,该便携式设备22'和可选的目标语言可以在服务器24中列出,然后服务器24可将文本流40发送到以这样的方式与标识符36相关联的进一步的便携式设备22'。
另外,可以在麦克风设备和音频支持服务器24之间、在音频支持服务器24和转录/翻译服务器26之间、和/或音频支持服务器24和便携式设备22之间、和/或麦克风设备12和助听器20之间、和/或助听器20和便携式设备22之间使用加密方法。特别地,可以在麦克风设备12与服务器之间和/或在便携式设备22、22'与服务器24之间以加密的方式发送标识符36以及音频流38和/或转录/翻译的文本40。
图3示出自动音频转录***10,其与图1所示的***的不同之处在于,麦克风设备12不是直接连接到音频支持服务器24,并且麦克风设备12经由互联网连接30与便携式设备22、22'连接。图3的***10的其余组件可以与如关于图1描述的相同。
如图4中所示,同图3的***10,音频流38和标识符36可以从麦克风设备12发送到便携式设备22、22'。音频流38和标识符36然后可以由便携式设备22、22'发送到音频支持服务器24。便携式设备22还可以将音频流38发送到助听器20。
在这种情况下,音频支持服务器24从至少两个便携式设备22、22'接收与相同标识符26相关联的多于一个的音频流38,音频支持服务器24可以丢弃除了一个音频流38之外的所有音频流。仅一个音频流38可以被发送到转录/翻译服务器26,并且可以仅一次被转录和可选地被翻译。
图4中示出的方法的其他步骤可以与关于图2描述的方法相同。
尽管在附图和前述描述中已经详细地图示和描述了本发明,但是这样的图示和描述应被认为是说明性或示例性的而非限制性的;本发明不限于所公开的实施例。通过研究附图、公开内容和所附权利要求,本领域的技术人员和实践要求保护的发明可以理解和实现对所公开的实施例的其他变型。在权利要求中,词语“包括”不排除其他要素或步骤,并且不定冠词“一”或“一个”不排除多个。单个处理器或控制器或其他单元可以实现权利要求中引用的若干项的功能。在相互不同的从属权利要求中引用某些措施的事实并不指示不能有利地使用这些措施的组合。权利要求中的任何附图标记都不应被解释为限制范围。
参考符号列表
10 自动音频转录***
12 麦克风设备
14 助听器***
16 说话者
18 收听者
20 助听器
22、22’ 便携式设备
24 音频支持服务器
26 音频转录和/或翻译服务器
30 互联网连接
32 第一类型无线通信连接
34 第二类型无线通信连接
36 标识符
38 音频流
40 文本流
Claims (14)
1.一种自动音频转录方法,包括:
从麦克风设备(12)向音频支持服务器(24)和至少一个助听器***(14)发送音频流(38)和所述音频流(38)的标识符(36),所述至少一个助听器***(14)包括助听器(20)和连接到所述助听器(20)的便携式设备(22);
利用所述助听器(20)播放所述音频流(38);
通过从所述助听器***(14)向所述音频支持服务器(24)发送所述标识符(36),在所述音频支持服务器(24)上注册所述至少一个助听器***(14);
将所述音频流(38)转录为文本流(40);
将所述文本流(40)从所述音频支持服务器(24)发送到与所述音频流(38)的所述标识符(36)相关联的所述便携式设备(22);
利用所述便携式设备(22)显示所述文本流(40)。
2.根据权利要求1所述的方法,
其中,所述音频流(38)和所述标识符(36)被发送到所述助听器(20);
其中,所述标识符(36)从所述助听器(20)被发送到所述便携式设备(22)。
3.根据权利要求1或2所述的方法,
其中,所述音频流(38)和所述标识符(36)经由无线数字无线电通信连接(32)从所述麦克风设备(12)直接被发送到所述助听器(20)。
4.根据权利要求1所述的方法,
其中,所述标识符(36)经由蓝牙从所述助听器(20)被发送到所述便携式设备(22)。
5.根据权利要求1所述的方法,
其中,来自所述麦克风设备(12)的所述音频流(38)和所述标识符(36)经由所述便携式设备(22)被发送到所述音频支持服务器(24)。
6.根据权利要求5所述的方法,
其中,所述音频支持服务器(24)从至少两个便携式设备(22)接收所述音频流(38),并且所述音频流(38)仅一次被转录为所述文本流(40)。
7.根据权利要求1所述的方法,
其中,所述音频流(38)和所述标识符(36)经由互联网连接(30)被发送到所述音频支持服务器(24);和/或
其中,所述音频流(38)经由互联网连接(30)从所述便携式设备(22)被发送到所述音频支持服务器(24);和/或
其中,所述标识符(36)经由互联网连接(30)从所述便携式设备(22)被发送到所述音频支持服务器(24);和/或
其中,所述文本流(40)经由互联网连接(30)从所述音频支持服务器(24)被发送到所述便携式设备(22)。
8.根据权利要求1所述的方法,
其中,所述音频流(38)从所述音频支持服务器(24)被发送到文本转录服务器(26),所述文本转录服务器(26)将所述音频流(38)转录为所述文本流(40)并且将所述文本流(40)发送回到所述音频支持服务器(24)。
9.根据权利要求1所述的方法,进一步包括:
将所述文本流(40)翻译成另一种语言。
10.根据权利要求1所述的方法,
其中,所述音频流(38)和所述标识符(36)被发送到多个助听器***(14),所述多个助听器***(14)利用所述标识符(36)正在所述音频支持服务器(24)上注册并且接收所述文本流(40)。
11.根据权利要求1所述的方法,进一步包括:
通过将所述标识符(36)输入到进一步的便携式设备(22’)中并将所述标识符(36)发送到所述音频支持服务器(24),在所述音频支持服务器(24)上注册所述进一步的便携式设备(22’);
将所述文本流(40)从所述音频支持服务器(24)发送到与所述音频流(38)的所述标识符(36)相关联的所述进一步的便携式设备(22’)。
12.根据权利要求1所述的方法,
其中,所述标识符(36)由所述麦克风设备(12)生成。
13.一种计算机可读介质,在其中存储用于自动音频转录的计算机程序,当由麦克风设备(12)、音频支持服务器(24)和至少一个助听器***(14)执行所述计算机程序时,所述计算机程序适于执行前述权利要求中的一项所述的方法的步骤。
14.一种音频转录***(10),包括:
麦克风设备(12),
音频支持服务器(24),所述音频支持服务器(24)适于将音频流(38)转录为文本流(40)以及从音频转录服务器(26)接收转录的文本流(40)中的至少一项;
至少一个助听器***(14),所述至少一个助听器***(14)包括用于播放所述音频流(38)的助听器(20)和适于显示所述文本流(40)的便携式设备(22);
其中,所述麦克风设备(12)适于将音频流(38)和所述音频流(38)的标识符(36)发送到所述音频支持服务器(24)和所述至少一个助听器***(14);
其中,所述助听器***(14)适于通过将所述标识符(36)发送到所述音频支持服务器(24)来在所述音频支持服务器(24)上注册;
其中,所述音频支持服务器(24)适于将所述文本流(40)发送到所述至少一个助听器***(14)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2017/069912 WO2019029783A1 (en) | 2017-08-07 | 2017-08-07 | AUTOMATIC AUDIO TRANSCRIPTION ONLINE FOR HEARING AID USERS |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110915239A CN110915239A (zh) | 2020-03-24 |
CN110915239B true CN110915239B (zh) | 2021-09-14 |
Family
ID=59558414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780093288.3A Active CN110915239B (zh) | 2017-08-07 | 2017-08-07 | 用于助听器用户的在线自动音频转录 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11373654B2 (zh) |
EP (1) | EP3665910B1 (zh) |
CN (1) | CN110915239B (zh) |
WO (1) | WO2019029783A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110915239B (zh) * | 2017-08-07 | 2021-09-14 | 索诺瓦公司 | 用于助听器用户的在线自动音频转录 |
DE102019219567A1 (de) * | 2019-12-13 | 2021-06-17 | Sivantos Pte. Ltd. | Verfahren zum Betrieb eines Hörsystems und Hörsystem |
CN114205665B (zh) * | 2020-06-09 | 2023-05-09 | 抖音视界有限公司 | 一种信息处理方法、装置、电子设备及存储介质 |
US11798530B2 (en) * | 2020-10-30 | 2023-10-24 | Google Llc | Simultaneous acoustic event detection across multiple assistant devices |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1214178A (zh) * | 1996-01-24 | 1999-04-14 | 艾利森公司 | 具有改进的助听兼容模式的无绳时分双工电话机 |
CN201365285Y (zh) * | 2009-03-10 | 2009-12-16 | 胡礼斌 | 一种适用于全聋哑人的助听手机 |
WO2014094858A1 (en) * | 2012-12-20 | 2014-06-26 | Widex A/S | Hearing aid and a method for improving speech intelligibility of an audio signal |
CN106205292A (zh) * | 2016-08-31 | 2016-12-07 | 北京青笋科技有限公司 | 一种听障人群用智能多功能电子手表 |
Family Cites Families (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19721982C2 (de) | 1997-05-26 | 2001-08-02 | Siemens Audiologische Technik | Kommunikationssystem für Benutzer einer tragbaren Hörhilfe |
US6377925B1 (en) | 1999-12-16 | 2002-04-23 | Interactive Solutions, Inc. | Electronic translator for assisting communications |
US6618704B2 (en) | 2000-12-01 | 2003-09-09 | Ibm Corporation | System and method of teleconferencing with the deaf or hearing-impaired |
US20030065504A1 (en) | 2001-10-02 | 2003-04-03 | Jessica Kraemer | Instant verbal translator |
US20050226398A1 (en) * | 2004-04-09 | 2005-10-13 | Bojeun Mark C | Closed Captioned Telephone and Computer System |
US8959433B2 (en) * | 2007-08-19 | 2015-02-17 | Multimodal Technologies, Llc | Document editing using anchors |
EP2325838A1 (en) * | 2009-10-27 | 2011-05-25 | verbavoice GmbH | A method and system for transcription of spoken language |
US10244033B2 (en) * | 2010-03-23 | 2019-03-26 | Nabto Aps | Method for providing data from a resource weak device to a computer client |
US20150279354A1 (en) * | 2010-05-19 | 2015-10-01 | Google Inc. | Personalization and Latency Reduction for Voice-Activated Commands |
US9924282B2 (en) * | 2011-12-30 | 2018-03-20 | Gn Resound A/S | System, hearing aid, and method for improving synchronization of an acoustic signal to a video display |
US20140324422A1 (en) * | 2013-04-18 | 2014-10-30 | WTF Technology Partners, Inc. | Synchronous audio distribution to portable computing devices |
RU2568281C2 (ru) * | 2013-05-31 | 2015-11-20 | Александр Юрьевич Бредихин | Способ компенсации потери слуха в телефонной системе и в мобильном телефонном аппарате |
US9230547B2 (en) * | 2013-07-10 | 2016-01-05 | Datascription Llc | Metadata extraction of non-transcribed video and audio streams |
US20160179831A1 (en) * | 2013-07-15 | 2016-06-23 | Vocavu Solutions Ltd. | Systems and methods for textual content creation from sources of audio that contain speech |
US20150149169A1 (en) * | 2013-11-27 | 2015-05-28 | At&T Intellectual Property I, L.P. | Method and apparatus for providing mobile multimodal speech hearing aid |
US9497557B2 (en) * | 2014-01-15 | 2016-11-15 | Scandent Llc | RFID-equipped hearing aid retainer |
CA2887291A1 (en) | 2014-04-02 | 2015-10-02 | Speakread A/S | Systems and methods for supporting hearing impaired users |
CN107004041B (zh) * | 2014-11-20 | 2021-06-29 | 唯听助听器公司 | 助听器用户账户管理 |
KR102193699B1 (ko) * | 2014-12-31 | 2020-12-21 | 엘지전자 주식회사 | 근거리 무선 통신을 이용하여 이동 단말기와 연동하는 헤드셋 |
US9946842B1 (en) * | 2015-03-02 | 2018-04-17 | Sorenson Ip Holdings, Llc | Methods and systems for routing patient information to a communication service provider and to a communication device for hearing-impaired users |
US9723415B2 (en) * | 2015-06-19 | 2017-08-01 | Gn Hearing A/S | Performance based in situ optimization of hearing aids |
US20160379641A1 (en) * | 2015-06-29 | 2016-12-29 | Microsoft Technology Licensing, Llc | Auto-Generation of Notes and Tasks From Passive Recording |
EP3214856A1 (en) * | 2016-03-01 | 2017-09-06 | Oticon A/s | A hearing aid configured to be operating in a communication system |
US11665009B2 (en) * | 2016-07-13 | 2023-05-30 | Vocal Power-House Systems, LLC | Responsive communication system |
US9497315B1 (en) * | 2016-07-27 | 2016-11-15 | Captioncall, Llc | Transcribing audio communication sessions |
US9571638B1 (en) * | 2016-10-07 | 2017-02-14 | Nedelco, Inc. | Segment-based queueing for audio captioning |
US10339960B2 (en) * | 2016-10-13 | 2019-07-02 | International Business Machines Corporation | Personal device for hearing degradation monitoring |
US10091354B1 (en) * | 2016-12-15 | 2018-10-02 | Sorenson Ip Holdings, Llc | Transcribing media files |
US20180213339A1 (en) * | 2017-01-23 | 2018-07-26 | Intel Corporation | Adapting hearing aids to different environments |
US10417349B2 (en) * | 2017-06-14 | 2019-09-17 | Microsoft Technology Licensing, Llc | Customized multi-device translated and transcribed conversations |
CN110915239B (zh) * | 2017-08-07 | 2021-09-14 | 索诺瓦公司 | 用于助听器用户的在线自动音频转录 |
EP3883260B1 (en) * | 2020-03-16 | 2023-09-13 | Sonova AG | Hearing device for providing physiological information, and method of its operation |
-
2017
- 2017-08-07 CN CN201780093288.3A patent/CN110915239B/zh active Active
- 2017-08-07 WO PCT/EP2017/069912 patent/WO2019029783A1/en unknown
- 2017-08-07 US US16/632,962 patent/US11373654B2/en active Active
- 2017-08-07 EP EP17749187.5A patent/EP3665910B1/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1214178A (zh) * | 1996-01-24 | 1999-04-14 | 艾利森公司 | 具有改进的助听兼容模式的无绳时分双工电话机 |
CN201365285Y (zh) * | 2009-03-10 | 2009-12-16 | 胡礼斌 | 一种适用于全聋哑人的助听手机 |
WO2014094858A1 (en) * | 2012-12-20 | 2014-06-26 | Widex A/S | Hearing aid and a method for improving speech intelligibility of an audio signal |
CN106205292A (zh) * | 2016-08-31 | 2016-12-07 | 北京青笋科技有限公司 | 一种听障人群用智能多功能电子手表 |
Also Published As
Publication number | Publication date |
---|---|
WO2019029783A1 (en) | 2019-02-14 |
CN110915239A (zh) | 2020-03-24 |
US11373654B2 (en) | 2022-06-28 |
US20200160867A1 (en) | 2020-05-21 |
EP3665910B1 (en) | 2021-08-04 |
EP3665910A1 (en) | 2020-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10599785B2 (en) | Smart sound devices and language translation system | |
EP3824653B1 (en) | Methods for a voice processing system | |
CN110915239B (zh) | 用于助听器用户的在线自动音频转录 | |
US20210037328A1 (en) | Audio/visual conferencing system integrated with personal mobile devices | |
US20160170970A1 (en) | Translation Control | |
US9424843B2 (en) | Methods and apparatus for signal sharing to improve speech understanding | |
US20190138603A1 (en) | Coordinating Translation Request Metadata between Devices | |
US11528568B1 (en) | Assisted hearing aid with synthetic substitution | |
US20240221757A1 (en) | Audio signal processing for automatic transcription using ear-wearable device | |
JP5374629B2 (ja) | サービスサーバ装置、サービス提供方法、サービス提供プログラム | |
CN111554280A (zh) | 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务*** | |
US20170013370A1 (en) | Method for operating a hearing device system, hearing device system, hearing device and database system | |
WO2021172124A1 (ja) | コミュニケーション管理装置及び方法 | |
JP5243645B2 (ja) | サービスサーバ装置、サービス提供方法、サービス提供プログラム | |
JP6580362B2 (ja) | 会議決定方法およびサーバ装置 | |
US10841713B2 (en) | Integration of audiogram data into a device | |
US20230281401A1 (en) | Communication system | |
KR102170902B1 (ko) | 실시간 다자 통역 무선 이어셋 및 이를 이용한 송수신 방법 | |
KR101778548B1 (ko) | 청각장애인을 위한 음성인식 및 보청지원이 가능한 회의 관리 방법 및 시스템 | |
WO2022024778A1 (ja) | コミュニケーションシステム及び評価方法 | |
JP2013009432A (ja) | サービスサーバ装置、サービス提供方法、サービス提供プログラム | |
KR20140000521A (ko) | 방송용 데이터 처리 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |