CN110770826A - 安全的话语存储 - Google Patents

安全的话语存储 Download PDF

Info

Publication number
CN110770826A
CN110770826A CN201880041194.6A CN201880041194A CN110770826A CN 110770826 A CN110770826 A CN 110770826A CN 201880041194 A CN201880041194 A CN 201880041194A CN 110770826 A CN110770826 A CN 110770826A
Authority
CN
China
Prior art keywords
utterance
attributes
audio data
service
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880041194.6A
Other languages
English (en)
Other versions
CN110770826B (zh
Inventor
W·F·H·克鲁斯
P·特克
P·托马斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of CN110770826A publication Critical patent/CN110770826A/zh
Application granted granted Critical
Publication of CN110770826B publication Critical patent/CN110770826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/062Securing storage systems
    • G06F3/0623Securing storage systems in relation to content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42008Systems for anonymous communication between parties, e.g. by use of disposal contact identifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/60Aspects of automatic or semi-automatic exchanges related to security aspects in telephonic communication systems
    • H04M2203/6009Personal information, e.g. profiles or personal directories being only provided to authorised persons

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

公开了用于话语的安全存储的技术。计算装置捕获发出口头话语的人的音频。所述话语被提供给语音到文本(STT)服务,所述STT服务将所述话语转译为文本。所述STT服务还可以识别所述话语中的各种说话者特定的属性。所述文本和属性被提供给文本到语音(TTS)服务,所述TTS服务从所述文本和所述属性的子集创建语音。所述语音存储在数据存储区中,所述数据存储区的安全性低于存储原始话语所需的安全性。然后,可以丢弃所述原始话语。所述STT服务还可以将由所述TTS服务生成的所述语音转译为文本。然后,比较由所述STT服务从所述语音生成的所述文本和由所述STT服务从所述原始话语生成的所述文本。如果所述文本不匹配,则可以保留所述原始话语。

Description

安全的话语存储
相关申请的交叉引用
本申请要求于2017年6月28日提交的美国专利申请号15/635,936的优先权,其全部公开内容通过引用的方式并入本文。
背景技术
声音驱动的计算***被广泛使用。这些计算***通常接收用户声音(通常称为“话语”)的记录。可以将声音辨识应用于话语,以确定用户是否已请求执行命令、是否已请求信息或是否已请求执行另一类型的动作。在许多***中,话语的原始记录被保存以供将来使用。然而,由于这种记录可能具有可从中得到个人可识别信息(例如用户的年龄或性别)的属性,因此通常使用高安全级别来存储这些记录。然而,以高安全级别存储此类记录可能会利用大量计算资源,例如处理器周期、存储器和存储空间。
关于这些和其他考虑,提出了本文所给出的公开内容。
附图说明
图1是根据一个实施方案的***架构图,示出了用于安全存储话语的网络服务的配置和操作的各方面;
图2是示出例程的流程图,示出了根据一个实施方案的用于安全存储话语的图1的网络服务的其他方面;
图3是示出用于安全存储话语的图1的网络服务的另一示例实施方案的***架构图;
图4是示出例程的流程图,示出了根据一个实施方案的用于安全存储话语的图3的网络服务的其他方面;
图5是根据一个实施方案示出被配置用于安全存储话语的处理器的配置和操作的各方面的***架构图;
图6是示出可用于实现本文公开的技术的各方面的分布式执行环境的配置的计算***图;
图7是示出了可用于实现本文公开的技术的各方面的数据中心的配置的各方面的计算***图;并且
图8是示出了用于实现计算装置的说明性计算机硬件架构的计算机架构图,该计算装置可用于实现本文呈现的各种技术的各方面。
具体实施方式
以下详细描述针对用于安全存储话语(诸如声音驱动的计算装置所记录的话语)的技术。使用公开的技术,可以以安全的方式存储话语,同时使用的存储资源比以前安全地存储这种话语所需的计算资源少。因此,可以实现各种类型的计算资源(例如但不限于处理器周期、存储器使用和大容量存储使用)的利用上的节省。另外,由于利用本文公开的技术可以更有效地利用计算资源,因此还可以实现功耗的节省。所公开的技术还可以提供本文未具体识别的其他技术益处。
为了提供所公开的功能,在一个实施方案中,将记录的话语提供给语音到文本(“STT”)服务,该服务辨识话语中的词语以将话语转译为文本。STT服务还可以辨识话语的各种特定于说话者的属性,例如但不限于话语的属性,从属性可以得出话语的个人可识别信息(“PII”)(例如,指示说话者的年龄或性别的属性)。
文本(即,辨识出的词语)和话语属性被提供给文本到语音(“TTS”)服务,该服务从由STT服务识别的文本和属性的子集创建语音,从而移除可以用来从话语中得出PII的至少一些属性。然后,由TTS创建的语音存储在数据存储区中,与存储包含PII的原始话语所需的数据存储区相比,该数据存储区的安全性较低,且因此需要较少的计算资源。然后,通过删除或以其他方式处置话语来丢弃原始话语。以这种方式,话语可以以安全的方式(即没有任何PII或包含的PII有限)存储,同时使用的计算资源少于安全存储包含PII的原始话语所需的计算资源。
在一个实施方案中,STT服务还可以将由TTS服务生成的语音转译为文本。然后,可以在由STT服务从语音生成的文本与由STT服务从原始话语生成的文本之间进行比较。如果文本匹配,则可以丢弃原始话语并可以存储文本。如果文本不匹配,则可以保留原始话语,并可以丢弃由STT服务生成的语音。也可以存储原始话语中的辨识的文本。下面将针对图1至图8呈现关于以上简要描述的用于安全地存储话语的各种部件和过程的附加细节。
应理解,本文呈现的主题可以作为计算机过程、计算机控制的设备、计算***或诸如计算机可读存储介质之类的制品来实现。虽然本文所描述的主题是在一个或多个计算装置上执行的程序模块的一般上下文中呈现的,但是本领域技术人员将认识到,可以结合其他类型的程序模块来执行其他实现方式。通常,程序模块包括例程、程序、部件、数据结构和执行特定任务或实现特定抽象数据类型的其他类型的结构。
本领域技术人员还将理解,本文所描述的主题的各方面可以在超出本文所描述的计算机***配置的包括以下各项的其他计算机***配置的情况下或与其相结合地实践:多处理器***、基于微处理器的或可编程消费性电子产品、小型计算机、大型计算机、手持式计算机、个人数字助理、电子阅读器、移动电话装置、平板计算装置、专用硬件装置、网络设备等。如上文简要提到,本文所描述的实施方案可以在分布式计算环境中实践,在所述分布式计算环境中,任务可以由通过通信网络连结的远程计算装置执行。在分布式计算环境中,程序模块可以位于本地存储装置和远程存储装置这两者中。
在下面的详细描述中,参考了构成本详细描述的一部分的附图,且这些附图通过说明的方式示出了特定的实施方案或示例。本文的附图并未按比例绘制。在所有若干图(本文可以称为“图(一个或多个图)”)中,相同的数字标识相同的元件。
图1是根据一个实施方案的***架构图,示出了用于安全地存储话语的网络服务100的配置和操作的各方面。在图1所示的实施方案中,话语存储服务100(在本文中可以被称为“网络服务100”)实现用于安全地存储话语的处理流水线。在一个实施方案中,网络服务100在分布式执行环境102中执行。
如以下将详细描述的,分布式执行环境102提供用于执行各种部件和网络服务(例如但不限于网络服务100)的计算资源。由分布式执行环境102提供的计算资源可以包括各种类型的计算资源,例如数据处理资源、数据存储资源、联网资源、数据通信资源、网络服务等。下面将针对图6至图8提供关于说明性分布式执行环境102的配置和操作的附加细节。
在图1所示的实施方案中,网络服务100实现处理流水线,该处理流水线包括语音到文本(“STT”)服务112、文本到语音(“TTS”)服务118以及存储服务124。在本文公开的各种实施方案中,网络服务100还与计算装置106结合地操作。计算装置106是能够通过适合的网络连接而连接到分布式执行环境102并执行以下描述的功能的计算装置。例如但不限于,计算装置106可以被实现为台式计算机、膝上型电脑、平板电脑、网络设备、电子阅读器、智能手机、视频游戏、机顶盒、语音驱动的计算机或其他类型的计算装置。计算装置106配备有音频输入装置,例如音频接口和麦克风,计算装置可以通过该音频输入装置记录数字音频数据(在本文中也可以称为“话语104”),例如由计算装置106的用户108(在本文中也称为“说话者108”)说出的语音110。
用户108发出的语音110可以包括词语(例如,“搜索词语‘新车价格’”或“播放U2的歌曲”)。语音110也具有各种属性。属性包括但不限于语音110的音量、语音110的音高、语音110的节奏或速度、语音110传达的语调或情感、语音110中的犹豫和/或其他属性。用户108的个人可识别信息(“PII”)可以从语音110的一些属性中得出。例如但不限于,说话者108的年龄、性别或位置可以从语音110的属性中得出。由于语音110可以包含PII,因此语音110的记录通常存储在高度安全的环境中。然而,如上所述,以高安全级别存储此类记录可能需要大量的计算资源,例如处理器周期、存储器和存储空间。
为了解决该顾虑以及可能的其他考虑,下面详细描述的机制移除了语音110中指示PII或从中可以得出PII的部分属性或全部属性。因此,所产生的没有PII的话语可以存储在不太安全的位置,从而比以前的解决方案所需的计算资源更少。下面提供了有关此过程的详细信息。
为了提供所公开的功能,计算装置106记录包含用户108的语音110的话语104。然后,计算装置106将话语104提供给话语存储服务100。然后,话语存储服务100协调话语104的安全存储。
为了安全地存储话语104,话语存储服务100首先将话语提供给STT服务112。STT服务112是网络服务或其他类型的部件,可以利用声音辨识来识别话语104中的词语。STT服务112还可以识别话语104中语音110的属性,例如上述属性(例如,音量、音高、节奏、语调等)。
STT服务112将描述在话语104中辨识的词语的文本114提供给TTS服务118。STT服务还向TTS服务118提供识别在话语104中检测到的属性116的数据。TTS服务118是网络服务或其他类型的部件,其被配置为从文本输入(例如识别话语104中辨识的词语的文本114)生成人类语音120(在本文中可能称为“音频120”、“音频数据120”或“TTS生成的音频120”)。用于说出文本114的人类声音可以是实际的人类声音或计算机模拟的人类声音。
TTS服务118还可以利用一些或所有属性116来生成音频120。例如但不限于,属性116可以用于生成语音120,该语音具有与原始话语104相同的音量水平。类似地,属性116可以被用来生成语音120,该语音具有与原始话语104相同的音高、节奏、语调、犹豫和/或其他属性。属性116还可以用于由具有与原始话语104的说话者108相同的性别或大致年龄的人来生成语音120。在其他实施方案中,可以利用其他属性116来生成音频数据120。
在一些实施方案中,TTS服务118仅利用原始话语104的属性116的子集来生成语音120。在一个实施方案中,用于生成语音120的属性116的子集仅包括不传达PII的属性116,可以从其导出PII的属性或以任何其他方式传达PII的属性。以这种方式,可以从由TTS服务118生成的语音120中移除传达PII的话语104的属性116。
由于从语音120中移除了传达PII的属性116,因此语音120可以存储在某个位置(例如由存储服务124提供的数据存储区122)中,该位置的安全性低于存储包含PII的原始话语104所需的安全性。由于语音120包括的传达PII的属性有限或不包括这样的属性116,因此语音120也可以向其他网络服务或部件暴露,以便以各种方式使用(例如,用于训练STT服务112)。在一些实施方案中,原始话语104也可以被丢弃。例如但不限于,话语104可以被安全地删除、移除或以其他方式不存储在非易失性存储装置上。如果话语104持续存在,则将其存储在具有比用于存储语音120的安全级别更高的安全级别的位置。
在一些实施方案中,STT服务112和/或TTS服务118可以被配置为从文本114移除PII。例如但不限于,这些服务可以被配置为从文本114中移除社会保险号、信用***和/或其他类型的PII。以这种方式,包含在话语104中的PII将不会反映在所存储的语音120中。
如图1所示,属性116和文本114也可以存储在数据存储区122中。在一些实施方案中,属性116和文本114彼此分开存储并且与对应的音频120分开存储,从而使得未经授权的用户更难以创建包括话语104的所有辨识的属性116的语音。在一些实施方案中,可以基于请求访问属性116的用户的许可级别来限制对属性116的访问。可以每个属性116地应用此限制。例如,可能需要第一级别的许可来访问不传达PII的属性116(例如音量或音高),而可能需要另一个更高级别的许可来访问传达PII的属性116(例如年龄或性别)。
在一些配置中,话语存储服务100或另一部件可以向计算装置106的用户108或管理用户提供用户界面(“UI”)126。通过UI 126,用户108可以指定用于话语存储服务100的操作的配置128。例如但不限于,用户108可以利用UI 126来定义STT服务112要在话语104中辨识的那些属性116。以这种方式,用户108可以限制由STT服务112辨识并提供给TTS服务118的话语104的属性116。例如,用户108可能指示STT服务112不辨识性别、年龄或其他类型的PII。
在一些实施方案中,用户108还可以利用UI 126来定义当生成音频120时TTS服务118要利用的那些属性116。以这种方式,用户108可以限制包含在语音120中的话语104的属性116,该语音由TTS服务118生成并存储在数据存储区122中。例如,用户108可以定义将不反映在语音120中的属性116的子集(例如,性别、年龄或传达PII的其他类型的属性)。然而,原始话语104的其他属性116可以被用来生成语音120。
作为另一示例,如果属性116指示说话者108是孩子,则用户108可以利用UI 126来指示在生成语音120时将不利用任何属性116。因此,通过UI 126,用户108可以指定在话语104中将被(或不被)辨识的那些属性116,以及将被(或不被)用来从话语104的文本114生成语音120的那些属性116。UI 126还可以提供用于允许用户108指定话语104是要被存储还是被删除以及如果是的话在什么条件下存储或被删除的功能。
应理解,在各种实施方案中,当接收到话语104时,可以同步地执行上述过程,或者可以以离线批处理模式异步地执行上述过程。下面将针对图2提供关于上述各种网络服务的附加细节。
图2是示出例程200的流程图,示出了根据一个实施方案的用于安全地存储话语104的图1的网络服务100的其他方面。应理解,本文对于图2以及其他图描述的逻辑操作可以被实现为:(1)作为在计算***上运行的一系列计算机实现的动作或程序模块,和/或(2)作为处理器(例如下面参考图5描述的处理器500)内部的互连机器逻辑电路或电路模块。
本文所描述的各种部件的实施是取决于计算***的性能和其他要求的选择问题。因此,本文所描述的逻辑操作被不同地称为操作、结构装置、动作或模块。这些操作、结构装置、动作和模块可以用软件、固件、专用数字逻辑及其任一组合来实现。还应理解,可以执行比图中所示和本文所描述的更多或更少的操作。这些操作也可以并行执行,或者以不同于本文所描述的顺序执行。这些操作中的一些或全部也可以由除专门识别的部件之外的部件执行。
例程200开始于操作202,其中可以提供UI 126以允许用户108配置话语存储服务100的操作的各方面。可以在处理话语之前或期间在操作204通过UI 126接收配置128。例如,并且如上所述,用户108可以利用UI 126来定义STT服务112要在话语104中辨识(或不辨识)的那些属性116。用户108还可以利用UI 126来定义TTS服务118在生成音频120时将要使用(或不使用)的那些属性116。话语存储服务100的其他类型的配置选项也可以在UI 126中配置。
例程200从操作204进行到操作206。在操作206,话语存储服务100确定是否已经从计算装置106接收到话语104。如果已经接收到话语104,则例程200从操作206进行到操作208。在操作208,话语存储服务100将接收到的话语104提供给STT服务112。然后,例程200从操作208进行到操作210。
在操作210,STT服务112对话语104执行语音辨识以识别其中包含的词语。然后,STT服务112可以生成包含辨识的词语的文本114。在操作210,STT服务112还可以识别话语104中语音的属性116。如上所述,配置128可以指定STT服务112要辨识(或不辨识)的那些属性116。例程200从操作210进行到操作212。
在操作212,在一些实施方案中,话语104被丢弃。话语104可以被删除或以其他方式从持久性存储装置中移除。在一些实施方案中,UI 126可以用于配置是否要丢弃话语104。然后,例程200从操作212进行到操作214。
在操作214,可以从文本114去除PII和/或其他类型的敏感或不期望的信息。在一些实施方案中,用户108可以利用UI 126来指定要从文本114移除的材料的类型。在一些实施方案中,不从文本114中去除材料,而是将其加密、标记化或以其他方式使其变得不可读和不能说出。在这些实施方案中,如有必要,例如可以通过对材料进行解密来在将来的时间访问材料。例程200从操作214进行到操作216。
在操作216,可以存储文本114和/或属性116,诸如存储在数据存储区122上。如上所述,文本114和属性116可以彼此分开存储,并且与对应的语音120分开存储。可以将属性116存储在比语音120具有更高安全级别的位置。还可以基于发出请求的用户的访问权限来允许对属性116的访问。
例程200从操作216进行到操作218,其中STT服务112将文本114和属性116提供给TTS服务118。然后,在操作220,TTS服务118利用文本114和零或多个属性116来生成语音120。如上所述,用户108可以定义配置128,该配置指定将使用哪些属性116(如果有)来生成语音120。以这种方式,用户108可以定义将用于生成语音120的属性116的子集(例如,那些不传达PII的属性)。
例程200从操作220进行到操作222,其中TTS服务118将语音120存储在例如由存储服务124提供的数据存储区122上。如上所述,由于从语音120中移除了一些或全部属性116,因此语音120可以存储在安全级别比用于存储话语104的安全级别低的位置。从操作222,例程200前进到操作224,在所述操作224处该例程结束。可以上述方式处理其他话语104。
也如上所述,在一些实施方案中,可以向其他网络服务暴露语音120、文本114和/或属性116。例如,被移除了PII的文本114和对应的语音120可以被暴露给STT服务112以用于训练目的。
图3是示出用于安全存储话语的图1的网络服务100的另一示例实施方案的***架构图。在该实施方案中,话语存储服务100或另一部件被配置为将由TTS服务118从文本114A生成的语音120提供给STT服务112。进而,STT服务122对语音120执行语音辨识以识别其中包含的词语(即,文本114B)。
然后,话语存储服务100或另一部件将文本114A与文本114B进行比较。如果文本114A和114B匹配,则可以丢弃原始话语104。另外,还可以基于用户偏好以一些配置来存储语音120。
如果文本114A和114B不匹配,则可以存储话语104,并且可以丢弃语音120。另外,还可以存储从话语104生成的文本114A。下面将针对图4提供关于该过程的附加细节。
图4是示出例程400的流程图,示出了根据一个实施方案的用于安全地存储话语的图3的网络服务100的其他方面。例程400开始于操作402,其中语音120以上面针对图1和2描述的方式生成。然后,例程400进行到操作404,其中将语音120提供给STT服务112。
例程400从操作404进行至操作406,其中STT服务112将TTS生成的音频120转换为文本114B。然后,例程400进行到操作408,其中话语存储服务100或另一部件将文本114B与从原始话语104生成的文本114A进行比较。然后,例程400从操作408进行到操作410。
在操作410,话语存储服务100或另一部件确定文本114A和文本114B是否相同(即,匹配)。如果文本114A和文本114B匹配,则例程400从操作410进行至操作412,其中原始话语104被丢弃(例如,从持久性存储装置中删除)。然后,例程400进行到操作414,其中可以存储语音120。然后,例程400从操作414进行至操作424,在所述操作424处该例程结束。
如果在操作410,话语存储服务100或另一部件确定文本114A和文本114B不匹配,则例程400从操作410进行至操作416,其中话语存储服务100或另一部件确定语音120是否将被存储。在一些实施方案中,UI 126可用于定义配置128,该配置指示当文本114A与文本114B不匹配时是否要存储语音120。如果将不存储话语104,则例程400从操作418进行到操作424,在所述操作424处该例程结束。
如果要存储语音120,则例程400从操作418进行到操作420,其中存储语音120,例如存储在数据存储区122中。然后,例程400从操作420进行至操作422,其中也可以依据用户偏好来存储文本114A。然后,例程400从操作422进行至操作424,在所述操作424处该例程结束。
图5是根据一个实施方案示出被配置用于安全地存储话语的处理器的配置和操作的各方面的***架构图。如图5所示,处理器500包括解码器电路502,其被配置为以上述方式解码指令以安全地存储话语104。
由解码器电路解码的指令可以是通用指令或功能特定的指令,其从STT服务112接收话语104的语音属性116和文本114。当解码器电路502被配置为解码功能特定的指令时,解码器电路502也可以特定于那些指令,以便解码x86、ARM、MIPS或其他架构中包括的特定指令字段,例如操作码、一个或多个数据字段(数据的即时地址)等。在其他实施方案中,可以利用其他处理器配置来实现上述功能。解码器电路502可以输出音频120,并且以上述方式将音频120存储在适当的数据存储区122中。
图6是示出了分布式执行环境602的各方面的***和网络图,该分布式执行环境可以提供用于实现本文公开的各种技术的计算资源,包括但不限于分布式执行环境102、话语安全服务100、STT服务112、TTS服务118,上面分别详细介绍了它们。由分布式执行环境602提供的计算资源可以包括各种类型的计算资源,例如数据处理资源、数据存储资源、联网资源、数据通信资源、网络服务等。
由分布式执行环境602提供的每种类型的计算资源可以是通用的,或者可以是能够以许多特定配置来使用。例如,数据处理资源可以是能够作为物理计算机或虚拟机实例以许多不同配置来使用。虚拟机实例可以被配置为执行应用程序,包括web服务器、应用程序服务器、媒体服务器、数据库服务器、本文所描述的一些或全部服务和/或其他类型的程序。数据存储资源可以包括文件存储装置、块存储装置等。分布式执行环境602还可以被配置为提供其他类型的资源和网络服务。
在一种实施方式中,由一个或多个数据中心604A-604N(在本文中可能以单数形式将其统称为“数据中心604”或以复数形式将其称为“多个数据中心604”)来实现由分布式执行环境602提供的计算资源。数据中心604是用于容纳和操作计算机***和相关部件的设施。数据中心604通常包括冗余和备用电源、通信、冷却和安全***。数据中心604也可以位于不同的地理位置。下面将针对图7描述实现本文公开的一些技术的数据中心604的一种说明性配置。
分布式执行环境602的用户,例如计算装置106的用户,可以通过网络606访问分布式执行环境602提供的各种资源,网络可以是广域通信网络(“WAN”),例如因特网、内部网或因特网服务提供商(“ISP”)网络或这些网络的组合。例如但不限于,用户计算装置608可以用于通过网络606来访问分布式执行环境602。应理解,也可以利用局域网(“LAN”)、因特网或本领域已知的将数据中心604连接到远程计算机的任何其他网络拓扑。还应了解,还可以利用此类网络的组合。
图7是示出了可用于实现本文公开的技术的数据中心604的一种配置的计算***图。图7中所示的示例数据中心604可以包括:用于提供计算资源708A-708E的多个服务器计算机702A-702F(在本文中可能以单数形式将其统称为“服务器计算机702”或以复数形式将其称为“多个服务器计算机702”)。
服务器计算机702可以是被适当配置用于提供计算资源708的标准塔式、机架式或刀片服务器计算机。如上所述,计算资源708可以是数据处理资源,例如虚拟机实例或硬件计算***、数据存储资源、数据库资源、联网资源等。一些服务器702还可以被配置为执行能够实例化和/或管理计算资源708的资源管理器704。例如,在虚拟机实例的情况下,资源管理器704可以是虚拟机监控程序或被配置为允许在单个服务器702上执行多个虚拟机实例的另一种类型的程序。数据中心704中的服务器计算机702还可以被配置为提供网络服务和其他类型的服务,以支持话语安全服务100、STT服务112和TTS服务118的部件以及本文所描述的相关功能的提供。
图7所示的数据中心704还包括可以执行上述一些或全部软件部件的服务器计算机702F。例如但不限于,服务器计算机702F可以被配置为执行用于提供话语安全服务100的软件部件。服务器计算机702F还可被配置为执行其他部件和/或存储用于提供本文所述的一些或全部功能的数据。就这一点而言,应理解,在各种实施方案中,图7所示的在服务器计算机702F上执行的软件部件可以在数据中心704中的许多其他物理或虚拟服务器上执行。
在图7中所示的示例数据中心704,适当的LAN 706也用于将服务器计算机702A-702F互连起来。LAN 706还连接到图6中所示的网络606。应了解,本文所描述的配置和网络拓扑已经大大地简化,并且很多其他计算***、软件部件、网络和网络装置可以用来将本文中公开的各种计算***互连并提供上述功能。
也可以使用适当的负载平衡装置或其他类型的网络基础设施部件平衡每个数据中心704A-704N之间、每个数据中心704中的每个服务器计算机702A-702F之间以及潜在地每个数据中心704中的计算资源708之间的负载。还应理解,参考图7描述的数据中心604的配置仅仅是说明性的,并且可以利用其他实现方式。
图8示出了计算机800的示例计算机架构,该计算机能够执行用于实现本文所描述的功能的各个方面的程序部件。图8中所示的计算机架构示出了常规的服务器计算机、工作站、台式计算机、膝上型电脑、平板电脑、网络设备、电子阅读器、智能手机或其他计算装置,并且可以用于执行本文呈现的任何软件部件。例如,图8所示的计算机架构可用于执行用于提供话语安全服务100的软件部件,以及本文所描述的相关功能。图8所示的计算机架构也可以用来实现计算装置106。
计算机800包括基板802或“母板”,其是印刷电路板,多个部件或装置可以通过***总线或其他电通信路径连接到该印刷电路板。在一个说明性实施方案中,一个或多个中央处理单元(“CPU”)804与芯片组806协同操作。CPU 804可以是执行计算机800操作所需的算术和逻辑操作的标准可编程处理器。
CPU 804通过操纵区分和改变离散的物理状态的开关元件从一种离散的物理状态转换到下一种状态来执行操作。开关元件通常可以包括维持两种二进制状态之一的电子电路,例如触发器,以及基于一个或多个其他开关元件的状态的逻辑组合提供输出状态的电子电路,例如逻辑门。这些基本开关元件可以被组合以创建更复杂的逻辑电路,包括寄存器、加法器-减法器、算术逻辑单元、浮点单元等。
芯片组806提供CPU 804与基板802上的其余部件和装置之间的接口。芯片组806可以提供到用作计算机800中的主存储器的RAM 808的接口。芯片组806还可以提供通到诸如只读存储器(“ROM”)810或非易失性RAM(“NVRAM”)之类的计算机可读存储介质的接口,用于存储帮助启动计算机800和在各种部件和装置之间传输信息的基本例程。ROM 810或NVRAM还可以存储根据本文所描述的实施方案的计算机800的操作所必需的其他软件部件。
计算机800可以使用通过诸如网络806之类的网络到远程计算装置和计算机***的逻辑连接,在联网环境中操作。芯片组806可以包括用于通过NIC 812(例如千兆位以太网适配器)提供网络连接的功能。NIC 812能够通过网络706将计算机800连接到其他计算装置。应理解,在计算机800中可以存在多个NIC 812,将计算机连接到其他类型的网络和远程计算机***。
计算机800可以连接到大容量存储装置818,其为计算机提供非易失性存储装置。大容量存储装置818可以存储操作***820、程序822和数据,这些已在本文中更详细地描述。大容量存储装置818可以通过连接到芯片组806的存储控制器814连接到计算机800。大容量存储装置818可以由一个或多个物理存储单元组成。存储控制器814可以通过串行附接SCSI(“SAS”)接口、串行高级技术附件(“SATA”)接口、光纤通道(“FC”)接口或用于在计算机和物理存储单元之间进行物理连接和传输数据的其他类型的接口,与物理存储单元介接。
计算机800可以通过变换物理存储单元的物理状态以反映正在存储的信息来将数据存储在大容量存储装置818上。在本说明书的不同实现方式中,物理状态的具体变换可以取决于各种因素。这些因素的示例可以包括但不限于用于实现物理存储单元的技术、大容量存储装置818表征作为主存储装置还是作为辅助存储装置等。
例如,计算机800可以通过经由存储控制器814发出改变磁盘驱动单元内特定位置的磁特性、光存储单元中特定位置的反射或折射特性、或者固态存储单元中特定电容器、晶体管或其他分立部件的电特性的指令,来将信息存储到大容量存储装置818。在不脱离本说明书的范围和精神的情况下,物理介质的其他变换是可能的,其中前述示例仅为了便于进行该描述而提供。计算机800还可以通过检测物理存储单元内的一个或多个特定位置的物理状态或特性来从大容量存储装置818读取信息。
除了上述大容量存储装置818之外,计算机800还可以访问其他计算机可读存储介质以存储和检索信息,例如程序模块、数据结构或其他数据。本领域技术人员应理解,计算机可读存储介质是提供数据的非暂时性存储并且能够被计算机800访问的任何可用介质。
作为示例而非限制,计算机可读存储介质可以包括以任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机可读存储介质包括但不限于RAM、ROM、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、快闪存储器或其他固态存储器技术、光盘ROM(“CD-ROM”)、数字通用磁盘(“DVD”)、高分辨率DVD(“HD-DVD”)、BLU-RAY或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储装置或者可用于以非暂时性方式存储所需信息的任何其他介质。
如上面简要提到的,大容量存储装置818可以存储用于控制计算机800的操作的操作***820。在一个实施方案中,操作***820是LINUX操作***。在另一个实施方案中,操作***820是MICROSOFT CORPORATION的WINDOWS SERVER操作***。在其他实施方案中,UNIX操作***或其变体之一可以用作操作***820。应理解,也可以使用其他操作***。大容量存储装置818可以存储计算机800利用的其他***或应用程序和数据。
在一个实施方案中,大容量存储装置818或其他计算机可读存储介质用计算机可执行指令编码,当计算机可执行指令被加载到计算机800中并执行时,将计算机从通用计算***变换成能够实现本文所描述的实施方案的专用计算机。如上所述,这些计算机可执行指令通过指定CPU 804如何在各状态之间转换来变换计算机800。根据一个实施方案,计算机800可以访问存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令在由计算机800执行时执行本文所描述的各种过程。计算机800还可以包括用于执行本文所描述的任何其他计算机实现的操作的计算机可读存储介质。
计算机800还可以包括一个或多个输入/输出控制器816,用于接收和处理来自许多输入装置例如键盘、鼠标、触摸板、触摸屏、电子触笔或其他类型的输入装置的输入。类似地,输入/输出控制器816可以向显示器例如计算机监视器、平板显示器、数字投影仪、打印机或其他类型的输出装置提供输出。应理解,计算机800可以并非包括图8所示的所有部件,可以包括图8中未明确示出的其他部件,或者可以利用与图8所示完全不同的架构。
本文公开的一个或多个实施方案可以包括处理器,用于使得语音到文本服务对第一音频数据执行语音辨识以识别第一音频数据中的一个或多个第一词语和多个属性,使得文本到语音服务使用至少一个或多个第一词语和多个属性的子集来生成第二音频数据,以及使得仅存储第二音频数据。
可选地,在本文公开的一个或多个实施方案中,多个属性可以指示说话者的个人可识别信息。可选地,在本文公开的一个或多个实施方案中,多个属性的子集可以包括不指示讲话者的个人可识别信息的属性。可选地,在本文公开的一个或多个实施方案中,处理器还可以提供用户界面以用于定义多个属性的子集。可选地,在本文公开的一个或多个实施方案中,处理器还可以使得提供用户界面以用于指定是要存储还是删除第一音频数据。可选地,在本文公开的一个或多个实施方案中,处理器还可以使得对第二音频数据执行语音辨识以识别一个或多个第二词语;使得将一个或多个第一词语与一个或多个第二词语进行比较;以及响应于确定一个或多个第一词语与一个或多个第二词语相同,使得丢弃第一音频数据并使得存储第二音频数据。可选地,在本文公开的一个或多个实施方案中,响应于确定一个或多个第一词语与一个或多个第二词语不同,处理器还可以使得存储第一音频数据并使得丢弃第二音频数据。可选地,在本文公开的一个或多个实施方案中,第一音频数据可以包括一个或多个第一词语的第一话语,并且第二音频数据可以包括一个或多个第一词语的第二话语。
本文公开的一个或多个实施方案可以使得对第一音频数据执行语音辨识以识别第一音频数据中的一个或多个第一词语和多个属性,使得使用至少一个或多个第一词语和多个属性的子集生成第二音频数据,以及使得仅存储第二音频数据。
可选地,在本文公开的一个或多个实施方案中,多个属性可以指示说话者的个人可识别信息。可选地,在本文公开的一个或多个实施方案中,多个属性的子集可以包括不指示讲话者的个人可识别信息的属性。可选地,本文公开的一个或多个实施方案可以提供用户界面以用于定义多个属性的子集。可选地,本文公开的一个或多个实施方案可以对第二音频数据执行语音辨识以识别一个或多个第二词语,将一个或多个第一词语与一个或多个第二词语进行比较,并响应于确定一个或多个第一词语与一个或多个第二词语相同,丢弃第一音频数据并仅存储第二音频。可选地,响应于确定一个或多个第一词语与一个或多个第二词语不同,本文公开的一个或多个实施方案可以存储第一音频数据并丢弃第二音频数据。可选地,在本文公开的一个或多个实施方案中,第一音频数据可以包括一个或多个第一词语的第一话语,并且第二音频数据可以包括一个或多个第一词语的第二话语。
应理解,本文已经公开了用于安全存储话语的技术。尽管本文呈现的主题已经用特定于计算机结构特征、方法动作和计算机可读介质的语言进行了描述,但是应理解,在所附权利要求中定义的本发明不一定限于本文所描述的特定特征、动作或介质。相反,具体特征、动作和介质是作为实现权利要求的示例形式公开的。
上述主题仅通过说明的方式提供,而不应被解释为限制性的。此外,要求保护的主题不限于解决在本公开任何部分指出的任何或所有缺点的实现方式。可以对本文所描述的主题进行各种修改和改变,而不遵循所说明和描述的示例性实施方案和应用,并且不脱离在所附权利要求中阐述的本发明的真实精神和范围。

Claims (15)

1.一种处理器,其用于:
使得语音到文本服务对第一音频数据执行语音辨识,以识别所述第一音频数据中的一个或多个第一词语和多个属性;
使得文本到语音服务使用至少所述一个或多个第一词语和所述多个属性的子集来生成第二音频数据;以及
使得仅存储所述第二音频数据。
2.如权利要求1所述的处理器,其中所述多个属性指示说话者的个人可识别信息。
3.如权利要求2所述的处理器,其中所述多个属性的所述子集包括不指示所述说话者的所述个人可识别信息的属性。
4.如权利要求1、2或3中任一项所述的处理器,其还提供用户界面以用于定义所述多个属性的所述子集。
5.如权利要求1、2、3或4中任一项所述的处理器,其还使得提供用户界面以用于指定是要存储还是删除所述第一音频数据。
6.如权利要求1、2、3、4或5中任一项所述的处理器,其还用于:
使得对所述第二音频数据执行语音辨识以识别一个或多个第二词语;
将所述一个或多个第一词语与所述一个或多个第二词语进行比较;以及
响应于确定所述一个或多个第一词语与所述一个或多个第二词语相同,使得丢弃所述第一音频数据并使得存储所述第二音频数据。
7.如权利要求6所述的处理器,其还响应于确定所述一个或多个第一词语与所述一个或多个第二词语不同,使得存储所述第一音频数据并使得丢弃所述第二音频数据。
8.如权利要求1、2、3、4、5、6或7中任一项所述的处理器,其中所述第一音频数据包括所述一个或多个第一词语的第一话语,并且所述第二音频数据包括所述一个或多个第一词语的第二话语。
9.一种计算机实现的方法,其包括:
使得对第一音频数据执行语音辨识以识别所述第一音频数据中的一个或多个第一词语和多个属性;
使得使用至少所述一个或多个第一词语和所述多个属性的子集来生成第二音频数据;以及
使得仅存储所述第二音频数据。
10.如权利要求9所述的计算机实现的方法,其中所述多个属性指示说话者的个人可识别信息。
11.如权利要求10所述的计算机实现的方法,其中所述多个属性的所述子集包括不指示所述说话者的所述个人可识别信息的属性。
12.如权利要求9、10或11中任一项所述的计算机实现的方法,其还包括提供用户界面以用于定义所述多个属性的所述子集。
13.如权利要求9、10、11或12中任一项所述的计算机实现的方法,其还包括:
对所述第二音频数据执行语音辨识以识别一个或多个第二词语;
比较所述一个或多个第一词语与所述一个或多个第二词语;以及
响应于确定所述一个或多个第一词语与所述一个或多个第二词语相同,丢弃所述第一音频数据并仅存储所述第二音频。
14.如权利要求13所述的计算机实现的方法,其还包括响应于确定所述一个或多个第一词语与所述一个或多个第二词语不同,存储所述第一音频数据并丢弃所述第二音频数据。
15.如权利要求9、10、11、12、13或14中任一项所述的计算机实现的方法,其中所述第一音频数据包括所述一个或多个第一词语的第一话语,并且所述第二音频数据包括所述一个或多个第一词语的第二话语。
CN201880041194.6A 2017-06-28 2018-06-13 安全的话语存储 Active CN110770826B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/635,936 2017-06-28
US15/635,936 US10909978B2 (en) 2017-06-28 2017-06-28 Secure utterance storage
PCT/US2018/037357 WO2019005486A1 (en) 2017-06-28 2018-06-13 MEMORY OF SECURE STATEMENTS

Publications (2)

Publication Number Publication Date
CN110770826A true CN110770826A (zh) 2020-02-07
CN110770826B CN110770826B (zh) 2024-04-12

Family

ID=62842228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880041194.6A Active CN110770826B (zh) 2017-06-28 2018-06-13 安全的话语存储

Country Status (4)

Country Link
US (1) US10909978B2 (zh)
EP (1) EP3646320B1 (zh)
CN (1) CN110770826B (zh)
WO (1) WO2019005486A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10540521B2 (en) * 2017-08-24 2020-01-21 International Business Machines Corporation Selective enforcement of privacy and confidentiality for optimization of voice applications
US11069349B2 (en) * 2017-11-08 2021-07-20 Dillard-Apple, LLC Privacy-preserving voice control of devices
US11138334B1 (en) * 2018-10-17 2021-10-05 Medallia, Inc. Use of ASR confidence to improve reliability of automatic audio redaction
US11340863B2 (en) * 2019-03-29 2022-05-24 Tata Consultancy Services Limited Systems and methods for muting audio information in multimedia files and retrieval thereof
KR102413616B1 (ko) 2019-07-09 2022-06-27 구글 엘엘씨 온-디바이스 음성 인식 모델 트레이닝을 위한 텍스트 세그먼트의 온-디바이스 음성 합성
US11449674B2 (en) 2020-04-28 2022-09-20 International Business Machines Corporation Utility-preserving text de-identification with privacy guarantees
US11217223B2 (en) 2020-04-28 2022-01-04 International Business Machines Corporation Speaker identity and content de-identification
KR102392300B1 (ko) * 2020-06-03 2022-04-29 주식회사 마인드웨어Ÿp스 개인정보 보호 기반 음성 정보 처리 서비스 제공 시스템
US20230359765A1 (en) * 2022-05-06 2023-11-09 International Business Machines Corporation Protecting sensitive personal information in spoken commands
US20230394169A1 (en) * 2022-06-03 2023-12-07 Nuance Communications, Inc. System and Method for Secure Transcription Generation

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5911129A (en) * 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
EP1170726A1 (en) * 2000-07-05 2002-01-09 International Business Machines Corporation Speech recognition correction for devices having limited or no display
CN1522430A (zh) * 2002-05-01 2004-08-18 ������������ʽ���� 对文本数据进行编码,以包含用在文本-语音(tts)***中的增强型语音数据的方法以及解码方法,tts***和包含所述tts***的移动电话
US20050071161A1 (en) * 2003-09-26 2005-03-31 Delta Electronics, Inc. Speech recognition method having relatively higher availability and correctiveness
CN1629932A (zh) * 2003-12-17 2005-06-22 三星电子株式会社 支持文本到语音导航的方法和使用该方法的多媒体装置
CN1783212A (zh) * 2004-10-29 2006-06-07 微软公司 转换文本为语音的***和方法
US20060293898A1 (en) * 2005-06-22 2006-12-28 Microsoft Corporation Speech recognition system for secure information
US20090055175A1 (en) * 2007-08-22 2009-02-26 Terrell Ii James Richard Continuous speech transcription performance indication
US20120035933A1 (en) * 2010-08-06 2012-02-09 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
CN102915733A (zh) * 2011-11-17 2013-02-06 微软公司 交互式语音识别
US20140019126A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Speech-to-text recognition of non-dictionary words using location data
CN104285428A (zh) * 2012-05-08 2015-01-14 三星电子株式会社 用于运行通信服务的方法和***
US20150149178A1 (en) * 2013-11-22 2015-05-28 At&T Intellectual Property I, L.P. System and method for data-driven intonation generation
US9058813B1 (en) * 2012-09-21 2015-06-16 Rawles Llc Automated removal of personally identifiable information
CN105637503A (zh) * 2013-10-22 2016-06-01 爱克发医疗保健公司 具有同时文本编辑的语音识别方法和***
CN106463113A (zh) * 2014-03-04 2017-02-22 亚马逊技术公司 在语音辨识中预测发音
CN106575501A (zh) * 2014-07-02 2017-04-19 伯斯有限公司 组合本地和远程生成的语音数据的话音提示生成

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5113449A (en) * 1982-08-16 1992-05-12 Texas Instruments Incorporated Method and apparatus for altering voice characteristics of synthesized speech
EP1571815A3 (en) * 1996-06-03 2006-10-04 WorldVoice Licensing, Inc. Telephonic voice message store and forward method having network address and voice authentication
US6404872B1 (en) * 1997-09-25 2002-06-11 At&T Corp. Method and apparatus for altering a speech signal during a telephone call
US7275032B2 (en) * 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
US8473451B1 (en) * 2004-07-30 2013-06-25 At&T Intellectual Property I, L.P. Preserving privacy in natural language databases
US7714878B2 (en) * 2004-08-09 2010-05-11 Nice Systems, Ltd. Apparatus and method for multimedia content based manipulation
US7693719B2 (en) * 2004-10-29 2010-04-06 Microsoft Corporation Providing personalized voice font for text-to-speech applications
US7363227B2 (en) * 2005-01-10 2008-04-22 Herman Miller, Inc. Disruption of speech understanding by adding a privacy sound thereto
WO2006076217A2 (en) * 2005-01-10 2006-07-20 Herman Miller, Inc. Method and apparatus of overlapping and summing speech for an output that disrupts speech
US7502741B2 (en) * 2005-02-23 2009-03-10 Multimodal Technologies, Inc. Audio signal de-identification
US8266452B2 (en) * 2005-06-01 2012-09-11 Cisco Technology, Inc. System and method for communicating confidential messages
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
US20070244700A1 (en) 2006-04-12 2007-10-18 Jonathan Kahn Session File Modification with Selective Replacement of Session File Components
US8433915B2 (en) * 2006-06-28 2013-04-30 Intellisist, Inc. Selective security masking within recorded speech
US7724918B2 (en) * 2006-11-22 2010-05-25 International Business Machines Corporation Data obfuscation of text data using entity detection and replacement
US8099287B2 (en) * 2006-12-05 2012-01-17 Nuance Communications, Inc. Automatically providing a user with substitutes for potentially ambiguous user-defined speech commands
US20080208579A1 (en) * 2007-02-27 2008-08-28 Verint Systems Ltd. Session recording and playback with selective information masking
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
US8843373B1 (en) * 2007-06-07 2014-09-23 Avaya Inc. Voice quality sample substitution
US7689421B2 (en) * 2007-06-27 2010-03-30 Microsoft Corporation Voice persona service for embedding text-to-speech features into software programs
US8244531B2 (en) * 2008-09-28 2012-08-14 Avaya Inc. Method of retaining a media stream without its private audio content
US9531854B1 (en) * 2009-12-15 2016-12-27 Google Inc. Playing local device information over a telephone connection
US20110218798A1 (en) * 2010-03-05 2011-09-08 Nexdia Inc. Obfuscating sensitive content in audio sources
US20130266127A1 (en) * 2012-04-10 2013-10-10 Raytheon Bbn Technologies Corp System and method for removing sensitive data from a recording
US9093069B2 (en) * 2012-11-05 2015-07-28 Nuance Communications, Inc. Privacy-sensitive speech model creation via aggregation of multiple user models
US9514741B2 (en) * 2013-03-13 2016-12-06 Nuance Communications, Inc. Data shredding for speech recognition acoustic model training under data retention restrictions
US9413891B2 (en) * 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
US9666204B2 (en) * 2014-04-30 2017-05-30 Qualcomm Incorporated Voice profile management and speech signal generation
US10803850B2 (en) * 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
US9799324B2 (en) * 2016-01-28 2017-10-24 Google Inc. Adaptive text-to-speech outputs
DK179034B1 (en) * 2016-06-12 2017-09-04 Apple Inc Devices, methods, and graphical user interfaces for dynamically adjusting presentation of audio outputs
EP3496090A1 (en) * 2017-12-07 2019-06-12 Thomson Licensing Device and method for privacy-preserving vocal interaction
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5911129A (en) * 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
EP1170726A1 (en) * 2000-07-05 2002-01-09 International Business Machines Corporation Speech recognition correction for devices having limited or no display
CN1522430A (zh) * 2002-05-01 2004-08-18 ������������ʽ���� 对文本数据进行编码,以包含用在文本-语音(tts)***中的增强型语音数据的方法以及解码方法,tts***和包含所述tts***的移动电话
US20050071161A1 (en) * 2003-09-26 2005-03-31 Delta Electronics, Inc. Speech recognition method having relatively higher availability and correctiveness
CN1629932A (zh) * 2003-12-17 2005-06-22 三星电子株式会社 支持文本到语音导航的方法和使用该方法的多媒体装置
CN1783212A (zh) * 2004-10-29 2006-06-07 微软公司 转换文本为语音的***和方法
US20060293898A1 (en) * 2005-06-22 2006-12-28 Microsoft Corporation Speech recognition system for secure information
US20090055175A1 (en) * 2007-08-22 2009-02-26 Terrell Ii James Richard Continuous speech transcription performance indication
US20120035933A1 (en) * 2010-08-06 2012-02-09 At&T Intellectual Property I, L.P. System and method for synthetic voice generation and modification
US8352245B1 (en) * 2010-12-30 2013-01-08 Google Inc. Adjusting language models
CN102903362A (zh) * 2011-09-02 2013-01-30 微软公司 集成的本地和基于云的语音识别
CN102915733A (zh) * 2011-11-17 2013-02-06 微软公司 交互式语音识别
CN104285428A (zh) * 2012-05-08 2015-01-14 三星电子株式会社 用于运行通信服务的方法和***
US20140019126A1 (en) * 2012-07-13 2014-01-16 International Business Machines Corporation Speech-to-text recognition of non-dictionary words using location data
US9058813B1 (en) * 2012-09-21 2015-06-16 Rawles Llc Automated removal of personally identifiable information
CN105637503A (zh) * 2013-10-22 2016-06-01 爱克发医疗保健公司 具有同时文本编辑的语音识别方法和***
US20150149178A1 (en) * 2013-11-22 2015-05-28 At&T Intellectual Property I, L.P. System and method for data-driven intonation generation
CN106463113A (zh) * 2014-03-04 2017-02-22 亚马逊技术公司 在语音辨识中预测发音
CN106575501A (zh) * 2014-07-02 2017-04-19 伯斯有限公司 组合本地和远程生成的语音数据的话音提示生成

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IAN ARAWJO等: "TypeTalker: A Speech Synthesis-Based Multi-Modal Commenting System", 《CSCW \"17: PROCEEDINGS OF THE 2017 ACM CONFERENCE ON COMPUTER SUPPORTED COOPERATIVE WORK AND SOCIAL COMPUTING》, pages 1970 - 1981 *

Also Published As

Publication number Publication date
US20190005952A1 (en) 2019-01-03
US10909978B2 (en) 2021-02-02
EP3646320B1 (en) 2024-01-03
CN110770826B (zh) 2024-04-12
WO2019005486A1 (en) 2019-01-03
EP3646320A1 (en) 2020-05-06

Similar Documents

Publication Publication Date Title
CN110770826B (zh) 安全的话语存储
US20180089572A1 (en) Hybrid approach for developing, optimizing, and executing conversational interaction applications
US20200226212A1 (en) Adversarial Training Data Augmentation Data for Text Classifiers
US10656910B2 (en) Learning intended user actions
US10755719B2 (en) Speaker identification assisted by categorical cues
US11429791B2 (en) Automated application composer with natural language processing
US20200183961A1 (en) External action execution with conversational agent
US11830493B2 (en) Method and apparatus with speech processing
US11037549B1 (en) System and method for automating the training of enterprise customer response systems using a range of dynamic or generic data sets
US9685159B2 (en) Speaker recognition from telephone calls
US20230153541A1 (en) Generating and updating conversational artifacts from apis
US10419606B2 (en) Call recording test suite
US11222143B2 (en) Certified information verification services
US20230419950A1 (en) Artificial intelligence factsheet generation for speech recognition
TWI818427B (zh) 使用基於文本的說話者變更檢測的說話者劃分糾正方法及系統
US10423873B2 (en) Information flow analysis for conversational agents
US11922129B2 (en) Causal knowledge identification and extraction
US11705125B2 (en) Dynamic voice input detection for conversation assistants
US11841885B2 (en) Multi-format content repository search
US20220043848A1 (en) Generating entity relation suggestions within a corpus
US11270075B2 (en) Generation of natural language expression variants
US20230122338A1 (en) Knowledge Graph Driven Content Generation
US10013485B2 (en) Creating, rendering and interacting with a multi-faceted audio cloud
US20220036007A1 (en) Bootstrapping relation training data
CN112802458B (zh) 唤醒方法和装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant