CN116670754A - 用于内容审核的多阶段自适应*** - Google Patents

用于内容审核的多阶段自适应*** Download PDF

Info

Publication number
CN116670754A
CN116670754A CN202180080395.9A CN202180080395A CN116670754A CN 116670754 A CN116670754 A CN 116670754A CN 202180080395 A CN202180080395 A CN 202180080395A CN 116670754 A CN116670754 A CN 116670754A
Authority
CN
China
Prior art keywords
stage
content
speech
positive
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180080395.9A
Other languages
English (en)
Inventor
W·C·赫夫曼
M·帕帕斯
H·霍维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adjusting Co
Original Assignee
Adjusting Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adjusting Co filed Critical Adjusting Co
Publication of CN116670754A publication Critical patent/CN116670754A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

一种毒害性审核***具有被配置为从讲话者接收语音的输入部。该***包括多阶段毒害性机器学***是否满足毒害性阈值。所述第一阶段还被配置为将满足所述毒害性阈值的语音过滤通过到所述第二阶段,并且还被配置为过滤掉不满足所述毒害性阈值的语音。

Description

用于内容审核的多阶段自适应***
优先权
本专利申请要求2020年10月8日提交的题为“MULTI-STAGE ADAPTIVE SYSTEM FORCONTENT MODERATION”的并且发明人为William Carter Huffman、Michael Pappas和HenryHowie的美国临时专利申请号63/089,226的优先权,其公开内容通过引用整体并入本文。
技术领域
本发明的例示性实施方式总体上涉及内容的审核,并且更具体地,本发明的各种实施方式涉及审核在线环境中的话音内容。
背景技术
允许用户之间交流的大型多用户平台(如Reddit、Facebook和视频游戏)会遇到毒害性和破坏性行为的问题,一些用户可能会骚扰、冒犯或贬低他人,从而使他们不愿意参与该平台。破坏性行为通常通过文本、语音或视频媒体进行;例如在话音聊天中口头骚扰另一用户,或发布令人反感的视频或文章。破坏性行为也可以通过故意破坏基于团队的活动来实现,例如团队游戏中的一名玩家故意表现不佳以使队友不高兴。这些行为会影响用户和平台本身:遇到破坏性行为的用户可能不太愿意参与平台,或者参与的时间较短;而足够恶劣的行为可能会导致用户彻底放弃该平台。
平台可以通过内容审核直接打击破坏性行为,内容审核观察平台用户并在发现破坏性内容时采取行动。反应可以是直接的,例如暂时或永久禁言骚扰他人的用户;或微妙的,例如将有害用户聚集在同一个圈子中,让平台的其余部分保持干净。传统的内容审核***分为两个阵营:高度自动化但易于规避且仅存在于特定领域的***,以及准确但高度人工、缓慢且昂贵的***。
发明内容
根据本发明的一个实施方式,一种毒害性审核***具有被配置为从讲话者接收语音的输入部。该***包括多阶段毒害性机器学***是否满足毒害性阈值。所述第一阶段还被配置为将满足所述毒害性阈值的语音过滤通过(filter-through)到所述第二阶段,并且还被配置为过滤掉(filter-out)不满足所述毒害性阈值的语音。
在各种实施方式中,使用具有训练数据的数据库来训练所述第一阶段,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例。可以使用反馈处理来训练所述第一阶段。所述反馈处理可以接收语音内容,并且使用所述第一阶段来分析所述语音内容,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容。所述反馈处理还可以使用所述第二阶段来分析所述第一阶段肯定语音内容,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容。所述反馈处理还可以使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
为了提高整个***的效率,所述第一阶段可以丢弃所述第一阶段否定语音内容的至少一部分。此外,所述第一阶段可以使用所述反馈处理进行训练,所述反馈处理包括:使用所述第二阶段来分析少于全部的所述第一阶段否定语音内容,以将所述第一阶段否定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容。所述反馈处理可以使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
其中,所述毒害性审核***可以包括随机上传器,所述随机上传器被配置为将所述语音的不满足所述毒害性阈值的部分上传到后续阶段或人工审核员。所述***可以包括会话背景标记器,所述会话背景标记器被配置为接收所述讲话者先前在预定时间量内满足所述毒害性阈值的指示。当收到指示时,所述标记器可以:(a)调整所述毒害性阈值,或者(b)将所述语音的不满足所述毒害性阈值的部分上传到后续阶段或人工审核员。
所述毒害性审核***还可以包括用户背景分析器。所述用户背景分析器被配置为基于所述讲话者的年龄、听者的年龄、所述讲话者的地理区域、所述讲话者的好友列表、最近互动的听者的历史、讲话者的游戏时间、讲话者的游戏时长、游戏开始和游戏结束的时间和/或游戏历史来调整所述毒害性阈值和/或毒害性置信度。所述***可以包括情感分析器,所述情感分析器被训练成确定所述讲话者的情感。所述***还可以包括年龄分析器,所述年龄分析器被训练成确定所述讲话者的年龄。
在各种实施方式中,所述***具有时序接受域,所述时序接受域被配置为将语音划分成能够由至少一个阶段接收的时间片段。所述***还具有语音分段器,所述语音分段器被配置为将语音划分成能够由至少一个阶段分析的时间片段。在各种实施方式中,所述第一阶段比所述第二阶段更高效。
根据另一个实施方式,一种多阶段内容分析***包括第一阶段,所述第一阶段是使用具有训练数据的数据库来训练的,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例。所述第一阶段被配置为:接收语音内容,并且分析所述语音内容,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容。所述***包括第二阶段,所述第二阶段被配置为接收所述第一阶段否定语音内容的至少一部分,但少于全部。所述第二阶段还被配置为分析所述第一阶段肯定语音内容,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容,所述第二阶段还被配置为使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
其中,所述第二阶段被配置为分析接收到的第一阶段否定语音内容,以将所述第一阶段否定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容。此外,所述第二阶段被配置为使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
根据又一实施方式,一种方法训练多阶段内容分析***。所述方法提供多阶段内容分析***。所述***具有第一阶段和第二阶段。所述***使用具有训练数据的数据库对所述第一阶段进行训练,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例。所述方法接收语音内容。使用所述第一阶段来分析所述语音内容,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容。使用所述第二阶段来分析所述第一阶段肯定语音内容,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容。所述方法使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。所述方法还丢弃所述第一阶段否定语音内容的至少一部分。
所述方法还可以使用所述第二阶段来分析少于全部的所述第一阶段否定语音内容,以将所述第一阶段否定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容。所述方法还可以使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
其中,所述方法可以使用具有训练数据的数据库,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例。所述方法产生与所述语音内容的一部分相关联的第一阶段肯定确定(“S1-肯定确定”)和/或第一阶段否定确定(“S1-否定确定”)。分析与所述S1-肯定确定相关联的语音。其中,所述肯定示例和/或否定示例与特定类别的毒害性有关。
根据另一实施方式,一种用于管理内容的审核***包括串联设置的多个相继阶段。各个阶段被配置为接收输入内容并且过滤所述输入内容以产生过滤后的内容。所述阶段中的多个阶段皆被配置为将所述过滤后的内容朝着相继阶段转发。所述***包括在操作上与所述阶段联接的训练逻辑。所述训练逻辑被配置为使用与给定后续阶段的处理有关的信息来训练早期阶段的处理,所述给定后续阶段接收直接从所述早期阶段或者从所述给定后续阶段与所述早期阶段之间的至少一个阶段获得的内容。
该内容可以是语音内容。各个阶段的所述过滤后的内容可以包括接收到的输入内容的子集。各个阶段可以被配置成从输入内容产生要转发到效率较低的阶段的过滤后的内容,给定的效率较低的阶段比效率较高的第二阶段更强大。
本发明的例示性实施方式被实现为具有计算机可用介质的计算机程序产品,所述计算机可用介质上带有计算机可读程序代码。该计算机可读代码可以根据常规处理由计算机***读取和利用。
附图说明
本领域的技术人员应该从以下参照紧接着概括的附图讨论的“具体实施方式”中更充分地理解本发明的各种实施方式的优点。
图1A示意性地示出了根据本发明的例示性实施方式的用于内容审核的***。
图1B至图1C示意性地示出了图1A的内容审核***的另选配置。
图2示意性地示出了根据本发明的例示性实施方式的内容审核***的细节。
图3A至图3B示出了根据本发明的例示性实施方式的确定语音是否有害的处理。
图4示意性地示出了根据本发明的例示性实施方式的接收到的语音。
图5示意性地示出了根据本发明的例示性实施方式的由分段器分段的语音组块。
图6示意性地示出了根据例示性实施方式的可以与图3A至图3B的处理一起使用的***的细节。
图7示意性地示出了根据本发明的例示性实施方式的四阶段***。
图8A示意性地示出了根据本发明的例示性实施方式的训练机器学习的处理。
图8B示意性地示出了根据本发明的例示性实施方式的用于训练图8A的机器学习的***。
应当注意,前述附图和其中描绘的元件不一定以一致的比例或以任何比例绘制。除非上下文另有所指,否则相同的元件由相同的数字表示。附图主要用于说明目的,并不旨在限制本文所述的发明主题的范围。
具体实施方式
在例示性实施方式中,内容审核***分析语音或其特性,并确定该语音有害的可能性。***使用多阶段分析来提高成本效率并降低计算要求。一系列阶段彼此连通。各个阶段过滤掉无害的语音,并将潜在有害的语音或代表其的数据传递到后续阶段。后续阶段使用比先前阶段更可靠(例如,计算负担重)的分析技术。因此,多阶段***可以将最有可能有害的语音过滤到更可靠且计算负担重的阶段。后续阶段的结果可用于重新训练先前阶段。因此,例示性实施方式提供了对输入语音的筛选,过滤掉无害语音,使得稍后更复杂的阶段不需要对同样多的输入语音进行操作。
此外,在各种实施方式中,阶段是自适应的,从后期阶段或外部判断中获取关于正确或不正确的过滤决策的反馈,并随着更多数据通过***而更新它们的过滤处理,以便更好地将可能的有害语音与可能的无害语音分开。这种调整可以通过触发而自动发生或手动发生;连续地或定期地(通常一次训练批量反馈)。
为了清楚起见,各种实施方式可以涉及用户语音或其分析。虽然使用了术语“语音”,但应该理解,***不一定直接实时接收或“听到”语音,也不一定是实时接收。当特定阶段接收到“语音”时,该“语音”可以包括一些或所有先前的“语音”和/或表示该语音或其部分的数据。表示语音的数据可以用多种方式编码——它可以是以诸如脉冲编码调制(PCM)之类的方式表示的原始音频样本,例如线性脉冲编码调制,或者经由A律或u律量化编码。语音也可以是原始音频以外的其他形式,例如以频谱图、梅尔频率倒谱系数、耳蜗图或通过信号处理产生的语音的其他表示来表示。语音可以被滤波(例如带通或压缩)。语音数据可以以从语音获得的数据的附加形式呈现,例如频率峰值和振幅、音素分布或由神经网络产生的抽象矢量表示。数据可以是未压缩的,或以各种无损格式(如FLAG或WAVE)或有损格式(如MP3或Opus)输入;或者在语音的其他表示的情况下,可以作为图像数据(PNG、JPEG等)输入,或以自定义二进制格式编码。因此,虽然使用了术语“语音”,但应该理解这不限于人类可听的音频文件。此外,一些实施方式可以使用其他类型的媒体,例如图像或视频。
自动化审核主要发生在基于文本的媒体中,例如社交媒体帖子或多玩家视频游戏中的文本聊天。其基本形式通常包括与媒体文本内容相匹配的禁用词或短语的黑名单。如果找到匹配项,则匹配的词可能会被删减,或者作者会受到处罚。***可以采用模糊匹配技术来规避简单的逃避技术,例如,用户用形状相似的数字替换字母,或省略元音。虽然可扩展且具有成本效益,但传统的自动化审核通常被认为相对容易以最少的创造力绕过,除了使用简单的关键字或短语之外还不足以检测破坏性行为,并且难以适应新的社区或平台——或者适应现有社区不断发展的术语和交流方式。传统自动化审核的一些示例存在于审核违法视频和图像,或非法使用受版权保护的材料。在这些情况下,媒体通常被散列化以提供其内容的紧凑表示,创建散列黑名单;然后对新内容进行散列化并对照黑名单进行检查。
相比之下,手动审核通常雇用人工团队消费平台上交流的一部分内容,然后决定内容是否违反平台政策。团队通常只能监督比在平台上交流的内容少几个数量级的内容。因此,采用选择机制来确定团队应该检查哪些内容。通常这是通过用户报告完成的,其中消费内容的用户可以标记其他用户参与破坏性行为。用户之间交流的内容被放入队列中,由人工审核员审查,审核员基于交流的上下文做出判断并采取惩罚措施。
手动审核会带来附加的问题。人工成本高昂,审核团队规模小,因此只有一小部分平台内容被手动确定为可以安全消费,这迫使平台默认允许大部分内容未经审核。报告内容的队列很容易被淹没,特别是经由敌对行动——协作的用户可以全部同时参与破坏性行为,使审核团队超载;或者所述用户可以全部报告良性内容,从而使选择处理无效。人工审核也很耗时——人类必须接收内容、理解内容,然后做出反应——使得诸如删减之类的低延迟动作无法在内容量大的平台上进行;这个问题被选择队列扩大了,这些选择队列可能饱和,从而在处理队列时延迟了内容。审核也会对人工团队造成负面影响——团队成员直接接触到大量令人反感的内容,并可能在情感上受到影响;维护此类团队的高昂成本可能导致团队成员长时间工作并且几乎无法获得资源来帮助他们应对。
发明人已知的当前内容审核***要么过于简单而无法有效防止破坏性行为,要么过于昂贵而无法扩展到大量内容。这些***适应不断变化的环境或新平台的速度很慢。复杂的***除了昂贵之外,通常在内容被交流与被审核之间存在较长的延迟,从而导致实时反应或删减在大规模时变得非常困难。
例示性实施方式将改进的审核平台实现为一系列多个自适应筛选阶段,各个阶段从其系列阶段中过滤掉可以以高置信度被确定为非破坏性的内容,将无法过滤掉的内容传递到后期阶段。通过接收关于哪些过滤后的内容被后期阶段视为或未被视为具有破坏性的信息,这些阶段可以自我更新以更有效地对将来内容执行过滤。将这些阶段中的几个按顺序链接在一起使得将内容筛选到能够由人工团队或其他自主***处理的可管理的水平:随着各个阶段过滤掉一部分传入的内容,该流水线实现了减少(例如,成指数地)要由将来阶段审核的内容量。
图1A示意性地示出了根据本发明的例示性实施方式的用于内容审核的***100。参照图1A描述的***100审核话音内容,但是本领域的技术人员将理解可以修改各种实施方式以按类似的方式审核其他类型的内容(例如,媒体、文本等)。附加地或另选地,***100可以帮助人工审核员106识别最有可能有害的语音110。***100在各种场合中具有应用,但特别地,可以在视频游戏中有用。视频游戏行业的全球收入正在蓬勃发展,预计2020年的年增长率为20%。预期的增长部分是由于视频游戏中增加了新玩家(即,用户),视频游戏越来越多地提供话音聊天作为游戏内选项。游戏之外还存在许多其他话音聊天选项。虽然话音聊天是许多在线平台和视频游戏中的理想功能,但用户安全性是重要的考虑因素。借由骚扰、种族主义、性别歧视和其他类型的在线毒害性的盛行不利于用户的在线体验,并可能导致话音聊天使用率下降和/或安全问题。因此,需要一种可以有效地(即,成本和时间上)从大量内容(例如,视频游戏中的所有话音聊天交流)中确定有害内容(例如,种族主义、性别歧视、其他欺凌行为)的***100。
为此,***100连接在多个用户之间,例如讲话者102、听者104和审核员106。讲话者102、听者104和审核员106可以通过由给定平台(例如Fortnite、Call of Duty、Roblox、Halo;诸如YouTube和Twitch之类的流媒体平台,以及诸如Discord、WhatsApp、Clubhouse、交友平台等其他社交应用)提供的网络122进行通信。
为了便于讨论,图1A示出了在单一方向上流动的语音110(即,朝向听者104和审核员106)。实际上,听者104和/或审核员106可以双向通信(即,听者104和/或审核员106也可以与讲话者102讲话)。然而,为了描述***100的操作,将单个讲话者102用作示例。此外,可以有多个听者104,其中一些或全部也可以是讲话者102(例如,在视频游戏话音聊天的背景下,其中所有参与者既是讲话者102又是听者104)。在各种实施方式中,***100以相似的方式对各个讲话者102进行操作。
此外,在判断来自给定讲话者的语音毒害性时,可以组合和使用来自其他讲话者的信息——例如,一个参与者(A)可能会侮辱另一参与者(B),而B可能会使用粗俗的语言捍卫自己。***可以确定B没有恶意,因为他们的语言用于自卫,而A是恶意的。另选地,***100可以确定两者都是恶意的。通过将该信息输入到***的一个或更多个阶段中来消费该信息——通常是进行更复杂处理的后期阶段,但也可以是任何阶段或所有阶段。
***100包括多个阶段112-118,各个阶段被配置成确定语音110或其表示是否可能被认为是有害的(例如,根据定义“毒害性”的公司政策)。在各种实施方式中,阶段是由其接口定义的逻辑或抽象实体:它具有输入(一些语音)和两个输出(过滤后的语音和丢弃的语音)(然而,它可能有也可能没有附加的输入——例如会话背景,或附加的输出——例如讲话者年龄估计),并且它接收来自后期阶段的反馈(也可能向早期阶段提供反馈)。当然,这些阶段是在物理上实现的——所以它们通常是在诸如通用计算机(CPU或GPU)硬件上运行的软件/代码(单独的程序,诸如数字信号处理、神经网络等实现逻辑——或这些的组合)。然而,它们可以实现为FPGA、ASIC、模拟电路等。通常,阶段具有在相同或相邻的硬件上运行的一种或更多种算法。例如,一个阶段可能是在讲话者的计算机上运行的关键字检测器。另一阶段可能是在GPU上运行的转录引擎,然后是在同一台计算机的CPU上运行的一些转录解释逻辑。或者阶段可能是多个神经网络,它们的输出在最后被组合进行过滤,这些神经网络运行在不同的计算机上但在同一云(例如AWS)中。
图1A示出了四个阶段112-118。然而,应当理解,可以使用更少或更多的阶段。一些实施方式可能仅具有单个阶段112,然而,优选实施方式出于效率目的而具有多于一个阶段,如下所述。此外,阶段112-118可以完全在用户设备120上、在云服务器122上和/或分布在用户设备120和云122上,如图1A所示。在各种实施方式中,阶段112-118可以在平台122(例如,游戏网络122)的服务器上。
第一阶段112接收语音110,该第一阶段可以在讲话者设备120上。讲话者设备120可以是例如移动电话(例如iPhone)、视频游戏***(例如PlayStation、Xbox)和/或计算机(例如膝上型或台式计算机)等。讲话者设备120可以具有集成麦克风(例如,iPhone中的麦克风),或者可以联接到麦克风(例如,具有USB或AUX麦克风的耳机)。听者设备可以与讲话者设备120相同或相似。在讲话者设备120上提供一个或更多个阶段允许实现该一个或更多个阶段的处理发生在讲话者102拥有的硬件上。通常,这意味着实现所述阶段的软件在讲话者102的硬件(CPU或GPU)上运行,尽管在一些实施方式中讲话者102可能具有附接到其设备的专用硬件单元(例如加密狗)。在一些实施方式中,一个或更多个阶段可以在听者设备上。
如以下将进一步详细描述的,第一阶段112接收大量语音110。例如,第一阶段112可以被配置为接收由设备120接收到的由讲话者102发出的所有语音110(例如,电话呼叫期间的连续流)。另选地,第一阶段112可以被配置为在满足某些触发条件时接收语音110(例如,视频游戏应用是活动的,和/或用户按下聊天按钮等)。作为用例场景,语音110可以是旨在被听者104接收的语音,例如视频游戏中的团队话音交流。
第一阶段112被训练成确定语音110中的任何一个是否具有有害的可能性(即,包含有害语音)。在例示性实施方式中,与后续阶段相比,第一阶段112使用高效方法(即,计算上高效的方法和/或低成本方法)来分析语音110。虽然第一阶段112使用的高效方法在检测有害语音方面可能不如后续阶段(例如,阶段114-118)准确,但是第一阶段112通常比后续阶段114-118接收更多的语音110。
如果第一阶段112没有检测到有害语音的可能性,则语音110被丢弃(示为被丢弃语音111)。然而,如果第一阶段112确定语音110中的一些可能有害,则语音110的一些子集被发送到后续阶段(例如,第二阶段114)。在图1A中,被转发/上传的子集是过滤后的语音124,其至少包括语音110的被认为具有包含有害语音的可能性的一些部分。在例示性实施方式中,过滤后的语音124优选地是语音110的子集,因此由更小的箭头表示。然而,在一些其他实施方式中,第一阶段112可以转发所有语音110。
此外,当描述语音110时,应当清楚语音110可以指代特定的分析组块。例如,第一阶段112可以接收60秒的语音110,并且第一阶段112可以被配置为以20秒的区间分析语音。因此,存在三个20秒的语音110组块被分析。各个语音组块可以被独立分析。例如,第一个20秒的组块可能不具有有害的可能性,因此可以被丢弃。第二个20秒的组块可能会满足有害的阈值可能性,因此可以被转发到后续阶段。第三个20秒的组块可能不具有有害的可能性,并且可以再次被丢弃。因此,对丢弃和/或转发语音110的提及涉及由给定阶段112-118分析的特定的语音110的片段,而不是针对来自讲话者102的所有语音110的通用决策。
过滤后的语音124由第二阶段114接收。第二阶段114被训练成确定语音110中的任何一个是否具有有害的可能性。然而,第二阶段114通常使用与第一阶段112不同的分析方法。在例示性实施方式中,第二阶段114使用比先前阶段112计算量更大的方法来分析过滤后的语音124。因此,第二阶段114可以被认为比第一阶段112效率低(即,与之前阶段112相比计算效率较低的方法和/或更高成本的方法)。然而,与第一阶段112相比,第二阶段114更有可能准确地检测有害的语音110。此外,尽管后续阶段114可能比早期阶段112效率低,但这并不一定意味着第二阶段114分析过滤后的语音124比第一阶段112分析初始语音110花费更长的时间。这部分地是因为过滤后的语音124是初始语音110的子片段。
类似于上面参照第一阶段112描述的处理,第二阶段114分析过滤后的语音124并且确定过滤后的语音124是否具有有害的可能性。如果不是,则过滤后的语音124被丢弃。如果存在有害的可能性(例如,概率被确定为高于给定的毒害性可能性阈值),则过滤后的语音126被传递到第三阶段116。应当理解,过滤后的语音126可以是过滤后的语音124的整体、组块110A和/或子片段。然而,过滤后的语音126由比过滤后的语音124更小的箭头表示,因为一般而言,一些过滤后的语音124被第二阶段114丢弃,因此,更少的过滤后的语音126传递到随后的第三阶段116。
可以根据需要对尽可能多的阶段重复利用使用计算负担更大的分析方法的后续阶段来分析语音的处理。在图1A中,该处理在第三阶段116和第四阶段118处重复。与前面的阶段类似,第三阶段116过滤掉不太可能有害的语音,并将可能有害的过滤后的语音128传递给第四阶段118。第四阶段118使用分析方法来确定过滤后的语音128是否包含有害语音130。第四阶段118可以丢弃不太可能是有害的语音,或者传递可能是有害的语音130。该处理可以在第四阶段118(或其他阶段,取决于期望阶段的数量)处结束。
***100可以在最终阶段118之后做出关于语音毒害性的自动化决策(即,语音是否有害,以及必要时采取什么行动是适当的)。然而,在其他实施方式中,如图1A所示,最终阶段118(即,计算效率最低但最准确的阶段)可以向人工审核员106提供它认为是有害的语音130。人工审核员可以收听有害语音130并确定被***100确定为有害的语音130是否实际上是有害语音(例如,根据关于有害语音的公司政策)。
在一些实施方式中,一个或更多个非最终阶段112-116可以确定语音“绝对有害”(例如,语音有害的置信度为100%)并且可以做出完全绕过后续和/或最终阶段118的决策(例如,通过将语音转发给人工审核员或其他***)。此外,最终阶段118可以向外部处理***提供它认为有害的语音,该外部处理***本身就语音是否有害做出决策(因此它的行为类似于人工审核员,但可以是自动的)。例如,一些平台可能具有信誉***,该信誉***被配置为接收有害语音并使用讲话者102(例如,视频游戏玩家)的历史进一步自动处理它。
审核员106确定有害语音130是否有害,并将审核员反馈132提供回第四阶段118。反馈132可以由第四阶段118和/或由包含用于第四阶段118的训练数据的数据库直接接收,然后该训练数据用于训练第四阶段118。因此,反馈可以向最终阶段118指示它正确地还是错误地确定了有害语音130(即,做出了真肯定还是假肯定的确定)。因此,可以使用人工审核员的反馈132来训练最终阶段118以随着时间的推移提高其准确度。通常,可用于审查有害语音的人工审核员106资源(即,工时)比各个阶段112-118所处理的吞吐量要少得多。通过一系列阶段112-118过滤初始语音110,人工审核员106看到初始语音110的一小部分,而且有利地接收最有可能有害的语音110。作为附加的优点,人工审核员的反馈132被用于训练最终阶段118以更准确地确定有害语音。
各个阶段可以处理过滤后的语音剪辑中的全部信息,或者它可以只处理该剪辑中的一部分信息。例如,为了提高计算效率,阶段112-118可以只处理语音的小窗口以寻找单独的词或短语,这只需要少量的上下文(例如,4秒的语音而不是完整的15秒剪辑等)。阶段112-118还可以使用来自先前阶段的附加信息(例如剪辑持续时间内的感知响度的计算)来确定语音110的剪辑的哪些区域可能包含语音或不包含语音,并因此动态地确定语音110的剪辑的哪些部分要处理。
类似地,后续阶段(例如,第四阶段118)可以向先前阶段(例如,第三阶段116)提供关于该先前阶段是否准确地确定语音有害的反馈134-138。虽然用了“准确地”这个词,但本领域技术人员应该理解,这里的准确度指的是阶段确定的语音有害的概率,不一定是真实的准确度。当然,该***被配置为根据毒害性政策进行训练,以变得越来越真正准确。因此,第四阶段118可以训练第三阶段116,第三阶段116可以训练第二阶段114,而第二阶段112可以训练第一阶段112。如前所述,反馈132-138可以由先前阶段112-118直接接收,或者它可以被提供给用于训练相应阶段112-118的训练数据库。
图1B至图1C示意性地示出了根据本发明的例示性实施方式的采用另选配置的用于内容审核的***100。如所示和所述,各个阶段112-118可以在讲话者设备120和/或平台服务器122上。然而,在一些实施方式中,***100可以被配置为使得用户语音110到达听者104而不通过***100,或者仅通过用户设备120上的一个或更多个阶段112-114(例如,如图1B所示)。然而,在一些其他实施方式中,***100可以被配置为使得用户语音110在通过***100的各个阶段112-118之后到达听者104(如图1C所示)。
发明人猜想图1B中所示的配置可能导致接收语音110的延迟时间增加。然而,通过在用户设备120上经过阶段112-114,有可能在内容到达预期接收者(例如,听者104)之前采取校正性动作和审核内容。对于图1C所示的配置也是如此,这将导致延迟时间进一步增加,特别是考虑到语音信息在到达听者104之前通过云服务器。
图2示意性地示出了根据本发明的例示性实施方式的话音审核***100的细节。***100具有被配置为从讲话者102和/或讲话者设备120接收语音110(例如,作为音频文件)的输入部208。应当理解,对语音110的提及包括音频文件,但也包括语音110的其他数字表示。输入部包括被配置为将语音110分解为语音组块的时序接受域209。在各种实施方式中,机器学习部215确定整个语音110和/或语音组块是否包含有害语音。
该***还具有阶段转换器214,其被配置为接收语音110并以可由阶段112-118解释的有意义的方式转换语音。此外,阶段转换器214通过以相应阶段114、116和118能够接收到过滤后的语音124、126或128并对语音进行分析的方式转换过滤后的语音124、126、128来允许阶段112-118之间的通信。
***100具有用户界面服务器210,其被配置为提供用户界面,审核员106可通过该用户界面与***100通信。在各种实施方式中,审核员106能够收听被***100确定为有害的语音130(或读取其副本)。此外,审核员106可以通过用户界面提供关于有害语音130实际上是否有害的反馈。审核员106可以经由电子设备(例如计算机、智能手机等)访问用户界面,并使用该电子设备向最终阶段118提供反馈。在一些实施方式中,电子设备可以是联网设备,例如连接到因特网的智能手机或台式计算机。
输入部208还被配置为接收讲话者102的话音并将讲话者102的话音映射到话音数据库212中,该数据库也称为音色矢量空间212。在各种实施方式中,音色矢量空间212还可以包括话音映射***212。音色矢量空间212和话音映射***212之前由本发明人发明并且在美国专利No.10,861,476中以及其他地方进行了描述,其全部内容通过引用并入本文。音色矢量空间212是表示经编码的话音数据的多维离散或连续矢量空间。该表示被称为“映射”话音。当经编码的话音数据被映射时,矢量空间212对话音进行表征并在此基础上将它们相对于彼此放置。例如,表示的一部分可能与话音的音调或讲话者的性别有关。音色矢量空间212将声音相对于彼此映射,使得可以对话音编码执行数学运算,并且还可以从话音中获得定性和/或定量信息(例如,讲话者102的身份、性别、种族、年龄)。然而应当理解,各种实施方式不需要整个音色映射组件/音色矢量空间112。相反,可以经由单独的神经网络或其他***独立地提取信息,例如性别/种族/年龄/等。
***100还包括毒害性机器学习部215,其被配置为针对各个阶段确定语音110包含毒害性的可能性(即,置信区间)。毒害性机器学习部215针对各个阶段112-118进行操作。例如,对于给定量的语音110,毒害性机器学习部215可以确定在第一阶段112处有害语音的置信度为60%,并且在第二阶段114处有害语音的置信度为30%。例示性实施方式可以包括用于阶段112-118中的每一个的单独的毒害性机器学习部215。然而,为了方便起见,将可分布在各个阶段112-118的毒害性机器学习部215的各个组件示为处于单个毒害性机器学习组件215内。在各种实施方式中,毒害性机器学习部215可以是一个或更多个神经网络。
各个阶段112-118的毒害性机器学习部215被训练成检测有害的语音110。为此,机器学习部215与其中具有相关训练数据的训练数据库216通信。数据库216中的训练数据可以包括已经被受过训练的人类操作员分类为有害和/或无害的语音库。
毒害性机器学习部215具有语音分段器234,该语音分段器被配置为将接收到的语音110和/或组块110A分段成多个片段,然后对其进行分析。这些片段被称为分析片段并且被认为是语音110的一部分。例如,讲话者102可以提供总共1分钟的语音110。分段器234可以将语音110分段成三个20秒的区间,各个区间由阶段112-118独立地分析。此外,分段器234可以被配置为,针对不同阶段112-118,将语音110分段成的不同长度片段(例如,第一阶段有两个30秒片段,第二阶段有三个20秒片段,第三阶段有四个15秒片段,第五阶段有五个10秒片段)。此外,分段器234可以将语音110分段成重叠的区间。例如,语音110的30秒片段可以被分成五个片段(例如,0秒到10秒、5秒到15秒、10秒到20秒、15秒到25秒、20秒到30秒)。
在一些实施方式中,分段器234可以将后期阶段分段成比早期阶段更长的片段。例如,后续阶段112可能想要组合先前的剪辑以获得更广泛的上下文。分段器234可以累积多个剪辑以获得附加的上下文并且然后传递整个剪辑。这也可以是动态的——例如,累积剪辑中的语音直到无声区域(比如2秒或更多),然后立即传递累积的剪辑。在这种情况下,即使剪辑是作为单独的、个体的剪辑输入的,***也会从那时起将累积的剪辑视为单个剪辑(例如,关于过滤或丢弃该语音做出一个决策)。
机器学习部215可以包括上传器218(其可以是随机上传器),其被配置为上传或传递来自各个阶段112-118的小百分比的被丢弃语音111。随机上传器模块218因此被配置为帮助确定假否定率。换言之,如果第一阶段112丢弃了语音111A,则该语音111A的一小部分被随机上传器模块218获取并发送到第二阶段114以供分析。因此,第二阶段114可以确定被丢弃语音111A实际上被正确地还是错误地识别为无害(即,可能有害的假否定或真否定)。可以针对各个阶段重复该处理(例如,被丢弃语音111B由第三阶段116分析,被丢弃语音111C由第四阶段分析,被丢弃语音111D由审核员106分析)。
各种实施方式旨在通过最小化由较高阶段114-118或审核员106上传/分析的语音量来提高效率。然而,各种实施方式仅对小百分比的被丢弃语音111进行采样,例如小于被丢弃语音111的1%,或者优选地,小于被丢弃语音111的0.1%。发明人相信,被丢弃语音111的这种小采样率有利地训练***100减少假否定而不会使***100负担过重。因此,***100高效地检查假否定的状态(通过最小化所检查的信息量),并随时间改善假否定率。这很重要,因为它有利于正确识别有害语音,但也不会漏识别有害语音。
毒害性阈值设定器230被配置为针对各个阶段112-118设定毒害性可能性的阈值。如前所述,各个阶段112-118被配置为确定/输出毒害性置信度。该置信度用于确定是否应丢弃111语音110的片段,或过滤并传递到后续阶段。在各种实施方式中,将置信度与可由毒害性阈值设定器230调整的阈值进行比较。毒害性阈值设定器230可以通过随时间利用神经网络进行训练来自动调整以随着假否定和/或假肯定减少而增加阈值。另选地或附加地,毒害性阈值设定器230可以由审核员106经由用户界面210来调整。
机器学习部215还可以包括会话背景标记器220。会话背景标记器220被配置为与各个阶段112-118通信并向一个或更多个阶段112-118提供这样的指示(会话背景标记):先前的有害语音由另一阶段112-118确定。在各种实施方式中,先前的指示可以是会话或时间限制的(例如,由最终阶段118在最后15分钟内确定的有害语音130)。在一些实施方式中,会话背景标记器220可以被配置为仅从后续阶段或特定阶段(例如最终阶段118)接收标记。
机器学习部215还可以包括被配置为确定讲话者102的年龄的年龄分析器222。可以向年龄分析器222提供与讲话者年龄配对的各种讲话者的训练数据集。因此,年龄分析器222可以分析语音110以确定讲话者的大致年龄。讲话者102的大致年龄可用于通过与毒害性阈值设定器230通信来调整特定阶段的毒害性阈值(例如,青少年可能会降低阈值,因为他们被认为更有可能是有害的)。附加地或另选地,讲话者102的话音可以被映射到话音音色矢量空间212中,并且他们的年龄可以从那里近似得到。
情感分析器224可以被配置为确定讲话者102的情感状态。可以向情感分析器224提供与情感配对的各种讲话者的训练数据集。因此,情感分析器224可以分析语音110以确定讲话者的情感。讲话者102的情感可用于通过与毒害性阈值设定器通信来调整特定阶段的毒害性阈值。例如,愤怒的讲话者可能会降低阈值,因为他们被认为更有可能是有害的。
用户背景分析器226可以被配置为确定讲话者102提供语音110的背景。背景分析器226可以被提供对特定讲话者102的账户信息的访问(例如,通过讲话者102订阅的平台或视频游戏)。该账户信息可以包括用户的年龄、用户的地理区域、用户的好友列表、最近互动的用户的历史以及其他活动历史等。此外,在适用于视频游戏环境的情况下,用户的游戏历史(包括游戏时间、游戏时长、游戏开始时间和游戏结束时间)以及,在适用情况下,诸如死亡或杀伤(例如,在射击游戏中)之类的最近用户间活动。
例如,用户的地理区域可用于辅助进行语言分析,以免混淆一种语言中的良性语言听起来像另一种语言中的有害语音。此外,用户背景分析器226可以通过与阈值设定器230进行通信来调整毒害性阈值。例如,对于与用户好友列表上的某人交流的语音110,可以增加毒害性的阈值(例如,可以以比较开玩笑的方式对好友说冒犯性的言语)。再比如,视频游戏中的最近死亡或团队总分低可用于向下调整毒害性阈值(例如,如果讲话者102正在输掉游戏,则他们可能更有可能是有害的)。作为又一示例,语音110在一天中的时间可用于调整毒害性阈值(例如,凌晨3点的语音110可能比下午5点的语音110更可能有害,因此降低有害语音的阈值)。
在各种实施方式中,毒害性机器学习部215可以包括转录引擎228。转录引擎228被配置为将语音110转录成文本。该文本然后可以由一个或更多个阶段112-118使用以分析语音110,或者它可以被提供给审核员106。
反馈模块232从各个后续阶段114-118和/或审核员106接收关于过滤后的语音124、126、128和/或130是否被认为有害的反馈。反馈模块232可以将该反馈提供给之前阶段112-118以更新用于之前阶段112-118的训练数据(例如,直接地,或通过与训练数据库216通信)。例如,用于第四阶段118的训练数据可以包括否定示例,例如逐步上升到人工审核员106的不被认为是有害的有害语音130的指示。用于第四阶段118的训练数据还可以包括肯定示例,例如逐步上升到人工审核员106的被认为有害的有害语音130的指示。
***100的上述组件中的各个组件可以在多个阶段112-118上操作。附加地或另选地,阶段112-118中的每一个可具有任何或所有组件作为专用组件。例如,各个阶段112-118可以具有阶段转换器214,或者***100可以具有单个阶段转换器214。此外,诸如随机上传器218或转录引擎228之类的各种机器学习组件可以在阶段112-118中的一个或更多个阶段上操作。例如,每个阶段112-118可以使用随机上传器218,但只有最终阶段可以使用转录引擎228。
上述组件中的各个组件通过任何常规的互连机制在操作上连接。图2简单地示出了总线50连通这些组件。本领域的技术人员应该理解,可以修改这种概括表示以包括其他常规的直接或间接连接。因此,总线50的讨论不旨在限制各种实施方式。
应当注意,图2仅示意性地示出了这些组件中的各个组件。本领域的技术人员应该理解,这些组件中的各个组件可以跨一个或更多个其他功能组件以各种常规方式实现,例如通过使用硬件、软件或者硬件和软件的组合。例如,转录引擎228可以使用多个执行固件的微处理器来实现。作为另一示例,语音分段器234可以使用一个或更多个专用集成电路(即,“ASIC”)和相关软件或者ASIC、分立电子元件(例如,晶体管)和微处理器的组合来实现。因此,图2的分段器234、转录引擎228和单个框中的其他组件的表示仅仅是为了简化的目的。事实上,在一些实施方式中,语音分段器234可以分布在多个不同的机器和/或服务器上——不一定在同一外壳或机箱内。当然,机器学习部215和***100中的其他组件也可以具有与上面针对转录引擎228提到的类似的实现方式。
此外,在一些实施方式中,被单独示出的组件(例如年龄分析器222和用户背景分析器226)可以由单个组件(例如用于整个机器学习***215的用户背景分析器226)代替。此外,图2中的某些组件和子组件是可选的。例如,一些实施方式可能不使用情感分析器224。作为另一示例,在一些实施方式中,输入部108可能不具有时序接受域109。
应该重申,图2的表示是简化的表示。本领域技术人员应该理解,这样的***可能具有许多其他物理和功能组件,例如中央处理单元、其他分组处理模块和短期存储器。因此,该讨论并非旨在暗示图2表示话音审核***100的各种实施方式的所有元件。
图3A至图3B示出了根据本发明的例示性实施方式的确定语音110是否有害的处理300。应当注意,该处理是从通常用于确定语音110是否有害的较长处理简化而来的。因此,确定语音110是否有害的处理可能具有本领域技术人员可能会使用的许多步骤。此外,一些步骤可以以与所示顺序不同的顺序执行或完全跳过。附加地或另选地,一些步骤可以同时执行。因此,本领域技术人员可以适当地修改该处理。
此外,参照图3A至图3B对阶段的具体示例实现方式的讨论是为了便于讨论,而不是旨在限制各种实施方式。本领域技术人员理解,可以调整、移除和/或添加阶段的训练以及阶段的各种组件和交互,同时仍然开发出根据例示性实施方式的工作的毒害性审核***100。
因为图1A至图1C示出了四个阶段112-118作为示例,所以各个阶段112-118都用单独的附图标记指代。然而,从现在开始当指代任何阶段115时,一个或更多个阶段用单个附图标记115指代。应当理解,对阶段115的提及并不意味着阶段115是相同的或者阶段115限于任何特定顺序或***100的先前描述的阶段112-118,除非上下文另有要求。阶段112的附图标记可用于指代***100的早期或之前阶段112,阶段118的附图标记可用于指代***100的后续或后期阶段112,而不管实际阶段的数量(例如,两个阶段、五个阶段、十个阶段等)。因此,称为阶段115的阶段与阶段112-118相似或相同,反之亦然。
处理300开始于步骤302:为***100的阶段115设定毒害性阈值。***100的各个阶段115的毒害性阈值可以由***100自动设定、由审核员106设定(例如,经由用户界面)、由开发者、社区管理员或其他第三方手动设定。例如,对于所分析的任何给定的语音110,第一阶段115的毒害性阈值可以为60%的可能性是有害的。如果第一阶段115的机器学习部215确定语音110有害的可能性为60%或更高,则语音110被确定为有害的并被传递或“经过滤通过”到后续阶段115。本领域的技术人员理解,虽然将该语音称为被阶段115确定为有害语音,但这并不一定意味着该语音实际上是根据公司政策的有害语音,也不必然意味着后续阶段115(如果有的话)将同意该语音是有害的。如果语音具有小于60%的有害可能性,则语音110被丢弃或“过滤掉”并且不被发送到后续阶段115。然而,如下所述,一些实施方式可以使用随机上传器218分析过滤掉的语音111的一些部分。
在上述示例中,毒害性阈值被描述为闭区间(即,60%满足了60%的阈值)。在一些实施方式中,毒害性阈值可以是开区间(即,只有大于60%的可能性时才满足60%的阈值)。此外,在各种实施方式中,阈值不一定需要以百分比表示,而是可以以表示毒害性可能性的某种其他格式表示(例如,神经网络215可理解但人类不可理解的表示)。
第二阶段115可以具有它自己的毒害性阈值,使得由第二阶段115分析的任何不满足阈值有害可能性的语音被丢弃。例如,第二阶段可能具有80%或更高的有害可能性阈值。如果语音具有大于毒害性阈值的有害可能性,则将语音转发到随后的第三阶段115。将语音110转发到下一阶段也可以称为“上传”语音110(例如,上传到服务器,后续阶段115可以通过该服务器访问上传的语音110)。如果语音不满足第二阶段115的阈值,则将其丢弃。设定毒害性阈值的处理可以针对***100的各个阶段115重复。因此,各个阶段可以具有自己的毒害性阈值。
该处理然后进行到步骤304,该步骤从讲话者102接收语音110。语音110首先由输入部208接收,然后由第一阶段112接收。图4示意性地示出了根据本发明的例示性实施方式的接收到的语音110。为了举例,假设第一阶段112被配置为一次接收10秒音频的输入,其被分段成50%重叠的2秒滑动窗口。
时序接受域209将语音110分解成语音组块110A和110B(例如,10秒),其可以被第一阶段112的输入部接收。然后语音110和/或语音组块110A和110B可以由分段器234(例如,第一阶段112的)处理。例如,如图4所示,20秒的语音110可以由输入部208接收,并且可以由时序接受域209过滤成10秒的组块110A和110B。
该处理然后进行到步骤306,该步骤将语音110分段成分析片段。图5示意性地示出了根据本发明的例示性实施方式的由分段器234分段的语音组块110A。如前所述,语音分段器234被配置为将接收到的语音110分段为由相应阶段115分析的片段140。这些片段140被称为分析片段140并且被认为是语音110的一部分。在当前示例中,第一阶段112被配置为分析处于50%重叠的2秒滑动窗口中的片段140。因此,语音组块110A被分解为分析片段140A-140I。
各个分析片段以重叠50%的2秒区间运行。因此,如图5所示,片段140A是组块110A的0:00-0:02秒,片段140B是组块110A的时间0:01-0:03,片段140C是组块110A的时间0:02-0:04,对于各个片段140依此类推,直到组块110A被完全覆盖。对于后续组块(例如,110B),以类似的方式重复此处理。在一些实施方式中,阶段115可以分析整个组块110A或所有语音110,这取决于阶段115的机器学习部215的模型。因此,在一些实施方式中,所有语音110和/或组块110A、110B可以是分析片段140。
利用由第一阶段115分析的短片段140(例如,2秒),可以检测讲话者102是否在讲话、大喊大叫、哭泣、沉默或说特定词等。分析片段140的长度优选地足够长以检测这些特征中的一些或全部。尽管有些词可能适合短片段140,但在没有更多上下文(例如,更长的片段140)的情况下,很难以高准确度水平检测全部词。
该处理然后进行到步骤308,该步骤询问是否从背景标记器220接收到会话背景标记。为此,背景标记器220查询服务器,并确定在来自讲话者102的先前语音110的预定义时间段内是否存在任何毒害性确定。例如,如果来自讲话者102的语音110在最后2分钟内被最终阶段115确定为有害的,则可以接收到会话背景标记。会话背景标记向接收到该标记的阶段115提供背景(例如,另一阶段115检测到的骂人的词意味着对话可能逐步上升为有害的东西)。因此,如果接收到会话背景标记,则该处理可以前进到步骤310,该步骤降低接收到标记的阶段115的毒害性阈值。另选地,在一些实施方式中,如果接收到会话背景标记,则语音110可以自动上传到后续阶段115。该处理然后进行到步骤312。如果没有接收到标记,则处理直接进行到步骤312而不调整毒害性阈值。
在步骤312,该处理使用第一阶段115来分析语音110(例如,语音组块110A)。在本示例中,第一阶段115运行机器学习部215(例如,讲话者设备120上的神经网络),其分析2秒片段140并针对各个片段140输入确定单独的置信度输出。置信度可以表示为百分比。
为了确定置信区间,阶段115(例如,神经网络215)先前可能已经使用训练数据库216中的一组训练数据进行了训练。用于第一阶段115的训练数据可以包括毒害性的多个否定示例,这意指不包含毒害性并且可以被丢弃的语音。用于第一阶段115的训练数据还可以包括毒害性的多个肯定示例,这意指确实包含毒害性并且应该被转发到下一阶段115的语音。例如,训练数据可能是从专业配音演员那里获得的。附加地或另选地,训练数据可以是已经由人工审核员106预分类的真实语音。
在步骤314,第一阶段115确定语音组块110A和/或片段140中的各个片段的毒害性置信区间。组块110A、110B的置信区间可以基于来自受训机器学习部的对各个片段140的分析。
在各种实施方式中,第一阶段115为各个片段140A-140I提供毒害性阈值。然而,步骤316确定语音110和/或语音组块110A是否满足要传递到下一阶段115的毒害性阈值。在各种实施方式中,第一阶段115使用不同的方式来基于片段140A-140I的各种毒害性置信度来确定语音组块110A的毒害性置信度。
第一种选项是使用来自任何片段的最大置信度作为整个语音组块110A的置信区间。例如,如果片段140A是无声的,则毒害性的置信度为0%。然而,如果片段140B包含骂人的词,则毒害性的置信度可能为80%。如果毒害性阈值是60%,则至少一个片段140B满足阈值,并且整个语音组块110A被转发到下一阶段。
另一选项是使用来自语音组块110A中所有片段的平均置信度作为语音组块110A的置信度。因此,如果平均如果置信度不超过毒害性阈值,则不将语音组块110A转发到后续阶段115。另一选项是使用来自任何片段140的最小毒害性作为语音组块110A的置信度。在当前提供的示例中,使用最小值是不可取的,因为它可能导致大量潜在有害语音因片段140之一内的无声时段而被丢弃。然而,在阶段115的其他实现方式中,这可能是可取的。另一种方法是使用另一神经网络来学习组合了片段140的各种置信度的函数以确定语音组块110A的总体毒害性阈值。
该处理然后进行到步骤316,该步骤询问是否满足了第一阶段115的毒害性阈值。如果满足了第一阶段的毒害性阈值,则处理进行到步骤324,该步骤将经过滤通过的有害语音124转发到第二阶段115。返回到图1A,显然并非所有语音110都通过第一阶段115。因此,确实通过第一阶段115的语音110被认为是过滤后的有害语音124。
对所有剩余的组块110B重复步骤312-316。
如果在步骤316没有满足第一阶段的毒害性阈值,则处理进行到步骤318,在该步骤中过滤掉无害语音。然后在步骤320丢弃无害语音,成为被丢弃语音111。
在一些实施方式中,处理进行到步骤322,其中随机上传器218将小百分比的过滤掉的语音传递到第二阶段115(尽管过滤掉的语音没有达到第一阶段115的毒害性阈值)。随机上传器218将所有过滤掉的语音(也称为否定)中的一小部分传递给后续阶段115,并且后续阶段115对过滤后的语音124的子集进行采样。在各种实施方式中,更高级的第二阶段115分析来自第一阶段115的否定的随机百分比。
如前所述,一般来说,第一阶段115在计算上比后续阶段115更高效。因此,第一阶段115过滤掉不太可能有害的语音,并传递可能有害的语音以供更高级阶段115分析。让后续阶段115分析过滤掉的语音似乎违反直觉。然而,通过分析过滤掉的语音的一小部分,可以获得两个优点。首先,第二阶段115检测假否定(即,应该被转发到第二阶段115的过滤掉的语音111)。可以将假否定添加到训练数据库216以帮助进一步训练第一阶段115,并减少将来假否定的可能性。此外,过滤掉的语音111被采样的百分比很小(例如,1%-0.1%),从而不会过度浪费来自第二阶段115的许多资源。
下面描述可由第二阶段在步骤324执行的分析的示例。在各种实施方式中,第二阶段115可以是基于云的阶段。如果语音组块110A由第一阶段115和/或随机上传器218上传,则第二阶段115接收语音组块110A作为输入。因此,继续前面的示例,第二阶段115可以接收20秒的组块110A。
可以使用训练数据集来训练第二阶段115,该训练数据集例如包括人工审核员106确定的与人类讲话者102(例如,成人和儿童讲话者102)的剪辑的数据集相对应的年龄和情感类别标签。在例示性实施方式中,一组内容审核员可以手动标记从各种来源(例如,配音演员、Twitch流、视频游戏话音聊天等)获得的数据。
第二阶段115可以通过在20秒输入语音组块110A上运行机器学习/神经网络215来分析语音组块110A,产生毒害性置信度输出。与第一阶段115相比,第二阶段115可以将20秒语音组块110A作为整个单元来分析,而不是划分的片段240。例如,第二阶段115可以确定带有愤怒情感的语音110更有可能是有害的。以类似的方式,第二阶段115可以确定青少年讲话者102更可能有害。此外,第二阶段115可以学习某些年长讲话者102的一些区别性特征(例如,添加到置信度中的词汇和短语)。
此外,第二阶段115可以使用来自后续阶段115(例如,第三阶段115)的语音毒害性的否定和肯定示例来训练。例如,由第三阶段115分析并发现无害的语音110可以被结合到第二阶段的训练中。以类似的方式,由第三阶段115分析并发现有害的语音可以被结合到第二阶段的训练中。
然后该处理进行到步骤326,该步骤输出语音110和/或语音组块110A的毒害性的置信区间。因为在该示例中第二阶段115分析整个语音组块110A,所以针对整个组块110A输出单个置信区间。此外,第二阶段115还可以基于语音110中的音色输出情感和讲话者年龄的估计。
该处理然后进行到步骤328,该步骤询问是否满足第二阶段的毒害性阈值。第二阶段115具有预设的毒害性阈值(例如,80%)。如果步骤326提供的置信区间满足毒害性阈值,则处理进行到步骤336(如图3B所示)。如果未满足毒害性阈值,则处理进行到步骤330。步骤330-334以与步骤318-322类似的方式操作。因此,这里不再详细重复这些步骤的讨论。然而,再次值得一提的是,由第二阶段115确定的否定(即,无害)语音的一小部分(例如,小于2%)被传递到第三阶段115以帮助重新训练第二阶段115以减少假否定。这个处理提供了与前面描述的那些相似的优点。
如图3B所示,该处理进行到步骤336,该步骤使用第三阶段115来分析过滤后的有害语音。第三阶段115可以接收由第二阶段115过滤通过的20秒音频。第三阶段115还可以从第二阶段115接收讲话者102年龄的估计,或者最常见的讲话者102的年龄段。讲话者102的年龄段可以由年龄分析器222确定。例如,年龄分析器222可以分析语音110的多个部分并且有十次确定讲话者102是成人,一次是儿童。讲话者最常见的年龄段是成人。此外,第三阶段115可以接收已经到达第三阶段115的对话中的先前语音110的副本。这些副本可以由转录引擎228准备。
第三阶段115最初可以由对应于单独的音频剪辑数据的人工产生的转录标签来训练。例如,人们可以转录各种不同的语音110,并将该副本分类为有害或无害。转录引擎228因此可以被训练成转录语音110并且也分析语音110。
当转录引擎228分析过滤后的语音并将其转录时,一些语音被第三阶段115确定为有害的并被转发到审核员106。审核员106因此可以提供关于转发的有害语音是真肯定还是假肯定的反馈132。此外,步骤342-346(类似于步骤330-334)使用随机上传器从第三阶段上传随机否定样本。因此,审核员106可以提供关于上传的随机语音是真否定还是假否定的进一步反馈132。因此,使用来自审核员106的肯定和否定反馈进一步训练阶段115。
当分析过滤后的语音时,第三阶段115可以将20秒的语音转录成文本。通常,通过机器学习进行转录非常昂贵且耗时。因此,它被用在***的第三阶段115。第三阶段115分析20秒的转录文本,以给定的置信度产生按剪辑隔离的毒害性类别(例如,性骚扰、种族仇恨言论等)估计。
使用对话中的已经到达第三阶段115的先前转录的剪辑,基于先前的剪辑来更新当前转录类别的概率。因此,如果检测到给定毒害性类别的先前实例,该类别的置信度就会提高。
在各种实施方式中,用户背景分析器226可以接收关于对话的任何成员(例如,讲话者102和/或听者104)是否被估计为儿童(例如,由第二阶段115确定)的信息。如果对话的任何成员被认为是儿童,则可以增加置信度和/或可以降低阈值。因此,在一些实施方式中,训练第三阶段115以在涉及儿童的情况下更有可能将语音110转发给审核员。
该处理然后进行到步骤338,其中第三阶段115输出过滤后的语音的语音毒害性的置信区间。应该理解,置信度输出将取决于训练。例如,如果特定的毒害性政策不关心一般的骂人的词,而只关心骚扰,则训练会考虑到这一点。因此,如果需要,可以调整阶段115以考虑毒害性的类型。
该处理然后进行到步骤340,该步骤询问是否已经满足第三阶段的毒害性阈值。如果是,则处理进行到步骤348,该步骤将过滤后的语音转发给审核员。在各种实施方式中,第三阶段115还将语音110的副本输出到人工审核员106。如果否,则语音在步骤342被过滤掉,然后在步骤344被丢弃。然而,随机上传器218可以将过滤掉的语音的一部分传递给人工审核员,如先前参照其他阶段115所描述的。
在步骤350,审核员106接收已经被过滤通过多阶段***100的有害语音。因此,审核员106应该看到经过大幅过滤的语音量。这有助于解决由玩家/用户手动呼叫审核员的问题。
如果审核员根据毒害性政策确定过滤后的语音是有害的,则处理进行到步骤352,该步骤采取校正性动作。审核员106对“有害”或“无害”的评估也可以转发给另一***,该***自身确定应该采取什么校正性动作(如果有的话),包括可能什么也不做,例如,对于初犯者。校正性动作可以包括对讲话者102的警告、将讲话者102禁言、使讲话者102静音和/或改变讲话者的话音,等等。该处理然后进行到步骤354。
在步骤354,更新用于各个阶段115的训练数据。具体地,使用来自第二阶段115的毒害性的肯定确定和毒害性的否定确定来更新用于第一阶段115的训练数据。使用来自第三阶段115的毒害性的肯定确定和毒害性的否定确定来更新用于第二阶段115的训练数据。使用来自审核员106的毒害性的肯定确定和毒害性的否定确定来更新用于第三阶段115的训练数据。因此,各个后续阶段115(或审核员)就其对有害语音的确定是否准确(由后续阶段115或审核员106判断的)对之前阶段115进行训练。
在各种实施方式中,之前阶段115由后续阶段115训练以更好地检测假肯定(即,被认为有害但无害的语音)。这是因为之前阶段115传递它认为有害的语音(即,满足给定阶段115的毒害性阈值)。此外,步骤322、334和346用于训练后续阶段以更好地检测假否定(即,被认为无害但有害的语音)。这是因为被丢弃语音111的随机采样由后续阶段115进行分析。
这些训练数据一起使***100总体上变得更鲁邦并且随着时间的推移而改进。步骤354可以发生在多个时间处。例如,步骤354可以在各个阶段115完成其分析之后自适应地实时运行。附加地或另选地,可以以不同的时间间隔(例如,每天或每周)对训练数据进行批处理,并将其用于按周期计划重新训练模型。
该处理然后进行到步骤356,该步骤询问是否有更多语音110要分析。如果存在,则处理返回到步骤304,并且处理300再次开始。如果没有更多的语音可供分析,则该处理可以结束。
因此,内容审核***被训练成随着时间的推移降低假否定率和假肯定率。例如,训练可以经由梯度下降或贝叶斯优化或进化方法或其他优化技术或多种优化技术的组合来完成,这取决于阶段中的实现方式或***类型。如果阶段115中有多个单独的组件,则可以经由不同的技术对它们进行训练。
应当注意,根据本发明的例示性实施方式,该处理是从通常用于确定语音是否有害的较长处理简化而来的。因此,确定语音是否有害的处理具有本领域技术人员可能会使用的许多步骤。此外,一些步骤可以以与所示顺序不同的顺序执行或完全跳过。附加地或另选地,一些步骤可以同时执行。因此,本领域技术人员可以适当地修改该处理。
尽管各种实施方式提到“丢弃”语音,但是应该理解该术语并不一定意味着语音数据被删除或扔掉。相反,可以存储被丢弃语音。被丢弃语音仅旨在说明语音未被转发到后续阶段115和/或审核员106。
图6示意性地示出了根据例示性实施方式的可以与图3A至图3B的处理一起使用的***100的细节。图6并非旨在限制图3A至图3B的处理的使用。例如,图3A至图3B的处理可以与各种审核内容***100一起使用,包括图1A至图1C所示的***100。
在各种实施方式中,阶段115可以接收附加的输入(例如关于讲话者102的地理位置的信息、IP地址或关于会话中的其他讲话者102的信息,例如会话背景)并且产生被保存到数据库或输入到将来阶段115中的附加输出(例如玩家的年龄估计)。
在***100的整个操作过程中,附加数据被提取并由各个阶段115使用以辅助决策制定,或提供剪辑周围的附加上下文。该数据可以存储在数据库中,并潜在地与历史数据组合以创建对特定玩家的整体了解。附加数据还可以跨时间段、地理区域、游戏模式等进行聚合,以提供游戏中内容(在本例中为聊天)状态的高级视图。例如,可以将副本聚合为各种用语和短语的使用频率的概貌,并且可以随着时间的推移绘制成图表。使用频率随时间变化的特定词或短语可能会引起平台管理员的注意,他们可以利用他们对游戏的深入背景知识来更新多阶段筛选***的配置以解决这种变化(例如,如果关键字从积极内涵变为消极内涵,则在评估聊天记录时给予该关键字更大的加权)。这可以结合其他数据来完成——例如,如果词的频率保持不变,但使用它的短语的情绪从积极变为消极,它也可能会被突出显示。聚合数据可以经由仪表板显示给平台管理员,其示出了图表、统计数据和各种提取数据随时间的演变。
尽管图6将***100的各个部分示为分离的(例如,第一阶段115和随机上传器218),但这并不旨在限制各种实施方式。随机上传器218和***的其他组件可以被认为是各个阶段115的一部分,或者与阶段115分开。
如在图3A至图3B中大体描述的,讲话者102提供语音110。经由输入部208接收语音110,其将语音110分解成阶段115可消化的组块110A、110B。在一些实施方式中,语音110没有被分解成组块110A、110B,并且可以按原样被阶段接收。分段器234可以进一步将组块110A、110B分解为分析片段240。然而,在一些实施方式中,组块110A、110B可以作为整个单元被分析,因此可以被认为是分析片段240。此外,在一些实施方式中,整个语音110可以作为单元被分析,因此可以被认为是分析片段140。
第一阶段115确定语音110的某个部分是潜在有害的,并将该部分语音110(即,过滤后的语音124)传递到后续阶段115。然而,一些语音110被认为是无害的,因此被丢弃。如前所述,为了帮助检测假否定(即,检测有害但被认为无害的语音),上传器218将某一百分比的语音上传到后续阶段115以供分析。当后续阶段115确定上传的语音实际上是假否定时,它可以直接与第一阶段115通信(例如,反馈136A)和/或可以更新用于第一阶段的训练数据库(反馈136B)。第一阶段115可以在进行中或者在预先安排的时间自适应地重新训练。因此,第一阶段115被训练成减少假否定。
过滤后的有害语音124由第二阶段115接收和分析,其确定语音124是否可能有害。过滤后的有害语音124在第一阶段115被发现具有肯定的毒害性。第二阶段115进一步分析过滤后的有害语音124。如果第二阶段115确定过滤后的语音124是无害的,则它丢弃语音124。但是第二阶段115也向第一阶段115提供这样的反馈(直接经由反馈136A,或者通过经由反馈136B来更新训练数据库):过滤后的语音124是假肯定。该假肯定可以作为假肯定被包括在数据库216中。因此,第一阶段115可以被训练成减少假肯定。
此外,第二阶段115传递它认为可能有害的语音124作为有害语音126。它认为不太可能有害的语音124变成被丢弃语音111B。然而,被丢弃语音111B的某个部分由随机上传器218上传(以减少第二阶段115的假否定)。
第三阶段115接收进一步过滤的有害语音126,并分析语音126以确定它是否可能有害。过滤后的有害语音126在第二阶段115被发现具有肯定的毒害性。第三阶段115进一步分析过滤后的有害语音126。如果第三阶段115确定过滤后的语音126是无害的,则它丢弃语音126。但是第三阶段115也向第二阶段115提供这样的反馈(直接经由反馈134A,或者通过经由反馈134B来更新训练数据库):过滤后的语音126是假肯定。该假肯定可以作为假肯定被包括在训练数据库216中。因此,第二阶段115可以被训练成减少假肯定。
第三阶段115传递它认为可能有害的语音126作为有害语音128。它认为不太可能有害的语音126变成被丢弃语音111C。然而,被丢弃语音111C的某个部分由随机上传器218上传(以减少第三阶段115的假否定)。
审核员106接收进一步过滤的有害语音128,并分析语音128以确定它是否可能有害。过滤后的有害语音128在第三阶段115被发现具有肯定的毒害性。审核员106进一步分析过滤后的有害语音128。如果审核员106确定过滤后的语音128无害,则审核员106丢弃语音128。但是审核员106还向第三阶段115提供这样的反馈(直接经由反馈132A,或者通过经由反馈132B来更新训练数据库):过滤后的语音128是假肯定(例如,通过用户界面)。该假肯定可以作为假肯定被包括在训练数据库216中。因此,第三阶段115可以被训练成减少假肯定。
显然,各种实施方式可以具有分布在多个设备和/或云服务器上的一个或更多个阶段115(例如,两个阶段115、三个阶段115、四个阶段115、五个阶段115等)。各个阶段可以使用不同的机器学***台话音内容进行审核的问题。
例如,假设第一阶段115的成本(计算上)低至该第一阶段可以用10,000美元分析100,000小时的音频。假设第二阶段115处理所有100,000小时的音频成本太高,但可以以10,000美元的价格处理10,000小时。假设第三阶段115的计算量更大,并且第三阶段115可以分析1,000小时花费10,000美元。因此,希望优化***的效率,使得可能有害的语音通过更高级的(在该示例中,昂贵的)阶段逐步分析,而无害的语音被更高效的且不太高级的阶段过滤掉。
尽管各种实施方式涉及话音调制,但是应该理解,类似的处理可以用于其他类型的内容,例如图像、文本和视频。一般来说,文本不会像音频一样存在高吞吐量的问题。然而,视频和图像可能会遇到类似的吞吐量分析问题。
多阶段筛选***100也可以用于其他目的(例如,在游戏示例内)。例如,虽然前两个阶段115可以保持相同,但是第二阶段115的输出可以另外被发送到单独的***。
此外,尽管各种实施方式涉及毒害性的审核,但应理解,本文描述的***和方法可用于审核任何种类的语音(或其他内容)。例如,代替监测有害行为,***100可以监测任何特定内容(例如,产品提及或围绕游戏的最近更改“补丁”的讨论),以便发现玩家关于这些话题的情绪。与审核***类似,这些阶段可以将他们的发现以及提取的数据聚合到数据库中,并经由仪表板将其呈现给管理员。同样,词汇和相关情绪可以被跟踪并随时间演变。阶段115可以向人工审核团队输出可能的产品提及以验证和确定情绪——或者,如果阶段115对讨论话题和相关情绪有信心,则它们可以将它们的发现保存到数据库中并从后续阶段中过滤掉该内容,从而使***的计算效率更高。
其他管制话题也可以这样做,例如作弊或“卖金币”(出售游戏内货币以换取真钱)。可以存在类似地对可能的违规行为进行筛选以进行管制(例如,寻找对流行的作弊软件的提及,其名称会随着时间的推移而演变)的阶段115,并且类似地,人工审核团队可以对从阶段115传递的剪辑做出管制决策。
因此,使用人工智能或其他已知技术,例示性实施方式使后期阶段能够改进早期阶段的处理,以有效地将尽可能多的智能移至用户设备或移到用户设备上。这使得更快速和有效的审核成为可能,同时减少了对后期较慢阶段(例如,设备外的)的需求。
此外,虽然各种实施方式将阶段115称为输出置信区间,但在一些实施方式中,阶段115可以以另一种格式输出它们的置信度(例如,是或否、百分比、范围等)。此外,代替从审核流水线中完全过滤掉内容,阶段可以按优先顺序排列用于将来阶段的内容或作为***的输出而不明确地放弃任何内容。例如,代替因不太可能具有破坏性而放弃一些内容,阶段可以给予内容破坏性得分,然后将其***到按优先顺序排列的内容列表中,以供后期阶段进行审核。后期阶段可以从列表中检索得分最高的内容并对其进行过滤(或者潜在地将其优先排序到新列表中以供更后期阶段使用)。因此,可以调整后期阶段以使用一定量的计算能力,并简单地优先审核最有可能具有破坏性的内容,从而有效利用固定的计算预算。
图7示意性地示出了根据本发明的例示性实施方式的四阶段***。多阶段自适应筛选***计算效率高、成本低且可扩展。***的早期阶段可以配置/架构为比后期阶段更高效(例如,更快速)运行,通过在使用效率较低、速度较慢但功能更强大的后期阶段之前过滤掉大部分内容来保持低成本。最早的阶段甚至可以在本地用户设备上运行,从而降低平台成本。这些早期阶段通过利用来自后期阶段的反馈更新自身来适应过滤掉在给定上下文中可辨别的内容。由于后期阶段看到的内容总体上少得多,因此可以为它们提供更大的模型和更多的计算资源,从而使它们具有更高的准确度,并允许它们改进早期阶段完成的过滤。通过使用计算效率高的早期阶段来过滤较容易的内容,***利用高效的资源使用保持了高准确度,主要在需要更强大的后期阶段模型的不太容易的审核决策上采用这些模型。此外,可获得针对***后期不同阶段的多个选项,其中早期阶段或其他监督***基于内容、提取数据或历史数据来选择哪个下一阶段是合适的——或者基于考虑阶段选项的成本/准确度权衡,等等。
除了过滤掉可能的非破坏性内容之外,这些阶段还可以单独过滤容易辨别的破坏性内容,并潜在地对该内容采取自主行动。例如,执行设备上过滤的早期阶段可以对检测到的指示破坏性行为的关键字进行删减,同时将无法检测到关键字的情况传递到后期阶段。作为另一示例,中间阶段可以检测到早期阶段遗漏的破坏性词或短语,并在检测到后不久向违规用户发出警告,潜在地阻止他们在剩余的交流中具破坏性。这些决策也可以报告给后期阶段。
***中的早期阶段可能会执行其他操作,以协助后期阶段进行过滤,从而将后期阶段的一些计算分配到流水线中的早期阶段。这一点在早期阶段生成也可由后期阶段使用的有用数据或内容摘要时尤其重要,从而避免重复计算。该操作可能是传递给后期阶段的内容的摘要或语义上有意义的压缩,而不是内容本身——从而也减少了阶段之间的带宽——或者除了内容本身之外。该操作可以提取内容的某些特定属性,这些属性可能对审核任务之外的目的有用,并且可以作为元数据传递。提取的属性本身可以被存储或与历史值组合以创建可能更准确的平均属性值或值随时间演变的历史,这可以在后期阶段用于做出过滤决策。
***可以被配置为基于采用审核的平台的偏好或需要,以或多或少的优先级对审核中的不同因素加权。***的最终阶段可能会将过滤后的内容和/或提取的数据输出到人工审核员团队或可配置的自动化***,该团队或***将决策传回***,允许其自身更新并在将来做出更符合该团队或***的决策。根据外部团队或***的反馈,也可以直接配置或间接更新各个阶段,从而允许平台控制***如何使用内容的各种特征来做出审核决策。例如,在话音聊天审核***中,一个中间阶段可能会从语音内容中提取文本,并将该文本与(潜在加权的)词黑名单进行比较——使用结果来通知其审核决策。人工团队可以通过提供手动注释数据直接改进语音转文本引擎,或者可以手动使语音转文本引擎适应新领域(新语言或口音);或者可以手动调整词黑名单(或者潜在地,其严重性权重)以优先考虑更激进地审核某些类型的内容。
由于各阶段优选地基于来自后期阶段的反馈信息来更新它们自己,所以整个***或整个***的至少一部分能够容易地适应新的或变化的环境。更新可以在***运行时在线进行,也可以稍后进行批处理以供更新,例如批量更新或等待***有空闲资源进行更新。在在线更新的情况下,***通过这样的方式来适应不断变化的内容类型:对内容做出初始过滤决策,然后从最终的人工审核员团队或其他外部自动化***接收反馈。该***还可以随着时间的推移跟踪内容的提取属性,并示出这些属性的演变以通知***的手动配置。
例如,在聊天审核用例中,***可以突出显示语言分布随时间的转变——例如,如果一个新词(例如俚语)突然被高频使用,则可以识别出这个新词并在仪表板或摘要中示出——此时***管理员可以对其进行配置以适应不断变化的语言分布。这也可以处理一些提取的属性改变它们对审核***决策的影响的情况——例如,当部署聊天审核***时,“有病”一词可能具有消极内涵;但随着时间的推移,“有病”可能会获得积极的内涵,并且围绕其使用的上下文会发生变化。聊天审核***可以突出显示这种演变(例如,报告“词语‘有病’先前用在消极情绪的句子中,但最近开始用在简短的积极感叹语中”),并潜在地向管理员显现澄清决策(例如,“在该上下文中使用‘有病’这个词是否具有破坏性?”),以帮助***根据平台的偏好进行自我更新。
内容审核中的附加问题涉及保护正被审核内容的用户的隐私,因为内容可能包含身份信息。审核***可以使用单独的个人身份信息(PII)过滤组件在处理之前从内容中删除或删减(“擦除”)PII。在例示性的多阶段筛选***中,此PII擦除可以是***运行之前的预处理步骤,或者它可以在某些阶段之后运行并使用内容的提取属性来帮助PII识别。
虽然这可以利用基于文本的***中的模式匹配来实现,但PII擦除在视频、图像和音频中更加困难。一种方法是使用内容识别***,例如语音转文本或光学字符识别引擎,再加上基于文本的规则***,以回溯到语音、图像或视频中的违规词的位置,然后删减内容的这些区域。这也可以利用面部识别引擎来完成,以在审核处理期间删减图像和视频中的面部以保护隐私。附加技术是使用风格转换***来掩盖内容主体的身份。例如,图像或视频风格转换或“深度伪造”***可以匿名化内容中出现的面孔,同时保留内容的其余部分,使其能够有效地被审核。在语音领域,一些实施方式可以包括匿名器,例如话音皮肤或者被配置为将语音变换为新音色的音色转换***,从而匿名化讲话者的标识性嗓音特性,同时保持语音的内容和情感不变以供审核处理。
多阶段自适应筛选***适用于各种各样的内容审核任务。例如,***可以审核用户向社交媒体网站(或此类网站的一部分——例如平台“儿童”部分的单独审核标准)发布的图像、音频、视频、文本或混合媒体。该***还可以在允许聊天的平台上监测用户之间的聊天,无论是话音、视频还是文本。例如,在多玩家视频游戏中,***可以监测玩家之间的实时话音聊天;或者***可以审核视频流网站频道上的文本评论或聊天。该***还可以审核更抽象的属性,例如游戏玩法。例如,通过跟踪视频游戏中玩家的历史游戏风格或特定游戏的状态(得分等),***可以检测异常进行游戏的玩家(例如,故意输或犯错误以骚扰他们的队友),或者可以检测应该被劝阻的各种游戏风格(例如,“蹲点”,其中一玩家在其他玩家进入游戏时在他们能够做出反应之前攻击他们,或者是一个玩家在游戏中专门针对另一个玩家的情况)。
除了针对破坏性行为的内容审核之外,各种实施方式的多阶段自适应筛选***可以在其他环境中使用以处理大量内容。例如,该***可用于针对秘密信息的讨论来监测公司内部员工聊天。该***可用于跟踪情绪以供行为分析或广告,例如通过在话音或文本聊天中监听对产品或品牌的提及并分析是否存在与之相关联的积极或消极情绪,或者通过监测游戏中玩家对游戏引入的新变化的反应。该***可用于检测非法活动,例如共享非法或受版权保护的图像,或者被平台禁止的活动,例如在游戏中作弊或出售游戏内货币以换取真钱。
例如,考虑多阶段自适应筛选***在审核多玩家游戏中的话音聊天方面的一个潜在用途。***中的第一阶段可以是过滤掉用户何时未讲话的话音活动检测***,并且可以每次在几百毫秒或1秒的语音窗口上操作。第一阶段可以使用高效的参数化模型来确定特定讲话者是否在讲话,该模型可以基于游戏或地区和/或附加信息(例如用户的音频设置或历史音量级别)进行调整或校准。此外,各个阶段可以对用户发出声音的毒害性或声音类型进行分类(例如,在话音聊天中吹气喇叭)。例示性实施方式可以对声音进行分类(例如,尖叫、哭泣、气喇叭、呻吟等)以帮助审核员106对毒害性进行分类。
除了过滤掉用户未讲话或未发出声音的音频片段外,第一阶段还可以识别语音内容的属性,例如典型音量级别、当前音量级别、背景噪声级别等,这些属性可由第一阶段自身或将来阶段使用以做出过滤决策(例如,大声说话更有可能具有破坏性)。第一阶段将可能包含语音的音频片段以及一小部分不太可能包含语音的片段传递给第二阶段,以便从第二阶段获得更多信息更新并估计其自身的表现。第二阶段传回关于它确定哪些片段不太可能被管制的信息,并且第一阶段更新其自身以在将来更好地模仿该推理。
第一阶段仅对短音频片段进行操作,而第二阶段对15秒的剪辑进行操作,其中可能包含多个句子。第二阶段可以分析语调和基本语音内容,以及使用关于玩家的历史信息来做出更好的决策(例如,语调快速转变的玩家是否通常与破坏性行为相关?)。鉴于其更长时间的上下文,第二阶段还可以比第一阶段做出关于讲话和非讲话片段的更知情的决策,并且可以将其决策传回第一阶段以帮助其优化。然而,第二阶段需要比第一阶段更多的计算能力来执行其过滤,因此第一阶段筛掉无声片段可以使第二阶段保持高效。第一阶段和第二阶段都可以在用户设备上本地运行,不需要直接来自游戏的集中式基础设施的计算成本。
在这个示例的扩展中,第一阶段还可以检测语音中可能与脏话或其他不良语言相关联的音素序列。潜在地通过在持续时间内使音频静音或用音调代替,第一阶段可以自主决定删减可能的脏话或其他用语/短语。更高级的第一阶段可以用标准话音或玩家自己的话音(经由话音皮肤,或者根据他们的声带调整的专门的文本转语音引擎)替代原始语音中的音素,以产生不令人反感的词或短语(例如,将“f**k”变成“fork”)。
在第二阶段之后,未被过滤掉的剪辑被传递到第三阶段,该第三阶段在云平台上而不是在本地设备上操作(尽管一些实施方式可以在本地操作多于两个阶段)。第三阶段可以访问更多的上下文和更多的计算能力——例如,它可以分析接收到的与过去两分钟的游戏中语音相关的15秒语音剪辑,以及额外的游戏数据(例如,“玩家现在输了吗?”)。第三阶段可以使用高效的语音转文本引擎来创建粗略的副本,并分析语音的直接语音内容,以及从第二阶段传递的音调元数据。如果剪辑被认为具有潜在的破坏性,则会将其传递给第四阶段,该第四阶段现在可以纳入附加信息,例如来自目标玩家方或游戏实例中其他玩家的剪辑和副本,这些可能是单个对话的一部分。该剪辑和来自对话的其他相关剪辑可以具有由更复杂但更昂贵的语音识别引擎提炼的来自第三阶段的副本。第四阶段还可以包括特定于游戏的词汇或短语以帮助理解对话,并且它可以运行情绪分析或其他语言理解来区分困难的情况(例如,已经成为好友(例如,一起玩过很多游戏)一段时间的两个玩家,其中一个玩家是否善意地取笑另一个玩家?或者,两个玩家在互相辱骂?其中每个人都用愤怒的语调,随着时间的推移对话的严重性越来越高)。
在这个示例的另一扩展中,第三或第四阶段可以检测玩家的情绪、语调或语言的快速变化,这可能表明玩家的精神状态发生了严重变化。这可以通过以下方式来自动响应:向玩家发出视觉或听觉警告,自动改变人的话音(例如,变成高音调的花栗鼠)或使聊天流静音。相比之下,如果特定玩家周期性地发生这种快速变化,显示出与游戏状态或游戏中的行为无关,则可以确定该玩家正在经历周期性的健康问题,并且可以避免惩罚措施,同时减轻对其他玩家的影响。
第4阶段可能包括更多额外数据,例如围绕文本聊天的类似分析(潜在地也由单独的多阶段筛选***进行)、游戏状态、游戏中的图像(例如屏幕截图)等。
第四阶段认为具有潜在破坏性的剪辑以及上下文和其他数据可以被传递给最终的人工审核团队,该团队使用他们对游戏的深入背景知识以及由多阶段筛选***呈现的元数据、属性、副本和围绕剪辑的上下文,以做出最终的审核决策。该决策会触发消息给游戏工作室,该游戏工作室可以基于它采取行动(例如,对涉及的玩家进行警告或禁言)。审核决策信息连同潜在的附加数据(例如,“审核员为什么做出这个决策?”)流回第四阶段,并作为训练数据操作,以帮助第四阶段自我更新和改进。
图8A示意性地示出了根据本发明的例示性实施方式的训练机器学习的处理。应该注意的是,这个处理是从通常用于训练***阶段的较长处理简化而来的。因此,训练机器学习的处理可能具有本领域技术人员可能会使用的许多步骤。此外,一些步骤可以以与所示顺序不同的顺序执行或完全跳过。附加地或另选地,一些步骤可以同时执行。因此,本领域技术人员可以适当地修改该处理。实际上,本领域的技术人员应该很清楚,这里描述的处理可以针对不止一个阶段(例如,三阶段、四阶段)重复。
图8B示意性地示出了根据本发明的例示性实施方式的用于训练图8A的机器学习的***。此外,参照图8B对训练阶段的具体示例实现方式的讨论是为了便于讨论,而不是旨在限制各种实施方式。本领域技术人员理解,可以调整、移除和/或添加阶段的训练以及阶段的各种组件和交互,同时仍然开发出根据例示性实施方式的工作的毒害性审核***100。
处理800开始于步骤802,该步骤提供多阶段内容分析***,例如图8B中的***100。在步骤804,使用具有训练数据的数据库216运行机器学习训练,该训练数据具有训练内容的肯定和否定的示例。例如,对于毒害性审核***,肯定示例可以包括具有毒害性的语音剪辑,而否定示例可以包括没有毒害性的语音剪辑。
在步骤806,第一阶段分析接收到的内容以产生第一阶段肯定确定(S1-肯定),并且还产生接收到的语音内容的第一阶段否定确定(S1-否定)。因此,基于第一阶段在步骤804中接收到的训练,它可以确定接收到的内容可能是肯定的(例如,包含有害语音)或可能是否定的(例如,不包含有害语音)。关联的S1-肯定内容被转发到后续阶段。关联的S1-否定内容可能有一部分被丢弃,一部分被转发到后续阶段(例如,使用前面描述的上传器)。
在步骤808,使用第二阶段分析S1-肯定内容,该第二阶段产生它自己的第二阶段肯定(S2-肯定)确定,并且还产生第二阶段否定(S2-否定)确定。第二阶段的训练与第一阶段不同,因此,并非所有S1-肯定内容都会是S2-肯定,反之亦然。
在步骤810,将S2-肯定内容和S2-否定内容用于更新第一阶段的训练(例如,在数据库216中)。在例示性实施方式中,更新后的训练提供了来自第一阶段的假肯定的减少。在一些实施方式中,假否定也可以由于步骤810而减少。例如,假设S2-肯定和S2-否定的分解比现有训练示例更容易确定(如果我们从一些低质量的训练示例开始)——这可能导致第一阶段115在整体上更容易学习,也减少了假否定)。
在步骤812,使用第二阶段来分析转发的S1-否定内容的部分,该第二阶段再次产生它自己的第二阶段肯定(S2-肯定)确定,并且还产生第二阶段否定(S2-否定)确定。在步骤814,将S2-肯定内容和S2-否定内容用于更新第一阶段的训练(例如,在数据库216中)。在例示性实施方式中,更新后的训练提供了来自第一阶段的假否定的减少。类似地,在一些实施方式中,作为步骤812的结果也减少了假肯定。
该处理然后移动到步骤816,该步骤询问是否应该通过丢弃旧的训练数据来更新训练。通过周期性地丢弃旧的训练数据并重新训练第一阶段115,可以查看旧数据与新数据相比的性能变化,并通过移除不太准确的旧训练数据来确定准确度是否提高。本领域的技术人员将理解,在各种实施方式中,各个阶段可以在进行中或在预先安排的时间自适应地重新训练。此外,假定先前阶段115的输出分布随着训练而演变,数据库216中的训练数据可偶尔被刷新、更新和/或丢弃以允许后续阶段115的输入分布的转变。在一些实施方式中,先前阶段115的演变可能不期望地影响后续阶段115看到的输入类型,并对后续阶段115的训练产生负面影响。因此,例示性实施方式可以周期性地更新和/或丢弃部分或全部训练数据。
如果在步骤816没有对训练的更新,则训练处理结束。
本发明的各种实施方式可以至少部分地以任何常规的计算机编程语言来实现。例如,一些实施方式可以以过程化编程语言(例如“C”)、作为可视化编程处理或以面向对象的编程语言(例如“C++”)来实现。本发明的其他实施方式可以实现为预配置的独立硬件元件和/或预编程硬件元件(例如,专用集成电路、FPGA和数字信号处理器)或其他相关组件。
在另选实施方式中,所公开的装置和方法(例如,如在上述任何方法、流程图或逻辑流程中)可以被实现为与计算机***一起使用的计算机程序产品。这样的实现可以包括固定在有形的、非暂时性的、非瞬时性介质上的一系列计算机指令,例如计算机可读介质(例如,软盘、CD-ROM、ROM或固定盘)。该系列计算机指令可以体现本文先前关于***描述的全部或部分功能。
本领域的技术人员应该理解,这样的计算机指令可以用多种编程语言来编写以用于许多计算机体系结构或操作***。此外,此类指令可以存储在任何存储设备中,例如有形的、非暂时性半导体、磁性、光学或其他存储设备,并且可以使用任何通信技术传输,例如光学、红外、RF/微波,或通过任何适当介质的其他传输技术,例如有线(例如,电线、同轴电缆、光纤电缆等)或无线(例如,通过空气或空间)。
除其他方式外,此类计算机程序产品可以作为具有附带印刷或电子文档的可移除介质分发(例如,收缩包装软件),利用计算机***预加载(例如,在***ROM或固定磁盘上),或从服务器或电子公告板通过网络(例如,因特网或万维网)分发。事实上,一些实施方式可以在软件即服务模型(“SAAS”)或云计算模型中实现。当然,本发明的一些实施方式可以实现为软件(例如,计算机程序产品)和硬件的组合。本发明的另外一些实施方式被实现为完全硬件或完全软件。
实现本文先前描述的全部或部分功能的计算机程序逻辑可以在不同时间在单个处理器上执行(例如,并发地)或者可以在相同或不同时间在多个处理器上执行并且可以在单个操作***进程/线程下或在不同的操作***进程/线程下运行。因此,术语“计算机进程”一般是指一组计算机程序指令的执行,而不管不同的计算机进程是在相同还是不同的处理器上执行,也不管不同的计算机进程是否运行在相同的操作***进程/线程或不同的操作***进程/线程下。软件***可以使用各种架构来实现,例如单体架构或微服务架构。
本发明的例示性实施方式可以采用常规组件,例如常规计算机(例如,现成的PC、大型机、微处理器)、常规的可编程逻辑设备(例如,现成的FPGA或PLD),或常规的硬件组件(例如,现成的ASIC或分立硬件组件),它们在被编程或被配置成执行本文所述的非常规方法时产生非常规设备或***。因此,本文描述的发明并非常规的,因为即使实施方式是使用常规组件实现的,最终的设备和***也必然是非常规的,因为在没有特殊编程或配置的情况下,常规组件不会固有地执行所描述的非常规功能。
虽然本文已经描述和说明了各种发明实施方式,但是本领域的普通技术人员将容易地设想用于执行本文描述功能和/或获得结果和/或一个或更多个优点的各种其他装置和/或结构,并且每个这样的变化和/或修改被认为在本文描述的发明实施方式的范围内。更一般地,本领域的技术人员将容易理解,本文描述的所有参数、尺寸、材料和配置都是示例性的,实际参数、尺寸、材料和/或配置将取决于使用本发明的教导的具体应用。本领域的技术人员仅使用常规实验将认识到或能够确定本文所述的具体发明实施方式的许多等同物。因此,应当理解,前述实施方式仅以示例的方式呈现,并且在所附权利要求及其等同物的范围内,可以以不同于具体描述和要求保护的方式来实践本发明的实施方式。本公开的发明性实施方式涉及本文所述的各个单独的特征、***、物品、材料、套件和/或方法。此外,两个或更多个此类特征、***、物品、材料、套件和/或方法的任何组合(如果此类特征、***、物品、材料、套件和/或方法不相互不一致)均包含在本公开的发明范围内。
各种发明构思可以体现为一种或更多种方法,已经提供了其示例。作为方法的一部分执行的动作可以以任何合适的方式排序。因此,可以构建其中以不同于图示的顺序执行动作的实施方式,这可以包括同时执行一些动作,即使在例示性实施方式中被示为顺序动作。
尽管以上讨论公开了本发明的各种示例性实施方式,但是应当清楚,本领域技术人员可以进行各种修改以实现本发明的一些优点而不脱离本发明的真实范围。

Claims (42)

1.一种毒害性审核***,所述***包括
输入部,所述输入部被配置为从讲话者接收语音;
多阶段毒害性机器学***是否满足毒害性阈值,
所述第一阶段被配置为将满足所述毒害性阈值的语音过滤通过到所述第二阶段,并且还被配置为过滤掉不满足所述毒害性阈值的语音。
2.根据权利要求1所述的毒害性审核***,其中,使用具有训练数据的数据库来训练所述第一阶段,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例。
3.根据权利要求2所述的毒害性审核***,其中,所述第一阶段是使用反馈处理进行训练的,所述反馈处理包括:
接收语音内容;
使用所述第一阶段来分析所述语音内容,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容;
使用所述第二阶段来分析所述第一阶段肯定语音内容,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容;以及
使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
4.根据权利要求3所述的毒害性审核***,其中,所述第一阶段丢弃所述第一阶段否定语音内容的至少一部分。
5.根据权利要求3所述的毒害性审核***,其中,所述第一阶段是使用所述反馈处理进行训练的,所述反馈处理还包括:
使用所述第二阶段来分析少于全部的所述第一阶段否定语音内容,以将所述第一阶段否定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容;
进一步使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
6.根据权利要求1所述的毒害性审核***,所述毒害性审核***还包括随机上传器,所述随机上传器被配置为将所述语音的不满足所述毒害性阈值的部分上传到后续阶段或人工审核员。
7.根据权利要求1所述的毒害性审核***,所述毒害性审核***还包括会话背景标记器,所述会话背景标记器被配置为接收所述讲话者先前在预定时间量内满足所述毒害性阈值的指示,并且:(a)调整所述毒害性阈值,或者(b)将所述语音的不满足所述毒害性阈值的部分上传到后续阶段或人工审核员。
8.根据权利要求1所述的毒害性审核***,所述毒害性审核***还包括用户背景分析器,所述用户背景分析器被配置为基于所述讲话者的年龄、听者的年龄、所述讲话者的地理区域、所述讲话者的好友列表、最近互动的听者的历史、讲话者的游戏时间、讲话者的游戏时长、游戏开始和游戏结束的时间和/或游戏历史来调整所述毒害性阈值和/或毒害性置信度。
9.根据权利要求1所述的毒害性审核***,所述毒害性审核***还包括情感分析器,所述情感分析器被训练成确定所述讲话者的情感。
10.根据权利要求1所述的毒害性审核***,所述毒害性审核***还包括年龄分析器,所述年龄分析器被训练成确定所述讲话者的年龄。
11.根据权利要求1所述的毒害性审核***,所述毒害性审核***还包括时序接受域,所述时序接受域被配置为将语音划分成能够由至少一个阶段接收的时间片段。
12.根据权利要求1所述的毒害性审核***,所述毒害性审核***还包括语音分段器,所述语音分段器被配置为将语音划分成能够由至少一个阶段分析的时间片段。
13.根据权利要求1所述的毒害性审核***,其中,所述第一阶段比所述第二阶段更高效。
14.一种多阶段内容分析***,所述多阶段内容分析***包括:
第一阶段,所述第一阶段是使用具有训练数据的数据库来训练的,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例,
所述第一阶段被配置为:
接收语音内容,
分析所述语音内容,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容;
第二阶段,所述第二阶段被配置为接收所述第一阶段否定语音内容的至少一部分,但少于全部,
所述第二阶段还被配置为分析所述第一阶段肯定语音内容,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容,所述第二阶段还被配置为使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
15.根据权利要求14所述的多阶段内容分析***,其中:
所述第二阶段被配置为分析接收到的第一阶段否定语音内容,以将所述第一阶段否定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容。
16.根据权利要求15所述的多阶段内容分析***,其中:
所述第二阶段被配置为使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
17.一种训练多阶段内容分析***的方法,所述方法包括以下步骤:
提供多阶段内容分析***,所述***具有第一阶段和第二阶段;
使用具有训练数据的数据库对所述第一阶段进行训练,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例;
接收语音内容;
使用所述第一阶段来分析所述语音内容,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容;
使用所述第二阶段来分析所述第一阶段肯定语音内容,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容;
使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库;
丢弃所述第一阶段否定语音内容的至少一部分。
18.根据权利要求17的所述方法,所述方法包括:
使用所述第二阶段来分析少于全部的所述第一阶段否定语音内容,以将所述第一阶段否定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容;
进一步使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
19.根据权利要求18所述的方法,所述方法还包括:
使用具有训练数据的数据库,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例;
产生与所述语音内容的一部分相关联的第一阶段肯定确定(“S1-肯定确定”)和/或第一阶段否定确定(“S1-否定确定”);
分析与所述S1-肯定确定相关联的语音。
20.根据权利要求19所述的方法,其中,所述肯定示例和/或否定示例与特定类别的毒害性有关。
21.一种用于管理内容的审核***,所述***包括:
串联设置的多个相继阶段,各个阶段被配置为接收输入内容并且过滤所述输入内容以产生过滤后的内容,所述阶段中的多个阶段皆被配置为将所述过滤后的内容朝着相继阶段转发;以及
在操作上与所述阶段联接的训练逻辑,所述训练逻辑被配置为使用与给定后续阶段的语音毒害性处理有关的信息来训练早期阶段的语音毒害性处理,所述给定后续阶段接收直接从所述早期阶段或者从所述给定后续阶段与所述早期阶段之间的至少一个阶段获得的内容。
22.根据权利要求21所述的***,其中,各个阶段的所述过滤后的内容包括接收到的输入内容的子集。
23.根据权利要求21所述的***,其中,各个阶段被配置成从输入内容产生要转发到效率较低的阶段的过滤后的内容,给定的效率较低的阶段比效率较高的第二阶段更强大。
24.根据权利要求21所述的***,其中,所述多个相继阶段中的至少一个阶段被配置为从之前阶段接收转发内容并且将转发内容发送到后期阶段。
25.根据权利要求21所述的***,其中,所述多个相继阶段一起具有最大审核容量,一个阶段具有最高效的阶段并且具有所述最大审核容量的最高百分比。
26.根据权利要求21所述的***,其中,第一阶段和第二阶段在用户设备上执行,第三阶段和第四阶段在设备外执行,所述第一阶段和所述第二阶段比所述第三阶段和所述第四阶段执行更多的审核容量。
27.根据权利要求21所述的***,所述***还具有用户界面,所述用户界面接收来自至少一个阶段的输入并且验证由所述多个阶段中的一个或更多个阶段进行的处理。
28.根据权利要求21所述的***,其中,所述训练逻辑作为包括存储程序代码的有形介质的计算机程序产品而被执行。
29.一种审核***,所述审核***包括:
多个相继阶段,所述多个相继阶段从所述多个阶段中的最高效阶段到最低效阶段串联设置,各个阶段被配置为从输入内容产生要转发到效率较低的阶段的转发内容;以及
在操作上与所述阶段联接的训练逻辑,所述训练逻辑被配置为使用与给定阶段的处理有关的信息来训练相邻的第二阶段的处理,所述第二阶段在处理方面比所述给定阶段更高效。
30.根据权利要求29所述的审核***,其中,所述多个相继阶段中的至少一个阶段被配置为从之前阶段接收转发内容并且将转发内容发送到后期阶段。
31.根据权利要求29所述的审核***,其中,所述多个相继阶段一起具有最大审核容量,所述最高效阶段具有所述最大审核容量的最高百分比。
32.根据权利要求29所述的审核***,其中,第一阶段和第二阶段在用户设备上执行,第三阶段和第四阶段在设备外执行,所述第一阶段和所述第二阶段比所述第三阶段和所述第四阶段执行更多的审核容量。
33.根据权利要求29所述的审核***,所述审核***还具有用户界面,所述用户界面接收来自所述最低效阶段的输入并且验证由所述多个阶段中的一个或更多个阶段进行的处理。
34.根据权利要求29所述的审核***,其中,所述训练逻辑作为包括存储程序代码的有形介质的计算机程序产品而被执行。
35.一种在用于训练多阶段内容分析***的计算机***上使用的计算机程序产品,所述计算机程序产品包括具有计算机可读程序代码的有形非暂时性计算机可用介质,所述计算机可读程序代码包括:
用于提供多阶段内容分析***的程序代码,该***具有第一阶段和第二阶段;
用于使用具有训练数据的数据库对所述第一阶段进行训练的程序代码,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例;
用于接收语音内容的程序代码;
用于使用所述第一阶段来分析所述语音内容的程序代码,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容;
用于使用所述第二阶段来分析所述第一阶段肯定语音内容的程序代码,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容;
用于使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库的程序代码;
用于丢弃所述第一阶段否定语音内容的至少一部分的程序代码。
36.根据权利要求35所述的计算机程序产品,所述程序代码包括:
用于使用所述第二阶段来分析少于全部的所述第一阶段否定语音内容的程序代码,以将所述第一阶段否定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容;
用于进一步使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库的程序代码。
37.根据权利要求35所述的计算机程序产品,所述程序代码包括:
用于使用具有训练数据的数据库的程序代码,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例;
用于产生与所述语音内容的一部分相关联的第一阶段肯定确定(“S1-肯定确定”)和/或第一阶段否定确定(“S1-否定确定”)的程序代码;
用于分析与所述S1-肯定确定相关联的语音的程序代码。
38.一种在用于审核毒害性的计算机***上使用的计算机程序产品,所述计算机程序产品包括具有计算机可读程序代码的有形非暂时性计算机可用介质,所述计算机可读程序代码包括:
用于多阶段内容分析***的程序代码,所述多阶段内容分析***包括:
用于第一阶段的程序代码,所述第一阶段是使用具有训练数据的数据库来训练的,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例,
所述第一阶段被配置为:
接收语音内容,
分析所述语音内容,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容;
用于第二阶段的程序代码,所述第二阶段被配置为接收所述第一阶段否定语音内容的至少一部分,但少于全部,
所述第二阶段还被配置为分析所述第一阶段肯定语音内容,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容,所述第二阶段还被配置为使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库。
39.根据权利要求38所述的计算机程序产品,其中,所述第二阶段被配置为分析接收到的第一阶段否定语音内容,以将所述第一阶段否定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容。
40.一种在用于毒害性审核***的计算机***上使用的计算机程序产品,所述计算机程序产品包括具有计算机可读程序代码的有形非暂时性计算机可用介质,所述计算机可读程序代码包括:
用于毒害性审核***的程序代码,该***包括
用于输入部的程序代码,所述输入部被配置为从讲话者接收语音;
用于多阶段毒害性机器学***是否满足毒害性阈值,
用于所述第一阶段的程序代码,所述第一阶段被配置为将满足所述毒害性阈值的语音过滤通过到所述第二阶段,并且还被配置为过滤掉不满足所述毒害性阈值的语音。
41.根据权利要求40所述的毒害性审核***,其中,使用具有训练数据的数据库来训练所述第一阶段,所述训练数据具有针对所述第一阶段的训练内容的肯定示例和/或否定示例。
42.根据权利要求41所述的毒害性审核***,其中,所述第一阶段是使用反馈处理进行训练的,所述反馈处理包括:
用于接收语音内容的程序代码;
用于使用所述第一阶段来分析所述语音内容的程序代码,以将所述语音内容分类为具有第一阶段肯定语音内容和/或第一阶段否定语音内容;
用于使用所述第二阶段来分析所述第一阶段肯定语音内容的程序代码,以将所述第一阶段肯定语音内容分类为具有第二阶段肯定语音内容和/或第二阶段否定语音内容;以及
用于使用所述第二阶段肯定语音内容和/或所述第二阶段否定语音内容来更新所述数据库的程序代码。
CN202180080395.9A 2020-10-08 2021-10-08 用于内容审核的多阶段自适应*** Pending CN116670754A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063089226P 2020-10-08 2020-10-08
US63/089,226 2020-10-08
PCT/US2021/054319 WO2022076923A1 (en) 2020-10-08 2021-10-08 Multi-stage adaptive system for content moderation

Publications (1)

Publication Number Publication Date
CN116670754A true CN116670754A (zh) 2023-08-29

Family

ID=81078169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180080395.9A Pending CN116670754A (zh) 2020-10-08 2021-10-08 用于内容审核的多阶段自适应***

Country Status (6)

Country Link
US (1) US11996117B2 (zh)
EP (1) EP4226362A1 (zh)
JP (1) JP2023546989A (zh)
KR (1) KR20230130608A (zh)
CN (1) CN116670754A (zh)
WO (1) WO2022076923A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10614826B2 (en) 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US20230066829A1 (en) * 2020-02-28 2023-03-02 Nec Corporation Server device, conference assistance system, and conference assistance method
US11805185B2 (en) * 2021-03-03 2023-10-31 Microsoft Technology Licensing, Llc Offensive chat filtering using machine learning models
US11909783B2 (en) * 2022-04-29 2024-02-20 Zoom Video Communications, Inc. Providing trust and safety functionality during virtual meetings
WO2023235517A1 (en) * 2022-06-01 2023-12-07 Modulate, Inc. Scoring system for content moderation
US20240005915A1 (en) * 2022-06-30 2024-01-04 Uniphore Technologies, Inc. Method and apparatus for detecting an incongruity in speech of a person
US12027177B2 (en) * 2022-09-08 2024-07-02 Roblox Corporation Artificial latency for moderating voice communication

Family Cites Families (199)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1993018505A1 (en) 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5677989A (en) 1993-04-30 1997-10-14 Lucent Technologies Inc. Speaker verification system and process
AU682380B2 (en) 1993-07-13 1997-10-02 Theodore Austin Bordeaux Multi-language speech recognition system
JP3536996B2 (ja) 1994-09-13 2004-06-14 ソニー株式会社 パラメータ変換方法及び音声合成方法
US5892900A (en) 1996-08-30 1999-04-06 Intertrust Technologies Corp. Systems and methods for secure transaction management and electronic rights protection
JPH10260692A (ja) 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6336092B1 (en) 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US5808222A (en) 1997-07-16 1998-09-15 Winbond Electronics Corporation Method of building a database of timbre samples for wave-table music synthesizers to produce synthesized sounds with high timbre quality
US6266664B1 (en) 1997-10-01 2001-07-24 Rulespace, Inc. Method for scanning, analyzing and rating digital information content
JP3502247B2 (ja) 1997-10-28 2004-03-02 ヤマハ株式会社 音声変換装置
US8202094B2 (en) 1998-02-18 2012-06-19 Radmila Solutions, L.L.C. System and method for training users with audible answers to spoken questions
JP3365354B2 (ja) 1999-06-30 2003-01-08 ヤマハ株式会社 音声信号または楽音信号の処理装置
US20020072900A1 (en) 1999-11-23 2002-06-13 Keough Steven J. System and method of templating specific human voices
US20030158734A1 (en) 1999-12-16 2003-08-21 Brian Cruickshank Text to speech conversion using word concatenation
JP3659149B2 (ja) 2000-09-12 2005-06-15 ヤマハ株式会社 演奏情報変換方法、演奏情報変換装置、記録媒体および音源装置
CA2435624C (en) 2000-09-22 2013-05-07 Richard B. Levine Systems and methods for preventing unauthorized use of digital content
KR200226168Y1 (ko) 2000-12-28 2001-06-01 엘지전자주식회사 이퀄라이저 기능을 구비한 휴대 통신 장치
US20030135374A1 (en) 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
JP4263412B2 (ja) 2002-01-29 2009-05-13 富士通株式会社 音声符号変換方法
US20030154080A1 (en) 2002-02-14 2003-08-14 Godsey Sandra L. Method and apparatus for modification of audio input to a data processing system
US7881944B2 (en) 2002-05-20 2011-02-01 Microsoft Corporation Automatic feedback and player denial
US20040010798A1 (en) 2002-07-11 2004-01-15 International Business Machines Corporation Apparatus and method for logging television viewing patterns for guardian review
FR2843479B1 (fr) 2002-08-07 2004-10-22 Smart Inf Sa Procede de calibrage d'audio-intonation
JP4178319B2 (ja) 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7634399B2 (en) 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
DE10334400A1 (de) 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
US7412377B2 (en) 2003-12-19 2008-08-12 International Business Machines Corporation Voice model for speech processing based on ordered average ranks of spectral features
DE102004012208A1 (de) 2004-03-12 2005-09-29 Siemens Ag Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
US20060003305A1 (en) 2004-07-01 2006-01-05 Kelmar Cheryl M Method for generating an on-line community for behavior modification
US7873911B2 (en) 2004-08-31 2011-01-18 Gopalakrishnan Kumar C Methods for providing information services related to visual imagery
US7437290B2 (en) 2004-10-28 2008-10-14 Microsoft Corporation Automatic censorship of audio data for broadcast
US7987244B1 (en) 2004-12-30 2011-07-26 At&T Intellectual Property Ii, L.P. Network repository for voice fonts
US7772477B2 (en) 2005-03-17 2010-08-10 Yamaha Corporation Electronic music apparatus with data loading assist
JP4890536B2 (ja) 2005-04-14 2012-03-07 トムソン ライセンシング 音声信号からの好ましくない音声コンテンツの自動置換
JP2006319598A (ja) 2005-05-12 2006-11-24 Victor Co Of Japan Ltd 音声通信システム
CN101351841B (zh) 2005-12-02 2011-11-16 旭化成株式会社 音质转换***
US20080269633A1 (en) 2005-12-23 2008-10-30 The University Of Queensland Sonification of Level of Consciousness of a Patient
US20080082320A1 (en) 2006-09-29 2008-04-03 Nokia Corporation Apparatus, method and computer program product for advanced voice conversion
JP4878538B2 (ja) 2006-10-24 2012-02-15 株式会社日立製作所 音声合成装置
US8156518B2 (en) 2007-01-30 2012-04-10 At&T Intellectual Property I, L.P. System and method for filtering audio content
US8060565B1 (en) 2007-01-31 2011-11-15 Avaya Inc. Voice and text session converter
JP4966048B2 (ja) 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US20080221882A1 (en) 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
EP1970894A1 (fr) 2007-03-12 2008-09-17 France Télécom Procédé et dispositif de modification d'un signal audio
US7848924B2 (en) 2007-04-17 2010-12-07 Nokia Corporation Method, apparatus and computer program product for providing voice conversion using temporal dynamic features
GB0709574D0 (en) 2007-05-18 2007-06-27 Aurix Ltd Speech Screening
GB2452021B (en) 2007-07-19 2012-03-14 Vodafone Plc identifying callers in telecommunication networks
CN101359473A (zh) 2007-07-30 2009-02-04 国际商业机器公司 自动进行语音转换的方法和装置
WO2009026159A1 (en) 2007-08-17 2009-02-26 Avi Oron A system and method for automatically creating a media compilation
CN101399044B (zh) 2007-09-29 2013-09-04 纽奥斯通讯有限公司 语音转换方法和***
US8131550B2 (en) 2007-10-04 2012-03-06 Nokia Corporation Method, apparatus and computer program product for providing improved voice conversion
US20090177473A1 (en) 2008-01-07 2009-07-09 Aaron Andrew S Applying vocal characteristics from a target speaker to a source speaker for synthetic speech
JP5038995B2 (ja) 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
US8225348B2 (en) 2008-09-12 2012-07-17 At&T Intellectual Property I, L.P. Moderated interactive media sessions
US8571849B2 (en) 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
US20100215289A1 (en) 2009-02-24 2010-08-26 Neurofocus, Inc. Personalized media morphing
US8779268B2 (en) 2009-06-01 2014-07-15 Music Mastermind, Inc. System and method for producing a more harmonious musical accompaniment
JP4705203B2 (ja) 2009-07-06 2011-06-22 パナソニック株式会社 声質変換装置、音高変換装置および声質変換方法
US8473281B2 (en) 2009-10-09 2013-06-25 Crisp Thinking Group Ltd. Net moderator
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8296130B2 (en) 2010-01-29 2012-10-23 Ipar, Llc Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization
GB2478314B (en) 2010-03-02 2012-09-12 Toshiba Res Europ Ltd A speech processor, a speech processing method and a method of training a speech processor
JP5039865B2 (ja) 2010-06-04 2012-10-03 パナソニック株式会社 声質変換装置及びその方法
WO2012005953A1 (en) 2010-06-28 2012-01-12 The Regents Of The University Of California Adaptive set discrimination procedure
JP5510852B2 (ja) 2010-07-20 2014-06-04 独立行政法人産業技術総合研究所 声色変化反映歌声合成システム及び声色変化反映歌声合成方法
US8759661B2 (en) 2010-08-31 2014-06-24 Sonivox, L.P. System and method for audio synthesizer utilizing frequency aperture arrays
US9800721B2 (en) 2010-09-07 2017-10-24 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US8892436B2 (en) 2010-10-19 2014-11-18 Samsung Electronics Co., Ltd. Front-end processor for speech recognition, and speech recognizing apparatus and method using the same
US8676574B2 (en) 2010-11-10 2014-03-18 Sony Computer Entertainment Inc. Method for tone/intonation recognition using auditory attention cues
EP2485213A1 (en) 2011-02-03 2012-08-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Semantic audio track mixer
GB2489473B (en) 2011-03-29 2013-09-18 Toshiba Res Europ Ltd A voice conversion method and system
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US8850535B2 (en) 2011-08-05 2014-09-30 Safefaces LLC Methods and systems for identity verification in a social network using ratings
WO2013035659A1 (ja) 2011-09-05 2013-03-14 株式会社エヌ・ティ・ティ・ドコモ 情報処理装置およびプログラム
EP2758956B1 (en) 2011-09-23 2021-03-10 Digimarc Corporation Context-based smartphone sensor logic
US8515751B2 (en) 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
US8290772B1 (en) 2011-10-03 2012-10-16 Google Inc. Interactive text editing
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US20130166274A1 (en) 2011-12-21 2013-06-27 Avaya Inc. System and method for managing avatars
WO2013133768A1 (en) 2012-03-06 2013-09-12 Agency For Science, Technology And Research Method and system for template-based personalized singing synthesis
KR102038171B1 (ko) 2012-03-29 2019-10-29 스뮬, 인코포레이티드 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
TWI473080B (zh) 2012-04-10 2015-02-11 Nat Univ Chung Cheng The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals
US9044683B2 (en) 2012-04-26 2015-06-02 Steelseries Aps Method and apparatus for presenting gamer performance at a social network
JP5846043B2 (ja) 2012-05-18 2016-01-20 ヤマハ株式会社 音声処理装置
US20140046660A1 (en) 2012-08-10 2014-02-13 Yahoo! Inc Method and system for voice based mood analysis
WO2014042439A1 (ko) 2012-09-13 2014-03-20 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
PL401371A1 (pl) 2012-10-26 2014-04-28 Ivona Software Spółka Z Ograniczoną Odpowiedzialnością Opracowanie głosu dla zautomatyzowanej zamiany tekstu na mowę
US9085303B2 (en) 2012-11-15 2015-07-21 Sri International Vehicle personal assistant
US9798799B2 (en) 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US8886539B2 (en) 2012-12-03 2014-11-11 Chengjun Julian Chen Prosody generation using syllable-centered polynomial representation of pitch contours
US8942977B2 (en) 2012-12-03 2015-01-27 Chengjun Julian Chen System and method for speech recognition using pitch-synchronous spectral parameters
CN102982809B (zh) 2012-12-11 2014-12-10 中国科学技术大学 一种说话人声音转换方法
US9158760B2 (en) 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
US9195649B2 (en) 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US20150005661A1 (en) 2013-02-22 2015-01-01 Max Sound Corporation Method and process for reducing tinnitus
EP3537437B1 (en) * 2013-03-04 2021-04-14 VoiceAge EVS LLC Device and method for reducing quantization noise in a time-domain decoder
KR101331122B1 (ko) 2013-03-15 2013-11-19 주식회사 에이디자인 모바일 기기의 수신시 통화연결 방법
US20140274386A1 (en) 2013-03-15 2014-09-18 University Of Kansas Peer-scored communication in online environments
WO2014146258A1 (en) 2013-03-20 2014-09-25 Intel Corporation Avatar-based transfer protocols, icon generation and doll animation
US10463953B1 (en) 2013-07-22 2019-11-05 Niantic, Inc. Detecting and preventing cheating in a location-based game
JP2015040903A (ja) 2013-08-20 2015-03-02 ソニー株式会社 音声処理装置、音声処理方法、及び、プログラム
CA2931105C (en) 2013-09-05 2022-01-04 George William Daly Systems and methods for acoustic processing of recorded sounds
US9799347B2 (en) 2013-10-24 2017-10-24 Voyetra Turtle Beach, Inc. Method and system for a headset with profanity filter
US10258887B2 (en) 2013-10-25 2019-04-16 Voyetra Turtle Beach, Inc. Method and system for a headset with parental control
US9183830B2 (en) 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US8918326B1 (en) 2013-12-05 2014-12-23 The Telos Alliance Feedback and simulation regarding detectability of a watermark message
WO2015100430A1 (en) 2013-12-24 2015-07-02 Digimarc Corporation Methods and system for cue detection from audio input, low-power data processing and related arrangements
US9135923B1 (en) 2014-03-17 2015-09-15 Chengjun Julian Chen Pitch synchronous speech coding based on timbre vectors
US9183831B2 (en) 2014-03-27 2015-11-10 International Business Machines Corporation Text-to-speech for digital literature
US10008216B2 (en) 2014-04-15 2018-06-26 Speech Morphing Systems, Inc. Method and apparatus for exemplary morphing computer system background
EP2933070A1 (en) 2014-04-17 2015-10-21 Aldebaran Robotics Methods and systems of handling a dialog with a robot
US20170048176A1 (en) 2014-04-23 2017-02-16 Actiance, Inc. Community directory for distributed policy enforcement
US20150356967A1 (en) 2014-06-08 2015-12-10 International Business Machines Corporation Generating Narrative Audio Works Using Differentiable Text-to-Speech Voices
US9613620B2 (en) 2014-07-03 2017-04-04 Google Inc. Methods and systems for voice conversion
US9305530B1 (en) 2014-09-30 2016-04-05 Amazon Technologies, Inc. Text synchronization with audio
US9881631B2 (en) 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
JP6561499B2 (ja) 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
KR101666930B1 (ko) 2015-04-29 2016-10-24 서울대학교산학협력단 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치
US20160379641A1 (en) 2015-06-29 2016-12-29 Microsoft Technology Licensing, Llc Auto-Generation of Notes and Tasks From Passive Recording
KR102410914B1 (ko) 2015-07-16 2022-06-17 삼성전자주식회사 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
US10186251B1 (en) 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
KR101665882B1 (ko) 2015-08-20 2016-10-13 한국과학기술원 음색변환과 음성dna를 이용한 음성합성 기술 및 장치
US10198667B2 (en) 2015-09-02 2019-02-05 Pocketguardian, Llc System and method of detecting offensive content sent or received on a portable electronic device
CN106571145A (zh) 2015-10-08 2017-04-19 重庆邮电大学 一种语音模仿方法和装置
US9830903B2 (en) 2015-11-10 2017-11-28 Paul Wendell Mason Method and apparatus for using a vocal sample to customize text to speech applications
US9589574B1 (en) 2015-11-13 2017-03-07 Doppler Labs, Inc. Annoyance noise suppression
US10327095B2 (en) 2015-11-18 2019-06-18 Interactive Intelligence Group, Inc. System and method for dynamically generated reports
KR102390713B1 (ko) 2015-11-25 2022-04-27 삼성전자 주식회사 전자 장치 및 전자 장치의 통화 서비스 제공 방법
US20220224792A1 (en) 2016-01-12 2022-07-14 Andrew Horton Caller identification in a secure environment using voice biometrics
US10978033B2 (en) 2016-02-05 2021-04-13 New Resonance, Llc Mapping characteristics of music into a visual display
US9591427B1 (en) 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US10453476B1 (en) 2016-07-21 2019-10-22 Oben, Inc. Split-model architecture for DNN-based small corpus voice conversion
US11010687B2 (en) 2016-07-29 2021-05-18 Verizon Media Inc. Detecting abusive language using character N-gram features
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10357713B1 (en) 2016-08-05 2019-07-23 Wells Fargo Bank, N.A. Utilizing gaming behavior to evaluate player traits
US9949020B1 (en) 2016-08-12 2018-04-17 Ocean Acoustical Services and Instrumentation System System and method for including soundscapes in online mapping utilities
US20180053261A1 (en) 2016-08-16 2018-02-22 Jeffrey Lee Hershey Automated Compatibility Matching Based on Music Preferences of Individuals
EP4033697B1 (en) 2016-10-03 2023-07-19 Telepathy Labs, Inc. System and method for social engineering identification and alerting
US10339960B2 (en) 2016-10-13 2019-07-02 International Business Machines Corporation Personal device for hearing degradation monitoring
US10706839B1 (en) 2016-10-24 2020-07-07 United Services Automobile Association (Usaa) Electronic signatures via voice for virtual assistants' interactions
US20180146370A1 (en) 2016-11-22 2018-05-24 Ashok Krishnaswamy Method and apparatus for secured authentication using voice biometrics and watermarking
US20190378024A1 (en) 2016-12-16 2019-12-12 Second Mind Labs, Inc. Systems to augment conversations with relevant information or automation using proactive bots
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
EP3576626A4 (en) 2017-02-01 2020-12-09 Cerebian Inc. SYSTEM AND METHOD FOR MEASURING PERCEPTIONAL EXPERIENCE
US20180225083A1 (en) 2017-02-03 2018-08-09 Scratchvox Inc. Methods, systems, and computer-readable storage media for enabling flexible sound generation/modifying utilities
US10706867B1 (en) 2017-03-03 2020-07-07 Oben, Inc. Global frequency-warping transformation estimation for voice timbre approximation
CA2998249A1 (en) 2017-03-17 2018-09-17 Edatanetworks Inc. Artificial intelligence engine incenting merchant transaction with consumer affinity
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US20180316709A1 (en) 2017-04-28 2018-11-01 NURO Secure Messaging Ltd. System and method for detecting regulatory anomalies within electronic communication
US10861210B2 (en) 2017-05-16 2020-12-08 Apple Inc. Techniques for providing audio and video effects
US10614826B2 (en) 2017-05-24 2020-04-07 Modulate, Inc. System and method for voice-to-voice conversion
GB2565037A (en) 2017-06-01 2019-02-06 Spirit Al Ltd Online user monitoring
GB2565038A (en) 2017-06-01 2019-02-06 Spirit Al Ltd Online user monitoring
GB2572525A (en) 2017-06-01 2019-10-09 Spirit Al Ltd Online user monitoring
CN107293289B (zh) 2017-06-13 2020-05-29 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
WO2019010250A1 (en) 2017-07-05 2019-01-10 Interactions Llc REAL-TIME CONFIDENTIALITY FILTER
US20190052471A1 (en) 2017-08-10 2019-02-14 Microsoft Technology Licensing, Llc Personalized toxicity shield for multiuser virtual environments
US10994209B2 (en) 2017-11-27 2021-05-04 Sony Interactive Entertainment America Llc Shadow banning in social VR setting
US10453447B2 (en) 2017-11-28 2019-10-22 International Business Machines Corporation Filtering data in an audio stream
US10807006B1 (en) 2017-12-06 2020-10-20 Amazon Technologies, Inc. Behavior-aware player selection for multiplayer electronic games
GB2571548A (en) 2018-03-01 2019-09-04 Sony Interactive Entertainment Inc User interaction monitoring
US10918956B2 (en) 2018-03-30 2021-02-16 Kelli Rout System for monitoring online gaming activity
US20190364126A1 (en) 2018-05-25 2019-11-28 Mark Todd Computer-implemented method, computer program product, and system for identifying and altering objectionable media content
US10361673B1 (en) 2018-07-24 2019-07-23 Sony Interactive Entertainment Inc. Ambient sound activated headphone
US20200125928A1 (en) 2018-10-22 2020-04-23 Ca, Inc. Real-time supervised machine learning by models configured to classify offensiveness of computer-generated natural-language text
US20200125639A1 (en) 2018-10-22 2020-04-23 Ca, Inc. Generating training data from a machine learning model to identify offensive language
US10922534B2 (en) 2018-10-26 2021-02-16 At&T Intellectual Property I, L.P. Identifying and addressing offensive actions in visual communication sessions
US20200129864A1 (en) 2018-10-31 2020-04-30 International Business Machines Corporation Detecting and identifying improper online game usage
US11698922B2 (en) 2018-11-02 2023-07-11 Valve Corporation Classification and moderation of text
US11011158B2 (en) 2019-01-08 2021-05-18 International Business Machines Corporation Analyzing data to provide alerts to conversation participants
US10936817B2 (en) 2019-02-01 2021-03-02 Conduent Business Services, Llc Neural network architecture for subtle hate speech detection
US10940396B2 (en) 2019-03-20 2021-03-09 Electronic Arts Inc. Example chat message toxicity assessment process
US20200335089A1 (en) 2019-04-16 2020-10-22 International Business Machines Corporation Protecting chat with artificial intelligence
US11544744B2 (en) 2019-08-09 2023-01-03 SOCI, Inc. Systems, devices, and methods for autonomous communication generation, distribution, and management of online communications
WO2021030759A1 (en) 2019-08-14 2021-02-18 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
US11714967B1 (en) 2019-11-01 2023-08-01 Empowerly, Inc. College admissions and career mentorship platform
US20210201893A1 (en) 2019-12-31 2021-07-01 Beijing Didi Infinity Technology And Development Co., Ltd. Pattern-based adaptation model for detecting contact information requests in a vehicle
US20210234823A1 (en) 2020-01-27 2021-07-29 Antitoxin Technologies Inc. Detecting and identifying toxic and offensive social interactions in digital communications
US11170800B2 (en) * 2020-02-27 2021-11-09 Microsoft Technology Licensing, Llc Adjusting user experience for multiuser sessions based on vocal-characteristic models
US11522993B2 (en) 2020-04-17 2022-12-06 Marchex, Inc. Systems and methods for rapid analysis of call audio data using a stream-processing platform
US20210322887A1 (en) 2020-04-21 2021-10-21 12traits, Inc. Systems and methods for adapting user experience in a digital experience based on psychological attributes of individual users
US11458409B2 (en) 2020-05-27 2022-10-04 Nvidia Corporation Automatic classification and reporting of inappropriate language in online applications
US11266912B2 (en) 2020-05-30 2022-03-08 Sony Interactive Entertainment LLC Methods and systems for processing disruptive behavior within multi-player video game
US10987592B1 (en) 2020-06-05 2021-04-27 12traits, Inc. Systems and methods to correlate user behavior patterns within an online game with psychological attributes of users
US11400378B2 (en) 2020-06-30 2022-08-02 Sony Interactive Entertainment LLC Automatic separation of abusive players from game interactions
US11395971B2 (en) 2020-07-08 2022-07-26 Sony Interactive Entertainment LLC Auto harassment monitoring system
US11235248B1 (en) 2020-07-28 2022-02-01 International Business Machines Corporation Online behavior using predictive analytics
US11596870B2 (en) 2020-07-31 2023-03-07 Sony Interactive Entertainment LLC Classifying gaming activity to identify abusive behavior
US11090566B1 (en) 2020-09-16 2021-08-17 Sony Interactive Entertainment LLC Method for determining player behavior
US11571628B2 (en) 2020-09-28 2023-02-07 Sony Interactive Entertainment LLC Modifying game content to reduce abuser actions toward other users
US11458404B2 (en) 2020-10-09 2022-10-04 Sony Interactive Entertainment LLC Systems and methods for verifying activity associated with a play of a game
US20220184502A1 (en) 2020-12-11 2022-06-16 Guardiangamer, Inc. Monitored Online Experience Systems and Methods
US20220207421A1 (en) 2020-12-31 2022-06-30 GGWP, Inc. Methods and systems for cross-platform user profiling based on disparate datasets using machine learning models
US20220203244A1 (en) 2020-12-31 2022-06-30 GGWP, Inc. Methods and systems for generating multimedia content based on processed data with variable privacy concerns
US10997494B1 (en) 2020-12-31 2021-05-04 GGWP, Inc. Methods and systems for detecting disparate incidents in processed data using a plurality of machine learning models

Also Published As

Publication number Publication date
WO2022076923A1 (en) 2022-04-14
KR20230130608A (ko) 2023-09-12
EP4226362A1 (en) 2023-08-16
US11996117B2 (en) 2024-05-28
JP2023546989A (ja) 2023-11-08
US20220115033A1 (en) 2022-04-14

Similar Documents

Publication Publication Date Title
CN116670754A (zh) 用于内容审核的多阶段自适应***
US9412371B2 (en) Visualization interface of continuous waveform multi-speaker identification
Aloufi et al. Emotionless: Privacy-preserving speech analysis for voice assistants
US10452352B2 (en) Voice interaction apparatus, its processing method, and program
Reby et al. Cepstral coefficients and hidden Markov models reveal idiosyncratic voice characteristics in red deer (Cervus elaphus) stags
CN108091323B (zh) 用于自语音中识别情感的方法与装置
WO2019119279A1 (en) Method and apparatus for emotion recognition from speech
CN110136696B (zh) 音频数据的监控处理方法和***
US20210020191A1 (en) Methods and systems for voice profiling as a service
Wood Social context influences the acoustic properties of laughter
US20230396457A1 (en) User interface for content moderation
KR102171658B1 (ko) 크라우드전사장치 및 그 동작 방법
Soula et al. Stress-induced flexibility and individuality in female and male zebra finch distance calls
KR20220040813A (ko) 인공지능 음성의 컴퓨팅 탐지 장치
Kanagawa et al. Multi-sample subband WaveRNN via multivariate Gaussian
CN112329431A (zh) 音视频数据处理方法、设备及存储介质
US20220111294A1 (en) Apparatus and method for audio data analysis
Chen et al. CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application
KR102395399B1 (ko) 음성 인식 학습을 위한 음성 데이터 분해 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
Buhuş et al. Several classifiers for intruder detection applications
KR20220053498A (ko) 기계 학습 모델을 이용하여 복수의 신호 성분을 포함하는 오디오 신호 처리 장치
Zhao et al. A mobile security-related behavior prevention model based on speech personality traits
KR102378885B1 (ko) 발화자의 얼굴을 이용한 메타데이터 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
Ekpenyong et al. Speech Quality Enhancement in Digital Forensic Voice Analysis
JP2022047835A (ja) 決定プログラム、決定方法および情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination