CN101681622A - 用于识别广告和/或网页的语音识别 - Google Patents

用于识别广告和/或网页的语音识别 Download PDF

Info

Publication number
CN101681622A
CN101681622A CN200780052975A CN200780052975A CN101681622A CN 101681622 A CN101681622 A CN 101681622A CN 200780052975 A CN200780052975 A CN 200780052975A CN 200780052975 A CN200780052975 A CN 200780052975A CN 101681622 A CN101681622 A CN 101681622A
Authority
CN
China
Prior art keywords
word
kept
words
information
discerned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200780052975A
Other languages
English (en)
Other versions
CN101681622B (zh
Inventor
M·F·M·安德里松
P·E·阿斯特兰
E·J·V·贝克隆德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Mobile Communications AB
Original Assignee
Sony Ericsson Mobile Communications AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Ericsson Mobile Communications AB filed Critical Sony Ericsson Mobile Communications AB
Publication of CN101681622A publication Critical patent/CN101681622A/zh
Application granted granted Critical
Publication of CN101681622B publication Critical patent/CN101681622B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种设备,其可以使用语音识别来识别语音信号中的词语。该设备还可以通过将所识别的词语与字词集合进行比较来保留所识别的词语中的一个或多个,并将所保留的词语以及与所保留的词语相关联的信息发送到远程设备。该设备还可以从远程设备接收与所保留的词语有关的以及与关联于所保留的词语的信息有关的消息。

Description

用于识别广告和/或网页的语音识别
技术领域
这里所描述的实施方式涉及语音处理,具体地涉及使用语音识别中所识别的字词。
背景技术
随着快速处理器的出现,已经有可能在小设备和/或个人计算机中进行有效的语音识别。语音识别应用的例子包括语音触发的拨号、语音触发的数据输入、口授、以及利用语音命令控制设备。
发明内容
根据一方面,一种方法可包括:通过将语音识别方法应用于语音信号来识别该语音中的词语,通过将所识别的词语和过滤词语进行比较来保留所识别的词语中的一个或多个,将所保留的词语以及与所保留的词语相关联的信息发送到远程设备,以及从远程设备接收与所保留的词语以及与关联于所保留的词语的信息有关的消息。
另外,保留所识别的词语中的一个或多个可包括:将所识别的词语和过滤词语进行比较,以及从所识别的词语中排除过滤词语中的字词。
另外,保留所识别的词语中的一个或多个可包括:将所识别的词语和过滤词语进行比较,以及如果所识别的词语中的字词在过滤词语中,则保留该字词。
另外,将所保留的词语以及与所保留的词语相关联的信息发送到远程设备可包括:将所保留的词语和所述词语被识别的时间发送到远程设备。
另外,将所保留的词语以及与所保留的词语相关联的信息发送到远程设备可包括:将所保留的词语和所保留的词语被识别的位置的名称发送到远程设备,该远程设备基于所保留的词语和位置名称来检索广告。
另外,应用语音识别方法可包括:使用隐式马尔可夫模型来识别语音信号中的词语。
另外,该方法还可包括:将所保留的词语以及与所保留的词语相关联的信息存储在数据库中。
另外,该方法还可包括:在预定时间段之后从数据库中清除所保留的词语和信息。
另外,接收消息可包括:接收与所保留的词语有关的以及与关联于所保留的词语的信息有关的广告。
另外,接收消息可包括:从远程设备接收电子邮件消息,该电子邮件消息包含与所保留的词语有关以及与关联于所保留的词语的信息有关的广告、链接或书签。
另外,接收消息可包括:接收在搜索引擎处用关键字执行搜索的结果,该关键字与所保留的词语有关。
根据另一发面,一种设备可包括:字词识别引擎,识别该设备所接收的信息流中的词语;字词过滤器,过滤所识别的词语中的部分;字词存储单元,存储滤过的词语以及与所识别的词语相关联的信息;以及处理器。该处理器可被配置成将所存储的词语以及与所述词语相关联的信息发送到远程设备,并从远程设备接收与滤过的词语有关以及与关联于该词语的信息有关的消息。
另外,字词过滤器可包括至少以下一个:排除所识别的词语中与预定词语集合匹配的词语的过滤器;或者保留所识别的词语中与预定词语集合匹配的词语的过滤器。
另外,所述消息可包括基于源自所存储词语的关键字、或基于在源自所存储词语的关键字的基础上执行搜索的结果所检索的广告。
另外,执行搜索的结果可包括统一资源***或书签列表。
另外,所述消息可包括电子邮件消息、网页、语音邮件或视频消息中的至少一个。
另外,所述处理器还可配置成在预定时间段后清除所存储的词语以及与所存储词语相关联的信息。
另外,所述与所存储词语相关联的信息可包括所述词语被识别的时间或所述词语被识别时设备的物理位置。
另外,字词识别引擎可包括以下至少一个:语音识别引擎、电子邮件识别引擎、或即时消息识别引擎。
根据再一方面,一种设备可包括:用于通过将语音识别应用于语音信号来识别语音中的词语的装置;用于通过比较所识别的词语与字词集合来保留所识别的词语中的部分的装置;用于将所保留的部分以及与所保留的部分相关联的时间发送到广告服务器的装置;以及用于从广告服务器接收与所保留的部分有关的以及与关联于所保留的部分的信息有关的广告的装置。
附图说明
被合并到说明书中并构成该说明书的一部分的附图图示了这里所描述的一个或多个实施例,并且与说明书一起解释了这些实施例,图中:
图1示出了可实现这里所描述的构思的***;
图2是图1的客户机或服务器设备的示例性图示;
图3是图1的客户机设备的示例性框图;
图4是图1的客户机设备的示例性部件的示例性功能框图;
图5是图4的个人字词生成***的示例性功能框图;
图6是可包括在图1的服务器设备中的示例性部件的示例性功能框图;
图7是图6的广告***的示例性功能框图;
图8是图6的web搜索***的示例性功能框图;
图9是用于执行语音识别的示例性过程的流程图;
图10是用于基于语音识别提供针对用户定制的广告的示例性过程的流程图;
图11是用于基于语音识别提供针对用户定制的搜索结果的示例性过程的流程图;
图12图示了流过图1的客户机设备和/或服务器设备的一些部件的数据流;以及
图13A和13B图示了使用语音识别的示例性场景。
具体实施例
以下详细描述参考附图。不同图中的相同参考标号可标识相同或相似的元件。此外,以下详细描述不限制本发明。
概述
在这里所描述的实施方式中,用户的语音可以被监控和处理,以用于识别重要词语(例如字词)。每个重要词语以及该重要词语已被识别的时间和/或位置可被存储在数据库中。可定期地或根据需要从数据库中检索所存储的词语,并将其传送给应用(例如广告服务器)。该应用可使用所传送的信息来编辑和/或检索广告,并将广告发送给用户。可替换地,该应用可使用该信息来执行搜索并使搜索结果对用户是可得到的。
如这里所使用的术语“浏览器”可指允许用户与位于网络(例如因特网上的网站或主机)上的资源进行交互的软件应用。
如这里所使用的术语“搜索引擎”可指用于发现网络中或计算***中的信息的***。搜索引擎可接受搜索词语(例如文本、图像和/或声音)并返回“搜索结果”(即,匹配该搜索词语的一项或多项的列表)。在多个上下文中,“搜索”可能需要在浏览器中输入搜索词语,浏览器可通过网络将所述词语发送给搜索引擎。
字词被识别的术语“时间”可包括日时、星期几、某日、和/或属于按年代信息的、指明该字词被识别瞬间的任何一条信息。
如这里所使用的术语“词语”或“字词”可以互换地使用并且可以指传递含义的多个字词和/或任何分隔字符串。
示例性***配置
图1示出了可实现这里所描述的构思的示例性***。如所示出,***100可包括客户机设备102、服务器设备104以及网络106。在其它实施方式中,***100可包括附加的、较少的或不同的部件。而且,***100的一个或多个部件可执行***100的另一部件的一个或多个功能。
客户机设备102可包括以下任何设备:个人计算机;电话,如无线电话;个人通信***(PCS)终端,其可将蜂窝无线电话和数据处理、传真和/或数据通信能力组合起来;移动电话;电子笔记本;膝上型电脑;个人计算机(PC);个人数字助理(PDA),其可包括无线电话、寻呼机、互联网/内联网接入、web浏览器、组织器、日历、全球定位***(GPS)接收器;或任何类型的计算或通信设备,在这些设备之一上运行的线程或进程,和/或由这些设备之一可执行的对象。
服务器设备104可包括用于宿留服务器程序和/或应用的一个或多个计算机***。服务器设备104可接收来自可被客户机设备102宿留的客户机应用的数据或信息,可处理该数据/信息,并可将该数据/信息传送给客户机设备102。
网络106可包括互联网、对等网络(ad hoc network)、局域网(LAN)、广域网(WAN)、城域网(MAN)、蜂窝网、公共电话交换网(PSTN)、任何其它网络或网络组合。客户机设备102可通过无线或有线通信链路与服务器设备104或网络106中的其它设备通信。
示例性设备
图2是客户机设备102的示例性图示。如所示出,客户机设备102可包括摄像机202、扬声器204、显示器206、控制按钮208、键区210、麦克风212以及外壳214。摄像机202可使用户能够观看、捕获并存储设备102前面的对象的媒体(例如图像、视频剪辑)。扬声器204可提供音频信息给客户机设备102的用户。显示器206可包括显示屏幕以便向用户提供可视信息,如视频图像或图片,并可包括触摸屏幕(例如电容性屏幕、近场屏幕)以接受来自用户的输入。控制按钮208可允许用户与客户机设备102交互,以使客户机设备102执行一个或多个操作,如拨打电话或接收电话呼叫。键区210可包括标准电话键区。麦克风212可接收来自用户的音频信息。外壳214可提供用于客户机设备102的部件的壳体,并可保护部件免受外部元件的影响。
图3示出了设备300的示例性框图。设备300可代表客户机设备102或服务器设备104。如所示出,设备300可包括存储器302、处理单元304、网络接口306、显示器308、麦克风310、其它输入/输出设备312、以及总线314。根据实施方式,设备300可包括附加的、较少的或不同的部件。例如,如果设备300代表客户机设备102,则设备300可包括全球定位***(GPS)接收器。在另一示例中,如果设备300代表服务器设备104,则设备300可包括多个中央处理器。
存储器302可包括静态存储器如只读存储器(ROM)、和/或动态存储器如随机存取存储器(RAM)、或板上高速缓存,用于存储数据和机器可读指令。存储器302还可包括存储设备如软盘、CD ROM、CD读/写(R/W)盘、和/或闪存以及其它类型的存储设备。处理单元304可包括一个或多个处理器、微处理器、和/或能够控制设备300的处理逻辑。
网络接口306可包括使设备300能够与其它设备和/或***通信的任何如同收发器的机制。例如,网络接口306可包括用于通过网络通信的机制,所述网络为诸如互联网、蜂窝网、陆地无线网络(例如无线局域网(WLAN))、基于卫星的网络等。另外或者可替换地,网络接口306可包括调制解调器、连接到局域网(LAN)的以太网接口、和/或用于将设备300连接到其它设备的接口/连接(例如蓝牙接口)。此外,网络接口306可包括接收器,例如用于提供客户机设备102的位置的全球定位***(GPS)接收器。
显示器308可包括能够将设备300所产生的信号在屏幕(例如,液晶显示器(LCD)、阴极射线管(CRT)显示器、有机发光二极管(OLED)显示器、表面传导电子发射显示器(SED)、等离子体显示器、场发射显示器(FED)、双稳态显示器等)以及触摸屏或者可用作用户输入接口的板式显示器上显示为文本或图像的设备。例如,显示器308可包括压敏型(例如阻抗型)、近场敏感型(例如电容型)、声学敏感型(例如表面声波)、光敏型(例如红外型)、和/或允许显示器308用作输入设备的任何其它类型的显示叠合。
麦克风310可接收来自用户的音频信息,并将音频信息转发给处理单元304以待处理。麦克风310的示例可包括麦克风212。
其它输入/输出设备312可包括键盘、键区(例如图2的键区210)、一个或多个按钮(例如控制按钮208)、鼠标、扬声器(例如扬声器204)、数字化视频盘(DVD)写入器、DVD读取器、通用串行总线(USB)线路、和/或用于将物理事件或现象转换成适合设备300的数字信号和/或将适合设备300的数字信号转换成物理事件或现象的其它类型的设备。总线312可提供接口,设备300的部件可通过该接口互相通信。
图4是客户机设备102的示例性部件的功能框图。如所示出,客户机设备102可包括支持逻辑402、浏览器404、电子邮件客户机406、数据库408、个人字词生成***410、定位逻辑412和/或其它应用414。在其它实施方式中,客户机设备102可包括比图4所示那些更少的、附加的、或不同类型的部件。
支持逻辑402可包括用于执行针对图4的其它部件(例如,浏览器404、电子邮件客户机406、其它应用414)的不同支持功能的硬件和/或软件。例如,支持逻辑402可提供图4所示部件(例如其它应用414)和图3中的部件(例如,网络接口306、显示器308、麦克风310以及输入/输出设备312)之间的接口。在又一示例中,支持逻辑402可提供传输控制协议(TCP)/网际协议(IP)栈以支持通信应用,如浏览器404。
浏览器404可包括允许用户与网站或主机上的web资源交互的软件应用。在图1中,用户可使用浏览器404来访问网络106中的网站和/或与网站交互。另外,用户可使用浏览器404来查看在客户机设备102上接收自服务器设备104的搜索结果和/或广告。浏览器104例如可由处理单元304使用存储器302中存储的指令来实现。
电子邮件客户机406可包括用于接收、制作和/或发送电子邮件的软件应用。在图1中,电子邮件客户机406可从服务器设备104接收包含到网站或web资源的链接的消息。另外,电子邮件客户机406可接收包括了针对用户定制的广告的消息。
数据库408可作为用于浏览器404、电子邮件客户机406、个人字词生成***410和/或其它应用414的信息仓库。例如,浏览器404可将最近访问站址的网页存储在数据库408中。在另一示例中,个人字词生成***410可存储和/或检索已经被语音识别引擎识别的字词。
个人字词生成***410可包括如下硬件和/或软件:其接受来自麦克风310的信号,识别信号中的字词,过滤这些字词以得到重要词语,存储、检索和/或分配去往/来自数据库408的重要词语。个人字词生成***410可针对每个重要词语存储和/或检索该词语已被提取的时间和位置。例如,如果用户在下午2点在位置Z对麦克风310说出句子“我昨天在XYZ购物了(I went shopping at XYZ yesterday)”,个人字词生成***410可识别该句子中的字词,可过滤这些字词得到“购物”和“XYZ”,并可将词语“购物”和“XYZ”与时间下午2点和/或位置Z一起存储在数据库408中。基于来自服务器设备104的请求或基于特定时间表,个人字词生成***410可检索并分配词语、与词语相关联的时间和/或位置到服务器设备104(图1)以供进一步处理。
定位逻辑412可包括用于获取客户机设备102的物理位置的硬件和/或软件。定位逻辑412可从客户机设备102的其它部件(如GPS接收器)获取与物理位置有关的信息。其它应用414可包括用于支持客户机设备102的不同功能(如文本信息收发、多媒体信息收发、无线通信(例如蓝牙)、图像捕获和存储、红外通信、用声音信号驱动扬声器、文件上载和下载、图像传递等)的硬件和/或软件。
图5是个人字词生成***410的示例性功能框图。如所示出,个人字词生成***410可包括语音识别引擎502、字词过滤部件504以及字词存储/检索单元506。在其它实施方式中,个人字词生成***可包括比图5所示那些更少的、附加的或不同的部件。例如,个人字词生成***410可包括可从语音中所识别出字词中过滤出来的通用字词的数据库。
语音识别引擎502可包括用于处理从麦克风310接收的语音信号的硬件和/或软件。语音识别引擎502可输出它所识别的字词以及它识别每个字词的时间和位置。语音识别引擎502可采用一种或多种现有技术来识别语音中的字词序列,所述技术包括使用神经网络、隐式马尔可夫模型、动态时间规整(DTW)技术等以便检测信号之间的相似性的那些技术。在一些实施方式中,语音识别引擎502可接受训练信号以增加语音识别的准确性和速度。
字词过滤部件504可包括用于过滤从语音识别引擎502输出的字词的硬件和/或软件,并可以将滤过的字词传送给字词存储/检索单元506。在过滤期间确定将被保留的字词时,字词过滤部件504可将来自语音识别引擎502的所识别的字词与预定的字词集合进行比较。在其它实施方式中,字词过滤部件504可滤出通用字词,如介词(例如“到(to)”、“到...里(into)”、“在(at)”等)或连词(例如“和(and)”、“或(or)”等)等。在又一些实施方式中,字词过滤部件504可拒绝被客户机设备102的用户指定为私人的字词(如名字)。
字词存储/检索单元506可包括用于存储和检索数据库408内滤过的字词、字词被识别的时间和位置、以及每个字词被识别的次数的硬件和/或软件。字词存储/检索单元506可基于来自其它部件(例如字词过滤部件504、服务器设备104(图1)等)的请求或基于特定时间表来存储和/或检索字词以及对应的时间和/或位置。另外,字词存储/检索单元504可基于时间窗口(例如在每个月2号的下午2-3:00之间)、地理区域(例如瑞典Lund)、和/或所请求的时间/位置模式的其它组合(例如,在位置X的2公里以内在星期四从2:00-4:00最经常说的10个字词)来检索字词。在一个实施方式中,字词存储/检索单元506可在特定时间段(例如一天、一星期等)之后丢弃字词,以便保持数据库408中的信息是最新的。在其它实施方式中,字词存储/检索单元506可长时间地收集字词,以获得经常使用的全面的用户字词简档。
图6是服务器设备104的示例性部件的功能框图。如所示出,服务器设备102可包括支持逻辑602、数据库604、广告***606、web搜索***608以及其它应用610。在一些实施方式中,所述部件可分布在许多服务器设备上。在一些实施方式中,服务器设备104可包括比图6所示那些更少的、附加的、或不同类型的部件。例如,在一个实施方式中,服务器设备104可包括广告***606而不包括web搜索***608,或者可包括web搜索***608而不包括广告***606。
支持逻辑602可包括用于针对图6其它部件(例如,广告***606、web搜索***608以及其它应用610)执行不同支持功能的硬件和/或软件。数据库604可作为用于广告***606、web搜索***608和/或其它应用610的信息仓库。例如,数据库604可检索可被结合来形成广告的信息。在另一示例中,数据库604可存储已被web搜索***608收集的链接(例如统一资源***(URL))。在又一示例中,数据库604可存储与正从图6的一个或多个部件(例如广告***606)请求服务的客户机设备有关的信息(例如网络地址、电子邮件地址、电话号码等)。
在一个实施方式中,针对由服务器设备104所服务的每个客户机设备102,数据库604可定期地或基于事件(例如客户机设备102联系服务器设备104)来收集被记录在客户机设备102的数据库408中的滤过的字词和/或所述滤过的字词在客户机设备102上被识别的时间和位置。在一个实施方式中,数据库604可在特定时间段(例如一天、一星期等)之后丢弃字词,以便保持信息是最新的。在其它实施方式中,数据库604可在一长段时间内收集字词以获得全面的用户简档。
广告***606可包括这样的硬件和/或软件,其用于接收来自客户机设备102内字词存储/检索单元506或来自数据库604的信息,用于基于所接收的信息来编辑广告,以及用于将广告发送给客户机设备102。
web搜索***608可包括这样的硬件和/或软件,其用于接收来自客户机设备102内字词存储/检索单元506和/或来自数据库604的信息,用于基于所接收的信息在网络中进行搜索。web搜索***608可发送搜索结果到客户机设备102。其它应用610可包括用于支持服务器设备104的不同功能(如供应电子邮件消息、供应网页、供应文件等)的硬件和/或软件。
图7是广告***606的示例性功能框图。如所示出,广告***606可包括广告准备部件702和广告服务器704。在其它实施方式中,广告***606可包括与图7所示那些相比附加的、更少的和/或不同的部件。
广告准备部件702可包括用于从客户机设备102请求和/或接收滤过的字词以及所述字词被识别的时间和/或位置的硬件和/或软件。另外,广告准备部件702可包括用于基于所接收的字词获取关键字集合的硬件和/或软件。
关键字可以以多种不同方式从所接收的字词中选择。在一个实施方式中,例如,可通过在在客户机设备102上于指定时间段内已被识别的所接收的字词中选择头5个最常说的字词来确定关键字。在另一实施方式中,关键字可部分地基于与所接收的字词已被识别的位置接近(例如在1公里以内)的地理位置的名称来确定。
广告服务器704可包括用于基于关键字和/或与所述关键字相关联的位置来编辑广告集合的硬件和/或软件。例如,如果关键字包括在位置Z说出的词语“饭店(restaurant)”,广告服务器704可以准备和/或汇编靠近位置Z的饭店的广告。在一个实施方式中,可从视频剪辑、文本、图片和/或存储在数据库604中的其它相关信息中汇编广告。在又一实施方式中,可通过利用关键字搜索数据库604从数据库604检索广告。
广告服务器704可发送所编辑的广告到客户机设备102。广告可作为电子邮件消息、网页、语音消息、视频消息、小应用程序和/或任何其它形式的消息来发送。该信息可在不同时间发送,在一个实施方式中,信息可在关键字在客户机设备102上已被识别的时刻左右来发送。在另一实施方式中,用户的当前位置信息可被用来进一步缩小可被发送给用户的广告列表。
图8是web搜索***608的示例性功能框图。如所示出,web搜索***608可包括web搜索准备部件802、web搜索服务器804以及聚合器806。在其它实施方式中,web搜索***608可包括与图8所示那些相比附加的、更少的和/或不同的部件。
web搜索准备部件802可包括这样的硬件和/或软件,其用于从客户机设备102中的字词存储/检索单元506或从数据库604请求和/或接收滤过的字词以及该字词在语音识别引擎502上被识别的时间和/或位置。另外,web搜索准备部件802可包括用于基于滤过的字词来获取关键字集合的硬件和/或软件。
关键字可以以多种不同方式从滤过的字词中选择。在一个实施方式中,例如,可基于滤过的字词以及在滤过的字词已被识别的位置附近的地理位置的名称来确定关键字。
web搜索服务器804可包括用于基于关键字来执行搜索的硬件和/或软件。在一个实施方式中,web搜索服务器804可包括从数据库604搜索内容的搜索引擎。在另一实施方式中,web搜索服务器804可提交包括关键字的搜索请求给网络106(图1)中的搜索引擎。搜索结果可包括链接(如URL)或嵌入的内容(例如文本、文章、图片等)、RSS馈送等。
聚合器806可包括如下硬件和/或软件:其用于接收web搜索服务器804作出的搜索请求的结果,将信息格式化到电子邮件消息中或作为网页,以及将所格式化的信息发送到客户机设备102。
用于执行并使用语音识别的示例性过程
图9-11是与执行并使用语音识别相关联的示例性过程的流程图。图12示出了当图9-11的示例性过程被执行时流过客户机设备102和/或服务器设备104的一些部件的数据流。
图9是用于执行语音识别的示例性过程900的流程图。图9的示例性过程900可由客户机102的个人字词生成***410执行。在许多实施方式中,个人字词生成***410和/或与个人字词生成***410相关联的程序实例(例如用于与服务器设备104通信以传递与语音中所识别的字词有关的信息的程序)可以在后台运行,以避免干扰客户机设备102的不同用途。
在框902中,可从麦克风(例如麦克风310)接收音频信号。图12示出了从麦克风310流到语音识别引擎502的音频信号。
在框904中,语音识别可应用于用户语音以识别语音中的字词。如上面所解释的,可通过例如神经网络、隐式马尔可夫模型、DTW等来进行语音识别。针对每个被识别的字词,可获得所述识别所发生的时间和/或地理位置。在图12中,所识别的字词可从语音识别引擎502传递给字词过滤部件504。
在框906中,可过滤所识别的字词。在确定哪些字词要保留时,所识别的字词可与存储在数据库中的预定的字词集合进行比较。在其它实施方式中,可清除通常使用的字词(例如介词、连词等)。
在框910中,滤过的字词可与该字词被识别的时间和位置一起被存储在数据库中。可选地,针对每个字词,可存储和/或更新该字词被识别的次数。图12图示了发送滤过的字词到数据库408以便存储的字词过滤部件504。
图10是用于基于语音识别提供针对用户定制的广告的示例性过程1000的流程图。图10的示例性过程1000可由服务器设备104的广告***606执行。如所示出,在框1002中,可获取滤过的字词和/或该滤过的字词被识别的时间和位置。根据实施方式,可在客户机设备102和/或服务器设备104处获取该信息。在一个实施方式中,可基于时间表或事件的发生(例如在指定的时间段内识别了预定数目的字词)来提供信息。在另一实施方式中,可响应于来自广告准备部件702的数据库请求来获得信息的子集。图12示出了信息子集(其可包括在指定时间段T期间最常说的字词)从数据库408到广告准备部件702的传送。
在框1004中,可从滤过的字词获得关键字集合。如以结合图7所描述,可以使用不同的标准来获得关键字。如图12所示,所获得的关键字可从广告准备部件702发送到广告服务器704。
在框1006中,可基于关键字编辑广告。编辑广告可包括在数据库(例如数据库604)中搜索与关键字匹配的信息(例如视频、文本等)以及组合该信息。在又一实施方式中,编辑广告可包括检索与滤过的字词最佳匹配的广告。这种匹配可基于与关键字相关联的位置和时间以及关键字。
在框1008中,所编辑的广告可被发送到客户机设备,滤过的字词是从该客户机设备获得的。如上所述,广告可作为电子邮件消息、网页、语音消息、视频消息和/或交换信息的其它形式来发送。图12示出了将广告作为电子邮件消息或网页发送到电子邮件客户机404或浏览器406。
在过程1000中,由于广告是基于客户机设备102的用户所说的字词以及基于与该字词相关联的时间/地理信息产生的,因此用户极感兴趣的广告可在适当的时间和位置进行传送。例如,如果用户说了很多关于某天购买新计算机的话,那么用户可接收来自计算机商店的广告。由于所存储的信息可从客户机设备102中逐渐清除,如果用户谈了很多关于次日重新装修房间的话,那么用户可接收来自家具店而非来自计算机店的广告。
图11示出了用于基于语音识别提供针对用户定制的搜索结果的示例性过程1100的流程图。图11的示例性过程可由服务器设备104的web搜索***来执行。如所示出,在框1102中,可以以与上面针对框1002所描述的类似方式来获得滤过的字词和/或该滤过的字词被识别的时间和位置。图12示出了滤过的字词的子集从数据库408到web搜索准备部件802的传送,所述子集可包括在所指定的时间段T期间最常说的字词。
在框1104,可从滤过的字词中获得关键字集合。如以上结合图8所描述,根据实施方式,可以使用不同的标准来获得关键字。如图12所示出,在一个实施方式中,关键字可从web搜索准备部件802发送到web搜索服务器804。
在框1106中,可基于关键字执行搜索。在一个实施方式中,可使用数据库604来执行搜索。在另一实施方式中,web搜索服务器804可提交搜索请求给网络106(图1)中的搜索引擎。搜索的结果可包括链接(例如URL)或嵌入的内容(例如文本、文章、图片等)、RSS反馈等。在图12中,搜索结果被作为从web搜索服务器804传递到聚合器806的链接而示出。
在框1108中,搜索结果可被聚合并发送。搜索结果可被聚合(即组合)到一个或多个网页、电子邮件消息、语音消息、视频消息和/或交换消息的其它形式中。所聚合的信息可被发送到客户机设备102。图12示出了将搜索结果作为电子邮件消息或作为网页发送到电子邮件客户机404或浏览器406。在客户机设备102处,所接收的信息可在菜单、用户接口等中显示给用户。所接收的信息在预定时间段后可被丢弃。
替换实施方式
可以实现针对以上描述的用于执行并使用语音识别的部件和过程的多种变化。在替换实施方式中,语音识别引擎502可连接到提供声音信号给扬声器的逻辑。在这种实施方式中,个人字词生成***410可设置在具有联网能力的不同类型的设备(例如诸如有线电视之类的具有联网能力的电视)中。如果在类似电话的设备中实现,语音识别引擎502不仅可以识别客户机设备102的用户所说出的字词,而且可以识别呼叫者所说的字词。
在另一实施方式中,除了或者取代使用语音识别引擎502,可以使用检查即时消息(例如输入消息和/或输出消息)以便得到重要词语的即时消息发送字识别引擎。
在图6-8中,广告准备部件702和/或web搜索准备部件802作为服务器设备104的子部件被示出。在其它实施方式中,广告准备部件702和/或web搜索准备部件802可被包括在客户机设备102中。
在其它实施方式中,字词过滤部件504和/或字词存储/检索单元506可被合并到服务器设备104中。更为常见的,是在客户机设备还是在服务器设备中包括某些部件可以根据处理能力、存储器和/或与客户机设备和服务器设备有关的其它因素而定。
示例
以下示例参考图13A和13B说明了涉及执行并使用语音识别以提供广告和搜索结果的过程。该示例与以上参考图9-11所描述的示例性过程是一致的。
在示例中,假定珍妮1302在星期二下午2:00正与她的朋友格蕾塔(未示出)交谈。另外,假定客户机设备1304中的个人字词生成***410(未示出)正在后台运行。在珍妮谈话期间,珍妮1302多次使用词语“bloom”和“购物”。
在客户机设备1304中,语音识别引擎502(未示出)接收来自客户机设备1304中的麦克风的音频信号并识别珍妮1302所说的字词。所识别的字词被传送给客户机设备1304中的字词过滤部件504(未示出)并被过滤。字词过滤部件504过滤所述字词并仅保留两个字词“bloom”和“购物”。字词存储/检索单元506(未示出)记录所述字词、“bloom”被识别的时间(例如下午2:05、2:15以及2:35)、以及“购物”被识别的时间(例如下午2:03、2:12以及2:37)。地理位置由客户机设备1304中的定位逻辑412提供为瑞典Lund,并存储在客户机设备1304中的数据库408(未示出)中。
客户机设备1304联系服务器设备并将字词(例如在下午2:00和下午3:00之间最常说的字词)以及与所述字词相关联的时间和地理信息发送给服务器设备。在服务器设备处,广告准备部件702(未示出)接收所述字词并产生关键字“Bloom”、“购物”、“Lund”以及“瑞典”。广告服务器704(未示出)使用关键字来检索有关在瑞典Lund被称为“Bloom”的代销店的网页广告。广告服务器704将指向该网页的URL作为链接包括在电子邮件消息中并将该电子邮件消息发送给客户机设备1304。
另外,在服务器设备处,web搜索准备部件802(未示出)接收字词并产生关键字“Bloom”和“购物”。关键字被web搜索服务器804(未示出)用来向搜索引擎提交搜索查询,搜索引擎返回与Bloom和购物有关的URL列表。聚合器806将URL列表包括在电子邮件消息中并将电子邮件消息发送给客户机设备1304。
在客户机设备1304处,珍妮1302发现她有一个电子邮件消息来自广告服务器704,另一个来自聚合器806。珍妮1302在客户机设备1304的显示器1306上看见来自广告服务器704的电子邮件消息,在该电子邮件消息中的URL链接上点击,并查看广告页1308,如图13B所图示。
结论
实施例的以上描述提供说明,而非意在穷尽或将实施例限制于所公开的精确形式。按照上述教导可以进行修改和变形,或者可从教导的实践中获得修改和变形。
例如,尽管已经关于图9-11中所示过程描述了系列框,这些框的次序还可以改变。例如,可在执行框908-910时执行框906。此外,图9-11中的不相关框可表示能与其它框并行执行的框。
显然,这里所描述的各方面可以以附图所示实施方式中多种不同形式的软件、固件以及硬件来实现。用于实现各方面的实际软件代码或专用控制硬件不应解释为限制。因此,没有参考特定软件代码来描述所述各方面的操作和行为,其被理解为软件和控制硬件可被设计用来基于这里的描述实现所述各方面。
本申请所使用的元件、动作或指令不应被解释为对于本发明是关键的或必要的,除非这样明确地描述。另外,如这里所使用的,冠词“一”意在包括一项或多项。在意图仅包括一项的地方,使用词语“一个”或类似语言。此外,除非明确指出,否则习语“基于”旨在表示“至少部分地基于”的含义。
应强调当本说明书使用词语“包括”时,其被用来指明所陈述的特征、整体、步骤或部件的存在,但并不排除还存在或附加有一个或多个其它的特征、整体、步骤、部件或其集合。
此外,本发明的某些部分被描述为执行一个或多个功能的“逻辑”。该逻辑可包括硬件(如处理器、专用集成电路、或现场可编程门阵列)、软件、或硬件和软件的组合。

Claims (20)

1.一种方法,包括:
使用语音识别来识别语音信号中的词语;
通过将所识别的词语与过滤词语进行比较来保留所识别的词语中的一个或多个;
将所保留的词语以及与所保留的词语相关联的信息发送到远程设备;以及
从所述远程设备接收与所保留的词语有关的以及与关联于所保留的词语的信息有关的消息。
2.如权利要求1所述的方法,其中,保留所识别的词语中的一个或多个包括:
将所识别的词语与所述过滤词语进行比较;以及
从所识别的词语中排除所述过滤词语中的字词。
3.如权利要求1所述的方法,其中,保留所识别的词语中的一个或多个包括:
将所识别的词语与所述过滤词语进行比较;以及
如果所识别的词语中的字词在所述过滤词语中,则保留该字词。
4.如权利要求1所述的方法,其中,将所保留的词语以及与所保留的词语相关联的信息发送到远程设备包括:
将所保留的词语和所述词语被识别的时间发送到所述远程设备。
5.如权利要求1所述的方法,其中,将所保留的词语以及与所保留的词语相关联的信息发送到远程设备包括:
将所保留的词语以及所保留的词语被识别的位置的名称发送到远程设备,该远程设备基于所保留的词语以及所述位置的名称来检索广告。
6.如权利要求1所述的方法,其中,使用语音识别包括:
使用隐式马尔可夫模型来识别所述语音信号中的词语。
7.如权利要求1所述的方法,还包括:
将所保留的词语以及与所保留的词语相关联的信息存储在数据库中。
8.如权利要求7所述的方法,还包括:
在预定时间段之后从所述数据库中清除所保留的词语和所述信息。
9.如权利要求1所述的方法,其中,接收消息包括:
接收与所保留的词语有关的以及与关联于所保留的词语的信息有关的广告。
10.如权利要求1所述的方法,其中,接收消息包括:
从所述远程设备接收电子邮件消息,该电子邮件消息包含与所保留的词语有关的以及与关联于所保留的词语的信息有关的广告、链接或书签。
11.如权利要求1所述的方法,其中,接收消息包括:
接收在搜索引擎处利用关键字执行搜索的结果,所述关键字与所保留的词语有关。
12.一种设备,包括:
语音识别引擎,识别在所述设备处接收的信息流中的词语;
字词过滤器,过滤所识别的词语中的部分;
字词存储单元,存储滤过的词语以及与所识别的词语相关联的信息;以及
处理器,被配置成:
将所存储的词语以及与所述词语相关联的信息发送到远程设备;以及
从所述远程设备接收与滤过的词语有关的以及与关联于所述词语的信息有关的消息。
13.如权利要求12所述的设备,其中,所述字词过滤器包括以下至少一个:
排除所识别的词语中与预定词语集合匹配的词语的过滤器;或者
保留所识别的词语中与预定词语集合匹配的词语的过滤器。
14.如权利要求12所述的设备,其中,所述消息包括:
基于源自所存储的被滤过的词语中的关键字所检索的广告;或者
基于源自所存储的被滤过的词语中的关键字执行搜索的结果。
15.如权利要求14所述的设备,其中,执行搜索的结果包括统一资源***或书签列表中的至少一个。
16.如权利要求12所述的设备,其中,所述消息包括电子邮件消息、网页、语音邮件或视频消息中的至少一个。
17.如权利要求12所述的设备,其中,所述处理器还配置成:
在预定时间段后清除所存储的词语以及与所存储的词语相关联的信息。
18.如权利要求12所述的设备,其中,与所存储的词语相关联的所述信息包括以下至少一个:所述词语被识别的时间、或所述词语被识别时设备的物理位置。
19.如权利要求12所述的设备,其中,所述字识别引擎包括以下至少一个:语音识别引擎、或即时消息识别引擎。
20.一种设备,包括:
用于使用语音识别来识别语音信号中的词语的装置;
用于通过将所识别的词语与字词集合进行比较来保留所识别的词语中的部分的装置;
用于将所保留的部分以及与所保留的部分相关联的时间发送到广告服务器的装置;以及
用于从广告服务器接收与所保留的部分有关的以及与关联于所保留的部分的信息有关的广告的装置。
CN2007800529757A 2007-05-21 2007-11-20 用于识别广告和/或网页的语音识别 Expired - Fee Related CN101681622B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/751,170 US8078468B2 (en) 2007-05-21 2007-05-21 Speech recognition for identifying advertisements and/or web pages
US11/751,170 2007-05-21
PCT/IB2007/054714 WO2008142493A1 (en) 2007-05-21 2007-11-20 Speech recognition for identifying advertisments and/or web pages

Publications (2)

Publication Number Publication Date
CN101681622A true CN101681622A (zh) 2010-03-24
CN101681622B CN101681622B (zh) 2012-08-15

Family

ID=39135299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800529757A Expired - Fee Related CN101681622B (zh) 2007-05-21 2007-11-20 用于识别广告和/或网页的语音识别

Country Status (5)

Country Link
US (1) US8078468B2 (zh)
EP (1) EP2150953A1 (zh)
JP (1) JP5154643B2 (zh)
CN (1) CN101681622B (zh)
WO (1) WO2008142493A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436626A (zh) * 2010-11-19 2012-05-02 微软公司 计算交互式广告会话的逐个交互的费用
CN103578469A (zh) * 2012-08-08 2014-02-12 百度在线网络技术(北京)有限公司 一种展示语音识别结果的方法及装置
CN104243666A (zh) * 2013-06-13 2014-12-24 腾讯科技(深圳)有限公司 语言处理方法及装置
CN109949798A (zh) * 2019-01-03 2019-06-28 刘伯涵 基于音频的广告检测方法以及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8397168B2 (en) 2008-04-05 2013-03-12 Social Communications Company Interfacing with a spatial virtual communication environment
US20130066634A1 (en) * 2011-03-16 2013-03-14 Qualcomm Incorporated Automated Conversation Assistance
US9551588B2 (en) 2014-08-29 2017-01-24 The Nielsen Company, LLC Methods and systems to determine consumer locations based on navigational voice cues
US20160171109A1 (en) * 2014-12-12 2016-06-16 Ebay Inc. Web content filtering
US9916025B2 (en) * 2015-09-08 2018-03-13 Samsung Electronics Co., Ltd. Performing searches using computing devices equipped with pressure-sensitive displays

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001197223A (ja) 2000-01-06 2001-07-19 Sony Corp 通信システム、通信管理装置及び方法
US6773344B1 (en) 2000-03-16 2004-08-10 Creator Ltd. Methods and apparatus for integration of interactive toys with interactive television and cellular communication systems
JP2002288179A (ja) * 2001-03-23 2002-10-04 Ricoh Co Ltd インターネット会議室サービスシステム
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US20040059712A1 (en) * 2002-09-24 2004-03-25 Dean Jeffrey A. Serving advertisements using information associated with e-mail
CN1701331A (zh) 2002-09-24 2005-11-23 Google公司 使用与电子邮件有关的信息来提供广告
US7512603B1 (en) * 2002-11-05 2009-03-31 Claria Corporation Responding to end-user request for information in a computer network
US7386443B1 (en) * 2004-01-09 2008-06-10 At&T Corp. System and method for mobile automatic speech recognition
US7747676B1 (en) * 2004-12-20 2010-06-29 AudienceScience Inc. Selecting an advertising message for presentation on a page of a publisher web site based upon both user history and page context
JP2006319456A (ja) * 2005-05-10 2006-11-24 Ntt Communications Kk キーワード提供システム及びプログラム
US20070078708A1 (en) 2005-09-30 2007-04-05 Hua Yu Using speech recognition to determine advertisements relevant to audio content and/or audio content relevant to advertisements
JP2009521736A (ja) * 2005-11-07 2009-06-04 スキャンスカウト,インコーポレイテッド リッチメディアと共に広告をレンダリングするための技術
US20070174258A1 (en) * 2006-01-23 2007-07-26 Jones Scott A Targeted mobile device advertisements
US8082510B2 (en) * 2006-04-26 2011-12-20 Cisco Technology, Inc. Method and system for inserting advertisements in unified messaging solutions

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436626A (zh) * 2010-11-19 2012-05-02 微软公司 计算交互式广告会话的逐个交互的费用
CN103578469A (zh) * 2012-08-08 2014-02-12 百度在线网络技术(北京)有限公司 一种展示语音识别结果的方法及装置
CN104243666A (zh) * 2013-06-13 2014-12-24 腾讯科技(深圳)有限公司 语言处理方法及装置
CN104243666B (zh) * 2013-06-13 2017-10-31 腾讯科技(深圳)有限公司 语言处理方法及装置
CN109949798A (zh) * 2019-01-03 2019-06-28 刘伯涵 基于音频的广告检测方法以及装置

Also Published As

Publication number Publication date
US20080294436A1 (en) 2008-11-27
JP2010528333A (ja) 2010-08-19
CN101681622B (zh) 2012-08-15
JP5154643B2 (ja) 2013-02-27
US8078468B2 (en) 2011-12-13
EP2150953A1 (en) 2010-02-10
WO2008142493A1 (en) 2008-11-27

Similar Documents

Publication Publication Date Title
CN101681622B (zh) 用于识别广告和/或网页的语音识别
US8600362B1 (en) Portable device and method for controlling the same
CN100592284C (zh) 信息检索和显示方法以及计算机可读介质
US20010054041A1 (en) System and method for registering or searching in multiple relationship-searching hosts
US20020083093A1 (en) Methods and systems to link and modify data
US20100178903A1 (en) Systems and Methods to Provide Personal Information Assistance
CN101999119A (zh) 用于输入识别和完成的技术
CN107066523A (zh) 使用搜索结果的自动路由
US20080253544A1 (en) Automatically aggregated probabilistic personal contacts
US20210295273A1 (en) Terminal and non-transitory computer readable storage medium
US20160027044A1 (en) Presenting information cards for events associated with entities
WO2020186824A1 (zh) 应用程序唤醒控制方法、装置、计算机设备及存储介质
US20060143065A1 (en) Apparatus and method for automatically managing and performing schedule
US10038785B1 (en) Methods and systems for automatically recognizing actions in a call center environment using video data
WO2018061824A1 (ja) 情報処理装置、情報処理方法およびプログラム記録媒体
CN109922199B (zh) 一种联系人信息处理方法及终端
US8001114B2 (en) Methods and apparatuses for dynamically searching for electronic mail messages
WO2016085585A1 (en) Presenting information cards for events associated with entities
JP4547996B2 (ja) コミュニケーション装置及びコミュニケーション概要作成方法
US7822764B2 (en) Methods and apparatuses for dynamically displaying search suggestions
US11290405B2 (en) Method, system and apparatus for providing a contextual keyword collective for communication events in a multicommunication platform environment
KR101350978B1 (ko) 어플리케이션을 이용하는 인맥 관리 시스템 및 인맥 관리 방법
JP6885217B2 (ja) ユーザ対話支援システム、ユーザ対話支援方法及びプログラム
CN104008491A (zh) 一种信息处理***及方法
WO2013089646A1 (en) Information content reception and analysis architecture

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120815

Termination date: 20191120