CN102845075A - 节目检索装置及节目检索方法 - Google Patents

节目检索装置及节目检索方法 Download PDF

Info

Publication number
CN102845075A
CN102845075A CN201180007305XA CN201180007305A CN102845075A CN 102845075 A CN102845075 A CN 102845075A CN 201180007305X A CN201180007305X A CN 201180007305XA CN 201180007305 A CN201180007305 A CN 201180007305A CN 102845075 A CN102845075 A CN 102845075A
Authority
CN
China
Prior art keywords
mentioned
program
morpheme
data
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201180007305XA
Other languages
English (en)
Inventor
藤井毅也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Publication of CN102845075A publication Critical patent/CN102845075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8233Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a character code signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Systems (AREA)

Abstract

无论有无字幕数据,均可适当检索节目、节目内的规定场景。节目检索装置420具有:表格更新部180,提取节目码流中含有的字幕数据或节目信息,分割为词素,将该词素登录到许可单词表格;节目保持部464;数据获取部482,获取和节目相关的文本数据,并且使获取时间信息关联;数据加工部184,将文本数据分割为词素,分割的词素未登录到许可单词表格时,将词素置换为预先设定的标记;索引授与部492,将置换的文本数据、及获取时间信息的组作为索引数据授与保持的节目码流;节目提取部494,根据关键字和索引数据,提取节目或节目内的规定场景(图11)。

Description

节目检索装置及节目检索方法
技术领域
本发明涉及一种根据任意步骤加工文本数据、作为索引数据用于检索的节目检索装置及节目检索方法。
背景技术
在电视播放中,将每天播放的节目暂时存储到装置中,用户事后可收视收听该存储的节目,这一技术一直被使用。其中,当节目中附加了字幕数据时(文字多重播放),将该字幕数据作为索引数据与节目、节目内的规定场景关联后,节目检索装置通过对索引数据进行关键字检索,可从存储的节目中迅速提取用户所需的节目、节目内的规定场景。
并且下述技术也为人所知(例如专利文献1):根据辞典数据等将任意的文字串和说明该文字串的文章建立关联并保持到数据库装置中,在获取节目的字幕数据时,将该字幕数据分割为词素,比较该词素和数据库装置中保持的文字串,仅突出显示一致的词素。用户仅通过选择该突出显示的词素,就可参照数据库装置中存储的说明该词素的文章。
现有技术文献
专利文献
专利文献1:专利第3538955号
发明内容
发明要解决的问题
目前,从地波模拟播放到地波数字播放的转换获得进展。因此,在地波数字播放中,字幕数据、节目信息与节目同时作为节目码流多重化播放的情况较多,将字幕数据、节目信息作为检索用的索引数据使用的上述技术可有效地使用。
但是,即使是地波数字播放,节目也未必附加字幕数据。例如,对于新闻、直播这样的无法预先提示其播放内容的,不含有字幕数据,或者即使含有也是标题等极有限的信息。
因此,在装置中存储的多个节目中,含有(附加)字幕数据的节目和不含有(不附加)字幕数据的节目混合存在。换言之,附加了索引数据的节目和没有索引的节目混合存在。因此,后者的节目(未附加字幕数据的节目)不能变为检索对象,从而难以作为收视收听对象提取。这样一来,即使检索存储的节目、节目内的规定场景,也会产生无法适当提取所需的节目、节目内的规定场景的情况。
因此,本发明鉴于这一问题,其目的在于提供一种无论有无字幕数据均可适当检索节目、节目内的规定场景的节目检索装置及节目检索方法。
用于解决问题的手段
为解决上述课题,本发明提供下述节目检索装置及节目检索方法。
(1)一种节目检索装置,其特征在于,具有:表格保持部,保持使多个词素和其出现次数建立对应的许可单词表格;节目码流获取部,获取根据播放道德规定生成的节目码流;表格更新部,在获取的上述节目码流中含有字幕数据或作为与节目内容相关的第1文本数据的节目信息时,从上述节目码流中提取上述字幕数据或上述节目信息,分割为词素,如果分割的上述词素在上述许可单词表格中不存在,则将该词素登录在上述许可单词表格中,如果分割的上述词素在上述许可单词表格中存在,则更新和上述词素对应的出现次数;节目保持部,保持获取的节目码流中含有的节目;数据获取部,获取与所保持的上述节目相关的第2文本数据,并且与获取时间信息建立关联;数据加工部,将上述第2文本数据分割为词素,如果分割的上述词素未登录在上述许可单词表格中,或者分割的上述词素虽然登录在上述许可单词表格中但与该词素对应的出现次数小于预先设定的第1阈值,则将上述词素置换为预先设定的标记,作为第3文本数据再结合;索引授与部,将下述组合作为索引数据授与保持的上述节目:再结合的上述第3文本数据;与和该第3文本数据对应的上述第2文本数据建立关联的上述获取时间信息;节目提取部,根据为进行检索而输入的关键字和上述索引数据,提取上述节目保持部中保持的节目或节目内的规定场景。
(2)一种节目检索装置,其特征在于,具有:表格保持部,保持使多个词素和其出现次数建立对应的许可单词表格;节目信息获取部,获取根据播放道德规定生成的、作为和节目内容相关的第1文本数据的节目信息;表格更新部,将上述节目信息分割为词素,如果分割的上述词素在上述许可单词表格中不存在,则将该词素登录在上述许可单词表格中,如果分割的上述词素在上述许可单词表格中存在,则更新和上述词素对应的出现次数;节目保持部,保持获取的节目码流中含有的节目;数据获取部,获取与所保持的上述节目相关的第2文本数据,并且与获取时间信息建立关联;数据加工部,将上述第2文本数据分割为词素,如果分割的上述词素未登录在上述许可单词表格中,或者分割的上述词素虽然登录在上述许可单词表格中但与该词素对应的出现次数小于预先设定的第1阈值,则将上述词素置换为预先设定的标记,作为第3文本数据再结合;索引授与部,将下述组合作为索引数据授与保持的上述节目:再结合的上述第3文本数据;与和该第3文本数据对应的上述第2文本数据建立关联的上述获取时间信息;节目提取部,根据为进行检索而输入的关键字和上述索引数据,提取上述节目保持部中保持的节目或节目内的规定场景。
(3)根据上述(1)或(2)所述的节目检索装置,其特征在于,对于上述索引授与部,保持的上述节目中如果附加了字幕数据,则将该字幕数据作为索引数据授与上述节目,上述节目中如果未附加字幕数据,或者视为未附加字幕数据,则上述索引授与部将再结合的上述第3文本数据作为索引数据授与上述节目。
(4)根据上述(3)所述的节目检索装置,其特征在于,上述索引授与部在作为每1秒的字幕数据数的字幕率小于预先设定的第2阈值时,视为上述节目中未附加字幕数据。
(5)一种节目检索方法,其特征在于:获取根据播放道德规定生成的节目码流,在获取的上述节目码流中含有字幕数据或作为与节目内容相关的第1文本数据的节目信息时,从上述节目码流中提取上述字幕数据或上述节目信息,分割为词素,如果分割的上述词素在使多个词素和其出现次数建立对应的许可单词表格中不存在,则将该词素登录到上述许可单词表格中,如果分割的上述词素在上述许可单词表格中存在,则更新和上述词素对应的出现次数,将获取的节目码流中含有的节目保持在节目保持部中,获取与所保持的上述节目相关的第2文本数据,并且与获取时间信息建立关联,将上述第2文本数据分割为词素,如果分割的上述词素未登录在上述许可单词表格中,或者分割的上述词素虽然登录在上述许可单词表格中但与该词素对应的出现次数小于预先设定的第1阈值,则将上述词素置换为预先设定的标记,作为第3文本数据再结合,将下述组合作为索引数据授与保持的上述节目:再结合的上述第3文本数据;与和该第3文本数据对应的上述第2文本数据建立关联的上述获取时间信息,根据为进行检索而输入的关键字和上述索引数据,提取上述节目保持部中保持的节目或节目内的规定场景。
(6)一种节目检索方法,其特征在于:获取根据播放道德规定生成的、作为和节目内容相关的第1文本数据的节目信息,将上述节目信息分割为词素,如果分割的上述词素在使多个词素和其出现次数建立对应的许可单词表格中不存在,则将该词素登录在上述许可单词表格中,如果分割的上述词素在上述许可单词表格中存在,则更新和上述词素对应的出现次数,将获取的节目码流中含有的节目保持在节目保持部,获取与所保持的上述节目相关的第2文本数据,并且与获取时间信息建立关联,将上述第2文本数据分割为词素,如果分割的上述词素未登录在上述许可单词表格中,或者分割的上述词素虽然登录在上述许可单词表格中但与该词素对应的出现次数小于预先设定的第1阈值,则将上述词素置换为预先设定的标记,作为第3文本数据再结合,将下述组合作为索引数据授与保持的上述节目:再结合的上述第3文本数据;与和该第3文本数据对应的上述第2文本数据建立关联的上述获取时间信息,根据为进行检索而输入的关键字和上述索引数据,提取上述节目保持部中保持的节目或节目内的规定场景。
发明效果
根据本发明,无论有无字幕数据,均可适当检索节目、节目内的规定场景。
附图说明
图1是表示第1实施方式中的节目提供***的概要连接关系的说明图。
图2是表示过滤装置的概要构成的功能框图。
图3是用于说明许可单词表格的说明图。
图4是表示绘制投稿数据的例子的说明图。
图5是说明过滤方法的处理流程的流程图。
图6是用于说明表格更新部的处理的说明图。
图7是说明过滤方法的处理流程的流程图。
图8是示例投稿数据组的说明图。
图9是用于说明数据加工部的处理的说明图。
图10是表示第2实施方式中的节目提供***的概要连接关系的说明图。
图11是表示节目检索装置的概要构成的功能框图。
图12是说明节目检索方法的处理流程的流程图。
图13是表示节目附加数据中的字幕数据的一例的说明图。
图14是说明节目检索方法的处理流程的流程图。
图15是表示检索清单的显示例的说明图。
图16是表示显示装置中的显示例的说明图。
附图标记
100、400 节目提供***
120 过滤装置
160 表格保持部
180 表格更新部
182、482 数据获取部
184 数据加工部
200 许可单词表格
420 节目检索装置
464 节目保持部
492 索引授与部
494 节目提取部
具体实施方式
以下参照附图的同时详细说明本发明的优选实施方式。该实施方式所示的尺寸、材料、其他具体数值等,仅是易于理解发明的示例,除特别声明时,不用于限定本发明。此外,在本说明书及附图中,对实质上具有相同的功能、构成的要素附加同样的附图标记,从而省略重复性说明,并对和本发明没有直接关系的要素省略图示。
其中,作为第1实施方式,说明适当过滤任意的文本数据的过滤装置及过滤方法,作为第2实施方式,使用第1实施方式中的过滤技术,说明适当检索节目及该节目内的规定场景的节目检索装置及节目检索方法。两个实施方式至少在过滤技术上通用。
作为过滤技术,一般大多使用将不应用于服务的违反公序良俗的词语(禁止单词)表格化的禁止单词表格。并且,服务提供者参照该禁止单词表格,例如对投稿到电子公告板的投稿数据进行排除与禁止单词对应的词语的过滤。但是,在该排除禁止单词的过滤中,通过将禁止单词变更为其他汉字(代用字),或在文字之间***空白、标记,对该词语加上“摆动(ゆらぎ)”,以与禁止单词不一致,从而可容易地规避被过滤的情况。
这是因为,即使将与该禁止单词对应的词语变更为代用字、或加上标记,也可将该词语的含义传达给他人。这样一来,应禁止的词语根据各禁止单词存在无数个不同的表达方式,服务提供者即使可确定、排除禁止单词本身,也无法完全排除对该禁止单词的无数个表达方式。
为了排除这样的禁止单词的无数个表达方式,不使用将禁止单词表格化的禁止单词表格,而使用将可允许的词语(许可单词)表格化的许可单词表格,仅剩余未违反公序良俗的词语、文章即可。但是,人物、建造物这样的词语每天都出现新的,为使这种许可单词不被过滤排除,必须提高许可单词表格的更新频率。
但现状是,没有利用许可单词表格的服务提供者,未构筑出将许可单词表格发送到各用户的信息终端的***。本来,在生成单词表这一方面,相对禁止单词表格,许可单词表格的必要词语数明显较多,例如,一个月产生的禁止单词约4000个,与之相对,许可单词约400万个,该单词表的发送、更新需要庞大的成本。因此,使用许可单词表格不现实。
因此,在第1实施方式中,使用电视播放等节目提供***,说明自动形成用于过滤的许可单词表格的过滤装置及过滤方法。
(第1实施方式:节目提供***100)
图1是表示第1实施方式中的节目提供***100的概要连接关系的说明图。节目提供***100的构成包括:节目提供装置110、过滤装置120、显示装置130、服务提供服务器140。
节目提供装置110由播放站112、节目提供服务器114构成,发送节目码流。节目码流中,除了节目本身外,与节目相关的各种信息作为附加数据被包含。
过滤装置120从作为节目提供装置110的播放站112通过天线122,并从作为节目提供装置110的节目提供服务器114通过因特网等通信网络124,接收地波数字播放、BS/CS数字播放、有线电视播放、IP播放、视频点播等各种节目的节目码流。并且,过滤装置120利用节目码流中含有的字幕数据、作为与节目内容相关的第1文本数据的节目信息,生成用于进行过滤的许可单词表格。并且,过滤装置120使用生成的许可单词表格,过滤任意的文本数据。
显示装置130由液晶显示器、有机EL(Electro Luminescence:电子发光器)、显示器、电影屏幕、投影仪(投影机)等构成,显示通过过滤装置120接收的节目、过滤的文本数据。
服务提供服务器140是服务提供者运营的服务器,将第三者投稿数据的电子公告板等各种服务,提供到第三者具有的信息终端、过滤装置120等。
构成本实施方式的节目提供***100的过滤装置120的目的在于适当过滤文本数据。以下说明构成过滤装置120的各功能部,之后详述使用了过滤装置120的过滤方法。
(过滤装置120)
图2是表示过滤装置120的概要构成的功能框图。过滤装置120的构成包括:操作部150、调谐部152、通信部154、DEMUX(DEMUltiplexer:多路分配器)部156、AV解码部158、表格保持部160、中央控制部162。其中,调谐部152、通信部154、DEMUX156作为获取节目码流的节目码流获取部发挥功能。在图2中,用实线箭头表示数据流,用虚线箭头表示控制信号流。
操作部150由操作键、十字键、操作杆、轻推转盘、触摸板等构成,受理用户的操作输入。
调谐部152经由天线122从播放站112接收播放信号,根据通过操作部150设定的频道代码,解调播放信号,生成节目码流。
通信部154经由通信网络124确立与节目提供服务器114的通信,使用类似HTTP(Hyper Text Transfer Protocol:超文本传输协议)的因特网协议,和调谐部152一样,以数据包单位获取节目提供服务器114发送的、相当于播放信号的IP码流,根据时间戳记恢复IP码流,生成节目码流。并且,通信部154也可确立与服务提供服务器140的通信。
DEMUX部156将节目码流例如分离为影像数据(MPEG(MovingPicture Experts Group:移动图像专家组)视频码流)、声音数据(MPEG声音码流)、字幕数据、时刻数据、节目信息等多个数据。
AV解码部158从DEMUX部156获取影像数据及声音数据,解码为影像信号及声音信号,将解码的影像信号输出到显示装置130。此外,声音信号输出到未图示的扬声器等声音输出装置。
表格保持部160由闪存、HDD(Hard Disk Drive:硬盘驱动)等存储介质构成,保持使多个词素和其出现次数建立对应的许可单词表格。此外,HDD正确而言是装置,为便于说明,在本说明书中与其他存储介质同样对待。
中央控制部162通过包括中央处理装置(CPU)、存储了程序的ROM、作为工作区域的RAM等的半导体集成电路,管理及控制过滤装置120整体。并且,在本实施方式中,中央控制部162也作为表格更新部180、数据获取部182、数据加工部184、显示控制部186发挥功能。
表格更新部180在经由作为节目码流获取部的调谐部152、通信部154获取的节目码流中,含有字幕数据或作为第1文本数据的节目信息时,从节目码流提取字幕数据或节目信息中的任意一个或两个,分割为词素。并且,表格更新部180在分割的词素在下述许可单词表格中不存在时,登录该词素,在分割的词素在许可单词表格中存在时,更新和词素对应的出现次数。其中,字幕数据是指,在电影、电视等影像媒介中,使用文字表示标题、职员、解说、会话等信息的文本数据。并且,节目信息包括频道代码、服务ID、事件ID、节目开始时刻、节目结束时刻、节目名、节目的解说信息、节目的演出者、职员信息、与主题歌相关的信息、节目类型等与节目内容相关的各种信息。以下为便于说明,将字幕数据或节目信息中的任意一个或两个简称为节目附加数据。并且,根据说明不同,节目附加数据也会表示字幕数据或节目信息中的一个。
具体而言,表格更新部180判断经由调谐部152、通信部154获取的节目码流中是否包含节目附加数据,如含有节目附加数据,则将该节目附加数据使用词素辞典分割为一个或多个词素。其中,词素辞典是,预先统计大量的文章,将各词素、和在词素前后连接的词素的连接概率,形成为辞典形式。表格更新部180通过使用词素辞典,可将象日语这样的没有分隔的自然语言分割为词素单位。并且,分割的词素在词素辞典中不存在时,表格更新部180利用汉字、英数字、平假名、片假名等文字种类的分隔,分割为词素。作为分割为词素的词素解析引擎,也可利用以下技术:通过统计学方法推测自然语言的“区别”,分割为词素单位。此外,使用了词素辞典的对词素的分割算法的详情是公知技术,因此省略说明。
接着,表格更新部180将分割的各词素登录到许可单词表格,或者更新登录的词素的出现次数。
图3是用于说明许可单词表格200的说明图。许可单词表格200形成前连接词素pword、主词素word、出现次数wnum唯一关联的表格构造。其中,前连接词素pword是在分割的词素列中位于主词素word前的词素,主词素word是在文章开头的词素时,成为空值(NULL)。主词素word是主要的关键字的词素,不允许空值。因此,表格更新部180在文章是“総理の命を受け、”时,以“総理”为主词素word,即使生成前连接词素pword为“NULL”的记录202,也以“受け”作为前连接词素pword,不生成主词素word为“NULL”的记录。出现次数wnum是前连接主词素pword和主词素word的组合在节目附加数据中出现的次数,以1以上的整数表示。
表格更新部180对于分割的词素,当前后2个词素的组合在许可单词表格200中不存在,则登录这2个词素的组合,当前后2个词素的组合在许可单词表格200中存在,则递增(+1)与该组合对应的出现次数。因此,在许可单词表格200中,前连接词素pword和主词素word的组合是唯一的。对该用于生成许可单词表格200的命令文例如使用作为数据库记录语言的SQL(Structured Query Language:结构化查询语言)表示时,可如下表示。
Figure BDA00001937969400121
在本实施方式中,使用节目码流中含有的节目附加数据生成许可单词表格200,因此可获得以下效果。即,节目及节目附加数据根据播放道德规定生成。播放道德规定例如在播放道德基本纲领中规定“使用适当的语言的同时,注意有品位的表达”,在根据播放道德规定生成的节目附加数据中,不含有违反公序良俗的词语、文章。因此,如根据节目码流中含有的节目附加数据生成许可单词表格200,则无需判断各词语是否相当于许可单词,可容易地存储许可单词。
并且,接收节目码流的功能本身已经确立,因此即使不重新构筑将数据容量大的许可单词表格200发送到各用户的信息终端的***,在过滤装置120内仅提取节目码流中含有的节目附加数据,就可随时更新许可单词表格200。因此,可以最低限度的维持成本构筑成可随时更新许可单词表格200的***。
其中,即使构筑了将数据容量大的许可单词表格200发送到各用户的信息终端的***,在将许可单词表格200发送到信息终端时,也有第三者篡改许可单词表格200的危险性。在本实施方式中,在过滤装置120内的封闭的空间内更新许可单词表格200,因此可将该篡改危险性限制在最小限度。
在本实施方式中,在上述目的下,主要采用通过调谐部152获取的节目码流中含有的节目附加数据,但只要基于播放道德规定,例如也可采用从实施有线电视播放、IP播放、视频点播等的节目提供服务器114获取的节目码流的节目附加数据。
并且,也存在独立于节目码流提供而提供EPG(Electronic ProgramGuide:电子节目指南)的服务从业者。可从这样的服务从业者管理的服务器(未图示)直接获取上述节目信息,节目信息只要基于播放道德规定,则可将该节目信息用于本实施方式。此时,通信部154作为获取节目信息的节目信息获取部发挥功能,表格更新部180将作为节目信息获取部的通信部154获取的节目信息分割成词素,反映到许可单词表格200。为便于说明,以下列举从节目码流提取节目附加数据、即字幕数据、节目信息并反映到许可单词表格200的构成,当然,通过通信部154获取的节目信息也可用于本实施方式的许可单词表格200。
数据获取部182通过通信部154从服务提供服务器140获取任意的文本数据(第2文本数据),并且使表示任意的文本数据生成、投稿或获取的时间的获取时间信息,与任意的文本数据建立关联。例如,如存在将与任意的播放站112播放的节目相关的投稿数据作为电子公告板公开的服务提供服务器140,则数据获取部182从该电子公告板获取投稿数据,作为获取时间信息,将有该投稿的时间与投稿数据建立关联。
在这样的电子公告板(实况电子公告板)、实况博客(日记)中,对特定的播放站112播放的一系列节目,经由通信网络124,不确定的多个投稿者如同进行实况转播一样,几乎实时地互相投稿数据。在本实施方式中,数据获取部182从设为这样的任意的播放站112专用的电子公告板获取投稿数据。
并且,数据获取部182在投稿专用网站,可指定与任意的播放站112相关的话题的标题,获取该投稿数据。并且,播放站112独自运营募集对自身的意见等的网站时,数据获取部182可通过这样的网站获取投稿数据。
这样的投稿数据实时性强,因此例如通过将数据获取部182获取的投稿数据,与作为投稿对象的、节目码流获取部获取的节目码流的节目同时显示到显示装置130,用户可与节目并行,基本实时阅览与该节目相关的意见、说明。
此外,对从节目信息提供服务器114发送的节目码流的节目,也可和上述一样获取投稿数据。但这种情况下,节目信息提供服务器114发送的节目码流的节目限定为:与从播放站112通过地波数字播放、BS/CS数字播放、有线电视播放等播放的节目基本同时刻再发送的节目。
数据加工部184过滤数据获取部182获取的文本数据(第2文本数据),生成新的文本数据(第3文本数据)。例如,如上所述,数据获取部182从服务提供服务器140获取投稿数据时,数据加工部184过滤该投稿数据,生成新的投稿数据。
具体而言,数据加工部184首先将数据获取部182获取的文本数据(第2文本数据)使用上述词素辞典分割为词素。并且,数据加工部184判断分割的词素(正确而言是2个词素的组合)是否登录到了许可单词表格200中,对于登录到许可单词表格200的词素,判断其出现次数是否是预先设定的第1阈值α以上。
此时,如词素未登录到许可单词表格200,或虽然词素登录到许可单词表格200但与该词素对应的出现次数小于第1阈值α,则数据加工部184将词素置换为预先设定的一个或多个标记,将分割的词素作为文本数据(第3文本数据)再结合。因此,在新生成的文本数据中,仅剩余登录到许可单词表格200的词素。
显示控制部186将通过数据加工部184加工的文本数据绘制为文本字幕状的图像,将该绘制图像显示到显示装置130。
图4是表示绘制投稿数据的例子的说明图。如上所述,数据获取部182从服务提供服务器140获取投稿数据(第2文本数据)时,将通过数据加工部184过滤的投稿数据(第3文本数据),显示到显示装置130中的节目的显示区域210的下面设置的投稿数据区域212,从而使用户可与节目并行,阅览该投稿数据。此时阅览的投稿数据通过数据加工部184被过滤,因此不含有违反公序良俗的词语、文章。因此,即使是未成年人,也可没有任何问题地收视收听该投稿数据。
(过滤方法)
图5是说明过滤方法的处理流程的流程图。尤其是在图5中,说明过滤方法中生成许可单词表格200的处理。
DEMUX部156检测出节目码流中具有节目附加数据时(S300中“是”),表格更新部180从DEMUX部156获取节目附加数据的文本正文(S302),进行文本正文的字句解析,将文本正文中的1字以上的标点、换行、标记及外字(预先设定的汉字、英数字、平假名、片假名以外的文字),置换为特殊标记(例如“■”)(S304)。此时,当标点等连续被记载时,汇总连续的所有标点等,置换成一个特殊标记。这样,表格更新部180进行字句解析,进行将标点等置换成特殊标记的处理,从而可避免因节目附加数据特有的布局中使用的标记、空白而使许可单词表格200中登录无用的词素,可仅存储检索所需的词素。
并且,表格更新部180使用词素辞典,将置换了标点等的文本正文分割成词素(S306)。此时,在作为表格更新部180发挥功能的词素引擎中,将置换的特殊标记作为词素间的分隔。
图6是用于说明表格更新部180的处理的说明图。其中,将文本正文中的换行文字用(换行)表示,将空白文字用(空白)表示。例如,节目码流中含有的节目附加数据中的字幕数据是图6(a)的这样的文本数据时,表格更新部180汇总“>>”、“、”、“。”、(换行)、(空白)这样的标点等,置换为特殊标记“■”,进一步分解为词素,形成图6(b)这样的词素列。在此为易于理解,向词素之间***“/”的标记,但并不是实际存在的标记。
接着,表格更新部180初始化前连接词素变量PREV(代入空值NULL)(S308),判断是否残留未进行许可单词表格200的登录判断的词素(词素列)(S310),当判断未残留时(S310中“否”),结束生成该许可单词表格200的处理。当还残留未进行登录判断的词素时(S310中“是”),表格更新部180取出一个位于未进行许可单词表格200的登录判断的词素列前头的词素,代入到词素变量WORD,从该词素列删除对象词素(S312)。
接着,表格更新部180判断词素变量WORD是否是特殊标记“■”(S314),当是特殊标记时(S314中“是”),从前连接词素变量初始化步骤S308开始重复。
如词素变量WORD不是特殊标记(S314中“否”),表格更新部180判断前连接词素变量PREV和词素变量WORD的组合、是否作为许可单词表格200的前连接词素pword和主词素word的组合存在(S316),如存在(S316中“是”),递增该前连接词素pword和主词素word对应的出现次数wnum(S318),如不存在(S316中“否”),将前连接词素变量PREV和词素变更WORD的组合作为前连接词素pword和主词素word的新的记录,追加到许可单词表格200,将对应的出现次数wnum设定为1(S320)。
并且,表格更新部180将词素变量WORD的值代入前连接词素变量PREV(S322),从词素残留判断步骤S310开始重复。这样,根据图6(b)所示的词素列,生成图3所示的许可单词表格200。在上述处理中,分割的词素即使不包含于词素辞典中,也可登录到许可单词表格200,可计数出现次数。
如上生成的许可单词表格200存储节目附加数据中含有的2个词素间的连接情况、及其出现次数。该连接情况深刻反映位于用户居住的地区的播放站112、用户专门收视收听的播放站112中的节目附加数据的生成特性,因此许可单词表格200和地区性、用户爱好对应。
并且,在存在判断步骤S316中,之所以判断前连接词素pword和主词素word的2个连接,是因为通过连接未违反公序良俗的词素,排除违反公序良俗的文字串等。例如,文字串“基地外”虽然也有“基地の外”的含义,但其读音违反公序良俗。此时,数据加工部184分别单独判断“基地”和“外”时,文字串“基地外”有可能不被排除。在播放道德规定中,不使用“基地外”的表达,而是“基地の外”的表达,因此在许可单词表格200中,以“基地”“の”或者“の”“外”这样连接的词素登录,可排除“基地外”这样的文字串。
并且,在此为便于理解,列举了存储作为对象的词素和前一个词素的组合的例子,通过将连接的n个前为止的词素的组合登录到许可单词表格200,可对词素的组合进行严格的过滤(词素为2个时称为2gram法,统计前n个为止的连接性时称为n-gram法)。
并且,根据应用程序不同,也可对文本正文中含有的部分标记等不置换而保留,直接进行许可单词表格200的登录判断。本实施方式的目的在于,从与词素辞典的生成源文本数据不同的文本数据,提取词素的组合和出现次数。因此,表格更新部180不仅可提取节目码流中含有的节目附加数据(字幕数据、节目信息)的文本正文,而且可从节目码流中含有的其他信息提取词素。
并且,在此列举了通过调谐部152、通信部154获取节目码流的例子,但对存储介质中存储的节目码流文件,只要符合播放道德规定,可从各种路径获取节目码流。进一步,过滤装置120可通过具有多个调谐部152和DEMUX部156的组合,从多个播放站112并列接收节目码流,高速收集较多的词素。并且,过滤装置120可使用于生成许可单词表格200的功能部与用于节目收视收听的功能部独立动作,例如可使其连续24小时接收节目码流,生成许可单词表格200。
图7是用于说明过滤方法的处理流程的流程图。图7尤其说明过滤方法中,利用图5生成的许可单词表格200过滤文本数据的处理。
首先,数据获取部182获取收视收听的节目的节目码流中含有的时刻数据(S350),对开始时刻变量STIME,设定从获取的时刻数据减去规定秒数(例如10秒)的值,对结束时刻变量ETIME设定时刻数据(S352)。并且,数据获取部182从服务提供服务器140经由通信部154,获取在开始时刻变量STIME到结束时刻变量ETIME为止的时刻范围内投稿的投稿数据组(S354),初始化中央控制部162的RAM中设定的输出缓冲器(S356)。
图8是示例了投稿数据组的说明图。例如,数据获取部182从DEMUX部156获取时刻数据“2009年9月30日17:45:40”后,获取与时刻范围(STIME,ETIME)=(“2009年9月30日17:45:30”,“2009年9月30日17:45:40”)对应的投稿数据组。其中,如图8所示,时刻数据为“2009年9月30日17:45:31”的投稿数据及时刻数据为“2009年9月30日17:45:38”的投稿数据对应。
数据加工部184判断是否残留未进行过滤处理的投稿数据(S358),当判断未残留时(S358中“否”),显示控制部186将输出缓冲器中存储的、进行了过滤的投稿数据显示到显示装置130(S360),结束该处理。
用于形成输出缓冲器的表格构造的命令文使用SQL表示时可如下所示。
Figure BDA00001937969400191
这样的输出缓冲器由投稿数据的、组合了投稿时间post(获取时间信息)和词素列wlist的表格构造形成。投稿时间post是进行投稿的时间,词素列wlist是实施过滤的词素列。并且,输出缓冲器被设定为使投稿时间post成为唯一。
并且,如残留未进行过滤处理的投稿数据(S358中“是”),取出一个位于残留的投稿数据组的开头的投稿数据,将投稿时间post代入到投稿时间变量POSTTIME,将投稿源数据的文本正文代入到文本变量TEXT,从该投稿数据组删除对象投稿数据(S362)。数据加工部184对文本变量TEXT,2字以上的标点置换为1字的标点(“。”、“.”、“、”、“,”等),且进行删除换行、标记、空白的字句解析(S364),使用词素辞典,将进行了字句解析的投稿数据的文本正文分割为词素(S366)。此时,在作为数据加工部184发挥功能的词素引擎中,将标点作为词素间的分隔。
接着,数据加工部184初始化前连接词素变量PREV(代入空值NULL)(S368),判断作为对象的投稿数据中是否残留词素(S370),当判断未残留时(S370中的“否”),应判断新的投稿数据,从投稿数据残留判断步骤S358开始重复。
作为对象的投稿数据中如残留词素(S370中“是”),数据加工部184从投稿数据的文本正文中的词素列的开头,取出1个词素,代入到词素变量WORD(S372)。并且,数据加工部184判断词素变量WORD是否是标点或空白(S374),如是标点或空白(S374中的“是”),转换到时刻判断步骤S382。
其中,执行字句解析步骤S364、标点判断步骤S374用于避免:因标点、空白、换行、标记的***(摆动),在意图之外的位置词语分离,词素之间的连接关系混乱。
词素变量WORD不是标点、空白时(S374中“否”),数据加工部184判断许可单词表格200中是否存在前连接词素pword与前连接词素变量PREV的值相等、且主词素word与词素变量WORD的值相等的记录,并且当存在时,判断其出现次数wnum是否为第1阈值α以上(S376)。另一方面,数据加工部184在一致的词素组合不存在时,或者虽然存在但出现次数wnum小于第1阈值α时(S376中“否”),使前连接词素变量PREV初始化(代入空值),进一步将词素变量WORD置换为表示省略字的特殊标记“◎”(S378)。其中,数据加工部184之所以使出现次数wnum小于第1阈值α的词素的组合也置换为特殊标记,是因为如果出现次数wnum小于第1阈值α,则不能认为在节目附加数据中充分出现,作为该词素的组合的许可单词是不适当的。
图9是用于说明数据加工部184的处理的说明图。例如,投稿数据的文本正文是图9(a)所示的文本数据“総理はBCDだな”时(其中,BCD连接时是违反公序良俗的文字串),前连接词素pword=“NULL”、主词素word=“総理”的记录存在于图3的许可单词表格200中,因此数据加工部184将词素“総理”存储到输出缓冲器中。并且,“BC”和“D”连接的词素在许可单词表格200中不存在,因此数据加工部184将该词素中相当于词素变量WORD的“D”置换为特殊标记“◎”,形成图9(b)所示的词素列。在此为易于理解,在词素间***“/”的标记,但不是实际存在的标记。
并且,当许可单词表格200中存在一致的词素的组合、且该词素的出现次数wnum是第1阈值α以上时(S376中的“是”),数据加工部184将词素变量WORD的值代入到前连接词素变量PREV(S380)。并且,数据加工部184判断输出缓冲器中是否存在投稿时间变量POSTTIME的值与投稿时间post一致的记录(S382),当存在时(S382中“是”),向该记录的词素列wlist的最后追加词素变量WORD的值(S384),从词素残留判断步骤S370开始重复。当不存在时(S382中的“否”),数据加工部184追加投稿时间post和词素列wlist分别成为前连接词素变量POSTTIME和词素变量WORD的新的记录(S386),从词素残留步骤S370开始重复。
在此为易于理解,设第1阈值α为1。当然,根据应用程序不同,也可适当变更第1阈值α。并且,对存在判断步骤S376,可不使用出现次数wnum本身,而使用通过下式1求出的出现概率来执行。
对应记录的wnum值/所有记录的wnum的总值……(1)
通过这样构成,数据加工部184可根据许可单词表格200与全域(母集団)的比率执行存在判断步骤S376。因此,任意的词素均存在以下情况:在全域较小时变为许可单词的情况下,当之后出现次数不更新时,随着全域变大,出现概率减小,从许可单词排除。因此,可自动排除出现频率变小的词素。
如上所述,本实施方式的过滤装置120使用和词素辞典不同的许可单词表格200,利用节目码流中含有的从节目附加数据获取的词素的组合及出现次数,可将含有违反公序良俗的词语的投稿数据适当变更为不含有这样的词语的投稿数据。
并且,如上所述,许可单词表格200深刻反映位于用户居住的地区的播放站112、用户专门收视收听的播放站112中的节目附加数据的生成特性。因此许可单词表格200和地区性、用户爱好对应,结果是,过滤后的投稿数据也易于残留和地区性、用户喜好对应的词语。
并且,在上述实施方式中,列举过滤从电子公告板获取的投稿数据的例子进行了说明,但不限于投稿数据,也可过滤WEB浏览器中显示的各种数据、存储介质中收容的数据等各种文本数据。
(第2实施方式:节目提供***400)
在第1实施方式中,说明了适当过滤任意的文本数据的过滤装置120及过滤方法。在第2实施方式中,使用在第1实施方式中说明的过滤技术,说明适当检索节目、节目内的规定场景的节目检索装置420及节目检索方法。
图10是表示第2实施方式中的节目提供***400的概要连接关系的说明图。节目提供***400的构成包括:节目提供装置110、节目检索装置420、显示装置130、服务提供服务器140。其中,节目提供装置110、显示装置130、服务提供服务器140与第1实施方式中说明的节目提供装置110、显示装置130、服务提供服务器140动作实质相同,因此省略其说明。
节目检索装置420和第1实施方式中说明的过滤装置120一样,从作为节目提供装置110的播放站112通过天线122,并且从作为节目提供装置110的节目提供服务器114通过因特网等通信网络124,接收地波数字播放、BS/CS数字播放、有线电视播放、IP播放、视频点播等各种节目的节目码流,生成用于进行过滤的许可单词表格200。
并且,节目检索装置420保持节目的同时,使用许可单词表格200生成节目的索引数据,授与到保持的节目。并且,用户尝试节目、节目内的规定场景的检索时,节目检索装置420根据索引数据迅速提取用户所需的节目、节目内的规定场景。以下说明构成节目检索装置420的各功能部,之后详述使用了节目检索装置420的节目检索方法。
(节目检索装置420)
在存储了多个节目、事后收视收听存储的节目的构成中(例如HDR:Hard Disk Recorder,硬盘记录器),节目码流中含有字幕数据时,将该字幕数据作为索引数据与各节目关联,从而使HDR可根据该索引数据迅速提示用户所需的节目。但是,节目码流中不一定含有字幕数据,例如在新闻、直播等无法预先提示其播放内容的节目中,是不含有字幕数据、或者即使含有也仅是标题等极为有限的信息。因此,根据节目不同,产生索引数据关联的节目及非关联的节目的区别。
因此,本实施方式的节目检索装置420对于不含有字幕数据的节目码流,从播放外的路径获取相当于索引数据的信息,作为索引数据尝试与节目建立关联。作为该信息的获取地,适用在第1实施方式中说明的、将与通过任意的播放站112播放的节目相关的投稿数据作为电子公告板公开的服务提供服务器140等。节目检索装置420例如比较节目的收视收听时间和投稿数据的投稿时间,时间一致的投稿数据视为与对应的节目关联,将该投稿数据作为索引数据使用。
但是,在该服务提供服务器140中,即使投稿数据的文章限制较少、所述文章被过滤,也利用禁止单词表格,因此通过对投稿数据加入“摆动”,可自由地表达文章。因此,利用投稿数据直接生成索引数据时,含有违反公序良俗的词语、文章的所有任意文本数据作为索引数据建立关联,索引数据的容易变得庞大,导致检索处理的延迟。此时,因索引数据变多,认为检索命中率变高,但实际上,由ASCII Art形成的无意义的文本数据等,作为检索用索引数据不适当的数据较多,命中率不一定变高。进一步,在相当于摆动的代用字等作为索引数据被登录的情况下,不仅不作为该节目的索引数据发挥功能,而且牵涉到未意图的其他节目的检索,检索精度下降。
并且,在大容量的索引数据建立了关联的节目、及基于字幕数据的索引数据建立了关联的节目中,索引数据的量、质不同,因此根据检索的关键字的不同,用户无法适当提取出所需的节目。通过下述节目检索装置420及节目检索方法解决该问题。
图11是表示节目检索装置420的概要构成的功能框图。在图11中,用实线箭头表示数据流,用虚线箭头表示控制信号流。节目检索装置420的构成包括:操作部150、调谐部152、通信部154、DEMUX部156、AV解码部158、表格保持部160、中央控制部462、节目保持部464、节目信息保持部466、RTC(Real Time Clock:实时时钟)部468、索引保持部470。其中,调谐部152、通信部154、DEMUX部156作为获取节目码流的节目码流获取部发挥功能。
并且,中央控制部462作为表格更新部180、数据获取部482、数据加工部184、显示控制部186、节目存储控制部488、节目信息存储控制部490、索引授与部492、节目提取部494发挥功能。
作为第1实施方式中的构成要素已经说明的操作部150、调谐部152、通信部154、DEMUX部156、AV解码部158、表格保持部160、表格更新部180、数据加工部184、显示控制部186实质上功能相同,因此省略重复说明,在此主要说明构成不同的中央控制部462、节目保持部464、节目信息保持部466、RTC部468、索引保持部470、数据获取部482、节目存储控制部488、节目信息存储控制部490、索引授与部492、节目提取部494。
节目存储控制部488将节目以通过频道代码和时刻数据可检索的方式保持在节目保持部464中。
节目保持部464由闪存、HDD等存储介质构成,保持一个或多个节目。并且,作为节目保持部464,可适用可从节目检索装置420装卸的DVD(Digital Versatile Disc:数码多用途光碟)、BD(BLU-ray Disc:蓝光光碟)这样的光盘介质,磁带、磁盘这样的磁介质,闪存、便携式HDD等外部存储介质。
并且,节目保持部464是可随机存取的文件***,其他功能部可指定任意的时刻范围读出节目保持部464中保持的影像数据、声音数据、字幕数据。其中,随机存取的方法是现有技术,因此不再详述,例如将节目按照每1小时分割保存,将该分割的文件的文件名设为“27CH 2009年9月30日17:00:00.TS”这样的包括频道代码和存储开始时刻的名称,从而可进行粗略的随机存取。
进一步,节目中的任意的场景的随机存取,可通过求出任意重放时刻的文件偏移(字节)来进行。例如,设每1小时的文件的总大小(字节)为TOTAL,任意场景的绝对重放时刻为T1,根据文件名获得的文件开头的绝对时刻为T0时,通过下式2求出文件偏移。
TOTAL/3600×(T1-T0)……(公式2)
其中,(T1-T0)的结果进行秒换算来使用。
节目信息存储控制部490在经由作为节目码流获取部的调谐部152、通信部154获取的节目码流中含有节目信息时,从节目码流中提取节目信息,作为节目信息表格保持到节目信息保持部466中。
将用于生成上述节目信息表格的命令文用SQL表示时可如下所示。
Figure BDA00001937969400261
其中,节目信息至少包括:频道代码phych、服务ID:serviceid、事件ID:eventid、节目开始时刻sttime、节目结束时刻edtime、节目名title、字幕标志capflg。并且,在节目信息表格中,服务ID:serviceid、事件ID:eventid、节目开始时刻sttime的组合是唯一的。节目信息存储控制部490中,字幕标志capflg以外的信息可从节目信息获取。并且,服务ID是和一个播放站112中的一个以上的组成对应的固有数值,事件ID是和一个组成的一个以上的事件对应的固有数值。
将节目信息登录到节目信息表格时,节目信息保持部466中如果已经登录了与服务ID:serviceid、节目信息的节目开始时刻sttime及节目结束时刻edtime等同的节目信息,则节目信息存储控制部490删除该节目信息,登录新提取的节目信息。由此,可排除同一组成中的节目框的重复。并且,节目信息存储控制部490在新登录节目信息时,将该节目信息的字幕标志capflg设定为0(未处理)。
节目信息保持部466由闪存、HDD等存储介质构成,根据节目信息存储部490的控制指令,保持将节目码流中含有的节目信息表格化的节目信息表格。并且,节目信息保持部466作为EPG数据库发挥功能,其他功能部(例如索引授与部492、节目提取部494)可以任意的条件检索节目信息保持部466保持的节目信息表格。
数据获取部482获取与节目相关的文本数据(第2文本数据)。在本实施方式中,数据获取部482从将同意通过任意的播放站112播放的节目相关的投稿数据作为电子公告板公开的服务提供服务器140,获取与该节目相关的投稿数据(第2文本数据),并且使投稿时间(获取时间信息)与投稿数据关联。如上所述,在该电子提示板中,对通过特定的播放站112播放的一系列节目,经由通信网络124,不确定的多个投稿者如同进行实况转播一样,几乎实时地互相投稿数据。在本实施方式中,数据获取部482从设为这样的任意的播放站112专用的电子公告板获取投稿数据。数据获取部482在投稿专用网站中,可指定任意的播放站112相关的话题的标题,获取该投稿数据。并且,播放站112独自运营募集对自身的意见等的网站时,数据获取部482可通过这样的网站获取投稿数据。
具体而言,数据获取部482相当于WEB浏览器,通过通信部154,确立与服务提供服务器140的通信,发送包括时刻范围和频道代码的请求信息,将时刻范围中含有的投稿数据组(文本数据组)作为响应获取。数据获取部482获取投稿数据组后,数据加工部184将投稿数据(第2文本数据)分割为词素。并且,数据加工部184在分割的词素未登录到许可单词表格200、或词素虽登录到许可单词表格200但与该词素对应的出现次数小于预先设定的第1阈值α时,将词素置换为预先设定的一个或多个文字,作为投稿数据(第3文本数据)再结合。
RTC部468由RTC电路构成,起到节目检索装置420本身的时钟的作用。
索引授与部492在节目保持部464中保持的节目中,将从节目附加数据或投稿数据提取的词素、及与节目附加数据或投稿数据(第2文本数据)关联的获取时间信息的组,作为索引数据授与(建立关联),作为索引表格保持在索引保持部470。将用于生成这样的索引表格的命令文使用SQL表示时可如下所示。
Figure BDA00001937969400281
其中,索引表格至少包括:检索语word、检索时刻postime、对应节目的服务ID:serviceid、对应节目的事件ID:eventid。并且,索引表格中,检索语word、检索时刻postime、对应节目的服务ID:serviceid、对应节目的事件ID:eventid的组合是唯一的。
并且,在本实施方式中,索引授与部492在节目码流中含有字幕数据时(节目中附加了字幕数据),将该字幕数据和获取时间信息的组作为索引数据授与到和该字幕数据对应的节目。另一方面,索引授与部492在节目码流中不含有字幕数据(节目中未附加字幕数据)、或者视为不含有时(节目中未附加字幕数据),则将再结合的文本数据(第3文本数据)和该获取时间信息的组作为索引数据授与到与该字幕数据对应的节目。其中,视为不含有(节目中未附加字幕数据)是指下述字幕率较低。
具体而言,索引授与部492从节目信息保持部466取出未处理(字幕标志capflg=0)的节目信息,从节目保持部464取出和该节目信息对应的节目的字幕数据,作为索引数据。此时,节目码流中不存在或视为不存在字幕数据时(节目中未附加字幕数据或视为未附加时),索引授与部492使数据获取部482从服务提供服务器140获取投稿数据(文本数据),使数据加工部184生成可检索对应节目的索引数据。并且,索引授与部492为将索引数据授与到节目,将索引数据登录到索引保持部470的索引表格。
通过具有上述索引授与部492,适当选择应将节目码流中含有的字幕数据、及服务提供服务器140的投稿数据的哪一个作为授与对象的节目的索引数据,可生成用于检索的适当的索引数据。这样,在没有字幕数据时也附加索引,因此可提高检索精度。
并且,在本实施方式中,区分表格更新部180为更新许可单词表格200而使用的节目附加数据中的字幕数据、和索引授与部492作为索引数据使用的字幕数据,也可利用作为索引数据使用的字幕数据,更新许可单词表格200。
索引保持部470由闪存、HDD等存储介质构成,根据索引授与部492的控制指令,保持将索引数据表格化的索引表格。
节目提取部494接受通过操作部150的用户的操作输入,将该操作结果通过GUI(Graphical User Interface:图形用户界面)显示在显示装置130上。并且,节目提取部494根据用户为检索而输入的关键字等,参照索引表格,提取节目保持部464中保持的节目或节目内的规定场景。
(节目检索方法)
图12是说明节目检索方法的处理流程的流程图。尤其是在图12中,说明节目检索方法中的索引数据的授与处理。首先,索引授与部492从RTC部468获取当前时刻,代入到时刻变量NOW(S500),从节目信息保持部466检索字幕标志capflg为0(未处理)、且节目结束时刻edtime和时刻变量NOW相比处于过去的节目信息,作为节目信息列获取(S502)。
索引授与部492判断节目信息列中是否残留节目信息(S504),如残留(S504中“是”),从节目信息列的开头取出一个节目信息,将服务ID:serviceid代入到服务ID变量SERVICEID,将事件ID:eventid代入到事件ID变量EVENTID,从该节目信息列删除对象节目信息(S506)。节目信息列中未残留节目信息时(S504中“否”),结束该索引数据的授与处理。
接着,索引授与部492从节目保持部464根据与频道代码phych相关的文件、且从节目开始时刻sttime到节目结束时刻edtime为止的时刻范围内含有的节目授与数据,获取字幕数据列(S508)。并且,索引授与部492将获取的字幕数据列中含有的字幕数据的总数代入到变量CAPNUM(S510)。图13是表示字幕数据的一例的说明图。如图13所示,例如,字幕数据550中至少包括字幕时刻552和文本正文554。在本实施方式中,为简化说明,仅处理节目附加数据中的字幕数据,但也可从字幕以外的节目附加数据中提取时刻和文本的组合。例如,可将节目信息中(节目开始时刻sttime,标题title)作为1个组合,附加到字幕数据列的开头。
并且,索引授与部492判断字幕数据列中是否残留了一个以上的字幕数据(S512),如残留(S512中的“是”),则从字幕数据列的开头取出一个字幕数据,将字幕时刻552代入到时刻变量POSTIME,将文本正文554代入到文本变量TEXT2,从该字幕数据列删除对象字幕数据(S514)。索引授与部492进一步对文本变量TEXT2进行将一个以上的换行、标记、空白置换为一个空白的字句解析(S516),使用词素辞典,分割成词素(S518)。此时,在作为索引授与部492发挥功能的词素引擎中,将空白作为词素间的分隔。以上是将字幕数据列分割为词素列的处理,重复CAPNUM次。并且,当字幕数据列中没有字幕数据残留时(S512中“否”),转换到词素残留判断步骤S520。
接着,索引授与部492判断字幕数据的词素列中词素是否残留一个以上(S520),如残留(S520中的“是”),取出一个开头的词素,代入到词素变量WORD,从该词素列删除对象词素(S522),在索引保持部470的索引表格中追加(word,postime,serviceid,eventid)=(WORD,POSTIME,SERVICEID,EVENTID)的记录(S524)。此外,索引表格如上所述,检索语word、检索时刻postime、对应节目的服务ID:serviceid、对应节目的事件ID:eventid的组合是唯一的,因此在同一节目的同一时刻的字幕数据中,同一词语出现多次时,忽略第2个以后的记录。
并且,在词素列中如未残留词素(S520中的“否”),索引授与部492使用下式3算出字幕率CST(S526)。此时,(节目结束时刻edtime-节目开始时刻sttime)的结果进行秒换算而使用,字幕率CST表示每秒的字幕数据数。
CST=CAPNUM/(edtime-sttime)……(公式3)
在统计上,视为有字幕的节目的字幕率CST是0.1~0.25之间的值,因此判断第2阈值β=0.1,索引授与部492判断字幕率CST是否是第2阈值β以上(S528)。如字幕率CST是第2阈值β以上(S528中的“是”),索引授与部492视字幕数据列为有效,将节目信息保持部466的节目信息表格中的对应记录的字幕标志capflg设定为1(有字幕数据)(S530),从节目信息残留判断步骤S504开始重复。其中,将节目附加数据中与字幕数据相关的出现率(字幕率)与第2阈值β进行比较,同样,索引授与部492可将节目信息的文本正文的数据总数与第3阈值进行比较,判断字幕数据列的有效性。
并且同样,索引授与部492可将在S518中输出的词素列的词素数与第4阈值进行比较,判断字幕数据列的有效性。
另一方面,当字幕率CST小于第2阈值β时(S528中的“否”),索引授与部492判断字幕数据列作为索引数据不充分,使数据获取部482及数据加工部184,获取及加工节目开始时刻sttime到节目结束时刻edtime的时刻范围中含有的投稿数据(S542)。所述加工的投稿数据存储到设置在中央控制部462的RAM中的输出缓冲器。投稿数据获取步骤S532与在第1实施方式中参照图7说明的处理实质相同,因此在此省略其说明。其中,字幕数据列作为索引数据不充分是指,对于新闻、直播等无法预先提示其播放内容的节目,仅是不含有字幕数据、或者即使含有也仅是标题等极为有限的信息,因此可靠性低。并且,这种情况下,较之利用较少的字幕数据,采用投稿数据,以提高可靠性。
接着,索引授与部492判断输出缓冲器中是否残留记录(S534),未残留时(S534中的“否”),将节目信息保持部466的节目信息表格中的对应记录的字幕标志capflg设定为2(有注释)(S536),从节目信息剩余判断步骤S504开始重复。
并且,输出缓冲器中残留记录时(S534中的“是”),索引授与部492取出记录,将投稿时间post代入到时刻变量POSTIME,获取词素列wlist(S538)。
接着,索引授与部492判断记录的词素列中词素是否残留一个以上(S540),未残留时(S540中的“否”),从记录残留判断步骤S534开始重复。
记录的词素列中残留词素时(S540中的“是”),索引授与部492取出一个开头的词素,代入到词素变量WORD,从该词素列删除对象词素(S542),向索引保持部470的索引表格中追加(word,postime,serviceid,eventid)=(WORD,POSTIME,SERVICEID,EVENTID)的记录(S544)。
通过索引授与部492生成的索引数据中,字幕等较多的节目将字幕数据作为检索信息源使用,因此正确率较高,字幕等较少的节目将投稿数据作为检索信息源使用,因此可广泛浅显地检索。
图14是说明节目检索方法的处理流程的流程图。尤其是在图14中,说明节目检索方法中的节目的检索处理。首先,节目提取部494接收到用户输入的用于检索的关键字时(S570中的“是”),将关键字代入到词素变量WORD(S572)。并且,节目提取部494检索索引保持部470的索引表格(S574),进一步使用检索结果的各行中含有的服务ID:serviceid、事件ID:eventid、节目信息保持部466的节目信息表格,获取节目名等(S576),将作为检索结果的检索清单显示在显示装置130中,提示用户(S578)。
图15是表示检索清单的显示例的说明图。用户将用于检索的关键字输入到输入区域600,点击检索开始键602后,节目提取部494根据该关键字检索索引数据,根据检索到的索引数据,如图15所示,使节目信息清单化显示。其中,节目提取部494对节目信息保持部466的节目信息表格中的各记录,使用户易于理解地进行置换加工,适当地收纳于布局中显示。例如在图15的例子中,显示字幕标志(字幕:capflg=1,注释:capflg=2)604、节目开始时刻606、节目结束时刻608、服务ID 610、事件ID 612。
接着,接收用户选择检索清单中的一个节目的选择输入后(S580中的“是”),节目提取部494使用从节目信息保持部466获取的频道代码phych、及从索引保持部470获得的检索时刻postime,检索节目保持部464(S582),AV解码部158将通过检索处理提取的节目显示到显示装置130(S584)。
图16是表示显示装置130中的显示例的说明图。其中可知,起动具有GUI形成的重放、停止、查找等动作模式的典型的显示装置130时,与用于检索的关键字建立了关联的检索时刻620作为重放开始点被选择。
通过这样的节目的检索处理,用户可从数千小时的节目中,阅览与用于检索的关键字建立了关联的任意节目或任意场景。
因此,在所说明的节目检索装置420及节目检索方法中,对不含有字幕数据的节目码流,可从其他路径,例如从电子公告板的投稿数据获取相当于索引数据的信息,作为索引数据与节目建立关联。因此,节目检索装置420及节目检索方法无论有无字幕数据,可将索引数据授与到所有节目,可提高节目的检索精度。
并且,节目检索装置420及节目检索方法将投稿数据作为索引数据使用时,仅将加工为基于播放道德规定的文本数据的投稿数据作为索引数据,从而可排除违反公序良俗的词语、文章、与对应的节目无关的代用字、由ASCII Art形成的无意义的文本数据等、不必要的文本数据,作为索引数据仅将适当的文本数据与节目建立关联。这样,可避免索引数据的数据量变得庞大,或者由不当的索引数据造成的检索精度退化。
进一步,节目检索装置420及节目检索方法中,过滤投稿数据并限制与节目关联的索引数据,从而与节目码流中预先含有的字幕数据在量上获取平衡,检索命中率不会偏移。并且,过滤根据播放道德规定进行,因此加工的投稿数据成为基于播放道德规定的文本数据,在是节目码流中预先含有的字幕数据、及基于播放道德规定方面,该词语、文章的质相同。这样,与由投稿数据形成的索引数据建立了关联的节目、及与由字幕数据形成的索引数据关联的节目,在索引数据的量、质上获取平衡,因此确保了检索的均衡性,用户可适当提取所需的节目及该节目内的规定场景。
并且,如在第1实施方式中所述,将许可单词表格200在过滤装置120内以关闭状态更新,因此可通过调谐部152、通信部154有效地生成许可单词表格200,并且可将篡改的危险性限制到最小,同时可应对用于避免过滤的摆动。
并且,许可单词表格200深刻反映位于用户居住的地区的播放站112、用户专门收视收听的播放站112中的节目附加数据的生成特性。因此许可单词表格200和地区性、用户爱好对应,结果是,过滤的投稿数据也易于残留和地区性、用户喜好对应的词语。
以上参照附图说明了本发明的优选实施方式,当然本发明不限于这样的实施方式。本领域技术人员在权利要求范围记载的范围内可容易地想到各种变更例或修正例,它们当然也属于本发明的技术范围内。
例如,在上述实施方式中,列举了根据播放道德规定使用可靠性强的节目附加数据的例子,但不限于这样的节目附加数据,在目标领域内,只要可自动获取可靠性强的词语或文章,则可将本实施方式适用于各领域。
此外,本说明书的过滤方法、节目检索方法的各步骤无需根据作为流程图记载的顺序按时间序列进行处理,也可包括并列的或子程序下的处理。

Claims (6)

1.一种节目检索装置,其特征在于,具有:
表格保持部,保持使多个词素和其出现次数建立对应的许可单词表格;
节目码流获取部,获取根据播放道德规定生成的节目码流;
表格更新部,在获取的上述节目码流中含有字幕数据或作为与节目内容相关的第1文本数据的节目信息时,从上述节目码流中提取上述字幕数据或上述节目信息,分割为词素,如果分割的上述词素在上述许可单词表格中不存在,则将该词素登录在上述许可单词表格中,如果分割的上述词素在上述许可单词表格中存在,则更新和上述词素对应的出现次数;
节目保持部,保持获取的节目码流中含有的节目;
数据获取部,获取与所保持的上述节目相关的第2文本数据,并且与获取时间信息建立关联;
数据加工部,将上述第2文本数据分割为词素,如果分割的上述词素未登录在上述许可单词表格中,或者分割的上述词素虽然登录在上述许可单词表格中但与该词素对应的出现次数小于预先设定的第1阈值,则将上述词素置换为预先设定的标记,作为第3文本数据再结合;
索引授与部,将下述组合作为索引数据授与保持的上述节目:再结合的上述第3文本数据;与和该第3文本数据对应的上述第2文本数据建立关联的上述获取时间信息;
节目提取部,根据为进行检索而输入的关键字和上述索引数据,提取上述节目保持部中保持的节目或节目内的规定场景。
2.一种节目检索装置,其特征在于,具有:
表格保持部,保持使多个词素和其出现次数建立对应的许可单词表格;
节目信息获取部,获取根据播放道德规定生成的、作为和节目内容相关的第1文本数据的节目信息;
表格更新部,将上述节目信息分割为词素,如果分割的上述词素在上述许可单词表格中不存在,则将该词素登录在上述许可单词表格中,如果分割的上述词素在上述许可单词表格中存在,则更新和上述词素对应的出现次数;
节目保持部,保持获取的节目码流中含有的节目;
数据获取部,获取与所保持的上述节目相关的第2文本数据,并且与获取时间信息建立关联;
数据加工部,将上述第2文本数据分割为词素,如果分割的上述词素未登录在上述许可单词表格中,或者分割的上述词素虽然登录在上述许可单词表格中但与该词素对应的出现次数小于预先设定的第1阈值,则将上述词素置换为预先设定的标记,作为第3文本数据再结合;
索引授与部,将下述组合作为索引数据授与保持的上述节目:再结合的上述第3文本数据;与和该第3文本数据对应的上述第2文本数据建立关联的上述获取时间信息;
节目提取部,根据为进行检索而输入的关键字和上述索引数据,提取上述节目保持部中保持的节目或节目内的规定场景。
3.根据权利要求1或2所述的节目检索装置,其特征在于,对于上述索引授与部,保持的上述节目中如果附加了字幕数据,则将该字幕数据作为索引数据授与上述节目,上述节目中如果未附加字幕数据,或者视为未附加字幕数据,则上述索引授与部将再结合的上述第3文本数据作为索引数据授与上述节目。
4.根据权利要求3所述的节目检索装置,其特征在于,上述索引授与部在作为每1秒的字幕数据数的字幕率小于预先设定的第2阈值时,视为上述节目中未附加字幕数据。
5.一种节目检索方法,其特征在于:
获取根据播放道德规定生成的节目码流,
在获取的上述节目码流中含有字幕数据或作为与节目内容相关的第1文本数据的节目信息时,从上述节目码流中提取上述字幕数据或上述节目信息,分割为词素,如果分割的上述词素在使多个词素和其出现次数建立对应的许可单词表格中不存在,则将该词素登录在上述许可单词表格中,如果分割的上述词素在上述许可单词表格中存在,则更新和上述词素对应的出现次数,
将获取的节目码流中含有的节目保持在节目保持部中,
获取与所保持的上述节目相关的第2文本数据,并且与获取时间信息建立关联,
将上述第2文本数据分割为词素,如果分割的上述词素未登录在上述许可单词表格中,或者分割的上述词素虽然登录在上述许可单词表格中但与该词素对应的出现次数小于预先设定的第1阈值,则将上述词素置换为预先设定的标记,作为第3文本数据再结合,
将下述组合作为索引数据授与保持的上述节目:再结合的上述第3文本数据;与和该第3文本数据对应的上述第2文本数据建立关联的上述获取时间信息,
根据为进行检索而输入的关键字和上述索引数据,提取上述节目保持部中保持的节目或节目内的规定场景。
6.一种节目检索方法,其特征在于:
获取根据播放道德规定生成的、作为和节目内容相关的第1文本数据的节目信息,
将上述节目信息分割为词素,如果分割的上述词素在使多个词素和其出现次数建立对应的许可单词表格中不存在,则将该词素登录在上述许可单词表格中,如果分割的上述词素在上述许可单词表格中存在,则更新和上述词素对应的出现次数,
将获取的节目码流中含有的节目保持在节目保持部,
获取与所保持的上述节目相关的第2文本数据,并且与获取时间信息建立关联,
将上述第2文本数据分割为词素,如果分割的上述词素未登录在上述许可单词表格中,或者分割的上述词素虽然登录在上述许可单词表格中但与该词素对应的出现次数小于预先设定的第1阈值,则将上述词素置换为预先设定的标记,作为第3文本数据再结合,
将下述组合作为索引数据授与保持的上述节目:再结合的上述第3文本数据;与和该第3文本数据对应的上述第2文本数据建立关联的上述获取时间信息,
根据为进行检索而输入的关键字和上述索引数据,提取上述节目保持部中保持的节目或节目内的规定场景。
CN201180007305XA 2010-10-14 2011-09-15 节目检索装置及节目检索方法 Pending CN102845075A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010232008A JP5392228B2 (ja) 2010-10-14 2010-10-14 番組検索装置および番組検索方法
JP2010-232008 2010-10-14
PCT/JP2011/071091 WO2012049945A1 (ja) 2010-10-14 2011-09-15 番組検索装置および番組検索方法

Publications (1)

Publication Number Publication Date
CN102845075A true CN102845075A (zh) 2012-12-26

Family

ID=45938178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180007305XA Pending CN102845075A (zh) 2010-10-14 2011-09-15 节目检索装置及节目检索方法

Country Status (6)

Country Link
US (1) US20120323564A1 (zh)
EP (1) EP2568397A1 (zh)
JP (1) JP5392228B2 (zh)
KR (1) KR20120127664A (zh)
CN (1) CN102845075A (zh)
WO (1) WO2012049945A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5952241B2 (ja) * 2013-09-03 2016-07-13 日本電信電話株式会社 情報付与装置、情報付与方法および情報付与プログラム
JP2015052897A (ja) * 2013-09-06 2015-03-19 株式会社東芝 電子機器、電子機器の制御方法及びコンピュータプログラム
KR101509727B1 (ko) * 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN105808560B (zh) * 2014-12-29 2020-07-31 腾讯科技(深圳)有限公司 一种同机多业务的检索方法及***
US9792956B2 (en) * 2015-02-20 2017-10-17 Tribune Broadcasting Company, Llc Use of program-schedule text and closed-captioning text to facilitate selection of a portion of a media-program recording
US9489986B2 (en) * 2015-02-20 2016-11-08 Tribune Broadcasting Company, Llc Use of program-schedule text and teleprompter output to facilitate selection of a portion of a media-program recording
US11132497B2 (en) * 2018-10-14 2021-09-28 Bonggeun Kim Device and method for inputting characters
CN109525301A (zh) * 2018-10-25 2019-03-26 深圳市海勤科技有限公司 卫星信号接收方法及***、服务器终端、用户终端
JP2020154395A (ja) * 2019-03-18 2020-09-24 富士ゼロックス株式会社 情報処理装置及びプログラム
CN110413735B (zh) * 2019-07-25 2022-04-29 深圳供电局有限公司 一种问答检索方法及其***、计算机设备、可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200591A (ja) * 1993-12-28 1995-08-04 Fujitsu Ltd 構文解析装置
JPH11261908A (ja) * 1998-03-06 1999-09-24 Toshiba Corp 番組及び又は情報の選択支援装置
US20030221198A1 (en) * 2002-05-21 2003-11-27 Sloo David Hendler Interest messaging entertainment system
WO2006019101A1 (ja) * 2004-08-19 2006-02-23 Nec Corporation コンテンツ関連情報取得装置、およびプログラム
JP2006190019A (ja) * 2005-01-05 2006-07-20 Hitachi Ltd コンテンツ視聴システム
US7139031B1 (en) * 1997-10-21 2006-11-21 Principle Solutions, Inc. Automated language filter for TV receiver
JP2008204425A (ja) * 2007-01-26 2008-09-04 Yahoo Japan Corp Urlの類似性分析による処理省略判定プログラム、装置
CN101616292A (zh) * 2008-06-25 2009-12-30 索尼株式会社 信息处理设备、信息处理方法、程序和信息处理***
JP2010067005A (ja) * 2008-09-10 2010-03-25 Yahoo Japan Corp 検索装置、および検索装置の制御方法
CN101751386A (zh) * 2009-12-28 2010-06-23 华建机器翻译有限公司 一种未登录词的识别方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940624A (en) * 1991-02-01 1999-08-17 Wang Laboratories, Inc. Text management system
US5434678A (en) * 1993-01-11 1995-07-18 Abecassis; Max Seamless transmission of non-sequential video segments
JP3538955B2 (ja) 1995-04-26 2004-06-14 松下電器産業株式会社 情報収集支援装置
JP3601653B2 (ja) * 1998-03-18 2004-12-15 富士通株式会社 情報検索装置および方法
JP3781561B2 (ja) * 1998-08-13 2006-05-31 日本電気株式会社 自然言語解析装置、システム及び記録媒体
US7286984B1 (en) * 1999-11-05 2007-10-23 At&T Corp. Method and system for automatically detecting morphemes in a task classification system using lattices
US8051446B1 (en) * 1999-12-06 2011-11-01 Sharp Laboratories Of America, Inc. Method of creating a semantic video summary using information from secondary sources
US7269548B2 (en) * 2002-07-03 2007-09-11 Research In Motion Ltd System and method of creating and using compact linguistic data
US8050970B2 (en) * 2002-07-25 2011-11-01 Google Inc. Method and system for providing filtered and/or masked advertisements over the internet
WO2005050474A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
US20060074660A1 (en) * 2004-09-29 2006-04-06 France Telecom Method and apparatus for enhancing speech recognition accuracy by using geographic data to filter a set of words
US7680648B2 (en) * 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US7549119B2 (en) * 2004-11-18 2009-06-16 Neopets, Inc. Method and system for filtering website content
US8185921B2 (en) * 2006-02-28 2012-05-22 Sony Corporation Parental control of displayed content using closed captioning
WO2008062910A1 (fr) * 2006-11-22 2008-05-29 Haruo Hayashi Dispositif et procédé d'analyse de documents
US8280871B2 (en) * 2006-12-29 2012-10-02 Yahoo! Inc. Identifying offensive content using user click data
US8712757B2 (en) * 2007-01-10 2014-04-29 Nuance Communications, Inc. Methods and apparatus for monitoring communication through identification of priority-ranked keywords
WO2010079954A2 (en) * 2009-01-06 2010-07-15 Lg Electronics Inc. An iptv receiver and an method of managing video functionality and video quality on a screen in the iptv receiver
US20110225250A1 (en) * 2010-03-11 2011-09-15 Gregory Brian Cypes Systems and methods for filtering electronic communications

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07200591A (ja) * 1993-12-28 1995-08-04 Fujitsu Ltd 構文解析装置
US5687384A (en) * 1993-12-28 1997-11-11 Fujitsu Limited Parsing system
US7139031B1 (en) * 1997-10-21 2006-11-21 Principle Solutions, Inc. Automated language filter for TV receiver
JPH11261908A (ja) * 1998-03-06 1999-09-24 Toshiba Corp 番組及び又は情報の選択支援装置
US20030221198A1 (en) * 2002-05-21 2003-11-27 Sloo David Hendler Interest messaging entertainment system
WO2006019101A1 (ja) * 2004-08-19 2006-02-23 Nec Corporation コンテンツ関連情報取得装置、およびプログラム
JP2006190019A (ja) * 2005-01-05 2006-07-20 Hitachi Ltd コンテンツ視聴システム
JP2008204425A (ja) * 2007-01-26 2008-09-04 Yahoo Japan Corp Urlの類似性分析による処理省略判定プログラム、装置
CN101616292A (zh) * 2008-06-25 2009-12-30 索尼株式会社 信息处理设备、信息处理方法、程序和信息处理***
JP2010067005A (ja) * 2008-09-10 2010-03-25 Yahoo Japan Corp 検索装置、および検索装置の制御方法
CN101751386A (zh) * 2009-12-28 2010-06-23 华建机器翻译有限公司 一种未登录词的识别方法

Also Published As

Publication number Publication date
KR20120127664A (ko) 2012-11-22
WO2012049945A1 (ja) 2012-04-19
JP5392228B2 (ja) 2014-01-22
US20120323564A1 (en) 2012-12-20
EP2568397A1 (en) 2013-03-13
JP2012084094A (ja) 2012-04-26

Similar Documents

Publication Publication Date Title
CN102845075A (zh) 节目检索装置及节目检索方法
CN100372372C (zh) 电子节目指南数据的自由文本和属性搜索
US10225625B2 (en) Caption extraction and analysis
US8374845B2 (en) Retrieving apparatus, retrieving method, and computer program product
CN100485686C (zh) 视频观看支持***及方法
JP4129048B2 (ja) 固有表現抽出装置、方法、及びプログラム
CN101202864A (zh) 动画再现装置
US8478759B2 (en) Information presentation apparatus and mobile terminal
US20090132074A1 (en) Automatic segment extraction system for extracting segment in music piece, automatic segment extraction method, and automatic segment extraction program
US9245017B2 (en) Metatagging of captions
KR101916874B1 (ko) 자동으로 동영상 하이라이트 영상의 제목을 생성하는 방법, 장치 및 컴퓨터 판독가능 기록 매체
CN102687148A (zh) 过滤装置及过滤方法
US20090083227A1 (en) Retrieving apparatus, retrieving method, and computer program product
JP2011085994A (ja) 広告配信装置、広告配信方法および広告配信プログラム
McGrady et al. Dialing for Videos: A Random Sample of YouTube
US20080285081A1 (en) Data Processing Apparatus and Method, Program, and Storage Medium
EP1463059A2 (en) Recording and reproduction apparatus
JP4575786B2 (ja) コンテンツ視聴システム、コンテンツ情報の処理方法、およびプログラム
JP5320470B2 (ja) タイトル判別装置
JP2019061428A (ja) 映像管理方法、映像管理装置、及び映像管理システム
JP2018081390A (ja) 録画装置
CN103793449B (zh) 信息处理装置和信息处理方法
KR101220080B1 (ko) 실시간 인기 키워드에 대한 대표 문구 제공 방법 및 시스템
JP2008236373A (ja) メタ情報付加装置及びメタ情報付加プログラム
JP6858003B2 (ja) 分類検索システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121226