CN109791563B - 信息收集***、信息收集方法和记录介质 - Google Patents

信息收集***、信息收集方法和记录介质 Download PDF

Info

Publication number
CN109791563B
CN109791563B CN201780058905.6A CN201780058905A CN109791563B CN 109791563 B CN109791563 B CN 109791563B CN 201780058905 A CN201780058905 A CN 201780058905A CN 109791563 B CN109791563 B CN 109791563B
Authority
CN
China
Prior art keywords
data
character string
target character
rule
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780058905.6A
Other languages
English (en)
Other versions
CN109791563A (zh
Inventor
伊藤达哉
芦野佑树
山根匡人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN109791563A publication Critical patent/CN109791563A/zh
Application granted granted Critical
Publication of CN109791563B publication Critical patent/CN109791563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的是从大量各种类型的内容高效地收集感兴趣的信息。信息收集***100包括学习单元110和提取单元130。学习单元110使用学习数据来生成解析器规则,作为包括特定信息的字符串的要被分析的字符串通过该解析器规则来从数据被提取。提取单元130使用解析器规则来从数据提取要被分析的字符串。

Description

信息收集***、信息收集方法和记录介质
技术领域
本发明涉及信息收集***、信息收集方法和记录介质。
背景技术
从被提供在因特网上的各种服务中的Web内容(包括社交网络服务(SNS)、博客、主页等)收集必要信息,并且针对收集的信息以各种方式执行分析和控制。由于Web内容很大,因此需要基于程序通过爬行等进行信息收集,并且需要针对收集的信息进行分析和控制的自动化。
Web内容通常由超文本标记语言(HTML)描述,并且关于内容(例如,SNS中的用户消息的部分)而被描述要收集的必要信息的位置根据服务而彼此不同。此外,在很多情况中,服务提供商并未公开这些位置作为明确的规范。因此,为了从Web内容收集信息,开发者必须开发用于分析针对每个服务的内容并且提取必要信息的解析器程序。此外,在这种情况中,每次改变内容的规范时都需要改变解析器程序,并且还增加了编程成本。如上所述,在从Web内容的信息收集中,存在不能从各种格式的如此大量的内容高效地收集目标信息的问题。
作为与来自Web内容的信息收集相关的相关技术,例如,PTL 1公开了一种根据分类规则对微博消息分类的技术。PTL 2公开了一种从由用户创建的文档学习用户的兴趣和偏好并且使用学习的兴趣和偏好来推荐其他用户和博客并且传输广告的技术。PTL 3公开了一种技术,该技术根据提取条件从新闻文章等中提取文章并且根据对文章的评论量来更新提取条件。
引文列表
专利文献
[PTL 1]PCT国际专利申请公开No.2012-529717的日文翻译
[PTL 2]日本专利申请公开No.2009-098964
[PTL 3]日本专利申请公开No.2014-049094
发明内容
技术问题
然而,在任何上述文献中,一种用于从各种格式的大量数据高效地收集目标信息的技术。
本发明的一个示例目的是提供一种信息收集***、信息收集方法和记录介质,它们能够解决上述问题并且高效地从各种格式的数据收集目标信息。
解决问题的方法
根据本发明的示例性方面的一种信息收集***包括:用于通过使用学习数据来生成用于从数据提取目标字符串的解析器规则的学习装置,目标字符串是包括特定信息的字符串;以及用于通过使用解析器规则来从数据提取目标字符串的提取装置。
根据本发明示例性方面的一种信息收集方法包括:通过使用学习数据来生成用于从数据提取目标字符串的解析器规则,目标字符串是包括特定信息的字符串;以及通过使用解析器规则来从数据提取目标字符串。
根据本发明示例性方面的一种计算机可读记录介质在其上记录有使得计算机执行方法的程序,该方法包括:通过使用学习数据来生成用于从数据提取目标字符串的解析器规则,目标字符串是包括特定信息的字符串;以及通过使用解析器规则来从数据提取目标字符串。
本发明的有益效果
本发明的有益效果是能够从各种格式的大量内容高效地收集目标信息。
附图说明
图1是示出根据第一示例实施例的特征配置的框图。
图2是示出根据第一示例实施例的配置的框图。
图3是示出第一示例实施例中的由计算机实现的信息收集***100的配置的框图。
图4是示出第一示例实施例中的学习处理的流程图。
图5是示出第一示例实施例中的学习处理的具体示例的示图。
图6是示出第一示例实施例中的解析器规则存储单元120中存储的解析器规则的示例的示图。
图7是示出第一示例实施例中的提取处理的流程图。
图8是示出第一示例实施例中的提取处理的具体示例的示图。
图9是示出第一示例实施例中的字符串存储单元140中存储的表的示例的示图。
图10是示出第一示例实施例中的处理规则输入屏幕的示例的示图。
图11是示出第一示例实施例中的分析和控制处理的流程图。
图12是示出第一示例实施例中的分析和控制处理的具体示例的示图。
图13是示出第一示例实施例中的分析结果屏幕的示例的示图。
图14是示出第一示例实施例中的警报邮件的示例的示图。
图15是示出根据第一示例实施例的另一配置的框图。
图16是示出根据第一示例实施例的又一配置的框图。
图17是示出第二示例实施例中的处理规则的示例的示图。
图18是示出第二示例实施例中的字符串存储单元140中存储的表的示例的示图。
图19是示出第二示例实施例中的分析和控制处理的具体示例的示图。
图20是示出第二示例实施例中的学习处理的具体示例的示图。
具体实施方式
将参考附图详细描述本发明的示例实施例。注意,在说明书中描述的附图和示例实施例中,相同的附图标记被分配给类似的组件,并且适当地省略其描述。
第一示例实施例
首先,将描述根据第一示例实施例的配置。图2是示出根据第一示例实施例的配置的框图。信息收集***100通过诸如因特网等网络400连接到服务器设备200和终端设备300。例如,服务器设备200是在诸如SNS等服务中提供内容数据(下文中也被简称为数据)的服务器。例如,数据通过使用诸如HTML等预定数据描述语言来描述。
信息收集***100从服务器设备200获取的数据提取“目标字符串”,目标字符串是要进行各种分析和控制处理的字符串。例如,目标字符串是包括诸如用户在SNS中发出的消息、用户的用户名、以及消息的传输日期和时间等“特定信息”的字符串。本文中,根据提供服务的运营商,在数据中定义消息的存储方法、用户名、传输日期和时间等的数据格式是不同的。信息收集***100通过使用与每个服务对应的解析器规则来提取目标字符串。信息收集***100基于提取的目标字符串来执行分析和控制处理。
参见图2,第一示例实施例中的信息采集***100包括:学习单元110、解析器规则存储单元120、提取单元130、字符串存储单元140、处理单元150、处理规则输入单元160和处理规则存储单元170。
学习单元110从服务器设备200获取要学习的数据(下文中也被称为学习数据),并且通过使用学习数据来生成解析器规则。解析器规则是用于从数据提取上述目标字符串的规则。例如,学习单元110针对每个服务通过使用一个或多个学习数据来生成解析器规则。例如,服务由统一资源定位符(URL)中包括的域名来标识。
例如,解析器规则由数据描述语言的描述模式指明。学习单元110生成数据描述语言的描述模式作为解析器规则,描述模式是能够在学习数据中指定包括与学习数据一起被指明的关键字的字符串的描述模式。例如,在通过HTML描述数据的情况中,学习单元110生成能够指定目标字符串(围绕目标字符串)的标签的模式作为解析器规则。
解析器规则存储单元120将由学习单元110生成的解析器规则与服务相关联地存储。
提取单元130从服务器设备200获取要提取目标字符串的数据(下文中也被称为已处理数据,或被简称为数据),并且通过使用与和数据相关的服务相关联的解析器规则来从数据提取目标字符串。
字符串存储单元140存储由提取单元130提取的目标字符串。目标字符串以诸如键值存储(KVS)等表格格式存储。
处理单元150根据由管理员等指明的处理规则、基于提取的目标字符串来执行分析和控制处理。处理规则定义分析和控制方法。
处理规则输入单元160从管理员等接收处理规则的输入。
处理规则存储单元170存储从管理员等输入的一个或多个处理规则。
信息收集***100可以是包括中央处理单元(CPU)和存储程序的存储介质并且基于程序通过控件操作的计算机。
图3是示出第一示例实施例中的由计算机实现的信息收集***100的配置的框图。
在这种情况中,信息收集***100包括:CPU 101;存储设备102(存储介质),诸如硬盘和存储器;输入/输出设备103,包括键盘、显示器等;以及与其他设备等通信的通信设备104。CPU 101执行用于实现学习单元110、提取单元130、处理单元150和处理规则输入单元160的程序。存储设备102将信息存储在解析器规则存储单元120、字符串存储单元140和处理规则存储单元170中。输入/输出设备103从管理员等接收学习数据、已处理数据和处理规则的指明。此外,通信设备104可以从其他设备接收学习数据、已处理数据和处理规则的指明。
此外,信息收集***100的各个组件的一部分或全部可以由通用或专用电路、处理器及其组合而被实现。这些电路和处理器可以由单个芯片组成,或者可以由经由总线彼此连接的多个芯片组成。此外,信息收集***100的各个组件的一部分或全部可以通过上述电路等和程序的组合而被实现。
在信息收集***100的各个组件的一部分或全部由多个信息处理设备、电路等实现的情况中,多个信息处理设备、电路等可以集中地布置,或者可以是分布式的。例如,信息处理设备、电路等可以实现为其中各个组件经由通信网络彼此连接的***,诸如客户端和服务器***、云计算***等。
接下来,将描述第一示例实施例的操作。
本文中,作为示例,将描述在学习处理中生成用于从SNS的数据提取目标字符串的解析器规则,然后在分析和控制处理中分析目标字符串中包括的预定关键字并且发出关于分析结果的通知的情况。
学习处理
图4是示出第一示例实施例中的学习处理的流程图。图5是示出第一示例实施例中的学习处理的具体示例的示图。
首先,学习单元110从管理员等接收对学习数据的指明(步骤S101)。
例如,学习单元110通过URL“URL 1”、“URL 2”和“URL 3”接收针对服务“SNS 1”的对三个学习数据的指明,如图5中所示。此外,与各个学习数据一起,关键字“关键字1”、“关键字2”和“关键字3”被指明。针对每个关键字,对应的学习数据中的用户的消息(下文中也被称为用户消息)的字符串被指定。此外,与这些学习数据一起,在稍后描述的提取处理中使用的表名“SNS 1”和数据标签“Post”被指定。表名是用于存储从已处理数据提取的目标字符串的表的名称。数据标签是用于将用户消息存储在表中的列的名称。
学习单元110从服务器设备200获取指明的学习数据(步骤S102)。
例如,学习单元110从服务器设备200获取由URL“URL 1”、“URL 2”和“URL 3”指明的学习数据,如图5中所示。
学习单元110通过使用所获取的学习数据来生成解析器规则(步骤S103)。
例如,在各个学习数据中,学习单元110标识用于提取包括指明的关键字的字符串的标签模式“<a><bClass=”post“id=xx><cname=”userx“>Keywordx</c></b></a>”。然后,学习单元110在为各个学习数据标识的标签模式中比较标签和标签的属性,并且提取具有共同标签和公共标签中的公共值的属性,从而生成解析器规则“<a><b Class=“post”><c>Value</c></b></a>”,如图5中所示。这里,Value指示要提取的目标字符串。
此外,学习单元110将表名“SNS 1”、数据标签“Post”、URL“http://hoge.com”和生成的解析器规则“<a><b Class=”post><c>Value</c></b></a>”彼此相关联,如图5中所示。这里,例如,URL“http://hoge.com”是与服务“SNS 1”对应的URL,并且是上述URL“URL1”、“URL 2”和“URL 3”中通常包括的域名。
此外,除了用户消息之外,学习单元110也以相同的方式对用户名(数据标签“User”)以及消息的传输日期和时间(数据标签“Date”)执行学习处理。注意,在图5中的学习数据中,用户名由标签“c”的属性“name”指明。在图5中的学习数据中,省略了传输日期和时间。
学习单元110将生成的解析器规则保存在解析器规则存储单元120中(步骤S104)。
图6是示出第一示例实施例中的解析器规则存储单元120中存储的解析器规则的示例的示图。
例如,学习单元110将生成的用于用户消息的解析器规则(数据标签“Post”)、用户名(数据标签“User”)以及服务传“SNS 1”的输日期和时间(数据标签“Date”)保存在解析器规则存储单元120中,如图6中所示。
此外,学习单元110也以相同的方式对其他服务“SNS 2”和“SNS3”执行学习处理。作为结果,用于用户消息、用户名以及相应服务的传输日期和时间的解析器规则被存储在解析器规则存储单元120中,如图6中所示。
注意,学习单元110还可以生成脚本、程序模块或其源代码,以用于根据解析器规则来从数据提取目标字符串,并且可以将生成的脚本、程序模块或源代码保存在解析器规则存储单元120中。
提取处理
图7是示出第一示例实施例中的提取处理的流程图。图8是示出第一示例实施例中的提取处理的具体示例的示图。在通过学习处理生成解析器规则之后,执行提取处理。
首先,提取单元130从管理员等接收对数据的指明(步骤S201)。
例如,提取单元130通过URL“http://hoge.com/index.html”接收针对服务“SNS1”的对数据的指明,如图8中所示。
提取单元130从服务器设备200获取指明的数据(步骤S202)。
例如,提取单元130从服务器设备200获取由URL“http://hoge.com/index.html”指明的数据,如图8中所示。
提取单元130从解析器规则存储单元120获取与数据的服务相关联的解析器规则(步骤S203)。
例如,从图6中的解析器规则中,提取单元130获取与从指明数据的URL的域名获取的URL“http://hoge.com”和数据标签“Post”相关联的解析器规则“<a><b Class=”post“><c>Value</c></b></a>”,如图8中所示。
提取单元130通过使用所获取的解析器规则来从数据提取目标字符串(步骤S204)。
例如,提取单元130从数据提取与由解析器规则的标签模式“<a><b Class=”post“><c>Value</c></b></a>指定的用户消息对应的字符串作为目标字符串,如图8中所示。注意,提取单元130还可以利用每个目标字符串来提取用于标识一组相关的目标字符的预定标签的属性的值,作为对象ID。在图8中的示例中,假定一组用户消息、用户名以及传输日期和时间可以由标签“b”的属性“id”标识。在这种情况中,提取单元130利用用户消息提取标签“b”的属性“id”的值作为对象ID,如图8中所示。
此外,除了用户消息之外,提取单元130也以相同的方式对用户名(数据标签“User”)以及消息的传输日期和时间(数据标签“Date”)提取目标字符串。
提取单元130将提取的目标字符串保存在字符串存储单元140中(步骤S205)。
图9是示出第一示例实施例中的字符串存储单元140中存储的表的示例的示图。
例如,提取单元130在表“SNS 1”中设置作为目标字符串提取的用户消息(数据标签“Post”)、用户名(数据标签“User”)以及传输日期和时间(数据标签“Date”),并且将表保存在字符串存储单元140中,如图9中所示。本文中,在表中的每一列中,提取单元130设置具有相同对象ID的用户消息、用户名以及传输日期和时间。
此外,提取单元130也以相同的方式对其他服务“SNS 2”和“SNS3”执行提取处理。作为结果,表“SNS 1”、“SNS 2”和“SNS 3”被存储在字符串存储单元140中,如图9中所示。
分析和控制处理
图10是示出第一示例实施例中的处理规则输入屏幕的示例的示图。在图10中的输入屏幕上,显示用于配置处理规则和处理规则的编辑区域的组件。例如,管理员等从所显示的组件中选择组件并且将所选择的组件布置在编辑区域中,并且设置参数,从而编辑处理规则。在图10中的示例中,输入处理规则“Rule 1”。作为处理规则“Rule1”,描述在表“SNS1”、“SNS 2”和“SNS 3”中包括关键字“地震”或“摇动”的目标字符串的数目等于或大于阈值“20”的情况中的处理,其向对目标字符串给出了类型“灾难”并且传输警报邮件。
本文中,假定处理规则输入单元160通过输入/输出设备103从管理员等预先接收如图10中的处理规则“Rule 1”的输入,并且将所接收的处理规则“Rule 1”保存在处理规则存储单元170中。
注意,处理规则输入单元160还可以生成脚本、程序模块或其源代码以用于根据处理规则执行分析和控制处理,并且可以将生成的脚本、程序模块或源代码保存在处理规则存储单元170。
图11是示出第一示例实施例中的分析和控制处理的流程图。图12是示出第一示例实施例中的分析和控制处理的具体示例的示图。在通过提取处理提取目标字符串之后,执行分析和控制处理。
首先,处理单元150从管理员等接收针对要经受分析和控制处理的目标字符串的对条件的指明和对要被使用的处理规则的指明(步骤S301)。
图13是示出第一示例实施例中的分析结果屏幕的示例的示图。
例如,处理单元150通过输入/输出设备103向管理员等输出诸如如图13中所示的分析结果屏幕,并且接收针对目标字符串的对条件的指明(传输日期和时间“date>=2015/12/15”)和对处理规则“规则1(Rule 1)”的指明。
处理单元150从字符串存储单元140获取满足指明的条件的目标字符串(步骤S302)。
例如,处理单元150从图9中的表“SNS 1”、“SNS 2”和“SNS3”获取满足所获取的日期和时间“date>=2015/12/15”的条件的目标字符串。
处理单元150从处理规则存储单元170获取指明的处理规则(步骤S303)。
例如,处理单元150获取如图10中的处理规则“Rule 1”。
处理单元150根据所获取的处理规则、基于所获取的目标字符串来执行分析和控制处理(步骤S304)。
例如,处理单元150根据图10中的处理规则“Rule 1”对各个表中的目标字符串中包括关键字“地震”或“摇动”的目标字符串的数目计数,如在图12中。在作为计数的结果,数目等于或大于“20”的情况中,处理单元150将“灾难”作为类型(数据标签“Type”)给予包括关键字“地震”或“摇动”的目标字符串,如图12中所示。
处理单元150将被给定类型“灾难”的目标字符串设置为分析结果屏幕的分析结果,并且向管理员等输出分析结果屏幕,如图13中所示。针对被给出类型“灾难”的目标字符串,处理单元150可以更新被存储在字符串存储单元140中的表。
图14是示出第一示例实施例中的警报邮件的示例的示图。
此外,处理单元150通过网络400向预先登记为通知接收者的终端设备300传输如图14中指示已经发生灾难(地震)的警报邮件。本文中,处理单元150例如根据处理规则设置邮件的内容。在这种情况中,处理单元150可以从由处理规则指明的其他设备获取和设置邮件的内容。
如上所述,即使在针对每个服务由各种格式的数据提供SNS的数据中的用户消息等的情况中,也可以高效地收集和分析消息。
因此,完成了第一示例实施例的操作。
注意,尽管已经通过采用由HTML描述数据的情况作为示例描述了上述示例实施例,但是可以通过其他数据描述语言描述数据,只要可以通过数据描述语言分析描述来提取特定信息作为目标字符串。例如,数据可以由诸如可扩展标记语言(XML)等其他标记语言来描述,或者可以由除了包括JAVA(注册商标)脚本对象表示法(JSON)等在内的标记语言之外的语言来描述。
此外,在上述示例实施例中,提取单元130获取从管理员等被指明的URL指示的数据作为已处理数据。然而,不限于此,提取单元130可以通过爬行网络400来获取数据。在这种情况中,提取单元130可以通过从URL指示的数据作为某个起点经过预定数目的链接来获取数据,并且可以使用所获取的数据。此外,提取单元130可以获取由搜索引擎的搜索结果获取的预定数目的URL提供的数据,并且可以使用所获取的数据。
此外,提取单元130可以通过使用诸如代理服务器等网络设备来获取通过网络400发射和接收的数据作为已处理数据。
此外,在上述示例性实施例中,由处理单元150基于由提取单元130提取的多个目标字符串来执行分析和控制处理。然而,不限于此,每次当提取单元130获取已处理数据并且提取目标字符串,处理单元150可以基于提取的目标字符串来执行分析和控制处理。
此外,在上述示例实施例中,在学习处理中,生成用于从SNS的数据提取用户消息、用户名、传输日期和时间等作为目标字符串的解析器规则。此外,在分析和控制处理中,计算目标字符串中包括的关键字的预定数目,并且发出关于计算结果的通知。
然而,不限于此,通过解析器规则提取为目标字符串的信息可以是任何信息,只要通过分析由数据描述语言进行的描述来获取信息。此外,分析和控制处理可以是任何处理,只要分析和控制处理是基于提取的目标字符串而被执行的处理。
例如,根据用于提供具有高伪造可能性和漏洞的网际协议(IP)地址或域名列表(即,黑名单)的数据,可以提取黑名单作为目标字符串。此外,根据用于提供恶意软件的文件名和URL(即,恶意软件列表)的数据,可以提取恶意软件列表作为目标字符串。在这种情况中,在分析和控制处理中,可以设置用于切断与黑名单或恶意软件列表相关的通信的策略。
图15是示出根据第一示例实施例的另一配置的框图。图15中的信息收集***100包括与图2中的信息收集***100相同的组件。
在图15中,服务器设备200是提供上述黑名单或恶意软件列表的服务器。信息收集***100连接到入侵防御***(IPS)设备500。IPS设备500根据策略来控制网络400与连接到本地网络600的终端设备601之间的通信。
例如,图15中的学习单元110通过使用从服务器设备200获取的学习数据和被包括在学习数据中并且被指明为关键字的黑名单或恶意软件列表来生成解析器规则。
提取单元130通过使用解析器规则来从服务器设备200获取的数据提取目标字符串(黑名单或恶意软件列表)。
处理单元150根据处理规则从目标字符串提取黑名单中包括的IP地址或域名或者恶意软件列表中包括的文件名或URL。然后,处理单元150向IPS设备500设置用于切断与提取的IP地址或域名的通信或者包括提取的文件名或URL的消息的通信的策略。
这样,即使在针对每种服务由各种格式的数据提供黑名单或恶意软件列表的情况中,也可以根据服务来高效地收集黑名单或恶意软件列表,并且可以在通信策略上反映收集的黑名单或恶意软件列表。
此外,例如,可以提取对博客页面的用户评论作为目标字符串。在这种情况中,在分析和控制处理中,可以检测用户评论中包括的不适当的表达,并且可以阻止用户评论的写入,或者可以获取用户评论的日志。
图16是示出根据第一示例实施例的又一配置的框图。图16中的信息收集***100还包括与图2中的信息收集***100相同的组件。
在图16中,服务器设备200是用于提供博客的服务器。信息收集***100连接到代理服务器700。代理服务器700控制网络400与连接到本地网络800的终端设备801之间的通信。
例如,图16中的学习单元110通过使用包括对博客的用户评论并且从终端设备801传输到服务器设备200的学习数据以及被包括在数据中并且被指明为关键字的用户评论来生成解析器规则。
提取单元130通过代理服务器700获取从终端设备801传输到服务器设备200的数据。提取单元130通过使用解析器规则来从所获取的数据提取目标字符串(用户评论)。
处理单元150根据处理规则从目标字符串提取诸如与恶意诽谤对应的表达等不适当表达。然后,处理单元150控制代理服务器700阻止从其提取不适当表达的数据到服务器设备200的传输。此外,处理单元150还可以将指示终端设备801的IP地址等的日志保存在日志存储单元(未示出)中,其中终端设备801是检测到不适当表达的数据的传输源。
以这种方式,即使在针对每个服务由各种格式的内容执行对SNS和博客的写入的情况中,也可以根据服务高效地收集写入条目,并且可以检测不适当的写入条目。
此外,例如,可以从新闻站点的内容数据提取新闻文章、天气报告、节目信息等作为目标字符串。此外,可以从在因特网上分析和提供包括人的网络、人的兴趣等的信息的站点的内容数据提取分析结果等作为目标字符串。
此外,在分析和控制处理中,例如,可以从作为目标字符串获取的SNS消息中检测恶意软件的文件名,并且可以使得其他分析器等分析恶意软件。此外,在分析和控制处理中,从作为目标字符串获取的人的网络的分析结果和人的兴趣,可以提取特定人的网络和兴趣,或者可以提取具有特定兴趣的人。
接下来,将描述第一示例实施例的特征配置。图1是示出根据第一示例实施例的特征配置的框图。
参考图1,信息收集***100包括学习单元110和提取单元130。学习单元110通过使用学习数据来生成用于从数据提取目标字符串的解析器规则,目标字符串是包括特定信息的字符串。提取单元130通过使用解析器规则来从数据提取目标字符串。
接下来,将描述第一示例实施例的有利效果。
根据第一示例实施例,可以从各种格式的大量内容高效地收集目标信息。上述原因在于,学习单元110通过使用学习数据来生成用于提取目标字符串的解析器规则,目标字符串是包括特定信息的字符串,并且提取单元130通过使用生成的解析器规则来从数据提取目标字符串。
以这种方式,可以在短时间内生成用于从各种格式的内容提取必要信息的解析器程序,而无需由开发者分析内容。此外,即使当内容的规范改变时,也可以以低成本执行解析器程序的重新编程。此外,解析器程序的符号针对各种格式的内容被集成,并且因此,其可读性和可重用性得到改善。
此外,根据第一示例实施例,可以基于从各种格式的大量内容提取的信息高效地执行各种分析和控制。上述原因在于,处理单元150基于由提取单元130提取的目标字符串根据处理规则来执行分析和控制处理。
此外,根据第一示例实施例,可以高效地执行各种方法的分析和控制。上述原因在于,处理规则存储单元170存储一个或多个处理规则,并且处理单元150根据管理员等指明的处理规则来执行分析和控制处理。
第二示例实施例
接下来,将描述第二示例实施例。
第二示例实施例与第一示例实施例的不同之处在于,处理单元150基于提取的目标字符串来确定新的学习数据。
处理单元150根据处理规则、基于提取的目标字符串来确定新的学习数据。本文中,在目标字符串中包括特定关键字和URL的情况中,处理单元150将由URL指示的数据确定为新的学习数据。
学习单元110通过使用新的学习数据生成解析器规则。
图17是示出第二示例实施例中的处理规则的示例的示图。在图17中的示例中,定义了处理规则“Rule 2”。描述了在处理规则“Rule2”中,在表“SNS 1”中检测到包括特定关键字“地震”和公共域名的URL的多个目标字符串的情况中,针对学习单元110指明新的学习数据。新的学习数据由检测到的URL指明。此外,关键字“地震”被指明为要提取的字符串。
本文中,假定处理规则输入单元160预先从管理员等接收如图17中的处理规则“Rule 2”的输入,并且将所接收的处理规则“Rule 2”保存在处理规则存储单元170中。
图18是示出第二示例实施例中的字符串存储单元140中存储的表的示例的示图。
此外,假定以与第一示例实施例中的相同的方式将如图6中的解析器规则存储在解析器规则存储单元120中,并且通过提取处理将如图18中的表“SNS 1”存储在字符串存储单元140中。
图19是示出第二示例实施例中的分析和控制处理的具体示例的示图。
处理单元150根据图17中的处理规则“Rule 2”从图18的表中的目标字符串检测包括关键字“地震”和公共域名“news.com”的URL的目标字符串,如图19中所示。处理单元150向学习单元110输入检测到的目标字符串的URL“http://news.com/news1.html”和http://news.com/news2.html作为指示新的学习数据的URL并且输出关键字“地震”。
图20是示出第二示例实施例中的学习处理的具体示例的示图。
学习单元110获取由相应的URL指明的学习数据,并且生成解析器规则。本文中,当学习数据包括由学习数据指明的关键字“地震”时,则学习单元110指定用于提取包括关键字的字符串的标签模式,并且生成新的解析器规则“<x><y>值</y></x>”,如图20中所示。学习单元110将URL“http://news.com”与新的解析器规则“<x><y>值</y></x>”彼此相关联,如图20中所示,并且将它们保存在解析器规则存储单元120中。
此后,重复由提取单元130通过使用新的解析器规则提取目标字符串,由处理单元150确定新的学习数据,以及由学习单元110生成新的解析器规则。
以这种方式,针对与特定关键字相关的信息,除了首先被指明为学习数据的服务之外,还高效地生成用于从各种服务提取目标字符串的解析器规则,而无需管理员对学习数据的指明。
接下来,将描述本发明的第二示例实施例的有利效果。
根据本发明的第二示例实施例,除了第一示例实施例的有利效果之外,还可以更高效地生成用于从各种服务提取目标字符串的解析器规则。上述原因在于,处理单元150根据处理规则、基于提取的目标字符串来确定新的学习数据,并且学习单元110通过使用确定的新的学习数据来生成解析器规则。
虽然已经参考本发明的示例实施例具体示出和描述了本发明,但是本发明不限于这些实施例。本领域普通技术人员将理解,在不脱离由权利要求限定的本发明的精神和范围的情况中,可以在形式和细节上进行各种改变。
本申请基于并且要求于2016年9月26日提交的日本专利申请No.2016-187064的优先权,其公开内容通过引用整体并入本文。
附图标记列表
100 信息收集***
101 CPU
102 存储设备
103 输入/输出设备
104 通信设备
110 学习单元
120 解析器规则存储单元
130 提取单元
140 字符串存储单元
150 处理单元
160 处理规则输入单元
170 处理规则存储单元
200 服务器设备
300 终端设备
400 网络
500 IPS设备
600 本地网络
601 终端设备
700 代理服务器
800 本地网络
801 终端设备

Claims (6)

1.一种信息收集***,包括:
学习装置,所述学习装置用于通过使用学习数据来生成用于从数据提取目标字符串的解析器规则,所述目标字符串是包括特定信息的字符串;
提取装置,所述提取装置用于通过使用所述解析器规则来从数据提取所述目标字符串;以及
处理装置,所述处理装置用于根据处理规则、基于提取的所述目标字符串来执行预定分析和控制中的至少一种,其中
所述处理装置根据所述处理规则、基于提取的所述目标字符串来确定新的学习数据,并且
所述学习装置还通过使用确定的所述新的学习数据来生成另一所述解析器规则,
其中,在提取的所述目标字符串中被指明的其他数据被确定为所述新的学习数据,并且
其中所述其他数据包括能够标识服务的数据,并且所述其他数据示出所述服务的地址。
2.根据权利要求1所述的信息收集***,其中
所述学习装置将生成的所述解析器规则与和所述学习数据相关的服务相关联地保存在解析器规则存储装置中,并且
所述提取装置通过使用与和所述数据相关的服务相关联的所述解析器规则来从所述数据提取所述目标字符串。
3.根据权利要求1所述的信息收集***,其中
所述数据由预定数据描述语言描述,并且
所述学习装置将所述预定数据描述语言的、能够指定包括所述学习数据中的指明的关键字的字符串的描述模式生成为所述解析器规则。
4.根据权利要求1所述的信息收集***,还包括:
处理规则存储装置,所述处理规则存储装置用于存储一个或多个处理规则,其中
所述处理装置根据所述一个或多个处理规则中的指明的处理规则来执行针对预定分析和控制中的至少一种的处理。
5.一种信息收集方法,包括:
通过使用学习数据来生成用于从数据提取目标字符串的解析器规则,所述目标字符串是包括特定信息的字符串;
通过使用所述解析器规则来从数据提取所述目标字符串;以及
根据处理规则、基于提取的所述目标字符串来执行预定分析和控制中的至少一种,其中
根据所述处理规则、基于提取的所述目标字符串来确定新的学习数据,并且
通过使用确定的所述新的学习数据来生成另一所述解析器规则,
其中,在提取的所述目标字符串中被指明的其他数据被确定为所述新的学习数据,并且
其中所述其他数据包括能够标识服务的数据,并且所述其他数据示出所述服务的地址。
6.一种计算机可读记录介质,其上记录有使得计算机执行方法的程序,所述方法包括:
通过使用学习数据来生成用于从数据提取目标字符串的解析器规则,所述目标字符串是包括特定信息的字符串;
通过使用所述解析器规则来从数据提取所述目标字符串;以及
根据处理规则、基于提取的所述目标字符串来执行预定分析和控制中的至少一种,其中
根据所述处理规则、基于提取的所述目标字符串来确定新的学习数据,并且
通过使用确定的所述新的学习数据来生成另一所述解析器规则,
其中,在提取的所述目标字符串中被指明的其他数据被确定为所述新的学习数据,并且
其中所述其他数据包括能够标识服务的数据,并且所述其他数据示出所述服务的地址。
CN201780058905.6A 2016-09-26 2017-09-20 信息收集***、信息收集方法和记录介质 Active CN109791563B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016-187064 2016-09-26
JP2016187064 2016-09-26
PCT/JP2017/033876 WO2018056299A1 (ja) 2016-09-26 2017-09-20 情報収集システム、情報収集方法、及び、記録媒体

Publications (2)

Publication Number Publication Date
CN109791563A CN109791563A (zh) 2019-05-21
CN109791563B true CN109791563B (zh) 2023-06-06

Family

ID=61689547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780058905.6A Active CN109791563B (zh) 2016-09-26 2017-09-20 信息收集***、信息收集方法和记录介质

Country Status (5)

Country Link
US (1) US11308091B2 (zh)
JP (1) JP6763433B2 (zh)
KR (1) KR20190040046A (zh)
CN (1) CN109791563B (zh)
WO (1) WO2018056299A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020235021A1 (ja) * 2019-05-21 2020-11-26 日本電信電話株式会社 分析装置、分析システム、分析方法及びプログラム
CN112101022B (zh) * 2020-08-12 2024-02-20 新华智云科技有限公司 一种地震事件实体链接方法
CN114900387B (zh) * 2022-05-10 2024-06-04 中移(杭州)信息技术有限公司 设备的跨平台融合接入方法、***、网关及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198706A (ja) * 1996-11-15 1998-07-31 Digital Vision Lab:Kk 情報検索装置及びその方法
CN102054024A (zh) * 2009-11-09 2011-05-11 索尼公司 信息处理设备、信息提取方法、程序和信息处理***
JP2015090664A (ja) * 2013-11-07 2015-05-11 株式会社Nttドコモ 情報処理装置及び表示優先度決定方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098964A (ja) 2007-10-17 2009-05-07 Oki Telecommunication Systems Co Ltd ネットワークサービスシステム、サーバ、方法及びプログラム
US8812435B1 (en) * 2007-11-16 2014-08-19 Google Inc. Learning objects and facts from documents
JP5143057B2 (ja) 2009-03-02 2013-02-13 日本電信電話株式会社 重要キーワード抽出装置及び方法及びプログラム
TW201118589A (en) 2009-06-09 2011-06-01 Ebh Entpr Inc Methods, apparatus and software for analyzing the content of micro-blog messages
JP5431552B1 (ja) 2012-09-04 2014-03-05 ヤフー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US20140136494A1 (en) 2012-11-14 2014-05-15 Homer Tlc, Inc. System and method for automatic wrapper induction by applying filters
JP6033136B2 (ja) 2013-03-18 2016-11-30 三菱電機株式会社 情報処理装置およびナビゲーション装置
JP5792871B1 (ja) 2014-05-23 2015-10-14 日本電信電話株式会社 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
US9842160B2 (en) * 2015-01-30 2017-12-12 Splunk, Inc. Defining fields from particular occurences of field labels in events

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198706A (ja) * 1996-11-15 1998-07-31 Digital Vision Lab:Kk 情報検索装置及びその方法
CN102054024A (zh) * 2009-11-09 2011-05-11 索尼公司 信息处理设备、信息提取方法、程序和信息处理***
JP2015090664A (ja) * 2013-11-07 2015-05-11 株式会社Nttドコモ 情報処理装置及び表示優先度決定方法

Also Published As

Publication number Publication date
US11308091B2 (en) 2022-04-19
CN109791563A (zh) 2019-05-21
KR20190040046A (ko) 2019-04-16
WO2018056299A1 (ja) 2018-03-29
US20190213190A1 (en) 2019-07-11
JPWO2018056299A1 (ja) 2019-07-04
JP6763433B2 (ja) 2020-09-30

Similar Documents

Publication Publication Date Title
CN103888490B (zh) 一种全自动的web客户端人机识别的方法
US10621255B2 (en) Identifying equivalent links on a page
WO2016164844A1 (en) Message report processing and threat prioritization
WO2014101783A1 (en) Method and server for performing cloud detection for malicious information
US9141692B2 (en) Inferring sensitive information from tags
US20180270263A1 (en) Security system using automatic and scalable log pattern learning in security log analysis
US8407766B1 (en) Method and apparatus for monitoring sensitive data on a computer network
US10440050B1 (en) Identifying sensitive data on computer networks
CN109791563B (zh) 信息收集***、信息收集方法和记录介质
US20190050376A1 (en) Automatic value formatting based on intrinsic structural semantics
US9058376B2 (en) Scoring of interrelated message elements
WO2016007178A1 (en) System and method for providing contextual analytics data
CN114528457A (zh) Web指纹检测方法及相关设备
US11841975B2 (en) Privacy-preserving data collection
KR20090048998A (ko) 키워드를 통한 부정 여론 알림 방법 및 시스템과 이를 위한기록매체
AU2016246074B2 (en) Message report processing and threat prioritization
Casey et al. Crowdsourcing forensics: Creating a curated catalog of digital forensic artifacts
CN111131236A (zh) 一种web指纹检测装置、方法、设备及介质
Washha et al. Behavioural account-based features for filtering out social spammers in large-scale twitter data collections
Ural et al. Automatic Detection of Cyber Security Events from Turkish Twitter Stream and Newspaper Data.
CN117574010B (zh) 一种数据采集方法、装置、设备以及存储介质
Dzeha et al. Intellitweet: A multifaceted feature approach to detect malicious tweets
CN110750739B (zh) 一种页面类型确定方法及装置
JP7408530B2 (ja) セキュリティ管理システム、及びセキュリティ管理方法
Zachariah An analysis of the Privacy Policy of Browser Extensions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant