CN105138651A - 一种企业商标公告信息抓取与管理的方法 - Google Patents
一种企业商标公告信息抓取与管理的方法 Download PDFInfo
- Publication number
- CN105138651A CN105138651A CN201510539909.9A CN201510539909A CN105138651A CN 105138651 A CN105138651 A CN 105138651A CN 201510539909 A CN201510539909 A CN 201510539909A CN 105138651 A CN105138651 A CN 105138651A
- Authority
- CN
- China
- Prior art keywords
- information code
- information
- data
- enterprise
- empty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种企业商标公告信息抓取与管理的方法。本发明公开了一种基于商标的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理的方法。
Description
技术领域
本发明主要涉及一种企业商标公告信息抓取与管理的方法,尤其是通过商标公告公布网站的页面信息抓取、分析、整理和建档的方法。
背景技术
目前,商标公告的信息获取大多基于通过相关部门所公开的数据接口来实现知识产权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业知识产权的信息获取显得难以胜任,并且应用成本高,风险大,不利于中小中介服务机构推广应用。
商标公告的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提高自身服务质量的有力支持。
发明内容
为了解决上述问题,本发明提出了一种基于商标的知识产权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业商标公告信息抓取与管理的方法。
一种企业商标公告信息抓取与管理的方法,其特征包括,其主要包含以下步骤:
步骤S102,在企业信息库中读出企业名称的待查数据;
步骤S103,将步骤S102所读出的企业名称通过函数转为下列所列的UTF8方式的数据编码;
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量,其中商标公告信息中,第一变量为明文,不进行加密;
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL;
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取;
步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;通过如下标记截取生成第二信息码:开始标记为“regNum”,结束标记为“regNum”;
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和步骤S109,并设置第三信息码的值为“0”;当第二信息码不为空时,执行步骤S108;
步骤S108,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“没有”,结束标记为“结果”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码的值为“1”;
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有商标的企业信息库中;
将所有数据执行步骤S110存入商标的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止,执行步骤S111结束。
执行步骤S102前执行步骤S101进行企业信息查询中,进行企业类型进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据。
步骤S110还可以通过将数据存贮在步骤S101所述的企业信息表对应的字段中,同时将相应的执行标记字段的值标记为已执行,然后步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
步骤SS109所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的***时间。
在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种商标类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何商标的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
所述的S107所述的商标类型为商标时,当第二信息码不为空时,通过设置第四信息码的值为“1”而不采集生成第三信息码。
步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式。
步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码。
步骤S104所述的URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密。
附图说明
图1一种企业商标公告信息抓取与管理的方法流程图。
具体实施方式
一种企业商标公告信息抓取与管理的方法,其主要包含以下步骤:
步骤S101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。
步骤S102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。
步骤S103,根据三种类别将步骤S102所读出的企业名称通过函数转为下UTF8编码方式。
其中UTF8编码的需要在文件头加入以下代码段:
<scriptlanguage="javaScript"runat="Server">
functionce(str)
{
returnencodeURIComponent(str)
}
</script>
<head>
<metahttp-equiv="Content-Type"content="text/html;charset=UTF8">
<metahttp-equiv="Content-Language"content="zh-cn">
</head>
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量;URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),两次加密的方式为cc=ce(""&bb&""),多次加密的方法类似。
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL,使用ASP开发语言表达如下:第一变量假设为cname:
假设商标公告数据发布网站为www.abcdb.com:
http://www.abcdb.com/tmois/wszhcx_getLikeCondition.xhtml?appCnName=<%cname%>&intCls=&paiType=0。
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取。
步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;通过如下标记截取生成第二信息码:商标类型的开始标记为“regNum”,结束标记为“regNum”。
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和步骤S109,并设置第四信息码的值为“0”;当第二信息码不为空时,执行步骤S108。
步骤S108,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“没有”,结束标记为“结果”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码的值为“1”。
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有商标申请的企业信息库中,辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的***时间。
将所有数据执行步骤S110存入商标申请的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有商标申请的一定量的企业,以及没有任何商标申请的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
上述实施方式仅仅为本发明的其中实施方式之一。
Claims (9)
1.一种企业商标公告信息抓取与管理的方法,其特征包括,其主要包含以下步骤:
步骤S102,在企业信息库中读出企业名称的待查数据;
步骤S103,将步骤S102所读出的企业名称通过函数转为下列所列的UTF8方式的数据编码;
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量,其中商标公告信息中,第一变量为明文,不进行加密;
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL;
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取;
步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;通过如下标记截取生成第二信息码:开始标记为“regNum”,结束标记为“regNum”;
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108和步骤S109,并设置第三信息码的值为“0”;当第二信息码不为空时,执行步骤S108;
步骤S108,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“没有”,结束标记为“结果”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码的值为“1”;
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有商标的企业信息库中;
将所有数据执行步骤S110存入商标的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止,执行步骤S111结束。
2.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,执行步骤S102前执行步骤S101进行企业信息查询中,进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据。
3.根据权利要求1和权利要求2所述的一种企业商标公告信息抓取与管理的方法,其特征包括,所述的步骤S110还可以通过将数据存贮在步骤S101所述的企业信息表对应的字段中,同时将相应的执行标记字段的值标记为已执行,然后步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
4.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,步骤SS109所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的***时间。
5.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种商标类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何商标的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
6.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,所述的S107所述的商标类型为商标时,当第二信息码不为空时,通过设置第四信息码的值为“1”而不采集生成第三信息码。
7.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式。
8.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码。
9.根据权利要求1所述的一种企业商标公告信息抓取与管理的方法,其特征包括,步骤S104所述的URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510539909.9A CN105138651A (zh) | 2015-08-31 | 2015-08-31 | 一种企业商标公告信息抓取与管理的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510539909.9A CN105138651A (zh) | 2015-08-31 | 2015-08-31 | 一种企业商标公告信息抓取与管理的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105138651A true CN105138651A (zh) | 2015-12-09 |
Family
ID=54723999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510539909.9A Pending CN105138651A (zh) | 2015-08-31 | 2015-08-31 | 一种企业商标公告信息抓取与管理的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138651A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117303A (zh) * | 2009-12-31 | 2011-07-06 | 潘晓梅 | 一种专利数据分析方法和*** |
US20140201608A1 (en) * | 2013-01-17 | 2014-07-17 | Xerox Corporation | Method and system for generating a document from multiple sources |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
-
2015
- 2015-08-31 CN CN201510539909.9A patent/CN105138651A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102117303A (zh) * | 2009-12-31 | 2011-07-06 | 潘晓梅 | 一种专利数据分析方法和*** |
US20140201608A1 (en) * | 2013-01-17 | 2014-07-17 | Xerox Corporation | Method and system for generating a document from multiple sources |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bruns et al. | Tools and methods for capturing Twitter data during natural disasters | |
CN100489879C (zh) | 一种对页面数据进行校验的方法、***和服务器 | |
CN102546668B (zh) | 一种独立访问者的统计方法、装置及*** | |
CN103095823A (zh) | 一种物联网***中对象的描述方法及对象信息交互*** | |
Jirka et al. | A lightweight approach for the sensor observation service to share environmental data across Europe | |
WO2012094329A1 (en) | System and method for managing media content | |
CN107220274A (zh) | 一种可视化数据接口集市实现方法 | |
US20080313291A1 (en) | Method and apparatus for encoding data | |
CN101576919B (zh) | 标识生成方法和装置 | |
Shinavier | Real-time# SemanticWeb in<= 140 chars | |
CN105426492A (zh) | 一种知识产权信息抓取与管理的方法 | |
CN104021216B (zh) | 消息代理服务器及信息发布订阅方法和*** | |
WO2014182419A1 (en) | Offline searching of encrypted content | |
CN105160471A (zh) | 一种实现区域企业专利信息摸底与管理的方法 | |
CN105426503A (zh) | 一种商标预警的方法 | |
CN101388907A (zh) | 一种互联网用户属性信息的传递方法和网络设备 | |
CN105138651A (zh) | 一种企业商标公告信息抓取与管理的方法 | |
CN105139309A (zh) | 一种企业软件著作权公告信息抓取与管理的方法 | |
CN105117848A (zh) | 一种企业知识产权信息抓取与管理*** | |
CN105278965A (zh) | 一种专利信息管理的方法 | |
CN105205588A (zh) | 一种企业专利公告信息抓取与管理的方法 | |
CN104301182A (zh) | 一种慢速网站访问异常信息的查询方法及装置 | |
CN105160472A (zh) | 一种企业软件著作权公告信息抓取与管理*** | |
CN101145936A (zh) | 一种在Web页面中添加标签的方法及其*** | |
CN105160209A (zh) | 一种实现区域企业软件著作权公告摸底与管理的*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151209 |