CN105117848A - 一种企业知识产权信息抓取与管理*** - Google Patents
一种企业知识产权信息抓取与管理*** Download PDFInfo
- Publication number
- CN105117848A CN105117848A CN201510539967.1A CN201510539967A CN105117848A CN 105117848 A CN105117848 A CN 105117848A CN 201510539967 A CN201510539967 A CN 201510539967A CN 105117848 A CN105117848 A CN 105117848A
- Authority
- CN
- China
- Prior art keywords
- information
- information code
- enterprises
- intellectual property
- storehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于专利、商标和软件著作权三种常用的知识产权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理***。
Description
技术领域
本发明主要涉及一种企业知识产权信息抓取与管理***,尤其是通过知识产权公布网站的页面信息抓取、分析、整理和建档的***。
背景技术
目前,知识产权的信息获取大多基于通过相关部门所公开的数据接口来实现知识产权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业知识产权的信息获取显得难以胜任,并且应用成本高,风险大,不利于中小中介服务机构推广应用。
知识产权的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提高自身服务质量的有力支持。
发明内容
为了解决上述问题,本发明提出了一种基于专利、商标和软件著作权三种常用的知识产权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理的***。
一种企业知识产权信息抓取与管理***,其主要包含以下结构:
企业信息库、知识产权类型判断程序、编码管理程序、URLencode/URLDecod加密/解密程序、知识产权公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业知识产权公告信息库和接口管理模块;其中信息码管理模块由第一信息码、第二信息码、第三信息码和第四信息码组成;企业信息库包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给知识产权类型判断程序,知识产权类型判断程序根据SQL语句的设置确定知识产权类型,然后通过编码管理程序确定编码方式,再依知识产权类型进行URLencode加密,输出加密后的企业名称,发送到知识产权公布数据采集管理模块生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,根据知识产权类型执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码、第三信息码和第四信息码;当第一信息码为空时,***将返回重新执行企业信息库的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码不为空,第二信息码为空时,将第三信息码和第四信息码设置为“0”,然后写入第一比对信息库,同时写入企业知识产权公告信息库;当第二信息码不为空,并且知识产权类型判断为商标时,设置第四信息码为“1”,与辅助信息一并写入第二比对信息库;当第二信息码不为空,并且知识产权类型判断为专利时,通过信息码管理模块的标记识别截取页面信息,去杂后生成第四信息码,与辅助信息一并写入第二比对信息库;当第二信息码不为空,并且知识产权类型判断为软件著作权时,通过信息码管理模块标记识别截取页面信息,去杂后生成第三信息码,当第三信息码也为空时,设置第四信息码为“1”,当第三信息码不为空时,设置第四信息码的值与第三信息码的值相同,与辅助信息一并写入第二比对信息库,同时写入企业知识产权公告信息库;企业知识产权公告信息库通过SQL语句与存贮过程共同组成接口,通过接口管理模块供第三方***调用。
企业信息库所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。
企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
辅助数据包括企业名、当前的***时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。
每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。
知识产权类型为“软件著作权”时,当第二信息码不为空时,信息码管理模块还可以设置第四信息码的值为“1”而不采集生成第三信息码。
知识产权公布数据采集管理模块包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,知识产权公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。
URLencode/URLDecod加密/解密程序进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。
附图说明
图1一种企业知识产权信息抓取与管理***结构图。
图2一种企业知识产权信息抓取与管理的方法流程图。
具体实施方式
如图1:一种企业知识产权信息抓取与管理***,其主要包含以下结构:
企业信息库(A01)、知识产权类型判断程序(A02)、编码管理程序(A03)、URLencode/URLDecod加密/解密程序(A04)、知识产权公布数据采集管理模块(A05)、信息码管理模块(A06)、第一比对信息库(A07)、第二比对信息库(A08)、企业知识产权公告信息库(A09)和接口管理模块(A10);其中信息码管理模块(A06)由第一信息码(B11)、第二信息码(B12)、第三信息码(B13)和第四信息码(B14)组成;企业信息库(A01)包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给知识产权类型判断程序,知识产权类型判断程序根据SQL语句的设置确定知识产权类型,然后通过编码管理程序(A03)确定编码方式,再依知识产权类型进行URLencode加密,输出加密后的企业名称,发送到知识产权公布数据采集管理模块(A05)生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块(A06)通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,根据知识产权类型执行信息码管理模块(A06)中的标记识别截取页面信息以对应生成第一信息码(B11)、第二信息码(B12)、第三信息码(B13)和第四信息码(B14);当第一信息码(B11)为空时,***将返回重新执行企业信息库的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码(B11)不为空,第二信息码(B12)为空时,将第三信息码(B13)和第四信息码(B14)设置为“0”,然后写入第一比对信息库(A07),同时写入企业知识产权公告信息库(A09);当第二信息码(B12)不为空,并且知识产权类型判断为商标时,设置第四信息码(B14)为“1”,与辅助信息一并写入第二比对信息库(A08);当第二信息码(B12)不为空,并且知识产权类型判断为专利时,通过信息码管理模块(A06)的标记识别截取页面信息,去杂后生成第四信息码(B14),与辅助信息一并写入第二比对信息库(A08);当第二信息码(B12)不为空,并且知识产权类型判断为软件著作权时,通过信息码管理模块(A06)标记识别截取页面信息,去杂后生成第三信息码(B13),当第三信息码(B13)也为空时,设置第四信息码(B14)为“1”,当第三信息码(B13)不为空时,设置第四信息码(B14)的值与第三信息码(B13)的值相同,与辅助信息一并写入第二比对信息库(A08),同时写入企业知识产权公告信息库(A09);企业知识产权公告信息库(A09)通过SQL语句与存贮过程共同组成接口,通过接口管理模块(A10)供第三方***调用。
企业信息库(A01)所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。
企业信息库(A01)还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
辅助数据包括企业名、当前的***时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。
每个企业信息库(A01)还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。
知识产权类型为“软件著作权”时,当第二信息码不为空时,信息码管理模块(A06)还可以设置第四信息码(B14)的值为“1”而不采集生成第三信息码。
知识产权公布数据采集管理模块(A05)包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,知识产权公布数据采集管理模块(A05)的手动设置程序对所发生的变化进行容错更正。
URLencode/URLDecod加密/解密程序(A04)进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。
具体运作的方法如下:
与本***相关的企业知识产权信息抓取与管理方法,其主要包含以下步骤:
步骤S101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。
步骤S102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。
步骤S103,根据三种类别将步骤S102所读出的企业名称通过函数转为下列所列的对应数据编码:专利公告信息对应编码方式为UTF8,软件著作权公告信息对应编码方式为GB2312,商标公告信息对应编码方式为UTF8。
其中UTF8编码的需要在文件头加入以下代码段:
<scriptlanguage="javaScript"runat="Server">
functionce(str)
{
returnencodeURIComponent(str)
}
</script>
<head>
<metahttp-equiv="Content-Type"content="text/html;charset=UTF8">
<metahttp-equiv="Content-Language"content="zh-cn">
</head>
GB2312编码的文件头加入如下代码:
<head>
<metahttp-equiv="Content-Type"content="text/html;charset=gb2312">
</head>
步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量,其中软件著作权公告信息中,第一变量为明文,不进行加密;URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密,其中一次加密的bb=ce(""&aa&""),两次加密的方式为cc=ce(""&bb&""),多次加密的方法类似。
步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一URL,使用ASP分别表达如下第一变量假设为cname:
1.假设专利公告数据发布网站为www.abcde.com:
http:/www.abcde.com//txnQueryOrdinaryPatents.do?select-key%3Ashenqingh=&select-key%3Azhuanlimc=&select-key%3Ashenqingrxm=<%=cname%>&select-key%3Azhuanlilx=&select-key%3Ashenqingr_from=&select-key%3Ashenqingr_to=&attribute-node:record_start-row=60&attribute-node:record_page-row=100&#anchor
2.假设商标公告数据发布网站为www.abcdb.com:
http://www.abcdb.com/tmois/wszhcx_getLikeCondition.xhtml?appCnName=<%cname%>&intCls=&paiType=0
3.假设软件著作权公告数据发布网站为www.abcda.com:
http://www.abcda.com/cpcc/RRegisterAction.do?method=list&no=fck&sql_name=&sql_regnum=&sql_author=<%=cname%>&curPage=1&count=10&sortOrder=&sortLabel=。
步骤S106,通过getHTTPPage方式访问步骤S105生成的第一URL,获得第一URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取。
步骤S107,通过S106获得的HTML格式的数据源码,通过以“<title>”标记开始和“</title>”标记结束生成第一信息码;三种类别的知识产权类型对应如下标记生成第二信息码:专利类型的开始标记为“sop-totalCount”,结束标记为“</span>]”,商标类型的开始标记为“regNum”,结束标记为“regNum”,软件著作权类型的开始标记为“登记日期”,结束标记为“>2”;软件著作权类型时获取第三信息码,其开始标记为“中国”,结束标记为“<tdclass=”,其中商标类型和专利类型没有第三信息码。
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108,并设置第四信息码的值为“0”;当第二信息码不为空时,执行步骤S108。
步骤S108,生成第四信息码:知识产权类型为软件著作权类型时,当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“[总数”,结束标记为“]”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;知识产权类型为专利时,第二信息码不为空时,第四信息码通过第二信息码去杂质后剩下数字;知识产权类型为商标时,第二信息码不为空时,第四信息码的值为“1”。
步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有知识产权的企业信息库中,辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的***时间。
将所有数据执行步骤S110存入知识产权的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
上述实施方式仅仅为本发明的其中实施方式之一。
Claims (8)
1.一种企业知识产权信息抓取与管理***,其特征包括,其主要包含以下结构:
企业信息库、知识产权类型判断程序、编码管理程序、URLencode/URLDecod加密/解密程序、知识产权公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业知识产权公告信息库和接口管理模块;其中信息码管理模块由第一信息码、第二信息码、第三信息码和第四信息码组成;企业信息库包含企业信息数据和SQL语句管理模块,其通过SQL语句条件检索后返回值给知识产权类型判断程序,知识产权类型判断程序根据SQL语句的设置确定知识产权类型,然后通过编码管理程序确定编码方式,再依知识产权类型进行URLencode加密,输出加密后的企业名称,发送到知识产权公布数据采集管理模块生成相应的以上述加密后的企业名称为变量的URL,信息码管理模块通过getHTTPPage方式访问生成的URL,并将获得的页面HTML静态化,根据知识产权类型执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码、第三信息码和第四信息码;当第一信息码为空时,***将返回重新执行企业信息库的SQL语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码不为空,第二信息码为空时,将第三信息码和第四信息码设置为“0”,然后写入第一比对信息库,同时写入企业知识产权公告信息库;当第二信息码不为空,并且知识产权类型判断为商标时,设置第四信息码为“1”,与辅助信息一并写入第二比对信息库;当第二信息码不为空,并且知识产权类型判断为专利时,通过信息码管理模块的标记识别截取页面信息,去杂后生成第四信息码,与辅助信息一并写入第二比对信息库;当第二信息码不为空,并且知识产权类型判断为软件著作权时,通过信息码管理模块标记识别截取页面信息,去杂后生成第三信息码,当第三信息码也为空时,设置第四信息码为“1”,当第三信息码不为空时,设置第四信息码的值与第三信息码的值相同,与辅助信息一并写入第二比对信息库,同时写入企业知识产权公告信息库;企业知识产权公告信息库通过SQL语句与存贮过程共同组成接口,通过接口管理模块供第三方***调用。
2.根据权利要求1所述的一种企业知识产权信息抓取与管理***,其特征包括,所述的企业信息库所包含的SQL语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的SQL语句或SQL语句集合。
3.根据权利要求1和权利要求2所述的一种企业知识产权信息抓取与管理***,其特征包括,企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。
4.根据权利要求1所述的一种企业知识产权信息抓取与管理***,其特征包括,所述的辅助数据包括企业名、当前的***时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。
5.根据权利要求1和权利要求2所述的一种企业知识产权信息抓取与管理***,其特征包括,每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过SQL语句检索获得相应的数据。
6.根据权利要求1所述的一种企业知识产权信息抓取与管理***,其特征包括,知识产权类型为“软件著作权”时,当第二信息码不为空时,信息码管理模块还可以设置第四信息码的值为“1”而不采集生成第三信息码。
7.根据权利要求1所述的一种企业知识产权信息抓取与管理***,其特征包括,所述知识产权公布数据采集管理模块包含手动设置URL、编码方式和采集规则的程序,当官方机构公布的URL、发布的编码方式、发布的数据结构发生变更时,知识产权公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。
8.根据权利要求1所述的一种企业知识产权信息抓取与管理***,其特征包括,URLencode/URLDecod加密/解密程序进行数据加密输出时,其加密编码根据实际情况进行一次加密、二次和多次加密。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510539967.1A CN105117848A (zh) | 2015-08-31 | 2015-08-31 | 一种企业知识产权信息抓取与管理*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510539967.1A CN105117848A (zh) | 2015-08-31 | 2015-08-31 | 一种企业知识产权信息抓取与管理*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105117848A true CN105117848A (zh) | 2015-12-02 |
Family
ID=54665830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510539967.1A Pending CN105117848A (zh) | 2015-08-31 | 2015-08-31 | 一种企业知识产权信息抓取与管理*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105117848A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563740A (zh) * | 2018-04-12 | 2018-09-21 | 苏州市铜钱草科技有限公司 | 一种企业软件著作权公告信息抓取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779169A (zh) * | 2012-06-27 | 2012-11-14 | 江苏新瑞峰信息科技有限公司 | 一种基于html标签的网页正文提取方法及装置 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
CN104866517A (zh) * | 2014-12-30 | 2015-08-26 | 智慧城市信息技术有限公司 | 一种抓取网页内容的方法及装置 |
-
2015
- 2015-08-31 CN CN201510539967.1A patent/CN105117848A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779169A (zh) * | 2012-06-27 | 2012-11-14 | 江苏新瑞峰信息科技有限公司 | 一种基于html标签的网页正文提取方法及装置 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
CN104866517A (zh) * | 2014-12-30 | 2015-08-26 | 智慧城市信息技术有限公司 | 一种抓取网页内容的方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563740A (zh) * | 2018-04-12 | 2018-09-21 | 苏州市铜钱草科技有限公司 | 一种企业软件著作权公告信息抓取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bruns et al. | Tools and methods for capturing Twitter data during natural disasters | |
CA2773567C (en) | Methods and apparatus to generate a tag for media | |
KR20110024464A (ko) | 다양한 포맷의 컨텐츠를 관리하는 미디어 미디에이터 시스템 및 방법 | |
CN102546668B (zh) | 一种独立访问者的统计方法、装置及*** | |
US8713368B2 (en) | Methods for testing OData services | |
US11153071B2 (en) | Citation and attribution management methods and systems | |
CN108256092A (zh) | 设备上的组合活动历史 | |
CN111898036A (zh) | 一种行为数据收集处理***及方法 | |
CN104657359A (zh) | 一种通过网址记录网页内容和式样的方法 | |
CN105426492A (zh) | 一种知识产权信息抓取与管理的方法 | |
US9092338B1 (en) | Multi-level caching event lookup | |
CN114625407A (zh) | 一种ab实验的实现方法、***、设备及存储介质 | |
CN105117848A (zh) | 一种企业知识产权信息抓取与管理*** | |
CN105160471A (zh) | 一种实现区域企业专利信息摸底与管理的方法 | |
CN105160472A (zh) | 一种企业软件著作权公告信息抓取与管理*** | |
US10572523B1 (en) | Method and apparatus of obtaining and organizing relevant user defined information | |
CN105468745A (zh) | 一种商标预警的*** | |
CN105069585A (zh) | 一种企业专利公告信息抓取与管理*** | |
CN105183822A (zh) | 一种企业商标公告信息抓取与管理*** | |
CN105426503A (zh) | 一种商标预警的方法 | |
CN105139309A (zh) | 一种企业软件著作权公告信息抓取与管理的方法 | |
CN106780192A (zh) | 一种知识产权评价*** | |
CN105160209A (zh) | 一种实现区域企业软件著作权公告摸底与管理的*** | |
CN105138651A (zh) | 一种企业商标公告信息抓取与管理的方法 | |
CN106776661A (zh) | 一种知识产权评价的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151202 |