CN115525730B - 基于页面赋权的网页内容提取方法、装置及电子设备 - Google Patents

基于页面赋权的网页内容提取方法、装置及电子设备 Download PDF

Info

Publication number
CN115525730B
CN115525730B CN202210184453.9A CN202210184453A CN115525730B CN 115525730 B CN115525730 B CN 115525730B CN 202210184453 A CN202210184453 A CN 202210184453A CN 115525730 B CN115525730 B CN 115525730B
Authority
CN
China
Prior art keywords
webpage
text
search
weight
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210184453.9A
Other languages
English (en)
Other versions
CN115525730A (zh
Inventor
吴佳鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Vision Digital Technology Co ltd
Original Assignee
Shandong Vision Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Vision Digital Technology Co ltd filed Critical Shandong Vision Digital Technology Co ltd
Priority to CN202210184453.9A priority Critical patent/CN115525730B/zh
Publication of CN115525730A publication Critical patent/CN115525730A/zh
Application granted granted Critical
Publication of CN115525730B publication Critical patent/CN115525730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及前端技术领域,揭露了一种网页内容提取方法、装置、电子设备,包括:根据搜索网页集内所包括的***构建得到Web图,根据所述Web图从所述搜索网页集中提取得到预设数量的搜索网页,得到内容待提取网页集,对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集,利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集,对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。本发明可解决当网页内容过多导致识别网页内容效率较低及OCR识别技术识别准确率有待进一步提高的问题。

Description

基于页面赋权的网页内容提取方法、装置及电子设备
技术领域
本发明涉及前端技术领域,尤其涉及一种基于页面赋权的网页内容提取方法、装置、电子设备及计算机可读存储介质。
背景技术
伴随科技发展,信息共享途径越来越多,其中基于网页共享信息是目前的主要方式。但网页信息一般只有浏览功能,由于有用户需要下载网页中的信息用于科研、数据分析等,因此仅浏览网页已达不到部分用户要求,需要进一步识别网页中的内容。
目前主流的网页内容识别方法主要基于OCR技术,OCR技术可较大程度识别出网页内容,但当网页过多时,逐个使用OCR识别技术识别网页内容非常影响时效,此外OCR识别网页内容的准确率有待进一步提高。
发明内容
本发明提供一种基于页面赋权的网页内容提取方法、装置及计算机可读存储介质,其主要目的在于当网页内容过多导致识别网页内容效率较低及OCR识别技术识别准确率有待进一步提高的问题。
为实现上述目的,本发明提供的一种基于页面赋权的网页内容提取方法,包括:
启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键字相关的搜索网页集;
为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图;
根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重;
根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集;
对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集;
利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集;
对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。
可选地,所述对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集,包括:
扫描所述内容待提取网页集,得到网页图像集;
对所述网页图像集进执行文本识别,得到文字信息,计算所述文字信息的文字置信度;
根据所述文字置信度清理所述文字信息,得到所述第一待校正文本集。
可选地,所述根据所述文字置信度清理所述文字信息,得到所述第一待校正文本集,包括:
设置文字置信度阈值;
当所述文字置信度低于所述文字置信度阈值时,剔除对应文字直至得到所述第一待校正文本集。
可选地,所述预训练完成的文本识别模型,包括:
接收原始文本集及原始BERT语言模型,对所述原始文本集按照预定的百分比执行掩码操作,得到掩码文本集;
利用所述掩码文本集,对所述原始BERT语言模型按照预设概率执行分类训练,得到已训练BERT语言模型;
微调所述已训练BERT语言模型,得到所述文本识别模型。
可选地,所述微调所述已训练BERT语言模型,得到所述文本识别模型,包括:
接收微调文本集,其中所述微调文本集包括正确语句集及对应的错误语句集,在所述已训练BERT语言模型中输入所述微调文本集,利用预构建的微调方法及所述正确语句集,对所述已训练BERT语言模型执行微调,生成对句对字微调模型;
利用所述错误语句集中的错误文字掩码所述错误文字,得到掩码错误文字,从所述正确语句集中提取与所述错误文字对应的正确文字,并将所述正确文字设置为预测目标,利用所述预测目标及所述掩码错误文字,微调所述已训练BERT语言模型,得到错句错字微调模型;
利用所述错误语句集中的正确文字本身掩码所述正确文字,得到掩码正确文字,并将所述正确文字设置为预测目标,利用所述预测目标及所述掩码正确文字,微调所述已训练BERT语言模型,得到错句对字微调模型;
基于所述对句对字微调模型、错句错字微调模型和错句对字微调模型,得到所述文本识别模型。
可选地,所述在所述搜索引擎中搜索与所述关键字相关的搜索网页集,包括:
索引出与所述搜索引擎对应的网页数据库,提取所述网页数据库中所包括的网页标签,得到多组网页标签集;
计算所述关键词与每组所述网页标签集的文本距离;
筛选所述文本距离小于指定阈值的搜索网页,得到所述搜索网页集。
可选地,所述提取所述网页数据库中所包括的网页标签,得到多组网页标签集,包括:
在所述网页数据库中依次提取每个网页的网页关键字,得到网页关键字集;
对所述网页关键字集中每个网页关键字执行去停用词处理,得到核心关键字集;
重组每个核心关键字,得到与网页对应的网页标签集。
为了解决上述问题,本发明还提供一种基于页面赋权的网页内容提取装置,所述装置包括:
搜索网页构建模块,用于启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键字相关的搜索网页集;
历史权重计算模块,用于为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图,根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重;
网页排名模块,用于根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集;
OCR识别模块,用于对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集;
网页内容提取模块,用于利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集,对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的基于页面赋权的网页内容提取方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于页面赋权的网页内容提取方法。
相比于背景技术所述:当网页内容过多时,会直接降低网页内容的识别效率及OCR识别准确率有待提高的问题。本发明实施例先执行网页剔除操作,具体地,当启动搜索引擎后,在所述搜索引擎中搜索与关键字相关的搜索网页集,此时搜索网页集的网页数量巨大,因此为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图,根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重,进一步地,根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集,由此可见,此时的网页数量已大幅缩减,数量等于预设数量,可有效避免因网页内容过多而导致网页内容的识别效率降低的问题。此外,为提高OCR识别准确率,本发明实施例进一步引入预训练完成的文本识别模型,识别所述内容待提取网页集的文本,通过文本识别模型和OCR的双重识别结果提高网页内容的识别准确率。因此本发明提出的基于页面赋权的网页内容提取方法、装置、电子设备及计算机可读存储介质,可以解决当网页内容过多导致识别网页内容效率较低及OCR识别技术识别准确率有待进一步提高的问题。
附图说明
图1为本发明一实施例提供的基于页面赋权的网页内容提取方法的流程示意图;
图2为图1中其中一个步骤的详细实施流程示意图;
图3为图1中另一个步骤的详细实施流程示意图;
图4为本发明一实施例提供的基于页面赋权的网页内容提取装置的功能模块图;
图5为本发明一实施例提供的实现所述基于页面赋权的网页内容提取方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于页面赋权的网页内容提取方法。所述基于页面赋权的网页内容提取方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述基于页面赋权的网页内容提取方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的基于页面赋权的网页内容提取方法的流程示意图。在本实施例中,所述基于页面赋权的网页内容提取方法包括:
S1、启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键字相关的搜索网页集。
需解释的是,搜索引擎是根据用户所输文本智能化匹配出网页的一种服务器。本发明实施例中,搜索引擎暴露出用户对话框,用户在用户对话框中输入关键词,搜索引擎会根据关键词匹配出所述搜索网页集。
详细地,所述在所述搜索引擎中搜索与所述关键字相关的搜索网页集,包括:
索引出与所述搜索引擎对应的网页数据库,提取所述网页数据库中所包括的网页标签,得到多组网页标签集;
计算所述关键词与每组所述网页标签集的文本距离;
筛选所述文本距离小于指定阈值的搜索网页,得到所述搜索网页集。
需解释的是,所述网页数据库是服务于搜索引擎,在网页数据库中收纳每个网页的网址及网页关键字,其中网页关键字的组合即可得到网页标签。
详细地,所述提取所述网页数据库中所包括的网页标签,得到多组网页标签集,包括:
在所述网页数据库中依次提取每个网页的网页关键字,得到网页关键字集;
对所述网页关键字集中每个网页关键字执行去停用词处理,得到核心关键字集;
重组每个核心关键字,得到与网页对应的网页标签集。
示例性的,如用户输入“深度学习与人工智能”,先利用网页数据库中的网页标签,计算得到网页A的网页标签为“前端开发”、网页B的网页标签为“数据挖掘及智能应用”、网页C为“机器学习”、网页D“深度学习与智能开发”等。
进一步地,所述文本距离的计算方法可采用欧式距离、欧几里得距离计算方法等,进而通过文本距离可筛选与关键字相关的搜索网页集,示例性的,与上述“深度学习与人工智能”关键字对应的网页可能为网页B、网页C及网页D等搜索网页集。
S2、为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图。
本发明实施例中,为方便后续计算每个网页在搜索引擎的历史权重,需先统一初始权重,如将网页B、网页C及网页D的初始权重均设置为1。
可理解的是,网页与网页之间可能存在***,示例性的,如上述搜索网页B、C、D等中,存在搜索网页B指向搜索网页D的连接,则表明搜索网页D比搜索网页B更重要,从而把搜索网页B的一部分初始权重赋予给搜索网页D,其中一部分初始权重即上述更新权重。
因此通过网页与网页之间的互相依存的***,可构建得到关于***的Web图。
S3、根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重。
本发明实施例中,所述根据所述Web图,依次计算每个搜索网页的更新权重,包括:
依次计算每个搜索网页的出链数,将所述出链数映射为出链权重;
计算所述出链权重与每个搜索网页的初始权重的比值,得到每个搜索网页对应的所述更新权重。
示例性的,如上述搜索网页B的出链数为2,分别链接搜索网页D和搜索网页C,则根据预设的映射函数,如二次函数、relu函数等,将所述出链数作为因变量计算得到出链权重,并进一步计算出链权重与初始权重的比值,即更新权重=初始权重\出链权重。最后,本发明实施例将更新权重与初始权重相加,得到与每个搜索网页对应的所述历史权重,示例性的,如搜索网页D的历史权重是搜索网页B所计算出的更新权重和搜索网页D的初始权重相加得到。
S4、根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集。
根据上述可知,因***的缘由,每个搜索网页的历史权重不尽相同,历史权重大的搜索网页,对应的重要性也更大,因此本发明实施例根据历史权重对所述搜索网页集执行排序,并提取排名前10、20或30等预设数量的搜索网页,得到内容待提取网页集。
S5、对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集。
可理解的是,现反爬虫机制已趋于完善,部分网页无法通过访问网页源代码获取网页文本信息,因此本发明实施例先通过OCR识别出网页文本,并根据所训练出的文本识别模型进一步执行文本校正。
需解释的是,所述OCR文本识别指利用电子设备识别手写文本、打印文本等文本图像内的字符,然后用字符识别方法将形状翻译成计算机文字的过程。
本发明实施例中,参阅图2所示,所述对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集,包括:
S51、扫描所述内容待提取网页集,得到网页图像集;
S52、对所述网页图像集进执行文本识别,得到文字信息,计算所述文字信息的文字置信度;
S53、根据所述文字置信度清理所述文字信息,得到所述第一待校正文本集。
进一步地,所述根据所述文字置信度清理所述文字信息,得到所述第一待校正文本集,包括:
设置文字置信度阈值;
当所述文字置信度低于所述文字置信度阈值时,剔除对应文字直至得到所述第一待校正文本集。
可理解的是,当通过OCR识别技术识别网页图像集时,即可得到与上述内容待提取网页集对应的文本,即第一待校正文本集。
S6、利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集。
本发明实施例中,所述文本识别模型由BERT模型构建,BERT模型是一个预训练的语言表征模型,与传统模型不同的是,它不再采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征,从而达到更精准的文字提取。
但需强调的是,由BERT模型构建的文本识别模型需要先进行预训练才能用于本文内容待提取网页集的文本识别。详细地,参阅图3所示,所述预训练完成的文本识别模型,包括:
S61、接收原始文本集及原始BERT语言模型,对所述原始文本集按照预定的百分比执行掩码操作,得到掩码文本集;
S62、利用所述掩码文本集,对所述原始BERT语言模型按照预设概率执行分类训练,得到已训练BERT语言模型;
S63、微调所述已训练BERT语言模型,得到所述文本识别模型。
本发明实施例中,所述原始文本集又称为训练集,是预先从网络中不同网页中下载收集得到的网页类文本数据。所述掩码操作指用mask符号或其他文字对上述原始文本集进行遮掩的操作,方便训练所述原始BERT语言模型预测被遮掩的文字。本发明实施例中,所述预定的百分比可设置为15%,如所述原始文本集中某原始文本为一百个字,则按照15%的掩码比例,随机对其中的十五个字用mask符号或其他文字代替。
本发明实施例中,对所述原始BERT语言模型按照预设概率执行分类训练在已公开的BERT论文中已详细记载,在此不再赘述。
进一步地,所述微调所述已训练BERT语言模型,得到所述文本识别模型,包括:
接收微调文本集,其中所述微调文本集包括正确语句集及对应的错误语句集,在所述已训练BERT语言模型中输入所述微调文本集,利用预构建的微调方法及所述正确语句集,对所述已训练BERT语言模型执行微调,生成对句对字微调模型;
利用所述错误语句集中的错误文字掩码所述错误文字,得到掩码错误文字,从所述正确语句集中提取与所述错误文字对应的正确文字,并将所述正确文字设置为预测目标,利用所述预测目标及所述掩码错误文字,微调所述已训练BERT语言模型,得到错句错字微调模型;
利用所述错误语句集中的正确文字本身掩码所述正确文字,得到掩码正确文字,并将所述正确文字设置为预测目标,利用所述预测目标及所述掩码正确文字,微调所述已训练BERT语言模型,得到错句对字微调模型;
基于所述对句对字微调模型、错句错字微调模型和错句对字微调模型,得到所述文本识别模型。
本发明中所述微调文本集可以根据具体应用场景进行选择。属于有监督训练。所述微调文本集包括正确语句集及对应的错误语句集的文本集。例如:正确语句集中有:“今天是美好的一天”,错误语句集中对应的语句为“今天是美二的一天”。所述原始BERT微调方法指BERT语言模型中现有的微调方法。
本发明实施例中,为了保持平衡,对所述错误句子进行上述两种方式的微调时,所输入的错误语句数相等。所述原始BERT模型在经过大规模的所述任务文本训练后,有强大的语言理解能力。只需要少量的所述微调文本对所述已训练BERT语言模型进行微调,就可以具备很强的纠错本领,弥补了传统纠错模型的缺陷。
详细地,本发明实施例中,所述微调在基于微调文本集的同时,结合损失函数,调节所述已训练BERT语言模型的内部参数。进一步地,所述损失函数可采用平方误差损失函数的方法计算。
S7、对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。
通过OCR及文本模型对搜索网页的双重识别下,得到第一待校正文本集与第二待校正文本集。进一步地,比较第一待校正文本集与第二待校正文本集的不同之处,并将不同之处以高亮等显著形式发送至人工纠错,从而得到所述搜索网页集对应的网页内容。
相比于背景技术所述:当网页内容过多时,会直接降低网页内容的识别效率及OCR识别准确率有待提高的问题。本发明实施例先执行网页剔除操作,具体地,当启动搜索引擎后,在所述搜索引擎中搜索与关键字相关的搜索网页集,此时搜索网页集的网页数量巨大,因此为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图,根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重,进一步地,根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集,由此可见,此时的网页数量已大幅缩减,数量等于预设数量,可有效避免因网页内容过多而导致网页内容的识别效率降低的问题。此外,为提高OCR识别准确率,本发明实施例进一步引入预训练完成的文本识别模型,识别所述内容待提取网页集的文本,通过文本识别模型和OCR的双重识别结果提高网页内容的识别准确率。因此本发明提出的基于页面赋权的网页内容提取方法、装置、电子设备及计算机可读存储介质,可以解决当网页内容过多导致识别网页内容效率较低及OCR识别技术识别准确率有待进一步提高的问题。
如图4所示,是本发明一实施例提供的基于页面赋权的网页内容提取装置的功能模块图。
本发明所述基于页面赋权的网页内容提取装置100可以安装于电子设备中。根据实现的功能,所述基于页面赋权的网页内容提取装置100可以包括搜索网页构建模块101、历史权重计算模块102、网页排名模块103、OCR识别模块104及网页内容提取模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
所述搜索网页构建模块101,用于启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键字相关的搜索网页集;
所述历史权重计算模块102,用于为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图,根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重;
所述网页排名模块103,用于根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集;
所述OCR识别模块104,用于对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集;
所述网页内容提取模块105,用于利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集,对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。
详细地,本发明实施例中所述基于页面赋权的网页内容提取装置100中的所述各模块在使用时采用与上述的图1中所述的基于页面赋权的网页内容提取方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图5所示,是本发明一实施例提供的实现基于页面赋权的网页内容提取方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于页面赋权的网页内容提取方法程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于页面赋权的网页内容提取方法程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如基于页面赋权的网页内容提取方法程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的基于页面赋权的网页内容提取方法程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键字相关的搜索网页集;
为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图;
根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重;
根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集;
对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集;
利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集;
对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。
具体地,所述处理器10对上述指令的具体实现方法可参考图1至图5对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键字相关的搜索网页集;
为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图;
根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重;
根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集;
对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集;
利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集;
对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。***权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种基于页面赋权的网页内容提取方法,其特征在于,所述方法包括:
启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键词相关的搜索网页集;
所述在所述搜索引擎中搜索与所述关键词相关的搜索网页集包括:索引出与所述搜索引擎对应的网页数据库,提取所述网页数据库中所包括的网页标签得到多组网页标签集;计算所述关键词与每组所述网页标签集的文本距离;筛选所述文本距离小于指定阈值的搜索网页得到所述搜索网页集;
所述提取所述网页数据库中所包括的网页标签得到多组网页标签集包括:在所述网页数据库中依次提取每个网页的网页关键字得到网页关键字集;对所述网页关键字集中每个网页关键字执行去停用词处理得到核心关键字集;重组每个核心关键字得到与网页对应的网页标签集;
为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图;
根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重;
所述根据所述Web图依次计算每个搜索网页的更新权重包括:依次计算每个搜索网页的出链数,将所述出链数映射为出链权重;计算所述出链权重与每个搜索网页的初始权重的比值得到每个搜索网页对应的更新权重;
根据预设的映射函数将所述出链数作为因变量计算得到出链权重,并计算出链权重与初始权重的比值得到更新权重,然后将更新权重与初始权重相加得到与每个搜索网页对应的历史权重;
根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集;
对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集;
利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集;
对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。
2.如权利要求1所述的基于页面赋权的网页内容提取方法,其特征在于,所述对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集,包括:
扫描所述内容待提取网页集,得到网页图像集;
对所述网页图像集进执行文本识别,得到文字信息,计算所述文字信息的文字置信度;
根据所述文字置信度清理所述文字信息,得到所述第一待校正文本集。
3.如权利要求2所述的基于页面赋权的网页内容提取方法,其特征在于,所述根据所述文字置信度清理所述文字信息,得到所述第一待校正文本集,包括:
设置文字置信度阈值;
当所述文字置信度低于所述文字置信度阈值时,剔除对应文字直至得到所述第一待校正文本集。
4.如权利要求1所述的基于页面赋权的网页内容提取方法,其特征在于,所述预训练完成的文本识别模型,包括:
接收原始文本集及原始BERT语言模型,对所述原始文本集按照预定的百分比执行掩码操作,得到掩码文本集;
利用所述掩码文本集,对所述原始BERT语言模型按照预设概率执行分类训练,得到已训练BERT语言模型;
微调所述已训练BERT语言模型,得到所述文本识别模型。
5.如权利要求4所述的基于页面赋权的网页内容提取方法,其特征在于,所述微调所述已训练BERT语言模型,得到所述文本识别模型,包括:
接收微调文本集,其中所述微调文本集包括正确语句集及对应的错误语句集,在所述已训练BERT语言模型中输入所述微调文本集,利用预构建的微调方法及所述正确语句集,对所述已训练BERT语言模型执行微调,生成对句对字微调模型;
利用所述错误语句集中的错误文字掩码所述错误文字,得到掩码错误文字,从所述正确语句集中提取与所述错误文字对应的正确文字,并将所述正确文字设置为预测目标,利用所述预测目标及所述掩码错误文字,微调所述已训练BERT语言模型,得到错句错字微调模型;
利用所述错误语句集中的正确文字本身掩码所述正确文字,得到掩码正确文字,并将所述正确文字设置为预测目标,利用所述预测目标及所述掩码正确文字,微调所述已训练BERT语言模型,得到错句对字微调模型;
基于所述对句对字微调模型、错句错字微调模型和错句对字微调模型,得到所述文本识别模型。
6.一种基于页面赋权的网页内容提取装置,其特征在于,所述装置包括:
搜索网页构建模块,用于启动搜索引擎并接收关键词,在所述搜索引擎中搜索与所述关键词相关的搜索网页集;
所述在所述搜索引擎中搜索与所述关键词相关的搜索网页集包括:索引出与所述搜索引擎对应的网页数据库,提取所述网页数据库中所包括的网页标签得到多组网页标签集;计算所述关键词与每组所述网页标签集的文本距离;筛选所述文本距离小于指定阈值的搜索网页得到所述搜索网页集;
所述提取所述网页数据库中所包括的网页标签得到多组网页标签集包括:在所述网页数据库中依次提取每个网页的网页关键字得到网页关键字集;对所述网页关键字集中每个网页关键字执行去停用词处理得到核心关键字集;重组每个核心关键字得到与网页对应的网页标签集;
历史权重计算模块,用于为所述搜索网页集中每个搜索网页设置相同的初始权重,并根据所述搜索网页集内每个搜索网页所包括的***,构建得到Web图,根据所述Web图,依次计算每个搜索网页的更新权重,并根据所述更新权重更新所述初始权重,得到与每个搜索网页对应的历史权重;
所述根据所述Web图依次计算每个搜索网页的更新权重包括:依次计算每个搜索网页的出链数,将所述出链数映射为出链权重;计算所述出链权重与每个搜索网页的初始权重的比值得到每个搜索网页对应的更新权重;
根据预设的映射函数将所述出链数作为因变量计算得到出链权重,并计算出链权重与初始权重的比值得到更新权重,然后将更新权重与初始权重相加得到与每个搜索网页对应的历史权重;
网页排名模块,用于根据所述历史权重对所述搜索网页集执行排序,并根据排名提取预设数量的搜索网页,得到内容待提取网页集;
OCR识别模块,用于对所述内容待提取网页集内每个内容待提取网页执行OCR识别,得到第一待校正文本集;
网页内容提取模块,用于利用预训练完成的文本识别模型,识别所述内容待提取网页集的文本,得到第二待校正文本集,对所述第一待校正文本集与所述第二待校正文本集执行校正,得到网页内容。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任意一项所述的基于页面赋权的网页内容提取方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的基于页面赋权的网页内容提取方法。
CN202210184453.9A 2022-02-27 2022-02-27 基于页面赋权的网页内容提取方法、装置及电子设备 Active CN115525730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210184453.9A CN115525730B (zh) 2022-02-27 2022-02-27 基于页面赋权的网页内容提取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210184453.9A CN115525730B (zh) 2022-02-27 2022-02-27 基于页面赋权的网页内容提取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN115525730A CN115525730A (zh) 2022-12-27
CN115525730B true CN115525730B (zh) 2024-04-19

Family

ID=84693449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210184453.9A Active CN115525730B (zh) 2022-02-27 2022-02-27 基于页面赋权的网页内容提取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115525730B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807213A (zh) * 2010-05-11 2010-08-18 天津大学 一种网页的垂直搜索方法
CN107798070A (zh) * 2017-09-26 2018-03-13 平安普惠企业管理有限公司 一种网页数据获取方法及终端设备
CN113095067A (zh) * 2021-03-03 2021-07-09 北京邮电大学 一种ocr错误纠正的方法、装置、电子设备及存储介质
CN113449168A (zh) * 2021-07-14 2021-09-28 北京锐安科技有限公司 主题网页数据抓取方法、装置、设备及存储介质
CN113850251A (zh) * 2021-09-16 2021-12-28 多益网络有限公司 基于ocr技术的文本纠正方法、装置、设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101807213A (zh) * 2010-05-11 2010-08-18 天津大学 一种网页的垂直搜索方法
CN107798070A (zh) * 2017-09-26 2018-03-13 平安普惠企业管理有限公司 一种网页数据获取方法及终端设备
CN113095067A (zh) * 2021-03-03 2021-07-09 北京邮电大学 一种ocr错误纠正的方法、装置、电子设备及存储介质
CN113449168A (zh) * 2021-07-14 2021-09-28 北京锐安科技有限公司 主题网页数据抓取方法、装置、设备及存储介质
CN113850251A (zh) * 2021-09-16 2021-12-28 多益网络有限公司 基于ocr技术的文本纠正方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN115525730A (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN112364170B (zh) 数据情感分析方法、装置、电子设备及介质
CN113378970B (zh) 语句相似性检测方法、装置、电子设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112883730B (zh) 相似文本匹配方法、装置、电子设备及存储介质
CN116701574A (zh) 文本语义相似度计算方法、装置、设备及存储介质
CN113344125B (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN115238115A (zh) 基于中文数据的图像检索方法、装置、设备及存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN116739001A (zh) 基于对比学习的文本关系提取方法、装置、设备及介质
CN116578696A (zh) 文本摘要生成方法、装置、设备及存储介质
CN115525730B (zh) 基于页面赋权的网页内容提取方法、装置及电子设备
WO2023178798A1 (zh) 图像分类方法、装置、设备及介质
CN113515591B (zh) 文本不良信息识别方法、装置、电子设备及存储介质
CN112529743B (zh) 合同要素抽取方法、装置、电子设备及介质
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
CN114676307A (zh) 基于用户检索的排序模型训练方法、装置、设备及介质
CN114385815A (zh) 基于业务需求的新闻筛选方法、装置、设备及存储介质
CN112632260A (zh) 智能问答方法、装置、电子设备及计算机可读存储介质
CN114462411B (zh) 命名实体识别方法、装置、设备及存储介质
CN115146596B (zh) 召回文本的生成方法、装置、电子设备及存储介质
CN115146627B (zh) 实体识别方法、装置、电子设备及存储介质
CN113157865B (zh) 跨语言词向量生成方法、装置、电子设备及存储介质
CN115525731B (zh) 基于改进pagerank算法的网页权重计算方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240326

Address after: 276002, 19th Floor, Building 10, Evergrande Huafu, 100 meters north of the intersection of Xiaohe Road and Chengdu Road, Lanshan District, Linyi City, Shandong Province

Applicant after: Shandong Vision Digital Technology Co.,Ltd.

Country or region after: China

Address before: 315048 Building A2-3, East Zone, New Materials (International) Innovation Center, No. 2660, Yongjiang Avenue, High tech Zone, Ningbo, Zhejiang

Applicant before: Bocai Hui (Ningbo) Information Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant