CN111666383A - 信息处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

信息处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111666383A
CN111666383A CN202010622216.7A CN202010622216A CN111666383A CN 111666383 A CN111666383 A CN 111666383A CN 202010622216 A CN202010622216 A CN 202010622216A CN 111666383 A CN111666383 A CN 111666383A
Authority
CN
China
Prior art keywords
effective information
image
report
report file
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010622216.7A
Other languages
English (en)
Inventor
夏梦
曹毅
王冬冬
牛晓川
范俊豪
邹嘉伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010622216.7A priority Critical patent/CN111666383A/zh
Publication of CN111666383A publication Critical patent/CN111666383A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种信息处理方法、装置、电子设备及计算机可读存储介质,涉及信息处理领域。该方法包括:针对搜索关键词,基于预设的搜索引擎搜索得到对应的至少一个有效信息组;确定出每个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息;将各个有效信息组基于所属的报告文件进行聚合,得到聚合后的各份报告文件和每份报告文件各自对应的有效信息;针对每份报告文件生成内容盒,得到至少一个内容盒;所述内容盒包括报告文件的报告文件信息和对应的有效信息;展示各个内容盒。本申请提升了搜索关键词的命中率,以及减少了用户在浏览时的甄别行为,从而提升了用户体验。

Description

信息处理方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及信息处理技术领域,具体而言,本申请涉及一种信息处理方法、装置、电子设备及计算机可读存储介质。
背景技术
行业报告,指的是商业信息、是竞争情报,具有很强的时效性,一般都是通过国家政府机构及专业市调组织的一些最新统计数据及调研数据,根据合作机构专业的研究模型和特定的分析方法,经过行业资深人士的分析和研究,做出的对当前行业、市场的研究分析和预测。
现有技术中搜索行业报告是通过用户输入的关键词,做报告内图表标题的命中,提取报告内部相关的可视化图表内容,在搜索结果页以瀑布流的方式进行展示,展示结果如图1所示。
但是,这种搜索方式存在如下缺点:
1)通过关键词命中报告中可视化图表的标题,对报告内容的结构化标准程度要求比较高,在内容结构较为简单的券商类报告中可以有较好的应用效果,但是对于内容格式多样化和复杂度高的机构类报告和其他类型报告,会出现命中率较低的问题;
2)搜索关键词匹配的内容以瀑布流的方式进行内容的展示,且不同的内容在搜索结果页面中都是相互独立的,当匹配的内容排序混乱时,需要用户对内容进行甄别,用户体验较差。
发明内容
本申请提供了一种信息处理方法、装置、电子设备及计算机可读存储介质,可以解决搜索行业报告中命中率较低、用户需要甄别的问题。所述技术方案如下:
第一方面,提供了一种信息处理方法,该方法包括:
针对搜索关键词,搜索得到与所述搜索关键词对应的至少一个有效信息组;
确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息;
将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组;
针对每份报告文件生成内容盒,得到至少一个内容盒;所述内容盒包括报告文件的所述报告文件信息和对应的有效信息组;
分别展示所述至少一个内容盒。
优选地,所述至少一个有效信息组中的任一有效信息组包括有效信息图像、有效信息标题以及有效信息关键字;
所述方法还包括:
当接收到针对所述至少一个内容盒中任一内容盒的展示指令时,获取与所述任一内容盒对应的各个有效信息组中的有效信息标题;
通过预设的报告内容阅读器展示各个有效信息标题,以及各个有效信息标题中当前被选中的有效信息标题对应的有效信息组。
优选地,所述报告内容阅读器还设置有针对当前展示的有效信息组的至少一个交互指令;
所述方法还包括:
当所述至少一个内容盒中任一交互指令被触发时,针对当前展示的有效信息组执行所述交互指令对应的交互动作。
优选地,所述交互指令包括摘录指令;
所述当任一交互指令被触发时,针对当前展示的有效信息组执行所述交互指令对应的交互动作,包括:
当所述摘录指令被触发时,判断预设的收藏夹中是否存在已生成的笔记本;
若是,则展示已生成的笔记本的笔记本列表,当接收到针对笔记本列表中任一笔记本的确认指令时,将所述当前展示的有效信息组复制至所述笔记本中;
若否,则展示预设的创建笔记本界面,基于所述创建笔记本界面创建新笔记本,并将所述当前展示的有效信息组复制至所述新笔记本。
优选地,还包括:
接收到针对预设的收藏夹中已生成的笔记本中任一笔记本的展示指令时,通过报告内容阅读器展示所述笔记本中的有效信息组。
优选地,所述搜索得到与所述搜索关键词对应的至少一个有效信息组,包括:
对所述搜索关键词进行Query分析,得到分析后的关键词;
基于Elasticsearch Query DSL语法对所述分析后的关键词进行拼装,得到有效信息组的查询语句;所述查询语句包括关键字字段和标题字段;
采用所述查询语句与预设的搜索引擎中的索引进行查询,得到与所述搜索关键词匹配的至少一个有效信息组。
优选地,所述预设的搜索引擎通过如下方式生成:
当检测到预设的有效信息数据库中已存储的所述至少一个有效信息组中任一有效信息组发生数据更新时,获取发生数据更新的有效信息组的有效信息标题和有效信息关键字;所述数据更新包括有效信息组的增加、删除、修改中的至少一种;
基于所述有效信息标题和有效信息关键字生成索引,并建立所述有效信息标题、有效信息关键字与所述索引的映射关系;其中,所述索引包括标题字段和关键字字段。
优选地,所述预设的有效信息数据库通过如下方式生成:
获取报告文件;
将所述报告文件按页数进行文档切图处理,得到至少一张报告文件图像;
对每张报告文件图像进行字块识别,得到每张报告文件图像各自对应的至少一个字块;
将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像;
提取出每张有效信息图像的有效信息标题和有效信息关键字,并建立每张有效信息图像、每张有效信息图像各自对应的有效信息标题和有效信息关键字的关联关系;
将每张有效信息图像、每张有效信息图像各自对应的有效信息标题、有效信息关键字,以及关联关系存储至所述有效信息数据库。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量是否超过第一数量阈值;
若是,则将每张报告文件图像中超过第一数量阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量与对应的报告文件图像中全部字块的数量的比例是否超过比例阈值;
若是,则将每张报告文件图像中超过比例阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
获取每张报告文件图像中所述至少一个字块的高度,并确定出高度最大的预设数量的目标字块;
检测每张报告文件图像中的目标字块是否包含中文字块;
若是,则检测包含中文块的目标字块中中文字符的数量是否超过第三数量阈值;
若是,则将每张报告文件图像中目标字块包含中文字块的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
第二方面,提供了一种信息处理装置,该装置包括:
搜索模块,用于针对搜索关键词,搜索得到与所述搜索关键词对应的至少一个有效信息组;
处理模块,用于确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息;
聚合模块,用于将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后有效信息组;
生成模块,用于针对每份报告文件生成内容盒,得到至少一个内容盒;所述内容盒包括报告文件的所述报告文件信息和对应的有效信息组;
展示模块,用于分别展示所述至少一个内容盒。
优选地,所述至少一个有效信息组中的任一有效信息组包括有效信息图像、有效信息标题以及有效信息关键字;
所述装置还包括:
接收模块,用于接收针对所述至少一个内容盒中任一内容盒的展示指令;
获取模块,用于获取与所述任一内容盒对应的各个有效信息组中的有效信息标题;
所述展示模块,还用于通过预设的报告内容阅读器展示各个有效信息标题,以及各个有效信息标题中当前被选中的有效信息标题对应的有效信息组。
优选地,所述报告内容阅读器还设置有针对当前展示的有效信息组的至少一个交互指令;
所述装置还包括:
执行模块,用于当至少一个交互指令中任一交互指令被触发时,针对当前展示的有效信息组执行所述交互指令对应的交互动作。
优选地,所述交互指令包括摘录指令;
所述执行模块具体用于:
当所述摘录指令被触发时,判断预设的收藏夹中是否存在已生成的笔记本;
若是,则展示已生成的笔记本的笔记本列表,当接收到针对笔记本列表中任一笔记本的确认指令时,将所述当前展示的有效信息组复制至所述笔记本中;
若否,则展示预设的创建笔记本界面,基于所述创建笔记本界面创建新笔记本,并将所述当前展示的有效信息组复制至所述新笔记本。
优选地,所述接收模块,还用于接收针对预设的收藏夹中已生成的笔记本中任一笔记本的展示指令;
所述展示模块,还用于通过报告内容阅读器展示所述笔记本中的有效信息组。
优选地,所述搜索模块,包括:
分析子模块,用于对所述搜索关键词进行Query分析,得到分析后的关键词;
语句拼装子模块,用于基于Elasticsearch Query DSL语法对所述分析后的关键词进行拼装,得到有效信息组的查询语句;所述查询语句包括关键字字段和标题字段;
查询子模块,用于采用所述查询语句与预设的搜索引擎中的索引进行查询,得到与所述搜索关键词匹配的至少一个有效信息组。
优选地,所述预设的搜索引擎通过如下方式生成:
当检测到预设的有效信息数据库中已存储的所述至少一个有效信息组中任一有效信息组发生数据更新时,获取发生数据更新的有效信息组的有效信息标题和有效信息关键字;所述数据更新包括有效信息组的增加、删除、修改中的至少一种;
基于所述有效信息标题和有效信息关键字生成索引,并建立所述有效信息标题、有效信息关键字与所述索引的映射关系;其中,所述索引包括标题字段和关键字字段。
优选地,所述预设的有效信息数据库通过如下方式生成:
获取报告文件;
将所述报告文件按页数进行文档切图处理,得到至少一张报告文件图像;
对每张报告文件图像进行字块识别,得到每张报告文件图像各自对应的至少一个字块;
将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像;
提取出每张有效信息图像的有效信息标题和有效信息关键字,并建立每张有效信息图像,以及每张有效信息图像各自对应的有效信息标题和有效信息关键字的关联关系;
将每张有效信息图像、每张有效信息图像各自对应的有效信息标题、有效信息关键字,以及关联关系存储至所述有效信息数据库。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量是否超过第一数量阈值;
若是,则将每张报告文件图像中超过第一数量阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量与对应的报告文件图像中全部字块的数量的比例是否超过比例阈值;
若是,则将每张报告文件图像中超过比例阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
获取每张报告文件图像中所述至少一个字块的高度,并确定出高度最大的预设数量的目标字块;
检测每张报告文件图像中的目标字块是否包含中文字块;
若是,则检测包含中文块的目标字块中中文字符的数量是否超过第三数量阈值;
若是,则将每张报告文件图像中目标字块包含中文字块的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
第三方面,提供了一种电子设备,该电子设备包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,可执行指令使处理器执行如本申请的第一方面所示的信息处理方法对应的操作。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的信息处理方法。
本申请提供的技术方案带来的有益效果是:
针对搜索关键词,搜索得到与所述搜索关键词对应的至少一个有效信息组,然后确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息,再将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组,针对每份报告文件生成内容盒,得到至少一个内容盒;所述内容盒包括报告文件的所述报告文件信息和对应的有效信息组;分别展示所述至少一个内容盒。通过上述方式,本发明实施例可以根据搜索关键词对所有报告的内容进行综合性识别,包括但不限于可视化图表类标题,相较于现有技术中仅限于可视化图表类标题的识别,导致针对内容格式多样化和复杂度高的机构类报告和其他类型报告,会出现搜索关键词命中率较低问题,本发明实施例对报告内容标准化程度要求较低,可兼容更多报告内容类型,从而提升了搜索关键词的命中率。同时,通过综合性识别得到与搜索关键词匹配的、属于不同报告文件的各个有效信息组,再基于报告文件对各个有效信息组进行聚合性展示,使得同一份报告文件内与搜索关键词匹配的多个有效信息组具有关联性,减少了用户在浏览时的甄别行为,从而提升了用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为现有技术中搜索行业报告的搜索结果页面示意图;
图2为本申请一个实施例提供的一种信息处理方法的流程示意图;
图3为本申请另一实施例提供的一种信息处理方法的流程示意图;
图4为本申请中内容盒的界面示意图;
图5为本申请中搜索行业报告的搜索结果页面示意图;
图6A~6B为本申请中报告内容阅读器的界面示意图一和二;
图7为本申请中报告内容阅读器的界面示意图三;
图8A~8B为本申请中选择笔记本进行摘录的效果示意图;
图9为本申请中新建笔记本进行摘录的效果示意图;
图10为本申请中摘录的流程示意图;
图11为本申请中收藏夹的界面示意图;
图12为本申请中采用报告内容阅读器浏览摘录的界面示意图;
图13为本申请中基于搜索关键词的搜索流程示意图;
图14为本申请中ES搜索引擎的数据处理示意图;
图15为本申请中OCR的效果示意图;
图16为本申请中提取有效信息图像的流程示意图;
图17为本申请又一实施例提供的一种信息处理装置的结构示意图;
图18为本申请又一实施例提供的一种信息处理的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
数据库管理***(Database Management System,DBMS)是为管理数据库而设计的电脑软件***,一般具有存储、截取、安全保障、备份等基础功能。数据库管理***可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible Markup Language,可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言(Structured Query Language)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储***(以下简称存储***)是指通过集群应用、网格技术以及分布存储文件***等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储***。
目前,存储***的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据,也就是将数据存储在文件***上,文件***将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity)等额外的信息,文件***将每个对象分别写入该逻辑卷的物理存储空间,且文件***会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件***能够根据每个对象的存储位置信息让客户端对数据进行访问。
存储***为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array of Independent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
在本申请中,一种信息处理方法可以在服务器中执行。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
进一步,用户可以通过终端与服务器进行交互从而实现业务请求。其中,终端可以具有如下特点:
(1)在硬件体系上,设备具备中央处理器、存储器、输入部件和输出部件,也就是说,设备往往是具备通信功能的微型计算机设备。另外,还可以具有多种输入方式,诸如键盘、鼠标、触摸屏、送话器和摄像头等,并可以根据需要进行调整输入。同时,设备往往具有多种输出方式,如受话器、显示屏等,也可以根据需要进行调整;
(2)在软件体系上,设备必须具备操作***,如Windows Mobile、Symbian、Palm、Android、iOS等。同时,这些操作***越来越开放,基于这些开放的操作***平台开发的个性化应用程序层出不穷,如通信簿、日程表、记事本、计算器以及各类游戏等,极大程度地满足了个性化用户的需求;
(3)在通信能力上,设备具有灵活的接入方式和高带宽通信性能,并且能根据所选择的业务和所处的环境,自动调整所选的通信方式,从而方便用户使用。设备可以支持GSM(Global System for Mobile Communication,全球移动通信***)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、CDMA2000(Code Division MultipleAccess,码分多址)、TDSCDMA(Time Division-Synchronous Code Division MultipleAccess,时分同步码分多址)、Wi-Fi(Wireless-Fidelity,无线保真)以及WiMAX(WorldwideInteroperability for Microwave Access,全球微波互联接入)等,从而适应多种制式网络,不仅支持语音业务,更支持多种无线数据业务;
(4)在功能使用上,设备更加注重人性化、个性化和多功能化。随着计算机技术的发展,设备从“以设备为中心”的模式进入“以人为中心”的模式,集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等,充分体现了以人为本的宗旨。由于软件技术的发展,设备可以根据个人需求调整设置,更加个性化。同时,设备本身集成了众多软件和硬件,功能也越来越强大。
本申请提供的信息处理方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
在一个实施例中提供了一种信息处理方法,如图2所示,该方法包括:
步骤S201,针对搜索关键词,搜索得到与所述搜索关键词对应的至少一个有效信息组;
在本发明实施例中,终端中可以安装用于浏览报告的应用程序,应用程序可以包括搜索界面,搜索界面中可以设置搜索栏,用户可以通过在搜索栏中输入搜索关键词并进行搜索,应用程序通过搜索从而得到相应的搜索结果,并将搜索结果展示给用户。在本发明实施例中报告可以是包含相关信息的任意文件,以行业报告为例,行业报告可以是行业分析报告、行业研究报告、行业数据报告等等,比如,《OTA行业-国盛证券_券商报告》就是行业报告。
进一步,搜索结果可以是与搜索关键词对应的至少一个有效信息组。有效信息组可以包括至少一个有效信息,该有效信息可以与搜索关键词对应。在一些实施例中,有效信息是指,行业报告中与用户的搜索意图相匹配的、并可以直接为用户的研究工作提供高价值度参考信息的报告内容。根据现行市面各机构和团队的报告撰写标准与习惯,报告内的高价值度信息一般在报告的图表类内容中出现。
有效信息包括但不限于报告中的有效信息图像、有效信息标题以及有效信息关键字。其中,有效信息图像,指的是报告中含有高价值有效信息的整页对应的图像;有效信息标题,指的是有效信息图像的标题;有效信息关键字,指的是有效信息图像中包含的关键字,和/或,有效信息图像周边的关键字。在一些实施例中,一个有效信息组可以包括与搜索关键词对应的、属于相同报告文件的至少一个有效信息,该至少一个有效信息可以是与搜索关键词对应的有效信息图像、有效信息标题以及有效信息关键字中的任意一个或多个。
步骤S202,确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息;
具体而言,各个有效信息组可以存储在有效信息数据库中,当用户采用搜索关键词进行搜索时,预设的搜索引擎可以从预设的有效信息数据库中查询得到匹配的至少一个有效信息组,查询得到的各个有效信息组可以属于不同的报告文件。比如,通过查询得到三个有效信息组:a组、b组和c组,其中,a组和b组属于报告文件A,c组属于报告文件B。其中,一个报告文件可以是一份行业报告,比如,行业报告《OTA行业-国盛证券_券商报告》就是一份报告文件。
因此,在搜索得到了各个有效信息组后,可以进一步确定出每个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息。其中,报告文件信息包括但不限于:报告的ID、创建人、标签、简介、摘要、创建时间、行业类型。
步骤S203,将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组;
在确定出了各个有效信息组所属的报告文件后,就可以按照所属的报告文件对各个有效信息组进行聚合,从而确定出每份报告文件各自对应的聚合后的有效信息组了。比如,对前例的a组、b组和c个有效信息组进行聚合,从而确定出报告文件A对应a组、b个有效信息组,报告文件B对应c个有效信息组。
步骤S204,针对每份报告生成内容盒,得到至少一个内容盒;内容盒包括报告文件的报告文件信息和对应的有效信息组;
具体而言,针对每份报告和对应的各个有效信息组生成内容盒,从而得到与报告文件数量相同的内容盒,每个内容盒包括报告文件的报告文件信息和对应的有效信息组。
步骤S205,分别展示至少一个内容盒。
得到多个内容盒之后,即可在应用程序的界面中分别展示各个内容盒了。比如,在内容盒1中展示报告文件A的报告文件信息和a组、b个有效信息组,在内容盒2中展示报告文件B的报告文件信息和c个有效信息组。
在本发明实施例中,针对搜索关键词,搜索得到与搜索关键词对应的至少一个有效信息组,然后确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息,再将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组,针对每份报告文件生成内容盒,得到至少一个内容盒;内容盒包括报告文件的报告文件信息和对应的有效信息组;分别展示至少一个内容盒。通过上述方式,本发明实施例可以根据搜索关键词对所有报告的内容进行综合性识别,包括但不限于可视化图表类标题,相较于现有技术中仅限于可视化图表类标题的识别,导致针对内容格式多样化和复杂度高的机构类报告和其他类型报告,会出现搜索关键词命中率较低问题,本发明实施例对报告内容标准化程度要求较低,可兼容更多报告内容类型,从而提升了搜索关键词的命中率。同时,通过综合性识别得到与搜索关键词匹配的、属于不同报告文件的各个有效信息组,再基于报告文件对各个有效信息组进行聚合性展示,使得同一份报告文件内与搜索关键词匹配的多个有效信息组具有关联性,减少了用户在浏览时的甄别行为,从而提升了用户体验。
在另一个实施例中提供了一种信息处理方法,如图3所示,该方法包括:
步骤S301,针对搜索关键词,搜索得到对应的至少一个有效信息组;
在本发明实施例中,终端中可以安装用于浏览行业报告的应用程序,应用程序可以包括搜索界面,搜索界面中可以设置搜索栏,用户可以通过在搜索栏中输入搜索关键词并进行搜索,应用程序通过搜索从而得到相应的搜索结果,并将搜索结果展示给用户。其中,行业报告可以是行业分析报告、行业研究报告、行业数据报告等等,比如,《OTA行业-国盛证券_券商报告》就是行业报告。
进一步,搜索结果可以是与搜索关键词对应的至少一个有效信息组。其中,有效信息是指,行业报告中与用户的搜索意图相匹配的、并可以直接为用户的研究工作提供高价值度参考信息的报告内容。根据现行市面各机构和团队的报告撰写标准与习惯,报告内的高价值度信息一般在报告的图表类内容中出现。
一个有效信息组包括但不限于报告中的有效信息图像、有效信息标题以及有效信息关键字。其中,有效信息图像,指的是报告中含有高价值有效信息的整页对应的图像;有效信息标题,指的是有效信息图像的标题;有效信息关键字,指的是有效信息图像中包含的关键字,和/或,有效信息图像周边的关键字。
其中,应用程序依据搜索关键词进行搜索时,可以调用预设的有效信息搜索接口进行搜索,有效信息搜索接口包括:
请求方法:GET
请求路径:/api/search/modules
请求参数:keyword,搜索关键词。
步骤S302,确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息;
具体而言,各个有效信息组可以存储在有效信息数据库中,当用户采用搜索关键词进行搜索时,预设的搜索引擎可以从预设的有效信息数据库中查询得到匹配的至少一个有效信息组,查询得到的各个有效信息组可以属于不同的报告文件;其中,一个有效信息组包括有效信息图像、有效信息标题以及有效信息关键字。比如,通过查询得到三个有效信息组:a组、b组和c组,其中,a组和b组属于报告文件A,c组属于报告文件B。其中,一个报告文件可以是一份行业报告,比如,行业报告《OTA行业-国盛证券_券商报告》就是一份报告文件。
因此,在搜索得到了各个有效信息组后,可以进一步确定出每个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息。其中,报告文件信息包括但不限于:报告的ID、创建人、标签、简介、摘要、创建时间、行业类型。
步骤S303,将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组;
在确定出了各个有效信息组所属的报告文件后,就可以按照所属的报告文件对各个有效信息组进行聚合,从而确定出每份报告文件各自对应的聚合后的有效信息组了。比如,对前例的a组、b组和c个有效信息组进行聚合,从而确定出报告文件A对应a组、b个有效信息组,报告文件B对应c个有效信息组。
步骤S304,针对每份报告文件生成内容盒,得到至少一个内容盒;内容盒包括报告文件的报告文件信息和对应的有效信息组;
具体而言,针对每份报告和对应的各个有效信息组生成内容盒,从而得到与报告文件数量相同的内容盒,每个内容盒包括报告文件的报告文件信息和对应的有效信息组。
比如,如图4所示,内容盒可以包括两个区域:第一区域和第二区域,第一区域可以为报告文件的报告文件信息,点击后可跳转至该报告文件的详情页;第二区域可以为与搜索关键词匹配的各个有效信息组,点击任一有效信息组可呼出报告内容阅读器。这样,将属于同一份报告文件的至少一个有效信息组进行了聚合性展示,提高了属于同一份报告文件的至少一个有效信息组的关联性,使得阅读者通过对报告文件进行甄别即可获取每个报告文件对应的有效信息组,避免了现有技术中需要对混乱无序的搜索结果进行甄别的问题。
需要说明的是,内容盒的形式除了如图4所示之外,其它形式的内容盒也是适用于本申请的;而且,当有效信息组的数量较多时,在内容盒右侧中展示一定数量的有效信息组即可,所有的有效信息组可在报告内容阅读器中进行展示,或者,在内容盒右侧中也可以设置滚动条,这样就要以展示全部的有效信息组了。当然,在实际应用中,用户可以根据实际需求对内容盒的形式、内容盒的布局进行设置,本申请对此均不作限制。
步骤S305,分别展示至少一个内容盒;
得到多个内容盒之后,即可在应用程序的界面中展示各个内容盒了。比如,在内容盒1中展示报告文件A的报告文件信息和有效信息组a、b,在内容盒2中展示报告文件B的报告文件信息和有效信息组c。再比如,搜索关键词为“OTA酒店代理抽佣”,得到如图5所示的各个内容盒。
步骤S306,当接收到针对至少一个内容盒中任一内容盒的展示指令时,获取与任一内容盒对应的各个有效信息组中的有效信息标题;
具体而言,当用户点击至少一个内容盒中任一内容盒时,即发起了针对该内容盒的展示指令,此时获取该内容盒中各个有效信息组中的有效信息标题即可。
步骤S307,通过预设的报告内容阅读器展示各个有效信息标题,以及各个有效信息标题中当前被选中的有效信息标题对应的有效信息组;
通过预设的报告内容阅读器展示各个有效信息标题,以及各个有效信息标题中当前被选中的有效信息标题对应的有效信息组,如图6A所示。
报告内容阅读器可对当前搜索关键词对应的、不同报告文件中的所有有效信息组进行浏览和管理。如图6B所示,报告内容盒可以包括四个部分:
1)搜索关键词信息区
展示当前搜索结果页面下用户输入的搜索关键词。
2)报告及有效信息标题导航区
展示当前正在浏览的内容所属的报告文件,以及属于同一报告文件的其他有效信息标题。用户可通过对该导航区中其它有效信息标题的点击进行切换或光标滚动进行连续性浏览。
进一步,在某份报告文件的最后一个有效信息标题之后,导航区可以自动加载下一份报告文件的标题,如图7所示。
3)报告内容阅读区
与有效信息标题对应的有效信息图像,也就是详细的报告内容,可进行放大及缩小操作。
4)报告内容操作区
设置有针对当前展示的有效信息报告内容的至少一种交互指令,在本发明实施例中,包括但不限于:摘录、下载及原文。
其中,报告内容盒可以调用预设的有效信息获取接口来获取有效信息,有效信息获取接口包括:
请求方法:GET
请求路径:/api/report?modules=1
请求参数:报告文件的相关参数。
步骤S308,当至少一个交互指令中任一交互指令被触发时,针对当前展示的有效信息组执行交互指令对应的交互动作;
其中,点击“摘录”,可以将该有效信息组摘录至笔记本中;点击“下载”,可以将该有效信息图像下载到本地;点击“原文”,可以打开新页面窗口,并在新页面窗口中展示该有效信息图像所属的原始报告文件,并定位至与该有效信息图像内容相同的页面。
当至少一个交互指令中任一交互指令被触发时,针对当前展示的有效信息组执行交互指令对应的交互动作,包括:
当摘录指令被触发时,判断预设的收藏夹中是否存在已生成的笔记本;
若是,则展示已生成的笔记本的笔记本列表,当接收到针对笔记本列表中任一笔记本的确认指令时,将当前展示的有效信息组复制至笔记本中;
若否,则展示预设的创建笔记本界面,基于创建笔记本界面创建新笔记本,并将当前展示的有效信息组复制至新笔记本。
具体而言,当用户点击了“摘录”,可以判断预设的收藏夹中是否存在已生成的笔记本,也就是用户已经建立的笔记本,如果是,则通过预设的列表窗口展示笔记本列表,该笔记本列表中可以包括所有已生成的笔记本。当用户选择了其中任一笔记本并确认,则将当前展示的有效信息组复制至用户确认的笔记本中,然后还可以将报告内容操作区中的“摘录”更改为“已摘录”,如图8A~8B所示。
如果收藏夹中没有已生成的笔记本,那么就可以直接展示新建笔记本窗口,用户可以在新建笔记本窗口中设置笔记本的名字,确定之后即可生成笔记本,然后还可以将报告内容操作区中的“摘录”更改为“已摘录”,如图9所示。
进一步,在列表窗口中,还可以设置“新建笔记本”的按钮,当用户点击了该按钮后,仍然可以展示新建笔记本窗口,如图9所示,用户可以在新建笔记本窗口中设置笔记本的名字,确定之后即可生成笔记本,此时报告内容操作区中的“摘录”更改为“已摘录”,如图8B所示。
其中,笔记本可以是记录有效信息组的容器,可以用于管理和浏览已摘录的有效信息组。用户可以新建、删除、修改笔记本,也可以把有效信息组摘录至笔记本中,以便查看。
参照图10,摘录的详细步骤可以如下:
1)用户发起摘录某个有效信息组的请求,此时需要选择一个笔记本(包括从已生成的笔记本中选择一个,或者新建一个笔记本);
2)有效信息组将被完全克隆一份,不是关联。克隆可以防止有效信息组被删除时摘录也无法查看。克隆后摘录为有效信息组的副本;
3)此时再将摘录关联至选择的笔记本中;
4)用户需要查看摘录时,发起查看笔记本内容的请求即可。
进一步,笔记本的接口可以包括:
1)笔记本列表GET/api/notebooks
2)笔记本详情(带摘录列表)GET/api/notebooks/{$notebook_id}
3)新建笔记本POST/api/notebooks
参数:必填title,长度255。
4)更新笔记本PUT/PATCH/api/notebooks/{$notebook_id}
参数:必填title,长度255。
5)删除笔记本DELETE/api/notebooks/{$notebook_id}
参数:选填force,可选值0或1,此参数意义为,是否强行删除,如果为0,则不进行删除;如果为1,则会连笔记本中的摘录一起删除(不会提示笔记本中存在摘录);
其中,在删除笔记本时,如果有笔记本中存在摘录,则会生成提示和确认信息,比如:“笔记本中有摘录,是否删除”,确认信息包括“是”和“否”,如果用户点击了“是”,则force值为1;如果用户点击了“否”,则force值为0。
6)摘录内容POST/api/notebooks/{$notebook_id}/excerpt
参数:必填report_module_id,内容模块id。
7)删除摘录POST/api/notebooks/{$notebook_id}/unexcerpt
参数:必填report_module_id,内容模块id,可以删除一个笔记本中的多个摘要,英文逗号隔开,例如:report_module_id=1,2,3。
步骤S309,接收到针对预设的收藏夹中已生成的笔记本中任一笔记本的展示指令时,通过报告内容阅读器展示笔记本中的有效信息组。
具体而言,所有摘录的内容都可以收藏夹中进行统一的浏览和管理,如图11所示。在本发明实施例中,报告内容阅读器作为通用性较强的控件,除了可以展示有效信息组,还可以复用于更多的相似场景,比如,笔记本下已摘录的内容仍然可以采用报告内容阅读器的控件进行展示,如图12所示,当用户点击已生成的笔记本中任一笔记本,即可呼出报告内容阅读器来浏览摘录。
在本发明一种优选实施例中,搜索得到与搜索关键词对应的至少一个有效信息组,包括:
对搜索关键词进行Query分析,得到分析后的关键词;
基于Elasticsearch Query DSL语法对分析后的关键词进行拼装,得到有效信息组的查询语句;查询语句包括关键字字段和标题字段;
采用查询语句与预设的搜索引擎中的索引进行查询,得到与搜索关键词匹配的至少一个有效信息组。
具体而言,在应用程序的搜索界面中,可以设置两个搜索模式:“搜内容”和“搜报告”,其中,搜报告可以是基于报告文件的名称进行搜索,也就是普通搜索;搜内容则是基于报告的内容进行搜索。
参照图13,为本发明实施例中基于搜索关键词的搜索流程示意图。针对用户输入的搜索关键词进行搜索时,先判断搜索模式是否为“搜内容”,若否,则进行普通搜索(即“搜报告”),得到普通搜索的结果页面;若是,则对搜索关键词进行Query分析,包括对搜索关键词进行分词和近义词扩充,得到分析后的搜索关键词,然后使用Elasticsearch QueryDSL语法对分析后的关键词进行语句拼装,得到用于查询有效信息组的查询语句,其中,查询语句包括关键字字段和标题字段;再通过预设的搜索引擎对该查询语句进行查询,包括采用该查询语句与搜索引擎中的索引进行查询,从而得到与搜索关键词匹配的至少一个有效信息组,然后执行步骤S201~步骤S205,或者步骤S302~步骤S305即可。
其中,对搜索关键词进行中文分词与近义词扩充,即可得到分析后的搜索关键词。中文分词可以使用Elasticsearch开源插件IK Analysis for Elasticsearch,近义词扩充可以使用经验总结的近义词词库。
基于Elasticsearch Query DSL语法对分析后的搜索关键词进行拼装,得到有效信息组的查询语句,查询语句针对内容模块的标题与关键词进行搜索,其中也会设置标题与关键词的权重,比如,“市场调研”为Query语句,其中“调研”与“调查”、“研究”为近义词。
需要说明的是,分词插件除了可以是上述插件之外,还可以是其它分词插件,在实际应用中可以根据实际需求进行设置,本发明实施例对此不作限制;近义词词库除了通过上述方式获得的词库之外,还可以是通过其它方式获得的词库,在实际应用中可以根据实际需求进行设置,本发明实施例对此不作限制。
进一步,搜索引擎中的索引也可以包括报告的ID,也就是各个有效信息组所属的报告文件的ID,这样搜索得到各个有效信息组时,也可以确定出每个有效信息组所属的报告文件了。
在本发明一种优选实施例中,预设的搜索引擎中的索引通过如下方式生成:
当检测到预设的有效信息数据库中已存储的至少一个有效信息组中任一有效信息组发生数据更新时,获取发生数据更新的有效信息组的有效信息标题和有效信息关键字;数据更新包括有效信息组的增加、删除、修改中的至少一种;
基于有效信息标题和有效信息关键字生成索引,并建立有效信息标题、有效信息关键字与索引的映射关系;其中,索引包括标题字段和关键字字段。
其中,搜索引擎可以是ES(ElasticSearch),ES是一种分布式全文搜索引擎。ES是面向文档的,这意味着它可以存储整个对象或文档。然而它不仅仅是存储,还会索引(index)每个文档的内容使之可以被搜索。在ES中,用户可以对文档或对象(而非成行成列的数据)进行索引、搜索等操作。
具体而言,ES可以基于异步脚本从有效信息数据库获取数据。如图14所示,有效信息数据库MYSQL中的有效信息组发生数据更新时,会触发数据修改事件,该数据修改事件会进入事件处理队列等待ES对有效信息组进行相应的数据处理;其中,数据更新包括有效信息组的增加、删除、修改中的至少一种。这样,ES就可以从有效信息数据库中实时更新有效信息组了。
进一步,ES更新有效信息组时,还需要基于发生更新的有效信息组更新索引(index),包括新建、修改、删除索引,索引包括标题字段和关键字字段,并确定索引与有效信息组的映射(mappings),映射可以告诉ES如何来处理新加入的各种字段。有效信息组需要被处理的字段为title(有效信息标题)和keyword(有效信息关键词)。title被映射为text类型字段,在处理时将被分词和倒排索引,分词时可以使用ik插件;keyword映射为keyword类型,只会被精确匹配。
更进一步,ES在对有效信息组进行相应的数据处理时,还可以进一步获取有效信息组所属的报告文件的ID(删除有效信息除外)。
在本发明一种优选实施例中,预设的有效信息数据库通过如下方式生成:
获取报告文件;
将报告文件按页数进行文档切图处理,得到至少一张报告文件图像;
对每张报告文件图像进行字块识别,得到每张报告文件图像各自对应的至少一个字块;
将每张报告文件图像中,至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像;
提取出每张有效信息图像的有效信息标题和有效信息关键字,并建立每张有效信息图像,以及每张有效信息图像各自对应的有效信息标题和有效信息关键字的关联关系;
将每张有效信息图像、每张有效信息图像各自对应的有效信息标题、有效信息关键字,以及关联关系存储至有效信息数据库。
具体而言,先获取任一完整的报告文件,然后对报告文件的每一页进行文档切图处理,得到至少一张报告文件图像。其中,文档切图是将获取到的文档按页转换成图像,比如png格式的图像,具体可以使用软件xpdf工具包中的pdftopng,它能将pdf页面转换成png格式的图像。
然后再对每张报告文件图像进行字块识别,得到每张报告文件图像中的至少一个字块。其中,字块识别可以采用OCR(Optical Character Recognition,光学字符识别),每一张报告文件图像都要经过OCR处理,报告文件图像中不同区域的文字可称作字块,字块被OCR处理后将得到字块的内容、位置、置信度、段落等信息,OCR处理得到的字块需要过滤处理,将非文字与数字字块删除,OCR的效果如图15所示。
在本发明一种优选实施例中,检测每张报告文件图像中数字字块的数量是否超过第一数量阈值;
若是,则将每张报告文件图像中超过第一数量阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
在本发明一种优选实施例中,将每张报告文件图像中,至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量与对应的报告文件图像中全部字块的数量的比例是否超过比例阈值;
若是,则将每张报告文件图像中超过比例阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
在本发明一种优选实施例中,将每张报告文件图像中,至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
获取每张报告文件图像中所述至少一个字块的高度,并确定出高度最大的预设数量的目标字块;
检测每张报告文件图像中的目标字块是否包含中文字块;
若是,则检测包含中文块的目标字块中中文字符的数量是否超过第三数量阈值;
若是,则将每张报告文件图像中目标字块包含中文字块的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
具体而言,高价值的有效信息一般是图和表的形式,拥有概括性结论,数字信息居多,针对任一张报告文件图像,可以使用以下规则进行判断:
1)纯数字字块的数量(包括含有“%”,“-”,“+”)是否超过第一数量阈值,比如30;
2)纯数字字块的数量与该报告文件图像中全部字块的数量的比例是否超过比例阈值,比如0.2;
3)获取每张报告文件图像中至少一个字块的高度,并确定出高度最大的预设数量的目标字块;检测每张报告文件图像中的目标字块是否包含中文字块;若是,则检测包含中文块的目标字块中中文字符的数量是否超过第三数量阈值;若是,则将每张报告文件图像中目标字块包含中文字块的报告文件图像作为有效信息图像;比如,将报告文件图像中的全部字块按字块高度进行降序排序,然后获取排序前三的目标字块,检测三个目标字块中是否含有中文字块,若是,则检测包含中文字块的目标字块中中文字符的数量是否超过8个。
当然,上述的规则和数值是根据实际实验总结得出,在实际应用中,可以根据实际需求进行调整,本发明实施例对此不作限制。而且,在检测时可以采用上述至少一种规则,或者,除了上述规则外,还可以采用其它规则,在实际应用中可以根据实际需求进行设置,本发明实施例对此也不作限制。
基于上述规则,对每一页报告文件图像中的所有字块进行判断,将满足上述规则的报告文件图像作为有效信息图像,从而得到至少一张有效信息图像。
其中,一张有效信息图像的提取过程可以被抽象为Job类,处理Job类会放在队列中执行,执行的流程如图16所示。
针对每一张有效信息图像,提取出有效信息标题和有效信息关键字。其中,有效信息标题和有效信息关键字的提取可以采用腾讯云自然语言处理(Natural LanguageProcess,NLP)服务,NLP服务深度整合了腾讯内部的NLP技术,依托千亿级中文语料累积,提供18项智能文本处理能力,包括智能分词、实体识别、文本纠错、情感分析、文本分类、敏感审核、词向量、关键词提取、自动摘要、智能闲聊、百科知识图谱查询等。
然后建立每张有效信息图像,以及每张有效信息图像各自对应的有效信息标题和有效信息关键字的关联关系,再将有效信息图像、有效信息标题、有效信息关键字和关联关系存储至预设的有效信息数据库中,除了有效信息之外,还可以存储其它数据,并生成数据表,来建立每个有效信息组与其它数据之间的关联关系,生成的数据表如表1所示:
Figure BDA0002563416120000261
Figure BDA0002563416120000271
表1
在本发明实施例中,任一数据库可以采用对象存储(Cloud Object Storage,COS),COS是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持HTTP/HTTPS协议访问的分布式存储服务。
需要说明的是,完整的报告文件可以存储在预设的完整报告数据库中,完整报告数据库与有效信息数据库可以是两个独立的数据库,也可以是一个数据库中的两个独立的部分,在实际应用中可以根据实际需求进行设置,本发明实施例对此不作限制。
在本发明实施例中,针对搜索关键词,搜索得到与所述搜索关键词对应的至少一个有效信息组,然后确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息,再将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组,针对每份报告文件生成内容盒,得到至少一个内容盒;内容盒包括报告文件的报告文件信息和对应的有效信息组;分别展示至少一个内容盒。通过上述方式,本发明实施例可以根据搜索关键词对所有报告的内容进行综合性识别,包括但不限于可视化图表类标题,相较于现有技术中仅限于可视化图表类标题的识别,导致针对内容格式多样化和复杂度高的机构类报告和其他类型报告,会出现搜索关键词命中率较低问题,本发明实施例对报告内容标准化程度要求较低,可兼容更多报告内容类型,从而提升了搜索关键词的命中率。同时,通过综合性识别得到与搜索关键词匹配的、属于不同报告文件的各个有效信息组,再基于报告文件对各个有效信息组进行聚合性展示,使得同一份报告文件内与搜索关键词匹配的多个有效信息组具有关联性,减少了用户在浏览时的甄别行为,从而提升了用户体验。
图17为本申请又一实施例提供的一种信息处理装置的结构示意图,如图17所示,本实施例的装置可以包括:
搜索模块1701,用于针对搜索关键词,搜索得到与搜索关键词对应的至少一个有效信息组;
处理模块1702,用于确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息;
聚合模块1703,用于将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组;
生成模块1704,用于针对每份报告文件生成内容盒,得到至少一个内容盒;内容盒包括报告文件的报告文件信息和对应的有效信息组;
展示模块1705,用于分别展示至少一个内容盒。
在本发明一种优选实施例中,至少一个有效信息组中的任一有效信息组包括有效信息图像、有效信息标题以及有效信息关键字;
该装置还包括:
接收模块,用于接收针对至少一个内容盒中任一内容盒的展示指令;
获取模块,用于获取与任一内容盒对应的各个有效信息中的有效信息标题;
展示模块,还用于通过预设的报告内容阅读器展示各个有效信息标题,以及各个有效信息标题中当前被选中的有效信息标题对应的有效信息。
在本发明一种优选实施例中,报告内容阅读器还设置有针对当前展示的有效信息组的至少一个交互指令;
该装置还包括:
执行模块,用于当至少一个交互指令中任一交互指令被触发时,针对当前展示的有效信息组执行交互指令对应的交互动作。
在本发明一种优选实施例中,交互指令包括摘录指令;
执行模块具体用于:
当摘录指令被触发时,判断预设的收藏夹中是否存在已生成的笔记本;
若是,则展示已生成的笔记本的笔记本列表,当接收到针对笔记本列表中任一笔记本的确认指令时,将当前展示的有效信息组复制至笔记本中;
若否,则展示预设的创建笔记本界面,基于创建笔记本界面创建新笔记本,并将当前展示的有效信息组复制至新笔记本。
在本发明一种优选实施例中,接收模块,还用于接收针对预设的收藏夹中已生成的笔记本中任一笔记本的展示指令;
展示模块,还用于通过报告内容阅读器展示笔记本中的有效信息组。
在本发明一种优选实施例中,搜索模块,包括:
分析子模块,用于对搜索关键词进行Query分析,得到分析后的关键词;
语句拼装子模块,用于基于Elasticsearch Query DSL语法对分析后的关键词进行拼装,得到有效信息组的查询语句;查询语句包括关键字字段和标题字段;
查询子模块,用于采用查询语句与预设的搜索引擎中的索引进行查询,得到与搜索关键词匹配的至少一个有效信息组。
在本发明一种优选实施例中,预设的搜索引擎通过如下方式生成:
当检测到预设的有效信息数据库中已存储的所述至少一个有效信息组中任一有效信息组发生数据更新时,获取发生数据更新的有效信息组的有效信息标题和有效信息关键字;数据更新包括有效信息组的增加、删除、修改中的至少一种;
基于有效信息标题和有效信息关键字生成索引,并建立有效信息标题、有效信息关键字与索引的映射关系;其中,索引包括标题字段和关键字字段。
在本发明一种优选实施例中,预设的有效信息数据库通过如下方式生成:
获取报告文件;
将报告文件按页数进行文档切图处理,得到至少一张报告文件图像;
对每张报告文件图像进行字块识别,得到每张报告文件图像各自对应的至少一个字块;
将每张报告文件图像中,至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像;
提取出每张有效信息图像的有效信息标题和有效信息关键字,并建立每张有效信息图像,以及每张有效信息图像各自对应的有效信息标题和有效信息关键字的关联关系;
将每张有效信息图像、每张有效信息图像各自对应的有效信息标题、有效信息关键字,以及关联关系存储至有效信息数据库。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量是否超过第一数量阈值;
若是,则将每张报告文件图像中超过第一数量阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量与对应的报告文件图像中全部字块的数量的比例是否超过比例阈值;
若是,则将每张报告文件图像中超过比例阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
优选地,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
获取每张报告文件图像中所述至少一个字块的高度,并确定出高度最大的预设数量的目标字块;
检测每张报告文件图像中的目标字块是否包含中文字块;
若是,则检测包含中文块的目标字块中中文字符的数量是否超过第三数量阈值;
若是,则将每张报告文件图像中目标字块包含中文字块的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
本实施例的信息处理装置可执行本申请第一个实施例、第二个实施例所示的信息处理方法,其实现原理相类似,此处不再赘述。
在本发明实施例中,针对搜索关键词,搜索得到与搜索关键词对应的至少一个有效信息组,然后确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息,再将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组,针对每份报告文件生成内容盒,得到至少一个内容盒;内容盒包括报告文件的报告文件信息和对应的有效信息组;分别展示至少一个内容盒。通过上述方式,本发明实施例可以根据搜索关键词对所有报告的内容进行综合性识别,包括但不限于可视化图表类标题,相较于现有技术中仅限于可视化图表类标题的识别,导致针对内容格式多样化和复杂度高的机构类报告和其他类型报告,会出现搜索关键词命中率较低问题,本发明实施例对报告内容标准化程度要求较低,可兼容更多报告内容类型,从而提升了搜索关键词的命中率。同时,通过综合性识别得到与搜索关键词匹配的、属于不同报告文件的各个有效信息组,再基于报告文件对各个有效信息组进行聚合性展示,使得同一份报告文件内与搜索关键词匹配的多个有效信息组具有关联性,减少了用户在浏览时的甄别行为,从而提升了用户体验。
本申请的又一实施例中提供了一种电子设备,该电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:针对搜索关键词,搜索得到与搜索关键词对应的至少一个有效信息组,然后确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息,再将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组,针对每份报告文件生成内容盒,得到至少一个内容盒;内容盒包括报告文件的报告文件信息和对应的有效信息组;分别展示至少一个内容盒。通过上述方式,本发明实施例可以根据搜索关键词对所有报告的内容进行综合性识别,包括但不限于可视化图表类标题,相较于现有技术中仅限于可视化图表类标题的识别,导致针对内容格式多样化和复杂度高的机构类报告和其他类型报告,会出现搜索关键词命中率较低问题,本发明实施例对报告内容标准化程度要求较低,可兼容更多报告内容类型,从而提升了搜索关键词的命中率。同时,通过综合性识别得到与搜索关键词匹配的、属于不同报告文件的各个有效信息组,再基于报告文件对各个有效信息组进行聚合性展示,使得同一份报告文件内与搜索关键词匹配的多个有效信息组具有关联性,减少了用户在浏览时的甄别行为,从而提升了用户体验。
在一个可选实施例中提供了一种电子设备,如图18所示,图18所示的电子设备18000包括:处理器18001和存储器18003。其中,处理器18001和存储器18003相连,如通过总线18002相连。可选地,电子设备18000还可以包括收发器18004。需要说明的是,实际应用中收发器18004不限于一个,该电子设备18000的结构并不构成对本申请实施例的限定。
处理器18001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器18001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线18002可包括一通路,在上述组件之间传送信息。总线18002可以是PCI总线或EISA总线等。总线18002可以分为地址总线、数据总线、控制总线等。为便于表示,图18中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器18003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器18003用于存储执行本申请方案的应用程序代码,并由处理器18001来控制执行。处理器18001用于执行存储器18003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
本申请的又一实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,针对搜索关键词,搜索得到与搜索关键词对应的至少一个有效信息组,然后确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息,再将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组,针对每份报告文件生成内容盒,得到至少一个内容盒;内容盒包括报告文件的报告文件信息和对应的有效信息组;分别展示至少一个内容盒。通过上述方式,本发明实施例可以根据搜索关键词对所有报告的内容进行综合性识别,包括但不限于可视化图表类标题,相较于现有技术中仅限于可视化图表类标题的识别,导致针对内容格式多样化和复杂度高的机构类报告和其他类型报告,会出现搜索关键词命中率较低问题,本发明实施例对报告内容标准化程度要求较低,可兼容更多报告内容类型,从而提升了搜索关键词的命中率。同时,通过综合性识别得到与搜索关键词匹配的、属于不同报告文件的各个有效信息组,再基于报告文件对各个有效信息组进行聚合性展示,使得同一份报告文件内与搜索关键词匹配的多个有效信息组具有关联性,减少了用户在浏览时的甄别行为,从而提升了用户体验。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种信息处理方法,其特征在于,包括:
针对搜索关键词,搜索得到与所述搜索关键词对应的至少一个有效信息组;
确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息;
将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息组;
针对每份报告文件生成内容盒,得到至少一个内容盒;所述内容盒包括报告文件的所述报告文件信息和对应的有效信息组;
分别展示所述至少一个内容盒。
2.根据权利要求1所述的信息处理方法,其特征在于,所述至少一个有效信息组中的任一有效信息组包括有效信息图像、有效信息标题以及有效信息关键字;
所述方法还包括:
当接收到针对所述至少一个内容盒中任一内容盒的展示指令时,获取与所述任一内容盒对应的各个有效信息组中的有效信息标题;
通过预设的报告内容阅读器展示各个有效信息标题,以及各个有效信息标题中当前被选中的有效信息标题对应的有效信息组。
3.根据权利要求2所述的信息处理方法,其特征在于,所述报告内容阅读器还设置有针对当前展示的有效信息的至少一个交互指令;
所述方法还包括:
当至少一个交互指令中任一交互指令被触发时,针对当前展示的有效信息执行所述交互指令对应的交互动作。
4.根据权利要求3所述的信息处理方法,其特征在于,所述交互指令包括摘录指令;
所述当至少一个交互指令中任一交互指令被触发时,针对当前展示的有效信息组执行所述交互指令对应的交互动作,包括:
当所述摘录指令被触发时,判断预设的收藏夹中是否存在已生成的笔记本;
若是,则展示已生成的笔记本的笔记本列表,当接收到针对笔记本列表中任一笔记本的确认指令时,将所述当前展示的有效信息组复制至所述笔记本中;
若否,则展示预设的创建笔记本界面,基于所述创建笔记本界面创建新笔记本,并将所述当前展示的有效信息组复制至所述新笔记本。
5.根据权利要求1-4任一所述的信息处理方法,其特征在于,还包括:
接收到针对预设的收藏夹中已生成的笔记本中任一笔记本的展示指令时,通过报告内容阅读器展示所述笔记本中的有效信息。
6.根据权利要求1所述的信息处理方法,其特征在于,所述搜索得到与所述搜索关键词对应的至少一个有效信息组,包括:
对所述搜索关键词进行Query分析,得到分析后的关键词;
基于Elasticsearch Query DSL语法对所述分析后的关键词进行拼装,得到有效信息组的查询语句;所述查询语句包括关键字字段和标题字段;
采用所述查询语句与预设的搜索引擎中的索引进行查询,得到与所述搜索关键词匹配的至少一个有效信息组。
7.根据权利要求1或6所述的信息处理方法,其特征在于,预设的搜索引擎中的索引通过如下方式生成:
当检测到预设的有效信息数据库中已存储的所述至少一个有效信息组中任一有效信息组发生数据更新时,获取发生数据更新的有效信息组的有效信息标题和有效信息关键字;所述数据更新包括有效信息组的增加、删除、修改中的至少一种;
基于所述有效信息标题和有效信息关键字生成索引,并建立所述有效信息标题、有效信息关键字与所述索引的映射关系;其中,所述索引包括标题字段和关键字字段。
8.根据权利要求7所述的信息处理方法,其特征在于,
所述预设的有效信息数据库通过如下方式生成:
获取报告文件;
将所述报告文件按页数进行文档切图处理,得到至少一张报告文件图像;
对每张报告文件图像进行字块识别,得到每张报告文件图像各自对应的至少一个字块;
将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像;
提取出每张有效信息图像的有效信息标题和有效信息关键字,并建立每张有效信息图像,以及每张有效信息图像各自对应的有效信息标题和有效信息关键字的关联关系;
将每张有效信息图像、每张有效信息图像各自对应的有效信息标题、有效信息关键字,以及所述关联关系存储至所述有效信息数据库。
9.根据权利要求8所述的信息处理方法,其特征在于,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量是否超过第一数量阈值;
若是,则将每张报告文件图像中超过第一数量阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
10.根据权利要求8所述的信息处理方法,其特征在于,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
检测每张报告文件图像中数字字块的数量与对应的报告文件图像中全部字块的数量的比例是否超过比例阈值;
若是,则将每张报告文件图像中超过比例阈值的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
11.根据权利要求8所述的信息处理方法,其特征在于,将每张报告文件图像中,所述至少一个字块满足预设要求的报告文件图像作为有效信息图像,得到至少一张有效信息图像,包括:
获取每张报告文件图像中所述至少一个字块的高度,并确定出高度最大的预设数量的目标字块;
检测每张报告文件图像中的目标字块是否包含中文字块;
若是,则检测包含中文块的目标字块中中文字符的数量是否超过第三数量阈值;
若是,则将每张报告文件图像中目标字块包含中文字块的报告文件图像作为有效信息图像,得到至少一张有效信息图像。
12.一种信息处理装置,其特征在于,包括:
搜索模块,用于针对搜索关键词,搜索得到与所述搜索关键词对应的至少一个有效信息组;
处理模块,用于确定出各个有效信息组所属的报告文件,并获取每份报告文件的报告文件信息;
聚合模块,用于将各个有效信息组基于所属的报告文件进行聚合,得到每份报告文件各自对应的聚合后的有效信息信组;
生成模块,用于针对每份报告文件生成内容盒,得到至少一个内容盒;所述内容盒包括报告文件的所述报告文件信息和对应的有效信息组;
展示模块,用于分别展示所述至少一个内容盒。
13.一种电子设备,其特征在于,其包括:
处理器、存储器和总线;
所述总线,用于连接所述处理器和所述存储器;
所述存储器,用于存储操作指令;
所述处理器,用于通过调用所述操作指令,执行上述权利要求1-11中任一项所述的信息处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1-11中任一项所述的信息处理方法。
CN202010622216.7A 2020-06-30 2020-06-30 信息处理方法、装置、电子设备及计算机可读存储介质 Pending CN111666383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010622216.7A CN111666383A (zh) 2020-06-30 2020-06-30 信息处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010622216.7A CN111666383A (zh) 2020-06-30 2020-06-30 信息处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN111666383A true CN111666383A (zh) 2020-09-15

Family

ID=72391184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010622216.7A Pending CN111666383A (zh) 2020-06-30 2020-06-30 信息处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111666383A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及***
CN113239650A (zh) * 2021-07-09 2021-08-10 成都爱旗科技有限公司 一种报告生成方法、装置和电子设备
CN113297345A (zh) * 2021-05-21 2021-08-24 深圳市智尊宝数据开发有限公司 分析报告生成方法、电子设备及相关产品
CN113535892A (zh) * 2021-06-08 2021-10-22 北京易创新科信息技术有限公司 行业研究报告的搜索方法、装置及电子设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612944A (zh) * 2020-12-07 2021-04-06 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及***
CN112612944B (zh) * 2020-12-07 2024-05-31 深圳价值在线信息科技股份有限公司 一种案例信息管理方法、终端设备及***
CN113297345A (zh) * 2021-05-21 2021-08-24 深圳市智尊宝数据开发有限公司 分析报告生成方法、电子设备及相关产品
CN113297345B (zh) * 2021-05-21 2021-12-03 深圳市智尊宝数据开发有限公司 分析报告生成方法、电子设备及相关产品
CN113535892A (zh) * 2021-06-08 2021-10-22 北京易创新科信息技术有限公司 行业研究报告的搜索方法、装置及电子设备
CN113535892B (zh) * 2021-06-08 2023-12-01 北京易创新科信息技术有限公司 行业研究报告的搜索方法、装置及电子设备
CN113239650A (zh) * 2021-07-09 2021-08-10 成都爱旗科技有限公司 一种报告生成方法、装置和电子设备
CN113239650B (zh) * 2021-07-09 2021-10-15 成都爱旗科技有限公司 一种报告生成方法、装置和电子设备

Similar Documents

Publication Publication Date Title
KR100462292B1 (ko) 중요도 정보를 반영한 검색 결과 리스트 제공 방법 및 그시스템
US10878044B2 (en) System and method for providing content recommendation service
CN111666383A (zh) 信息处理方法、装置、电子设备及计算机可读存储介质
CN110489558B (zh) 文章聚合方法和装置、介质和计算设备
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
US20170212899A1 (en) Method for searching related entities through entity co-occurrence
US9129009B2 (en) Related links
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
US20130339840A1 (en) System and method for logical chunking and restructuring websites
CN105493075A (zh) 基于所标识的实体的属性值检索
CN102214208A (zh) 一种基于非结构化文本生成结构化信息实体的方法与设备
WO2023241332A1 (zh) 摘要信息生成与搜索结果展示方法、装置、设备和介质
US11745093B2 (en) Developing implicit metadata for data stores
RU2693193C1 (ru) Автоматизированное извлечение информации
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
US11250084B2 (en) Method and system for generating content from search results rendered by a search engine
CN116186198A (zh) 信息检索方法、装置、计算机设备及存储介质
KR101662215B1 (ko) 확장정보 기능을 제공하는 검색 시스템 및 방법
US8892596B1 (en) Identifying related documents based on links in documents
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
US8195458B2 (en) Open class noun classification
KR101757755B1 (ko) 선행기술조사의 분배처리 방법 및 이를 운용하는 서버 및 시스템
KR101647596B1 (ko) 콘텐츠 서비스를 제공하는 방법 및 서버
US20160150038A1 (en) Efficiently Discovering and Surfacing Content Attributes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination