CN114936269A - 文档搜索平台、搜索方法、装置、电子设备及存储介质 - Google Patents

文档搜索平台、搜索方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114936269A
CN114936269A CN202210637112.2A CN202210637112A CN114936269A CN 114936269 A CN114936269 A CN 114936269A CN 202210637112 A CN202210637112 A CN 202210637112A CN 114936269 A CN114936269 A CN 114936269A
Authority
CN
China
Prior art keywords
document
target
tag
processed
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210637112.2A
Other languages
English (en)
Inventor
邬丹琳
张勇
周津
杜文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Laiye Technology Beijing Co Ltd
Original Assignee
Laiye Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Laiye Technology Beijing Co Ltd filed Critical Laiye Technology Beijing Co Ltd
Priority to CN202210637112.2A priority Critical patent/CN114936269A/zh
Priority to PCT/CN2022/100921 priority patent/WO2023236257A1/zh
Publication of CN114936269A publication Critical patent/CN114936269A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提出一种文档搜索平台、搜索方法、装置、电子设备及存储介质,该方法包括:获取待处理文档,其中,待处理文档具有对应的文档类型,并获取与待处理文档对应的标签信息,再根据标签信息和待处理文档,构建与文档类型对应的目标文档库,以及根据目标文档库,形成目标文档搜索平台,由于是根据与文档类型对应的目标文档库,形成目标文档搜索平台,从而使得构建得到的目标文档平台可以基于相应文档类型的目标文档库,为不同业务场景提供相应文档类型的文档搜索服务,从而能够有效地提升文档搜索平台的复用性,使得构建得到的文档搜索平台能够有效地满足不同业务场景的文档搜索需求。本公开还能结合RPA和AI实现IA的构建文档搜索平台,进一步减少人工成本。

Description

文档搜索平台、搜索方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术技术领域,尤其涉及一种文档搜索平台、搜索方法、装置、电子设备及存储介质。
背景技术
机器人流程自动化(Robotic Process Automation,RPA),是指通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。人工智能(ArtificialIntelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门技术科学。
相关技术中,为了满足相应业务场景的文档搜索需求,通常是根据相应业务场景下的全部文档构建文档搜索平台,而针对不同的业务场景,通常需要构建多个不同的文档搜索平台。
这种方式下,构建得到的文档搜索平台无法满足不同业务场景中的文档搜索需求,导致构建得到的文档搜索平台无法被不同业务场景所复用。
发明内容
本公开实施例提供一种文档搜索平台的构建方法、文档搜索方法、装置、电子设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本公开实施例提出的文档搜索平台的构建方法,包括:获取待处理文档,其中,待处理文档具有对应的文档类型;获取与待处理文档对应的标签信息;根据标签信息和待处理文档,构建与文档类型对应的目标文档库;以及根据目标文档库,形成目标文档搜索平台。
在一种实施方式中,获取与待处理文档对应的标签信息,包括:确定与待处理文档对应的父标签;从待处理文档中解析得到与父标签对应的子标签;以及将父标签和子标签共同作为标签信息。
在一种实施方式中,从待处理文档中解析与父标签对应的子标签,包括:调用人工智能AI领域的自然语言处理NLP服务,从所述待处理文档中识别与所述父标签对应的文档通用索引,并将所述文档通用索引作为所述子标签;和/或调用所述NLP服务,从所述待处理文档中识别与所述父标签对应的关联实体值,并将所述关联实体值作为所述子标签。
在一种实施方式中,根据标签信息和待处理文档,构建与文档类型对应的目标文档库,包括:调用机器人流程自动化RPA机器人,确定与文档类型对应的初始文档库;将标签信息和待处理文档存储至初始文档库,以形成目标文档库。
在一种实施方式中,将标签信息和待处理文档存储至初始文档库,包括:获取与待处理文档对应的目标加载类型;采用与目标加载类型对应的目标文档存储方式,将标签信息和待处理文档存储至初始文档库。
在一种实施方式中,采用与目标加载类型对应的目标文档存储方式,将标签信息和待处理文档存储至初始文档库,包括:如果目标加载类型是文档加载类型,则将待处理文档和相应文档标签信息存储至目标文档库;和/或如果目标加载类型是链接加载类型,则将与待处理文档对应的***和相应标签信息存储至目标文档库;和/或如果目标加载类型是富文本加载类型,则经由富文本编辑器对待处理文档进行编辑处理,并将编辑处理结果和相应标签信息存储至目标文档库。
在一种实施方式中,在确定与待处理文档对应的父标签之后,还包括:针对父标签配置属性,并将所配置属性作为标签信息,其中,属性用于标识父标签是否参与文档搜索。
第二方面,本公开实施例提出的文档搜索方法,应用于文档搜索平台,文档搜索平台由上述第一方面的文档搜索平台的构建方法构建得到,其中,该文档搜索方法包括:接收文档搜索请求,并从文档搜索请求中解析需求文档类型和需求标签信息,再从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的文档;从目标文档库中搜索与需求标签信息对应的目标文档。
在一种实施方式中,需求标签信息包括:需求属性和需求子标签,目标文档库中具有对应的多个父标签,父标签具有所对应子标签,所对应子标签用于描述文档;其中,从目标文档库中搜索与需求标签信息对应的目标文档,包括:调用人工智能AI领域的自然语言处理NLP服务处理所述需求属性,以从所述多个父标签中确定目标父标签,其中,所述目标父标签具有所对应目标子标签;根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档。
在一种实施方式中,目标文档库包括:多个文档;其中,根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档,包括:调用机器人流程自动化RPA机器人,以根据所述需求子标签和所述目标子标签从多个所述文档中搜索待筛选文档;根据需求属性,从多个待筛选文档中筛选得到目标文档。
在一种实施方式中,根据需求子标签和目标子标签从目标文档库中搜索多个待筛选文档,包括:确定需求子标签和各个文档的目标子标签之间的相似度值;如果相似度值满足设定条件,则将相应目标子标签所对应文档作为待筛选文档。
第三方面,本公开实施例提出的文档搜索平台的构建装置,包括:第一获取模块,用于获取待处理文档,其中,待处理文档具有对应的文档类型;第二获取模块,用于获取与待处理文档对应的标签信息;构建模块,用于根据标签信息和待处理文档,构建与文档类型对应的目标文档库;以及形成模块,用于根据目标文档库,形成目标文档搜索平台。
在一种实施方式中,第二获取模块,包括:第一确定子模块,用于确定与待处理文档对应的父标签;解析子模块,用于从待处理文档中解析得到与父标签对应的子标签;以及处理子模块,用于将父标签和子标签共同作为标签信息。
在一种实施方式中,解析子模块,还用于:调用人工智能AI领域的自然语言处理NLP服务,从所述待处理文档中识别与所述父标签对应的文档通用索引,并将所述文档通用索引作为所述子标签;和/或调用所述NLP服务,从所述待处理文档中识别与所述父标签对应的关联实体值,并将所述关联实体值作为所述子标签。
在一种实施方式中,构建模块,包括:第二确定子模块,用于调用机器人流程自动化RPA机器人,确定与文档类型对应的初始文档库;存储子模块,用于将标签信息和待处理文档存储至初始文档库,以形成目标文档库。
在一种实施方式中,存储子模块,还用于:获取与待处理文档对应的目标加载类型;采用与目标加载类型对应的目标文档存储方式,将标签信息和待处理文档存储至初始文档库。
在一种实施方式中,存储子模块,还用于:如果目标加载类型是文档加载类型,则将待处理文档和相应文档标签信息存储至目标文档库;和/或如果目标加载类型是链接加载类型,则将与待处理文档对应的***和相应标签信息存储至目标文档库;和/或如果目标加载类型是富文本加载类型,则经由富文本编辑器对待处理文档进行编辑处理,并将编辑处理结果和相应标签信息存储至目标文档库。
在一种实施方式中,第二获取模块,还包括:配置子模块,针对父标签配置属性,并将所配置属性作为标签信息,其中,属性用于标识父标签是否参与文档搜索。
在一种实施方式中,文档搜索平台的构建方法是采用人工智能AI和机器人流程自动化RPA实现的。
第四方面,本公开实施例提出的文档搜索装置,该文档搜索装置由上述第三方面的包括文档搜索平台的构建装置构建得到,该文档搜索装置包括:接收模块,用于接收文档搜索请求;解析模块,用于从文档搜索请求中解析需求文档类型和需求标签信息;确定模块,用于从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的文档;搜索模块,用于从目标文档库中搜索与需求标签信息对应的目标文档。
在一种实施方式中,需求标签信息包括:需求属性和需求子标签,目标文档库中具有对应的多个父标签,父标签具有所对应子标签,所对应子标签用于描述文档;其中,搜索模块,包括:第三确定子模块,用于调用人工智能AI领域的自然语言处理NLP服务处理所述需求属性,以从所述多个父标签中确定目标父标签,其中,所述目标父标签具有所对应目标子标签;搜索子模块,用于根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档。
在一种实施方式中,目标文档库包括:多个文档;其中,搜索子模块,还用于:调用机器人流程自动化RPA机器人,以根据所述需求子标签和所述目标子标签从多个所述文档中搜索待筛选文档;根据需求属性从多个待筛选文档中筛选得到目标文档。
在一种实施方式中,搜索子模块,还用于:确定需求子标签和各个文档的目标子标签之间的相似度值;如果相似度值满足设定条件,则将相应目标子标签所对应文档作为待筛选文档。
第五方面,本公开实施例提出的电子设备,其包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行程序时,实现如第一方面实施例提供的一种文档搜索平台的构建方法,或者实现如第二方面实施例提供的一种文档搜索方法。
第六方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时,实现如第一方面实施例提供的一种文档搜索平台的构建方法,或者实现如第二方面实施例提供的一种文档搜索方法。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本公开进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本公开提出的一些实施方式,而不应将其视为是对本公开范围的限制。
图1是本公开一实施例提出的文档搜索平台的构建方法的流程示意图;
图2是本公开另一实施例提出的文档搜索平台的构建方法的流程示意图;
图3是本公开另一实施例提出的文档搜索平台的构建方法的流程示意图;
图4是本公开一实施例提出的文档库构建界面的示意图;
图5是本公开一实施例提出的文档存储管理界面的示意图;
图6A是本公开一实施例提出的文档加载类型的文档存储界面的示意图;
图6B是本公开一实施例提出的链接加载类型的文档存储界面的示意图;
图6C是本公开一实施例提出的富文本加载类型的文档存储界面的示意图;
图7是本公开一实施例提出的标签信息配置界面的示意图;
图8是本公开一实施例提出的属性配置界面的示意图;
图9是本公开一实施例提出的文档搜索方法的流程示意图;
图10是本公开另一实施例提出的文档搜索方法的流程示意图;
图11是本公开一实施例提出的文档属性编辑界面的示意图;
图12是本公开一实施例提出的文档搜索界面的示意图;
图13是本公开一实施例提出的文档筛选界面的示意图;
图14是本公开一实施例提出的文档搜索平台的构建装置的结构示意图;
图15是本公开另一实施例提出的文档搜索平台的构建装置的结构示意图;
图16是本公开一实施例提出的文档搜索装置的结构示意图;
图17是本公开另一实施例提出的文档搜索装置的结构示意图;
图18是本公开一实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面详细描述本公开的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本公开,而不能理解为对本公开的限制。
在本公开实施例的描述中,术语“多个”,是指两个或两个以上。
在本公开实施例的描述中,术语“待处理文档”,是指当前待对其进行处理的文档,例如,专业知识文档,企业信息文档等。
在本公开实施例的描述中,术语“文档类型”,是指待处理文档可以根据不同的划分依据被划分为多种文档类型,例如,医学文档类型,法律文档类型等。
在本公开实施例的描述中,术语“标签信息”,是指用于对待处理文档的标签进行描述的信息,例如,标签的特征信息,标签的内容信息等。
在本公开实施例的描述中,术语“父标签”,是指针对待处理文档预先设定的标签,即可以被称为父标签,该父标签可以例如是从其他平台中复用得到的关联实体。
在本公开实施例的描述中,术语“文档通用索引”,是指对于全部的待处理文档而言,均可进行适用的文档索引,例如,文档类型,文档大小,文档名称,文档存储地址,文档更新时间等。
在本公开实施例的描述中,术语“属性”,是指用于对父标签的属性进行描述的信息,例如,标签名称,标签数据格式,标签是否允许修改说明,标签是否参与搜索说明等信息。
在本公开实施例的描述中,术语“子标签”,是指与父标签对应的具体文档内容。
在本公开实施例的描述中,术语“关联实体值”,是指用于对相应父标签进行具体描述的相关信息,例如,关联实体的特征信息,关联实体的内容信息等。
在本公开实施例的描述中,术语“初始文档库”,是指在文档搜索平台的构建方法执行的初始阶段,从多个文档库中与待处理文档的文档类型对应的文档库。
在本公开实施例的描述中,术语“文档搜索请求”,是指用户侧电子设备作出的用于触发在文档搜索平台中进行文档搜索的请求。
在本公开实施例的描述中,术语“需求文档类型”,是指用户在进行文档搜索时,可以具有其所需求进行搜索的文档类型,该文档类型即可以被称为需求文档类型,该需求文档搜索类型可以用于对用户所处的业务场景中的文档搜索需求进行表征。
在本公开实施例的描述中,术语“需求标签信息”,是指用户在进行文档搜索时,可以具有其所需求进行搜索的标签信息,例如,用户需要搜索的文档名称,文档内容关键词等。
参照下面的描述和附图,将清楚本公开的实施例的这些和其他方面。在这些描述和附图中,具体公开了本公开的实施例中的一些特定实施方式,来表示实施本公开的实施例的原理的一些方式,但是应当理解,本公开的实施例的范围不受此限制。相反,本公开的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本公开一实施例提出的文档搜索平台的构建方法的流程示意图。
本实施例以文档搜索平台的构建方法被配置为文档搜索平台的构建装置中来举例说明,本实施例中文档搜索平台的构建方法可以被配置在文档搜索平台的构建装置中,文档搜索平台的构建装置可以设置在服务器中,或者也可以设置在电子设备中,本公开实施例对此不作限制。
参见图1,该文档搜索平台的构建方法,包括:
S101:获取待处理文档,其中,待处理文档具有对应的文档类型。
其中,当前待对其进行处理的文档,即可以被称为待处理文档,该待处理文档可以在文档搜索平台的构建方法的执行过程中,用于辅助构建文档搜索平台,该待处理文档可以具体例如为专业知识文档,企业信息文档等,对此不做限制。
可以理解的是,待处理文档可以根据不同的划分依据被划分为多种文档类型,例如,可以按照待处理文档所属的不同应用场景为划分依据,将待处理文档划分为不同的文档类型,该文档类型可以具体例如为医学文档类型,法律文档类型,对此不做限制。
本公开实施例中,可以是由文档搜索平台预先提供相应的数据传输接口,并经由该数据传输接口获取线下不同业务场景中发布的文档,并将该文档作为待处理文档,对此不做限制。
一些实施例中,还可以是预先建立线下不同业务场景平台和文档搜索平台之间的数据传输链路,并在线下不同业务场景平台有新文档发布时,生成相应的文档传输指令,并经由该文档传输指令,触发线下业务场景平台将新发布的文档传输至文档搜索平台,或者,也可以采用任意可能的方式,实现获取待处理文档,对此不做限制。
本公开实施例在从线下不同业务场景中获取待处理文档后,可以根据待处理文档所属的业务场景,对相应待处理文档进行相应业务场景的标注处理,例如,可以是在待处理文档是从医学场景中获取得到时,将待处理文档标注为医学文档类型,对此不做限制。
S102:获取与待处理文档对应的标签信息。
其中,标签可以用于对文档的基础属性及特征进行描述,该标签可以用于索引和管理文档的结构化字段信息,该标签可以具体例如为,文档名称,文档更新时间等,对此不做限制。
其中,用于对待处理文档的标签进行描述的信息,即可以被称为标签信息,该标签信息可以具体例如为,标签的特征信息,标签的内容信息等,对此不做限制。
本公开实施例中,在获取待处理文档后,可以对待处理文档进行标签信息识别,以获取与待处理文档对应的标签信息。
举例而言,对待处理文档进行标签信息识别,可以是对待处理文档进行实体识别,例如,可以是在获取得到待处理文档后,将待处理文档输入至预先训练的人工智能AI模型(该人工智能AI模型可以支持对待处理文档进行实体识别)中,由人工智能AI模型对待处理文档进行实体识别,以得到与该待处理文档相应的多个实体信息,并将该实体信息作为与待处理文档对应的标签信息,对此不做限制。
或者,对待处理文档进行标签信息识别,还可以是在获取得到待处理文档后,对待处理文档进行特征解析,例如,可以是经由特征解析算法对待处理文档进行特征解析处理,以得到与待处理文档相应的多个特征信息,并将该特征信息作为与待处理文档对应的标签信息,对此不做限制。
S103:根据标签信息和待处理文档,构建与文档类型对应的目标文档库。
本公开实施例在获取得到待处理文档,并确定与待处理文档对应的标签信息后,可以根据标签信息和待处理文档,构建与文档类型对应的文档库,该文档库即可以被称为目标文档库。
一些实施例中,根据标签信息和待处理文档,构建与文档类型对应的目标文档库,还可以是预先在文档搜索平台中构建相应文档类型的文档库,并采用文档类型对相应文档库进行标注处理,而后,可以在获取得到待处理文档后,将相应文档类型的待处理文档存储至对应文档类型的文档库中,并将标签信息配置在相应待处理文档侧,从而构建得到目标文档库,对此不做限制。
本公开实施例中,目标文档库可以用于存储相应文档类型的待处理文档和与待处理文档对应的标签信息,也即是说,根据标签信息和待处理文档,构建与文档类型对应的目标文档库,可以是将获取得到的具有相同文档类型的待处理文档和相应标签信息存储至一个文档库中,以构建目标文档库,对此不做限制。
本公开实施例中,由于构建得到的目标文档库中只用于对应存储一种文档类型的待处理文档和标签信息,从而可以在后续根据目标文档库,形成目标文档搜索平台后,根据实际业务场景调用目标文档搜索平台中与实际业务场景相对应的文档类型的目标文档库,进而在该目标文档库中进行文档搜索时,使得搜索得到的文档能够有效的适配于实际业务场景的文档搜索需求。
S104:根据目标文档库,形成目标文档搜索平台。
本公开实施例在根据标签信息和待处理文档,构建与文档类型对应的目标文档库后,可以根据目标文档库对文档搜索平台进行处理,并将前述处理得到的文档搜索平台作为目标文档搜索平台。
本公开实施例中,根据目标文档库,对文档搜索平台进行处理,可以是在构建得到目标文档库后,将目标文档库部署在文档搜索平台中,并根据目标文档库中的待处理文档相应的业务场景对目标文档库进行标注处理(例如,可以根据目标文档库中的待处理文档相应的业务场景,将目标文档库标注为医学文档库,法律文档库等,对此不做限制),并将前述标注处理得到的文档搜索平台作为目标文档搜索平台。
或者,也可以采用其他任意可能的方法,实现根据目标文档库,形成目标文档搜索平台,对此不做限制。
本公开实施例中,由于是根据标签信息和待处理文档,构建与文档类型相应业务场景的目标文档库,从而在将目标文档库部署在文档搜索平台中时,使得构建得到的目标文档搜索平台,可以基于多个具有不同业务场景的目标文档库,为不同的业务场景提供文档搜索服务,从而可以支持不同业务场景在进行相应文档搜索时,无需重新对相应业务场景的文档搜索平台进行构建,即可以直接对目标文档搜索平台进行调用,从而能够有效地提升文档搜索平台的复用性,使得构建得到的目标文档搜索平台能够有效地满足不同业务场景的文档搜索需求。
本公开实施例中,本公开实施例可以有效结合RPA和AI实现文档搜索平台构建过程的智能自动化(Intelligent Automation,IA),从而有效提升文档搜索平台构建的自动化程度,降低人工成本。
本实施例中,通过获取待处理文档,其中,待处理文档具有对应的文档类型,并获取与待处理文档对应的标签信息,再根据标签信息和待处理文档,构建与文档类型对应的目标文档库,以及根据目标文档库,形成目标文档搜索平台,由于根据与文档类型对应的目标文档库,形成目标文档搜索平台,从而使得构建得到的目标文档平台可以基于相应文档类型的目标文档库,为不同业务场景提供相应文档类型的文档搜索服务,从而能够有效地提升文档搜索平台的复用性,使得构建得到的文档搜索平台能够有效地满足不同业务场景的文档搜索需求。
图2是本公开另一实施例提出的文档搜索平台的构建方法的流程示意图。
参见图2,该文档搜索平台的构建方法,包括:
S201:获取待处理文档,其中,待处理文档具有对应的文档类型。
S201的描述说明可以具体参见上述实施例,在此不再赘述。
S202:确定与待处理文档对应的父标签。
其中,针对待处理文档预先设定的标签,即可以被称为父标签,该父标签可以是从其他平台中复用得到的关联实体,还可以是从标签库中预先获取得到的标签,还可以是适用于所有待处理文档的索引信息,对此不做限制。
其中,待处理文档可以具体是一段包含实体的文本,例如:“在2021年针对儿童的流感情况调研中,发现流感的发生具有一定的季节性”。
而实体,可以包括疾病,调研对象,调研时间等,对此不做限制。
其中,关联实体,是指从其他平台上获取得到的可供待处理文档复用的实体,例如,该关联实体,可以是从相应医疗业务平台上复用得到的关联实体。
也即是说,本公开实施例中,获取与待处理文档对应的关联实体,可以是经由文档搜索平台的数据传输接口,获取其他平台中可以被带处理文档所复用的关联实体,并将前述复用得到的关联实体作为与待处理文档对应的父标签,对此不做限制。
其中,索引信息是指参与搜索的所有文档相关的结构化信息,该索引信息可以具体例如为,文档类型,文档大小,文档名称,文档存储地址,文档更新时间等,对此不做限制。
一些实施例中,确定与待处理文档对应的父标签,可以是在确定待处理文档后,经由文档搜索平台的数据传输接口,获取其他相应业务平台可复用的关联实体,并将该标签作为父标签,或者,确定与待处理文档对应的标签,还可以是在获取得到待处理文档后,由文档搜索平台的数据传输接口,获取标签库中的标签,并将前述获取得到的标签作为与待处理文档对应的父标签,对此不做限制。
S203:针对父标签配置属性,并将所配置属性作为标签信息。
其中,用于对父标签的属性进行描述的信息,即可以被称为属性,该属性可以具体例如为标签名称,标签数据格式,标签是否允许修改说明,标签是否参与搜索说明等信息,对此不做限制,该属性用于确定父标签是否参与文档搜索。
也即是说,本公开实施例在获取得到父标签后,可以对父标签的各种属性进行配置,以满足不同的业务场景的文档搜索需求,该属性配置可以具体例如为,标签分类,标签名称,标签类型,标签是否必填,值类型,是否参与索引,可见性筛选等,对此不做限制。
本公开实施例中,通过针对父标签配置相应的属性,并将属性作为标签信息,从而能够基于属性对父标签进行灵活配置修改,从而能够使得文档搜索平台中的文档标签信息能够有效地满足不同的业务场景的文档搜索需求。
S204:从待处理文档中解析得到与父标签对应的子标签。
其中,假设待处理文档是:“在2021年针对儿童的流感情况调研中,发现流感的发生具有一定的季节性”,父标签是:“疾病,调研对象,调研时间等”,子标签可以是与父标签对应的具体文档内容,该与父标签对应的子标签可以例如是:“疾病-流感,调研对象-儿童,调研时间-2021年”对此不做限制。
一些实施例中,从待处理文档中解析得到与父标签对应的子标签,可以在获取得到待处理文档并确定相应的父标签后,可以将待处理文档和父标签输入至预训练的全局指针(Global Pointer)模型中,以得到Global Pointer模型输出的与父标签对应的子标签,对此不做限制。
其中,Global Pointer模型是基于旋转位置编码(一种相对位置编码)的人工智能模型,该模型可以支持对文档进行信息抽取,或者,该模型也可以被配置为其他任意可能的能够支持从文档中提取相应子标签的人工智能模型,对此不做限制。
可选地,一些实施例中,从待处理文档中解析得到与父标签对应的子标签,可以是调用人工智能AI领域的自然语言处理NLP服务,从所述待处理文档中识别与所述父标签对应的文档通用索引,并将所述文档通用索引作为所述子标签,由此,能够实现从待处理文档中准确地解析得到与父标签对应的文档通用索引作为子标签,从而能够使得解析得到的文档通用索引可以和父标签相适配,从而能够在将文档通用索引作为子标签时,能够有效地提升子标签的确定效果。
其中,文档通用索引,是指用于对相应父标签进行具体描述的相关信息,该文档通用索引可以具体例如为,相应父标签的特征信息,相应父标签的的内容信息等,对此不做限制。
其中,当父标签是“文档更新时间”时,相应文档通用索引可以具体例如是“2022年4月20日”,对此不做限制。
也即是说,本公开实施例中,可以是在确定父标签后,根据父标签对待处理文档进行解析处理(其中,该解析处理方式可以具体例如为,语义解析,模型解析等,对此不做限制),以从待处理文档中解析得到与父标签对应的文档通用索引,并将该文档通用索引作为子标签,对此不做限制。
本公开实施例中,从待处理文档中解析得到与父标签对应的子标签,还可以是调用自然语言处理(Natural Language Processing,NLP)服务,对待处理文档进行处理,以从待处理文档中解析得到与父标签对应的子标签,对此不做限制。
一些实施例中,从待处理文档提取得到与父标签(例如,关联实体)对应的关联实体值,可以是采用实体识别模型从待处理文档提取得到与父标签(例如,关联实体)对应的关联实体值,即可以将待处理文档和相应父标签(例如,关联实体)输入至实体识别模型中,以得到实体识别模型输出的与父标签(例如,关联实体)对应的关联实体值,对此不做限制。
可选地,另一些实施例中,从待处理文档中解析得到与父标签对应的子标签,还可以是调用所述NLP服务,从所述待处理文档中识别与所述父标签对应的关联实体值,并将所述关联实体值作为所述子标签,由此,能够实现从待处理文档中准确地解析得到与父标签对应的关联实体值作为子标签,从而能够使得解析得到的关联实体值可以和父标签相适配,从而能够在将关联实体值作为子标签时,有效地提升子标签的确定效果。
其中,关联实体值,是指用于对相应父标签(例如,关联实体)进行具体描述的相关信息,该关联实体值可以具体例如为,关联实体的特征信息,关联实体的内容信息等,对此不做限制。
其中,当关联实体是“疾病”时,相应关联实体值可以具体例如是“流感,感冒”,对此不做限制。
本公开实施例中,从待处理文档中解析得到与父标签对应的子标签,还可以是调用自然语言处理(Natural Language Processing,NLP)服务,对待处理文档进行处理,以从所述待处理文档中识别与所述父标签对应的关联实体值,并将所述关联实体值作为所述子标签,对此不做限制。
S205:将父标签和子标签共同作为标签信息。
本实施例中,通过确定与待处理文档对应的父标签,并从待处理文档中解析得到与父标签对应的子标签,从而能够在将父标签和子标签共同作为标签信息时,使得标签信息能够准确地对父标签和相应子标签进行表征,从而能够有效地提升标签信息的全面性和参考性,且能够在将标签信息提供至文档搜索平台时,使得文档搜索平台能够基于父标签和子标签两个维度,辅助用户的文档搜索工作的执行。
本公开实施例在确定与待处理文档对应的父标签,并从待处理文档中解析得到与父标签对应的子标签后,可以将父标签和子标签共同作为标签信息,而后,可以将结合标签信息执行后续的文档搜索平台的构建方法,具体可以参见后续实施例。
S206:根据标签信息和待处理文档,构建与文档类型对应的目标文档库。
S207:根据目标文档库,形成目标文档搜索平台。
S206-S207的描述说明可以具体参见上述实施例,在此不再赘述。
本实施例中,通过获取待处理文档,其中,待处理文档具有对应的文档类型,并确定与待处理文档对应的父标签,确定与待处理文档对应的父标签,并从待处理文档中解析得到与父标签对应的子标签,从而能够在将父标签和子标签共同作为标签信息时,使得标签信息能够准确地对父标签和相应子标签进行表征,从而能够有效地提升标签信息的全面性和参考性,且能够在将标签信息提供至文档搜索平台时,使得文档搜索平台能够基于父标签和子标签两个维度,辅助用户的文档搜索工作的执行,再针对父标签配置相应的属性,并将属性作为标签信息,从而能够基于属性对父标签进行灵活配置修改,从而能够使得文档搜索平台中的文旦标签信息能够有效地满足不同的业务场景的文档搜索需求,再根据标签信息和待处理文档,构建与文档类型对应的目标文档库,并根据目标文档库,形成目标文档搜索平台,从而能够有效地提升文档搜索平台的复用性,使得构建得到的文档搜索平台能够有效地满足不同业务场景的文档搜索需求
图3是本公开另一实施例提出的文档搜索平台的构建方法的流程示意图。
参见图3,该文档搜索平台的构建方法,包括:
S301:获取待处理文档,其中,待处理文档具有对应的文档类型。
S302:获取与待处理文档对应的标签信息。
S301-S302的描述说明可以具体参见上述实施例,在此不再赘述。
S303:调用机器人流程自动化RPA机器人,确定与文档类型对应的初始文档库。
其中,在文档搜索平台的构建方法执行的初始阶段,从多个文档库中与待处理文档的文档类型对应的文档库,即可以被称为初始文档库,该初始文档库可以在后续文档搜索平台的构建方法的执行过程中,用于辅助构建目标文档库,具体可以参见后续实施例。
本公开实施例中,确定与文档类型对应的初始文档库,可以是调用机器人流程自动化RPA机器人,根据文档类型实现自动化地对某一文档库进行标注处理,并在对该文档库进行标注处理后,使得该文档库只能用于存储该相应文档类型的文档,该标注处理后的文档库,即可以被称为初始文档库。
S304:将标签信息和待处理文档存储至初始文档库,以形成目标文档库。
本公开实施例在确定与文档类型对应的初始文档库后,可以将标签信息和待处理文档存储至初始文档库,以形成目标文档库。
可选地,一些实施例中,将标签信息和待处理文档存储至初始文档库,以形成目标文档库,可以是获取与待处理文档对应的目标加载类型,并采用与目标加载类型对应的目标文档存储方式,将标签信息和待处理文档存储至初始文档库,由此,能够实现基于与待处理文档相适配目标文档存储方式对相应待处理文档进行适应性存储,从而可以有效地满足不同目标加载类型的待处理文档的文档存储需求,此外,通过采用与目标加载类型对应的目标文档存储方式,对标签信息和待处理文档进行存储,使得初始文档库中文档的目标加载类型不需要局限于一种单一的格式,从而能够在较大程度上实现对文档搜索平台的文档进行有效扩充。
其中,待处理文档可以不同的类型进行加载,该类型即可以被称为目标加载类型,该目标加载类型可以具体例如为文档加载类型,链接加载类型,富文本加载类型等,对此不做限制。
其中,不同的目标加载类型可以具有对应的文档存储方式,该文档存储方式即可以被称为目标文档存储方式。
举例而言,采用与文档格式对应的目标文档存储方式,将标签信息和待处理文档存储至初始文档库,可以是在待处理文档是文本加载类型时,将待处理文档直接存储至初始文档库,或者,还可以是在待处理文档是图片加载类型时,采用光学字符识别(OpticalCharacter Recognition,OCR)方式对该图片进行识别,并将前述识别得到的文本存储至初始文档库,对此不做限制。
可选地,一些实施例中,采用与文档格式对应的目标文档存储方式,将标签信息和待处理文档存储至初始文档库,可以在目标加载类型是文档加载类型时,将待处理文档和相应文档标签信息存储至目标文档库,和/或在目标加载类型是链接加载类型时,将与待处理文档对应的***和相应标签信息存储至目标文档库,和/或在目标加载类型是富文本加载类型,经由富文本编辑器对待处理文档进行编辑处理,并将编辑处理结果和相应标签信息存储至目标文档库。
本公开实施例中,文档加载类型是指,待处理文档支持从目标文档库所属设备本地直接加载至目标文档库,此时,可以将待处理文档和相应标签信息从目标文档库所属设备本地存储至目标文档库。
本公开实施例中,链接加载类型是外部链接(例如,统一资源定位符(UniformResource Locator,URL)),即目标文档库所属设备本地不存在待处理文档的原文件,该外部链接支持跳转至与外部链接相应的待处理文档,此时,可以将外部链接和相应标签信息存储至目标文档库。
本公开实施例中,富文本加载类型是指待处理文档是以图片类型,音频类型,视频类型等类型进行加载,此时,可以采用富文本编辑器对待处理文档进行编辑处理,以得到相应的编辑处理结果,将编辑结果和相应标签信息存储至目标文档库。
本公开实施例中,由于是先确定与文档类型对应的初始文档库,从而能够实现将标签信息和相应文档类型待处理文档准确存储至相应文档类型的初始文档库中,使得形成得到的目标文档库相应的文档类型能够和待处理文档的文档类型相适配,从而有效地提升目标文档库的构建效果。
S305:根据目标文档库,形成目标文档搜索平台。
S305的描述说明可以具体参见上述实施例,在此不再赘述。
本公开实施例中,可以结合具体的示意图对本公开实施例描述的文档搜索平台的构建方法进行具体的举例说明,在文档搜索平台的构建方法的初始阶段,可以获取待处理文档和与待处理文档的文档类型对应的初始文档库(该初始文档库可以是预先在文档搜索平台的文档搜索平台的文档库构建界面(文档库构建界面可以参见图4,图4是本公开一实施例提出的文档库构建界面的示意图)构建得到的),并获取与待处理文档对应的标签信息,而后,可以确定与待处理文档对应的目标加载类型,并在文档搜索平台的文档上传管理界面(文档上传管理界面可以参见图5,图5是本公开一实施例提出的文档存储管理界面的示意图),选择相应文档加载类型的配置项,以进入不同文档加载类型的文档存储界面(该不同文档加载类型的文档存储界面可以参见图6A,图6B,图6C,图6A是本公开一实施例提出的文档加载类型的文档存储界面的示意图,图6B是本公开一实施例提出的链接加载类型的文档存储界面的示意图,图6C是本公开一实施例提出的富文本加载类型的文档存储界面的示意图),并在该相应的文档存储界面存储相应的待处理文档。
本公开实施例在将待处理文档存储至初始文档库后,可以在在初始文档库中的待处理文档侧,针对待处理文档配置相应的标签信息(例如,参见图7,图7是本公开一实施例提出的标签信息配置界面的示意图,即可以在该界面点击编辑项,并在编辑项下进行相应标签信息配置操作,以实现针对待处理文档配置相应的标签信息),此外,还可以支持在相应标签的属性配置界面(参见图8,图8是本公开一实施例提出的属性配置界面的示意图)针对父标签配置相应的属性,至此,完成目标文档库的构建,从而形成目标文档搜索平台。
本实施例中,通过获取待处理文档,其中,待处理文档具有对应的文档类型,并获取与待处理文档对应的标签信息,再确定与文档类型对应的初始文档库,从而能够实现将标签信息和相应文档类型待处理文档准确存储至相应文档类型的初始文档库中,使得形成得到的目标文档库相应的文档类型能够和待处理文档的文档类型相适配,从而有效地提升目标文档库的构建效果,从而能够在基于目标文档库,形成目标文档搜索平台时,使得构建得到的文档搜索平台能够有效地满足不同业务场景的文档搜索需求。
图9是本公开一实施例提出的文档搜索方法的流程示意图。
本实施例以文档搜索方法被配置为文档搜索装置中来举例说明,本实施例中文档搜索方法可以被配置在文档搜索装置中,文档搜索装置可以设置在服务器中,或者也可以设置在电子设备中,本公开实施例对此不作限制。
参见图9,该文档搜索方法,包括:
S901:接收文档搜索请求。
本实施例中与上述实施例中相同的术语的含义和描述说明,可以具体参见上述实施例,在此不再赘述。
其中,用户侧电子设备作出的用于触发在文档搜索平台中进行文档搜索的请求,即可以被称为文档搜索请求。
本公开实施例中,接收文档搜索请求,可以是由目标文档搜索平台预先提供相应的数据传输接口,经由该数据传输接口接收用户侧设备作出的文档搜索请求,对此不做限制。
或者,接收文档搜索请求,还可以是在目标文档搜索平台中预先设置相应的监听装置,并经由监听装置对用户侧设备进行监听,并在监听到用户侧设备生成相应文档搜索请求时,接收文档搜索请求,对此不做限制。
S902:从文档搜索请求中解析需求文档类型和需求标签信息。
本公开实施例在接收到文档搜索请求后,可以从文档搜索请求中解析得到需求文档类型和需求标签信息。
其中,用户在进行文档搜索时,可以具有其所需求进行搜索的文档类型,该文档类型即可以被称为需求文档类型,该需求文档搜索类型可以用于对用户所处的业务场景中的文档搜索需求进行表征,例如,当用户所处的业务场景是医学业务场景时,可以确定该用户在进行文档搜索时,其需求的文档类型是医学文档类型,对此不做限制。
其中,用户在进行文档搜索时,可以具有其所需求进行搜索的标签信息,该标签信息即可以被称为需求标签信息,该需求标签信息可以具体例如为用户需要搜索的文档名称,文档内容关键词等,对此不做限制。
举例而言,如果接收到的文档搜索请求是:“2021年针对儿童做出的流感发病原因探究”,则需求文档类型可以例如是医学文档类型,需求标签信息可以是文档搜索请求中的关键词信息,例如:“流感,儿童,2021年”等,对此不做限制。
本公开实施例中,从文档搜索请求中解析需求文档类型和需求标签信息,可以是对文档搜索请求进行语义解析处理,以得到需求文档类型和需求标签信息。
S903:从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的文档。
本公开实施例在接收文档搜索请求后,可以根据文档搜索请求中的需求文档类型,从多个文档库中确定与需求文档类型对应的文档库作为目标文档库。
本公开实施例中,目标文档搜索平台中的多个文档库可以用于存储相应文档类型的待处理文档,从多个文档库中确定与需求文档类型对应的目标文档库,可以是先确定与多个文档库分别对应的多个文档类型,并在确定需求文档类型后,将需求文档类型和前述确定的多个文档类型进行比对,并在需求文档类型和文档类型相同时,将与该文档类型对应的文档库作为目标文档库,对此不做限制。
举例而言,从多个文档库中确定与需求文档类型对应的目标文档库,可以例如是在确定需求文档类型是医学文档类型时,确定用于存储医学文档的文档库作为目标文档库,而后可以支持在医学文档库中进行文档搜索,从而使得搜索得到的目标文档能够有效地满足相应医疗业务场景中的医学文档需求。
一些实施例中,在构建目标文档搜索平台时,可以支持根据文档类型对多个文档库进行标注处理,相应地,从多个文档库中确定与需求文档类型对应的目标文档库,可以是确定与在确定文档库相应的标识是需求文档类型时,将该文档库作为目标文档库,对此不做限制。
本公开实例中,由于目标文档库中存储的是与用户所处业务场景的文档类型相适配的待处理文档,从而可以支持从与用户所处业务场景业务类型相适配的目标文档库中进行文档搜索,从而能够基于目标文档库有效地缩小文档搜索的范围,在有效地提升文档搜索效率的同时,使得搜索得到文档能够有效地满足不同业务场景的文档搜索需求。
S904:从目标文档库中搜索与需求标签信息对应的目标文档。
本公开实施例在从多个文档库中确定与需求文档类型对应的目标文档库后,从目标文档库中的多个待处理文档中,搜索与需求标签信息对应的待处理文档作为目标文档。
本公开实施例中,目标文档库中存储有与文档关联的标签信息,相应地,从目标文档库中搜索与需求标签信息对应的目标文档,可以是,在目标文档库中查找与需求标签信息相匹配的标签信息,并将与该标签信息相应的文档作为目标文档。
举例而言,如果需求标签信息是:“2021年,流感,儿童”,可以是查找目标文档库中存储的文档是否具有:“2021年,流感,儿童”文档标签信息,并在确定某一文档具有:“2021年,流感,儿童”文档标签信息时,将该文档作为目标文档,对此不做限制。
一些实施例中,在目标文档库中查找与需求标签信息相匹配的标签信息,可以是采用预先训练的信息匹配模型,对需求标签信息和标签信息进行匹配处理,即可以将需求标签信息和标签信息输入至预先训练的信息匹配模型中,由信息匹配模型对需求标签信息和标签信息进行匹配处理,以得到相应的匹配处理结果,并在该匹配处理结果指示:需求标签信息和标签信息相匹配时,将与该标签信息相应的待处理文档作为目标文档,对此不做限制。
或者,在目标文档库中查找与需求标签信息相匹配的标签信息,还可以是确定需求标签信息和标签信息的匹配程度值,并在匹配程度值大于预先确定的匹配程度阈值时,将将与该标签信息相应的待处理文档作为目标文档,对此不做限制。
本公开实施例中,本公开实施例可以有效结合RPA和AI实现文档搜索过程的智能自动化(Intelligent Automation,IA),从而有效提升文档搜索的自动化程度,降低人工成本。
本实施例中,通过接收文档搜索请求,再从文档搜索请求中解析需求文档类型和需求标签信息,并从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的文档,再从目标文档库中搜索与需求标签信息对应的目标文档,由此,可以支持在与用户所处业务场景业务类型相适配的目标文档库中进行文档搜索,从而能够基于目标文档库有效地缩小文档搜索的范围,在有效地提升文档搜索效率的同时,使得搜索得到目标文档能够有效地满足不同业务场景的文档搜索需求。
图10是本公开另一实施例提出的文档搜索方法的流程示意图。
参见图10,该文档搜索方法,包括:
S1001:接收文档搜索请求。
S1002:从文档搜索请求中解析需求文档类型和需求标签信息。
S1003:从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的文档。
S1001-S1003的描述说明可以具体参见上述实施例,在此不再赘述。
S1004:调用人工智能AI领域的自然语言处理NLP服务处理需求属性,以从多个父标签中确定目标父标签,其中,目标父标签具有所对应目标子标签。
其中,多个父标签中参与本次文档搜索的父标签,即可以被称为目标父标签,相应的,与该目标父标签对应的子标签,即可以被称为目标子标签。
举例而言,多个父标签及相应子标签可以例如为:“文档格式-文本格式,疾病-流感,文档更新时间-2021年4月,调研对象-儿童,发病原因-自发引起”,目标父标签可以例如是参与本次文档搜索的父标签,例如:“疾病,调研对象,发病原因”相应的,目标子标签可以是与目标父标签对应的子标签,例如:“儿童,自发引起,流感”等,对此不做限制
本公开实施例中,属性可以用于确定父标签,及与父标签相应的子标签是否参与文档搜索,其中,父标签中参与后续文档搜索的标签,即可以被称为目标父标签,相应地,与目标父标签对应的子标签,即可以被称为目标子标签。
其中,用于需求的属性,即可以被称为需求属性,该需求属性,可以支持根据用户的文档搜索需求对目标文档库中的父标签进行配置调整。
也即是说,本公开实施例在从多个文档库中确定与需求文档类型对应的目标文档库后,可以调用人工智能AI领域的自然语言处理NLP服务对需求属性进行处理,从目标文档库中的父标签相应的属性进行调整,从而确定父标签,及与父标签相应的子标签是否参与后续文档搜索,并将参与后续文档搜索的父标签作为目标父标签,将与目标父标签相应的子标签作为目标子标签,而后,可以基于目标子标签执行后续的文档搜索方法文档搜索方法,具体可以参见后续实施例。
举例而言,多个父标签可以例如是:文档格式,疾病,调研时间,调研对象,而用户所需求搜索的文档可以具体例如是以儿童为调研对象的文档,此时,可以在文档搜索的过程中,根据需求属性,对疾病和调研时间等两个标签进行隐藏,从而使得疾病和调研时间等两个父标签及相应的子标签不参于后续文档搜索,并将除父标签外的文档格式和调研对象等父标签作为目标父标签,将与目标父标签对应的子标签作为目标子标签,由此,可以基于需求属性,从多个父标签中确定出能够有效地满足后续文档搜索的目标父标签,从而能够更进一步的缩小标签搜索范围,从而能够在后续文档搜索过程中,有效地降低标签处理的数据量,从而能够在有效地保障文档搜索效果的同时,有效地提升文档搜索效率。
S1005:根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档。
本公开实施例在根据需求属性,从多个父标签中确定目标父标签之后,可以根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档。
一些实施例中,根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档,可以是对需求子标签和目标子标签进行匹配处理(其中,该匹配处理方式可以具体例如为,模型匹配,特征匹配等,对此不做限制),以得到相应的匹配处理结果,并根据需求属性对前述匹配处理结果进行进一步筛选,以得到目标文档,对此不做限制。
可选地,一些实施例中,根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档,可以是调用机器人流程自动化RPA机器人,以根据所述需求子标签和所述目标子标签,实现自动化地从多个所述文档中搜索待筛选文档。
也即是说,本公开实施例中,可以支持根据需求子标签和目标子标签从目标文档库中的多个文档中确定多个待筛选文档,而后,可以支持根据需求属性,对多个待筛选文档进行进一步筛选,以得到目标文档。
一些实施例中,根据需求子标签和以及目标子标签从目标文档库中搜索目标文档,可以是对需求子标签和目标子标签进行匹配处理,并在需求子标签和目标子标签相匹配时,将目标文档库中与目标子标签对应的文档作为待筛选文档,对此不做限制。
或者,根据需求子标签和目标子标签从目标文档库中搜索多个待筛选文档,还可以是在目标文档库中,搜索与需求子标签相同的目标子标签,并在需求子标签和目标子标签相同时,将目标文档库中与目标子标签对应的文档作为待筛选文档,对此不做限制。
可选地,一些实施例中,根据需求子标签和目标子标签从目标文档库中搜索多个待筛选文档,可以是确定需求子标签和各个文档的目标子标签之间的相似度值,并在相似度值满足设定条件时,将相应目标子标签所对应文档作为待筛选文档。
其中,相似度值可以用于表征需求子标签和目标子标签之间的相似程度,相似度值越大,则可以表征需求子标签和目标子标签越趋近于相同,反之,相似度值越小,则可以表征需求子标签和目标子标签差距越大,对此不做限制。
也即是说,本公开实施例中,可以是确定需求子标签和目标子标签之间的欧氏距离,并将该欧氏距离作为需求子标签和目标子标签之间的相似度值,并将相似度值与预先设定的设定条件(其中,该设定条件可以结合实际业务场景中的文档搜索需求,自适应配置,对此不做限制)相比较,并在相似度值满足设定条件时,将相应目标子标签对应的文档作为待筛选文档。
本公开实施例中,根据需求子标签和目标子标签从目标文档库中搜索得到的多个待筛选文档,可以按照其相应的相似度值大小进行相应排序,此时可以根据需求属性,从多个待筛选文档中筛选得到目标文档。
可以理解的是,本公开实施例中,目标文档库中的文档可以具有多个目标子标签,多个待处理文档可以存在某个目标子标签重合的情况,在这种情况下,当基于需求子标签进行目标文档的匹配搜索时,存在搜索得到的文档数量为多个的情况,此时,可以根据需求属性对前述搜索得到的多个待筛选文档进行进一步配置筛选,以从多个待筛选文档中确定目标文档,对此不做限制。
举例而言,本公开实施例中,可以结合具体的示意图对本公开实施例描述的文档搜索方法进行具体的举例说明,在文档搜索方法的初始阶段,文档搜索平台可以接收文档搜索请求,而后可以根据文档搜索请求中的需求属性,在目标文档库中的文档属性编辑界面(参见图11,图11是本公开一实施例提出的文档属性编辑界面的示意图),对目标文档库中标签的属性进行编辑,从而从目标文档库中的父标签中确定目标父标签和目标子标签,以参与文档搜索得到相应目标文档。
而后,可以将文档搜索请求中的需求子标签键入目标文档搜索平台的文档搜索界面(参见图12,图12是本公开一实施例提出的文档搜索界面的示意图),目标文档搜索平台可以根据需求子标签和目标子标签之间的相似度值对目标文档进行搜索,并将搜索得到的一个或者多个待筛选文档按相似度值大小进行依次排序后呈现在文档搜索界面,还可以支持通过如图12所示的文档搜索界面的筛选配置项,进入文档筛选界面(参见图13,图13是本公开一实施例提出的文档筛选界面的示意图),并根据需求属性,对待筛选文档的父标签进行筛选条件配置,以从多个待筛选文档中筛选得到目标文档。
本实施例中,通过接收文档搜索请求,再从文档搜索请求中解析需求文档类型和需求标签信息,从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的待处理文档,并从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的文档,再根据需求属性,从多个父标签中确定目标父标签,其中,目标父标签具有对应的目标子标签,并根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档,由此,可以基于需求属性,从多个父标签中确定出能够有效地满足后续文档搜索的目标父标签,从而能够更进一步的缩小标签搜索范围,从而能够在后续文档搜索过程中,有效地降低标签处理的数据量,从而能够在有效地保障文档搜索效果的同时,有效地提升文档搜索效率。
图14是本公开一实施例提出的文档搜索平台的构建装置的结构示意图。
参见图14,该文档搜索平台的构建装置140,包括:第一获取模块1401,用于获取待处理文档,其中,待处理文档具有对应的文档类型;第二获取模块1402,用于获取与待处理文档对应的标签信息;构建模块1403,用于根据标签信息和待处理文档,构建与文档类型对应的目标文档库;以及形成模块1404,用于根据目标文档库,形成目标文档搜索平台。
可选地,一些实施例中,参见图15,图15是本公开另一实施例提出的文档搜索平台的构建装置的结构示意图,其中,第二获取模块1402,包括:第一确定子模块14021,用于确定与待处理文档对应的父标签;解析子模块14022,用于从待处理文档中解析得到与父标签对应的子标签;以及处理子模块14023,用于将父标签和子标签共同作为标签信息。
可选地,一些实施例中,解析子模块14022,还用于:调用人工智能AI领域的自然语言处理NLP服务,从待处理文档中识别与父标签对应的文档通用索引,并将文档通用索引作为子标签;和/或调用NLP服务,从待处理文档中识别与父标签对应的关联实体值,并将关联实体值作为子标签。
可选地,一些实施例中,构建模块1403,包括:第二确定子模块14031,用于调用机器人流程自动化RPA机器人,确定与文档类型对应的初始文档库;存储子模块14032,用于将标签信息和待处理文档存储至初始文档库,以形成目标文档库。
可选地,一些实施例中,存储子模块14032,还用于:获取与待处理文档对应的目标加载类型;采用与目标加载类型对应的目标文档存储方式,将标签信息和待处理文档存储至初始文档库。
可选地,一些实施例中,存储子模块14032,还用于:如果目标加载类型是文档加载类型,则将待处理文档和相应文档标签信息存储至目标文档库;和/或如果目标加载类型是链接加载类型,则将与待处理文档对应的***和相应标签信息存储至目标文档库;和/或如果目标加载类型是富文本加载类型,则经由富文本编辑器对待处理文档进行编辑处理,并将编辑处理结果和相应标签信息存储至目标文档库。
可选地,一些实施例中,第二获取模块1402,还包括:配置子模块14024,用于在确定与待处理文档对应的父标签之后,针对父标签配置属性,并将所配置属性作为标签信息,其中,属性用于标识父标签是否参与文档搜索。
可选地,一些实施例中,文档搜索平台的构建方法是采用人工智能AI和机器人流程自动化RPA实现的。
需要说明的是,本公开实施例中的上述各模块的功能及具体实现原理,可参照上述各方法实施例,此处不再赘述。
本实施例中,通过获取待处理文档,其中,待处理文档具有对应的文档类型,并获取与待处理文档对应的标签信息,再根据标签信息和待处理文档,构建与文档类型对应的目标文档库,以及根据目标文档库,形成目标文档搜索平台,由于根据与文档类型对应的目标文档库,形成目标文档搜索平台,从而使得构建得到的目标文档平台可以基于相应文档类型的目标文档库,为不同业务场景提供相应文档类型的文档搜索服务,从而能够有效地提升文档搜索平台的复用性,使得构建得到的文档搜索平台能够有效地满足不同业务场景的文档搜索需求。
图16是本公开一实施例提出的文档搜索装置的结构示意图。
参见图16,该文档搜索装置160,包括:接收模块1601,用于接收文档搜索请求;解析模块1602,用于从文档搜索请求中解析需求文档类型和需求标签信息;确定模块1603,用于从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的文档;搜索模块1604,用于从目标文档库中搜索与需求标签信息对应的目标文档。
可选地,一些实施例中,参见图17,图17是本公开另一实施例提出的文档搜索装置的结构示意图,需求标签信息包括:需求属性和需求子标签,目标文档库中具有对应的多个父标签,父标签具有所对应子标签,所对应子标签用于描述文档;
其中,搜索模块1604,包括:第三确定子模块16041,用于调用人工智能AI领域的自然语言处理NLP服务处理需求属性,以从多个父标签中确定目标父标签,其中,目标父标签具有所对应目标子标签;搜索子模块16042,用于根据需求属性、需求子标签,以及目标子标签从目标文档库中搜索目标文档。
可选地,一些实施例中,目标文档库包括:多个文档;其中,搜索子模块16042,还用于:调用机器人流程自动化RPA机器人,以根据需求子标签和目标子标签从多个文档中搜索待筛选文档;根据需求属性从多个待筛选文档中筛选得到目标文档。
可选地,一些实施例中,搜索子模块16042,还用于:确定需求子标签和各个文档的目标子标签之间的相似度值;如果相似度值满足设定条件,则将相应目标子标签所对应文档作为待筛选文档。
需要说明的是,本公开实施例中的上述各模块的功能及具体实现原理,可参照上述各方法实施例,此处不再赘述。
本实施例中,通过接收文档搜索请求,再从文档搜索请求中解析需求文档类型和需求标签信息,并从多个文档库中确定与需求文档类型对应的目标文档库,其中,多个文档库属于文档搜索平台,文档库用于存储相应文档类型的文档,再从目标文档库中搜索与需求标签信息对应的目标文档,由此,可以支持在与用户所处业务场景业务类型相适配的目标文档库中进行文档搜索,从而能够基于目标文档库有效地缩小文档搜索的范围,在有效地提升文档搜索效率的同时,使得搜索得到目标文档能够有效地满足不同业务场景的文档搜索需求。
为了实现上述实施例,本公开还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现如本公开前述实施例提出的文档搜索平台的构建方法,或者实现如本公开前述实施例提出的文档搜索方法。
图18为本公开一实施例提供的电子设备的硬件结构示意图。如图18所示,该电子设备180包括:存储器1810和处理器1820,存储器1810内存储有可在处理器1820上运行的计算机程序。处理器1820执行该计算机程序时实现上述实施例中的文档搜索平台的构建方法,或者实现如上述实施例中的文档搜索方法。存储器1810和处理器1820的数量可以为一个或多个。
该电子设备还包括:通信接口1830,用于与外界设备进行通信,进行数据交互传输。如果存储器1810、处理器1820和通信接口1830独立实现,则存储器1810、处理器1820和通信接口1830可以通过总线相互链接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图18中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1810、处理器1820及通信接口1830集成在一块芯片上,则存储器1810、处理器1820及通信接口1830可以通过内部接口完成相互间的通信。
本公开还提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,实现如本公开前述实施例提出的文档搜索平台的构建方法,或者实现如上述实施例中的文档搜索方法。
本公开还提供一种计算机程序产品,当计算机程序产品中的指令处理器执行时,实现如本公开前述实施例提出的文档搜索平台的构建方法,或者实现如上述实施例中的文档搜索方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(Advanced RISC Machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)和直接内存总线随机存取存储器(Direct Access RAM,DR RAM)。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种文档搜索平台的构建方法,其特征在于,包括:
获取待处理文档,其中,所述待处理文档具有对应的文档类型;
获取与所述待处理文档对应的标签信息;
根据所述标签信息和所述待处理文档,构建与所述文档类型对应的目标文档库;以及
根据所述目标文档库,形成目标文档搜索平台。
2.如权利要求1所述的方法,其特征在于,所述获取与所述待处理文档对应的标签信息,包括:
确定与所述待处理文档对应的父标签;
从所述待处理文档中解析与所述父标签对应的子标签;以及
将所述父标签和所述子标签共同作为所述标签信息。
3.如权利要求2所述的方法,其特征在于,所述从所述待处理文档中解析与所述父标签对应的子标签,包括:
调用人工智能AI领域的自然语言处理NLP服务,从所述待处理文档中识别与所述父标签对应的文档通用索引,并将所述文档通用索引作为所述子标签;和/或
调用所述NLP服务,从所述待处理文档中识别与所述父标签对应的关联实体值,并将所述关联实体值作为所述子标签。
4.如权利要求1所述的方法,其特征在于,所述根据所述标签信息和所述待处理文档,构建与所述文档类型对应的目标文档库,包括:
调用机器人流程自动化RPA机器人,确定与所述文档类型对应的初始文档库;
将所述标签信息和所述待处理文档存储至所述初始文档库,以形成所述目标文档库。
5.如权利要求4所述的方法,其特征在于,所述将所述标签信息和所述待处理文档存储至所述初始文档库,包括:
获取与所述待处理文档对应的目标加载类型;
采用与所述目标加载类型对应的目标文档存储方式,将所述标签信息和所述待处理文档存储至所述初始文档库。
6.如权利要求5所述的方法,其特征在于,所述采用与所述目标加载类型对应的目标文档存储方式,将所述标签信息和所述待处理文档存储至所述初始文档库,包括:
如果所述目标加载类型是文档加载类型,则将所述待处理文档和相应所述文档标签信息存储至所述目标文档库;和/或
如果所述目标加载类型是链接加载类型,则将与所述待处理文档对应的***和相应所述标签信息存储至所述目标文档库;和/或
如果所述目标加载类型是富文本加载类型,则经由富文本编辑器对所述待处理文档进行编辑处理,并将编辑处理结果和相应所述标签信息存储至所述目标文档库。
7.如权利要求2所述的方法,其特征在于,在所述确定与所述待处理文档对应的父标签之后,还包括:
针对所述父标签配置属性,并将所配置属性作为所述标签信息,其中,所述属性用于标识所述父标签是否参与文档搜索。
8.一种文档搜索方法,其特征在于,应用于文档搜索平台,所述文档搜索平台由上述权利要求1-7中任一项所述的文档搜索平台的构建方法构建得到;
其中,所述方法包括:
接收文档搜索请求;
从所述文档搜索请求中解析需求文档类型和需求标签信息;
从多个文档库中确定与所述需求文档类型对应的目标文档库,其中,所述多个文档库属于所述文档搜索平台,所述文档库用于存储相应文档类型的文档;
从所述目标文档库中搜索与所述需求标签信息对应的目标文档。
9.如权利要求8所述的方法,其特征在于,所述需求标签信息包括:需求属性和需求子标签,所述目标文档库中具有对应的多个父标签,所述父标签具有所对应子标签,所述所对应子标签用于描述所述文档;
其中,所述从所述目标文档库中搜索与所述需求标签信息对应的目标文档,包括:
调用人工智能AI领域的自然语言处理NLP服务处理所述需求属性,以从所述多个父标签中确定目标父标签,其中,所述目标父标签具有所对应目标子标签;
根据所述需求属性、所述需求子标签,以及所述目标子标签从所述目标文档库中搜索所述目标文档。
10.如权利要求9所述的方法,其特征在于,所述目标文档库包括:多个所述文档;
其中,所述根据所述需求属性、所述需求子标签,以及所述目标子标签从所述目标文档库中搜索所述目标文档,包括:
调用机器人流程自动化RPA机器人,以根据所述需求子标签和所述目标子标签从多个所述文档中搜索待筛选文档;
根据所述需求属性从多个所述待筛选文档中筛选得到所述目标文档。
11.如权利要求10所述的方法,其特征在于,其中,所述根据所述需求子标签和所述目标子标签从多个所述文档中搜索待筛选文档,包括:
确定所述需求子标签和各个所述文档的所述目标子标签之间的相似度值;
如果所述相似度值满足设定条件,则将相应所述目标子标签所对应文档作为所述待筛选文档。
12.一种文档搜索平台的构建装置,其特征在于,包括:
第一获取模块,用于获取待处理文档,其中,所述待处理文档具有对应的文档类型;
第二获取模块,用于获取与所述待处理文档对应的标签信息;
构建模块,用于根据所述标签信息和所述待处理文档,构建与所述文档类型对应的目标文档库;以及
形成模块,用于根据所述目标文档库,形成目标文档搜索平台。
13.一种文档搜索装置,其特征在于,应用于文档搜索平台,所述文档搜索平台由上述权利要求12中所述的文档搜索平台的构建装置构建得到;
其中,所述装置包括:
接收模块,用于接收文档搜索请求;
解析模块,用于从所述文档搜索请求中解析需求文档类型和需求标签信息;
确定模块,用于从多个文档库中确定与所述需求文档类型对应的目标文档库,其中,所述多个文档库属于所述文档搜索平台,所述文档库用于存储相应文档类型的文档;
搜索模块,用于从所述目标文档库中搜索与所述需求标签信息对应的目标文档。
14.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至7中任一项所述的文档搜索平台的构建方法,或者实现如权利要求8至11中任一项所述的文档搜索方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文档搜索平台的构建方法,或者实现如权利要求8至11中任一项所述的文档搜索方法。
CN202210637112.2A 2022-06-07 2022-06-07 文档搜索平台、搜索方法、装置、电子设备及存储介质 Pending CN114936269A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210637112.2A CN114936269A (zh) 2022-06-07 2022-06-07 文档搜索平台、搜索方法、装置、电子设备及存储介质
PCT/CN2022/100921 WO2023236257A1 (zh) 2022-06-07 2022-06-23 文档搜索平台、搜索方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210637112.2A CN114936269A (zh) 2022-06-07 2022-06-07 文档搜索平台、搜索方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114936269A true CN114936269A (zh) 2022-08-23

Family

ID=82866472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210637112.2A Pending CN114936269A (zh) 2022-06-07 2022-06-07 文档搜索平台、搜索方法、装置、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN114936269A (zh)
WO (1) WO2023236257A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688136A (zh) * 2024-01-30 2024-03-12 广州敏行数字科技有限公司 一种基于人工智能的组合检索优化方法及***
CN117971780A (zh) * 2023-12-29 2024-05-03 青矩技术股份有限公司 文档存储方法、装置、设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118172448A (zh) * 2024-05-11 2024-06-11 中移(苏州)软件技术有限公司 一种数据处理方法及装置、电子设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262640A (zh) * 2010-05-31 2011-11-30 ***通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
US10776376B1 (en) * 2014-12-05 2020-09-15 Veritas Technologies Llc Systems and methods for displaying search results
US20200110839A1 (en) * 2018-10-05 2020-04-09 International Business Machines Corporation Determining tags to recommend for a document from multiple database sources
CN112507068B (zh) * 2020-11-30 2023-11-14 北京百度网讯科技有限公司 文档查询方法、装置、电子设备和存储介质
CN113204621B (zh) * 2021-05-12 2024-05-07 北京百度网讯科技有限公司 文档入库、文档检索方法,装置,设备以及存储介质
CN113449063B (zh) * 2021-06-25 2023-06-16 树根互联股份有限公司 一种构建文档结构信息检索库的方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117971780A (zh) * 2023-12-29 2024-05-03 青矩技术股份有限公司 文档存储方法、装置、设备及存储介质
CN117688136A (zh) * 2024-01-30 2024-03-12 广州敏行数字科技有限公司 一种基于人工智能的组合检索优化方法及***
CN117688136B (zh) * 2024-01-30 2024-04-30 广州敏行数字科技有限公司 一种基于人工智能的组合检索优化方法及***

Also Published As

Publication number Publication date
WO2023236257A1 (zh) 2023-12-14

Similar Documents

Publication Publication Date Title
CN114936269A (zh) 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN109376291B (zh) 一种基于网络爬虫的网站指纹信息扫描的方法及装置
JP2008234357A (ja) 構造化文書検索システム、プログラム及び索引のデータ構造
CN112732949B (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
RU2568276C2 (ru) Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска
US20220237240A1 (en) Method and apparatus for collecting information regarding dark web
CN112948504B (zh) 数据采集方法、装置、计算机设备和存储介质
CN114490554A (zh) 数据同步方法及其装置、电子设备及存储介质
CN114398315A (zh) 一种数据存储方法、***、存储介质及电子设备
CN112434250A (zh) 一种基于在线网站的cms识别特征规则提取方法
CN116501733A (zh) 数据产品的生成方法、装置、设备及存储介质
CN112765197B (zh) 数据查询方法、装置、计算机设备和存储介质
CN112231518B (zh) 作品网络传播行为发现方法、***、电子设备及存储介质
CN110209853B (zh) 车辆的图片搜索方法、装置和设备
KR20180077397A (ko) 소프트웨어 프로젝트 관계도 구성 시스템 및 그 방법
CN113468316A (zh) 一种快速检索svn文档库的方法及***
US9251253B2 (en) Expeditious citation indexing
CN109408368A (zh) 一种测试辅助信息的输出方法、存储介质和服务器
US7149758B2 (en) Data processing apparatus, data processing method, and data processing program
CN111427870B (zh) 一种资源管理方法、装置及设备
CN117591624B (zh) 一种基于语义索引关系的测试用例推荐方法
CN112732335B (zh) 目标代码提取方法、装置、计算机设备和存储介质
CN115774767B (zh) 一种地理信息元数据处理方法及装置
CN110362579B (zh) 一种信息处理方法和电子设备
CN111913700B (zh) 一种云-端交互协议分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination