CN115659929B - 一种基于多文档的批注互动方法及*** - Google Patents
一种基于多文档的批注互动方法及*** Download PDFInfo
- Publication number
- CN115659929B CN115659929B CN202211301753.7A CN202211301753A CN115659929B CN 115659929 B CN115659929 B CN 115659929B CN 202211301753 A CN202211301753 A CN 202211301753A CN 115659929 B CN115659929 B CN 115659929B
- Authority
- CN
- China
- Prior art keywords
- annotation
- information
- user
- port
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种基于多文档的批注互动方法及***,涉及计算机信息处理技术领域,获取多文档批注信息,进行批注用户来源提取并生成标签进行批注标注,基于端口用户信息对多文档批注信息进行筛选,获得待查阅批注信息,将端口用户的批注记录集输入批注分析模型,获得端口用户批注特征,进而对待查阅批注信息进行识别转换,通过所述显示端口信息进行显示,解决现有技术中批注信息的处理方法不够智能化,且批注方式的多样性与查阅人员的信息主观臆断性,使得文档查阅效率低下且存在解析偏差风险的技术问题,基于查阅人员的批注习惯进行文档批注的智能化转换,以提高文档批注与查阅人员的契合度,进行文档的高效精准查阅。
Description
技术领域
本发明涉及计算机信息处理技术领域,具体涉及一种基于多文档的批注互动方法及***。
背景技术
目前,可通过终端显示设备随时进行文档阅读,对文档中出现的批注进行解析时,目前只能通过人工比较分析来进行判断,由于个人批注习惯与语义理解的主观性,使得文档阅读过程较为繁琐,阅读效率低下,同时可能会出现判断错误的状况,可通过对文档批注进行批注方式与批注内容的转换,来提高文档批注模式与查阅用户的契合度,然而进行批注信息处理时,由于现有技术的局限性,使得最终的处理结果无法达到预期的标准,现有技术还存在一定的可提升空间。
现有技术中,进行文档批注查阅时,由于批注信息的处理方法不够智能化,且批注方式的多样性与查阅人员的信息主观臆断性,使得文档查阅效率低下且存在解析偏差风险。
发明内容
本申请提供了一种基于多文档的批注互动方法及***,用于针对解决现有技术中存在的批注信息的处理方法不够智能化,且批注方式的多样性与查阅人员的信息主观臆断性,使得文档查阅效率低下且存在解析偏差风险的技术问题。
鉴于上述问题,本申请提供了一种基于多文档的批注互动方法及***。
第一方面,本申请提供了一种基于多文档的批注互动方法,所述方法包括:获得多文档信息;基于所述多文档信息,识别多文档批注信息,其中,所述多文档批注信息包括批注位置、批注文档引用内容;根据所述多文档批注信息,进行批注用户来源提取,确定批注用户信息,并基于所述批注用户信息生成标签对所述多文档批注信息进行标注;获得显示端口信息,并基于所述显示端口信息,确定端口用户信息;根据所述端口用户信息,对所述多文档批注信息进行批注用户信息筛选,获得待查阅批注信息,其中,所述待查阅批注信息包括端口用户的批注回复信息、非端口用户批注信息;获得端口用户的批注记录集,将所述端口用户的批注记录集输入批注分析模型,获得端口用户批注特征;基于所述端口用户批注特征对所述待查阅批注信息进行识别转换,通过所述显示端口信息进行显示。
第二方面,本申请提供了一种基于多文档的批注互动***,所述***包括:信息获取模块,所述信息获取模块用于获得多文档信息;信息识别模块,所述信息识别模块用于基于所述多文档信息,识别多文档批注信息,其中,所述多文档批注信息包括批注位置、批注文档引用内容;信息标注模块,所述信息标注模块用于根据所述多文档批注信息,进行批注用户来源提取,确定批注用户信息,并基于所述批注用户信息生成标签对所述多文档批注信息进行标注;信息确定模块,所述信息确定模块用于获得显示端口信息,并基于所述显示端口信息,确定端口用户信息;信息筛选模块,所述信息筛选模块用于根据所述端口用户信息,对所述多文档批注信息进行批注用户信息筛选,获得待查阅批注信息,其中,所述待查阅批注信息包括端口用户的批注回复信息、非端口用户批注信息;特征获取模块,所述特征获取模块用于获得端口用户的批注记录集,将所述端口用户的批注记录集输入批注分析模型,获得端口用户批注特征;信息转换模块,所述信息转换模块用于基于所述端口用户批注特征对所述待查阅批注信息进行识别转换,通过所述显示端口信息进行显示。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例提供的一种基于多文档的批注互动方法,获得多文档信息并进行批注信息识别,包括批注位置、批注文档引用内容,进行批注用户来源提取确定批注用户信息,并生成标签对所述多文档批注信息进行标注,获得显示端口信息并确定端口用户信息,对所述多文档批注信息进行批注用户信息筛选,获得待查阅批注信息,包括端口用户的批注回复信息、非端口用户批注信息;将端口用户的批注记录集输入批注分析模型,获得端口用户批注特征,进而对所述待查阅批注信息进行识别转换,通过所述显示端口信息进行显示,解决现有技术中存在的批注信息的处理方法不够智能化,且批注方式的多样性与查阅人员的信息主观臆断性,使得文档查阅效率低下且存在解析偏差风险的技术问题,基于查阅人员的批注习惯进行文档批注的智能化转换,以提高文档批注与查阅人员的契合度,进行文档的高效精准查阅。
附图说明
图1为本申请提供了一种基于多文档的批注互动方法流程示意图;
图2为本申请提供了一种基于多文档的批注互动方法中待查阅批注信息识别转换流程示意图;
图3为本申请提供了一种基于多文档的批注互动方法中批注回复信息标记流程示意图;
图4为本申请提供了一种基于多文档的批注互动***结构示意图。
附图标记说明:信息获取模块11,信息识别模块12,信息标注模块13,信息确定模块14,信息筛选模块15,特征获取模块16,信息转换模块17。
具体实施方式
本申请通过提供一种基于多文档的批注互动方法及***,获取多文档批注信息,进行批注用户来源提取并生成标签进行批注标注,基于端口用户信息对多文档批注信息进行筛选,获得待查阅批注信息,将端口用户的批注记录集输入批注分析模型,获得端口用户批注特征,进而对待查阅批注信息进行识别转换,通过所述显示端口信息进行显示,用于解决现有技术中存在的批注信息的处理方法不够智能化,且批注方式的多样性与查阅人员的信息主观臆断性,使得文档查阅效率低下且存在解析偏差风险的技术问题。
实施例一
如图1所示,本申请提供了一种基于多文档的批注互动方法,所述方法包括:
步骤S100:获得多文档信息;
具体而言,现如今,可通过终端显示设备随时进行文档阅读,但由于个人批注习惯的主观性,使得在阅读过程中对于文档中的批注只能通过人工比较分析来进行判断,使得阅读效率低下,同时可能会出现判断错误的状况,本申请提供的一种基于多文档的批注互助方法,通过将文档中的批注与批注用户进行关联,当前的操作用户进行阅读时,可直接对文档进行信息识别,确定非本人标注的批注信息,基于操作用户的个人批注习惯对需进行查阅的信息进行标注信息的标注特征转换,进而进行阅读,可有效提高阅读效率,提高阅读的流畅度,首先,对所述多文档信息进行采集,所述多文档信息为待进行阅读需对批注信息识别转换的源文档,所述多文档信息中可能存在多个不同用户的标注信息,且批注习惯可能存在差异性,所述多文档信息的获取为后续进行批注信息识别转换提供了基础信息依据。
步骤S200:基于所述多文档信息,识别多文档批注信息,其中,所述多文档批注信息包括批注位置、批注文档引用内容;
步骤S300:根据所述多文档批注信息,进行批注用户来源提取,确定批注用户信息,并基于所述批注用户信息生成标签对所述多文档批注信息进行标注;
进一步的,对获取的所述多文档信息进行信息识别,确定其中每条批注信息对应的批注位置与批注文档引用内容,其中,所述批注位置与所述批注文档引用内容应对应关联,可选的,识别的批注信息可能存在多个不同批注用户,由于个人批注习惯的不同,对应的批注信息格式等识别特征存在差异性,对批注用户与对应的文档批注信息进行对应标识,获取批注信息标识结果,以便后续进行识别区分,作针对性处理,进而对识别的批注信息进行整合处理,生成所述多文档批注信息。
进而基于所述多文档批注信息作进一步处理,对所述多文档批注信息基于所述批注信息标识结果进行信息提取,确定所述多文档批注信息中存在的批注用户,可选的,所述批注用户为一个或多个,对所述批注用户的批注来源进行提取,确定批注用户的用户名、批注特征、个人风格等信息,作为所述批注用户信息,进而对所述批注用户信息进行简化规整,确定能反映所述批注用户主观特点的标签,基于生成的标签对所述多文档批注信息进行标注,以便后续可依据标注的标签直接进行信息识别转换,提高信息处理效率。
步骤S400:获得显示端口信息,并基于所述显示端口信息,确定端口用户信息;
步骤S500:根据所述端口用户信息,对所述多文档批注信息进行批注用户信息筛选,获得待查阅批注信息,其中,所述待查阅批注信息包括端口用户的批注回复信息、非端口用户批注信息;
具体而言,对所述多文档信息进行文档阅读的终端显示设备进行确定,所述终端显示设备可以是电脑、手机等电子设备,进一步对所述终端显示设备的显示端口进行信息提取,例如登录用户、设备显示特点、显示格式等,将其作为所述显示端口信息,进一步基于所述显示端口信息提取登录用户的用户信息,包括用户身份信息、文档查阅内容信息等,将其作为所述端口用户信息,所述端口用户为当前进行操作的用户,进一步的,以所述端口用户信息为基准,依据所述文档查阅内容信息对所述多文档批注信息进行批注用户信息筛选,确定所述端口用户进行查阅的文档内容涵盖的批注信息,包括端口用户的批注回复信息与非端口用户批注信息,其中所述非端口用户批注信息可能包含多个不同用户的批注信息,可基于标注的标签直接进行识别判定,对上述信息进行整合处理生成所述待查阅批注信息,所述待查阅批注信息的获取为后续进行信息转换夯实了基础。
步骤S600:获得端口用户的批注记录集,将所述端口用户的批注记录集输入批注分析模型,获得端口用户批注特征;
步骤S700:基于所述端口用户批注特征对所述待查阅批注信息进行识别转换,通过所述显示端口信息进行显示。
具体而言,构建所述批注分析模型,即进行批注信息特征识别分析的虚拟模型,对所述端口用户基于引用内容与批注内容进行历史批注记录调取,获取所述端口用户的批注记录集,进而将所述端口用户的批注记录集作为样本数据,将其划分为训练集与验证集,对构建的所述批注分析模型进行模型训练与验证,直至所述批注分析模型的特征识别分析准确度达到预定标准,停止进行模型训练,并将训练后的模型作为最终确定的所述批注分析模型,同时,可输出所述端口用户批注特征。
进一步的,通过进行模型分析确定所述端口用户的批注特征,所述批注特征可侧面反映所述端口用户的批注习惯,对所述批注特征进行划分确定多种批注类型,例如重难点的批注格式与批注顺序、关键词批注方式、不同标识的意义等,对所述待查阅批注信息中的多条批注信息基于所述端口用户的多种批注类型进行批注信息归类,进而基于对应的批注特征进行信息转换,将所述待查阅批注信息转换为符合所述端口用户批注习惯的批注方式,以保证所述端口用户进行文档查阅时的流畅度与查阅效率,进一步对经过信息转换的所述待查阅批注信息基于所述显示端口信息进行显示,所述显示端口信息为进行文档查阅的终端显示设备的相关信息,包括显示端口,用于进行信息显示,通过对多文档信息进行批注信息识别归类与信息转换,便于所述端口用户进行信息查阅。
进一步而言,将所述端口用户的批注记录集输入批注分析模型,获得端口用户批注特征,本申请步骤S600还包括:
步骤S610:根据所述端口用户的批注记录集,将引用内容、批注内容作为输入参数,将用户批注特征作为输出结果,建立机器学习模型,并利用所述批注记录集构建训练数据集对所述机器学习模型进行训练学习;
步骤S620:对引用内容、批注内容进行特征识别分析,确定批注类型特征,基于所述批注类型特征,进行批注格式、语句结构顺序识别处理,确定所述端口用户批注特征。
具体而言,基于大数据对所述端口用户进行批注记录调取,所述端口用户为当前进行操作的用户,对调取的批注记录中所述引用内容与所述批注内容进行关联对应,对同类型的批注记录进行归类整合生成所述端口用户的批注记录集,进一步基于机器学习算法构建所述机器学习模型,所述机器学习模型为进行输入内容特征提取的辅助性工具,可选的,所述机器学习模型可以是多层级网络层,包括信息识别层、特征比对分析层与输入输出层,其中输入层与输出层为模型的必要性结构,无特殊意义,将所述批注记录集作为样本数据,划分为训练集与验证集,进而将所述训练集与验证集输入所述机器学习模型中,通过进行模型训练验证,直至模型的模拟精度达到预定准确度,例如95%,以确定所述批注分析模型。
进一步的,将所述引用内容与所述批注内容基于输入层输入所述批注分析模型的信息识别层中,确定批注状态信息,进而将其传输至所述特征比对分析层中,确定所述批注类型特征,例如文字、图形、图表、横线、编号等,不同批注类型对应的表述思想存在差异性,例如重点标注、关键词标注等,基于所述批注类型特征对批注格式进行规整,确定惯用的批注内容习惯,示例性的,文字、图形、图标的排列顺序,语句结构顺序等,例如将关键词、动词、图形作为个人表述的顺序结构,对引用内容进行批注是,基于上述表述结构直接添加标注特征词,将其确定为所述端口用户的批注特征,获取所述端口用户的批注标准化格式,同时,基于所述批注分析模型进行特征剖取,可有效保障输出的批注特征的准确度与客观性。
进一步而言,如图2所示,基于所述端口用户批注特征对所述待查阅批注信息进行识别转换之前,本申请步骤S700还包括:
步骤S710-1:获得端口用户的查看要求;
步骤S720-1:根据所述端口用户的查看要求对所述待查阅批注信息进行识别查找,确定需求查看批注信息;
步骤S730-1:根据所述端口用户批注特征,确定批注特征类型,基于所述批注特征类型对所述需求查看批注信息进行识别匹配,获得匹配待转换批注信息;
步骤S740-1:基于所述端口用户批注特征对所述匹配待转换批注信息进行识别转换。
具体而言,通过对所述多文档批注信息基于所述批注用户信息进行筛选,获得所述待查阅批注信息,进而对所述端口用户,即当前的操作用户的查看要求进行确定,例如文档重难点的批注,进一步对所述待查阅批注信息进行信息识别,确定符合所述端口用户的查看要求的批注信息,将其作为所述需求查看批注信息,即为保障查看流畅性,存在批注信息转换必要性的部分信息。
进一步的,基于所述端口用户批注特征,确定所述批注特征类型,例如,针对批注意义不同采用不同的批注格式顺序等,其中,所述批注特征类型可能包括多种,进而对所述批注特征类型与所述需求查看标注信息进行信息匹配,对匹配结果中对应的所述需求查看标注信息与所述批注特征类型进行对应标识,以便直接进行识别区分,其中,一种批注特征类型可对应一条或多条所述需求查看标注信息,将其作为所述匹配待转换批注信息,进一步以所述端口用户批注特征为基准,对所述匹配待转换批注信息依据对应的所述批注特征类型进行信息识别转换,将文档批注信息在不影响批注信息内容与完整度的基础上,将其转换为符合所述端口用户的批注习惯的批注信息,可有效提高所述端口用户的文档阅读流畅度与舒适度,避免由于主观分析偏差造成标注内容解析错误。
进一步而言,本申请步骤S700还包括:
步骤S710-2:根据所述待查阅批注信息,进行批注文档引用内容分析,提取同根批注信息集;
步骤S720-2:对所述同根批注信息集,进行批注用户信息分析,确定批注用户信息与端口用户信息的用户关联度;
步骤S730-2:基于不同的用户关联度,生成不同的显示特征;
步骤S740-2:基于同根批注信息集进行内容语义分析,确定语义相似度,并基于所述语义相似度对相似度高的批注进行同类型标记。
具体而言,对所述待查阅批注信息中多条批注信息分别进行批注求源,确定其中批注信息对应的批注文档引用内容是否属于同一引用内容,即同一引用内容或关键词对应多条批注信息,通过进行信息对应整合与标注生成所述同根批注信息集,其中,所述同根批注信息集中,同一引用内容对应的批注信息可能由同一批注用户批注或多个不同批注用户批注。
进一步对所述同根批注信息集进行批注用户信息分析,对批注用户信息与端口用户信息进行用户关联度分析,例如存在同根批注、批注内容关注度等,基于所述用户关联度的差异性设置不同的显示特征,对于关联度高低进行显示优先级的递减,关联度越高,显示特征越明显,进一步的,对同根批注信息集分别基于引用内容进行批注信息的语义分析,确定各组同根批注的语义相似度,对于相似度较高的同根批注可看作同类型批注,可选的,基于多级别相似度设定多种批注类型,以进行批注信息的选择性查阅,减少信息的重复查阅率,可有效提高文档查阅效率。
进一步而言,如图3所示,本申请步骤S700还包括:
步骤S710-3:当显示端口显示为所述端口用户的批注回复信息时,对批注回复信息进行语义识别,获得回复语义信息;
步骤S720-3:根据所述回复语义信息,将语义相似度满足预设要求的进行同显示特征显示;
步骤S730-3:获得批注回复信息的批注用户信息;
步骤S740-3:根据所述批注用户信息、所述端口用户信息,确定回复用户关系;
步骤S750-3:基于所述回复用户关系、语义相似度对所述端口用户的批注回复信息进行标记。
具体而言,当对所述待查阅批注信息进行信息转换,其中,存在部分批注回复信息,转换完成后基于所述显示端口进行批注信息显示时,若所述显示端口显示为所述端口用户的批注回复信息时,提取所述批注回复信息并进行语义识别,确定具体回复内容方向,例如批注补充、批注判定等,作为所述回复语义信息,进一步对所述回复语义信息进行语义相似度判定,可设定预设要求,即进行语义相似度限定的临界值,判断所述回复语义信息中各个信息分别两两进行校对分析,确定语义相似度是否满足所述预设要求,当满足所述预设要求时,表明进行比对的两条信息属于同特征语义信息,进一步对判定结果进行归类整合,对同特征语义信息进行同特征显示。
进一步的,获取批注回复信息对应的批注信息,并确定批注信息的批注用户信息,其中,所述批注用户信息、所述批注回复信息与所述批注信息相对应,对所述批注用户信息与所述端口用户信息进行信息回复关系分析,确定所述回复用户关系,所述批注用户可能为端口用户批注或其他用户批注,所述批注回复信息为所述端口用户批注,进一步依据所述回复用户关系与所述语义相似度对所述端口用户的批注回复信息进行归类整合与信息标识,同一类别基于同一标识信息进行标识,便于用户进行针对性查看。
进一步而言,根据所述回复语义信息,将语义相似度满足预设要求的进行同显示特征显示之后,本申请步骤S720-3还包括:
步骤S721-3:根据所述语义相似度,对批注回复信息进行分类;
步骤S722-3:基于批注回复信息的分类结果,确定分类显示特征;
步骤S723-3:对于语义相似度低于预设阈值的,进行突出显示。
具体而言,通过对所述批注回复信息进行语义识别,确定所述回复语义信息,进一步对所述回复语义信息进行语义相似度分析,示例性的,可通过设定相似度分级区间确定多个相似度区间,对所述批注回复信息基于语义相似度进行分类,获取批注分类信息的分类结果,并确定所述分类结果中各分类等级对应的分类显示特征,示例性的,对于重叠度较高,即相似度最高的区间信息基于同一显示特征进行统一显示,对于相似度一般的可显示可不显示,进一步设定所述预设阈值,即限定所述语义相似度的底线临界值,对所述分类结果中的语义相似度低于所述预设阈值时,表明对应的批注回复信息属于独特回复,对其进行突出显示,通过对所述批注回复信息基于语义相似度进行分类显示,可依据实际查阅需求进行针对性信息提取,提高信息识别效率。
进一步而言,本申请步骤S700还包括:
步骤S710-4:获得批注用户查看需求;
步骤S720-4:基于所述批注用户查看需求,确定查看批注用户信息,并基于所述查看批注用户信息在所述多文档批注信息进行遍历比对,获得查看用户批注信息集;
步骤S730-4:对所述查看用户批注信息集进行批注引用内容、批注信息分析,获得用户关注内容特征、批注信息特征;
步骤S740-4:根据所述查看用户批注信息集、用户关注内容特征、批注信息特征,生成需求显示信息通过显示端口信息进行显示。
具体而言,进行文档查阅前,可基于查阅目的需求直接确定对应的文档信息,以避免无效做功,对文档批注信息对应的用户查看需求进行确定,即对文档批注信息进行查阅的目的,将其作为所述批注用户查看需求,进一步基于所述批注用户查看需求对查看批注的用户信息进行确定,作为所述查看批注用户信息,进一步对所述多文档批注信息基于所述查看批注用户信息进行遍历比对,确定各查看批注用户信息对文档作的批注信息,对相关批注信息与用户信息进行对应整合,生成所述查看用户批注信息集,进一步对所述查看用户批注信息集中不同用户对应的多组批注信息进行识别分析,基于所述批注引用内容与所述批注信息特征进行联合分析,基于引用内容的批注频率、批注方向等进行综合性考量,获取所述用户关注内容特征与所述批注信息特征,进一步对所述查看用户批注信息集、所述用户关注内容特征与所述批注信息特征进行信息对应与联合分析,确定文档的查阅须知内容,即查阅需求信息,作为所述需求显示信息并基于所述显示端口进行信息显示,包括显示端口,即进行信息展示的显示端,通过进行所述需求显示信息的获取可进一步增强文档查阅的目的性,进行信息的针对性查阅。
实施例二
基于与前述实施例中一种基于多文档的批注互动方法相同的发明构思,如图4所示,本申请提供了一种基于多文档的批注互动***,所述***包括:
信息获取模块11,所述信息获取模块11用于获得多文档信息;
信息识别模块12,所述信息识别模块12用于基于所述多文档信息,识别多文档批注信息,其中,所述多文档批注信息包括批注位置、批注文档引用内容;
信息标注模块13,所述信息标注模块13用于根据所述多文档批注信息,进行批注用户来源提取,确定批注用户信息,并基于所述批注用户信息生成标签对所述多文档批注信息进行标注;
信息确定模块14,所述信息确定模块14用于获得显示端口信息,并基于所述显示端口信息,确定端口用户信息;
信息筛选模块15,所述信息筛选模块15用于根据所述端口用户信息,对所述多文档批注信息进行批注用户信息筛选,获得待查阅批注信息,其中,所述待查阅批注信息包括端口用户的批注回复信息、非端口用户批注信息;
特征获取模块16,所述特征获取模块16用于获得端口用户的批注记录集,将所述端口用户的批注记录集输入批注分析模型,获得端口用户批注特征;
信息转换模块17,所述信息转换模块17用于基于所述端口用户批注特征对所述待查阅批注信息进行识别转换,通过所述显示端口信息进行显示。
进一步而言,所述***还包括:
要求获取模块,所述要求获取模块用于获得端口用户的查看要求;
批注信息确定模块,所述批注信息确定模块用于根据所述端口用户的查看要求对所述待查阅批注信息进行识别查找,确定需求查看批注信息;
信息匹配模块,所述信息匹配模块用于根据所述端口用户批注特征,确定批注特征类型,基于所述批注特征类型对所述需求查看批注信息进行识别匹配,获得匹配待转换批注信息;
信息识别转换模块,所述信息识别转换模块用于基于所述端口用户批注特征对所述匹配待转换批注信息进行识别转换。
进一步而言,所述***还包括:
引用分析模块,所述引用分析模块用于根据所述待查阅批注信息,进行批注文档引用内容分析,提取同根批注信息集;
关联度确定模块,所述关联度确定模块用于对所述同根批注信息集,进行批注用户信息分析,确定批注用户信息与端口用户信息的用户关联度;
显示特征生成模块,所述显示特征生成模块用于基于不同的用户关联度,生成不同的显示特征;
批注标记模块,所述批注标记模块用于基于同根批注信息集进行内容语义分析,确定语义相似度,并基于所述语义相似度对相似度高的批注进行同类型标记。
进一步而言,所述***还包括:
语义识别模块,所述语义识别模块用于当显示端口显示为所述端口用户的批注回复信息时,对批注回复信息进行语义识别,获得回复语义信息;
特征显示模块,所述特征显示模块用于根据所述回复语义信息,将语义相似度满足预设要求的进行同显示特征显示;
用户信息获取模块,所述用户信息获取模块用于获得批注回复信息的批注用户信息;
关系确定模块,所述关系确定模块用于根据所述批注用户信息、所述端口用户信息,确定回复用户关系;
回复信息标记模块,所述回复信息标记模块用于基于所述回复用户关系、语义相似度对所述端口用户的批注回复信息进行标记。
进一步而言,所述***还包括:
信息分类模块,所述信息分类模块用于根据所述语义相似度,对批注回复信息进行分类;
显示特征确定模块,所述显示特征确定模块用于批注回复信息的分类结果,确定分类显示特征;
阈值判定模块,所述阈值判定模块用于对于语义相似度低于预设阈值的,进行突出显示。
进一步而言,所述***还包括:
需求获取模块,所述需求获取模块用于获得批注用户查看需求;
信息比对模块,所述信息比对模块用于基于所述批注用户查看需求,确定查看批注用户信息,并基于所述查看批注用户信息在所述多文档批注信息进行遍历比对,获得查看用户批注信息集;
特征信息获取模块,所述特征信息获取模块用于对所述查看用户批注信息集进行批注引用内容、批注信息分析,获得用户关注内容特征、批注信息特征;
信息显示模块,所述信息显示模块用于根据所述查看用户批注信息集、用户关注内容特征、批注信息特征,生成需求显示信息通过显示端口信息进行显示。
进一步而言,所述***还包括:
模型建立训练模块,所述模型建立训练模块用于根据所述端口用户的批注记录集,将引用内容、批注内容作为输入参数,将用户批注特征作为输出结果,建立机器学习模型,并利用所述批注记录集构建训练数据集对所述机器学习模型进行训练学习;
批注特征确定模块,所述批注特征确定模块用于对引用内容、批注内容进行特征识别分析,确定批注类型特征,基于所述批注类型特征,进行批注格式、语句结构顺序识别处理,确定所述端口用户批注特征。
本说明书通过前述对一种基于多文档的批注互动方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于多文档的批注互动方法及***,对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (6)
1.一种基于多文档的批注互动方法,其特征在于,所述方法包括:
获得多文档信息;
基于所述多文档信息,识别多文档批注信息,其中,所述多文档批注信息包括批注位置、批注文档引用内容;
根据所述多文档批注信息,进行批注用户来源提取,确定批注用户信息,并基于所述批注用户信息生成标签对所述多文档批注信息进行标注;
获得显示端口信息,并基于所述显示端口信息,确定端口用户信息;
根据所述端口用户信息,对所述多文档批注信息进行批注用户信息筛选,获得待查阅批注信息,其中,所述待查阅批注信息包括端口用户的批注回复信息、非端口用户批注信息;
获得端口用户的批注记录集,将所述端口用户的批注记录集输入批注分析模型,获得端口用户批注特征;
基于所述端口用户批注特征对所述待查阅批注信息进行识别转换,通过所述显示端口信息进行显示;
其中,将所述端口用户的批注记录集输入批注分析模型,获得端口用户批注特征,包括:
根据所述端口用户的批注记录集,将引用内容、批注内容作为输入参数,将用户批注特征作为输出结果,建立机器学习模型,并利用所述批注记录集构建训练数据集对所述机器学习模型进行训练学习;
对引用内容、批注内容进行特征识别分析,确定批注类型特征,基于所述批注类型特征,进行批注格式、语句结构顺序识别处理,确定所述端口用户批注特征;
基于所述端口用户批注特征对所述待查阅批注信息进行识别转换之前,包括:
获得端口用户的查看要求;
根据所述端口用户的查看要求对所述待查阅批注信息进行识别查找,确定需求查看批注信息;
根据所述端口用户批注特征,确定批注特征类型,基于所述批注特征类型对所述需求查看批注信息进行识别匹配,获得匹配待转换批注信息;
基于所述端口用户批注特征对所述匹配待转换批注信息进行识别转换。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待查阅批注信息,进行批注文档引用内容分析,提取同根批注信息集;
对所述同根批注信息集,进行批注用户信息分析,确定批注用户信息与端口用户信息的用户关联度;
基于不同的用户关联度,生成不同的显示特征;
基于同根批注信息集进行内容语义分析,确定语义相似度,并基于所述语义相似度对相似度高的批注进行同类型标记。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
当显示端口显示为所述端口用户的批注回复信息时,对批注回复信息进行语义识别,获得回复语义信息;
根据所述回复语义信息,将语义相似度满足预设要求的进行同显示特征显示;
获得批注回复信息的批注用户信息;
根据所述批注回复信息的批注用户信息、所述端口用户信息,确定回复用户关系;
基于所述回复用户关系、语义相似度对所述端口用户的批注回复信息进行标记。
4.如权利要求3所述的方法,其特征在于,根据所述回复语义信息,将语义相似度满足预设要求的进行同显示特征显示之后,包括:
根据所述语义相似度,对批注回复信息进行分类;
基于批注回复信息的分类结果,确定分类显示特征;
对于语义相似度低于预设阈值的,进行突出显示。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
获得批注用户查看需求;
基于所述批注用户查看需求,确定查看批注用户信息,并基于所述查看批注用户信息在所述多文档批注信息进行遍历比对,获得查看用户批注信息集;
对所述查看用户批注信息集进行批注引用内容、批注信息分析,获得用户关注内容特征、批注信息特征;
根据所述查看用户批注信息集、用户关注内容特征、批注信息特征,生成需求显示信息通过显示端口信息进行显示。
6.一种基于多文档的批注互动***,其特征在于,所述***包括:
信息获取模块,所述信息获取模块用于获得多文档信息;
信息识别模块,所述信息识别模块用于基于所述多文档信息,识别多文档批注信息,其中,所述多文档批注信息包括批注位置、批注文档引用内容;
信息标注模块,所述信息标注模块用于根据所述多文档批注信息,进行批注用户来源提取,确定批注用户信息,并基于所述批注用户信息生成标签对所述多文档批注信息进行标注;
信息确定模块,所述信息确定模块用于获得显示端口信息,并基于所述显示端口信息,确定端口用户信息;
信息筛选模块,所述信息筛选模块用于根据所述端口用户信息,对所述多文档批注信息进行批注用户信息筛选,获得待查阅批注信息,其中,所述待查阅批注信息包括端口用户的批注回复信息、非端口用户批注信息;
特征获取模块,所述特征获取模块用于获得端口用户的批注记录集,将所述端口用户的批注记录集输入批注分析模型,获得端口用户批注特征;
信息转换模块,所述信息转换模块用于基于所述端口用户批注特征对所述待查阅批注信息进行识别转换,通过所述显示端口信息进行显示;
模型建立训练模块,所述模型建立训练模块用于根据所述端口用户的批注记录集,将引用内容、批注内容作为输入参数,将用户批注特征作为输出结果,建立机器学习模型,并利用所述批注记录集构建训练数据集对所述机器学习模型进行训练学习;
批注特征确定模块,所述批注特征确定模块用于对引用内容、批注内容进行特征识别分析,确定批注类型特征,基于所述批注类型特征,进行批注格式、语句结构顺序识别处理,确定所述端口用户批注特征;
要求获取模块,所述要求获取模块用于获得端口用户的查看要求;
批注信息确定模块,所述批注信息确定模块用于根据所述端口用户的查看要求对所述待查阅批注信息进行识别查找,确定需求查看批注信息;
信息匹配模块,所述信息匹配模块用于根据所述端口用户批注特征,确定批注特征类型,基于所述批注特征类型对所述需求查看批注信息进行识别匹配,获得匹配待转换批注信息;
信息识别转换模块,所述信息识别转换模块用于基于所述端口用户批注特征对所述匹配待转换批注信息进行识别转换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211301753.7A CN115659929B (zh) | 2022-10-24 | 2022-10-24 | 一种基于多文档的批注互动方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211301753.7A CN115659929B (zh) | 2022-10-24 | 2022-10-24 | 一种基于多文档的批注互动方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115659929A CN115659929A (zh) | 2023-01-31 |
CN115659929B true CN115659929B (zh) | 2023-09-15 |
Family
ID=84991666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211301753.7A Active CN115659929B (zh) | 2022-10-24 | 2022-10-24 | 一种基于多文档的批注互动方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659929B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819531A (zh) * | 2011-06-10 | 2012-12-12 | 北大方正集团有限公司 | 一种云阅读服务***、云阅读服务方法和装置 |
CN103500158A (zh) * | 2013-10-08 | 2014-01-08 | 北京百度网讯科技有限公司 | 批注电子文档的方法和装置 |
JP2014139713A (ja) * | 2013-01-21 | 2014-07-31 | Mitsubishi Electric Corp | 査読結果表生成装置及び査読結果表生成プログラム |
CN104391831A (zh) * | 2014-11-12 | 2015-03-04 | 武汉传神信息技术有限公司 | 一种对文档内容进行批注的方法和*** |
JP2015138358A (ja) * | 2014-01-22 | 2015-07-30 | 日本電気株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN110956023A (zh) * | 2018-09-25 | 2020-04-03 | 珠海金山办公软件有限公司 | 一种批注显示方法及装置 |
CN113392179A (zh) * | 2020-12-21 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本标注方法及装置、电子设备、存储介质 |
WO2021184574A1 (zh) * | 2020-03-20 | 2021-09-23 | 平安国际智慧城市科技股份有限公司 | 文档数据导入方法、文档数据导出方法、装置和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200160231A1 (en) * | 2018-11-19 | 2020-05-21 | International Business Machines Corporation | Method and System for Using a Multi-Factorial Analysis to Identify Optimal Annotators for Building a Supervised Machine Learning Model |
US11243916B2 (en) * | 2019-02-27 | 2022-02-08 | Atlassian Pty Ltd. | Autonomous redundancy mitigation in knowledge-sharing features of a collaborative work tool |
-
2022
- 2022-10-24 CN CN202211301753.7A patent/CN115659929B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819531A (zh) * | 2011-06-10 | 2012-12-12 | 北大方正集团有限公司 | 一种云阅读服务***、云阅读服务方法和装置 |
JP2014139713A (ja) * | 2013-01-21 | 2014-07-31 | Mitsubishi Electric Corp | 査読結果表生成装置及び査読結果表生成プログラム |
CN103500158A (zh) * | 2013-10-08 | 2014-01-08 | 北京百度网讯科技有限公司 | 批注电子文档的方法和装置 |
JP2015138358A (ja) * | 2014-01-22 | 2015-07-30 | 日本電気株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN104391831A (zh) * | 2014-11-12 | 2015-03-04 | 武汉传神信息技术有限公司 | 一种对文档内容进行批注的方法和*** |
CN110956023A (zh) * | 2018-09-25 | 2020-04-03 | 珠海金山办公软件有限公司 | 一种批注显示方法及装置 |
WO2021184574A1 (zh) * | 2020-03-20 | 2021-09-23 | 平安国际智慧城市科技股份有限公司 | 文档数据导入方法、文档数据导出方法、装置和存储介质 |
CN113392179A (zh) * | 2020-12-21 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本标注方法及装置、电子设备、存储介质 |
Non-Patent Citations (2)
Title |
---|
Markup: A Web-Based Annotation Tool Powered by Active Learning;Samuel Dobbie等;Frontiers;第3卷;第1-9页 * |
The INCEpTION Platform: Machine-Assisted and Knowledge-Oriented Interactive Annotation;Jan-Christoph Klie等;Proceedings of the 27th International Conference on Computational Linguistics: System Demonstrations;第5–9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115659929A (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018000269A1 (zh) | 一种基于数据挖掘和众包的数据标注方法及*** | |
JP3856778B2 (ja) | 複数言語を対象とした文書分類装置及び文書分類方法 | |
CN1794234A (zh) | 数据语义化器 | |
CN112528041B (zh) | 一种基于知识图谱的调度用语规范验证方法 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN113987125A (zh) | 基于神经网络的文本结构化信息提取方法、及其相关设备 | |
CN113362072B (zh) | 风控数据处理方法、装置、电子设备及存储介质 | |
CN113094512A (zh) | 一种工业生产制造中故障分析***及方法 | |
CN113553419A (zh) | 民航知识图谱问答*** | |
CN115659929B (zh) | 一种基于多文档的批注互动方法及*** | |
CN113822040A (zh) | 一种主观题阅卷评分方法、装置、计算机设备及存储介质 | |
CN116644728B (zh) | 一种基于条款数字化的合同生成方法及*** | |
CN113011154A (zh) | 一种基于深度学习的作业查重方法 | |
CN116090560B (zh) | 基于教材的知识图谱建立方法、装置及*** | |
CN116578703A (zh) | 一种智慧鉴定***及方法 | |
CN114118098A (zh) | 基于要素抽取的合同评审方法、设备及存储介质 | |
CN110119464B (zh) | 一种合同中数值的智能推荐方法及装置 | |
CN102722489B (zh) | 从网页中抽取对象标识符的***及方法 | |
Blum et al. | A comparative wordlist for investigating distant relations among languages in Lowland South America | |
CN113704405B (zh) | 基于录音内容的质检评分方法、装置、设备及存储介质 | |
CN117472737A (zh) | 面向增量代码的质量检测方法及其*** | |
CN117592470A (zh) | 大语言模型驱动的低成本公报数据抽取方法 | |
CN116681057A (zh) | 邮件结构的解析方法、识别模型的训练方法和相关设备 | |
CN117632899A (zh) | Icl专病数据库构建方法、装置、设备及存储介质 | |
CN118277532A (zh) | 一种医疗数据处理建议的生成方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |