CN111814472A - 文本识别方法、装置、设备及存储介质 - Google Patents

文本识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111814472A
CN111814472A CN202010914173.XA CN202010914173A CN111814472A CN 111814472 A CN111814472 A CN 111814472A CN 202010914173 A CN202010914173 A CN 202010914173A CN 111814472 A CN111814472 A CN 111814472A
Authority
CN
China
Prior art keywords
text
text information
result
recognition
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010914173.XA
Other languages
English (en)
Other versions
CN111814472B (zh
Inventor
杨张洁
高瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010914173.XA priority Critical patent/CN111814472B/zh
Publication of CN111814472A publication Critical patent/CN111814472A/zh
Application granted granted Critical
Publication of CN111814472B publication Critical patent/CN111814472B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据的数据处理技术,提供了一种文本识别方法、装置、设备及存储介质。该方法从第一数据源获取第一类型的第一文本信息,解析该文本信息得到第一类型因子并建立筛查规则,基于筛查规则配置规则引擎,从第二数据源获取第二类型的第二文本信息,为第二文本信息分配标签生成样本集,基于样本集得到文本识别模型,对第二文本信息执行分词提取第二类型因子并建立知识图谱,将待识别文本信息输入文本识别模型得到第一识别结果,基于规则引擎对待识别文本信息的因子进行识别得到第二识别结果,将待识别文本信息的因子与知识图谱匹配得到匹配结果,从识别结果及匹配结果中选取出目标识别结果。本发明可以提高特殊文本的识别效率。

Description

文本识别方法、装置、设备及存储介质
技术领域
本发明涉及大数据的数据处理技术领域,尤其涉及一种文本识别方法、装置、设备及存储介质。
背景技术
目前,现有的识别裁判文书中是否涉及虚假诉讼的情形,大多是识别裁判文书中的文本和图片的文字信息,并提取文字信息的属性特征根据专家经验进行相应的识别判断,由于法院卷宗中文书与其它信息的多样性和复杂性,现有技术中对该特殊文本进行文本识别时,容易出现应识别的未识别、不应识别而识别或者识别不全面等问题,导致对裁判文书中是否涉及虚假诉讼的情形识别的准确率较低。
发明内容
鉴于以上内容,本发明提供一种文本识别方法、装置、设备及存储介质,其目的在于解决现有技术对特殊文本识别准确率低的技术问题。
为实现上述目的,本发明提供一种文本识别方法,该方法包括:
从第一预定数据源获取第一预设类型的第一文本信息,解析所述第一文本信息,得到第一文本信息对应的第一类型因子,基于所述第一类型因子建立多个筛查规则,基于所述多个筛查规则配置规则引擎;
从第二预定数据源获取第二预设类型的第二文本信息,为所述第二文本信息分配唯一的预设标签,将所述第二文本信息作为自变量、各所述预设标签作为因变量生成样本集,基于所述样本集得到文本识别模型;
对所述第二文本信息执行分词处理,从分词结果中提取第二类型因子,基于所述第二类型因子建立知识图谱;
响应用户发出的文本识别请求,获取待识别文本信息,将所述待识别文本信息输入所述文本识别模型得到第一识别结果,基于所述规则引擎对所述待识别文本信息的因子进行识别得到第二识别结果,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果,基于所述第一识别结果、第二识别结果、第一匹配结果及预设选取规则选取出目标识别结果反馈至所述用户。
优选的,所述基于所述样本集得到文本识别模型包括:
将所述样本集按照预设比例分成训练集及验证集;
利用所述训练集中的各所述自变量及各所述因变量对条件随机场模型进行训练,每隔预设周期使用所述验证集对所述条件随机场模型进行验证,利用所述验证集中各所述自变量及各所述因变量对该文本识别模型的准确率进行验证;
当验证所述准确率大于预设阈值时,结束训练,得到所述文本识别模型。
优选的,所述对所述第二文本信息执行分词处理包括:
根据正向最大匹配法将第二文本信息与预设词库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第一数量的第一词组和第二数量的单字;
根据逆向最大匹配法将第二文本信息与预设词库进行匹配,得到第三匹配结果,所述第三匹配结果中包含有第三数量的第二词组和第四数量的单字;
若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量,或者,若所述第一数量小于所述第三数量,则将所述第二匹配结果作为所述第二文本信息的分词结果;若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量,或者,若所述第一数量大于所述第三数量,则将所述第三匹配结果作为所述第二文本信息的分词结果。
优选的,所述将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果包括:
当所述待识别文本信息的第一因子与所述知识图谱对应的因子一致时,将所述待识别文本信息的第二因子与所述知识图谱对应的因子进行匹配,当所述第二因子与所述知识图谱对应的因子匹配一致时,再将所述待识别文本信息的第二因子与所述知识图谱对应的因子进行匹配。
优选的,所述预设选取规则包括:
当所述第一识别结果、所述第二识别结果及所述第一匹配结果三者中存在任意两个以上的相同结果时,选取所述相同结果作为所述目标识别结果。
优选的,所述预设选取规则包括:
当所述第一识别结果、所述第二识别结果及所述第一匹配结果均不相同时,选取所述第一匹配结果作为所述目标识别结果。
优选的,所述方法还包括:
将所述目标识别结果反馈至所述用户,并在所述用户对应的展示界面展示预设数量的选项,以供所述用户对所述目标识别结果进行反馈。
为实现上述目的,本发明还提供一种文本识别装置,该文本识别装置包括:
第一建立模块:用于从第一预定数据源获取第一预设类型的第一文本信息,解析所述第一文本信息,得到第一文本信息对应的第一类型因子,基于所述第一类型因子建立多个筛查规则,基于所述多个筛查规则配置规则引擎;
第二建立模块:用于从第二预定数据源获取第二预设类型的第二文本信息,为所述第二文本信息分配唯一的预设标签,将所述第二文本信息作为自变量、各所述预设标签作为因变量生成样本集,基于所述样本集得到文本识别模型;
第三建立模块:用于对所述第二文本信息执行分词处理,从分词结果中提取第二类型因子,基于所述第二类型因子建立知识图谱;
识别模块:用于响应用户发出的文本识别请求,获取待识别文本信息,将所述待识别文本信息输入所述文本识别模型得到第一识别结果,基于所述规则引擎对所述待识别文本信息的因子进行识别得到第二识别结果,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果,基于所述第一识别结果、第二识别结果、第一匹配结果及预设选取规则选取出目标识别结果反馈至所述用户。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的文本识别方法的任意步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有文本识别程序,所述文本识别程序被处理器执行时,实现如上所述文本识别方法的任意步骤。
本发明提出的文本识别方法、装置、设备及存储介质,通过建立规则引擎、识别模型及构建知识图谱,可以根据民事诉讼领域裁判文书文本数据涉及的关键特征或者要素,方便快捷地对民事虚假诉讼线索等特殊文本进行有效的识别、分类,并且可以全面、无遗漏地对线索要素进行识别分类,避免了传统文本分类带来的应识别未识别、不应识别而识别或者识别不全面等问题。
附图说明
图1为本发明电子设备较佳实施例的示意图;
图2为图1中文本识别装置较佳实施例的模块示意图;
图3为本发明文本识别方法较佳实施例的流程图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参照图1所示,为本发明电子设备1较佳实施例的示意图。
该电子设备1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobilecommunication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作***和各类应用软件,例如文本识别程序10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行文本识别程序10的程序代码等。
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode,OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口),该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
图1仅示出了具有组件11-14以及文本识别程序10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
该电子设备1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在上述实施例中,处理器12执行存储器11中存储的文本识别程序10时可以实现如下步骤:
从第一预定数据源获取第一预设类型的第一文本信息,解析所述第一文本信息,得到第一文本信息对应的第一类型因子,基于所述第一类型因子建立多个筛查规则,基于所述多个筛查规则配置规则引擎;
从第二预定数据源获取第二预设类型的第二文本信息,为所述第二文本信息分配唯一的预设标签,将所述第二文本信息作为自变量、各所述预设标签作为因变量生成样本集,基于所述样本集得到文本识别模型;
对所述第二文本信息执行分词处理,从分词结果中提取第二类型因子,基于所述第二类型因子建立知识图谱;
响应用户发出的文本识别请求,获取待识别文本信息,将所述待识别文本信息输入所述文本识别模型得到第一识别结果,基于所述规则引擎对所述待识别文本信息的因子进行识别得到第二识别结果,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果,基于所述第一识别结果、第二识别结果、第一匹配结果及预设选取规则选取出目标识别结果反馈至所述用户。
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
关于上述步骤的详细介绍,请参照下述图2关于文本识别装置100实施例的功能模块图以及图3关于文本识别方法实施例的流程图的说明。
参照图2所示,为本发明文本识别装置100的功能模块图。
本发明所述文本识别装置100可以安装于电子设备中。根据实现的功能,所述文本识别装置100可以包括第一建立模块110、第二建立模块120、第三建立模块130及识别模块140。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
第一建立模块110,用于从第一预定数据源获取第一预设类型的第一文本信息,解析所述第一文本信息,得到第一文本信息对应的第一类型因子,基于所述第一类型因子建立多个筛查规则,基于所述多个筛查规则配置规则引擎。
在本实施例中,以民事虚假诉讼线索的识别为例对本方案进行说明,从第一预定数据源(例如,相关法律法规)获取第一预设类型的第一文本信息,第一文本信息在本实施例中可以是民事虚假诉讼案例的相关文本信息(例如,判决书等),可以利用正则表达式解析第一文本信息,得到第一文本信息对应的第一类型因子,第一类型因子包括:案例中当事人关系、案由、庭审情况、标的额、审判结果、场景等,之后,基于多个因子建立多个筛查规则,例如,基于已解析的民事诉讼案例的原告与被告恶意串通的虚假诉讼特征,其筛查规则是对裁判文书中出现的如下因子进行筛查:原告与被告的关联关系;被告对原告的诉讼请求及举证答辩情况;法院判决金额与诉讼请求金额比较等。
基于上述因子可在后台配置如下规则引擎:原告与被告具有关联关系;被告对原告的诉讼请求及举证无异议;法院判决金额大于等于诉讼请求金额等,根据建立的筛查规则配置规则引擎,可以对待识别文本进行辅助甄别。
第二建立模块120,用于从第二预定数据源获取第二预设类型的第二文本信息,为所述第二文本信息分配唯一的预设标签,将所述第二文本信息作为自变量、各所述预设标签作为因变量生成样本集,基于所述样本集得到文本识别模型。
在本实施例中,从第二预定数据源获取第二预设类型的第二文本信息,第二预定数据源包括但不限于中国裁判文书网、中国执行信息公开网以及本地相关的司法库,第二预设类型的第二文本信息可以是判决书、裁定书、调解书等批量文本信息,为第二文本信息分配唯一的预设标签,例如,对涉嫌虚假诉讼的第二文本信息标注为1,对未涉嫌虚假诉讼的第二文本信息标注为0,将第二文本信息作为自变量、各预设标签作为因变量生成样本集,基于条件随机场模型对样本集训练得到文本识别模型。
进一步地,文本识别模型的具体训练过程包括:
将所述样本集按照预设比例分成训练集及验证集;
利用所述训练集中的各所述自变量及各所述因变量对条件随机场模型进行训练,每隔预设周期(例如:每进行1000次迭代)使用所述验证集对所述条件随机场模型进行验证,利用所述验证集中各所述自变量及各所述因变量对该文本识别模型的准确率进行验证,当验证所述准确率大于预设阈值时,结束训练,得到所述文本识别模型。
为了更好的提取上述因子,对标注数据进行离线训练,得到训练模型文件后储存在离线的模型库中,使计算机基于前期人工标注、后期模型训练文件及人工对模型出数的修正再给模型以反馈,计算机可以在得到文本识别模型后,根据用户的反馈持续优化该模型。
第三建立模块130,用于对所述第二文本信息执行分词处理,从分词结果中提取第二类型因子,基于所述第二类型因子建立知识图谱。
在本实施例中,对第二文本信息执行分词操作,从分词结果中提取第二类型因子,提取的第二类型因子可以通过预先构建正则表达式对第二类型因子进行提取,第二类型因子可以包括案例中当事人关系、案由、庭审情况、标的额、审判结果、场景等。
在一个实施例中,对第二文本信息执行分词处理操作可以包括:
根据正向最大匹配法将第二文本信息与预设词库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第一数量的第一词组和第二数量的单字;
根据逆向最大匹配法将第二文本信息与预设词库进行匹配,得到第三匹配结果,所述第三匹配结果中包含有第三数量的第二词组和第四数量的单字;
若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量,或者,若所述第一数量小于所述第三数量,则将所述第二匹配结果作为所述第二文本信息的分词结果;若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量,或者,若所述第一数量大于所述第三数量,则将所述第三匹配结果作为所述第二文本信息的分词结果。
之后,根据第二类型因子建立知识图谱,还可以将知识图谱存储至文本识别数据库。知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。建立知识图谱可以利用无监督算法(例如,聚类操作等)、NLP技术(BERT+CRF条件随机场等),基于提取的因子,建立相关NLP知识图谱。其中,NLP基于自然语言处理技术,提取文本中的实体(自然人、企业等)、关系、事件等要素,并以这些要素构建知识图谱,图谱以图数据库形式写入现有数据知识库,便于后续根据待识别的文本,在文本识别数据库中进行检索具体实体的关联关系及对应的其他实体等涉嫌虚假诉讼的相关要素。
在一个实施例中,可以利用数据标注平台对第二类型因子进行标注,例如,对自然人与自然人之间的关联关系标注为夫妻、其他亲属、朋友,对自然人与企业之间的关联关系标注为股东、员工、法定代表人等,将第二类型因子及标注信息存储至预设的文本识别数据库。
识别模块140,用于响应用户发出的文本识别请求,获取待识别文本信息,将所述待识别文本信息输入所述文本识别模型得到第一识别结果,基于所述规则引擎对所述待识别文本信息的因子进行识别得到第二识别结果,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果,基于所述第一识别结果、第二识别结果、第一匹配结果及预设选取规则选取出目标识别结果反馈至所述用户。
在本实施例中,当接收到用户发出的文本识别请求时,响应用户发出的文本识别请求,获取待识别文本信息,将待识别文本信息输入文本识别模型得到第一识别结果。
基于规则引擎对待识别文本信息的因子进行识别得到第二识别结果,具体地,可以使用规则引擎按照特定方法对待识别文本信息的因子进行识别,按照“与、或、并、非、且、大于、小于、等于、不等、大于等于、小于等于、不包含、包含”等逻辑运算,如果满足特定条件,则视为民事虚假诉讼。例:如(金额字段A大于阈值,且某时间字段B距今不满一年)或(被告人字段C与被告人字段D存在关联关系)的记录可视为虚假诉讼。
在一个实施例中,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果包括:
当所述待识别文本信息的第一因子与所述知识图谱对应的因子一致时,将所述待识别文本信息的第二因子与所述知识图谱对应的因子进行匹配,当所述第二因子与所述知识图谱对应的因子匹配一致时,再将所述待识别文本信息的第二因子与所述知识图谱对应的因子进行匹配。
如果待识别文本信息中与已判定为民事虚假诉讼的案例相关(如同一被告人/辩护律师/法院等字段相同或其他知识图谱识别的关系),再根据筛选规则进行匹配,并添加相关标注。例如:当待分析民事案件中的原告字段信息与虚假诉讼罪刑事案件被告人字段信息匹配一致时,则增强待分析民事案件“原告提起虚假诉讼”的判断;当待分析民事案件中的原告字段信息、被告字段信息与其他民间借贷诉讼的原告、被告字段信息匹配一致且案件数量较多时,则增强待分析民事案件“当事人双方多次串通”的判断。
基于所述第一识别结果、第二识别结果及匹配结果得到目标识别结果,具体地,所述预设选取规则包括:
当所述第一识别结果、所述第二识别结果及所述第一匹配结果三者中存在任意两个以上的相同结果时,选取所述相同结果作为所述目标识别结果。
进一步地,当所述第一识别结果、所述第二识别结果及所述第一匹配结果均不相同时,选取所述第一匹配结果作为所述目标识别结果。
采取多种规则融合或者取最高风险进行待分析案例的风险指向性预测,识别结果的指向性可为投票结果或者各分类概率。例如,对于虚假诉讼中原告与被告恶意串通情形有三种判断方式,若其中两种方式的识别结果为涉嫌虚假诉讼,第三种方式的识别结果为未涉嫌虚假诉讼,则投票结果依据少数服从多数,预测为涉嫌虚假诉讼;或将虚假诉讼不同场景分为若干类,预测结果根据不同场景的概率高低来判断何种场景的虚假诉讼可能性更高,以此完成风险预警。
在一个实施例中,文本识别装置100还包括反馈模块:用于将所述目标识别结果反馈至所述用户,并在所述用户对应的展示界面展示预设数量的选项,以供所述用户对所述目标识别结果进行反馈。
目标识别结果反馈时可以反馈如下若干字段:风险层级(按照标的额、匹配相似度、涉罪可能性、线索指向等维度计量)、法律依据、处理建议(基于对过往相似案例的学习)、异常问题(明确指出潜在风险所在,如套路贷的场景)。关联案件信息(案号与文书等),关联案件可以是因子相同或者相似的场景。异常案件文书详情(当前异常数据的具体情况),具有管辖权的异常案件案号(当前使用机构具有管辖权的案号列表等)。
在前端展示的输出页面,可以为用户提供采纳及未采纳等选项,还可以将用户的标注反馈至后端离线模型训练集进行作为样本数据重新训练,以提高文本识别模型的识别能力。
此外,本发明还提供一种文本识别方法。参照图3所示,为本发明文本识别方法的实施例的方法流程示意图。电子设备1的处理器12执行存储器11中存储的文本识别程序10时实现文本识别方法的如下步骤:
步骤S10:从第一预定数据源获取第一预设类型的第一文本信息,解析所述第一文本信息,得到第一文本信息对应的第一类型因子,基于所述第一类型因子建立多个筛查规则,基于所述多个筛查规则配置规则引擎。
在本实施例中,以民事虚假诉讼线索的识别为例对本方案进行说明,从第一预定数据源(例如,相关法律法规)获取第一预设类型的第一文本信息,第一文本信息在本实施例中可以是民事虚假诉讼案例的相关文本信息(例如,判决书等),可以利用正则表达式解析第一文本信息,得到第一文本信息对应的第一类型因子,第一类型因子包括:案例中当事人关系、案由、庭审情况、标的额、审判结果、场景等,之后,基于多个因子建立多个筛查规则,例如,基于已解析的民事诉讼案例的原告与被告恶意串通的虚假诉讼特征,其筛查规则是对裁判文书中出现的如下因子进行筛查:原告与被告的关联关系;被告对原告的诉讼请求及举证答辩情况;法院判决金额与诉讼请求金额比较等。
基于上述因子可在后台配置如下规则引擎:原告与被告具有关联关系;被告对原告的诉讼请求及举证无异议;法院判决金额大于等于诉讼请求金额等,根据建立的筛查规则配置规则引擎,可以对待识别文本进行辅助甄别。
步骤S20:从第二预定数据源获取第二预设类型的第二文本信息,为所述第二文本信息分配唯一的预设标签,将所述第二文本信息作为自变量、各所述预设标签作为因变量生成样本集,基于所述样本集得到文本识别模型。
在本实施例中,从第二预定数据源获取第二预设类型的第二文本信息,第二预定数据源包括但不限于中国裁判文书网、中国执行信息公开网以及本地相关的司法库,第二预设类型的第二文本信息可以是判决书、裁定书、调解书等批量文本信息,为第二文本信息分配唯一的预设标签,例如,对涉嫌虚假诉讼的第二文本信息标注为1,对未涉嫌虚假诉讼的第二文本信息标注为0,将第二文本信息作为自变量、各预设标签作为因变量生成样本集,基于条件随机场模型对样本集训练得到文本识别模型。
进一步地,文本识别模型的具体训练过程包括:
将所述样本集按照预设比例分成训练集及验证集;
利用所述训练集中的各所述自变量及各所述因变量对条件随机场模型进行训练,每隔预设周期(例如:每进行1000次迭代)使用所述验证集对所述条件随机场模型进行验证,利用所述验证集中各所述自变量及各所述因变量对该文本识别模型的准确率进行验证,当验证所述准确率大于预设阈值时,结束训练,得到所述文本识别模型。
为了更好的提取上述因子,对标注数据进行离线训练,得到训练模型文件后储存在离线的模型库中,使计算机基于前期人工标注、后期模型训练文件及人工对模型出数的修正再给模型以反馈,计算机可以在得到文本识别模型后,根据用户的反馈持续优化该模型。
步骤S30:对所述第二文本信息执行分词处理,从分词结果中提取第二类型因子,基于所述第二类型因子建立知识图谱。
在本实施例中,对第二文本信息执行分词操作,从分词结果中提取第二类型因子,提取的第二类型因子可以通过预先构建正则表达式对第二类型因子进行提取,第二类型因子可以包括案例中当事人关系、案由、庭审情况、标的额、审判结果、场景等。
在一个实施例中,对第二文本信息执行分词处理操作可以包括:
根据正向最大匹配法将第二文本信息与预设词库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第一数量的第一词组和第二数量的单字;
根据逆向最大匹配法将第二文本信息与预设词库进行匹配,得到第三匹配结果,所述第三匹配结果中包含有第三数量的第二词组和第四数量的单字;
若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量,或者,若所述第一数量小于所述第三数量,则将所述第二匹配结果作为所述第二文本信息的分词结果;若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量,或者,若所述第一数量大于所述第三数量,则将所述第三匹配结果作为所述第二文本信息的分词结果。
之后,根据第二类型因子建立知识图谱,还可以将知识图谱存储至文本识别数据库。知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。建立知识图谱可以利用无监督算法(例如,聚类操作等)、NLP技术(BERT+CRF条件随机场等),基于提取的因子,建立相关NLP知识图谱。其中,NLP基于自然语言处理技术,提取文本中的实体(自然人、企业等)、关系、事件等要素,并以这些要素构建知识图谱,图谱以图数据库形式写入现有数据知识库,便于后续根据待识别的文本,在文本识别数据库中进行检索具体实体的关联关系及对应的其他实体等涉嫌虚假诉讼的相关要素。
在一个实施例中,可以利用数据标注平台对第二类型因子进行标注,例如,对自然人与自然人之间的关联关系标注为夫妻、其他亲属、朋友,对自然人与企业之间的关联关系标注为股东、员工、法定代表人等,将第二类型因子及标注信息存储至预设的文本识别数据库。
步骤S40:响应用户发出的文本识别请求,获取待识别文本信息,将所述待识别文本信息输入所述文本识别模型得到第一识别结果,基于所述规则引擎对所述待识别文本信息的因子进行识别得到第二识别结果,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果,基于所述第一识别结果、第二识别结果、第一匹配结果及预设选取规则选取出目标识别结果反馈至所述用户。
在本实施例中,当接收到用户发出的文本识别请求时,响应用户发出的文本识别请求,获取待识别文本信息,将待识别文本信息输入文本识别模型得到第一识别结果。
基于规则引擎对待识别文本信息的因子进行识别得到第二识别结果,具体地,可以使用规则引擎按照特定方法对待识别文本信息的因子进行识别,按照“与、或、并、非、且、大于、小于、等于、不等、大于等于、小于等于、不包含、包含”等逻辑运算,如果满足特定条件,则视为民事虚假诉讼。例:如(金额字段A大于阈值,且某时间字段B距今不满一年)或(被告人字段C与被告人字段D存在关联关系)的记录可视为虚假诉讼。
在一个实施例中,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果包括:
当所述待识别文本信息的第一因子与所述知识图谱对应的因子一致时,将所述待识别文本信息的第二因子与所述知识图谱对应的因子进行匹配,当所述第二因子与所述知识图谱对应的因子匹配一致时,再将所述待识别文本信息的第二因子与所述知识图谱对应的因子进行匹配。
如果待识别文本信息中与已判定为民事虚假诉讼的案例相关(如同一被告人/辩护律师/法院等字段相同或其他知识图谱识别的关系),再根据筛选规则进行匹配,并添加相关标注。例如:当待分析民事案件中的原告字段信息与虚假诉讼罪刑事案件被告人字段信息匹配一致时,则增强待分析民事案件“原告提起虚假诉讼”的判断;当待分析民事案件中的原告字段信息、被告字段信息与其他民间借贷诉讼的原告、被告字段信息匹配一致且案件数量较多时,则增强待分析民事案件“当事人双方多次串通”的判断。
基于所述第一识别结果、第二识别结果及匹配结果得到目标识别结果,具体地,所述预设选取规则包括:
当所述第一识别结果、所述第二识别结果及所述第一匹配结果三者中存在任意两个以上的相同结果时,选取所述相同结果作为所述目标识别结果。
进一步地,当所述第一识别结果、所述第二识别结果及所述第一匹配结果均不相同时,选取所述第一匹配结果作为所述目标识别结果。
采取多种规则融合或者取最高风险进行待分析案例的风险指向性预测,识别结果的指向性可为投票结果或者各分类概率。例如,对于虚假诉讼中原告与被告恶意串通情形有三种判断方式,若其中两种方式的识别结果为涉嫌虚假诉讼,第三种方式的识别结果为未涉嫌虚假诉讼,则投票结果依据少数服从多数,预测为涉嫌虚假诉讼;或将虚假诉讼不同场景分为若干类,预测结果根据不同场景的概率高低来判断何种场景的虚假诉讼可能性更高,以此完成风险预警。
在一个实施例中,该方法还包括:将所述目标识别结果反馈至所述用户,并在所述用户对应的展示界面展示预设数量的选项,以供所述用户对所述目标识别结果进行反馈。
目标识别结果反馈时可以反馈如下若干字段:风险层级(按照标的额、匹配相似度、涉罪可能性、线索指向等维度计量)、法律依据、处理建议(基于对过往相似案例的学习)、异常问题(明确指出潜在风险所在,如套路贷的场景)。关联案件信息(案号与文书等),关联案件可以是因子相同或者相似的场景。异常案件文书详情(当前异常数据的具体情况),具有管辖权的异常案件案号(当前使用机构具有管辖权的案号列表等)。
在前端展示的输出页面,可以为用户提供采纳及未采纳等选项,还可以将用户的标注反馈至后端离线模型训练集进行作为样本数据重新训练,以提高文本识别模型的识别能力。
此外,本发明实施例还提出一种计算机可读存储介质,该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有文本识别程序10,所述文本识别程序10被处理器执行时实现如下操作:
从第一预定数据源获取第一预设类型的第一文本信息,解析所述第一文本信息,得到第一文本信息对应的第一类型因子,基于所述第一类型因子建立多个筛查规则,基于所述多个筛查规则配置规则引擎;
从第二预定数据源获取第二预设类型的第二文本信息,为所述第二文本信息分配唯一的预设标签,将所述第二文本信息作为自变量、各所述预设标签作为因变量生成样本集,基于所述样本集得到文本识别模型;
对所述第二文本信息执行分词处理,从分词结果中提取第二类型因子,基于所述第二类型因子建立知识图谱;
响应用户发出的文本识别请求,获取待识别文本信息,将所述待识别文本信息输入所述文本识别模型得到第一识别结果,基于所述规则引擎对所述待识别文本信息的因子进行识别得到第二识别结果,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果,基于所述第一识别结果、第二识别结果、第一匹配结果及预设选取规则选取出目标识别结果反馈至所述用户。
在另一个实施例中,本发明所提供的文本识别方法,为进一步保证上述所有出现的数据的私密和安全性,上述所有数据还可以存储于一区块链的节点中。例如知识图谱、待识别文本等等,这些数据均可存储在区块链节点中。
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明之计算机可读存储介质的具体实施方式与上述文本识别方法的具体实施方式大致相同,在此不再赘述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本识别方法,应用于电子设备,其特征在于,所述方法包括:
从第一预定数据源获取第一预设类型的第一文本信息,解析所述第一文本信息,得到第一文本信息对应的第一类型因子,基于所述第一类型因子建立多个筛查规则,基于所述多个筛查规则配置规则引擎;
从第二预定数据源获取第二预设类型的第二文本信息,为所述第二文本信息分配唯一的预设标签,将所述第二文本信息作为自变量、各所述预设标签作为因变量生成样本集,基于所述样本集得到文本识别模型;
对所述第二文本信息执行分词处理,从分词结果中提取第二类型因子,基于所述第二类型因子建立知识图谱;
响应用户发出的文本识别请求,获取待识别文本信息,将所述待识别文本信息输入所述文本识别模型得到第一识别结果,基于所述规则引擎对所述待识别文本信息的因子进行识别得到第二识别结果,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果,基于所述第一识别结果、第二识别结果、第一匹配结果及预设选取规则选取出目标识别结果反馈至所述用户。
2.如权利要求1所述的文本识别方法,其特征在于,所述基于所述样本集得到文本识别模型包括:
将所述样本集按照预设比例分成训练集及验证集;
利用所述训练集中的各所述自变量及各所述因变量对条件随机场模型进行训练,每隔预设周期使用所述验证集对所述条件随机场模型进行验证,利用所述验证集中各所述自变量及各所述因变量对该文本识别模型的准确率进行验证;
当验证所述准确率大于预设阈值时,结束训练,得到所述文本识别模型。
3.如权利要求1所述的文本识别方法,其特征在于,所述对所述第二文本信息执行分词处理包括:
根据正向最大匹配法将第二文本信息与预设词库进行匹配,得到第二匹配结果,所述第二匹配结果中包含有第一数量的第一词组和第二数量的单字;
根据逆向最大匹配法将第二文本信息与预设词库进行匹配,得到第三匹配结果,所述第三匹配结果中包含有第三数量的第二词组和第四数量的单字;
若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量,或者,若所述第一数量小于所述第三数量,则将所述第二匹配结果作为所述第二文本信息的分词结果;若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量,或者,若所述第一数量大于所述第三数量,则将所述第三匹配结果作为所述第二文本信息的分词结果。
4.如权利要求1所述的文本识别方法,其特征在于,所述将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果包括:
当所述待识别文本信息的第一因子与所述知识图谱对应的因子一致时,将所述待识别文本信息的第二因子与所述知识图谱对应的因子进行匹配,当所述第二因子与所述知识图谱对应的因子匹配一致时,再将所述待识别文本信息的第二因子与所述知识图谱对应的因子进行匹配。
5.如权利要求1至4任意一项所述的文本识别方法,其特征在于,所述预设选取规则包括:
当所述第一识别结果、所述第二识别结果及所述第一匹配结果三者中存在任意两个以上的相同结果时,选取所述相同结果作为所述目标识别结果。
6.如权利要求5所述的文本识别方法,其特征在于,所述预设选取规则包括:
当所述第一识别结果、所述第二识别结果及所述第一匹配结果均不相同时,选取所述第一匹配结果作为所述目标识别结果。
7.如权利要求1所述的文本识别方法,其特征在于,所述方法还包括:
将所述目标识别结果反馈至所述用户,并在所述用户对应的展示界面展示预设数量的选项,以供所述用户对所述目标识别结果进行反馈。
8.一种文本识别装置,其特征在于,所述装置包括:
第一建立模块:用于从第一预定数据源获取第一预设类型的第一文本信息,解析所述第一文本信息,得到第一文本信息对应的第一类型因子,基于所述第一类型因子建立多个筛查规则,基于所述多个筛查规则配置规则引擎;
第二建立模块:用于从第二预定数据源获取第二预设类型的第二文本信息,为所述第二文本信息分配唯一的预设标签,将所述第二文本信息作为自变量、各所述预设标签作为因变量生成样本集,基于所述样本集得到文本识别模型;
第三建立模块:用于对所述第二文本信息执行分词处理,从分词结果中提取第二类型因子,基于所述第二类型因子建立知识图谱;
识别模块:用于响应用户发出的文本识别请求,获取待识别文本信息,将所述待识别文本信息输入所述文本识别模型得到第一识别结果,基于所述规则引擎对所述待识别文本信息的因子进行识别得到第二识别结果,将所述待识别文本信息的因子与所述知识图谱进行匹配得到第一匹配结果,基于所述第一识别结果、第二识别结果、第一匹配结果及预设选取规则选取出目标识别结果反馈至所述用户。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有文本识别程序,所述文本识别程序被处理器执行时,实现如权利要求1至7中任一项所述文本识别方法的步骤。
CN202010914173.XA 2020-09-03 2020-09-03 文本识别方法、装置、设备及存储介质 Active CN111814472B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010914173.XA CN111814472B (zh) 2020-09-03 2020-09-03 文本识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010914173.XA CN111814472B (zh) 2020-09-03 2020-09-03 文本识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111814472A true CN111814472A (zh) 2020-10-23
CN111814472B CN111814472B (zh) 2021-04-06

Family

ID=72859958

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010914173.XA Active CN111814472B (zh) 2020-09-03 2020-09-03 文本识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111814472B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801782A (zh) * 2020-12-31 2021-05-14 北京知帆科技有限公司 一种区块链信息监控方法、装置及电子设备
CN112819061A (zh) * 2021-01-27 2021-05-18 北京小米移动软件有限公司 口令信息识别方法、装置、设备及存储介质
CN113051365A (zh) * 2020-12-10 2021-06-29 深圳证券信息有限公司 一种产业链图谱构建方法及相关设备
CN114022292A (zh) * 2021-10-28 2022-02-08 中国平安财产保险股份有限公司 基于人工智能的定损规则筛选方法、装置、设备及介质
CN114819764A (zh) * 2022-06-27 2022-07-29 岩火科技(杭州)有限公司 一种基于脱敏数据的虚假诉讼行为风险预测方法
CN114896575A (zh) * 2022-04-28 2022-08-12 西安电子科技大学 一种基于虚假属性检测的可信身份辨识方法及装置
CN116975298A (zh) * 2023-09-22 2023-10-31 厦门智慧思明数据有限公司 一种基于nlp的现代化社会治理调度***及方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180225548A1 (en) * 2017-01-19 2018-08-09 Hrl Laboratories, Llc Multi-view embedding with soft-max based compatibility function for zero-shot learning
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN109739994A (zh) * 2018-12-14 2019-05-10 复旦大学 一种基于参考文档的api知识图谱构建方法
US20190304156A1 (en) * 2018-04-03 2019-10-03 Sri International Artificial intelligence for generating structured descriptions of scenes
CN110334214A (zh) * 2019-07-09 2019-10-15 四川省广安市人民检察院 一种自动识别案件中虚假诉讼的方法
CN110399496A (zh) * 2019-07-02 2019-11-01 厦门耐特源码信息科技有限公司 一种基于cr决策树的知识图谱构建方法
CN110738039A (zh) * 2019-09-03 2020-01-31 平安科技(深圳)有限公司 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN111079430A (zh) * 2019-10-21 2020-04-28 国家电网公司华中分部 一种组合深度学习和概念图谱的电力故障事件抽取方法
US20200151392A1 (en) * 2015-10-28 2020-05-14 Qomplx, Inc. System and method automated analysis of legal documents within and across specific fields
CN111460149A (zh) * 2020-03-27 2020-07-28 科大讯飞股份有限公司 文本分类方法、相关设备及可读存储介质
CN111475613A (zh) * 2020-03-06 2020-07-31 深圳壹账通智能科技有限公司 案件分类方法、装置、计算机设备及存储介质
CN111506599A (zh) * 2020-04-20 2020-08-07 广州大学 基于规则匹配和深度学习的工控设备识别方法及***
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建***及方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200151392A1 (en) * 2015-10-28 2020-05-14 Qomplx, Inc. System and method automated analysis of legal documents within and across specific fields
US20180225548A1 (en) * 2017-01-19 2018-08-09 Hrl Laboratories, Llc Multi-view embedding with soft-max based compatibility function for zero-shot learning
US20190304156A1 (en) * 2018-04-03 2019-10-03 Sri International Artificial intelligence for generating structured descriptions of scenes
US10169315B1 (en) * 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
CN109739994A (zh) * 2018-12-14 2019-05-10 复旦大学 一种基于参考文档的api知识图谱构建方法
CN110399496A (zh) * 2019-07-02 2019-11-01 厦门耐特源码信息科技有限公司 一种基于cr决策树的知识图谱构建方法
CN110334214A (zh) * 2019-07-09 2019-10-15 四川省广安市人民检察院 一种自动识别案件中虚假诉讼的方法
CN110738039A (zh) * 2019-09-03 2020-01-31 平安科技(深圳)有限公司 一种案件辅助信息的提示方法、装置、存储介质和服务器
CN111079430A (zh) * 2019-10-21 2020-04-28 国家电网公司华中分部 一种组合深度学习和概念图谱的电力故障事件抽取方法
CN111475613A (zh) * 2020-03-06 2020-07-31 深圳壹账通智能科技有限公司 案件分类方法、装置、计算机设备及存储介质
CN111460149A (zh) * 2020-03-27 2020-07-28 科大讯飞股份有限公司 文本分类方法、相关设备及可读存储介质
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建***及方法
CN111506599A (zh) * 2020-04-20 2020-08-07 广州大学 基于规则匹配和深度学习的工控设备识别方法及***

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051365A (zh) * 2020-12-10 2021-06-29 深圳证券信息有限公司 一种产业链图谱构建方法及相关设备
CN112801782A (zh) * 2020-12-31 2021-05-14 北京知帆科技有限公司 一种区块链信息监控方法、装置及电子设备
CN112819061A (zh) * 2021-01-27 2021-05-18 北京小米移动软件有限公司 口令信息识别方法、装置、设备及存储介质
CN112819061B (zh) * 2021-01-27 2024-05-10 北京小米移动软件有限公司 口令信息识别方法、装置、设备及存储介质
CN114022292A (zh) * 2021-10-28 2022-02-08 中国平安财产保险股份有限公司 基于人工智能的定损规则筛选方法、装置、设备及介质
CN114896575A (zh) * 2022-04-28 2022-08-12 西安电子科技大学 一种基于虚假属性检测的可信身份辨识方法及装置
CN114896575B (zh) * 2022-04-28 2024-04-16 西安电子科技大学 一种基于虚假属性检测的可信身份辨识方法及装置
CN114819764A (zh) * 2022-06-27 2022-07-29 岩火科技(杭州)有限公司 一种基于脱敏数据的虚假诉讼行为风险预测方法
CN114819764B (zh) * 2022-06-27 2022-11-01 岩火科技(杭州)有限公司 一种基于脱敏数据的虚假诉讼行为风险预测方法
CN116975298A (zh) * 2023-09-22 2023-10-31 厦门智慧思明数据有限公司 一种基于nlp的现代化社会治理调度***及方法
CN116975298B (zh) * 2023-09-22 2023-12-05 厦门智慧思明数据有限公司 一种基于nlp的现代化社会治理调度***及方法

Also Published As

Publication number Publication date
CN111814472B (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN111814472B (zh) 文本识别方法、装置、设备及存储介质
CN109829628B (zh) 基于大数据的风险预警方法、装置和计算机设备
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
US11593671B2 (en) Systems and methods for semantic analysis based on knowledge graph
US11017221B2 (en) Classifying digital documents in multi-document transactions based on embedded dates
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
US20200004815A1 (en) Text entity detection and recognition from images
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN111695439A (zh) 图像结构化数据提取方法、电子装置及存储介质
CN111125343A (zh) 适用于人岗匹配推荐***的文本解析方法及装置
CN110674360B (zh) 一种用于数据的溯源方法和***
CN109214904B (zh) 财务造假线索的获取方法、装置、计算机设备和存储介质
CN110362798B (zh) 裁决信息检索分析方法、装置、计算机设备和存储介质
CN104750791A (zh) 一种图像检索方法及装置
CN112364625A (zh) 文本筛选方法、装置、设备及存储介质
CN104462229A (zh) 一种事件分类方法及装置
CN111967437A (zh) 文本识别方法、装置、设备及存储介质
CN113962199A (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN114140649A (zh) 票据分类方法、票据分类装置、电子设备和存储介质
CN112182390B (zh) 一种函件推送方法、装置、计算机设备及存储介质
CN104240107A (zh) 社群数据筛选***及其方法
CN116485512A (zh) 基于强化学习的银行数据分析方法及***
CN113807256A (zh) 票据数据处理方法、装置、电子设备和存储介质
CN113947510A (zh) 一种基于文件格式自适应的不动产电子证照管理***
Banerjee et al. Quote examiner: verifying quoted images using web-based text similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant