CN112686036B - 风险文本识别方法、装置、计算机设备及存储介质 - Google Patents

风险文本识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112686036B
CN112686036B CN202010833826.1A CN202010833826A CN112686036B CN 112686036 B CN112686036 B CN 112686036B CN 202010833826 A CN202010833826 A CN 202010833826A CN 112686036 B CN112686036 B CN 112686036B
Authority
CN
China
Prior art keywords
text
audited
risk
pinyin
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010833826.1A
Other languages
English (en)
Other versions
CN112686036A (zh
Inventor
刘静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010833826.1A priority Critical patent/CN112686036B/zh
Publication of CN112686036A publication Critical patent/CN112686036A/zh
Application granted granted Critical
Publication of CN112686036B publication Critical patent/CN112686036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请涉及人工智能,提供一种风险文本识别方法、装置、计算机设备及存储介质。所述风险文本识别方法包括:获取待审核文本;判断待审核文本中是否包含敏感词;若待审核文本中不包含敏感词,则将待审核文本输入训练好的神经网络模型,得到待审核文本是风险文本的概率;判断待审核文本是风险文本的概率是否大于或等于预设概率阈值;若待审核文本是风险文本的概率大于或等于预设概率阈值,获取用户的历史行为数据;根据用户的行为数据判断用户是否行为异常;若待审核文本中包含敏感词或者用户行为异常,则判断待审核文本为风险文本。本发明可以提高风险文本的识别率。此外,本申请还涉及区块链技术,可以从区块链获取所述待审核文本。

Description

风险文本识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能领域,具体涉及一种风险文本识别方法、装置、计算机设备及存储介质。
背景技术
网络上有许多资讯、社交、视频或其他类型的平台,用户可以将自己原创或摘抄的内容通过这些平台进行展示或者提供给其他用户。由于每个用户可以发布内容,其中可能会有涉嫌违规的内容,例如涉嫌违规的文本或视频。为了避免不良信息传播,在展示或者提供给其他用户之前,需要对用户提交的内容进行审核,判断用户提交的内容是否涉嫌违规。目前对涉嫌违规的风险文本的识别效果不是很理想,容易出现漏杀,就是没有识别出违规的文本。
发明内容
鉴于以上内容,有必要提出一种风险文本识别方法、装置、计算机设备及存储介质,其可以提高风险文本的识别率。
本申请的第一方面提供一种风险文本识别方法,所述方法包括:
获取用户的待审核文本;
根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词;
若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率;
判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值;
若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据;
根据所述历史行为数据判断所述用户是否行为异常;
若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本;
所述获取用户的待审核文本包括:
获取所述待审核文本的索引表、差异数据表和参照文件,所述索引表中的每个索引值对应所述待审核文本的一个片段,若该片段存在于所述参照文件中,则所述索引值为该片段在所述参照文件中的偏移量,若该片段不存在于所述参照文件中,则所述索引值为预设值;
根据所述索引表从所述参照文件中获取所述待审核文本中存在于所述参照文件的重复数据;
从所述差异数据表中获取所述待审核文本中不存在于所述参照文件的差异数据;
将所述重复数据和所述差异数据组成所述待审核文本。
另一种可能的实现方式中,所述根据敏感词词库对所述待审核文本进行敏感词识别包括:
对所述待审核文本进行分词,得到所述待审核文本的各个词语;
根据所述敏感词词库对所述各个词语进行敏感词匹配。
另一种可能的实现方式中,所述对所述待审核文本进行分词包括:
利用结巴分词对所述待审核文本进行分词;或者
利用特定字符对所述待审核文本进行分词;或者
利用词典库对所述待审核文本进行分词。
另一种可能的实现方式中,所述将所述待审核文本输入训练好的神经网络模型包括:
将所述待审核文本转换为拼音序列;
将所述拼音序列输入训练好的神经网络模型。
另一种可能的实现方式中,所述将所述待审核文本转换为拼音序列包括:
根据汉字的ASCII码将所述待审核文本转换为拼音序列;或
根据汉字的Unicode值将所述待审核文本转换为拼音序列。
另一种可能的实现方式中,所述根据汉字的Unicode值将所述待审核文本转换为拼音序列包括:
建立拼音-编号对照表,对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中;
建立Unicode值-拼音编号对照表,将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中;
逐一读取所述待审核文本中的待转换汉字,确定所述待转换汉字的Unicode值,根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号,根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音,从而将所述待审核文本中的每个汉字转换为拼音。
另一种可能的实现方式中,所述获取用户的待审核文本包括:
同步已通过区块链***共识的区块;
解析所述区块以获取所述待审核文本。
本申请的第二方面提供一种风险文本识别装置,所述装置包括:
第一获取模块,用于获取用户的待审核文本;
第一识别模块,用于根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词;
第二识别模块,用于若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率;
第一判断模块,用于判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值;
第二获取模块,用于若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据;
第二判断模块,用于根据所述历史行为数据判断所述用户是否行为异常;
确定模块,用于若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本;
所述第一获取模块具体用于:
获取所述待审核文本的索引表、差异数据表和参照文件,所述索引表中的每个索引值对应所述待审核文本的一个片段,若该片段存在于所述参照文件中,则所述索引值为该片段在所述参照文件中的偏移量,若该片段不存在于所述参照文件中,则所述索引值为预设值;
根据所述索引表从所述参照文件中获取所述待审核文本中存在于所述参照文件的重复数据;
从所述差异数据表中获取所述待审核文本中不存在于所述参照文件的差异数据;
将所述重复数据和所述差异数据组成所述待审核文本。
本申请的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述风险文本识别方法。
本申请的第四方面提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述风险文本识别方法。
本发明将敏感词识别、神经网络模型识别和用户行为分析结合起来进行风险文本识别,提高了风险文本的识别率。
附图说明
图1是本发明实施例提供的风险文本识别方法的流程图。
图2是本发明实施例提供的风险文本识别装置的结构图。
图3是本发明实施例提供的计算机设备的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
优选地,本发明的风险文本识别方法应用在一个或者多个计算机设备中。所述计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
实施例一
图1是本发明实施例一提供的风险文本识别方法的流程图。所述风险文本识别方法应用于计算机设备。所述风险文本识别方法结合人工智能技术识别涉嫌违规的文本,提高风险文本的识别率。
本申请可应用于智慧政务、智慧社区、智慧教育等场景中,用于对用户提交的文本进行风险识别,从而推动智慧城市的建设。
如图1所示,所述风险文本识别方法包括:
101,获取用户的待审核文本。
待审核文本可以是用户原创的文本,也可以是用户从各种渠道获取的文本。
用户可以对待审核文本进行展示,也可以将待审核文本提供给其他用户。
待审核文本可以是一个句子,也可以是一个短语。可以理解,待审核文本还可以是一个或多个段落。若待审核文本是一个或多个段落,则将待审核文本拆分为句子,再对拆分得到的各个句子进行识别。
在一实施例中,所述获取用户的待审核文本包括:
接收用户输入的文字,将所述用户输入的文字作为所述待审核文本;或者
接受用户输入的语音,对所述用户输入的语音进行识别,得到所述待审核文本;或者
接收用户输入的文本图像,从所述文本图像进行识别,得到所述待审核文本;或者
接收用户输入的视频,从所述视频数据中分离出语音,对分离出的语音进行识别,得到所述待审核文本。
从语音、视频或图像中获取用户的待审核文本,可以扩大本发明风险文本识别方法的应用范围,实现对不同类型数据的风险识别。
在一实施例中,所述获取用户的待审核文本包括:
同步已通过区块链***共识的区块;
解析所述区块以获取所述待审核文本。
用户可以将所述待审核文本打包进入区块,所述区块经区块链***共识后链入区块链中。相应地,所述计算机设备可以同步已通过区块链***共识的区块,解析所述区块以获取所述待审核文本。
在一实施例中,所述获取用户的待审核文本包括:
获取所述待审核文本的索引表、差异数据表和参照文件,所述索引表中的每个索引值对应所述待审核文本的一个片段,若该片段存在于所述参照文件中,则所述索引值为该片段在所述参照文件中的偏移量,若该片段不存在于所述参照文件中,则所述索引值为预设值(例如0);
根据所述索引表从所述参照文件中获取所述待审核文本中存在于所述参照文件的重复数据;
从所述差异数据表中获取所述待审核文本中不存在于所述参照文件的差异数据;
将所述重复数据和所述差异数据组成所述待审核文本。
根据待审核文本的索引表、差异数据表和参照文件获取待审核文本,用户不需要将待审核文本发送给审核方,提高了待审核文本的安全性。
102,根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词。
若所述待审核文本中包含敏感词,则执行107。
敏感词可以包括涉及第一内容、第二内容、第三内容、第四内容等内容的词语。
举例来说,有以下待审核文本:
a.出售奶茶
b.加入社团
c.吃dan糕
根据敏感词词库对a、b进行敏感词识别,识别出敏感词,确定a、b属于风险文本。根据敏感词词库对c进行敏感词识别,没有识别出敏感词,需要进一步判断是否为是风险文本。
在一实施例中,所述根据敏感词词库对所述待审核文本进行敏感词识别包括:
对所述待审核文本进行分词,得到所述待审核文本的各个词语;
根据所述敏感词词库对所述各个词语进行敏感词匹配。
在一实施例中,所述对所述待审核文本进行分词包括:
利用结巴分词对所述待审核文本进行分词;或者
利用特定字符对所述待审核文本进行分词;或者
利用词典库对所述待审核文本进行分词。
可以利用结巴分词对所述待审核文本进行分词。结巴分词属于概率语言模型分词,其任务是在全切分所得的所有结果中求某个切分方案S,使得P(S)最大,其中,P(S)表示切分方案S的概率。结巴分词为现有技术,此处不再赘述。
可以利用特定字符对所述待审核文本进行分词,在所述待审核文本中所述特定字符的前和/或后的位置上进行切分,得到所述待审核文本的分词结果。例如,可以使用预设动词(如去、在)对所述待审核文本进行分词,在所述待审核文本中预设动词的前和/或后的位置上进行切分,得到所述待审核文本的分词结果。
可以利用词典库对所述待审核文本进行分词。词典库包括多个专有名词,将专有名词作为单个词语不再进行切分。
103,若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率。
所述神经网络模型可以是卷积神经网络模型。
所述神经网络模型的训练数据包括包含敏感词的第一训练文本和不包含敏感词的第二训练文本。神经网络模型的每个训练文本可以是一个句子,也可以是一个短语。
在一实施例中,所述神经网络模型的训练数据还包括包含易误杀词的第三训练文本。
第三训练文本可以根据易误杀词库创建。
例如,词语一、词语二、词语三是敏感词,这些词汇在训练数据中经常出现会导致神经网络模型将一些正常词汇预测为风险文本,比如词语四、词语五、词语六等。因此,可以创建易误杀词库,将词语四、词语五、词语六等添加到易误杀词库中,并创建包含这些易误杀词的文本(即第三训练文本),将第三训练文本加入到所述训练数据,以纠正神经网络模型的训练。
将包含易误杀词的第三训练文本加入训练数据用于对神经网络模型进行训练,可以降低神经网络模型的误杀概率,提高风险文本识别的正确率。
可以采用反向传播算法对所述神经网络模型进行训练。采用反向传播算法对神经网络模型进行训练可以参考相关技术,此处不再赘述。
在一实施例中,在将所述训练数据中的每个训练文本输入神经网络模型时,将所述训练文本转换为拼音序列,将所述训练文本对应的拼音序列输入所述神经网络模型,以对所述神经网络模型进行训练。
相应地,在将所述待审核文本输入训练好的神经网络模型时,将所述待审核文本转换为拼音序列,将所述待审核文本对应的拼音序列输入训练好的神经网络模型。
采用统一拼音编码的方式表示文本,能够统一五花八门的敏感词表示方式,利于提高神经网络模型对风险文本的识别率。
例如,将“吃dan糕”转换为拼音序列chidangao。
在一实施例中,所述神经网络模型包括嵌入层,所述嵌入层为输入的拼音序列(例如所述待审核文本对应的拼音序列)中的每个字母生成一个字符向量(例如,对“chidangao”中的第一个字母“c”生成一个字符向量)。所述神经网络模型的其他层根据所述拼音序列中所有字母的字符向量进行预测(例如预测所述待审核文本是风险文本的概率)。
在一实施例中,所述将所述待审核文本转换为拼音序列包括:
根据汉字的ASCII码将所述待审核文本转换为拼音序列;或
根据汉字的Unicode值将所述待审核文本转换为拼音序列。
在一实施例中,所述根据汉字的Unicode值将所述待审核文本转换为拼音序列包括:
建立拼音-编号对照表,对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中;
建立Unicode值-拼音编号对照表,将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中;
逐一读取所述待审核文本中的待转换汉字,确定所述待转换汉字的Unicode值,根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号,根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音,从而将所述待审核文本中的每个汉字转换为拼音。
104,判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值。
预设概率阈值用于判断待审核文本是否为疑似风险文本,即有可能是风险文本。若待审核文本是风险文本的概率大于或等于预设概率阈值,则确定待审核文本是疑似风险文本,需要进一步识别。否则,若待审核文本是风险文本的概率小于预设概率阈值,则确定待识别文本是正常文本。
例如,预设概率阈值为0.5,若待审核文本是风险文本的概率大于或等于0.5,则确定待审核文本是疑似风险文本。否则,若待审核文本是风险文本的概率小于0.5,则确定待识别文本是正常文本。
105,若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据。
历史行为数据可以包括注册、发布信息、发布广告、加好友等用户行为数据。
可以获取用户在预定时间段内(例如过去30天内)的历史行为数据。
可以通过网络爬虫搜索并读取平台的网页文件,从所述网页文件中提取网页数据,从提取的网页数据中获取所述历史行为数据。
所述网页数据可以包括网址、帖子的标题、发布时间、作者、来源、正文、阅读量、评论数、评论者、评论时间等。
或者,可以获取所述用户的操作记录,从所述操作记录中获取所述历史行为数据。
106,根据所述历史行为数据判断所述用户是否行为异常。
示例性地,若用户存在批量注册、批量发布信息或者批量发布广告的历史行为,则判定用户行为异常。
对于不能明显识别出的风险文本,可以通过分析用户行为来辅助判定该待审核文本是不是风险文本,从而提高风险文本的识别率。
107,若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本。
若102中判断所述待审核文本中包含敏感词,或者106中判断所述用户行为异常,则确定所述待审核文本为风险文本。
若所述用户行为无异常,则确定所述待审核文本为正常文本。
在确定所述待审核文本为正常文本之后,可以发出正常文本提示。
实施例一的风险文本识别方法将敏感词识别、神经网络模型识别和用户行为分析结合起来进行风险文本识别,提高了风险文本的识别率。
实施例二
图2是本发明实施例二提供的风险文本识别装置的结构图。所述风险文本识别装置20应用于计算机设备。所述风险文本识别装置20结合人工智能技术识别涉嫌违规的文本,能够提高风险文本的识别率。
本申请可应用于智慧政务、智慧社区、智慧教育等场景中,用于对用户提交的文本进行风险识别,从而推动智慧城市的建设。
如图2所示,所述风险文本识别装置20可以包括第一获取模块201、第一识别模块202、第二识别模块203、第一判断模块204、第二获取模块205、第二判断模块206、确定模块207。
第一获取模块201,用于获取用户的待审核文本。
待审核文本可以是用户原创的文本,也可以是用户从各种渠道获取的文本。
用户可以对待审核文本进行展示,也可以将待审核文本提供给其他用户。
待审核文本可以是一个句子,也可以是一个短语。可以理解,待审核文本还可以是一个或多个段落。若待审核文本是一个或多个段落,则将待审核文本拆分为句子,再对拆分得到的各个句子进行识别。
在一实施例中,所述获取用户的待审核文本包括:
接收用户输入的文字,将所述用户输入的文字作为所述待审核文本;或者
接受用户输入的语音,对所述用户输入的语音进行识别,得到所述待审核文本;或者
接收用户输入的文本图像,从所述文本图像进行识别,得到所述待审核文本;或者
接收用户输入的视频,从所述视频数据中分离出语音,对分离出的语音进行识别,得到所述待审核文本。
从语音、视频或图像中获取用户的待审核文本,可以扩大本发明风险文本识别方法的应用范围,实现对不同类型数据的风险识别。
在一实施例中,所述获取用户的待审核文本包括:
同步已通过区块链***共识的区块;
解析所述区块以获取所述待审核文本。
用户可以将所述待审核文本打包进入区块,所述区块经区块链***共识后链入区块链中。相应地,所述计算机设备可以同步已通过区块链***共识的区块,解析所述区块以获取所述待审核文本。
在一实施例中,所述获取用户的待审核文本包括:
获取所述待审核文本的索引表、差异数据表和参照文件,所述索引表中的每个索引值对应所述待审核文本的一个片段,若该片段存在于所述参照文件中,则所述索引值为该片段在所述参照文件中的偏移量,若该片段不存在于所述参照文件中,则所述索引值为预设值(例如0);
根据所述索引表从所述参照文件中获取所述待审核文本中存在于所述参照文件的重复数据;
从所述差异数据表中获取所述待审核文本中不存在于所述参照文件的差异数据;
将所述重复数据和所述差异数据组成所述待审核文本。
根据待审核文本的索引表、差异数据表和参照文件获取待审核文本,用户不需要将待审核文本发送给审核方,提高了待审核文本的安全性。
第一识别模块202,用于根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词。
敏感词可以包括涉及第一内容、第二内容、第三内容、第四内容等内容的词语。
举例来说,有以下待审核文本:
a.出售奶茶
b.加入社团
c.吃dan糕
根据敏感词词库对a、b进行敏感词识别,识别出敏感词,确定a、b属于风险文本。根据敏感词词库对c进行敏感词识别,没有识别出敏感词,需要进一步判断是否为是风险文本。
在一实施例中,所述根据敏感词词库对所述待审核文本进行敏感词识别包括:
对所述待审核文本进行分词,得到所述待审核文本的各个词语;
根据所述敏感词词库对所述各个词语进行敏感词匹配。
在一实施例中,所述对所述待审核文本进行分词包括:
利用结巴分词对所述待审核文本进行分词;或者
利用特定字符对所述待审核文本进行分词;或者
利用词典库对所述待审核文本进行分词。
可以利用结巴分词对所述待审核文本进行分词。结巴分词属于概率语言模型分词,其任务是在全切分所得的所有结果中求某个切分方案S,使得P(S)最大,其中,P(S)表示切分方案S的概率。结巴分词为现有技术,此处不再赘述。
可以利用特定字符对所述待审核文本进行分词,在所述待审核文本中所述特定字符的前和/或后的位置上进行切分,得到所述待审核文本的分词结果。例如,可以使用预设动词(如去、在)对所述待审核文本进行分词,在所述待审核文本中预设动词的前和/或后的位置上进行切分,得到所述待审核文本的分词结果。
可以利用词典库对所述待审核文本进行分词。词典库包括多个专有名词,将专有名词作为单个词语不再进行切分。
第二识别模块203,用于若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率。
所述神经网络模型可以是卷积神经网络模型。
所述神经网络模型的训练数据包括包含敏感词的第一训练文本和不包含敏感词的第二训练文本。神经网络模型的每个训练文本可以是一个句子,也可以是一个短语。
在一实施例中,所述神经网络模型的训练数据还包括包含易误杀词的第三训练文本。
第三训练文本可以根据易误杀词库创建。
例如,词语一、词语二、词语三是敏感词,这些词汇在训练数据中经常出现会导致神经网络模型将一些正常词汇预测为风险文本,比如词语四、词语五、词语六等。因此,可以创建易误杀词库,将词语四、词语五、词语六等添加到易误杀词库中,并创建包含这些易误杀词的文本(即第三训练文本),将第三训练文本加入到所述训练数据,以纠正神经网络模型的训练。
将包含易误杀词的第三训练文本加入训练数据用于对神经网络模型进行训练,可以降低神经网络模型的误杀概率,提高风险文本识别的正确率。
可以采用反向传播算法对所述神经网络模型进行训练。采用反向传播算法对神经网络模型进行训练可以参考相关技术,此处不再赘述。
在一实施例中,在将所述训练数据中的每个训练文本输入神经网络模型时,将所述训练文本转换为拼音序列,将所述训练文本对应的拼音序列输入所述神经网络模型,以对所述神经网络模型进行训练。
相应地,在将所述待审核文本输入训练好的神经网络模型时,将所述待审核文本转换为拼音序列,将所述待审核文本对应的拼音序列输入训练好的神经网络模型。
采用统一拼音编码的方式表示文本,能够统一五花八门的敏感词表示方式,利于提高神经网络模型对风险文本的识别率。
例如,将“吃dan糕”转换为拼音序列chidangao。
在一实施例中,所述神经网络模型包括嵌入层,所述嵌入层为输入的拼音序列(例如所述待审核文本对应的拼音序列)中的每个字母生成一个字符向量(例如,对“chidangao”中的第一个字母“c”生成一个字符向量)。所述神经网络模型的其他层根据所述拼音序列中所有字母的字符向量进行预测(例如预测所述待审核文本是风险文本的概率)。
在一实施例中,所述将所述待审核文本转换为拼音序列包括:
根据汉字的ASCII码将所述待审核文本转换为拼音序列;或
根据汉字的Unicode值将所述待审核文本转换为拼音序列。
在一实施例中,所述根据汉字的Unicode值将所述待审核文本转换为拼音序列包括:
建立拼音-编号对照表,对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中;
建立Unicode值-拼音编号对照表,将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中;
逐一读取所述待审核文本中的待转换汉字,确定所述待转换汉字的Unicode值,根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号,根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音,从而将所述待审核文本中的每个汉字转换为拼音。
第一判断模块204,用于判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值。
预设概率阈值用于判断待审核文本是否为疑似风险文本,即有可能是风险文本。若待审核文本是风险文本的概率大于或等于预设概率阈值,则确定待审核文本是疑似风险文本,需要进一步识别。否则,若待审核文本是风险文本的概率小于预设概率阈值,则确定待识别文本是正常文本。
例如,预设概率阈值为0.5,若待审核文本是风险文本的概率大于或等于0.5,则确定待审核文本是疑似风险文本。否则,若待审核文本是风险文本的概率小于0.5,则确定待识别文本是正常文本。
第二获取模块205,用于若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据。
历史行为数据可以包括注册、发布信息、发布广告、加好友等用户行为数据。
可以获取用户在预定时间段内(例如过去30天内)的历史行为数据。
可以通过网络爬虫搜索并读取平台的网页文件,从所述网页文件中提取网页数据,从提取的网页数据中获取所述历史行为数据。
所述网页数据可以包括网址、帖子的标题、发布时间、作者、来源、正文、阅读量、评论数、评论者、评论时间等。
或者,可以获取所述用户的操作记录,从所述操作记录中获取所述历史行为数据。
第二判断模块206,用于根据所述历史行为数据判断所述用户是否行为异常。
示例性地,若用户存在批量注册、批量发布信息或者批量发布广告的历史行为,则判定用户行为异常。
对于不能明显识别出的风险文本,可以通过分析用户行为来辅助判定该待审核文本是不是风险文本,从而提高风险文本的识别率。
确定模块207,用于若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本。
若第一识别模块202判断所述待审核文本中包含敏感词,或者第二判断模块206判断所述用户行为异常,则确定模块207确定所述待审核文本为风险文本。
若所述用户行为无异常,则确定模块207确定所述待审核文本为正常文本。
在确定所述待审核文本为正常文本之后,可以发出正常文本提示。
实施例二的风险文本识别装置20将敏感词识别、神经网络模型识别和用户行为分析结合起来进行风险文本识别,提高了风险文本的识别率。
实施例三
本实施例提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述风险文本识别方法实施例中的步骤,例如图1所示的101-107:
101,获取用户的待审核文本;
102,根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词;
103,若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率;
104,判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值;
105,若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据;
106,根据所述历史行为数据判断所述用户是否行为异常;
107,若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本。
或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-207:
第一获取模块201,用于获取用户的待审核文本;
第一识别模块202,用于根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词;
第二识别模块203,用于若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率;
第一判断模块204,用于判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值;
第二获取模块205,用于若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据;
第二判断模块206,用于根据所述历史行为数据判断所述用户是否行为异常;
确定模块207,用于若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本。
实施例四
图3为本发明实施例四提供的计算机设备的示意图。所述计算机设备30包括存储器301、处理器302以及存储在所述存储器301中并可在所述处理器302上运行的计算机程序303,例如风险文本识别程序。所述处理器302执行所述计算机程序303时实现上述风险文本识别方法实施例中的步骤,例如图1所示的101-107。或者,该计算机程序被处理器执行时实现上述装置实施例中各模块的功能,例如图2中的模块201-207。
示例性的,所述计算机程序303可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器301中,并由所述处理器302执行,以完成本方法。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序303在所述计算机设备30中的执行过程。例如,所述计算机程序303可以被分割成图2中的模块。
所述计算机设备30可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图3仅仅是计算机设备30的示例,并不构成对计算机设备30的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备30还可以包括输入输出设备、网络接入设备、总线等。
所称处理器302可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,所述处理器302是所述计算机设备30的控制中心,利用各种接口和线路连接整个计算机设备30的各个部分。
所述存储器301可用于存储所述计算机程序303,所述处理器302通过运行或执行存储在所述存储器301内的计算机程序或模块,以及调用存储在存储器301内的数据,实现所述计算机设备30的各种功能。所述存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备30的使用所创建的数据。此外,存储器301可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart MediaCard,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
所述计算机设备30集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他模块或步骤,单数不排除复数。***权利要求中陈述的多个模块或装置也可以由一个模块或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种风险文本识别方法,其特征在于,所述方法包括:
获取用户的待审核文本;
根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词;
若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率;
判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值;
若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据;
根据所述历史行为数据判断所述用户是否行为异常;
若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本;
所述获取用户的待审核文本包括:
获取所述待审核文本的索引表、差异数据表和参照文件,所述索引表中的每个索引值对应所述待审核文本的一个片段,若该片段存在于所述参照文件中,则所述索引值为该片段在所述参照文件中的偏移量,若该片段不存在于所述参照文件中,则所述索引值为预设值;
根据所述索引表从所述参照文件中获取所述待审核文本中存在于所述参照文件的重复数据;
从所述差异数据表中获取所述待审核文本中不存在于所述参照文件的差异数据;
将所述重复数据和所述差异数据组成所述待审核文本。
2.如权利要求1所述的风险文本识别方法,其特征在于,所述根据敏感词词库对所述待审核文本进行敏感词识别包括:
对所述待审核文本进行分词,得到所述待审核文本的各个词语;
根据所述敏感词词库对所述各个词语进行敏感词匹配。
3.如权利要求1所述的风险文本识别方法,其特征在于,所述对所述待审核文本进行分词包括:
利用结巴分词对所述待审核文本进行分词;或者
利用特定字符对所述待审核文本进行分词;或者
利用词典库对所述待审核文本进行分词。
4.如权利要求1所述的风险文本识别方法,其特征在于,所述将所述待审核文本输入训练好的神经网络模型包括:
将所述待审核文本转换为拼音序列;
将所述拼音序列输入训练好的神经网络模型。
5.如权利要求1所述的风险文本识别方法,其特征在于,所述将所述待审核文本转换为拼音序列包括:
根据汉字的ASCII码将所述待审核文本转换为拼音序列;或
根据汉字的Unicode值将所述待审核文本转换为拼音序列。
6.如权利要求1所述的风险文本识别方法,其特征在于,所述根据汉字的Unicode值将所述待审核文本转换为拼音序列包括:
建立拼音-编号对照表,对所有拼音进行编号并将所有拼音对应的编号添加到所述拼音-编号对照表中;
建立Unicode值-拼音编号对照表,将汉字对应拼音的编号按照汉字的Unicode值添加到所述Unicode值-拼音编号对照表中;
逐一读取所述待审核文本中的待转换汉字,确定所述待转换汉字的Unicode值,根据所述待转换汉字的Unicode值从所述Unicode值-拼音编号对照表中获取所述待转换汉字对应的拼音的编号,根据所述待转换汉字对应的拼音的编号从所述拼音-编号对照表获得所述待转换汉字对应的拼音,从而将所述待审核文本中的每个汉字转换为拼音。
7.如权利要求1所述的风险文本识别方法,其特征在于,所述获取用户的待审核文本包括:
同步已通过区块链***共识的区块;
解析所述区块以获取所述待审核文本。
8.一种风险文本识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取用户的待审核文本;
第一识别模块,用于根据敏感词词库对所述待审核文本进行敏感词识别,判断所述待审核文本中是否包含敏感词;
第二识别模块,用于若所述待审核文本中不包含敏感词,则将所述待审核文本输入训练好的神经网络模型,得到所述待审核文本是风险文本的概率;
第一判断模块,用于判断所述待审核文本是风险文本的概率是否大于或等于预设概率阈值;
第二获取模块,用于若所述待审核文本是风险文本的概率大于或等于预设概率阈值,获取所述用户的历史行为数据;
第二判断模块,用于根据所述历史行为数据判断所述用户是否行为异常;
确定模块,用于若所述待审核文本中包含敏感词或者所述用户行为异常,则确定所述待审核文本为风险文本;
所述第一获取模块具体用于:
获取所述待审核文本的索引表、差异数据表和参照文件,所述索引表中的每个索引值对应所述待审核文本的一个片段,若该片段存在于所述参照文件中,则所述索引值为该片段在所述参照文件中的偏移量,若该片段不存在于所述参照文件中,则所述索引值为预设值;
根据所述索引表从所述参照文件中获取所述待审核文本中存在于所述参照文件的重复数据;
从所述差异数据表中获取所述待审核文本中不存在于所述参照文件的差异数据;
将所述重复数据和所述差异数据组成所述待审核文本。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任一项所述风险文本识别方法。
10.一种存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述风险文本识别方法。
CN202010833826.1A 2020-08-18 2020-08-18 风险文本识别方法、装置、计算机设备及存储介质 Active CN112686036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010833826.1A CN112686036B (zh) 2020-08-18 2020-08-18 风险文本识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010833826.1A CN112686036B (zh) 2020-08-18 2020-08-18 风险文本识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN112686036A CN112686036A (zh) 2021-04-20
CN112686036B true CN112686036B (zh) 2022-04-01

Family

ID=75445382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010833826.1A Active CN112686036B (zh) 2020-08-18 2020-08-18 风险文本识别方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112686036B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191787A (zh) * 2021-05-10 2021-07-30 中国工商银行股份有限公司 电信数据的处理方法、装置电子设备及存储介质
CN113761191A (zh) * 2021-05-14 2021-12-07 京东数字科技控股股份有限公司 文本识别方法、装置、设备及存储介质
CN113822049B (zh) * 2021-09-29 2023-08-25 平安银行股份有限公司 基于人工智能的地址审核方法、装置、设备及存储介质
CN115129867A (zh) * 2022-05-23 2022-09-30 广州趣丸网络科技有限公司 一种文本内容审核方法、装置、设备和存储介质
CN115456589A (zh) * 2022-09-19 2022-12-09 国网河南省电力公司信息通信公司 一种基于深度学习的合同审核方法和装置
CN115659078A (zh) * 2022-10-12 2023-01-31 湖北盈隆腾辉科技有限公司 基于人工智能的网络信息安全监控方法及***

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤***及其方法
CN104391945A (zh) * 2014-11-28 2015-03-04 厦门市美亚柏科信息股份有限公司 数据库文件数据索引的处理方法和装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及***
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN109816510A (zh) * 2018-12-14 2019-05-28 深圳壹账通智能科技有限公司 风险控制方法及装置、存储介质、计算机设备
CN110069686A (zh) * 2019-03-15 2019-07-30 平安科技(深圳)有限公司 用户行为分析方法、装置、计算机装置及存储介质
CN110110041A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110347797A (zh) * 2019-07-10 2019-10-18 广州市百果园信息技术有限公司 文本信息的侦测方法、***、设备及存储介质
CN110442712A (zh) * 2019-07-05 2019-11-12 阿里巴巴集团控股有限公司 风险的确定方法、装置、服务器和文本审理***
CN110472012A (zh) * 2019-07-19 2019-11-19 深圳市中农易讯信息技术有限公司 一种区块链敏感词处理方法、装置、存储介质及设备
CN110502614A (zh) * 2019-08-16 2019-11-26 阿里巴巴集团控股有限公司 文本拦截方法、装置、***以及设备
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10489463B2 (en) * 2015-02-12 2019-11-26 Microsoft Technology Licensing, Llc Finding documents describing solutions to computing issues
US10984316B2 (en) * 2017-06-19 2021-04-20 International Business Machines Corporation Context aware sensitive information detection
CN108346107B (zh) * 2017-12-28 2020-11-10 创新先进技术有限公司 一种社交内容风险识别方法、装置以及设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤***及其方法
CN104391945A (zh) * 2014-11-28 2015-03-04 厦门市美亚柏科信息股份有限公司 数据库文件数据索引的处理方法和装置
CN106445998A (zh) * 2016-05-26 2017-02-22 达而观信息科技(上海)有限公司 一种基于敏感词的文本内容审核方法及***
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备
CN109816510A (zh) * 2018-12-14 2019-05-28 深圳壹账通智能科技有限公司 风险控制方法及装置、存储介质、计算机设备
CN110069686A (zh) * 2019-03-15 2019-07-30 平安科技(深圳)有限公司 用户行为分析方法、装置、计算机装置及存储介质
CN110110041A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110442712A (zh) * 2019-07-05 2019-11-12 阿里巴巴集团控股有限公司 风险的确定方法、装置、服务器和文本审理***
CN110347797A (zh) * 2019-07-10 2019-10-18 广州市百果园信息技术有限公司 文本信息的侦测方法、***、设备及存储介质
CN110472012A (zh) * 2019-07-19 2019-11-19 深圳市中农易讯信息技术有限公司 一种区块链敏感词处理方法、装置、存储介质及设备
CN110502614A (zh) * 2019-08-16 2019-11-26 阿里巴巴集团控股有限公司 文本拦截方法、装置、***以及设备
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Effective hate-speech detection in Twitter data using recurrent neural networks;Georgios K. Pitsilis et al.;《Springer》;20181231;第4730-4742页 *
利用深度学习融合模型提升文本内容安全的研究;汪少敏 等;《电信科学》;20200520(第5期);第25-30页 *

Also Published As

Publication number Publication date
CN112686036A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN111695033B (zh) 企业舆情分析方法、装置、电子设备及介质
CN112417096B (zh) 问答对匹配方法、装置、电子设备及存储介质
CN111694826B (zh) 基于人工智能的数据增强方法、装置、电子设备及介质
US8370278B2 (en) Ontological categorization of question concepts from document summaries
CN111428488A (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
CN108959559B (zh) 问答对生成方法和装置
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN111538816B (zh) 基于ai识别的问答方法、装置、电子设备及介质
CN111639487A (zh) 基于分类模型的字段抽取方法、装置、电子设备及介质
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
CN111552800A (zh) 摘要生成方法、装置、电子设备及介质
CN114090794A (zh) 基于人工智能的事理图谱构建方法及相关设备
CN113064973A (zh) 文本分类方法、装置、设备及存储介质
CN111679975A (zh) 单证生成方法、装置、电子设备及介质
CN113010679A (zh) 问答对生成方法、装置、设备及计算机可读存储介质
JP2015075993A (ja) 情報処理装置及び情報処理プログラム
Osman et al. Plagiarism detection using graph-based representation
CN114037545A (zh) 客户推荐方法、装置、设备及存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN113705468A (zh) 基于人工智能的数字图像识别方法及相关设备
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN113627186B (zh) 基于人工智能的实体关系检测方法及相关设备
CN113420143B (zh) 文书摘要生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant