CN110298034A - 一种基于深度学习和区块链奖励机制的分词方法和*** - Google Patents
一种基于深度学习和区块链奖励机制的分词方法和*** Download PDFInfo
- Publication number
- CN110298034A CN110298034A CN201910473673.1A CN201910473673A CN110298034A CN 110298034 A CN110298034 A CN 110298034A CN 201910473673 A CN201910473673 A CN 201910473673A CN 110298034 A CN110298034 A CN 110298034A
- Authority
- CN
- China
- Prior art keywords
- mark
- expert
- participle
- deep learning
- block chain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度学习和区块链奖励机制的分词方法和***,所述方法包括:训练深度学习分词模型;获取分词句子,传输至深度学习分词模型进行分词,将分词结果传输至终端展示;搭建区块链数据分享网络***;领域专家在终端对分词结果进行打标,评价,并将结果储存入区块链;数据需求方根据智能合约,支付代币以获取数据,***对分词做过打标贡献的领域专家一定的奖励代币。本发明方法与***基于深度学习分词技术并结合了区块链激励机制,最终得到了更优更准的分词结果。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于深度学习和区块链奖励机制的分词方法和***。
背景技术
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,在词这一层上,中文比之英文要复杂的多、困难的多。分词的准确性,是自然语言处理相关***性能的基础,而分词的准确性,很大一部分取决于词库的完整性。
目前大部分分词技术是基于机器学习或人工的分词,但基于机器学习的分词准确率无法保证,并且无法保证能够及时准确发现新词。
而基于人工的分词,由于词量多,工作量大,并且需要专业领域专家才能做到准确分词,组织与激励专家来做分词工作都需要很大的成本。
发明内容
本发明的目的是为了解决上述现有技术的缺陷,提供一种基于深度学习和区块链奖励机制的分词方法。
本发明的另一目的在于提供一种基于深度学习和区块链奖励机制的分词***。
本发明的目的可以通过采取如下技术方案达到:
一种基于深度学习和区块链奖励机制的分词方法,其特征在于,包括:
训练深度学习分词模型;
将待分词处理的句子发送给深度学习分词模型进行分词处理,并将深度学习分词模型的分词结果发送到问答咨询***客户端进行展示;
搭建区块链数据分享网络***;
对所有领域专家进行聚类,生成多个不同的领域专家分组,确定所述目标领域专家所在分组以及所述目标领域专家所在分组内的邻居专家;
所述问答咨询***客户端接收目标领域专家对所述深度学习分词模型的分词结果的打标操作,得到打标结果,将所述打标结果发送并储存入所述区块链数据分享网络***;
将所述邻居专家的过往分词打标结果发送到所述问答咨询***客户端进行展示,所述问答咨询***客户端接收所述目标领域专家对所述过往分词打标结果的评价打标操作,得到评价结果,将所述评价结果发送并储存入所述区块链数据分享网络***;
数据需求方根据智能合约,支付代币以获取所述区块链数据分享网络***中储存的分词数据,***根据所述智能合约给对所述区块链数据分享网络***中储存的分词数据有打标贡献的领域专家预设的代币奖励;
根据所述区块链数据分享网络***中储存的分词数据,在预设时间点,重新训练所述深度学习分词模型。
优选的,所述训练深度学习分词模型,包括:
获取训练数据,所述训练数据来源于所述区块链数据分享网络***中储存的分词数据以及相关领域的文本在预设的高精度分词模型的分词结果,所述高精度分词模型主要以所述区块链数据分享网络***模块中储存的分词数据作为依赖词库;
采用深度学习向量工具将所述训练数据的字符特征向量化;
根据训练数据的字符特征向量及所述训练数据,训练所述深度学习分词模型。
优选的,所述搭建区块链数据分享网络***,包括:
构建区块链数据分享网络***,所述区块链数据分享网络***用于接收并存储所述问答咨询***客户端发送的打标结果及评价结果;
对每一位领域专家注册唯一的钱包标识,所述钱包标识用于对打标结果及评价结果进行归属标识,也用于收取***代币奖励;
统计每一位领域专家的全部打标结果获得的赞以及踩的占比,当占比低于预设值,并且该领域专家的打标速度高于预设值时,将该领域专家判断为恶意打标专家,并将所述恶意打标专家的全部打标结果都作屏蔽处理。
优选的,对所有领域专家进行聚类,生成多个不同的领域专家分组,确定所诉目标领域专家所在分组以及所述目标领域专家所在分组内的邻居专家,包括:
获取所有领域专家在所述问答咨询***客户端填写的个人信息,作为专家特征标签,使用k-mean聚类算法,对所有领域专家进行聚类,生成多个不同的专家分组,确定所诉目标领域专家所在分组,所述目标领域专家所在分组内的其他专家为所述邻居专家。
优选的,所述问答咨询***客户端接收目标领域专家对所述深度学习分词模型的分词结果的打标操作,包括:
所述打标操作,是所述目标领域专家,在所述问答咨询***客户端,通过拖拽或滑动的形式进行打标操作,以手指或鼠标点击的字为词的开头,以手指或鼠标的释放为词的结尾。
优选的,将所述邻居专家的过往分词打标结果发送到所述问答咨询***客户端进行展示,所述问答咨询***客户端接收所诉目标领域专家对所述过往分词打标结果的评价打标操作,得到评价结果,将所述评价结果发送并储存入所述区块链数据分享网络***,包括:
所述评价操作为:支持或者反对。
所述评价操作,还包括:获取所述目标领域专家的问答咨询满意度得分,以所述问答咨询满意度得分,作为所述目标领域专家的评价权重。
优选的,根据区块链数据分享网络***中储存的分词标记结果,重新训练深度学习分词模型,包括:
将所述区块链数据分享网络***中储存的分词数据发送到所述其他分词模型的分词依赖词库及所述训练数据中,并在预设时间点,重新训练深度学习分词模型。
本发明的另一目的可以通过采取如下技术方案达到:
一种基于深度学习和区块链奖励机制的分词***,其特征在于,所述***包括:
深度学习分词模块、区块链数据分享网络***模块、领域专家聚类模块、分词结果打标模块、分词结果评价模块、智能合约模块;
所述深度学习分词模块用于加载所述区块链数据分享网络***模块储存的分词数据,训练并使用深度学习分词模型对所述待处理的句子进行分词处理,将所述深度学习分词模型的分词结果发送到所述分词结果打标模块;
所述区块链数据分享网络***模块用于:接收并存储所述问答咨询***客户端发送的打标结果及评价结果;对每一位领域专家注册唯一的钱包标识,所述钱包标识用于对所述打标结果及所述评价结果进行归属标识,也用于收取***代币奖励;统计每个领域专家的全部打标结果获得的赞以及踩的占比,当占比低于预设值,并且该领域专家的打标速度高于预设值时,将该领域专家判断为恶意打标专家,并将所述恶意打标专家的全部打标结果都作屏蔽处理。
所述领域专家聚类模块用于:对所有领域专家进行聚类,生成多个不同的领域专家分组,确定所诉目标领域专家所在分组以及所述目标领域专家所在分组内的邻居专家。将所诉目标领域专家对所述过往分词打标结果发送至所述分词结果评价模块。具体包括:获取所有领域专家在所述问答咨询***客户端填写的个人信息,作为专家特征标签,使用k-mean聚类算法,对所有领域专家进行聚类,生成多个不同的专家分组,确定所诉目标领域专家所在分组,所述目标领域专家所在分组内的其他专家为所述邻居专家。
所述分词结果打标模块用于:接收并在所述问答咨询***客户端展示所述待分词处理的句子在所述深度学习分词模型的分词结果,并接收目标领域专家对所述深度学习分词模型的分词结果的打标操作,得到打标结果,将所述打标结果发送并储存入所述区块链数据分享网络***模块;
所述分词结果评价模块用于:接收并在所述问答咨询***客户端展示所述邻居专家的过往分词打标结果,并接收所诉目标领域专家对所述过往分词打标结果的评价打标操作,得到评价结果,将所述评价结果发送并储存入所述区块链数据分享网络***模块。
所述智能合约模块用于:执行数据交易,所述数据交易是数据需求方支付代币并获取所述区块链数据分享网络***中储存的分词数据,并给对所述数据交易中交易的数据有打标贡献的领域专家预设的代币奖励。
优选的,所述***还包括:
所述深度学习分词模块包括高精度分词模型单元、训练数据单元,字向量单元,深度学习训练单元;
所述高精度分词模型单元用于:对相关领域文本进行分词处理,并将所述高精度分词模型的分词结果传输到所述训练数据单元。所述高精度分词模型单元内置有预设的高精度分词模型,所述高精度分词模型主要以所述区块链数据分享网络***模块中储存的分词数据作为依赖词库。
所述训练数据单元用于:获取训练数据,并将所述训练数据发送至所述字向量单元以及深度学习训练单元。
所述字向量单元用于:将所述训练数据单元发送来的训练数据预训练为字符特征向量,并将所述字符特征向量发送到所述深度学习训练单元。
所述深度学习训练单元用于:接收所述字向量单元发送的字符特征向量及所述训练数据单元发送的训练数据,并根据所述字符特征向量及所述训练数据,训练深度学习分词模型。
附图说明
图1是根据本发明实施方式的一种基于深度学习和区块链奖励机制的分词方法和***的流程示意图。
具体实施方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据此实施。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”
所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。
本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
如图1,作为本发明的一个实施例,基于区块链奖励机制的分词方法及词库建立***包括:
深度学习分词模块51、区块链数据分享网络***模块521、领域专家聚类模块522、智能合约模块523、分词结果打标模块531、分词结果评价模块532,其中所述深度学习分词模块51还包括:高精度分词模型单元511、训练数据单元512、字向量单元513、深度学习训练单元514。
深度学习分词模块51,该模块加载区块链数据分享网络***中储存的分词数据62,用于训练深度学习分词模型60,还可以对待处理的句子50进行分词处理,并将深度学习分词模型的分词结果64传输至分词结果打标单元531。
所述深度学习分词模块51还包括:
高精度分词模型单元511,该单元主要以区块链数据分享网络***中储存的分词数据62作为依赖词库,并且内置预设的高精度分词模型,对相关领域文本进行分词处理后,将高精度分词模型的分词结果61传输到训练数据单元512。
训练数据单元512,该单元主要用于获取训练数据63,并将所述训练数据63发送至所述字向量单元513以及深度学习训练单元514。该单元的数据来源于高精度模型单元511输出的高精度分词模型的分词结果61,以及区块链数据分享网络***中储存的分词数据62。
字向量单元513,该单元主要用于将训练数据单元512传输来的训练数据63预训练为字符特征向量,并将字符特征向量发送给深度学习训练单元514。
深度学习训练单元514,该单元主要用于接收所述字向量单元513发送的字符特征向量及所述训练数据单元512发送的训练数据63,并根据所述字符特征向量及所述训练数据63,训练深度学习分词模型60,所述深度学习分词模型60用于对待处理的句子50进行分词处理,得到深度学习分词模型的分词结果64,将所诉深度学习分词模型的分词结果64发送到分词结果打标单元531。
区块链数据分享网络***模块521,该模块主要用于接收并存储分词结果打标单元531发送来的打标数据65以及分词结果评价单元532发送来的评价结果67,并对每一位领域专家注册唯一的钱包标识,所述钱包标识用于对打标结果65及评价结果67进行归属标识,也用于收取***代币奖励;该模块还用于统计每个领域专家的全部打标结果获得的赞以及踩的占比,当占比低于预设值,并且该领域专家的打标速度高于预设值时,将该领域专家判断为恶意打标专家,并将所述恶意打标专家的全部打标结果都作屏蔽处理。
领域专家聚类模块522,该模块主要用于对所有领域专家进行聚类,生成多个不同的领域专家分组,确定目标领域专家所在分组以及所述目标领域专家所在分组内的邻居专家。将所述邻居专家的过往分词打标结果66发送到分词结果评价模块532。
所述目标领域专家是在问答咨询***客户端中回答过问题的领域专家。
所述问答咨询***客户端是web或app形式的问答网站、平台、社区,集结了有问题需求的用户提出问题,及有领域专业知识的领域专家提供答案。
智能合约模块523,该模块主要用于执行***与数据需求方49的数据交易以及对所述数据交易中交易的数据有打标贡献的领域专家预设的代币奖励。
分词结果打标模块531,该模块主要用于接收并在所述问答咨询***客户端展示所述待分词处理的句子50在所述深度学习分词模型60的分词结果64,并接收所述目标领域专家对所述深度学习分词模型的分词结果64的打标操作,得到打标结果65,将所述打标结果65发送并储存入所述区块链数据分享网络***模块521。
分词结果评价模块532,该模块主要用于接收并在所述问答咨询***客户端展示所述邻居专家的过往分词打标结果66,并接收所述目标领域专家对所述过往分词打标结果66的评价打标操作,得到评价结果67,将所述评价结果67发送并储存入所述区块链数据分享网络***模块521。
以下对基于区块链奖励机制的分词方法及词库的***的工作流程进行详细说明:
深度学习分词模型60的训练流程如下:
步骤S201:获取训练数据63。一般地,训练数据的领域与分词对象接近或者相同时,可以取得更好的分词效果,因此,所述训练数据63可以来源于区块链数据分享网络***中储存的分词数据62,也可以来源于相关领域的文本在其他高精度分词模型的分词结果61:选用多个高精度分词模型对包含多个语段的同一份语料进行分词,最后投票表决得到预测结果。所述高精度分词模型的分词词库部分依赖于区块链数据分享网络***中储存的分词数据62作为依赖词库。例如,可以选用斯坦福开源分词工具、哈工大开源分词工具、结巴分词工具对同一份相关领域文本进行分词并投票,取投票数多的结果作为高精度分词模型的分词结果61。此方法节省了大量的人力成本,并且准确率高。
分词的结果是分词标签形式。例如,为每一个字标注上“B”、“M”、“E”、“S”四种
标签中的一种,其中:
“B”表示该字是一个词的开始;
“M”表示该字位于一个词的中间部分;
“E”表示该字是一个词的结束;
“S”表示该字是一个单字。
步骤S202:根据训练数据63的语段中的字符特征信息,利用word2vec模型进行预训练,得到字符特征信息向量x,本步骤中,利用word2vec训练得到的字符特征信息向量能够有效包含句子上下文信息,每个向量代表一个中文字符,每个字符特征信息向量的维度可以根据语料大小进行调整,一般可选的维度为50,100,200等。
步骤S203:使用所述训练数据63的语段的分词标记结果和所述字符特征信息向量x训练所述深度学习分词模型60。
根据本发明的实施例,深度学习分词模型60是双向LSTM神经网络。所述双向LSTM神经网络中的LSTM内核是对传统RNN(Recurrent Neural Network)的一种改进,通过增加遗忘和保存机制来选择性的遗忘和保留输入信息,能有效避免RNN引发的长期依赖问题。LSTM网络包含一个输入层、两个隐藏层和一个softmax层,通过反向传播算法进行学习,根据本发明的实施例,模型训练的硬件可以采用图形处理器(GPU)。GPU在浮点运算、并行计算等部分计算方面,可以提供数十倍乃至于上百倍于CPU的性能深度学习分词模型60对待分词处理的句子50的预测流程如下:
步骤S301:获取待分词处理的句子50。
步骤S302:根据深度学习分词模型60,预测待分词处理的句子50的分词结果64,具体包括:
将所述待分词处理的句子50,如:“我讨厌那种感觉”,输入到根据步骤S202所得word2vec模型中,得到所述待分词处理的句子50的字符特征信息向量,将该向量输入到根据步骤S203所得深度学习分词模型60中,得到输出预测标签序列Y。将得到的预测标签序列Y与所述待分词处理的句子50进行一一比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。如“我讨厌那种感觉”的输出标签为“S ,B ,E ,B ,E, B ,E”,最后得到分词结果64,如:“我讨厌那种感觉”。
步骤S303:将根据步骤S302所得分词结果64,传送至分词结果打标模块531,并以一定的形式展现。
所述目标领域专家在所述问答咨询***客户端的操作方法:
分词结果打标模块531工作流程如下:
所述问答咨询***客户端,在问答咨询结束后,将该次问答咨询的问答语料作为所述待分词处理的句子50,根据步骤S301-S303的方法获取分词结果64,在所述问答咨询***客户端进行展现,以交互形式让所述目标领域专家打标操作判断分词结果64是否正确,如果其中某个词判断为不正确,则进一步让所述目标领域专家填写该词的正确分法。当所有词都判断和填写结束后,将打标结果65传送至区块链数据分享网络***中储存。
所述在所述问答咨询***客户端进行展现,可以是对不确定正确的分词情况进行重点标红,具体包括:
(a)构建现有词库:根据所述区块链数据分享网络***所存储的分词结果,提取词语,得到领域词库、结合现有公开的词库,如:输入法词库,jieba分词依赖词库等,得到现有词库。
(b)根据所述现有词库,检测所述分词结果64中每个分词是否存在于所述现有词库中,如果不存在,将该不存在于所述现有词库中的词进行标红显示。
所述打标操作,可以是所述目标领域专家,在所述问答咨询***客户端,通过拖拽或滑动的形式进行打标操作,以手指或鼠标点击的字为词的开头,以手指或鼠标的释放为词的结尾。例如:所述问答咨询***客户端界面呈现分词结果64:“这个阿司匹林是什么”,所述目标领域专家手指从“阿”字开始,滑动到“林”字并释放手指之后,“阿司”,“匹林”自动划分为“阿司匹林”一个词,此时所述问答咨询***客户端界面呈现分词结果64:“这个阿司匹林是什么”,当所述目标领域专家觉得已经对所有分词进行了正确的滑动修改,可以点击提交按钮,上传分词打标结果。
所述打标操作,还可以包括记录所述目标领域专家的打标速度,具体包括,记录所述目标领域专家的打标操作的间隔时间,根据所述间隔时间的平均值,计算所述打标速度。
分词结果评价模块532工作流程如下:
根据所述目标领域专家,在根据步骤S404所得的领域专家聚类分组中寻找高相似邻居专家,并获取所述过往分词打标结果66,在所述问答咨询***客户端进行展示,所述目标领域专家对所述过往分词打标结果66进行评价(赞或踩),将评价结果67传送至区块链数据分享网络***中进行储存。
所述目标领域专家对所述过往分词打标结果66进行评价(赞或踩),还包括:获取所述目标领域专家的问答咨询满意度得分,以所述问答咨询满意度得分,作为所述目标领域专家的评价权重,例如:所述目标领域专家的问答咨询满意度得分为98%,并且所述目标领域专家对所述过往分词打标结果66进行赞的评价,结合所述目标领域专家的问答咨询满意度98%,可以得到所述目标领域专家对所述过往分词打标结果66的评价结果为0.98个赞。
所述问答咨询满意度得分,是所述目标领域专家通过回答所述问答咨询***的咨询用户的问题后得到的满意度平均得分,例如:所述目标领域专家在所述问答咨询***中,回答了多个咨询用户的问题,所述多个咨询用户对咨询的满意度平均评价为98%,所述目标领域专家的问答咨询满意度得分即为98%。
区块链数据分享网络***的搭建,储存数据,以及领域专家聚类方法如下:
步骤S401:开发并发布区块链数据分享网络***,并发布代币,促使网络上相关服务器提供网络节点,用于数据的储存及计算;所述区块链数据分享网络***可以基于现有区块链平台技术开发,所述区块链平台技术包括但不限于corda平台、fabric平台、quorum平台等不同类型的联盟链。其中,corda平台具有很好的隐私性,通常适用于金融应用场景(例如,资产、货币等的转账场景)中;fabric平台相较于corda平台而言的隐私性较差,因此通常适用于存证类应用(例如,与转账相关联的信息的存储等)中;quorum平台相较于fabric平台而言的隐私性更好,但是其稳定性相较于corda平台、fabric平台而言较差;上述若干区块链平台均适于企业级应用中。
步骤S402:对每一位领域专家注册唯一的钱包标识,所述钱包标识用于对所述打标结果65及所述评价结果67进行归属标识,也用于收取***代币奖励;
步骤S403:区块链数据分享网络***接收分词结果打标模块531传送来的打标结果65并确定归属标识,把数据按约定的区块大小进行切分并存储至网络上,当确定的网络节点数量超过51%时,认定存储成功;并且,在需要时向分词结果评价模块532发送所述过往分词打标结果66,以进行评价(赞或踩),同时参与该条数据评价的领域专家也将以预设比例分享该数据未来的收益,这样可以给数据需求方49对数据的筛选一定的判断依据。统计每个领域专家的全部打标结果获得的赞以及踩的占比,当占比低于预设值,并且该领域专家的打标速度高于预设值时,将该领域专家判断为恶意打标专家,并将所述恶意打标专家的全部打标结果都作屏蔽处理,以此屏蔽掉部分恶意打标的领域专家。
所述屏蔽处理,具体包括:所述区块链数据分享网络***向所述数据需求方49及所述深度学习分词模块51发送所述分词数据62时,将所述恶意打标专家的全部打标结果在所述分词数据62中去除。
步骤S404:对所有领域专家进行聚类,具体包括:获取所有注册专家在所述问答咨询***客户端填写的个人信息,如:年龄,地域,性别,学历,擅长领域等,作为用专家特征标签,使用k-mean聚类算法,对所述领域专家进行聚类,生成多个不同的专家分组,由此可以将所有的专家根据专家间的相关性分为K个分组,每个分组内的用户为高相似性邻居专家。
在区块链数据分享网络***的提供数据及奖励机制如下:
步骤S405:数据需求方49想在区块链数据分享网络***中获取数据,需在市场在购买一定的代币,并在区块链数据分享网络***上发起购买相关数据的请求,并以预设的智能合约交易相关数据。
所述数据需求方49,包括但不限于市场上需要使用所述区块链数据分享网络***所存储相关分词结果的单位及个人。
所述预设智能合约,主要用于执行数据需求方49支付代币并获取其所诉区块链数据分享网络***中储存的分词数据62,也用于执行对分词做出打标贡献的领域专家预设的代币奖励。
主要目的是为促进***数据交易与促进领域专家打标,可以是根据所述区块链数据的赞踩数来定价从而促成交易而设置的合约,如:某条数据因为得到了邻居领域专家1000个赞的支持,从而得到了数据需求方49的信任,如果数据需求方49想要获取该数据,那么必须支付2500个代币给***,其中1000个代币是***会奖励到该数据的归属标识所在钱包地址,另外1000个代币,***给对本数据做出评价贡献的其他领域专家,其中每个领域专家可以分到1个代币,而其余500个代币,奖励给对***计算做出贡献的服务器节点。所述预设智能合约,也可以是根据数据需求方49所需分词的完整句子依赖到的相关打标结果而设置的合约,如:某数据需求方49给出所需分词的完整句子,要求***分词,并支付1500个代币给***,***计算后给出分词结果,将结果返回给需求方,并将得到的1500个代币,其中1000个代币给本次分词计算有打标贡献的领域专家,另外500个给为本次计算做出贡献的服务器节点。上述的智能合约,只是可能撮合交易的合约可能性的两种,***应根据实际情况,部署有利于促进数据交易与领域专家打标的智能合约。
所述智能合约,是本领域技术人员均知晓其公认的定义,也均知晓区块链上往往进行的是智能合约的签署、甚至交易,此处不对本领域有关智能合约的现有技术做赘述。
步骤S501:在预设时间点,根据步骤S201-S203,重新训练深度学习分词模型60。
Claims (9)
1.一种基于深度学习和区块链奖励机制的分词方法,其特征在于,包括:
训练深度学习分词模型;
将待分词处理的句子发送给深度学习分词模型进行分词处理,并将深度学习分词模型的分词结果发送到问答咨询***客户端进行展示;
搭建区块链数据分享网络***;
对所有领域专家进行聚类,生成多个不同的领域专家分组,确定所述目标领域专家所在分组以及所述目标领域专家所在分组内的邻居专家;
所述问答咨询***客户端接收目标领域专家对所述深度学习分词模型的分词结果的打标操作,得到打标结果,将所述打标结果发送并储存入所述区块链数据分享网络***;
将所述邻居专家的过往分词打标结果发送到所述问答咨询***客户端进行展示,所述问答咨询***客户端接收所述目标领域专家对所述过往分词打标结果的评价打标操作,得到评价结果,将所述评价结果发送并储存入所述区块链数据分享网络***;
数据需求方根据智能合约,支付代币以获取所述区块链数据分享网络***中储存的分词数据,***根据所述智能合约给对所述区块链数据分享网络***中储存的分词数据有打标贡献的领域专家预设的代币奖励;
根据所述区块链数据分享网络***中储存的分词数据,在预设时间点,重新训练所述深度学习分词模型。
2.根据权利要求1所述的一种基于深度学习和区块链奖励机制的分词方法,其特征在于:所述训练深度学习分词模型,包括:
获取训练数据,所述训练数据来源于所述区块链数据分享网络***中储存的分词数据以及相关领域的文本在预设的高精度分词模型的分词结果,所述高精度分词模型以所述区块链数据分享网络***模块中储存的分词数据作为依赖词库;
采用深度学习向量工具将所述训练数据的字符特征向量化;
根据训练数据的字符特征向量及所述训练数据,训练所述深度学习分词模型。
3.根据权利要求1所述的一种基于深度学习和区块链奖励机制的分词方法,其特征在于:所述搭建区块链数据分享网络***,包括:
构建区块链数据分享网络***,所述区块链数据分享网络***用于接收并存储所述问答咨询***客户端发送的打标结果及评价结果;
对每一位领域专家注册唯一的钱包标识,所述钱包标识用于对打标结果及评价结果进行归属标识,也用于收取***代币奖励;
统计每一位领域专家的全部打标结果获得的赞以及踩的占比,当占比低于预设值,并且该领域专家的打标速度高于预设值时,将该领域专家判断为恶意打标专家,并将所述恶意打标专家的全部打标结果都作屏蔽处理。
4.根据权利要求1所述的一种基于深度学习和区块链奖励机制的分词方法,其特征在于:其中,对所有领域专家进行聚类,生成多个不同的领域专家分组,确定所诉目标领域专家所在分组以及所述目标领域专家所在分组内的邻居专家,包括:
获取所有领域专家在所述问答咨询***客户端填写的个人信息,作为专家特征标签,使用k-mean聚类算法,对所有领域专家进行聚类,生成多个不同的专家分组,确定所诉目标领域专家所在分组,所述目标领域专家所在分组内的其他专家为所述邻居专家。
5.根据权利要求1所述的一种基于深度学习和区块链奖励机制的分词方法,其特征在于:其中,所述问答咨询***客户端接收目标领域专家对所述深度学习分词模型的分词结果的打标操作,包括:
所述打标操作,是所述目标领域专家,在所述问答咨询***客户端,通过拖拽或滑动的形式进行打标操作,以手指或鼠标点击的字为词的开头,以手指或鼠标的释放为词的结尾。
6.根据权利要求1所述的一种基于深度学习和区块链奖励机制的分词方法,其特征在于:其中,将所述邻居专家的过往分词打标结果发送到所述问答咨询***客户端进行展示,所述问答咨询***客户端接收所诉目标领域专家对所述过往分词打标结果的评价打标操作,得到评价结果,将所述评价结果发送并储存入所述区块链数据分享网络***,包括:
所述评价操作为:支持或者反对;
所述评价操作,还包括:获取所述目标领域专家的问答咨询满意度得分,以所述问答咨询满意度得分,作为所述目标领域专家的评价权重。
7.根据权利要求1所述的一种基于深度学习和区块链奖励机制的分词方法,其特征在于:其中,根据区块链数据分享网络***中储存的分词标记结果,重新训练深度学习分词模型,包括:
将所述区块链数据分享网络***中储存的分词数据发送到所述其他分词模型的分词依赖词库及所述训练数据中,并在预设时间点,重新训练深度学习分词模型。
8.一种基于深度学习和区块链奖励机制的分词***,其特征在于,所述***包括:
深度学习分词模块、区块链数据分享网络***模块、领域专家聚类模块、分词结果打标模块、分词结果评价模块、智能合约模块;
所述深度学习分词模块用于加载所述区块链数据分享网络***模块储存的分词数据,训练并使用深度学习分词模型对所述待处理的句子进行分词处理,将所述深度学习分词模型的分词结果发送到所述分词结果打标模块;
所述区块链数据分享网络***模块用于:接收并存储所述问答咨询***客户端发送的打标结果及评价结果;对每一位领域专家注册唯一的钱包标识,所述钱包标识用于对所述打标结果及所述评价结果进行归属标识,也用于收取***代币奖励;统计每个领域专家的全部打标结果获得的赞以及踩的占比,当占比低于预设值,并且该领域专家的打标速度高于预设值时,将该领域专家判断为恶意打标专家,并将所述恶意打标专家的全部打标结果都作屏蔽处理;
所述领域专家聚类模块用于:对所有领域专家进行聚类,生成多个不同的领域专家分组,确定所诉目标领域专家所在分组以及所述目标领域专家所在分组内的邻居专家。将所诉目标领域专家对所述过往分词打标结果发送至所述分词结果评价模块。具体包括:获取所有领域专家在所述问答咨询***客户端填写的个人信息,作为专家特征标签,使用k-mean聚类算法,对所有领域专家进行聚类,生成多个不同的专家分组,确定所诉目标领域专家所在分组,所述目标领域专家所在分组内的其他专家为所述邻居专家;
所述分词结果打标模块用于:接收并在所述问答咨询***客户端展示所述待分词处理的句子在所述深度学习分词模型的分词结果,并接收目标领域专家对所述深度学习分词模型的分词结果的打标操作,得到打标结果,将所述打标结果发送并储存入所述区块链数据分享网络***模块;
所述分词结果评价模块用于:接收并在所述问答咨询***客户端展示所述邻居专家的过往分词打标结果,并接收所诉目标领域专家对所述过往分词打标结果的评价打标操作,得到评价结果,将所述评价结果发送并储存入所述区块链数据分享网络***模块;
所述智能合约模块用于:执行数据交易,所述数据交易是数据需求方支付代币并获取所述区块链数据分享网络***中储存的分词数据,并给对所述数据交易中交易的数据有打标贡献的领域专家预设的代币奖励。
9.根据权利要求8所述的一种基于深度学习和区块链奖励机制的分词***,其特征在于:
所述深度学习分词模块包括高精度分词模型单元、训练数据单元,字向量单元,深度学习训练单元;
所述高精度分词模型单元用于:对相关领域文本进行分词处理,并将所述高精度分词模型的分词结果传输到所述训练数据单元。所述高精度分词模型单元内置有预设的高精度分词模型,所述高精度分词模型主要以所述区块链数据分享网络***模块中储存的分词数据作为依赖词库;
所述训练数据单元用于:获取训练数据,并将所述训练数据发送至所述字向量单元以及深度学习训练单元;
所述字向量单元用于:将所述训练数据单元发送来的训练数据预训练为字符特征向量,并将所述字符特征向量发送到所述深度学习训练单元;
所述深度学习训练单元用于:接收所述字向量单元发送的字符特征向量及所述训练数据单元发送的训练数据,并根据所述字符特征向量及所述训练数据,训练深度学习分词模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910473673.1A CN110298034A (zh) | 2019-06-01 | 2019-06-01 | 一种基于深度学习和区块链奖励机制的分词方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910473673.1A CN110298034A (zh) | 2019-06-01 | 2019-06-01 | 一种基于深度学习和区块链奖励机制的分词方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110298034A true CN110298034A (zh) | 2019-10-01 |
Family
ID=68027392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910473673.1A Withdrawn CN110298034A (zh) | 2019-06-01 | 2019-06-01 | 一种基于深度学习和区块链奖励机制的分词方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110298034A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111355715A (zh) * | 2020-02-21 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 待决议事件的处理方法、***、装置、介质及电子设备 |
CN112686640A (zh) * | 2020-12-22 | 2021-04-20 | 罗科仕管理顾问有限公司 | 凭证保险库***的基于技能的凭证验证 |
-
2019
- 2019-06-01 CN CN201910473673.1A patent/CN110298034A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111355715A (zh) * | 2020-02-21 | 2020-06-30 | 腾讯科技(深圳)有限公司 | 待决议事件的处理方法、***、装置、介质及电子设备 |
CN112686640A (zh) * | 2020-12-22 | 2021-04-20 | 罗科仕管理顾问有限公司 | 凭证保险库***的基于技能的凭证验证 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200250511A1 (en) | Artist comprehensive ability evaluation and cultivation assistant system based on artificial intelligence | |
Faltings et al. | Game theory for data science: Eliciting truthful information | |
CN109582875A (zh) | 一种在线医疗教育资源的个性化推荐方法及*** | |
Tiwari | Supervised learning: From theory to applications | |
Kumar | Machine Learning Quick Reference: Quick and essential machine learning hacks for training smart data models | |
Kurz-Milcke et al. | Heuristic decision making | |
CN111417975A (zh) | 用于个性化优惠的方法和*** | |
CN110298034A (zh) | 一种基于深度学习和区块链奖励机制的分词方法和*** | |
Węgier et al. | Multicriteria classifier ensemble learning for imbalanced data | |
Speakman et al. | Three population covariate shift for mobile phone-based credit scoring | |
Singh et al. | Correlation‐based classifier combination in the field of pattern recognition | |
Pasquadibisceglie et al. | JARVIS: Joining Adversarial Training With Vision Transformers in Next-Activity Prediction | |
CN112749332A (zh) | 数据处理方法、装置以及计算机可读介质 | |
Zheng et al. | A dynamic difficulty-sensitive worker distribution model for crowdsourcing quality management | |
Jain et al. | Model explanations under calibration | |
CN111523649A (zh) | 针对业务模型进行数据预处理的方法及装置 | |
Lim et al. | Estimating domain-specific user expertise for answer retrieval in community question-answering platforms | |
Zhang et al. | Multi-level ensemble network for scene recognition | |
Nguyen et al. | Predicting National Basketball Association Players Performance and Popularity: A Data Mining Approach | |
US20240112092A1 (en) | Counterfactual samples for maintaining consistency between machine learning models | |
US20240112052A1 (en) | Systems and methods for counterfactuals in machine learning applications | |
US20240112072A1 (en) | Generating counterfactual samples based on user preference | |
KR102631068B1 (ko) | 광고 컨텐츠 제작을 위한 참여자를 매칭하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체 | |
US20240070693A1 (en) | Apparatus and method for analyzing a communication datum | |
Tian | Do You Want to Foresee Your Future? The Best Model Predicting the Success of Kickstarter Campaigns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20191001 |
|
WW01 | Invention patent application withdrawn after publication |