CN109214004A - 基于机器学习的大数据处理方法 - Google Patents
基于机器学习的大数据处理方法 Download PDFInfo
- Publication number
- CN109214004A CN109214004A CN201811039771.6A CN201811039771A CN109214004A CN 109214004 A CN109214004 A CN 109214004A CN 201811039771 A CN201811039771 A CN 201811039771A CN 109214004 A CN109214004 A CN 109214004A
- Authority
- CN
- China
- Prior art keywords
- word
- retrieval
- sentence
- semantic
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于机器学习的大数据处理方法,包括:给定一个检索语句,使用通用的停用词表对初始检索中的词进行过滤,保留有意义的检索词;使用语义块模型对词汇进行语义向量表示;在语义向量的基础上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的多个词,作为扩展检索词;使用初始检索中对应的扩展检索词在初始检索语句中进行替换,将新生成的检索词序列作为扩展检索语句;根据扩展检索词的排列组合得到不同表达形式的扩展检索语句。本发明改进了MAPRUDUCE的并行框架,更好地适应文本数据挖掘的需要;并且针对社交文本的不规范特点,利用语义向量对文本数据进行有效表示和分析,适用于各种规模的社交文本挖掘分析和计算。
Description
技术领域
本发明涉及大数据挖掘,特别涉及一种基于机器学习的大数据处理方法。
背景技术
大数据尤其是社交网络数据蕴涵着巨大的商业价值和社会价值,有效地 管理和利用这些数据、挖掘数据的价值对企业和个人将带来巨大的影响。另一 方面,大数据带来新的发展机遇的同时,也带来很多技术挑战。传统的信息处 理与计算技术已难以有效地应对大数据的处理。大规模社交网络数据的有效处 理面临数据的存储、算法分析等多个层面上的主要技术困难。巨大的数据量使 得传统的单机机器学***衡。此外还存在中文词缺乏语义表示的问题,使得传统方法不能完 全适用于对社交文本的分析和计算,因此难以实现信息的智能化、人机交互和 自动问答。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于机器学习的大 数据处理方法,包括:
给定一个检索语句,使用通用的停用词表对初始检索中的词进行过滤, 保留有意义的检索词;
使用语义块模型对词汇进行语义向量表示;
在语义向量的基础上针对每个初始检索词采用余弦相似度从其它词汇中 找出与之相似度最接近的多个词,作为扩展检索词;
使用初始检索中对应的扩展检索词在初始检索语句中进行替换,将新生 成的检索词序列作为扩展检索语句;
根据扩展检索词的排列组合得到不同表达形式的扩展检索语句。
优选地,所述使用语义块模型对词汇进行语义向量表示,进一步包括:
采用基于局部语境和全局语境的语义块向量,对文档数据集中所涉及到 的所有词语进行训练,并从模型参数中提取出用于表示这些词语的语义向量。
优选地,当给定一个检索语句时,经过停用词处理后,得到一个包含关 键初始检索词的序列,表示为:
Q=(q1,q2,…,qt)
其中,qi表示序列中依次出现的词语,并且存在相对应的语义向量;
使用余弦相似度将每一个初始检索词的语义向量与词典中其它的语义向 量做相似度计算,并将计算结果降序排列,取出相似度最高的m个语义向量对 应的词语;将这m个词作为的检索扩展词,即:
Pi={pi1,pi2,…pim}
其中,pim表示根据初始检索词qi的语义所扩展得到的与其语义相近的第 m个检索扩展词,集合Pi中的每一个检索扩展词都可以作为初始检索词qi的替 换词;即初始检索语句可以通过替换其任何初始检索词来形成新的检索语句, 即:
Q0=(t1,t2,…,tt)
其中,ti∈{qi,pi1,pi2,…pim},表示新的检索语句中第i个位置的检索词;
优选地,得到多个文档文本后,将每个文本分解为语句;以标点分隔 符,对所有文档中的语句进行切分操作,将所有语句作为一个新的检索库;
对摘要进行检索:第一次检索采用与文档检索中相同的检索扩展检索, 使用语义向量扩展词组成的扩展检索语句通过预定义搜索引擎工具对语句进行 检索,得到语句的排序结果RankE;
第二次检索采用文本表示模型,将检索语句作为目标文本,检索库中的 语句作为待比较文本,并分别对所有文本进行语义向量,并计算目标文本与待 比较文本之间的相似度,得到相似度的排序结果RankS;
通过线性组合的方式,综合两次排序结果,得到最终的重排序结果:
Rank=α×RankEU+(1-α)×RankSU
其中,RankEU和RankSU分别表示RankE和RankS归一化后的排序得分, α为线性组合参数。
本发明相比现有技术,具有以下优点:
本发明提出了一种基于机器学习的大数据处理方法,从进程管理和缓存管 理角度改进了MAPRUDUCE的并行框架,更好地适应文本数据挖掘的需要; 并且针对社交文本的不规范特点,利用语义向量对文本数据进行有效表示和分 析,适用于各种规模的社交文本挖掘分析和计算。
附图说明
图1是根据本发明实施例的基于机器学习的大数据处理方法的流程图。
具体实施方式
下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详 细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发 明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在 下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的 而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利 要求书实现本发明。
本发明的一方面提供了一种基于机器学习的大数据处理方法。图1是根据 本发明实施例的基于机器学习的大数据处理方法流程图。
本发明首先建立Map/Reduce并行计算环境。在执行文本并行数据分析业 务之前,首先向云端资源管理器申请计算节点,为单个业务分配的所有节点将 共同组成业务集。为了将各个节点上独立运行的文本挖掘进程组织为并行程 序,对程序的代码进行修改,将主函数修改为可被各并行进程执行的函数。在 业务集的每一个节点之上启动一个文本挖掘并行进程,ID为0的进程被选择成 为主进程,其余进程作为分进程。主进程维护的文档元数据缓存,分进程维护 的本地文档缓存以及分进程所开启的工作线程和数据线程。
为克服进程执行中可能遇到的性能瓶颈,在进程管理器调度执行业务的 Map/Reduce进程之前,首先调度并执行文档初始化进程。具体地,当业务初始 化完成之后,进程管理器等待一轮心跳通信的时间周期,以获知某个进程管理 器有空闲的Map/Reduce时隙并且该进程管理器向进程管理器请求执行进程。 当接到该心跳信息之后,进程管理器将调度该文档初始化进程到该进程管理器 上执行。对应的进程管理器负责执行文档初始化进程,并在执行过程中通过周 期性的心跳通信向进程管理器汇报该进程的状态直至进程完成。
对于主进程,一旦启动运行,首先初始化一个散列表作为文档元数据缓 存,散列表用于存储一系列记录文档文件信息的key-value对。每一个key- value对中,key值为文件名,而value为一个元数据对象。将文件划分为相同 大小的数据块存储在缓存中。元数据对象中记录文件的大小、存储该文件数据 块的各个分进程以及所有数据块在各个分进程管理的文档缓存中的位置。主进 程将启动工作线程等待来自分进程的文本检索请求。
如果检索请求的文件已经存在于云端缓存中,则工作线程将文件的元数 据对象发送给分进程,而分进程将接收到的对象存入本地缓存中以方便后续使 用。主进程记录每个文档元数据对象被哪些分进程缓存,以便当该文件被从云 端缓存中删除时,通知它们无效相应的文档元数据对象。
如果请求的文件还没被缓存,工作线程首先从云端缓存中申请足够的空 间并生成文档元数据对象,然后通知负责缓存该文件数据块的各个分进程将相 应数据块加载到各自本地文档缓存中。最后工作线程将元数据对象发送给请求 进程并记录存储该元数据的分进程ID。当从云端缓存中申请存储空间时,如果 剩余空间不足,工作线程删除最久未访问的文件,删除文件的元数据的同时通 知相应的分进程。
本地文档缓存存储了各并行进程所共享文档的数据块。分进程在启动后 首先初始化一个本地文档缓存并申请连续的内存区域用于构建缓存。本发明基 于并行远程内存访问模式来构建云端缓存,各个分进程申请的内存区域被指定 为允许远程访问的窗口,同属于一个并行程序的所有进程和所属线程允许直接 访问这些内存窗口。
所述工作线程调用修改过的并行分析程序主函数。当执行程序的主函数 时,工作线程从已建立的云端缓存中读取共享数据。分析工作线程的每一次数 据访问,如果要访问的是共享文件,则将请求转发给数据线程。数据线程将从 分布式内存缓存中获取相应的数据并将其写入指定的地址,在这个过程中数据 线程作为工作线程的I/O代理。
当被指示读取共享文件的某一部分数据时,数据线程首先查找本地的文 档元数据缓存以便获得相应文档的详细信息。如果未从本地缓存中获得相应文 件的元数据,则询问主进程的工作线程以获得元数据并将其存储在本地。通过 获取的元数据,数据线程将获得存储有相应数据块的分进程,结合工作线程的 请求信息,数据线程将通过远程内存访问发起对相应分进程维护的内存窗口的 访问。数据线程将获得的数据按照预设机制存储到工作线程指定的内存地址。 当所有的工作线程执行完主函数,文档元数据缓存、各个节点上的本地文档缓 存以及内存缓存将被释放。
采用挂载分布式内存缓存的文件***,将与每个节点上的数据线程共同 合作,完成对分布式缓存数据的读取。文件***与数据线程通过套接字进行通 信。如果程序尝试读取一个缓存内的共享文件,其与数据线程的交互过程为: 文件***的内核模块获取并转发请求,运行于用户空间的文件***接收运行于 内核态的文件内核模块发送的请求。产生一个记录,该记录包含发起调用的线 程的ID号,数据的目的地址,目标文件名,目标数据在文件中的偏移以及目 标数据的大小。文件***将数据请求转发给数据线程。数据线程首先检查发起 数据请求的线程是否是工作线程或工作线程启动的线程。如果是,数据线程将 从记录中解析出需要的信息并从云端缓存中读取数据。当收到数据读取请求之 后,数据线程从云端缓存中读取相应的数据并发送给文件***。文件***将接 收到的数据从用户空间发送到运行于内核空间的文件内核模块。最后文件内核 模块将数据从内核空间拷贝到指定的用户空间地址。
本发明采用以下主从并行训练框架,并基于该框架实现BP算法的并行 化。主控节点协同调度整个训练过程。训练过程在n个训练节点上进行,每个 训练节点的内存中存放本地训练数据子集。训练开始前,训练数据集被切分成 若干个子集并被载入到训练节点的内存中。每个训练节点包含完整的神经网 络,并且负责本地训练数据子集的训练。主控节点和训练节点先各自完成初始 化。初始化完成后,主控节点将广播初始模型参数W到所有训练节点。当接 收到W之后,每个训练节点就开始基于本地训练数据子集进行模型训练。本地训练过程主要包括对每个样本执行前向计算和后向训练,并累加每个样本训 练得出的模型偏差Δwi当训练节点结束本地训练进程后,将Δwi发送到主控节 点。在主控节点端,接收到所有训练节点发送Δwi的后,将所有的累加至上一 轮的W整体更新模型参数。每轮训练结束后,主控节点还检查是否达到训练 终止条件。如果达到,将终止整个训练工作,否则继续开始下一轮训练。
对于已训练数据的存储管理,本发明采用HBase存储大规模训练数据 集。训练数据集以数据库表的形式组织存放在HBase中,每个样本是表中的一 行,样本的编号是该行的行键,样本的数据内容存在该行的内容字段中。底层 物理存储方式上,整个训练数据集以多个分片的形式分布式存储在集群上,并 支持并发访问。每个训练节点设置本地缓存,可将对应的训练数据子集载入到 本地内存或磁盘中。当训练子集不能全部放置在内存中时,训练节点也将其部 分放在本地磁盘中。
进一步地,还可以使用上述BP神经网络建立节点性能测量之间的关系, 最终训练得到的网络作为性能以及能耗模型。定义模型使用的输入参数向量 x=[x1,x2,x3…xnx],测试空间为所有参数可能值的交叉乘积,测量的执行时间或 能耗为y。采样集合I/O操作的执行时间以及能耗时,对测试空间中的采样点 xj(为每一个输入参数指定一个值),测量得到的结果为yj(操作的能耗或执行时 间)。从参数设置空间选取一定数量的采样点,经过测量获得采样测试集。
将测试集分为训练集和验证集,训练集包含ny个点。神经网络的输入为 可量化描述的CPU频率、操作规模、数据集大小以及优化参数的值,输出为 执行时间或能耗。当结束训练时,得到描述特定输入向量与最终的能耗以及执 行时间之间的关系的针对某特定模式的集合I/O操作的神经网络。在验证阶 段,随机将训练集划分为k个相同大小的子集,并使用k-l个子集产生l个模 型,剩下的l个子集用于验证。因此将共产生k个模型,并选择验证时误差最 小的作为最终模型。最终拟合的模型为y=f(x1,x2,x3…xnx)
性能以及能耗模型的多目标优化,本发明描述为:
min[f1(x),f2(x),…,fm(x)]
lb≤x≤ub
fi(x)为待优化的目标函数;x为变量向量;lb和ub分别为变量x的下限 约束和上限约束。
基于上述并行计算环境的总体结构,本发明将语义向量引入文本挖掘和 扩展中,文档数据挖掘过程总体为:
Stepl:给定一个检索语句,使用通用的停用词表对初始检索中的词进行 过滤,仅保留有意义的检索词;
Step2:使用语义块模型对词汇进行语义向量表示;在语义向量的基础之 上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的 m个词,作为扩展检索词;
作为查询扩展的前提条件,首先采用基于局部语境和全局语境的语义块 向量,对文档数据集中所涉及到的所有词语进行训练,并从模型参数中提取出 用于表示这些词语的语义向量。在给定一个检索语句时,经过停用词处理后, 得到一个包含关键初始检索词的序列,即:
Q=(q1,q2,…,qt)
其中,qi表示序列中依次出现的词语,并且存在相对应的语义向量。使用 余弦相似度将每一个初始检索词的语义向量与词典中其它的语义向量做相似度 计算,并将计算结果降序排列,取出相似度最高的m个语义向量对应的词语。 将这m个词作为的检索扩展词,即:
Pi={pi1,pi2,…pim}
其中,pim表示根据初始检索词qi的语义所扩展得到的与其语义相近的第 m个检索扩展词,集合Pi中的每一个检索扩展词都可以作为初始检索词qi的替 换词。即初始检索语句可以通过替换其任何初始检索词来形成新的检索语句, 即:
Q0=(t1,t2,…,tt)
其中,ti∈{qi,pi1,pi2,…pim},表示新的检索语句中第i个位置的检索词;
Step3:使用初始检索中对应的扩展检索词在初始检索语句中进行替换, 将新生成的检索词序列作为扩展检索语句;根据扩展检索词的排列组合得到不 同表达形式的扩展检索语句;
Step4:将文本向量模型应用于文档摘要检索,具体过程为:
4.1得到多个文档文本后,将每个文本分解为语句。以标点分隔符,对所 有文档中的语句进行切分操作,将所有语句作为一个新的检索库;
4.2:对摘要进行检索,第一次检索采用与文档检索中相同的检索扩展检 索,使用语义向量扩展词组成的扩展检索语句通过预定义搜索引擎工具对语句 进行检索,得到语句的排序结果RankE;第二次检索采用文本表示模型,将检 索语句作为目标文本,检索库中的语句作为待比较文本,并分别对所有文本进 行语义向量,并计算目标文本与待比较文本之间的相似度,得到相似度的排序 结果RankS。
4.3:通过线性组合的方式,综合步骤4.2中得到的两次排序结果,得到 最终的重排序结果:
Rank=α×RankEU+(1-α)×RankSU
其中,RankEU和RankSU分别表示RankE和RankS归一化后的排序得分, α为线性组合参数。
在排序问题上,考虑时间因素及局部语义的全局相关性,在语句所构成 的语义集合之间搜索出最短路径作为排序结果。在文档集合中,在每篇文档选 出候选的语句。根据标点符号对文档进行分句。然后,进行语句过滤。在向量 空间模型中,语句被表示为k维向量,其中词的总数为k。用逆向文档模型计 算每个词的权值,两个语句的相似度可以利用两个向量的余弦相似度求得。
整个文档集合中所有语句进行聚类,得到整个文档集合中所有语义集合 后,每个簇中相似度高于预定义最高值的语句进行去重处理。在每个语义集合 中选择一个语句向量与语义中心向量计算相似度,将整个文档向量的算术平均 值作为语义中心向量。
步骤1:读入N个语义集合间的距离dxy,其中x,y∈[1,N];初始化N 个语义集合的语义矩阵,该语义矩阵每行和每列只有一个1,代表语义集合的 输出次序,其余元素为0。
步骤2:神经网络Uxi(t)初始化,Uxi(t)=U0+Φxi,其中x,i∈[1,N],U0=1/2 Ub ln(N-1)(N为局部语义集合的总个数),Ub为预设权值,Φxi是区间(-1,+1) 的随机数。
步骤3:采用动态方程计算
其中,A和D为预设权值;
步骤4:通过欧拉运算得到Uxi(t+1):
步骤5:迭代结束后将Vx,i(t)代入矩阵更新函数:
以网络达到稳定状态时各个神经元的状态对应语义矩阵的值,各个语义 集合间的距离作为约束信息决定各个神经元之间的连接强度。通过网络演变得 到最优解,即语义矩阵最短路径条件下的顺序。
其中,基于局部语境和全局语境的语义块向量模型中,所述局部语境是 指语义块所在的有序字符串,即该语义块之前的字符串,或者语义块之后的字 符串,也可以是语义块前后的字符串。全局语境是指语义块序列所在的完整语 义段落。通过预测语义块和其语境所组成的文本摘要或段落的内容是否符合其 语境内容的有效性,从而完成语义学习。
由两个神经网络分别执行局部和全局语境的语义计算,其输入分别为语 义块的局部语境字符串向量和全局语境向量。两个神经网络均只有一个输出节 点,整个模型的输出则是两个神经网络通过计算得到的输出值之和,输出值表 示该语义块在其局部语境和全局语境中的符合程度,并用于接下来的模型参数 训练。
对于文档中的语义块,设定其附近的m个字符作为其局部语境s。在本发 明中s取语义块所在位置之前的m个语义块所组成的字符串;而这个文本段落 作为其全局语境s。由两部分语境所组成的输入(s,d),形成了基于局部和全局 语境的正样本。将上述局部语境中的语义块随机替换为另一个语义块,使其成 为一个非自然序列sw。将所述非自然序列与全局语境所组成的输入(sw,d)作为负 样本。
神经网络的输入层为局部语境s或sw的向量,输出层为一个节点值的输 出。本发明设定每个语义块均由一个n维实数向量来表示,初始向量值为随机 生成,则局部语境由m个n维实数向量组成,将每个语义块的实数向量依次联 结起来构成该神经网络的输入特征向量。经过神经网络模型的计算。全局语境 的语义计算采用输入层、隐藏层和输出层神经网络来完成,输入层由语义块所 在的段落d来表示。如果d由k个语义块构成,则全局的特征则有全部语义块 的向量加权平均值来表示,即:
其中,di表示全局语境中第i个语义块。经过神经网络计算,从该网络的 输出层得到一个输出值,表示该全局语境对应的语义块的记分。
将该语义块对应的局部语境和全局语境语义计算所得到的记分相加,即 得到了模型最终的计算记分Score(s,d)或者Score(sw,d)。
定义二者的差值为ΔScore,即:
ΔScore=Score(s,d)-Score(sw,d)
如果ΔScore超过预设相关阈值T,则表示语义块的向量的不可替代性, 如果ΔScore小于阈值T,则将两者差值计算为损失值costs,d,即:
costs,d=T-ΔScore
最终将损失函数表示为:
其中,S表示所有正样本的集合,D表示所有文本段落的集合。寻找最优 的模型参数和语义块向量使得Cost值达到最小。
对于局部语境的计算,设输入层数据为s,即维度为m×n的局部语境特 征向量,从输入层节点到首个隐藏层h1节点的权值是W1和b1,则首个隐藏层 h1的节点输出值为:
h1=tanh(W1×s+b1)
其中,tanh为神经网络的非线性激活函数。
设首个隐藏层h1节点到第二个隐藏层h2节点的权值为W2和b2,则第二 个隐藏层h2的节点输出值为:
h2=tanh(W2×s+b2)
设第二个隐藏层h2节点到输出层节点的权值为W3和b3,则局部语境神 经网络的计算得分为:
ScoreL(s)=W3×s+b3
全局语境神经网络的输入层数据是该语义块的向量与全局语境的向量的 联结,记sg=[send,g]。其中,send是局部语境中的最后一个语义块,即sg是维度 为2n的特征向量,则全局语境神经网络计算得分ScoreG过程为:
其中W1 g和为输入层节点到隐藏层h节点的权值,W2 g和为输出层节 点到隐藏层h节点的权值,通过将局部语境和全局语境神经网络计算的输出得 分相加,得到整个模型的计算输出,即:
Score(s,d)=ScoreG(s,d)+ScoreL(s)
对于以上过程涉及的参数集合:
θ=[W1,W2,W3,b1,b2,b3,W1 g,b1 g,W2 g,b2 g,L]
其中,L是所有文本段落中包含的全部语义块的向量集合,选定语义块向 量的维度常量,同时采用共轭梯度法作为参数的学习方法寻找模型的最优参 数,使得损失函数值Cost最小。
为计算文本之间相似度,将文本转化为含有语义的特征向量,设分词后 文本中包含有m个词,本发明将其中第i个词用一个二元组来表示:
wdi=(indexi,vectori)
vectori=L×bk
其中,indexi表示第i个词出现在词典中的位置序号,vectori表示第i个 词的语义向量。其中vectori相当于从整个词向量L中的一个映射,bk表示映射 向量。由此可得到初始文本的初始向量化表示:
D=(wdi,wd2,...,wdm)
然后将每个文本由相同维度的特征向量来表示:
其中,m1表示目标文本中词的数量,η表示目标文本中每个词的权值。 以上过程是对目标文本中出现的所有词向量进行平均值计算,进而得到与词向 量维度相同的用来表示文本特征的向量。
对于待比较文本,为评价它与目标文本的相似程度,增加与目标文本中 相同的权值,本发明采用带权值的均值方法计算待比较文本的向量:
其中,δ表示同时出现的词的权值增加的幅度,indexi∈(s1∩s2)表示两个文 本中同时出现的词的序号,表示待比较文本中没有在目 标文本中出现的词的序号,m2是待比较文本中词的数量。
由此得到了目标文本的向量Vt=(vti,vt2,...,vtn)和待比较文本的向量 Vc=(vci,vc2,...,vcn),且它们的向量维度与词向量维度相同,两个文本的向量 在维度上保持一致。这两个向量既保留了文本的语义信息,又完成了相似度文 本匹配。优选地,采用以下相似度测量来计算目标文本与待比较文本的语义相 似度:
综上所述,本发明提出了一种基于机器学习的大数据处理方法,从进程管 理和缓存管理角度改进了MAPRUDUCE的并行框架,更好地适应文本数据挖 掘的需要;并且针对社交文本的不规范特点,利用语义向量对文本数据进行有 效表示和分析,适用于各种规模的社交文本挖掘分析和计算。
显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以 用通用的计算***来实现,它们可以集中在单个的计算***上,或者分布在多 个计算***所组成的网络上,可选地,它们可以用计算***可执行的程序代码 来实现,从而,可以将它们存储在存储***中由计算***来执行。这样,本发 明不限制于任何特定的硬件和软件结合。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本 发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围 的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围 之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或 者这种范围和边界的等同形式内的全部变化和修改例。
Claims (4)
1.一种基于机器学习的大数据处理方法,其特征在于,包括:
给定一个检索语句,使用通用的停用词表对初始检索中的词进行过滤,保留有意义的检索词;
使用语义块模型对词汇进行语义向量表示;
在语义向量的基础上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的多个词,作为扩展检索词;
使用初始检索中对应的扩展检索词在初始检索语句中进行替换,将新生成的检索词序列作为扩展检索语句;
根据扩展检索词的排列组合得到不同表达形式的扩展检索语句。
2.根据权利要求1所述的方法,其特征在于,所述使用语义块模型对词汇进行语义向量表示,进一步包括:
采用基于局部语境和全局语境的语义块向量,对文档数据集中所涉及到的所有词语进行训练,并从模型参数中提取出用于表示这些词语的语义向量。
3.根据权利要求2所述的方法,其特征在于,当给定一个检索语句时,经过停用词处理后,得到一个包含关键初始检索词的序列,表示为:
Q=(q1,q2,…,qt)
其中,qi表示序列中依次出现的词语,并且存在相对应的语义向量;
使用余弦相似度将每一个初始检索词的语义向量与词典中其它的语义向量做相似度计算,并将计算结果降序排列,取出相似度最高的m个语义向量对应的词语;将这m个词作为的检索扩展词,即:
Pi={pi1,pi2,…pim}
其中,pim表示根据初始检索词qi的语义所扩展得到的与其语义相近的第m个检索扩展词,集合Pi中的每一个检索扩展词都可以作为初始检索词qi的替换词;即初始检索语句可以通过替换其任何初始检索词来形成新的检索语句,即:
Q0=(t1,t2,…,tt)
其中,ti∈{qi,pi1,pi2,…pim},表示新的检索语句中第i个位置的检索词;
4.根据权利要求1所述的方法,其特征在于,还包括:
得到多个文档文本后,将每个文本分解为语句;以标点分隔符,对所有文档中的语句进行切分操作,将所有语句作为一个新的检索库;
对摘要进行检索:第一次检索采用与文档检索中相同的检索扩展检索,使用语义向量扩展词组成的扩展检索语句通过预定义搜索引擎工具对语句进行检索,得到语句的排序结果RankE;
第二次检索采用文本表示模型,将检索语句作为目标文本,检索库中的语句作为待比较文本,并分别对所有文本进行语义向量,并计算目标文本与待比较文本之间的相似度,得到相似度的排序结果RankS;
通过线性组合的方式,综合两次排序结果,得到最终的重排序结果:
Rank=α×RankEU+(1-α)×RankSU
其中,RankEU和RankSU分别表示RankE和RankS归一化后的排序得分,α为线性组合参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811039771.6A CN109214004B (zh) | 2018-09-06 | 2018-09-06 | 基于机器学习的大数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811039771.6A CN109214004B (zh) | 2018-09-06 | 2018-09-06 | 基于机器学习的大数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109214004A true CN109214004A (zh) | 2019-01-15 |
CN109214004B CN109214004B (zh) | 2019-11-05 |
Family
ID=64986472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811039771.6A Active CN109214004B (zh) | 2018-09-06 | 2018-09-06 | 基于机器学习的大数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109214004B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175268A (zh) * | 2019-04-19 | 2019-08-27 | 杭州电子科技大学 | 一种最长匹配资源映射方法 |
CN110489526A (zh) * | 2019-08-13 | 2019-11-22 | 上海市儿童医院 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
CN111259994A (zh) * | 2020-05-07 | 2020-06-09 | 上海飞旗网络技术股份有限公司 | 一种基于时序特征学习的数据流分类方法及装置 |
CN112164393A (zh) * | 2020-10-10 | 2021-01-01 | 米奥兰特(浙江)网络科技有限公司 | 一种基于数据匹配的通信建立方法及装置 |
CN113282702A (zh) * | 2021-03-16 | 2021-08-20 | 广东医通软件有限公司 | 一种智能检索方法及检索*** |
CN113343708A (zh) * | 2021-06-11 | 2021-09-03 | 北京声智科技有限公司 | 一种基于语义实现语句泛化的方法和装置 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索*** |
CN103678576A (zh) * | 2013-12-11 | 2014-03-26 | 华中师范大学 | 基于动态语义分析的全文检索*** |
CN104239513A (zh) * | 2014-09-16 | 2014-12-24 | 西安电子科技大学 | 一种面向领域数据的语义检索方法 |
CN105117487A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
CN107562831A (zh) * | 2017-08-23 | 2018-01-09 | 中国软件与技术服务股份有限公司 | 一种基于全文检索的精确查找方法 |
-
2018
- 2018-09-06 CN CN201811039771.6A patent/CN109214004B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索*** |
CN103678576A (zh) * | 2013-12-11 | 2014-03-26 | 华中师范大学 | 基于动态语义分析的全文检索*** |
CN104239513A (zh) * | 2014-09-16 | 2014-12-24 | 西安电子科技大学 | 一种面向领域数据的语义检索方法 |
CN105117487A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
CN107562831A (zh) * | 2017-08-23 | 2018-01-09 | 中国软件与技术服务股份有限公司 | 一种基于全文检索的精确查找方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175268A (zh) * | 2019-04-19 | 2019-08-27 | 杭州电子科技大学 | 一种最长匹配资源映射方法 |
CN110175268B (zh) * | 2019-04-19 | 2020-01-17 | 杭州电子科技大学 | 一种最长匹配资源映射方法 |
CN110489526A (zh) * | 2019-08-13 | 2019-11-22 | 上海市儿童医院 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
CN111259994A (zh) * | 2020-05-07 | 2020-06-09 | 上海飞旗网络技术股份有限公司 | 一种基于时序特征学习的数据流分类方法及装置 |
CN111259994B (zh) * | 2020-05-07 | 2020-07-17 | 上海飞旗网络技术股份有限公司 | 一种基于时序特征学习的数据流分类方法及装置 |
CN112164393A (zh) * | 2020-10-10 | 2021-01-01 | 米奥兰特(浙江)网络科技有限公司 | 一种基于数据匹配的通信建立方法及装置 |
CN112164393B (zh) * | 2020-10-10 | 2021-08-13 | 米奥兰特(浙江)网络科技有限公司 | 一种基于数据匹配的通信建立方法及装置 |
CN113282702A (zh) * | 2021-03-16 | 2021-08-20 | 广东医通软件有限公司 | 一种智能检索方法及检索*** |
CN113282702B (zh) * | 2021-03-16 | 2023-12-19 | 广东医通软件有限公司 | 一种智能检索方法及检索*** |
CN113343708A (zh) * | 2021-06-11 | 2021-09-03 | 北京声智科技有限公司 | 一种基于语义实现语句泛化的方法和装置 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
CN117743838B (zh) * | 2024-02-20 | 2024-04-30 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109214004B (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109214004B (zh) | 基于机器学习的大数据处理方法 | |
CN109255031B (zh) | 基于知识图谱的数据处理方法 | |
CN109241298A (zh) | 语义数据存储调度方法 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN113761218B (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
CN109829155A (zh) | 关键词的确定方法、自动评分方法、装置、设备及介质 | |
CN107644011A (zh) | 用于细粒度医疗实体提取的***和方法 | |
US11328125B2 (en) | Method and server for text classification using multi-task learning | |
CN110427629A (zh) | 半监督文本简化模型训练方法和*** | |
Le et al. | Neural stored-program memory | |
WO2019001359A1 (zh) | 数据处理方法和数据处理装置 | |
US20200334410A1 (en) | Encoding textual information for text analysis | |
CN111553159A (zh) | 一种问句生成方法及*** | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN115269861A (zh) | 基于生成式对抗模仿学习的强化学习知识图谱推理方法 | |
CN113743453A (zh) | 一种基于随机森林的人口数量预测方法 | |
CN110222737A (zh) | 一种基于长短时记忆网络的搜索引擎用户满意度评估方法 | |
CN113515699A (zh) | 信息推荐方法及装置、计算机可读存储介质、处理器 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
KR20200131736A (ko) | 다중작업 학습을 이용한 텍스트 분류 방법 및 서버 | |
JP2023147236A (ja) | 説明により強化された機械学習パイプライン | |
Lin et al. | Robust educational dialogue act classifiers with low-resource and imbalanced datasets | |
Bai et al. | Gated character-aware convolutional neural network for effective automated essay scoring | |
CN109460449A (zh) | 并行化数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20191009 Address after: 550000 Guiyang Guiyang National High-tech Industrial Development Zone, Guiyang City, Guizhou Province, 357 Qianlingshan Road, Defu Center A5 Building 2 Unit 17, Layer 1-6 Applicant after: Guizhou Aerospace Cloud Network Technology Co., Ltd. Address before: 510000 A30 house 68 (1), Nanxiang Road, Whampoa District, Guangzhou, Guangdong. Applicant before: Guangzhou Zhi Hong science and Technology Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |