CN105825415A

CN105825415A - 一种科技资源供需对接方法

Info

Publication number: CN105825415A
Application number: CN201610146144.7A
Authority: CN
Inventors: 林珠; 徐迪威; 方少亮; 李海威; 赵晓萌
Original assignee: Guangdong Science & Technology Infrastructure Center
Current assignee: Guangdong Science & Technology Infrastructure Center
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2016-08-03

Abstract

本发明提供一种科技资源供需对接方法，该方法对需方的需求进行重定义，需方选择是否采用重定义后的需求；分别将需方采用后需求和供方提供资源进行信息抓取，保存为相应的文本文件并生成文本词向量；将需求的文本词向量与供方资源的文本词向量进行相似度比较，为需方推荐相似度较高的供方资源，从而实现供需对接。

Description

一种科技资源供需对接方法

技术领域

本发明涉及科技资源管理技术领域，更具体地，涉及一种科技资源供需对接方法。

背景技术

为解决现阶段科技资源分配不均衡现状，本专利提出面向科技资源的供需对接方法，运用于科技资源交易web平台中实现资源的供需匹配，最大程度地共享供方资源，为科技需求者提供便利。

在科技资源交易web平台中，由供方发布可提供共享的科技资源，这些资源含盖了大型仪器、种质资源、实验动物、科研基地、科技文献、科学数据、科研成果等多种类型，而每个资源也可以存在多名供方单位，在如此庞大的数据量中寻找需方所需的的资源，对效率与精确性都是很高的考验。而需方作为资源的使用方，其描述资源的信息往往与供方角度不一致，甚至很难明确自己想要的资源到底是哪一类别，并且，每一个需方描述事件的角度也不一样，有些需方会用功能角度描述，有些会从资源的特征进行描述，因此，实现资源的供需精准对接，不仅要对供方提供的资源进行智能的归类，也要挖掘需方的真正需求，才能实现科技资源的精准供需对接；现阶段已存在供需匹配的***或平台，然而，尚未有对科技资源的供需对接进行的研究。

发明内容

本发明提供一种一种科技资源供需对接方法，该方法可提高科技资源供需双方对接的匹配效果。

为了达到上述技术效果，本发明的技术方案如下：

一种科技资源供需对接方法，包括以下步骤：

S1：对需方的需求进行重定义，需方选择是否采用重定义后的需求；

S2：分别将需方采用后需求和供方提供资源进行信息抓取，保存为相应的文本文件并生成文本词向量；

S3：将需求的文本词向量与供方资源的文本词向量进行相似度比较，为需方推荐相似度较高的供方资源，从而实现供需对接。

进一步地，所述步骤S1中对需方的需求进行重定义的具体过程如下：

S21：将每次供需对接的过程中的检索、交易、资源发布均形成一条数据记录，以文本的形式存储T_i，记录数为n，形成数据集D_set＝{T₁,T₂,...T_n}(n>0)；

S22：将数据T_i进行中文分词，分词后去除停用词，整合数据集D_set的所有数据，计算词频，保留重复出现3次以上的需求词汇，形成词数据集W＝{W₁,W₂,...W_i...W_n}，将W中的每个词映射为k维实数向量生成W_i′＝{W_i1,W_i2,...W_ik}，形成词向量库W_set′＝{W₁′,W₂′,...W_i′...W_n′}，其中0<i<n，k>0，k为依经验设置的模型参数；

S23：输入需方需求并判断输入是否结束；

S24：当需求输入结束时，读取输入词汇为R，对该词汇进行向量映射形成R＝{R₁,R₂,...R_k}；

S25：对词向量库中的词汇根据S22中的词频进行冒泡排序，频率高的词汇在前生成V＝{V₁,V₂,...V_i...V_n}，其中，Vi＝{V_i1,V_i2,...V_ik}；

S26：比较R＝{R₁,R₂,...R_k}与词向量库中的Vi＝{V_i1,V_i2,...V_ik}进行欧式距离运算，选择距离最小的词汇作为相似词，返回向量V_j对应的词汇W_j。

进一步地，所述步骤S2中生成文本词向量的具体过程如下：

分别将需方采用后需求和供方提供资源进行信息抓取，保存为相应的文本文件，对这些文本文件进行清洗和中文分词，然后再进行关键字提取，从而形成文本词向量。

进一步地，所述步骤S3中将需求的文本词向量与供方资源的文本词向量进行相似度比较的方式是进行向量余弦距离的相似度比较。

进一步地，若不采用重定义后的需求则直接用重定义前的需求进行供需对接，当对接不到资源或对接到的资源记录少于5项时，直接读取S26的词汇Wj并重定义再进行需求对接，将得到的对接结果作为补充的对接结果。

进一步地，供方资源利用每次供需对接的历史记录采用隐式分类技术进行不同的主题的分类，在供需对接的过程中，供方会给需方提供统一主题下的多个不同资源。

与现有技术相比，本发明技术方案的有益效果是：

1、将待解决需求的文本与供方资源的文本信息进行中文分词、关键字提取等方法形成文本词向量，通过向量余弦距离进行相似度比较，为待解决需求推荐相似度较高的供方资源。

2、提出需求重定义算法，对需方的需示描述进行重定义，包括两个部分，第一，在需方输入需求时，根据输入内容进行实时推荐，需方如果觉得合理，可采纳重定义后的需求(主要是词的重定义)；第二，需方输入需求完毕后，重定义需求，然后再进行供需对接，提高匹配效果。

3、对供方资源进行按主题的分类，在供需对接的过程中，供方会给需方提供统一主题下的多个不同资源。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种科技资源供需对接方法，包括以下步骤：

S23：输入需方需求并判断输入是否结束；

步骤S2中生成文本词向量的具体过程如下：

步骤S3中将需求的文本词向量与供方资源的文本词向量进行相似度比较的方式是进行向量余弦距离的相似度比较。

若不采用重定义后的需求则直接用重定义前的需求进行供需对接，当对接不到资源或对接到的资源记录少于5项时，直接读取S26的词汇Wj并重定义再进行需求对接，将得到的对接结果作为补充的对接结果。

供方资源利用每次供需对接的历史记录采用隐式分类技术进行不同的主题的分类，在供需对接的过程中，供方会给需方提供统一主题下的多个不同资源。

本发明方法根据科技资源交互过程中出现的供需匹配程度不均现状，最大程度实现供需双方的资源对接，将待解决需求的文本与供方资源的文本信息进行中文分词、关键字提取等方法形成文本词向量，通过向量余弦距离进行相似度比较；对需方的需示描述进行重定义，在需方输入需求时，根据输入内容进行实时推荐，需方如果觉得合理，可采纳重定义后的需求(主要是词的重定义)；需方输入需求完毕后，重定义需求，然后再进行供需对接，提高匹配效果为待解决需求推荐相似度较高的供方资源。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种科技资源供需对接方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的科技资源供需对接方法，其特征在于，所述步骤S1中对需方的需求进行重定义的具体过程如下：

S23：输入需方需求并判断输入是否结束；

3.根据权利要求1所述的科技资源供需对接方法，其特征在于，所述步骤S2中生成文本词向量的具体过程如下：

4.根据权利要求1所述的科技资源供需对接方法，其特征在于，所述步骤S3中将需求的文本词向量与供方资源的文本词向量进行相似度比较的方式是进行向量余弦距离的相似度比较。

5.根据权利要求2所述的科技资源供需对接方法，其特征在于，若不采用重定义后的需求则直接用重定义前的需求进行供需对接，当对接不到资源或对接到的资源记录少于5项时，直接读取S26的词汇Wj并重定义再进行需求对接，将得到的对接结果作为补充的对接结果。

6.根据权利要求1所述的科技资源供需对接方法，其特征在于，供方资源利用每次供需对接的历史记录采用隐式分类技术进行不同的主题的分类，在供需对接的过程中，供方会给需方提供统一主题下的多个不同资源。