CN105825415A - 一种科技资源供需对接方法 - Google Patents
一种科技资源供需对接方法 Download PDFInfo
- Publication number
- CN105825415A CN105825415A CN201610146144.7A CN201610146144A CN105825415A CN 105825415 A CN105825415 A CN 105825415A CN 201610146144 A CN201610146144 A CN 201610146144A CN 105825415 A CN105825415 A CN 105825415A
- Authority
- CN
- China
- Prior art keywords
- demand
- supply
- term vector
- vocabulary
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0605—Supply or demand aggregation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种科技资源供需对接方法,该方法对需方的需求进行重定义,需方选择是否采用重定义后的需求;分别将需方采用后需求和供方提供资源进行信息抓取,保存为相应的文本文件并生成文本词向量;将需求的文本词向量与供方资源的文本词向量进行相似度比较,为需方推荐相似度较高的供方资源,从而实现供需对接。
Description
技术领域
本发明涉及科技资源管理技术领域,更具体地,涉及一种科技资源供需对接方法。
背景技术
为解决现阶段科技资源分配不均衡现状,本专利提出面向科技资源的供需对接方法,运用于科技资源交易web平台中实现资源的供需匹配,最大程度地共享供方资源,为科技需求者提供便利。
在科技资源交易web平台中,由供方发布可提供共享的科技资源,这些资源含盖了大型仪器、种质资源、实验动物、科研基地、科技文献、科学数据、科研成果等多种类型,而每个资源也可以存在多名供方单位,在如此庞大的数据量中寻找需方所需的的资源,对效率与精确性都是很高的考验。而需方作为资源的使用方,其描述资源的信息往往与供方角度不一致,甚至很难明确自己想要的资源到底是哪一类别,并且,每一个需方描述事件的角度也不一样,有些需方会用功能角度描述,有些会从资源的特征进行描述,因此,实现资源的供需精准对接,不仅要对供方提供的资源进行智能的归类,也要挖掘需方的真正需求,才能实现科技资源的精准供需对接;现阶段已存在供需匹配的***或平台,然而,尚未有对科技资源的供需对接进行的研究。
发明内容
本发明提供一种一种科技资源供需对接方法,该方法可提高科技资源供需双方对接的匹配效果。
为了达到上述技术效果,本发明的技术方案如下:
一种科技资源供需对接方法,包括以下步骤:
S1:对需方的需求进行重定义,需方选择是否采用重定义后的需求;
S2:分别将需方采用后需求和供方提供资源进行信息抓取,保存为相应的文本文件并生成文本词向量;
S3:将需求的文本词向量与供方资源的文本词向量进行相似度比较,为需方推荐相似度较高的供方资源,从而实现供需对接。
进一步地,所述步骤S1中对需方的需求进行重定义的具体过程如下:
S21:将每次供需对接的过程中的检索、交易、资源发布均形成一条数据记录,以文本的形式存储Ti,记录数为n,形成数据集Dset={T1,T2,...Tn}(n>0);
S22:将数据Ti进行中文分词,分词后去除停用词,整合数据集Dset的所有数据,计算词频,保留重复出现3次以上的需求词汇,形成词数据集W={W1,W2,...Wi...Wn},将W中的每个词映射为k维实数向量生成Wi′={Wi1,Wi2,...Wik},形成词向量库Wset′={W1′,W2′,...Wi′...Wn′},其中0<i<n,k>0,k为依经验设置的模型参数;
S23:输入需方需求并判断输入是否结束;
S24:当需求输入结束时,读取输入词汇为R,对该词汇进行向量映射形成R={R1,R2,...Rk};
S25:对词向量库中的词汇根据S22中的词频进行冒泡排序,频率高的词汇在前生成V={V1,V2,...Vi...Vn},其中,Vi={Vi1,Vi2,...Vik};
S26:比较R={R1,R2,...Rk}与词向量库中的Vi={Vi1,Vi2,...Vik}进行欧式距离运算,选择距离最小的词汇作为相似词,返回向量Vj对应的词汇Wj。
进一步地,所述步骤S2中生成文本词向量的具体过程如下:
分别将需方采用后需求和供方提供资源进行信息抓取,保存为相应的文本文件,对这些文本文件进行清洗和中文分词,然后再进行关键字提取,从而形成文本词向量。
进一步地,所述步骤S3中将需求的文本词向量与供方资源的文本词向量进行相似度比较的方式是进行向量余弦距离的相似度比较。
进一步地,若不采用重定义后的需求则直接用重定义前的需求进行供需对接,当对接不到资源或对接到的资源记录少于5项时,直接读取S26的词汇Wj并重定义再进行需求对接,将得到的对接结果作为补充的对接结果。
进一步地,供方资源利用每次供需对接的历史记录采用隐式分类技术进行不同的主题的分类,在供需对接的过程中,供方会给需方提供统一主题下的多个不同资源。
与现有技术相比,本发明技术方案的有益效果是:
1、将待解决需求的文本与供方资源的文本信息进行中文分词、关键字提取等方法形成文本词向量,通过向量余弦距离进行相似度比较,为待解决需求推荐相似度较高的供方资源。
2、提出需求重定义算法,对需方的需示描述进行重定义,包括两个部分,第一,在需方输入需求时,根据输入内容进行实时推荐,需方如果觉得合理,可采纳重定义后的需求(主要是词的重定义);第二,需方输入需求完毕后,重定义需求,然后再进行供需对接,提高匹配效果。
3、对供方资源进行按主题的分类,在供需对接的过程中,供方会给需方提供统一主题下的多个不同资源。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种科技资源供需对接方法,包括以下步骤:
S1:对需方的需求进行重定义,需方选择是否采用重定义后的需求;
S2:分别将需方采用后需求和供方提供资源进行信息抓取,保存为相应的文本文件并生成文本词向量;
S3:将需求的文本词向量与供方资源的文本词向量进行相似度比较,为需方推荐相似度较高的供方资源,从而实现供需对接。
进一步地,所述步骤S1中对需方的需求进行重定义的具体过程如下:
S21:将每次供需对接的过程中的检索、交易、资源发布均形成一条数据记录,以文本的形式存储Ti,记录数为n,形成数据集Dset={T1,T2,...Tn}(n>0);
S22:将数据Ti进行中文分词,分词后去除停用词,整合数据集Dset的所有数据,计算词频,保留重复出现3次以上的需求词汇,形成词数据集W={W1,W2,...Wi...Wn},将W中的每个词映射为k维实数向量生成Wi′={Wi1,Wi2,...Wik},形成词向量库Wset′={W1′,W2′,...Wi′...Wn′},其中0<i<n,k>0,k为依经验设置的模型参数;
S23:输入需方需求并判断输入是否结束;
S24:当需求输入结束时,读取输入词汇为R,对该词汇进行向量映射形成R={R1,R2,...Rk};
S25:对词向量库中的词汇根据S22中的词频进行冒泡排序,频率高的词汇在前生成V={V1,V2,...Vi...Vn},其中,Vi={Vi1,Vi2,...Vik};
S26:比较R={R1,R2,...Rk}与词向量库中的Vi={Vi1,Vi2,...Vik}进行欧式距离运算,选择距离最小的词汇作为相似词,返回向量Vj对应的词汇Wj。
步骤S2中生成文本词向量的具体过程如下:
分别将需方采用后需求和供方提供资源进行信息抓取,保存为相应的文本文件,对这些文本文件进行清洗和中文分词,然后再进行关键字提取,从而形成文本词向量。
步骤S3中将需求的文本词向量与供方资源的文本词向量进行相似度比较的方式是进行向量余弦距离的相似度比较。
若不采用重定义后的需求则直接用重定义前的需求进行供需对接,当对接不到资源或对接到的资源记录少于5项时,直接读取S26的词汇Wj并重定义再进行需求对接,将得到的对接结果作为补充的对接结果。
供方资源利用每次供需对接的历史记录采用隐式分类技术进行不同的主题的分类,在供需对接的过程中,供方会给需方提供统一主题下的多个不同资源。
本发明方法根据科技资源交互过程中出现的供需匹配程度不均现状,最大程度实现供需双方的资源对接,将待解决需求的文本与供方资源的文本信息进行中文分词、关键字提取等方法形成文本词向量,通过向量余弦距离进行相似度比较;对需方的需示描述进行重定义,在需方输入需求时,根据输入内容进行实时推荐,需方如果觉得合理,可采纳重定义后的需求(主要是词的重定义);需方输入需求完毕后,重定义需求,然后再进行供需对接,提高匹配效果为待解决需求推荐相似度较高的供方资源。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种科技资源供需对接方法,其特征在于,包括以下步骤:
S1:对需方的需求进行重定义,需方选择是否采用重定义后的需求;
S2:分别将需方采用后需求和供方提供资源进行信息抓取,保存为相应的文本文件并生成文本词向量;
S3:将需求的文本词向量与供方资源的文本词向量进行相似度比较,为需方推荐相似度较高的供方资源,从而实现供需对接。
2.根据权利要求1所述的科技资源供需对接方法,其特征在于,所述步骤S1中对需方的需求进行重定义的具体过程如下:
S21:将每次供需对接的过程中的检索、交易、资源发布均形成一条数据记录,以文本的形式存储Ti,记录数为n,形成数据集Dset={T1,T2,...Tn}(n>0);
S22:将数据Ti进行中文分词,分词后去除停用词,整合数据集Dset的所有数据,计算词频,保留重复出现3次以上的需求词汇,形成词数据集W={W1,W2,...Wi...Wn},将W中的每个词映射为k维实数向量生成Wi′={Wi1,Wi2,...Wik},形成词向量库Wset′={W1′,W2′,...Wi′...Wn′},其中0<i<n,k>0,k为依经验设置的模型参数;
S23:输入需方需求并判断输入是否结束;
S24:当需求输入结束时,读取输入词汇为R,对该词汇进行向量映射形成R={R1,R2,...Rk};
S25:对词向量库中的词汇根据S22中的词频进行冒泡排序,频率高的词汇在前生成V={V1,V2,...Vi...Vn},其中,Vi={Vi1,Vi2,...Vik};
S26:比较R={R1,R2,...Rk}与词向量库中的Vi={Vi1,Vi2,...Vik}进行欧式距离运算,选择距离最小的词汇作为相似词,返回向量Vj对应的词汇Wj。
3.根据权利要求1所述的科技资源供需对接方法,其特征在于,所述步骤S2中生成文本词向量的具体过程如下:
分别将需方采用后需求和供方提供资源进行信息抓取,保存为相应的文本文件,对这些文本文件进行清洗和中文分词,然后再进行关键字提取,从而形成文本词向量。
4.根据权利要求1所述的科技资源供需对接方法,其特征在于,所述步骤S3中将需求的文本词向量与供方资源的文本词向量进行相似度比较的方式是进行向量余弦距离的相似度比较。
5.根据权利要求2所述的科技资源供需对接方法,其特征在于,若不采用重定义后的需求则直接用重定义前的需求进行供需对接,当对接不到资源或对接到的资源记录少于5项时,直接读取S26的词汇Wj并重定义再进行需求对接,将得到的对接结果作为补充的对接结果。
6.根据权利要求1所述的科技资源供需对接方法,其特征在于,供方资源利用每次供需对接的历史记录采用隐式分类技术进行不同的主题的分类,在供需对接的过程中,供方会给需方提供统一主题下的多个不同资源。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610146144.7A CN105825415A (zh) | 2016-03-15 | 2016-03-15 | 一种科技资源供需对接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610146144.7A CN105825415A (zh) | 2016-03-15 | 2016-03-15 | 一种科技资源供需对接方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105825415A true CN105825415A (zh) | 2016-08-03 |
Family
ID=56987663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610146144.7A Pending CN105825415A (zh) | 2016-03-15 | 2016-03-15 | 一种科技资源供需对接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105825415A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682837A (zh) * | 2016-12-30 | 2017-05-17 | 大连工业大学 | 食品企业创新发展综合服务平台 |
CN109165283A (zh) * | 2018-08-20 | 2019-01-08 | 北京智能管家科技有限公司 | 资源推荐方法、装置、设备及存储介质 |
CN110097278A (zh) * | 2019-04-28 | 2019-08-06 | 广东省科技基础条件平台中心 | 一种科技资源智能共享融合训练***和应用*** |
CN115762200A (zh) * | 2022-11-02 | 2023-03-07 | 山东大学 | 车路协同环境下信号交叉口车道功能动态优化方法及*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100114561A1 (en) * | 2007-04-02 | 2010-05-06 | Syed Yasin | Latent metonymical analysis and indexing (lmai) |
CN102915335A (zh) * | 2012-09-17 | 2013-02-06 | 北京大学 | 基于用户操作记录和资源内容的信息关联方法 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
-
2016
- 2016-03-15 CN CN201610146144.7A patent/CN105825415A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100114561A1 (en) * | 2007-04-02 | 2010-05-06 | Syed Yasin | Latent metonymical analysis and indexing (lmai) |
CN102915335A (zh) * | 2012-09-17 | 2013-02-06 | 北京大学 | 基于用户操作记录和资源内容的信息关联方法 |
CN104376406A (zh) * | 2014-11-05 | 2015-02-25 | 上海计算机软件技术开发中心 | 一种基于大数据的企业创新资源管理与分析***和方法 |
Non-Patent Citations (1)
Title |
---|
陶启立: "基于语义的科技文档信息资源检索***的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682837A (zh) * | 2016-12-30 | 2017-05-17 | 大连工业大学 | 食品企业创新发展综合服务平台 |
CN109165283A (zh) * | 2018-08-20 | 2019-01-08 | 北京智能管家科技有限公司 | 资源推荐方法、装置、设备及存储介质 |
CN109165283B (zh) * | 2018-08-20 | 2021-12-28 | 北京如布科技有限公司 | 资源推荐方法、装置、设备及存储介质 |
CN110097278A (zh) * | 2019-04-28 | 2019-08-06 | 广东省科技基础条件平台中心 | 一种科技资源智能共享融合训练***和应用*** |
CN110097278B (zh) * | 2019-04-28 | 2021-06-08 | 广东省科技基础条件平台中心 | 一种科技资源智能共享融合训练***和应用*** |
CN115762200A (zh) * | 2022-11-02 | 2023-03-07 | 山东大学 | 车路协同环境下信号交叉口车道功能动态优化方法及*** |
CN115762200B (zh) * | 2022-11-02 | 2024-05-10 | 山东大学 | 车路协同环境下信号交叉口车道功能动态优化方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899304B (zh) | 命名实体识别方法及装置 | |
CN109657232A (zh) | 一种意图识别方法 | |
CN106599317B (zh) | 问答***的测试数据处理方法、装置及终端 | |
CN108595706A (zh) | 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置 | |
CN110019793A (zh) | 一种文本语义编码方法及装置 | |
CN105825415A (zh) | 一种科技资源供需对接方法 | |
CN109635077A (zh) | 文本相似度的计算方法、装置、电子设备及存储介质 | |
CN110147425A (zh) | 一种关键词提取方法、装置、计算机设备及存储介质 | |
CN106980620A (zh) | 一种对中文字串进行匹配的方法及装置 | |
CN105190645A (zh) | 将先前手写实例用于手写美化和其他应用 | |
CN114357117A (zh) | 事务信息查询方法、装置、计算机设备及存储介质 | |
CN113255328B (zh) | 语言模型的训练方法及应用方法 | |
CN109344396A (zh) | 文本识别方法、装置、及计算机设备 | |
JP2020119544A (ja) | 知識グラフにおけるデータモデルを取得する方法、装置、機器及び媒体 | |
CN111325022A (zh) | 识别层级地址的方法和装置 | |
CN105791446A (zh) | 一种民间借贷处理方法、装置及*** | |
WO2016175785A1 (en) | Topic identification based on functional summarization | |
JP2022088602A (ja) | テーブル生成方法、装置、電子機器、記憶媒体及びプログラム | |
CN108027809A (zh) | 基于深度学习的体设计的功能相关 | |
Moraitis et al. | Relative magnetic field line helicity | |
CN110134852A (zh) | 一种文档的去重方法、设备及可读介质 | |
Kim et al. | Construction of machine-labeled data for improving named entity recognition by transfer learning | |
CN105354182A (zh) | 获取相关数字资源的方法及使用其生成专题的方法及装置 | |
CN110532371A (zh) | 基于配置管理数据库的全文检索方法、装置与电子设备 | |
CN113505595A (zh) | 文本短语抽取方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160803 |
|
RJ01 | Rejection of invention patent application after publication |