CN112926295A - 模型推荐方法和装置 - Google Patents

模型推荐方法和装置 Download PDF

Info

Publication number
CN112926295A
CN112926295A CN202110338638.6A CN202110338638A CN112926295A CN 112926295 A CN112926295 A CN 112926295A CN 202110338638 A CN202110338638 A CN 202110338638A CN 112926295 A CN112926295 A CN 112926295A
Authority
CN
China
Prior art keywords
model
text
determining
information
demand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110338638.6A
Other languages
English (en)
Inventor
李婉华
沈丽忠
詹炜华
谢立东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110338638.6A priority Critical patent/CN112926295A/zh
Publication of CN112926295A publication Critical patent/CN112926295A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种模型推荐方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:确定模型需求信息,所述模型需求信息包括以下至少之一:模型名称、模型分类及模型文本信息;确定所述模型需求信息对应的需求文本向量;针对每个候选模型:确定所述候选模型对应的模型文本向量;确定所述需求文本向量和所述模型文本向量之间的相似值;根据所述相似值,确定所述模型需求信息对应的推荐结果。该实施方式无需根据用户的历史行为进行模型推荐,且具有较好的模型推荐效果。

Description

模型推荐方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种模型推荐方法和装置。
背景技术
模型推荐用于根据用户的需求快速从海量的模型库中找到用户偏好的相关模型,使用户可快速复用和借鉴相关模型,以缩短研发周期。传统的模型推荐方法往往需要根据用户的历史行为进行推荐,无法很好地解决冷启动问题。例如,当新用户还未在***中产生行为,就无法给该用户推荐其想要的模型。
发明内容
有鉴于此,本发明实施例提供一种模型推荐方法和装置,无需根据用户的历史行为进行模型推荐,且具有较好的模型推荐效果。
第一方面,本发明实施例提供了一种模型推荐方法,包括:
确定模型需求信息,所述模型需求信息包括以下至少之一:模型名称、模型分类及模型文本信息;
确定所述模型需求信息对应的需求文本向量;
针对每个候选模型:确定所述候选模型对应的模型文本向量;确定所述需求文本向量和所述模型文本向量之间的相似值;
根据所述相似值,确定所述模型需求信息对应的推荐结果。
可选地,所述确定模型需求信息,包括:
接收模型推荐请求;
根据所述模型推荐请求,确定所述模型需求信息。
可选地,所述确定所述模型需求信息对应的需求文本向量,包括:
生成所述模型需求信息对应的模型需求文本;
根据所述模型需求文本,确定所述模型需求信息对应的需求文本向量。
可选地,所述根据所述模型需求文本,确定所述模型需求信息对应的需求文本向量,包括:
对所述模型需求文本进行预处理,以生成预处理文本;
确定所述预处理文本中各词项的权重;
根据所述词项的权重,生成所述模型需求信息对应的需求文本向量。
可选地,所述对所述模型需求文本进行预处理,以生成预处理文本,包括:
对所述模型需求文本进行分词处理;
对分词处理后的模型需求文本进行停用词过滤处理;
对过滤处理后的模型需求文本进行同义词转换处理,以生成所述预处理文本。
可选地,所述确定所述预处理文本中各词项的权重,包括:
从所述预处理文本中,确定多个目标词项;
利用tf-dif算法,分别确定各所述目标词项的权重。
可选地,所述根据所述词项的权重,生成所述模型需求信息对应的需求文本向量,包括:
根据所述词项的权重,确定所述预测文本的特征词集合,所述特征词集合中包括至少一个特征词项;
获取预设的关键词集合;
根据所述特征词集合及所述关键词集合,生成所述模型需求信息对应的需求文本向量。
可选地,所述根据所述相似值,确定所述模型需求信息对应的推荐结果,包括:
根据所述相似值,从所述候选模型中,挑选预设数目个候选模型;
根据所述预设数目个候选模型,生成所述模型需求信息对应的推荐结果。
可选地,所述确定所述候选模型对应的模型文本向量之前,还包括:
生成所述候选模型对应的模型文本向量。
可选地,所述生成所述候选模型对应的模型文本向量,包括:
获取所述候选模型的模型描述信息;
生成所述模型描述信息对应的模型描述文本;
根据所述模型描述文本,确定所述候选模型对应的模型文本向量。
可选地,所述模型描述信息包括:模型属性信息及模型包信息;
所述生成所述模型描述信息对应的模型描述文本,包括:
从所述模型包信息中,提取多个词项;
分别确定所述多个词项的权重;
根据所述词项的权重,确定所述模型包的至少一个关键词项;
根据所述至少一个关键词项及所述模型属性信息,生成所述模型描述信息对应的模型描述文本。
可选地,所述模型属性信息包括以下至少之一:模型名称、模型分类、模型输出参数、模型输入参数、应用对象及评估指标。
第二方面,本发明实施例提供了一种模型推荐装置,包括:
信息确定模块,用于确定模型需求信息,所述模型需求信息包括以下至少之一:模型名称、模型分类及模型文本信息;
向量确定模块,用于确定所述模型需求信息对应的需求文本向量;
相似值确定模块,用于针对每个候选模型:确定所述候选模型对应的模型文本向量;确定所述需求文本向量和所述模型文本向量之间的相似值;
结果确定模块,用于根据所述相似值,确定所述模型需求信息对应的推荐结果。
第三方面,本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一实施例所述的方法。
第四方面,本发明实施例提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一实施例所述的方法。
上述发明中的一个实施例具有如下优点或有益效果:根据模型需求信息的需求文本向量和候选模型的模型文本向量之间的相似度,确定模型需求信息对应的推荐结果。可将相似度较高的候选模型作为推荐结果返回给用户。因此,本发明实施例的方法具有较好的模型推荐效果。
此外,本申请实施例的方法,即使用户还未在***中产生行为,也可根据需求文本向量和模型文本向量之间的相似度,给用户推荐其想要的候选模型,而无需根据用户的历史行为进行模型推荐。因此,可较好地解决冷启动的问题。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明一个实施例提供的一种模型推荐方法的应用场景的示意图;
图2是本发明的一个实施例提供的一种模型推荐方法的流程的示意图;
图3是本发明的一个实施例提供的一种需求文本向量生成方法的流程的示意图;
图4是本发明的一个实施例提供的一种向量空间模型的构建过程的示意图;
图5是本发明的一个实施例提供的一种模型文本向量生成方法的流程的示意图;
图6是本发明的一个实施例提供的一种模型推荐装置的结构示意图;
图7是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
进行模型推荐的过程中,可直接根据关键字进行筛选。关键字筛选方式的前提是用户对自己需要的模型非常明确。根据关键字筛选是一种精准匹配,但往往用户只对模型要达到的效果以及作用清楚,具体用什么算法,如何建模,以及模型库中针对类似问题的模型是怎么操作的是不清楚的。用户往往值对模型的需求信息比较清楚,想从已有的大量模型研究成果中快速找到类似的且效果好的模型。
基于此,本发明实施例提出一种可在用户对模型算法及建模方法都不清楚的情况下,也具有较好推荐效果的模型推荐方法。图1是本发明一个实施例提供的一种模型推荐方法的应用场景的示意图。如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户通过终端设备101、102、103发送模型推荐请求,模型推荐请求中可包括模型名称、模型分类及模型文本信息等。终端设备101、102、103可以是手机、笔记本、服务器、平板电脑、膝上型便携计算机等等。
服务器105确定终端设备101、102、103发送的模型推荐请求;确定所述模型需求信息对应的需求文本向量;根据需求文本向量和模型文本向量之间的相似值,确定模型需求信息对应的推荐结果。
需要说明的是,本发明实施例所提供的模型推荐方法一般由服务器105执行,相应地,模型推荐装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2是本发明的一个实施例提供的一种模型推荐方法的流程的示意图,如图2所示,该方法包括:
步骤201:确定模型需求信息,模型需求信息包括以下至少之一:模型名称、模型分类及模型文本信息。
可先接收模型推荐请求,并根据模型推荐请求,确定模型需求信息。具体地,可根据用户填写的模型需求表单信息进行筛选组合,确定出模型需求信息。
模型文本信息不仅包含模型需求环节信息,还包括模型开发环节信息以及模型评估信息和具体的模型包等模型相关信息,如模型功能、模型效果、模型算法、评估信息等。
步骤202:确定模型需求信息对应的需求文本向量。
可先将模型需求信息被提炼成一段文本信息,即模型需求文本。将模型需求信息整合一起,每个模型需求以一个模型文档来表示。
再根据模型需求文本,确定模型需求信息对应的需求文本向量。在提炼模型需求文本过程中,针对模型名称以及模型分类这种短文本但重要性比较高的信息,可采用重采样方法进行修正,以加强这这种短文本的重要性。
可通过如下方法,根据模型需求文本,确定模型需求信息对应的需求文本向量:
对模型需求文本进行预处理,以生成预处理文本;
确定预处理文本中各词项的权重;
根据词项的权重,生成模型需求信息对应的需求文本向量。
预处理可包括以下至少之一:分词处理、停用词过滤处理、同义词转换处理。预处理文本为对模型需求文本进行预处理后的文本,根据预处理文本可方便地生成模型需求信息对应的需求文本向量。
步骤203:针对每个候选模型:确定候选模型对应的模型文本向量;确定需求文本向量和模型文本向量之间的相似值。
将模型需求信息转化为需求文本向量,再依次确定需求文本向量和模型库中的各候选模型文本向量之间的相似值。相似值可通过多种方式方式来进行计算。例如,计算需求文本向量和模型文本向量之间的欧式距离、汉明距离及余弦相似度等。
步骤204:根据相似值,确定模型需求信息对应的推荐结果。
可根据相似值,从候选模型中,挑选预设数目个候选模型,这些候选模型的文本向量与需求文本向量之间的相似值最高;根据预设数目个候选模型,生成模型需求信息对应的推荐结果。
在本发明实施例中,根据模型需求信息的需求文本向量和候选模型的模型文本向量之间的相似度,确定模型需求信息对应的推荐结果。可将相似度较高的候选模型作为推荐结果返回给用户,因此,具有较好的模型推荐效果。进一步地,本申请实施例的方法无需根据用户的历史行为进行模型推荐。因此,可以较好地解决冷启动的问题。
此外,本发明实施例利用文本相似性进行相似模型匹配并推荐。根据模型的需求环节信息,为其从模型库中推荐相似的模型,与传统的精准筛选对比,能够找到更多更合适的模型给到用户。
图3是本发明的一个实施例提供的一种需求文本向量生成方法的流程的示意图,如图3所示,该方法包括:
步骤301:生成模型需求信息对应的模型需求文本。
步骤302:对模型需求文本进行分词处理。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。可利用Jieba分词,对模型文本信息进行分词。
步骤303:对分词处理后的模型需求文本进行停用词过滤处理。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词。可根据常用停用词列表进行过滤。由于模型描述性文本不会包含太多非主流词,比如表情包、链接等。因此,停用词表采用常用的英文停用词、中文停用词、以及一些含义不大出现次数不多的特定的文本片段等内容。
步骤304:对过滤处理后的模型需求文本进行同义词转换处理,以生成预处理文本。
由于机器学习模型描述的常用的词汇中,有些词的表达方式多样化但表示的都是同一个意思,为了避免后续构建词向量模型的矩阵稀疏问题,本发明实施例对一些常用算法名称进行同义转化操作,就是模型使用的算法名称有中文、英文名称、简称、俗称,一旦文本中遇到同个算法的不同表达的词汇,本发明实施例就会将其映射到统一的空间及算法标准的中文名。算法名称只是常见的同义词的一种,具体用户可以根据实际情况去补充同义转化表。
步骤305:从预处理文本中,确定多个目标词项。
可将预处理文本中所有的词项都作为目标词项。也可在预处理文本中包含的所有词项中挑选重要程度较高的多个词项作为目标词项。
步骤306:利用tf-dif算法,分别确定各目标词项的权重。
DF(文档频次,Document Frequency)是指包含指定词项的文档数目。IDF(逆文本频率指数,Inverse Document Frequency)的公式定义如下:
Figure BDA0002998563310000081
其中IDF(i)是指词项i的逆文档频率,N是指模型文档集中的文档的总数,DF(i)是指词项i在文档集中的文档频率。从中可以看出,词项的文档频率越高则这个词项的逆文档频率就越低,换而言之,一个词在越多文档中出现的次数越多则这个词项的区分度就比较低,特征就比较不明显。
其中tf-dif是综合考虑词项TF(频率,Term Frequency)和逆文档频率IDF的指标,它的公式如下:
TFIDF(t,d)=TF(t)·IDF(t,d)
TFIDF(t,d)是指词项t在文档d中的权重。TF(t)是指词项t在所有模型文档中的数目,IDF(t,d)是指词项的逆文档频率。TFIDF(t,d)即为目标词项的权重。
如果一个词项在所有模型文档中都出现的话,那么该词在文档集中的权重就会比较低;反之如果一个词项在少量几篇模型文档中多次出现,那么该词项的权重比较高。综合考虑词项频率和逆文档频率的机制能够较好的发现文本的特征词项。
步骤307:根据词项的权重,确定预测文本的特征词集合,特征词集合中包括至少一个特征词项。
确定特征词集合的方法有多种。例如,可将词项的权重超过预设权重的所有目标词项都确定为特征词,也可选择出预设数目个词项的权重最高的目标词项作为特征词。
步骤308:获取预设的关键词集合。
步骤309:根据特征词集合及关键词集合,生成模型需求信息对应的需求文本向量。
文本向量是将实际的文本内容转换成机器内部可以识别的结构。根据词项权重选择出来的特征词来表示每个模型需求信息,构成词文档矩阵。图4是本发明的一个实施例提供的一种向量空间模型的构建过程的示意图。其中,关键词集合中的关键词T1-TN是来源于模型文档集中通过词频权重提取的前n个词,T1-TN即为关键词集合。Di代表的是第i个模型需求文档,Di为第i个模型需求的特征词集合。Wmn用于表征文档Dm中是否包含词Tn,若Dm中是否包含词Tn包含,则Wmn为1,反之Wmn为0。Wm1-Wmn即为第m个需求模型信息对应的需求文本向量。
在本发明的实施例中,提供了一种将模型需求信息生成需求文本向量的方法。该方法通过提取出模型需求信息中所包含的特征词,使最终生成的需求文本向量可以较好地表征出用户所需的模型需求信息。此外,对模型需求文本中词项进行同义词转换处理,能够修正模型向量的分布,丰富模型向量的含义。
为加快需求文本向量和模型文本向量之间的相似值计算,并减少不必要的重复计算,可在***中预先计算每个候选模型对应的模型文本向量。图5是本发明的一个实施例提供的一种模型文本向量生成方法的流程的示意图,如图5所示,该方法包括:
步骤501:获取候选模型的模型描述信息,模型描述信息包括:模型属性信息及模型包信息。
可选地,模型属性信息包括以下至少之一:模型名称、模型分类、模型输出参数、模型输入参数、应用对象及评估指标。模型包信息中含有模型的训练代码、数据处理代码、模型预测代码等。因此,模型包的文本信息会比较多。
步骤502:从模型包信息中,提取多个词项。
步骤503:分别确定多个词项的权重。
词项的权重的确定方法可参考上图3中步骤301-步骤306,不再赘述。
步骤504:根据词项的权重,确定模型包的至少一个关键词项。
确定特征词集合的方法有多种。例如,可将词项的权重超过预设权重的所有目标词项都确定为特征词,也可选择出预设数目个词项的权重最高的目标词项作为特征词。
步骤505:根据至少一个关键词项及模型属性信息,生成模型描述信息对应的模型描述文本。
将从模型包中提取出的关键词项与模型属性信息进行融合或简单拼接,生成模型描述信息对应的模型描述文本。融合的方式是对从模型包中提取出的关键词项与模型属性信息分配不同的权重,以体现关键词项和属性信息之间的不同重要程度。
步骤506:根据模型描述文本,确定候选模型对应的模型文本向量。
模型文本向量的生成方法可参考上图3中步骤301-步骤309,不再赘述。
在本发明的实施例中,提供了一种将模型描述信息生成模型文本向量的方法。该方法通过提取出模型描述信息中所包含的特征词,使最终生成的模型文本向量可以较好地表征出各候选模型的属性信息。
此外,由于模型包中的文本信息会比较多,如果直接和其他模型属性信息进行拼接处理,可能会导致模型信息文本向量的分布失衡,进而在构建模型文本向量前需要先根据词项的权重提取出模型包中的关键词作为模型包中的文本,再将提取出的文本参与其他模型属性信息的融合,进而构建出模型文本向量。
图6是本发明的一个实施例提供的一种模型推荐装置的结构示意图。如图6所示,该装置包括:
信息确定模块601,用于确定模型需求信息,模型需求信息包括以下至少之一:模型名称、模型分类及模型文本信息;
向量确定模块602,用于确定模型需求信息对应的需求文本向量;
相似值确定模块603,用于针对每个候选模型:确定候选模型对应的模型文本向量;确定需求文本向量和模型文本向量之间的相似值;
结果确定模块604,用于根据相似值,确定模型需求信息对应的推荐结果。
可选地,信息确定模块601具体用于:
接收模型推荐请求;
根据模型推荐请求,确定模型需求信息。
可选地,向量确定模块602具体用于:
生成模型需求信息对应的模型需求文本;
根据模型需求文本,确定模型需求信息对应的需求文本向量。
可选地,向量确定模块602具体用于:
对模型需求文本进行预处理,以生成预处理文本;
确定预处理文本中各词项的权重;
根据词项的权重,生成模型需求信息对应的需求文本向量。
可选地,向量确定模块602具体用于:
对模型需求文本进行分词处理;
对分词处理后的模型需求文本进行停用词过滤处理;
对过滤处理后的模型需求文本进行同义词转换处理,以生成预处理文本。
可选地,向量确定模块602具体用于:
从预处理文本中,确定多个目标词项;
利用tf-dif算法,分别确定各目标词项的权重。
可选地,向量确定模块602具体用于:
根据词项的权重,确定预测文本的特征词集合,特征词集合中包括至少一个特征词项;
获取预设的关键词集合;
根据特征词集合及关键词集合,生成模型需求信息对应的需求文本向量。
可选地,结果确定模块604具体用于:
根据相似值,从候选模型中,挑选预设数目个候选模型;
根据预设数目个候选模型,生成模型需求信息对应的推荐结果。
可选地,该装置还包括:
向量生成模块605,用于生成候选模型对应的模型文本向量。
可选地,向量生成模块605具体用于:
获取候选模型的模型描述信息;
生成模型描述信息对应的模型描述文本;
根据模型描述文本,确定候选模型对应的模型文本向量。
可选地,模型描述信息包括:模型属性信息及模型包信息;
向量生成模块605具体用于:
从模型包信息中,提取多个词项;
分别确定多个词项的权重;
根据词项的权重,确定模型包的至少一个关键词项;
根据至少一个关键词项及模型属性信息,生成模型描述信息对应的模型描述文本。
可选地,模型属性信息包括以下至少之一:模型名称、模型分类、模型输出参数、模型输入参数、应用对象及评估指标。
本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述任一实施例的方法。
下面参考图7,其示出了适于用来实现本发明实施例的终端设备的计算机***700的结构示意图。图7示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机***700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有***700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:信息确定模块、向量确定模块、相似值确定模块及结果确定模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,信息确定模块还可以被描述为“确定模型需求信息的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
确定模型需求信息,所述模型需求信息包括以下至少之一:模型名称、模型分类及模型文本信息;
确定所述模型需求信息对应的需求文本向量;
针对每个候选模型:确定所述候选模型对应的模型文本向量;确定所述需求文本向量和所述模型文本向量之间的相似值;
根据所述相似值,确定所述模型需求信息对应的推荐结果。
根据本发明实施例的技术方案,利用模型需求信息的需求文本向量和候选模型的模型文本向量之间的相似度,确定模型需求信息对应的推荐结果。可返回相似度较高的候选模型给用户进行借鉴参考,因此,具有较好的模型推荐效果。此外,本申请实施例的方法无需根据用户的历史行为进行模型推荐,即使用户还未在***中产生行为,也可根据相似度给该用户推荐其想要的候选模型。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (15)

1.一种模型推荐方法,其特征在于,包括:
确定模型需求信息,所述模型需求信息包括以下至少之一:模型名称、模型分类及模型文本信息;
确定所述模型需求信息对应的需求文本向量;
针对每个候选模型:确定所述候选模型对应的模型文本向量;确定所述需求文本向量和所述模型文本向量之间的相似值;
根据所述相似值,确定所述模型需求信息对应的推荐结果。
2.根据权利要求1所述的方法,其特征在于,所述确定模型需求信息,包括:
接收模型推荐请求;
根据所述模型推荐请求,确定所述模型需求信息。
3.根据权利要求1所述的方法,其特征在于,所述确定所述模型需求信息对应的需求文本向量,包括:
生成所述模型需求信息对应的模型需求文本;
根据所述模型需求文本,确定所述模型需求信息对应的需求文本向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述模型需求文本,确定所述模型需求信息对应的需求文本向量,包括:
对所述模型需求文本进行预处理,以生成预处理文本;
确定所述预处理文本中各词项的权重;
根据所述词项的权重,生成所述模型需求信息对应的需求文本向量。
5.根据权利要求4所述的方法,其特征在于,所述对所述模型需求文本进行预处理,以生成预处理文本,包括:
对所述模型需求文本进行分词处理;
对分词处理后的模型需求文本进行停用词过滤处理;
对过滤处理后的模型需求文本进行同义词转换处理,以生成所述预处理文本。
6.根据权利要求4所述的方法,其特征在于,所述确定所述预处理文本中各词项的权重,包括:
从所述预处理文本中,确定多个目标词项;
利用tf-dif算法,分别确定各所述目标词项的权重。
7.根据权利要求4所述的方法,其特征在于,所述根据所述词项的权重,生成所述模型需求信息对应的需求文本向量,包括:
根据所述词项的权重,确定所述预测文本的特征词集合,所述特征词集合中包括至少一个特征词项;
获取预设的关键词集合;
根据所述特征词集合及所述关键词集合,生成所述模型需求信息对应的需求文本向量。
8.根据权利要求1所述的方法,其特征在于,所述根据所述相似值,确定所述模型需求信息对应的推荐结果,包括:
根据所述相似值,从所述候选模型中,挑选预设数目个候选模型;
根据所述预设数目个候选模型,生成所述模型需求信息对应的推荐结果。
9.根据权利要求1所述的方法,其特征在于,所述确定所述候选模型对应的模型文本向量之前,还包括:
生成所述候选模型对应的模型文本向量。
10.根据权利要求9所述的方法,其特征在于,所述生成所述候选模型对应的模型文本向量,包括:
获取所述候选模型的模型描述信息;
生成所述模型描述信息对应的模型描述文本;
根据所述模型描述文本,确定所述候选模型对应的模型文本向量。
11.根据权利要求10所述的方法,其特征在于,所述模型描述信息包括:模型属性信息及模型包信息;
所述生成所述模型描述信息对应的模型描述文本,包括:
从所述模型包信息中,提取多个词项;
分别确定各所述词项的权重;
根据所述词项的权重,确定模型包的至少一个关键词项;
根据所述至少一个关键词项及所述模型属性信息,生成所述模型描述信息对应的模型描述文本。
12.根据权利要求11所述的方法,其特征在于,所述模型属性信息包括以下至少之一:模型名称、模型分类、模型输出参数、模型输入参数、应用对象及评估指标。
13.一种模型推荐装置,其特征在于,包括:
信息确定模块,用于确定模型需求信息,所述模型需求信息包括以下至少之一:模型名称、模型分类及模型文本信息;
向量确定模块,用于确定所述模型需求信息对应的需求文本向量;
相似值确定模块,用于针对每个候选模型:确定所述候选模型对应的模型文本向量;确定所述需求文本向量和所述模型文本向量之间的相似值;
结果确定模块,用于根据所述相似值,确定所述模型需求信息对应的推荐结果。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-12中任一所述的方法。
CN202110338638.6A 2021-03-30 2021-03-30 模型推荐方法和装置 Pending CN112926295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110338638.6A CN112926295A (zh) 2021-03-30 2021-03-30 模型推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110338638.6A CN112926295A (zh) 2021-03-30 2021-03-30 模型推荐方法和装置

Publications (1)

Publication Number Publication Date
CN112926295A true CN112926295A (zh) 2021-06-08

Family

ID=76176532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110338638.6A Pending CN112926295A (zh) 2021-03-30 2021-03-30 模型推荐方法和装置

Country Status (1)

Country Link
CN (1) CN112926295A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389544A (zh) * 2023-12-13 2024-01-12 北京宇信科技集团股份有限公司 一种人工智能的数据建模方法、装置、介质和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389544A (zh) * 2023-12-13 2024-01-12 北京宇信科技集团股份有限公司 一种人工智能的数据建模方法、装置、介质和设备
CN117389544B (zh) * 2023-12-13 2024-03-01 北京宇信科技集团股份有限公司 一种人工智能的数据建模方法、装置、介质和设备

Similar Documents

Publication Publication Date Title
CN107491534B (zh) 信息处理方法和装置
CN107491547B (zh) 基于人工智能的搜索方法和装置
CN107220386B (zh) 信息推送方法和装置
Ding et al. Entity discovery and assignment for opinion mining applications
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
US11586817B2 (en) Word vector retrofitting method and apparatus
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN110147425A (zh) 一种关键词提取方法、装置、计算机设备及存储介质
CN107526718A (zh) 用于生成文本的方法和装置
CN113407814B (zh) 文本搜索方法、装置、可读介质及电子设备
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113326420A (zh) 问题检索方法、装置、电子设备和介质
CN116028618B (zh) 文本处理、文本检索方法、装置、电子设备及存储介质
CN113268560A (zh) 用于文本匹配的方法和装置
CN111382563A (zh) 文本相关性的确定方法及装置
CN112307738B (zh) 用于处理文本的方法和装置
CN112926295A (zh) 模型推荐方法和装置
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
WO2010132062A1 (en) System and methods for sentiment analysis
CN112925872A (zh) 一种数据搜索方法和装置
CN116048463A (zh) 基于标签管理的需求项内容智能推荐方法及装置
CN110895655A (zh) 提取文本核心短语的方法和装置
CN111368036B (zh) 用于搜索信息的方法和装置
CN112528644B (zh) 实体挂载的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination