CN113792147A - 基于用户需求预测产品设计参数的方法、装置及设备 - Google Patents
基于用户需求预测产品设计参数的方法、装置及设备 Download PDFInfo
- Publication number
- CN113792147A CN113792147A CN202111098410.0A CN202111098410A CN113792147A CN 113792147 A CN113792147 A CN 113792147A CN 202111098410 A CN202111098410 A CN 202111098410A CN 113792147 A CN113792147 A CN 113792147A
- Authority
- CN
- China
- Prior art keywords
- product
- user
- user demand
- data set
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/12—Geometric CAD characterised by design entry means specially adapted for CAD, e.g. graphical user interfaces [GUI] specially adapted for CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Analysis (AREA)
- Human Computer Interaction (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Hardware Design (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Architecture (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于用户需求预测产品设计参数的方法、装置及设备,涉及自然语言处理技术领域,所述方法包括:在用户需求数据中,提取第一用户需求要素;将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。本申请的方案解决现有技术中产品设计过程对人为参与的过度依赖的问题。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其是涉及一种基于用户需求预测产品设计参数的方法、装置及设备。
背景技术
创新在整个社会发展进程中起着至关重要的作用,而产品的创新离不开产品设计。从产品全生命周期角度出发,产品设计是新产品开发的重要一环,概念设计阶段更是产品设计过程的重中之重。
产品概念设计的发展经历了若干阶段。传统的设计方法中,设计方案的成败严重依赖设计人员本身的知识与经验水平,这也使得产品设计的质量有着相当的不确定性。随着社会生产力的提升,更好地理解用户需求并将其转化为产品设计参数成为产品占领市场份额、赢得竞争的关键。因此诸如QFD等产品设计、质量控制、质量改进工具应运而生。自此,需求驱动的产品设计成为设计领域的主流方法。
当前,互联网环境融入社会生活的程度逐步加深,信息技术水平不断提高,电子商务平台、众包平台蓬勃发展。在此背景下,从各种渠道能够获取的用户需求增多,同时,计算机存储和计算数据的能力大大增强。因此,巨量的用户需求以数据的形式不断的积累下来,这使得高效而精确地分析用户需求数据、并形成一套通用的设计理论成为了一项重要的挑战。
目前,在国内外设计科学领域,已有一些设计理论使得产品的概念设计过程不断地优化、标准化,如经典的***化设计理论、TRIZ理论、通用设计理论等。这些理论都有其独特的优势所在,但面对上述海量需求数据的现实挑战,又都有各自的不足及局限性。
综上所述,在当前的数字化社会的背景下,产品设计与需求分析领域面临着新的机遇和挑战。找到一种高效且精确的用户需求分析手段,借助机器学习算法、大数据管理与分析技术、深度学习模型等技术手段,形成一套新的智能化概念设计理论,是重要且意义深远的。
发明内容
本申请的目的在于提供一种基于用户需求预测产品设计参数的方法、装置及设备,从而解决现有技术中产品设计过程对人为参与的过度依赖的问题。
为了达到上述目的,本申请提供一种基于用户需求预测产品设计参数的方法,包括:
在用户需求数据中,提取第一用户需求要素;
将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。
可选地,在用户需求数据中,提取第一用户需求要素,包括:
对所述用户需求数据进行预处理;
对预处理后的用户需求数据进行数据标注;
利用BERT模型,在数据标注后的用户需求数据中抽取所述第一用户需求要素。
可选地,对所述用户需求数据进行预处理,包括:
删除无效的用户需求数据;
对未被删除的用户需求数据进行分词处理。
可选地,BERT模型的训练过程包括:
获取第一训练数据集;
将所述第一训练数据集输入至预训练的BERT模型,对预训练的BERT模型进行迭代训练,获得所述BERT模型。
可选地,所述预测模型的训练过程包括:
获取第二用户需求要素和产品参数训练数据集;
对所述第二用户需求要素进行分析,获得用户需求数据集;
基于随机森林算法,在所述产品设计参数训练数据集中,提取与所述用户需求数据集相关的预设数量的特征参数,并计算各个所述特征参数的第一权重;
根据所述特征参数和所述第一权重,利用逻辑回归算法对与训练的预测模型进行训练,获得所述预测模型。
可选地,获取第二用户需求要素,包括:
获取用户需求训练数据集;
对所述用户需求训练数据集进行预处理;
对预处理后的所述用户需求训练数据集进行数据标注;
将数据标注后的用户需求训练数据集输入至训练好的BERT模型,抽取所述第二用户需求要素。
可选地,对所述第二用户需求要素进行分析,获得用户需求数据集,包括:
利用词频逆向文件频率TF-IDF算法计算表征所述用户需求要素的重要性的TF-IDF;
利用隐含狄利克雷分布LDA算法生成所述用户需求要素对应的文本主题;
对所述文本主题进行层级划分;
根据所述层级划分后的文本主题和所述TF-IDF,获取所述用户需求数据集。
可选地,所述方法还包括:
根据所述用户需求数据集,构建用户需求图谱;
显示所述用户需求图谱。
可选地,基于随机森林算法,在所述产品设计参数训练数据集中,提取与所述用户需求数据集相关的预设数量的特征参数,并计算各个所述特征参数的第一权重,包括:
基于随机森林算法,计算所述产品设计参数训练集中各产品设计参数的第二权重;
按照预设比例,删除所述产品设计参数中,第二权重较小的产品设计参数;
循环执行基于所述随机森林函数,计算未被删除的产品设计参数的第三权重,并按照所述预设比例,删除所述第三权重较小的产品设计参数;
在未被删除的产品设计参数的数量达到所述预设数量的情况下,确定未被删除的产品设计参数为所述特征参数,且所述未被删除的产品设计参数的权重为所述第一权重。
本申请实施例还提供一种基于用户需求预测产品设计参数的装置,包括:
提取模块,用于在用户需求数据中,提取第一用户需求要素;
预测模块,用于将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。
本申请实施例还提供一种基于用户需求预测产品设计参数的设备,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上所述的基于用户需求预测产品设计参数的方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上所述的基于用户需求预测产品设计参数的方法。
本申请的上述技术方案至少具有如下有益效果:
本申请实施例的基于用户需求预测产品设计参数的方法,首先,在用户需求数据中,提取第一用户需求要素;其次,将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。如此,实现了从用户需求数据中精准提取并分析用户的需求信息,完成用户需求到产品设计参数需求的映射,实现产品概念设计的自动化,提升产品概念设计效率,降低了产品设计过程对人为因素的依赖。
附图说明
图1为本申请实施例的基于用户需求预测产品设计参数的方法的流程示意图;
图2为本申请实施例对用户需求要素进行分析的示例图;
图3为本申请实施例的基于用户需求预测产品设计参数的装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的基于用户需求预测产品设计参数的方法、装置及设备进行详细地说明。
如图1所示,为本申请实施例的基于用户需求预测产品设计参数的方法的流程示意图,该方法包括:
步骤101,在用户需求数据中,提取第一用户需求要素;
这里,需要说明的是,用户需求数据以自然语言形式的文本呈现,具体可以从web端获取用户需求数据,或者,从众包网站用户提交的在线用户需求数据中获取用户需求数据,其中,若数据量小或数据量不佳,可以用电子商务网站中用户购买产品后的评价文字代替。
步骤102,将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。
本步骤中,预测模型为预先训练好的模型,具体可以是基于逻辑回归算法进行训练的模型。
本申请实施例的基于用户需求预测产品设计参数的方法,首先,在用户需求数据中,提取第一用户需求要素;其次,将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。如此,实现了从用户需求数据中精准提取并分析用户的需求信息,完成用户需求到产品设计参数需求的映射,实现产品概念设计的自动化,提升产品概念设计效率,降低了产品设计过程对人为因素的依赖。
作为一个可选的实现方式,步骤101,在用户需求数据中,提取第一用户需求要素,包括:
对所述用户需求数据进行预处理;
本步骤通过对用户需求数据进行预处理,可以减少无用信息对整个牙就过程的干扰,并为对用户需求数据的标注做准备。
对预处理后的用户需求数据进行数据标注;
本步骤采用“BIO”标注法对用户需求数据进行标注,其中,B、I、O分别为:begin、intermediate、others的缩写,分别标识标注内容的开始、中间部分和其他部分。标注的需求要素均为从用户角度出发的需求,其余无用信息不标注,数据标注实例如下表所示:
文本 | 标注 | 文本 | 标注 | 文本 | 标注 |
有 | O | 双 | B | 噪 | B |
速 | B | 开 | I | 音 | I |
冻 | I | 门 | I | 很 | I |
功 | O | , | O | 小 | I |
能 | O | 取 | B | , | O |
, | O | 物 | I | 不 | B |
空 | B | 品 | I | 影 | I |
间 | I | 很 | I | 响 | I |
够 | I | 方 | I | 休 | I |
大 | I | 便 | I | 息 | I |
。 | O | 。 | O | 。 | O |
表1
利用BERT模型,在数据标注后的用户需求数据中抽取所述第一用户需求要素。
这里,需要说明的是,BERT模型是一种预训练模型,BERT的全称是BidirectionalEncoder Representation from Transformers,其中,本步骤中的BERT模型为训练好的模型,后续将具体说明BERT的训练过程。
这里,还需要说明的是,BERT采用双向编码的Transformer结构,包含多层Transformer编码块。BERT提供了简单和复杂两种模型:BERTBASE包含12层Transformer编码块,BERTLARGE包含24层Transformer编码块。从编码器输入的句子首先会经过一个自注意力(self-attention)层,这层帮助编码器在对每个单词编码时关注输入句子的其他单词的同时降低模型的复杂性。自注意力层的输出会传递到前馈(feed-forward)神经网络中。每个位置的单词对应的前馈神经网络都完全一样,或者说,每一层窗口即为一个单词的一维卷积神经网络。
本可选实现方式中,通过对用户需求数据进行预处理、对预处理后的用户需求数据记性数据标注最后利用训练好的BERT模型在数据标注后的用户需求数据中抽取第一用户需求数据,如此,实现了从文本型的用户需求数据中精准提取并分析用户的需求信息,降低了对人为因素的依赖。
进一步地,抽取第一用户需求要素之后,所述方法还包括:
基于预设指标,对BERT模型进行评价,获得评价结果;
其中,所述预设指标包括以下至少一项:
查准率;
查全率;
F1值。
这里,对BERT模型进行评价,可以使得用户获知BERT模型抽取用户需求要素结果的优劣,从而进一步确定预测的产品设计参数的准确度。
作为一个可选的实现方式,对所述用户需求数据进行预处理,包括:
删除无效的用户需求数据;
这里,需要说明的是,无效的用户需求数据包括非用户需求数据、空缺值等,通过删除这些数据,可以提高数据处理的精度,减少无用信息对整个研究过程的干扰。
对未被删除的用户需求数据进行分词处理。
本步骤中,分词处理的具体过程包括:
首先提取数据中存储用户需求的列,列中的每个元素为一条用户需求;
其次,为每条用户需求数据的头部添加标识ID;添加ID的作用是,便于标识用户需求数据与产品设计参数的映射关系;
再次,将每条用户需求数据按字或单次分词;
最后,将分词后的用户需求逐字或逐词换行,即每一个字或词占据文档中的一行。
本步骤中对用户需求数据进行分词处理的主要目的是为下一步的数据标注做准备,便于实现对用户需求数据的标注。
作为一个可选的实现方式,BERT模型的训练过程包括:
获取第一训练数据集;
这里,需要说明的是,第一训练数据集是按照前述方法进行预处理后的用户需求数据。
将所述第一训练数据集输入至预训练的BERT模型,对预训练的BERT模型进行迭代训练,获得所述BERT模型。
如前所述,BERT模型是预训练模型,BERT模型提供一个原始的预训练模型,通过输入个性化数据,对模型进行微调参,最终可以取得满意的结果。由于人工处理大量数据标注工作量大,对应大量数据标注任务,小样本的标注并不能覆盖大量数据,故本可选实现方式中采用迭代训练的方式来训练模型;也就是说,将第一训练数据集反复输入至BERT模型,以对BERT模型进行训练,如此,减少了人工处理数据的工作量,提高了训练效率。
例如,第一训练数据参数集包括“我需要冷冻肉类,一定要耗电量低”,则迭代训练之后的BERT模型抽取的需求要素为“冷冻肉类”、“耗电量低”。
这里,还需要说明的是,在对BERT模型进行迭代训练的过程中,可以进一步基于预设指标,对BERT模型进行评价,获得评价结果;
在评价结果不满足预设条件的情况下,利用第二训练数据集对BERT模型进行迭代训练,直至评价结果满足预设条件;
其中,所述预设指标包括以下至少一项:
查准率;
查全率;
F1值。
在BERT模型训练过程中,通过对BERT模型进行评价,可以使得操作者获知BERT的当前状态,从而为后续的训练过程提供指导意见,提高训练的效率。
作为一个可选的实现方式,所述预测模型的训练过程包括:
获取第二用户需求要素和产品参数训练数据集;
本步骤中,第二用户需求要素可以为采用本申请上述实施例的抽取方式抽取的用户需求要素;产品参数训练数据集的来源为电子商务网站对产品设计参数的标准化描述,例如对于冰箱产品,其产品设计参数有:品牌、尺寸、重量、制冷类型、总容积、运转音量、能效等级、除霜模式、定频/变频、制冷剂、开门结构等。
对所述第二用户需求要素进行分析,获得用户需求数据集;
这里,需要说明的是,由于采用前述方法获得的第二用户需求要输是杂乱无章、没有规律可循的,然而产品设计参数受到种种条件(如成本、行业标准及规范)的约束,将全部需求一一转化为产品设计参数并不现实,因此,该步骤的目的旨在对用户需求进行加工,寻找需求要素中的规律(需求的重要程度、需求的类别),以便进一步对需求数据加以利用。
基于随机森林算法,在所述产品设计参数训练数据集中,提取与所述用户需求数据集相关的预设数量的特征参数,并计算各个所述特征参数的第一权重;
随机森林就是通过集成学习的思想将多棵树集成的一种算法,随机森林的基本单元是决策树,鉴于随机森林的用途广泛且在机器学习任务中表现良好,且作为树模型的一种集成,也可用于特征选择,本申请实施例采用随机森林算法实现产品设计参数中的多种特征的选择,选择的依据是特征对用户需求满足程度的重要性。
这里,需要说明的是,本步骤之后,每一类用户需求都会得到与其对应的最相关的几个特征参数。
根据所述特征参数和所述第一权重,利用逻辑回归算法对与训练的预测模型进行训练,获得所述预测模型。
这里,需要说明的是,逻辑回归模型的概率分布公式如下:
其中,上述公式的含义为求给定x和θ的条件下y=1的概率,x为输入,θ为指定的参数。
作为一个可选的实现方式,获取第二用户需求要素,包括:
获取用户需求训练数据集;
这里,需要说明的是,用户需求训练数据集可以为预先从web端采集的用户需求数据;
对所述用户需求训练数据集进行预处理;
这里,需要说明的是,本步骤中的预处理与前述预处理过程类似,这里不再赘述。
对预处理后的所述用户需求训练数据集进行数据标注;
同样的,本步骤可以采用“BIO”标注法进行标注。
将数据标注后的用户需求训练数据集输入至训练好的BERT模型,抽取所述第二用户需求要素。
这里,需要说明的是,本可选实现方式的各个步骤均能采用前述处理过程的方式进行,为了避免重复,这里不再赘述。
作为一个可选的实现方式,对所述第二用户需求要素进行分析,获得用户需求数据集,包括:
利用词频逆向文件频率(term frequency-inverse document frequency,TF-IDF)算法计算表征所述用户需求要素的重要性的TF-IDF;
这里,需要说明的是,TF-IDF算法是一种在信息检索和文本挖掘中的常用加权技术。它是一种可靠的统计方法,其指标可用于衡量一个字或词在语料库中的一个文档的相对重要程度。因此,在需求重要度评价任务中,本申请实施例采用TF-IDF算法来衡量用户需求的相对重要程度。
TF-IDF算法的主要逻辑为:如果在一个文档中一个字词出现的次数增加则其重要性上升,若该字词在整个语料库中的出现频率增加则其重要度下降。TF-IDF算法原理如下:
词频TF(Term Frequency)表示词条在文本中出现的频率。
式中,nij为词条ni在文档j中出现的次数,分母表示所有词条出现的次数。
逆文档频率IDF(Inverse Document Frequency)可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。
TF-IDF是TF与IDF两个指标的乘积,即:
TF-IDF=TF*IDF
在需求重要度评价任务中,采用TF-IDF算法来衡量用户需求的相对重要程度,实际上针对的是KANO模型中所描述的期望型需求。即随着指标的变化而正比的变化的需求。魅力型需求和必备型需求由于用户一般不会表述出来,而反向型需求又可以通过语义上的反转转化为期望型需求。故本申请实施例只针对用户的期望型需求。
利用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)算法生成所述用户需求要素对应的文本主题;
本步骤具体为将提取出的用户需求要素作为输入,利用LDA算法生成用户需求的主题。其中,LDA算法是一种无监督的文本主题模型,用于生成文档中的主题,LDA认为,一篇文档是一些主题组成的一个概率分布,而每一个主题又是一些词组成的概率分布。
这里,需要说明的是,狄利克雷(Dirichlet)分布是多项式分布的共轭分布,其概率密度函数为:
对所述文本主题进行层级划分;
这里,需要说明的是,质量功能展开(Quality Function Deployment,QFD)中,会对用户的需求进行概括、合并和分类,根据具体的场景,会把用户需求分为两级或三级。在QFD中,实现该步骤的手段是亲和图(KJ法)。因此,本步骤具体为通过归纳总结的方式,将用户需求划分为几个大类,并对每一类用户的需求做归纳总结,将用户需求划分为两个层级,从而实现了用户需求的层级分析。
根据所述层级划分后的文本主题和所述TF-IDF,获取所述用户需求数据集。
这里,需要说明的是,在QFD的产品设计流程中,用户需求的分析方法分为两种:用问卷调查和多方案决策方法(Analytic Hierarchy Process,AHP)层次分析法来衡量用户需求重要度,以及,用亲和图的方法对用户需求进行归类。类似的,在本申请实施例中同样采用这两种方法来分析用户需求,在用户需求重要度的评价中,主要采用TF-IDF算法;在用户需求的层次分析中,主要采用LDA算法。
如图2所示,第二用户需求要素包括不能太吵、功耗要小、能放大件、容积大、噪音要小、一级能效、要省电、容量大、需要静音;采用本可选实施方式的分析之后,获得的用户需求数据集包括:主题为“噪音小”的用户需求数据,包括“不能太吵、噪音要小、需要静音”等用户需求要素;主题为“功耗低”的用户需求数据,包括“功耗要小、一级能效、要省电”、等用户需求要素;主题为“容量大”的用户需求数据,包括“能放大件、容积大、容量大”等用户需求要素;可见,利用本可选实施方式的分析方法,能够将杂乱无章、没有规律可循的第二用户需求要素归纳为层次分明、重要程度分型的用户需求数据集。
进一步地,作为一个可选的实现方式,所述方法还包括:
根据所述用户需求数据集,构建用户需求图谱;
显示所述用户需求图谱。
也就是说,对用户需求的重要度和层次进行分析后,以语义相似度为参考,构建用户需求图谱,以可视化地展示用户需求。
本可选实现方式中,构建特定领域产品的用户需求图谱的目的在于将口语化的、非结构化的、海量的用户需求转化为层次分明、重要程度分明的、直观的可视化图谱,以辅助设计人员更清晰地理解用户需求,让产品设计获得更高的用户满意度。综合考虑重要度与层级关系,以需求图谱的形式对需求要素进行可视化表征,从而更直观的辅助设计人员了解该产品领域最重要、核心的用户需求有哪些,需要关注的需求点、热点、痛点有哪些。经过TF-IDF与LDA算法的应用,完成了对用户需求的分析。并把需求分析结果以用户需求图谱的形式可视化呈现。
作为一个可选的实现方式,基于随机森林算法,在所述产品设计参数训练数据集中,提取与所述用户需求数据集相关的预设数量的特征参数,并计算各个所述特征参数的第一权重,包括:
(A)基于随机森林算法,计算所述产品设计参数训练集中各产品设计参数的第二权重;
这里,需要说明的是,随机森林的工作流程如下:
用随机的方式构建一个由许多决策树组成的森林,森林中的每个决策树之间相互独立没有关联;
在得到随机森林后,输入一个新的样本,每一个决策树都对样本进行分类判断(对于分类算法);
获得每一个决策树的分类结果,分类得到的结果最多的一类即为此样本的预测类别。
随机森林适用范围广泛,既可以处理属性为离散值的量,比如ID3算法,也可以处理属性为连续值的量,比如C4.5算法。另外,随机森林还可以用来进行无监督学习聚类和异常点检测,且表现优秀。
产品设计过程中,一个产品会有成百上千个特征,更加复杂的产品甚至更多,我们需要在这些特征其中选择对用户满意度影响最大特征来缩减建立模型时的特征数。可以实现相关性计算的方法有很多,比如主成分分析,皮尔逊相关系数等等。经比较,本方法采用平均效果较好的随机森林来进行相关性计算。
用随机森林进行计算特征相关性的思想是:比较每个特征在随机森林中的每个决策树上做了多少贡献,取均值,再比较特征之间的贡献大小。对于特征的贡献度,通常可以用基尼不纯度指标(Gini index)或者袋外数据(OOB)错误率作为评价指标来衡量。基尼不纯度指标的公式如下:
(B)按照预设比例,删除所述产品设计参数中,第二权重较小的产品设计参数;
(C)循环执行基于所述随机森林函数,计算未被删除的产品设计参数的第三权重,并按照所述预设比例,删除所述第三权重较小的产品设计参数;
(D)在未被删除的产品设计参数的数量达到所述预设数量的情况下,确定未被删除的产品设计参数为所述特征参数,且所述未被删除的产品设计参数的权重为所述第一权重。
上述步骤(B)至(D)的具体实现过程可以为:
对随机森林中的特征变量(产品设计参数)按照特征重要性步骤中计算出的特征重要性(第二权重)降序排序;
确定去除比例,从当前的特征变量中去除相对比例不重要的指标,进而得到一个新的特征集;
用得到的新特征集建立新的随机森林,计算特征集中每个特征的重要性并按降序排序。
重复以上步骤,直到剩下所需个数(预设个数)的特征。
如图3所示,本申请实施例还提供一种基于用户需求预测产品设计参数的装置,包括:
提取模块301,用于在用户需求数据中,提取第一用户需求要素;
预测模块302,用于将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。
本申请实施例的基于用户需求预测产品设计参数的装置,首先,提取模块301在用户需求数据中,提取第一用户需求要素;其次,预测模块302将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。如此,实现了从用户需求数据中精准提取并分析用户的需求信息,完成用户需求到产品设计参数需求的映射,实现产品概念设计的自动化,提升产品概念设计效率,降低了产品设计过程对人为因素的依赖。
其中,所述提取模块301包括:
第一处理子模块,用于处理子模块对所述用户需求数据进行预处理;
第二处理子模块,用于对预处理后的用户需求数据进行数据标注;
抽取子模块,用于利用BERT模型,在数据标注后的用户需求数据中抽取所述第一用户需求要素。
其中,所述第一处理子模块包括:
第一处理单元,用于删除无效的用户需求数据;
第二处理单元,用于对未被删除的用户需求数据进行分词处理。
其中,所述装置还包括第一训练模块,所述第一训练模块包括:
第一获取子模块,用于获取第一训练数据集;
第一训练子模块,用于将所述第一训练数据集输入至预训练的BERT模型,对预训练的BERT模型进行迭代训练,获得所述BERT模型。
其中,所述装置还包括第二训练模块,所述第二训练模块包括:
第二获取子模块,用于获取第二用户需求要素和产品参数训练数据集;
第三获取子模块,用于对所述第二用户需求要素进行分析,获得用户需求数据集;
第三处理子模块,用于基于随机森林算法,在所述产品设计参数训练数据集中,提取与所述用户需求数据集相关的预设数量的特征参数,并计算各个所述特征参数的第一权重;
第二训练子模块,用于根据所述特征参数和所述第一权重,利用逻辑回归算法对与训练的预测模型进行训练,获得所述预测模型。
其中,所述第二获取子模块,包括:
第一获取单元,用于获取用户需求训练数据集;
第三处理单元,用于对所述用户需求训练数据集进行预处理;
第四处理单元,用于对预处理后的所述用户需求训练数据集进行数据标注;
抽取单元,用于将数据标注后的用户需求训练数据集输入至训练好的BERT模型,抽取所述第二用户需求要素。
其中,所述第二获取子模块包括:
第一计算单元,用于利用词频逆向文件频率TF-IDF算法计算表征所述用户需求要素的重要性的TF-IDF;
生成单元,用于利用隐含狄利克雷分布LDA算法生成所述用户需求要素对应的文本主题;
第五处理单元,用于对所述文本主题进行层级划分;
第二获取单元,用于根据所述层级划分后的文本主题和所述TF-IDF,获取所述用户需求数据集。
其中,所述装置还包括:
构建模块,用于根据所述用户需求数据集,构建用户需求图谱;
显示模块,用于显示所述用户需求图谱。
其中,所述第三处理子模块包括:
第二计算单元,用于基于随机森林算法,计算所述产品设计参数训练集中各产品设计参数的第二权重;
第六处理单元,用于按照预设比例,删除所述产品设计参数中,第二权重较小的产品设计参数;
第七处理单元,用于循环执行基于所述随机森林函数,计算未被删除的产品设计参数的第三权重,并按照所述预设比例,删除所述第三权重较小的产品设计参数;
确定单元,用于在未被删除的产品设计参数的数量达到所述预设数量的情况下,确定未被删除的产品设计参数为所述特征参数,且所述未被删除的产品设计参数的权重为所述第一权重。
本申请实施例还提供一种基于用户需求预测产品设计参数的设备,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上所述的基于用户需求预测产品设计参数的方法实施例的各个过程,且能达到相同的技术效果,为了避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现如上所述的基于用户需求预测产品设计参数的方法方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,该可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种基于用户需求预测产品设计参数的方法,其特征在于,包括:
在用户需求数据中,提取第一用户需求要素;
将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。
2.根据权利要求1所述的方法,其特征在于,在用户需求数据中,提取第一用户需求要素,包括:
对所述用户需求数据进行预处理;
对预处理后的用户需求数据进行数据标注;
利用BERT模型,在数据标注后的用户需求数据中抽取所述第一用户需求要素。
3.根据权利要求2所述的方法,其特征在于,对所述用户需求数据进行预处理,包括:
删除无效的用户需求数据;
对未被删除的用户需求数据进行分词处理。
4.根据权利要求2所述的方法,其特征在于,BERT模型的训练过程包括:
获取第一训练数据集;
将所述第一训练数据集输入至预训练的BERT模型,对预训练的BERT模型进行迭代训练,获得所述BERT模型。
5.根据权利要求1所述的方法,其特征在于,所述预测模型的训练过程包括:
获取第二用户需求要素和产品参数训练数据集;
对所述第二用户需求要素进行分析,获得用户需求数据集;
基于随机森林算法,在所述产品设计参数训练数据集中,提取与所述用户需求数据集相关的预设数量的特征参数,并计算各个所述特征参数的第一权重;
根据所述特征参数和所述第一权重,利用逻辑回归算法对与训练的预测模型进行训练,获得所述预测模型。
6.根据权利要求5所述的方法,其特征在于,获取第二用户需求要素,包括:
获取用户需求训练数据集;
对所述用户需求训练数据集进行预处理;
对预处理后的所述用户需求训练数据集进行数据标注;
将数据标注后的用户需求训练数据集输入至训练好的BERT模型,抽取所述第二用户需求要素。
7.根据权利要求5所述的方法,其特征在于,对所述第二用户需求要素进行分析,获得用户需求数据集,包括:
利用词频逆向文件频率TF-IDF算法计算表征所述用户需求要素的重要性的TF-IDF;
利用隐含狄利克雷分布LDA算法生成所述用户需求要素对应的文本主题;
对所述文本主题进行层级划分;
根据所述层级划分后的文本主题和所述TF-IDF,获取所述用户需求数据集。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述用户需求数据集,构建用户需求图谱;
显示所述用户需求图谱。
9.根据权利要求5所述的方法,其特征在于,基于随机森林算法,在所述产品设计参数训练数据集中,提取与所述用户需求数据集相关的预设数量的特征参数,并计算各个所述特征参数的第一权重,包括:
基于随机森林算法,计算所述产品设计参数训练集中各产品设计参数的第二权重;
按照预设比例,删除所述产品设计参数中,第二权重较小的产品设计参数;
循环执行基于所述随机森林函数,计算未被删除的产品设计参数的第三权重,并按照所述预设比例,删除所述第三权重较小的产品设计参数;
在未被删除的产品设计参数的数量达到所述预设数量的情况下,确定未被删除的产品设计参数为所述特征参数,且所述未被删除的产品设计参数的权重为所述第一权重。
10.一种基于用户需求预测产品设计参数的装置,其特征在于,包括:
提取模块,用于在用户需求数据中,提取第一用户需求要素;
预测模块,用于将所述第一用户需求要素输入至预测模型,预测所述第一用户需求要素所对应的产品设计参数。
11.一种基于用户需求预测产品设计参数的设备,其特征在于,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至9中任一项所述的基于用户需求预测产品设计参数的方法。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至9中任一项所述的基于用户需求预测产品设计参数的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098410.0A CN113792147A (zh) | 2021-09-18 | 2021-09-18 | 基于用户需求预测产品设计参数的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098410.0A CN113792147A (zh) | 2021-09-18 | 2021-09-18 | 基于用户需求预测产品设计参数的方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113792147A true CN113792147A (zh) | 2021-12-14 |
Family
ID=78878965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111098410.0A Pending CN113792147A (zh) | 2021-09-18 | 2021-09-18 | 基于用户需求预测产品设计参数的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792147A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114638117A (zh) * | 2022-03-29 | 2022-06-17 | 施昆宏 | 一种基于人工智能的数据处理方法、***及云平台 |
-
2021
- 2021-09-18 CN CN202111098410.0A patent/CN113792147A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114638117A (zh) * | 2022-03-29 | 2022-06-17 | 施昆宏 | 一种基于人工智能的数据处理方法、***及云平台 |
CN114638117B (zh) * | 2022-03-29 | 2022-11-08 | 厦门链建科技有限公司 | 一种基于人工智能的数据处理方法、***及云平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN104933183B (zh) | 一种融合词向量模型和朴素贝叶斯的查询词改写方法 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN103744928A (zh) | 一种基于历史访问记录的网络视频分类方法 | |
CN112861990A (zh) | 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质 | |
CN106776672A (zh) | 技术发展脉络图确定方法 | |
CN111190968A (zh) | 基于知识图谱的数据预处理和内容推荐方法 | |
US20190340517A2 (en) | A method for detection and characterization of technical emergence and associated methods | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及*** | |
CN111241425A (zh) | 一种基于层次注意力机制的poi推荐方法 | |
JP2011134230A (ja) | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム | |
CN113032573B (zh) | 一种结合主题语义与tf*idf算法的大规模文本分类方法及*** | |
CN113792147A (zh) | 基于用户需求预测产品设计参数的方法、装置及设备 | |
Darena et al. | Machine learning-based analysis of the association between online texts and stock price movements | |
CN111767404B (zh) | 一种事件挖掘方法和装置 | |
Costa et al. | Semantic enrichment of product data supported by machine learning techniques | |
Yi-bin et al. | Improvement of ID3 algorithm based on simplified information entropy and coordination degree | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
CN111274404B (zh) | 一种基于人机协同的小样本实体多领域分类方法 | |
Alorini et al. | Machine learning enabled sentiment index estimation using social media big data | |
CN113064978A (zh) | 基于特征词匹配的项目工期合理性判断方法及装置 | |
Midhunchakkaravarthy et al. | Evaluation of product usability using improved FP-growth frequent itemset algorithm and DSLC–FOA algorithm for alleviating feature fatigue | |
Krasnov et al. | Comparative analysis of scientific papers collections via topic modeling and co-authorship networks | |
CN117556118B (zh) | 基于科研大数据预测的可视化推荐***及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |