CN111667306A

CN111667306A - 面向定制化生产的客户需求识别方法、***及终端

Info

Publication number: CN111667306A
Application number: CN202010461695.9A
Authority: CN
Inventors: 张焱; 冯乔琦; 韦航; 黄庆卿; 郭京龙
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-15

Abstract

本发明属于信息处理技术领域，涉及一种面向定制化生产的客户需求识别方法、***及终端；所述需求识别方法包括RPA管理平台调用RPA机器人采集客户需求信息，并将客户需求信息存入客户需求信息数据库；调用数据库接口接收客户需求信息数据；对采集到的客户需求信息进行至少包括去停用词的预处理；对预处理后的数据采用基于词表的分词方式进行分词；计算出分词后的文本数据的词向量并作为数据特征；对得到的数据特征输入到预设的需求分类模型中，识别出该客户需求信息的分类结果；本发明能对批量采集到的客户定制化需求信息进行一系列分析预处理，结合深度学习模型，对客户定制化需求进行了需求识别与分类，用较小的交互，获得准确的客户需求。

Description

面向定制化生产的客户需求识别方法、***及终端

技术领域

本发明属于信息处理技术领域，涉及一种面向定制化生产的客户需求识别方法、***及终端。

背景技术

随着经济的全球化发展，市场竞争日益激烈。企业要在激烈的竞争中赢得客户，就需要提供满足客户的个性化、多样化需求的产品，因此，面向客户的定制化生产成为企业赢得市场的关键手段。定制化生产是以客户需求为导向的，要求企业能够针对不同客户提出的不同需求做出快速的响应。通过对各类客户的需求进行获取、识别、分类，将准确真实的需求映射到产品功能，再映射到实现产品功能的产品结构上，最终完成定制化生产。

对获取的不同客户的不同需求，需要对客户的非结构数据，与企业的结构数据进行匹配分类，通过运用基于深度学习的自然语言处理，用少量的交互，准确定位客户在颜色、配置、收货地址、交付周期等各方面的需求，获得较高的满意度。

发明内容

有鉴于此，本发明的目的在于提供一种面向定制化生产的客户需求识别方法、***及终端，通过分析已经收集到的客户需求或者创意传输信息，利用数据清洗、数据挖掘和特征提取的方法建立需求分类模型，以满足定制化生产的目标。

为达到上述目的，本发明提供如下技术方案：

在本发明的第一方面，本发明提供了一种面向定制化生产的客户需求识别方法；所述识别方法包括：

RPA管理平台调用RPA机器人采集客户需求信息，并将客户需求信息存入客户需求信息数据库；

调用数据库接口接收客户需求信息数据；

对采集到的客户需求信息进行至少包括去停用词的预处理；

对预处理后的数据采用基于词表的分词方式进行分词；

计算出分词后的文本数据的词向量并作为数据特征；

对得到的数据特征输入到预设的需求分类模型中，识别出该客户需求信息的分类结果。

进一步的，采用jieba分词方式对预处理后的数据进行分词，具体包括：

构建出Trie树分词模型，采集预处理后的客户需求信息句子，并对客户需求信息句子进行清洗；

利用Trie树分词模型对清洗后的句子出构造一个前缀词典；

基于前缀词典进行扫描，生成客户需求信息句子中每个汉字的所有可能成词情况；

对输入的客户需求信息句子进行切分，得到所有可能的切分所构成的有向无环图；

通过动态规划算法，计算所有可能的切分方式构成的有向无环图中的最大概率路径，也就得到了最终的切分形式，即分词结果。

进一步的，采用TF-IDF文本特征提取方法计算客户需求信息的词向量，具体包括：

提取出客户需求信息文本中的TF特征；

提取客户需求信息文本中的IDF特征；

将TF特征和IDF特征进行叠加，提取客户需求信息文本中的TF-IDF特征；

TF特征的计算公式表示为；

式中，分子为特征词t在文本中出现的次数，分母则是文本中所有特征词的个数；计算的结果即为某个特征词的词频；

IDF特征的计算公式表示为；

式中，|D|表示语料中文本的总数，|D_ti|表示文本中包含特征词ti的数量；为防止该词语在语料库中不存在，即分母为0，使用1+|D_ti|作为分母；

TF-IDF特征的计算公式表示为；

TF-IDF＝TF×IDF。

进一步的，采用TextCNN模型作为预设的需求分类模型，该运行过程具体包括：

使用预先训练好的词向量作嵌入层，输入处理好的数据特征，获得嵌入表示；

获得嵌入表示后，进一步输入至卷积层，通过卷积提取出客户对于产品需求个性定制化包括颜色、配置、收货地址、交付周期的n-gram特征，激活对应的卷积核；

将卷积提取的n-gram特征输入至最大池化层中，提取激活程度最大的特征；

将激活程度最大的特征输入全连接层，输出不同客户对于定制化产品的需求分类。

在本发明的第二方面，本发明还提供了一种面向定制化生产的客户需求识别***，所述***包括：

RPA管理平台，对不同需求流程部署执行不同获取流程的RPA机器人，并将RPA机器人链接到RPA管理平台上；

RPA机器人，用于批量获取客户需求信息，并上传至RPA管理平台中；

客户需求信息数据库，用户存储RPA管理平台中的客户需求信息；

数据库接口模块，用于调用客户需求信息数据库中的客户需求信息；

预处理模块，用于对采集到的客户需求信息进行至少包括去停用词的预处理；；

分词模块，用于对预处理后的数据采用基于词表的分词方式进行分词；

特征提取模块，用于提取出分词后的文本数据的词向量并作为数据特征；

分类模块，对得到的数据特征输入到预设的需求分类模型中，识别出该客户需求信息的分类结果。

在本发明的第三方面，本发明提供了一种面向定制化生产的客户需求识别终端，其特征在于，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述面向定制化生产的客户需求识别方法。

本发明的有益效果在于：

本发明利用RPA机器人能够批量采集到客户需求信息，并从客户需求信息数据库中能很好利用客户定制化生产数据，通过对数据进行一系列分析预处理，结合深度学习模型TextCNN，对客户定制化需求进行了需求识别与分类，用较小的交互，获得准确的客户需求。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明的面向定制化生产的客户需求识别方法示意图；

图2为本发明构建出客户需求信息数据库的方法流程图；

图3为本发明所采用的jieba分词方法的流程图；

图4为本发明中预设的需求分类模型识别客户分类需求结果的流程图；

图5为本发明中面向定制化生产的客户需求识别***结构示意图；

图6为本发明中面向定制化生产的客户需求识别终端的结构示意图。

具体实施方式

下面结合说明书附图对本发明进行进一步的说明。

需要说明的是，本发明实施例的执行主体可以为各种类型的终端，终端例如可以是计算机、服务器、平板电脑、个人数字助理(英文：Personal Digital Assistant，缩写：PDA)、移动互联网设备(英文：Mobile Internet Device，缩写：MID)等可进行文本处理的设备，本发明对此不作任何限制。

客户需求指在广泛和深入地了解客户的实际需求，从而帮助企业做出正确的决策。不管是经济低迷还是高涨，企业的生存发展都应该始终以客户需求为导向，也只有以客户的需求为导向，不断完善业务的发展方向，才能赢取更多消费者的青睐，提高客户满意度。

由于采集到的客户需求信息一般是非结构化的数据，所以本发明为了将这些非结构化的数据与企业的结构数据进行匹配分类，需要对定制化生产的客户需求信息进行识别分类，如图1所示，为本发明所述需求识别方法示意图。图1描述了本发明所述方法的基本流程。

101、RPA管理平台调用RPA机器人采集客户需求信息，并将客户需求信息存入客户需求信息数据库；

如图2所示，可以使用以下方式构建出客户需求信息数据库；

1011、RPA管理平台对不同需求流程部署执行不同获取流程的RPA机器人，并将RPA机器人链接到RPA管理平台上；

1012、客户向RPA管理平台发出提交需求请求，RPA管理平台自动受理客户的提交请求，并基于提交请求的优先级和信息量，确定调用RPA机器人的时间和数量；

1013、在调用时间将请求所需执行的任务分配给一个或多个RPA机器人；

1014、RPA机器人被调用后，执行工作流采集对应的客户需求信息，并将需求信息回传至RPA管理平台中；

1015、RPA管理平台将获取到的客户需求信息存入数据库中。

本发明中客户需求信息是属于客户定制化生产数据，比如客户发出需求信息“我需要一只价格在20元左右，具有美白功效的牙膏”；RPA机器人获取用户发出的需求信息，传回RPA管理平台后通过数据回传接口输出至客户需求信息数据库。

102、调用数据库接口接收客户需求信息数据；

此时，调用客户需求信息数据库的接口，接收大量的客户需求信息；此时可以按照RPA机器人的不同，进行一个粗略的分类，比如说对第一RPA机器人采集到的客户需求信息与第二RPA机器人采集到的客户需求信息分别进行处理，假设第一RPA机器人采集来自于便利店平台的需求信息，例如“我想要一瓶柠檬味的苏打水”；第二RPA机器人采集来自于某家电销售平台的需求信息，例如“我想要一台55英寸的无边框电视机”；由于这两种需求信息的差别较大，所以在处理数据时，可以按照RPA机器人采集数据的来源进行粗分类。

103、对采集到的客户需求信息进行至少包括去停用词的预处理；

停用词为不具有实际意义的词，其会影响对文本数据的正常语义分析，本发明实施例中采用人工构建停用词表的方式对文本数据进行去停用词处理。

104、对预处理后的数据采用基于词表的分词方式进行分词；

本实施例考虑到与英文以空格作为天然的分隔符不同，中文字符在语义识别时，需要把数个字符组合成词，才能表达真正的含义，因此需要对文本进行分词处理。本发明采用如图所示的jieba分词方法进行预处理，如图3所示，包括：

1041、构建出Trie树分词模型，采集预处理后的客户需求信息句子，并对客户需求信息句子进行清洗；

1042、利用Trie树分词模型对清洗后的句子出构造一个前缀词典；

1043、基于前缀词典进行扫描，生成客户需求信息句子中每个汉字的所有可能成词情况；

1044、对输入的客户需求信息句子进行切分，得到所有可能的切分所构成的有向无环图；

1045、通过动态规划算法，计算所有可能的切分方式构成的有向无环图中的最大概率路径，也就得到了最终的切分形式，即分词结果。

具体而言，将输入句子和分词结果当作两个序列，句子为观测序列，分词结果为状态序列，当完成状态序列的标注，也就得到了分词结果。以“白色柠檬味牙膏”为例，我们知道“白色果味牙膏”的分词结果是“白色/柠檬味/牙膏”。对于分词状态，由于jieba分词中使用的是4-tag，因此我们以4-tag进行计算。4-tag，也就是每个字处在词语中的4种可能状态，B、M、E、S，分别表示Begin(这个字处于词的开始位置)、Middle(这个字处于词的中间位置)、End(这个字处于词的结束位置)、Single(这个字是单字成词)。具体如下：“白色/柠檬味/牙膏”都是多字组合成的词，因此，“白”、“色”位于“白色”的B和E；“柠”、“檬”、“味”依次位于“柠檬味”的B、M、E；“牙”、“膏”位于“牙膏”的B和E。

在一些可行的实施例中，在对客户需求信息进行分词的过程中，本申请可以通过基于外部词典或新词发现等技术来提高分词的准确率，从而辅助关键词提取任务。

举例来说，当通过基于外部词典的技术来辅助进行客户需求信息文本的分词处理时，构建外部词典的过程可以是：通过网络搜索首先采集该产品的应用领域下的词库和购物软件下的所有词库，获得初始领域词语或短语，然后可以对初始领域词语或短语进行筛选，过滤掉重复性词语，保留词长度为预设长度的词语。进一步的，可以通过分词工具进行进一步筛选，过滤掉连词、介词、助动词等无实意词汇，得到该客户需求信息文本对应领域的外部词典。

在一个补充实施例中，当客户需求信息属于长段需求信息，比如说“我需要一只200g，大概三十元左右，柠檬味的云南白药牙膏”；还可以对客户需求信息文本进行分句、分词、词性标注、词性过滤等预处理，得到分好词的该客户需求信息文本的词语集合D’＝{D1,D2...Dn}，对客户需求信息文本进行分析，获取该客户需求信息文本的关键字在该客户需求信息文本中对应的词语，生成关键词候选集W’＝{W1,W2...Wm}。

通过词嵌入将客户需求信息文本的词语集合和关键词候选集嵌入为词级的向量空间表示(例如基于Word2vec词向量表示模型，综合考虑词性特征，优化特征提取方式，得到更多具有代表性特征的有效词语)，得到D’与W’中各个词语间的余弦相似度ε＝similarity(D’，W’)，也可以得到D’中各个词语间的余弦相似度γ＝similarity(D’)。

利用ε和γ，计算出MMR(Maximal Marginal Relevance，最大边界相关法)值。最后，根据MMR值提取得分最高的Top-K个关键词作为该段客户需求信息文本的关键词，比如提取后的可以是“200g”、“三十元”、“柠檬味”、“云南白药”以及“牙膏”。

105、计算出分词后的文本数据的词向量并作为数据特征；

由于已经采集到了分词后的客户需求信息，可以采用基于统计学的方法(共现矩阵、SVD分解)或者基于不同结构的神经网络比如word2vec等方法计算出分词后的文本数据的词向量。

在一个优选的实施例中，采用TF-IDF文本特征提取方法计算客户需求信息的词向量，具体包括：

提取出客户需求信息文本中的TF特征；

提取客户需求信息文本中的IDF特征；

TF特征的计算公式表示为；

式中，n_i，j表示词语t_i在文本d_j中的出现次数，∑_kn_k，j表示在文本d_j中所有词语；tf_i，j即为词语t_i即特征词t_i的词频；

IDF特征的计算公式表示为；

式中，|D|表示语料中文本的总数，|D_ti|表示文本中包含特征词t_i的数量；为防止该词语在语料库中不存在，即分母为0，使用1+|D_ti|作为分母；

TF-IDF特征的计算公式表示为；

TF-IDF＝TF×IDF。

106、对得到的数据特征输入到预设的需求分类模型中，识别出该客户需求信息的分类结果。

具体的，参考如图4所示：

1061、使用预先训练好的词向量作嵌入层，输入处理好的数据特征，获得嵌入表示；

1062、获得嵌入表示后，进一步输入至卷积层，通过卷积提取出客户对于产品需求个性定制化包括颜色、配置、收货地址、交付周期的n-gram特征，激活对应的卷积核；

1063、将卷积提取的n-gram特征输入至最大池化层中，提取激活程度最大的特征；

1064、将激活程度最大的特征输入全连接层，输出不同客户对于定制化产品的需求分类。

下面为本发明装置实施例，本发明装置实施例用于执行本发明方法第一实施例和第二实施例实现的方法，为了便于说明，仅示出了本发明实施例相关的部分，具体未揭示的部分，请参照本发明第一实施例至第二实施例。

请参阅图5，在一些可行的实施方式中，一种面向定制化生产的客户需求识别***如图5所示，所述***包括：

本发明实施例还提供了一种面向定制化生产的客户需求识别终端，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现一种面向定制化生产的客户需求识别方法。

如图6所示，本发明实施例中的终端包括：至少一个输入设备；至少一个处理器，例如CPU；至少一个存储器；至少一个输出设备，上述输入设备、处理器、存储器和输出设备通过总线连接。其中，总线用于实现这些组件之间的连接通信。其中，本发明实施例中装置的输入设备和输出设备可以是有线发送端口，也可以为无线设备，例如包括天线装置，用于与其他节点设备进行信令或数据的通信。

该处理器可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)或者CPU和NP的组合。

该处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

该存储器可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

可选地，该存储器还用于存储程序指令。该处理器可以调用该存储器存储的程序指令，实现如本发明第一实施例、第二实施例所示的方法。

该总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

具体的，处理器2000，用于输入客户需求信息文本；对采集到的客户需求信息进行至少包括去停用词的预处理；对预处理后的数据采用基于词表的分词方式进行分词；计算出分词后的文本数据的词向量并作为数据特征；对得到的数据特征输入到预设的需求分类模型中，识别出该客户需求信息的分类结果。前述图1～图4所示的实施例中，各步骤方法流程可以基于该终端的结构实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向定制化生产的客户需求识别方法，其特征在于，

调用数据库接口接收客户需求信息数据；

对采集到的客户需求信息进行至少包括去停用词的预处理；

对预处理后的数据采用基于词表的分词方式进行分词；

计算出分词后的文本数据的词向量并作为数据特征；

2.根据权利要求1所述的一种面向定制化生产的客户需求识别方法，其特征在于，所述RPA管理平台调用RPA机器人采集客户需求信息，并将客户需求信息存入客户需求信息数据库包括：

RPA管理平台对不同需求流程部署执行不同获取流程的RPA机器人，并将RPA机器人链接到RPA管理平台上；

客户向RPA管理平台发出提交需求请求，RPA管理平台自动受理客户的提交请求，并基于提交请求的优先级和信息量，确定调用RPA机器人的时间和数量；

在调用时间将请求所需执行的任务分配给一个或多个RPA机器人；

RPA机器人被调用后，执行工作流采集对应的客户需求信息，并将需求信息回传至RPA管理平台中；

RPA管理平台将获取到的客户需求信息存入数据库中。

3.根据权利要求1所述的一种面向定制化生产的客户需求识别方法，其特征在于，采用jieba分词方式对预处理后的数据进行分词，具体包括：

利用Trie树分词模型对清洗后的句子出构造一个前缀词典；

4.根据权利要求1所述的一种面向定制化生产的客户需求识别方法，其特征在于，采用TF-IDF文本特征提取方法计算客户需求信息的词向量，具体包括：

提取出客户需求信息文本中的TF特征；

提取客户需求信息文本中的IDF特征；

TF特征的计算公式表示为；

IDF特征的计算公式表示为；

式中，|D|表示语料中文本的总数，|D_ti|表示文本中包含特征词t_i的数量；

TF-IDF特征的计算公式表示为；

TF-IDF＝TF×IDF。

5.根据权利要求1所述的一种面向定制化生产的客户需求识别方法，其特征在于，采用TextCNN模型作为预设的需求分类模型，该运行过程具体包括：

6.一种面向定制化生产的客户需求识别***，其特征在于，所述***包括：

7.一种面向定制化生产的客户需求识别终端，其特征在于，包括处理器和存储器，所述存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1～5任一所述的方法。