CN117614845B

CN117614845B - 基于大数据分析的通讯信息处理方法及装置

Info

Publication number: CN117614845B
Application number: CN202311513146.1A
Authority: CN
Inventors: 康波峰; 黄明金; 周雯; 熊刚
Original assignee: Weichuang Software Wuhan Co ltd
Current assignee: Weichuang Software Wuhan Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-05-10
Anticipated expiration: 2043-11-13
Also published as: CN117614845A

Abstract

本发明一种基于大数据分析的通讯信息处理方法及装置，涉及通讯信息处理技术领域，所述方法包括：采集用户的初始通讯数据，并按照数据类型存储至通讯数据库中；对采集到的初始通讯数据进行预处理，得到标准通讯数据；设计标准通讯数据的特征组合，根据特征组合对标准通讯数据进行特征提取，得到第一特征集；根据筛选规则对第一特征集进行筛选处理，得到第二特征集；获取通讯任务列表，根据通讯任务列表中的通讯任务对第二特征集进行分析处理，得到各个通讯任务对应的分析结果；利用可视化工具将分析结果进行可视化。本发明利用大数据分析的优势，对通讯数据进行个性化分析，为用户提供个性化、智能化、精准化的服务。

Description

基于大数据分析的通讯信息处理方法及装置

技术领域

本发明通讯信息处理技术领域，具体涉及一种基于大数据分析的通讯信息处理方法及装置。

背景技术

随着通讯技术的发展和普及，人们的通讯行为产生了大量的数据，包括短信、电话通话记录、社交媒体消息等。这些通讯数据蕴含着丰富的信息，可以用于个人通讯习惯分析、社交关系挖掘、商业营销等多个领域。然而，传统的通讯数据处理方法往往面临着诸多挑战和局限，包括数据量大、数据种类繁多、数据质量参差不齐等问题。

目前，通讯数据的处理往往采用传统的数据库管理***和数据挖掘技术。这些方法在处理结构化数据方面表现良好，但在处理非结构化的通讯数据时存在一些局限。例如，传统的数据库管理***可能无法有效地处理大规模的文本数据，而数据挖掘技术在特征提取和任务分析方面可能面临着效率低下的问题。此外，传统的通讯数据处理方法往往缺乏对用户通讯行为的深层次理解和挖掘，难以为用户提供个性化、精准的服务。

中国申请号为202210491734.9的发明专利公开了一种基于大数据的通讯信息自动分析***及设备，根据对应用户的历史搜索记录，总结出用户特别关心的领域，随后搜索信息分析单元根据之前总结出的该用户的关心领域配合用户输入的关键词使用搜索引擎进行搜索。该现有技术是根据用户的本地文件、网上浏览记录、搜索兴趣等来做粗糙的推荐，其并没有对通讯信息做深度的挖掘和解析，且该方法通常需要根据不定期的推送来获得用户反馈，以此进行后续推荐的优化，这样的方式不够智能化，并会使得用户的体验感较差。

发明内容

有鉴于此，本发明提供基于大数据分析的通讯信息处理方法及装置，利用大数据分析的优势，对通讯数据进行个性化分析，为用户提供个性化、智能化、精准化的服务，且提高了通讯数据处理的效率和质量，实现对通讯数据更深入和全面的分析，提升了通讯数据的利用价值。

本发明的技术目的是这样实现的：

一方面，本发明提供一种基于大数据分析的通讯信息处理方法，包括以下步骤：

S1采集用户的初始通讯数据，并按照数据类型存储至通讯数据库中；

S2对采集到的初始通讯数据进行预处理，得到标准通讯数据，将标准通讯数据存储至通讯数据库中；

S3设计标准通讯数据的特征组合，根据特征组合对标准通讯数据进行特征提取，得到第一特征集；

S4根据筛选规则对第一特征集进行筛选处理，得到第二特征集；

S5获取通讯任务列表，根据通讯任务列表中的通讯任务对第二特征集进行分析处理，得到各个通讯任务对应的分析结果；

S6利用可视化工具将分析结果进行可视化，并根据用户需求对用户进行结果展示。

在上述技术方案的基础上，优选的，步骤S2包括：

S21对采集到的初始通讯数据进行编码，得到初始通讯数据的唯一标识符；

S22根据唯一标识符来判断初始通讯数据是否重复，若唯一标识符重复，则合并对应的初始通讯数据，得到第一通讯数据；

S23设置第一阈值δ₁、第二阈值δ₂和第三阈值δ₃，计算第一通讯数据中的缺失字符的数量N₁，并与第一阈值δ₁、第二阈值δ₂和第三阈值δ₃进行判别：

若第一通讯数据的缺失字符的数量δ₁<N₁≤δ₂，则将该第一通讯数据归入第一待修复数据；

若第一通讯数据的缺失字符的数量δ₂<N₁≤δ₃，则将该第一通讯数据归入第二待修复数据；

若第一通讯数据的缺失字符的数量δ₃<N₁，则将该第一通讯数据归入第三待修复数据；

S24对第一待修复数据、第二待修复数据和第三待修复数据分别进行处理，得到第二通讯数据；

S25采用异常检测方法对第二通讯数据进行异常辨别，得到异常数据，并对异常数据进行修复，得到第三通讯数据；

S26对第三通讯数据进行格式转换和归一化，得到标准通讯数据。

在上述技术方案的基础上，优选的，步骤S24包括：

在第一通讯数据中对第一待修复数据予以删除；

获取第二待修复数据的时间戳，作为目标时间戳，以目标时间戳为原点，在第一通讯数据中分别向前搜索Y个非缺失的通讯数据向后搜索Y个非缺失的通讯数据/>计算/>和/>的加权平均值，利用加权平均值对第二待修复数据进行填充，得到第二修复数据，其中/>的权值小于/>的权值；

采用预训练的随机森林模型对第三待修复数据进行缺失值的预测，根据随机森林模型的预测结果，将第三待修复数据中的缺失值进行填充，得到第三修复数据；

利用第二修复数据、第三修复数据更新第一通讯数据，得到第二通讯数据。

在上述技术方案的基础上，优选的，步骤S25包括：

S251遍历第二通讯数据，计算每个第二通讯数据与其他第二通讯数据之间的第一距离，将第一距离按从小到大排列形成距离排序表，选择前m个通讯数据作为当前第二通讯数据的邻居集合，将第二通讯数据与对应的邻居集合作为关系集；

S252遍历关系集，根据第一距离计算每个第二通讯数据与其邻居之间的第二距离d₂，并将第二距离更新至关系集中，其中，第二距离的计算公式为：

式中，为当前第二通讯数据的邻居集合中第i个邻居与该第二通讯数据的第二距离，/>为当前第二通讯数据的邻居集合中第i个邻居与该第二通讯数据的第一距离，/>为当前第二通讯数据的邻居集合中第i个邻居与当前第二通讯数据的距离排序表中第m个第二通讯数据之间的第一距离；

S253遍历关系集，根据第二距离计算每个第二通讯数据的距离密度，并更新至关系集中，其中，距离密度的计算公式为：

式中，ρ_d为当前第二通讯数据的距离密度，为当前第二通讯数据的第二距离之和，m为当前第二通讯数据的邻居集合中邻居的数量；

S254设置密度阈值，根据距离密度计算每个第二通讯数据的局部密度，将局部密度大于密度阈值的第二通讯数据作为异常数据，其中，局部密度的计算公式为：

式中，为当前第二通讯数据的局部密度，∑ρ_d为所有第二通讯数据的距离密度之和，A表示第二通讯数据的数量；

S255获取异常数据的时间戳，设置时间间隔，以异常数据的时间戳为原点，在第二通讯数据中依次向前获取n个时间间隔的正常数据，利用n个时间间隔的正常数据对异常数据进行修复，得到第三通讯数据。

在上述技术方案的基础上，优选的，步骤S255中，异常修复的公式如下：

式中，表示经修复后的异常数据，x^k(t)表示第k个时间间隔的正常数据，λ_k为第k个时间间隔的正常数据的加权系数；

其中，λ_k的计算公式为：

式中，是第k个时间间隔的正常数据的初始分配权重，/>为时间衰减项，r为衰减因子，t_k为第k个时间间隔的正常数据的时间数值，t_x为对应异常数据的时间数值，g_k～x为第k个时间间隔的正常数据与对应异常数据的相关系数。

在上述技术方案的基础上，优选的，步骤S3包括：

S31根据标准通讯数据的特点确定B个特征类型，根据确定的B个特征类型进行特征重组，得到C个特征组合，其中，特征重组的方式包括特征运算、特征交叉和特征变换；

S32根据设计的C个特征组合以及确定的B个特征类型，对每个标准通讯数据进行相应的特征提取，即每个标准通讯数据均提取得到B+C个特征，将这B+C个特征作为第一特征，所有标准通讯数据的第一特征组成第一特征集。

在上述技术方案的基础上，优选的，步骤S4包括：

S41将第一特征组成B+C维的矩阵，作为第一特征矩阵；

S42利用选择函数对第一特征矩阵进行冗余去除，得到第二特征，选择函数为：

F＝Sigmoid(conv(fc(AP(X))))

式中，F为特征筛选函数，Sigmoid表示激活函数，conv表示卷积处理，fc表示全连接层处理，AP表示自适应池化处理，X为第一特征矩阵；

S43将所有的第二特征组成第二特征集。

在上述技术方案的基础上，优选的，步骤S5包括：

S51获取通讯任务列表，通讯任务包括分类任务、聚类任务和推荐任务；

S52当通讯任务为分类任务时，确定分类目标，根据分类目标从第二特征集中选取所需数据类型对应的特征，作为分类特征，采用多个SVM对分类特征进行分类预测，得到分类结果；

S53当通讯任务为聚类任务时，确定聚类目标，根据聚类目标确定聚类簇的数量，并从第二特征集中选取所需数据类型对应的特征，作为聚类特征，对聚类特征按照聚类簇的数量进行k-means++聚类分析，得到各个聚类簇的聚类标签，将聚类簇及其聚类标签作为聚类结果；

S54当通讯任务为推荐任务时，确认推荐目标，根据推荐目标从第二特征集中选取所需数据类型对应的特征，作为推荐特征，采用推荐算法对推荐特征进行推荐，得到推荐结果。

在上述技术方案的基础上，优选的，步骤S54中，推荐算法包括：

步骤一、将推荐特征设置为推荐算法的节点，并放入开启列表，根据推荐特征的相关度指标，对开启列表中的节点进行评价，得到评价分数，其中，推荐特征的相关度指标是根据关联规则挖掘其与相邻推荐特征的关联度得到；

步骤二、将评价分数按从大到小进行排序，选取第一个评价分数对应的节点作为推荐算法的起始节点，将该起始节点放入关闭列表中；

步骤三、计算开启列表中每个节点与关闭列表中所有节点的评价分数的加权值，并按照从大到小排序，选取第一个加权值对应的开启列表中的节点，将其放入关闭列表中，更新开启列表的加权值；

步骤四、重复步骤三，直至开启列表为空。

另一方面，本发明还提供一种基于大数据分析的通讯信息处理装置，所述装置用于执行上述任一项所述的方法，所述装置包括：

数据采集模块，其内置有通讯数据库，用于采集用户的初始通讯数据，并按照数据类型存储至通讯数据库中；

数据处理模块，其用于对初始通讯数据进行预处理，得到标准通讯数据，并将标准通讯数据存储至通讯数据库中，预处理包括重复数据删除、缺失数据识别及缺失值填充、异常数据识别及修复；

特征存储模块，其用于设计标准通讯数据的特征组合，根据特征组合对标准通讯数据进行特征提取，得到第一特征集，并根据筛选规则对第一特征集进行筛选处理，得到第二特征集，将第一特征集和第二特征集进行存储；

数据分析模块，其用于获取通讯任务列表，根据通讯任务列表中的通讯任务对第二特征集进行分析处理，得到各个通讯任务对应的分析结果，将分析结果进行存储；

可视化展示模块，其用于对分析结果进行可视化，根据用户需求将可视化后的分析结果和对应的通讯数据对用户进行展示。

本发明的方法相对于现有技术具有以下有益效果：

(1)本发明通过对通讯数据进行深度的预处理，增加通讯数据的可用性，使得原本质量不高的通讯数据在处理后能够使用，避免资源的浪费，并基于任务驱动来进行定制化分析，根据不同的通讯任务，得到相应的分析结果，提高分析的针对性和实用性，并进行可视化展示，帮助用户更好的使用通讯数据；

(2)本发明通过对初始通讯数据进行编码、去重、缺失值处理、异常检测和修复，最终得到标准通讯数据，将标准通讯数据存储至通讯数据库中，提高了数据的质量和一致性，提升通讯数据的完整性和准确性，确保了后续分析和应用的可靠性；

(3)本发明通过特征重组和提取，可以根据标准通讯数据的特点确定特征类型，并对特征进行重组，得到新的特征组合，这有助于提取更具代表性和有效性的特征，从而更好地表征通讯数据的特征和模式，之后利用选择函数对第一特征矩阵进行冗余去除，得到第二特征，这有助于降低特征矩阵的维度，去除冗余信息，提高了特征的紧凑性和有效性，有利于后续的数据处理和分析；

(4)本发明根据不同的通讯任务类型进行分类预测、聚类分析和推荐效果，为用户提供了多种不同的数据处理和分析方式，拓展了通讯数据的应用领域，提高了数据的应用价值和实用性；

(5)本发明提供的推荐算法有助于实现个性化推荐、选择高价值节点、动态更新推荐过程以及优化推荐结果，提高了推荐的效率和准确性，增强了用户对推荐结果的满意度，从而提高了数据的应用价值和用户体验；

(6)本发明的处理装置利用大数据分析的优势，对通讯数据进行个性化分析，为用户提供个性化、精准的服务，这样的装置有望提高通讯数据处理的效率、提升对非结构化数据的处理能力，并为用户提供更加智能化、个性化的通讯服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的方法流程图；

图2为本发明实施例的装置结构图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，首先，本发明提供一种基于大数据分析的通讯信息处理方法，包括以下步骤：

具体地，本发明一实施例中，步骤S1包括：

采集用户的初始通讯数据是指收集用户在通讯设备上的各种通讯活动，包括电话通话记录、短信、邮件、社交媒体消息等。这些数据类型包括文本、音频、视频等形式，需要按照其特定的数据类型进行存储。

通讯数据库是一个专门用来存储用户通讯数据的数据库，它需要设计合理的数据结构来存储不同类型的通讯数据。例如，电话通话记录可以包括呼叫时间、通话时长、对方号码等信息；短信可以包括发送时间、接收时间、内容等信息；邮件可以包括发件人、收件人、主题、正文等信息。

在采集用户的初始通讯数据时，需要确保数据的完整性和准确性，同时要保护用户的隐私信息，遵守相关的法律法规和隐私政策。存储通讯数据时，还需要考虑数据的备份和恢复，以及数据的安全性和可靠性。

具体地，本发明一实施例中，步骤S2包括：

S21对采集到的初始通讯数据进行编码，得到初始通讯数据的唯一标识符。

具体地，唯一标识符为采集初始通讯数据的设备ID与采集时的时间戳的组合。

S22根据唯一标识符来判断初始通讯数据是否重复，若唯一标识符重复，则合并对应的初始通讯数据，得到第一通讯数据。

通过比对设备ID和时间戳的组合来判断是否存在重复数据。如果唯一标识符重复，说明存在重复的通讯数据，需要合并对应的数据，得到第一通讯数据。

若第一通讯数据的缺失字符的数量δ₃<N₁，则将该第一通讯数据归入第三待修复数据。

具体地，δ₁<δ₂<δ₃，这三个阈值需根据具体情况来设置，通常是按照通讯数据的整体字符数，判断缺失字符占整体字符的比例，例如，第一阈值δ₁即比例为10％，第二阈值δ₂即比例为30％，第三阈值δ₃即50％。

S24对第一待修复数据、第二待修复数据和第三待修复数据分别进行处理，得到第二通讯数据。

具体地，步骤S24包括：

在第一通讯数据中对第一待修复数据予以删除；

具体地，第一待修复数据即缺失数据的比例较小，并且对后续分析的影响较小，可以直接删除包含缺失数据的记录。

第二待修复数据即缺失数据的比例居中，且对后续分析有一定影响，此时根据其临近的非缺失的通讯数据来计算填充值，填充值可以是加权平均值，通讯数据通常是带有时间戳的数据，因为通讯数据记录了通信事件的发生时间。时间戳可以是日期和时间的组合，用于标记通信事件的发生时间点。通讯数据的时间戳可以用于分析通信行为的模式、时序性以及与其他变量的关联等。且对于通讯数据来说，时效性是较为重要的，因此，时间戳在目标时间戳之后的非缺失数据应赋予更大的权值。

对于缺失数据较多或者缺失数据的模式不规律的情况，即第三待修复数据，则利用一个预训练的随机森林模型来进行缺失值的预测，其可能一个实施例的过程如下：

数据准备：首先，需要准备包含通讯数据的数据集。确保数据集中的特征值和目标值都是数值型的。将数据集划分为训练集和测试集。

特征选择和工程：根据通讯数据的特点和领域知识，选择合适的特征进行模型训练。可以进行特征工程，如特征缩放、特征组合、特征降维等，以提高模型的性能。

模型训练：使用随机森林模型对训练集进行训练。随机森林是一种集成学习算法，它由多个决策树组成。在训练过程中，随机森林会随机选择特征和样本进行训练，以提高模型的泛化能力。

模型评估：使用测试集对训练好的随机森林模型进行评估。可以使用评估指标，如均方误差、准确率等，来评估模型的预测性能。如果模型的表现不理想，则调整模型的参数。

缺失值预测：使用训练好的随机森林模型来预测通讯数据中的缺失值。对于每个缺失值，使用其他相关字段的信息作为输入，通过随机森林模型预测得到缺失值的估计。

S25采用异常检测方法对第二通讯数据进行异常辨别，得到异常数据，并对异常数据进行修复，得到第三通讯数据。

具体地，步骤S25包括：

S251遍历第二通讯数据，计算每个第二通讯数据与其他第二通讯数据之间的第一距离，将第一距离按从小到大排列形成距离排序表，选择前m个通讯数据作为当前第二通讯数据的邻居集合，将第二通讯数据与对应的邻居集合作为关系集。

具体地，第一距离可以是Jaccard相似度，Jaccard相似度是一种常用的距离度量方法，适用于集合型数据。对于通讯数据中的集合型特征，可以使用Jaccard相似度来计算数据点之间的距离。

式中，为当前第二通讯数据的局部密度，∑ρ_d为所有第二通讯数据的距离密度之和，A表示第二通讯数据的数量。

具体地，越大，则说明这个第二通讯数据越远离其他的数据，若/>则认为该第二通讯数据为异常数据。

S255获取异常数据的时间戳，设置时间间隔，以异常数据的时间戳为原点，在第二通讯数据中依次向前获取n个时间间隔的正常数据，利用n个时间间隔的正常数据对异常数据进行修复，得到第三通讯数据。异常修复的公式如下：

其中，λ_k的计算公式为：

根据需要对数据进行格式化处理，确保数据的一致性和规范性，得到标准通讯数据。这样的标准通讯数据可以更容易地进行存储、分析和应用。

具体地，本发明一实施例中，步骤S3包括：

S31根据标准通讯数据的特点确定B个特征类型，根据确定的B个特征类型进行特征重组，得到C个特征组合，其中，特征重组的方式包括特征运算、特征交叉和特征变换。

以B＝4，C＝3为例，对步骤S3进行说明：

确定特征类型：在确定特征类型时，需要根据通讯数据的特点和需求选择适合的特征类型。本实施例中，特征类型包括：

时间域特征：基于通讯数据的时间序列信息提取的特征，其提取方式包括：均值：对通讯数据的时间序列进行求平均值操作。方差：对通讯数据的时间序列进行求方差操作。最大值：找出通讯数据时间序列中的最大值。最小值：找出通讯数据时间序列中的最小值。

频域特征：基于通讯数据的频谱信息提取的特征，其提取方式包括：频谱能量：通过傅立叶变换将通讯数据转换到频域，计算频谱能量。频谱均值：计算频谱的均值。频谱峰值：找出频谱中的峰值频率和对应的能量值。

统计特征：基于通讯数据的统计分布信息提取的特征，其提取方式包括：均值、方差、偏度、峰度等统计特征可以直接通过通讯数据的统计分布信息计算得出。

滤波特征：基于通讯数据的滤波结果提取的特征，滤波后的均值、方差等特征可以通过对通讯数据进行滤波操作，然后计算相应的统计特征得到。

从确定的四个特征类型中，选择合适的特征类型进行特征重组，具体包括：

特征运算：将通讯频率特征除以通讯持续时间特征，得到平均通讯频率特征。

特征交叉：将通讯频率特征和通讯持续时间特征进行交叉，得到通讯总量特征。

特征变换：对通讯频率特征进行对数变换，得到对数通讯频率特征。

提取得到的7个特征可以组合成一个特征向量，将这7个特征作为第一特征，所有标准通讯数据的第一特征组成第一特征集。

具体地，本发明一实施例中，步骤S4包括：

S41将第一特征组成B+C维的矩阵，作为第一特征矩阵。

首先，将所有提取的第一特征按照特定规则组合成一个矩阵，假设有4种初步特征和3种重组后特征，那么将这些特征按顺序排列，组成一个7维的矩阵。

F＝Sigmoid(conv(fc(AP(X))))

式中，F为特征筛选函数，Sigmoid表示激活函数，conv表示卷积处理，fc表示全连接层处理，AP表示自适应池化处理，X为第一特征矩阵。

该步骤中，使用选择函数对第一特征矩阵进行处理，以去除冗余信息和提取更有代表性的特征。这个选择函数的作用是通过卷积、全连接层和自适应池化等操作，对输入的特征矩阵进行处理，最终通过Sigmoid激活函数输出筛选后的特征。

S43将所有的第二特征组成第二特征集。

具体地，本发明一实施例中，步骤S5包括：

本实施例中，通讯任务包括分类任务、聚类任务和推荐任务，以任务为驱动来进行分析和处理，具体的实施过程为：

(1)通讯任务为分类任务

确定分类目标：

首先需要确定通讯任务的分类目标，例如根据通讯数据的特征对通讯类型进行分类，比如语音通讯中的说话人识别、文本通讯中的情感分类等。

选取分类特征：

根据确定的分类目标，从第二特征集中选取所需数据类型对应的特征作为分类特征。这些特征应该是对分类目标具有区分度的特征，可以通过一个模糊选择算法来选择特征，为了避免漏掉对分类任务有潜在重要性的特征，可结合领域知识来进行选择，具体的模糊选择算法包括：1)使用模糊集理论中的模糊集合和隶属函数的概念，计算每个特征的重要性。模糊集合可以帮助描述特征对分类目标的隶属程度，从而衡量其重要性。2)对于每个特征，确定其对于分类目标的隶属程度，即该特征对分类目标的影响程度。3)设定一个特征选择的阈值，该阈值可以由领域知识或经验确定，用于筛选隶属程度高于阈值的特征。4)根据隶属程度高于设定阈值的特征，选择具有高隶属度的特征作为最终的分类特征。

多个SVM分类器训练：

将准备好的数据集分为训练集和测试集，采用交叉验证的方式进行训练和评估。

对于多个SVM分类器，采用一对一或一对多的方式进行多类别分类。

对每个SVM分类器，使用训练集进行训练，调节参数以获得最佳性能。

使用训练好的多个SVM分类器对测试集中的数据进行分类预测。

对分类结果进行性能评估，使用F1值进行评估。

根据性能评估结果，对分类特征的选取、SVM分类器的参数等进行调整和优化，以提高分类性能。

分类预测：

将选取的分类特征作为输入数据，输入预训练的SVM分类器中，得到分类结果。

具体地，分类任务的目的是识别垃圾短信、电话骚扰等，因此分类结果的标签为是否垃圾短信、是否骚扰电话等。

(2)通讯任务为聚类任务

确定聚类目标和聚类簇数量：

根据任务需求和数据特点，确定希望将数据集划分为多少个聚类簇，即确定聚类目标和聚类簇的数量。

选择聚类特征：

从第二特征集中选取所需数据类型对应的特征，作为聚类特征。这些特征将用于聚类算法的输入。

k-means++聚类分析：

使用k-means++聚类算法对选取的聚类特征进行聚类分析。k-means++通过迭代的方式将样本划分为k个簇，使得每个样本点到其所属簇的中心点的距离平方和最小化。

得到聚类结果：

k-means++聚类算法将得到每个样本所属的聚类簇标签，将聚类簇及其聚类标签作为聚类结果。

具体地，聚类任务的目的是找到相似群组，例如相似的图片、相似的联系人、相似的短信发件人等，因此，聚类结果为相似群组与其相似内容的描述。

(3)通讯任务为推荐任务

确认推荐目标：

根据业务需求和用户特征，确认推荐的目标，例如推荐电影、商品、音乐等。

选择推荐特征：

从第二特征集中选取所需数据类型对应的特征，作为推荐特征。这些特征将用于推荐算法的输入。

推荐算法：

步骤一、将推荐特征设置为推荐算法的节点，并放入开启列表，根据推荐特征的相关度指标，对开启列表中的节点进行评价，得到评价分数，其中，推荐特征的相关度指标是根据关联规则挖掘其与相邻推荐特征的关联度得到。

具体地，关联规则挖掘采用Apriori算法。

步骤二、将评价分数按从大到小进行排序，选取第一个评价分数对应的节点作为推荐算法的起始节点，将该起始节点放入关闭列表中。

步骤三、计算开启列表中每个节点与关闭列表中所有节点的评价分数的加权值，并按照从大到小排序，选取第一个加权值对应的开启列表中的节点，将其放入关闭列表中，更新开启列表的加权值。

具体地，开启列表中的单个节点i的加权值计算方式为：

式中，E_i为开启列表中节点i的加权值，y_j为关闭列表中第j个节点的评价分数，x_i为开启列表中节点i的评价分数，z为关闭列表中节点的数量，α_j、β_i为权重。

步骤四、重复步骤三，直至开启列表为空。

得到推荐结果：

推荐算法将得到推荐的内容或产品，作为推荐结果。这些结果可以根据用户的兴趣和需求，向用户进行个性化推荐。

本实施例根据推荐目标从第二特征集中选取所需数据类型对应的特征，采用推荐算法对推荐特征进行推荐，得到推荐结果。这些推荐结果可以用于向用户提供个性化的推荐服务，提高用户体验和满意度。

另外，请参阅图2，本发明还提供一种基于大数据分析的通讯信息处理装置，所述装置用于执行上述任一项所述的方法，所述装置包括：

数据采集模块，其内置有通讯数据库，用于采集用户的初始通讯数据，并按照数据类型存储至通讯数据库中。

通讯数据可以包括各种形式的通讯记录，比如短信、电话通话记录、社交媒体消息等。

数据处理模块，其用于对初始通讯数据进行预处理，得到标准通讯数据，并将标准通讯数据存储至通讯数据库中，预处理包括重复数据删除、缺失数据识别及缺失值填充、异常数据识别及修复。通过这些预处理步骤，可以确保通讯数据的准确性和完整性。

特征存储模块，其用于设计标准通讯数据的特征组合，根据特征组合对标准通讯数据进行特征提取，得到第一特征集，并根据筛选规则对第一特征集进行筛选处理，得到第二特征集，将第一特征集和第二特征集进行存储。

数据分析模块，其用于获取通讯任务列表，根据通讯任务列表中的通讯任务对第二特征集进行分析处理，得到各个通讯任务对应的分析结果，将分析结果进行存储。这些分析结果可以包括通讯行为的模式、趋势、异常情况等。

可视化展示模块，其用于对分析结果进行可视化，根据用户需求将可视化后的分析结果和对应的通讯数据对用户进行展示。包括图表、统计数据、趋势分析等形式的展示，以帮助用户更好地理解通讯数据的含义和模式。

具体地，这个装置的功能包括了从通讯数据的采集、预处理、特征提取、分析到可视化展示，为用户提供了一个全面的通讯数据处理和分析平台。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据分析的通讯信息处理方法，其特征在于，包括以下步骤：

步骤S2包括：

若第一通讯数据的缺失字符的数量δ₁＜N₁≤δ₂，则将该第一通讯数据归入第一待修复数据；

若第一通讯数据的缺失字符的数量δ₂＜N₁≤δ₃，则将该第一通讯数据归入第二待修复数据；

若第一通讯数据的缺失字符的数量δ₃＜N₁，则将该第一通讯数据归入第三待修复数据；

S26对第三通讯数据进行格式转换和归一化，得到标准通讯数据；

步骤S24包括：

在第一通讯数据中对第一待修复数据予以删除；

获取第二待修复数据的时间戳，作为目标时间戳，以目标时间戳为原点，在第一通讯数据中分别向前搜索Y个非缺失的通讯数据向后搜索Y个非缺失的通讯数据/>计算和/>的加权平均值，利用加权平均值对第二待修复数据进行填充，得到第二修复数据，其中/>的权值小于/>的权值；

利用第二修复数据、第三修复数据更新第一通讯数据，得到第二通讯数据；

步骤S3包括：

S32根据设计的C个特征组合以及确定的B个特征类型，对每个标准通讯数据进行相应的特征提取，即每个标准通讯数据均提取得到B+C个特征，将这B+C个特征作为第一特征，所有标准通讯数据的第一特征组成第一特征集；

步骤S4包括：

S41将第一特征组成B+C维的矩阵，作为第一特征矩阵；

F＝Sigmoid(conv(fc(AP(X))))

S43将所有的第二特征组成第二特征集；

2.如权利要求1所述的基于大数据分析的通讯信息处理方法，其特征在于，步骤S25包括：

式中，为当前第二通讯数据的邻居集合中第i个邻居与该第二通讯数据的第二距离，为当前第二通讯数据的邻居集合中第i个邻居与该第二通讯数据的第一距离，/>为当前第二通讯数据的邻居集合中第i个邻居与当前第二通讯数据的距离排序表中第m个第二通讯数据之间的第一距离；

3.如权利要求2所述的基于大数据分析的通讯信息处理方法，其特征在于，步骤S255中，异常修复的公式如下：

其中，λ_k的计算公式为：

4.如权利要求1所述的基于大数据分析的通讯信息处理方法，其特征在于，步骤S5包括：

5.如权利要求4所述的基于大数据分析的通讯信息处理方法，其特征在于，步骤S54中，推荐算法包括：

步骤四、重复步骤三，直至开启列表为空。

6.一种基于大数据分析的通讯信息处理装置，其特征在于，所述装置用于执行权利要求1-5任一项所述的方法，所述装置包括：