bitget

bitget交易所

Bitget是一家总部位于新加坡的全球化金融交易平台,凭借资深专业团队和安全稳定的技术引擎脱颖而出。以合法、合规为原则,覆盖全球市场,提供包括比特币,以太坊等丰富的数字资产交易服务。致力于为用户提供安全专业的金融创新和增值服务。

嵌入式多功能数据挖掘技术,是怎样基于粒计算来进行研究的?

bitget资讯 {author} 2024-04-26 16:07:18 1

前言

数据挖掘是指从海量数据中挖掘隐藏的规则或特征,用于决策分析。

例如,在故障识别中,数据挖掘可以对收集到的数据进行判断并进行用户分类,以帮助制定销售策略。

因此,数据挖掘是大数据处理的一个重要方面,是当前信息网络研究的热点。

迄今为止,虽然大数据研究取得了巨大成功,在大数据挖掘方面也取得了显著成果,还有一些问题需要深入研究,其中嵌入式多功能数据挖掘是一个难点。

嵌入式多功能数据是一种存储在多个异构源中的具有多种描述功能的数据。

此类数据的典型特征是多源、异构和不平衡,这三个特征的存在使得数据挖掘面临很大的困难,其准确性和效率受到很大限制。

由于嵌入式多功能数据的多源、异构、不均衡等特点的影响和局限性,目前的数据挖掘技术在实际应用中准确性较低,应用效果较差。

基于以上背景,将数据挖掘技术应用于集装箱海运价格预测,建立基于GBDT算法的集装箱海运价格预测模型,实现数据挖掘。

研究中基于航空公司旅客飞行记录,采用决策树方法预测客户流失,采用K-means聚类算法对客户进行分类,挖掘客户价值,为制定有效的营销提供了可靠的依据战略和提高航空公司的经济效益。

将数据挖掘技术图谱应用于光纤通信网络中的异常数据检测,首先采集了光纤通信网络的运行数据,并提取了数据特征。

最后通过样本属性概率计算出熵目标函数的最优值,并利用该最优值完成异常数据检测。

提出面向互联网产业协同创新平台的数据挖掘技术研究,信息技术也因此融入到生产生活的各个角落。

以计算成本、物联网与智能服务协同创新为研究对象,研究基于数据挖掘技术的物联网与智能服务协同创新的结合。

为智能服务业的发展和物联网协同创新的提升提供了宝贵的理论依据。

根据嵌入式多功能数据的三大特点,数据归约,数据标准化、数据平衡、数据预处理。

对处理后的数据进行粒化并分析粒子特征,包括偏移、粒子密度和晶粒内间隔物,此外使用基于粒子特征的神经网络对数据进行分类、检测异常和识别故障。

通过对所提出的数据挖掘技术进行数据挖掘,并与文献中提出的方法进行比较,各种数据挖掘方法的准确率均在0.9以上。

所研究技术的创新点在于数据粒化和数据粒子特征计算,对嵌入式多功能数据进行预处理,然后进行嵌入式多功能数据特征提取。

嵌入式多功能数据挖掘技术

嵌入式多功能数据具有多源性、异构性和不平衡性,利用广泛应用的数据挖掘技术挖掘嵌入式多功能数据并不能取得很好的效果。

面对这种情况,研究一种新的数据挖掘技术来处理嵌入式多功能数据具有重要的现实意义。

数据挖掘技术的关键是粒子计算,粒子计算是指将海量数据或信息按照一定的规则或关系进行划分,从而形成粒子。

基于这一理论,可以设计一种数据挖掘技术来对嵌入式多功能数据进行有效分类。

嵌入式多功能数据挖掘技术的总体框架如图1所示。

图1 嵌入式多功能数据挖掘技术总体框架

根据显示的内容,嵌入式多功能数据挖掘是一个反复的过程。

如果每一个环节都没有达到预期的效果,就必须回到上一步进行再次调整和实施。

与以前的模型相比,并不是所有的数据挖掘工作都需要在这里列出,例如当作业中没有多个数据源时,可以忽略数据集成。

对于一些多功能数据,进行嵌入式多功能数据预处理、基于粒子计算的嵌入式多功能数据特征提取、嵌入式多功能数据挖掘是非常必要的过程。

为实现嵌入式多功能数据的有效挖掘,首先需要对嵌入式多功能数据进行预处理。

预处理可以有效减少多源、异构、不平衡数据,提高数据质量,便于挖掘。

嵌入式多功能数据预处理包括数据归约、数据标准化和数据平衡,对这三个预处理步骤进行了具体分析。

嵌入式多功能数据来自多个不同的数据库,将多个数据库中的数据汇集在一起,形成嵌入式多功能数据。

因此,嵌入式多功能数据是海量的,这些数据可以统称为冗余数据,冗余数据的存在会增加计算量,干扰数据挖掘结果,需要进行数据降维,如图图 2.

图2 数据缩减过程

嵌入式多功能数据来自多个不同的数据库,也存在一定的异构性,代表不同的数据维度,导致数据之间无法同步处理。

为此,需要对嵌入式多功能数据进行标准化,处理方法如下,最小-最大标准化:

(1)

x表示原始嵌入多功能数据,x '表示标准化嵌入多功能数据,min( x )和max( x )表示原始嵌入多功能数据中的最小值和最大值,归一化方法:

(2)

其中a和b代表原始嵌入式多功能数据的均值和标准差,日志函数转换方法:

(3)

嵌入式多功能数据的维度被标准化以统一,不平衡是嵌入式多功能数据的主要特征之一,对不平衡数据的挖掘会导致挖掘精度失真。

对于这一点,不平衡的数据需要与数据进行平衡,根据数据中负样本和正样本的数量选择欠采样方法或过采样方法。

欠采样方法适用于更多的负样本,过采样方法适用于更多的正样本。

Undersampling欠采样原理是指去掉大部分多余的负样本来平衡正样本,具体过程如下:

?输入大部分类样本,即负样本,对负样本进行聚类,将样本划分为多个类别的子样本,再计算每个子样本之间的相似度冗余系数,公式如下:

(4)

S K表示相似度冗余系数,d i n表示子样本i到其聚类中心的距离,D ij表示子样本i , j之间的欧式距离。

?将计算出的相似度冗余系数转化为矩阵形式,删除矩阵中相似度冗余系数最小的两个子样本之一和矩阵中对应的行和列,是判断是否满足样本删除要求。

如果达到,去除大部分多余的负样本,完成欠采样,否则返回前面的第5步,直到满足最终要求。

基于粒子计算的嵌入式多功能数据特征提取和挖掘

完成嵌入多功能数据后,再提取嵌入多功能数据特征,具体过程包括两个步骤,即数据粒化和数据粒子特征计算。

数据粒化是指将嵌入式多功能数据按照一定的规则和关系划分为一个数据块,一个数据块称为一个 grain。

通过粒化处理,更容易发现数据之间的规律或特征,数据粒化过程描述如下:输入嵌入式多功能数据集,记为X ={ x 1 , x 2 ,…, x n },再从X ={ x 1 , x 2 ,…, x n }中选取K个数据作为初始类别代表,记为U h ={ z 1 h , z 2 h ,…, z K h } . 因为是初始样本,所以设h =0。

根据邻近原则,将剩余的所有样本划分到一个初始样本类别中,得到一个新的簇,记为P j h +1 , j =1,2, ..., K,从步骤4的结果中重新选择类别代表,记为p j h +1,然后输出造粒结果。

基于以上划分的数据粒子,计算数据粒子特征,包括偏移度、粒子密度和粒子间距,计算这三个特征。

偏移度是指数据粒子偏移粒子中心的情况,计算公式如下:

(6)

其中g ( i , O )表示粒子i到粒子中心的可达距离,n表示粒子数,q ( O )表示粒子中心容量,f表示二进制映射函数,Gi , O表示粒子i偏移度。

晶粒密度、粒子密度是指粒子分布的密度,计算公式如下:

(7)

其中ρ表示粒子密度,B ′ 表示逆运算,表示粒子与粒子中心之间的平均可达距离,B表示粒子与粒子中心之间的平均可达距离。

在 Grain 区间内,描述颗粒之间的亲密度:

(8)

其中ri表示粒子i的半径,w表示隶属度。

基于以上过程,完成了基于粒子计算的嵌入式多功能数据特征提取工作。

以上述提取的特征作为输入,实现嵌入式多功能数据挖掘,实现数据分类、异常检测、故障识别等目标。

这里采用神经网络方法实现嵌入式多功能数据挖掘,神经网络的基本结构如图所示图3.

图3 神经网络的基本结构

技术嵌入式多功能数据粒子特征

针对嵌入式多功能数据,以基于粒子计算的挖掘技术为例,将其应用于网络异常检测,以检验挖掘技术的有效性。

从DARPA KDD CUP 99数据集中选取六类数据组成嵌入式多功能数据仿真样本,样本总数为10000个,样本比例分配如图4。

图4 测试样本分配图 图4 测试样本分配图

由于样本是从标准的 DARPA KDD CUP 99 数据集获得的,因此没有详细分析预处理过程。

用于对嵌入式多功能数据样本进行粒化,然后计算数据粒子特征,结果显示在图5.

图5 嵌入式多功能数据粒子功能。(a) 漂移率。(b) 颗粒密度。(c) 内部粒子间距。

G - mean是Kubat提出的嵌入式多功能数据挖掘技术的评价指标,计算公式如下:

(9)

方程中的各种指标参数都是从混淆矩阵中推导出来的,如表1。

表1 混杂矩阵

G ? 均值取值(0,1];当大于0.9时,挖矿技术精度高。

使用训练样本训练神经网络,训练后权重设置为0.25和0.36;阈值设置为 1.20 和 1.50。

以测试样本为输入,利用训练好的神经网络模型进行嵌入式多功能数据挖掘,得到异常挖掘结果。

最后,这些值是根据异常挖矿结果计算出来的,如表2G -平均值。

表2 G ? 统计结果的平均值

从中可以看出表2,每种数据挖掘的异常挖掘结果均大于0.9,说明所研究的挖掘技术的准确性较高。

综上所述,所研究的挖掘技术多次对嵌入式多功能数据进行异常挖掘,在不同情况下,每种数据挖掘的结果均大于0.9,具有较高的准确性和良好的效果。

结语

数据挖掘是大数据处理中最重要的问题,可以从数据中发现类别、规律甚至异常。

目前的数据挖掘受限于嵌入式多功能数据特征,挖掘精度不高,针对以上问题,研究了一种基于粒子计算的嵌入式多功能数据挖掘技术。

该技术已经过测试并证明了其有效性,能够很好地应对基于粒子计算的嵌入式多功能数据挖掘技术,精度高,修改性好。

然而,本研究仅在一个领域测试了该技术,因此测试结果具有局限性,还需进一步测试,未来可改进嵌入式多功能数据挖掘中的粒子计算。

从协同创新的角度看,数据挖掘技术创新能力也可以得到提升。

关键是要面向物联网行业特点,通过深入的数据挖掘和分析,探索技术协同创新过程和行为协同交互模式,开发更多智能应用。

嵌入式多功能数据挖掘技术,是怎样基于粒计算来进行研究的?文档下载: PDF DOC TXT

上一篇:忍住一时之气,苦撑到底

下一篇:当物流供应链遇上区块链,“双链共舞”有哪些机遇和挑战?

猜你喜欢