怎么让别人访问我建的网站,上海先进网站建设公司,苏州公司建设网站制作,seo博客模板一、数据规范化的原理
数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围#xff0c;数值间的差别可能很大#xff0c;不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异#xff0c;需要进行标准化处理。将数据…一、数据规范化的原理
数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围数值间的差别可能很大不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异需要进行标准化处理。将数据按照比例进行缩放使之落入一个特定的区域便于进行综合分析。
1.1.最小-最大规范化
clear;clc;
A [78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571];new input(请输入需要映射到的新区间。输入格式示例[0,1]\n);
new_mi new(1);
new_mx new(2);
% 计算每列的最小值和最大值
min_vals min(A);
max_vals max(A);% 对每个元素进行最小-最大规范化
normalized_A (A - min_vals) ./ (max_vals - min_vals)* (new_mx - new_mi) new_mi;;disp(normalized_A);MATLAB支持广播机制的在进行矩阵运算时可以自动扩展维度较小的矩阵使其与维度较大的矩阵相匹配从而实现逐元素的运算。 在MATLAB中要实现广播机制需要满足以下条件 运算的两个矩阵相应维度的大小要么相同要么其中一个为1。运算符必须是逐元素的运算符如.*、./、.\、.^等不能是矩阵乘法*或矩阵除法/。如果运算的两个矩阵都是列向量或者行向量那么它们可以直接进行逐元素运算无需扩展维度。 disp函数是MATLAB中用于在命令行窗口中显示输出的函数。它可以显示各种类型的数据包括数字、字符串、矩阵等。 A [78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571];
new input(请输入需要映射到的新区间。输入格式示例[0,1]\n);
new_mi new(1);
new_mx new(2);
B mapminmax(A,new_mi ,new_mx);
fprintf(\n经过最小最大规范化后\n);
disp(B) Matlab有一个现成的函数可以实现最小-最大规范化它就是 mapminmax() 函数 [Y,PS] mapminmax(X,YMIN,YMAX) 其中X是要规范化的矩阵或向量YMIN和YMAX是指定的区间端点默认为-1和1Y是规范化后的矩阵或向量PS是一个结构体包含了规范化所用的参数如最小值、最大值、缩放因子等。如果要对另一个矩阵或向量应用相同的规范化参数可以使用 mapminmax(‘apply’,X,PS) 函数。 代码运行结果
输入的新区间范围为[0,1]
原数据
A 78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571请输入需要映射到的新区间。输入格式示例[0,1]
[0,1]经过最小最大规范化后
B 0.0744 0.9373 0.9235 1.00000.6198 0 0 0.85090.2149 0.1196 0.8133 00 1.0000 1.0000 0.56371.0000 0.9423 0.9967 0.80410.2645 0.8386 0.8150 0.90930.6364 0.8470 0.7862 0.92961.2零-均值规范化
clear;clc;%% 数据存入A
A[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];A_meanmean(A); % mean求的是每列的均值
A_stdstd(A); % std求的是每列的标准差
[n,m]size(A);
B(A-A_mean)./A_std;fprintf(原数据);
disp(A);
fprintf(经过零均值规范化后);
disp(B);代码运行结果
原数据
A 78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571经过零均值规范化后
B -0.9054 0.6359 0.4645 0.79810.6047 -1.5877 -2.1932 0.3694-0.5164 -1.3040 0.1474 -2.0783-1.1113 0.7846 0.6846 -0.45691.6571 0.6478 0.6752 0.2348-0.3791 0.4018 0.1521 0.53730.6504 0.4216 0.0693 0.5956clear;clc;%% 数据存入A
A[78 521 602 2863
144 -600 -521 2245
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];B zscore (A); % 沿每列计算标准差fprintf(原数据);
disp(A);
fprintf(经过零均值规范化后);
disp(B);Matlab有一个现成的函数可以实现零-均值规范化它就是 zscore() 函数1。这个函数可以计算一个数组或向量中元素的标准差并返回每个元素的 z 分数即对数据进行中心化和缩放处理使其均值为 0标准差为 1。 Z zscore (X) % 计算X沿第一个非单一维度的标准差
Z zscore (X,flag) % 指定标准差的类型
Z zscore (X,flag,all) % 使用X中所有值的均值和标准差
Z zscore (X,flag,dim) % 指定沿哪个维度计算
Z zscore (X,flag,vecdim) % 指定沿多个维度计算
[Z,mu,sigma] zscore ( ___) % 还返回均值和标准差1.3小数定标规范化
clear;clc;%% 数据存入A
A [78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571];mx max(abs(A)); % 求每列绝对值最大的数mx
len floor(log10(mx))1; % 求mx的位数len
B A ./ (10.^len); % 将A中每个元素除以10^lenfprintf(原数据\n);
disp(A);
fprintf(经过小数定标规范化\n);
disp(B);代码运行结果
原数据
A 78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571经过小数定标规范化后
B 0.0780 0.5210 0.6020 0.28630.1440 -0.6000 -0.5210 0.22450.0950 -0.4570 0.4680 -0.12830.0690 0.5960 0.6950 0.10540.1900 0.5270 0.6910 0.20510.1010 0.4030 0.4700 0.24870.1460 0.4130 0.4350 0.2571