什么是网站域名?,昌乐网站制作价格,网站设计包括什么,广西建工集团冶金建设公司的网站实验4#xff1a;数据探索 一#xff1a;实验目的与要求 
1#xff1a;熟悉和掌握数据探索#xff0c;学习数据质量分类、数据特征分析和R语言的主要数据探索函数。 二#xff1a;实验内容 
1#xff1a;数据质量分析 
2#xff1a;统计量分析 
3#xff1a;贡献度分析…实验4数据探索 一实验目的与要求 
1熟悉和掌握数据探索学习数据质量分类、数据特征分析和R语言的主要数据探索函数。 二实验内容 
1数据质量分析 
2统计量分析 
3贡献度分析 
4相关性分析 
5统计特征函数 三课堂练习 
【练习1】PPT-06第12页——检测餐饮销售数据缺失值和异常值 
第一步用setwd设置工作空间 setwd(C:\\Users\\86158\\Desktop) getwd()  第二步读入数据 saledata - read.csv(filecatering_sale.csv, headerTRUE, fileEncodingGB2312) saledata  完整运行结果 日期    销量 1     2015/3/1   51.00 2    2015/2/28 2618.20 3    2015/2/27 2608.40 4    2015/2/26 2651.90 5    2015/2/25 3442.10 6    2015/2/24 3393.10 7    2015/2/23 3136.60 8    2015/2/22 3744.10 9    2015/2/21 6607.40 10   2015/2/20 4060.30 11   2015/2/19 3614.70 12   2015/2/18 3295.50 13   2015/2/16 2332.10 14   2015/2/15 2699.30 15   2015/2/14      NA 16   2015/2/13 3036.80 17   2015/2/12  865.00 18   2015/2/11 3014.30 19   2015/2/10 2742.80 20    2015/2/9 2173.50 21    2015/2/8 3161.80 22    2015/2/7 3023.80 23    2015/2/6 2998.10 24    2015/2/5 2805.90 25    2015/2/4 2383.40 26    2015/2/3 2620.20 27    2015/2/2 2600.00 28    2015/2/1 2358.60 29   2015/1/31 2682.20 30   2015/1/30 2766.80 31   2015/1/29 2618.80 32   2015/1/28 2714.30 33   2015/1/27 2280.80 34   2015/1/26 2414.00 35   2015/1/25 3130.60 36   2015/1/24 2716.90 37   2015/1/23 2930.80 38   2015/1/22 2504.90 39   2015/1/21 2559.50 40   2015/1/20 2168.60 41   2015/1/19 2436.40 42   2015/1/18 3234.30 43   2015/1/17 3061.00 44   2015/1/16 2900.10 45   2015/1/15 2646.80 46   2015/1/14 2615.20 47   2015/1/13 2124.40 48   2015/1/12 1958.00 49    2015/1/8 2259.10 50    2015/1/7 2419.80 51    2015/1/6 2775.00 52    2015/1/5 2594.90 53    2015/1/4 2468.30 54    2015/1/3 3004.30 55    2015/1/2 3313.30 56    2015/1/1 3613.60 57  2014/12/31 2655.90 58  2014/12/30 2644.30 59  2014/12/29 2565.30 60  2014/12/27 2525.90 61  2014/12/26 2778.00 62  2014/12/25 2542.10 63  2014/12/24 2473.30 64  2014/12/23 2240.10 65  2014/12/22 2575.00 66  2014/12/21 3802.80 67  2014/12/18 2274.70 68  2014/12/17 2687.20 69  2014/12/16 2577.80 70  2014/12/15 2583.00 71  2014/12/14 3282.60 72  2014/12/13 3113.70 73  2014/12/12 2661.40 74  2014/12/11 2553.20 75  2014/12/10 2511.30 76   2014/12/9 2710.30 77   2014/12/8 2468.10 78   2014/12/7 3041.50 79   2014/12/6 3178.90 80   2014/12/5 2594.40 81   2014/12/4 2381.10 82   2014/12/3 2415.00 83   2014/12/2 2236.40 84  2014/11/30 3207.20 85  2014/11/29 3059.50 86  2014/11/28 3039.10 87  2014/11/26 2817.50 88  2014/11/25 2891.80 89  2014/11/24 2470.10 90  2014/11/23 3556.60 91  2014/11/22 3397.70 92  2014/11/20 2761.60 93  2014/11/19 2618.20 94  2014/11/18 2758.30 95  2014/11/17 2614.30 96  2014/11/16 3437.10 97  2014/11/15 3250.00 98  2014/11/14 3063.70 99  2014/11/13 2839.20 100 2014/11/12 2360.90 101 2014/11/11 2158.50 102 2014/11/10 2005.50 103  2014/11/9 3236.40 104  2014/11/8   22.00 105  2014/11/7 2452.60 106  2014/11/6 2265.00 107  2014/11/5 2566.10 108  2014/11/4 2527.20 109  2014/11/3 2326.50 110  2014/11/2 2941.90 111  2014/11/1   60.00 112 2014/10/31 2520.90 113 2014/10/30 2446.20 114 2014/10/29 2549.40 115 2014/10/28 2449.30 116 2014/10/27 2162.50 117 2014/10/26 2781.30 118 2014/10/25 3060.60 119 2014/10/24 2064.00 120 2014/10/22 2439.70 121 2014/10/21 2476.20 122 2014/10/20 2478.30 123 2014/10/19 2826.20 124 2014/10/18 2924.80 125 2014/10/17 2417.50 126 2014/10/16 2450.10 127 2014/10/15 2533.00 128 2014/10/14 2238.70 129 2014/10/13 2388.80 130 2014/10/12 3291.30 131 2014/10/11 2738.80 132 2014/10/10 2344.10 133  2014/10/9 2068.80 134  2014/10/8 3185.30 135  2014/10/7 2778.60 136  2014/10/6 2921.10 137  2014/10/5 2524.30 138  2014/10/4 3057.10 139  2014/10/3 3039.60 140  2014/10/2 3193.40 141  2014/10/1 3075.40 142  2014/9/30 2847.60 143  2014/9/29 2311.40 144  2014/9/28 2327.30 145  2014/9/27 9106.44 146  2014/9/26 2616.60 147  2014/9/25 2620.20 148  2014/9/24 2616.40 149  2014/9/23 2655.80 150  2014/9/22 2310.70 151  2014/9/21 2935.80 152  2014/9/20 3017.90 153  2014/9/19 2625.50 154  2014/9/18 2752.70 155  2014/9/17 2181.50 156  2014/9/16 2440.50 157  2014/9/15 2422.80 158  2014/9/14 2583.60 159  2014/9/13 2728.90 160  2014/9/12 2525.30 161  2014/9/11 2531.70 162  2014/9/10 2300.50 163   2014/9/9 2097.50 164   2014/9/8 4065.20 165   2014/9/7 3555.20 166   2014/9/6 3462.50 167   2014/9/5 3033.10 168   2014/9/4 2926.10 169   2014/9/3 2431.40 170   2014/9/2 2706.00 171   2014/9/1 3049.90 172  2014/8/31 3494.70 173  2014/8/30 3691.90 174  2014/8/29 2929.50 175  2014/8/28 2760.60 176  2014/8/27 2593.70 177  2014/8/26 2884.40 178  2014/8/25 2591.30 179  2014/8/24 3022.60 180  2014/8/23 3052.10 181  2014/8/22 2789.20 182  2014/8/21 2909.80 183  2014/8/20 2326.80 184  2014/8/19 2453.10 185  2014/8/18 2351.20 186  2014/8/17 3279.10 187  2014/8/16 3381.90 188  2014/8/15 2988.10 189  2014/8/14 2577.70 190  2014/8/13 2332.30 191  2014/8/12 2518.60 192  2014/8/11 2697.50 193  2014/8/10 3244.70 194   2014/8/9 3346.70 195   2014/8/8 2900.60 196   2014/8/7 2759.10 197   2014/8/6 2915.80 198   2014/8/5 2618.10 199   2014/8/4 2993.00 200   2014/8/3 3436.40 201   2014/8/2 2261.70  
第三步缺失值检测并打印结果 sum(complete.cases(saledata)) sum(!complete.cases(saledata)) mean(!complete.cases(saledata)) saledata[!complete.cases(saledata),]  第四步异常值检测箱线图扩展 boxplot(saledata$销量, main销售数据异常值检测, ylab销售额, na.rm  TRUE)  第五步带有数值的异常值检测箱线图 # 异常值检测箱线图 sp - boxplot(saledata$销量, boxwex  0.7) title(销量异常值检测箱线图) xi - 1.1 sd.s - sd(saledata[complete.cases(saledata), ]$销量) mn.s - mean(saledata[complete.cases(saledata), ]$销量) points(xi, mn.s, col  red, pch  18) arrows(xi, mn.s - sd.s, xi, mn.s  sd.s, code  3, col  pink, angle  75, length  .1) text(rep(c(1.05, 1.05, 0.95, 0.95), length  length(sp$out)),      labels  sp$out[order(sp$out)], sp$out[order(sp$out)]         rep(c(150, -150, 150, -150), length  length(sp$out)), col  red)  【练习2】PPT-06第32页——餐饮销售数据统计量分析 
第一步读入数据 sales - saledata[, 2] sales  第二步计算均值 mean_ - mean(sales, na.rm  T) mean_  第三步计算中位数 median_ - median(sales, na.rm  T) median_  第四步计算极差 range_ - max(sales, na.rm  T) - min(sales, na.rm  T) range_  第五步计算标准差 std_ - sqrt(var(sales, na.rm  T)) std_  第六步计算变异系数 variation_ - std_ / mean_ variation_  第七步计算四分位数间距 q1 - quantile(sales, 0.25, na.rm  T) q3 - quantile(sales, 0.75, na.rm  T) distance - q3 - q1 a - matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),             1, byrow  T) colnames(a) - c(均值, 中位数, 极差, 标准差, 变异系数,                  1/4分位数, 3/4分位数, 四分位间距) print(a)  【练习3】PPT-06第37页——菜品盈利贡献度统计量分析 
第一步读取菜品数据 dishdata - read.csv(file  catering_dish_profit.csv,fileEncodingGB2312) dishdata  第二步绘制帕累托图 barplot(dishdata[, 3], col  blue1, names.arg  dishdata[, 2], width  1,         space  0, ylim  c(0, 10000), xlab  菜品, ylab  盈利元) accratio - dishdata[, 3] for ( i in 1:length(accratio)) {   accratio[i] - sum(dishdata[1:i, 3]) / sum(dishdata[, 3]) }  par(new  T, mar  c(4, 4, 4, 4)) points(accratio * 10000 ~ c((1:length(accratio) - 0.5)), new  FALSE,        type  b, new  T) axis(4, col  red, col.axis  red, at  0:10000, label  c(0:10000 / 10000)) mtext(累积百分比, 4, 2)  points(6.5, accratio[7] * 10000, colred) text(7, accratio[7] * 10000,paste(round(accratio[7]  0.00001, 4) * 100, %))  【练习4】PPT-06第45页——餐饮销售数据相关性分析 
第一步读取数据 cordata - read.csv(file  catering_sale_all.csv, header  TRUE,fileEncodingGB2312) cordata  完整运行结果 日期 百合酱蒸凤爪 翡翠蒸香茜饺 金银蒜汁蒸排骨 乐膳真味鸡 蜜汁焗餐包 1   2015/1/1           17            6              8         24         13 2   2015/1/2           11           15             14         13          9 3   2015/1/3           10            8             12         13          8 4   2015/1/4            9            6              6          3         10 5   2015/1/5            4           10             13          8         12 6   2015/1/6           13           10             13         16          8 7   2015/1/7            9            7             13          8          5 8   2015/1/8            9           12             13          6          7 9  2015/1/12            6            8              8          3         NA 10 2015/1/13            9           11             13          6          8 11 2015/1/14            6            7              8          9          4 12 2015/1/15            5            9              4          7          8 13 2015/1/16            9            7             11          9         11 14 2015/1/17           10            8             10          6         14 15 2015/1/18           13           12             12         10          9 16 2015/1/19            4            8             12         11          9 17 2015/1/20            6           12             10          9         11 18 2015/1/21            9           15              4         12          7 19 2015/1/22            3           10             13         13         13 20 2015/1/23            8            7              9         20          5 21 2015/1/24           11            6             11          8          7 22 2015/1/25           11            6              5         15          7 23 2015/1/26            4            7             10          7          6 24 2015/1/27            7            5              6          7         12 25 2015/1/28            8            8             12         14          8 26 2015/1/29            4           10             12          9          7 27 2015/1/30            6            7              7         11          7 28 2015/1/31            8            5             11         10          8 29  2015/2/1            8            6              7          9          6    生炒菜心 铁板酸菜豆腐 香煎韭菜饺 香煎罗卜糕 原汁原味菜心 1        13           18         10         10           27 2        10           19         13         14           13 3         3            7         11         10            9 4         9            9         13         14           13 5        10           17         11         13           14 6         9           12         11          5            9 7         7           10          8         10            7 8         8            6         12         11            5 9         4            5          5          7           10 10        7            6          9          8            9 11        7            8          5          3           10 12        9           15          9         13            9 13        8           14          9          9           15 14       13           16          9          4           14 15       11            8         12          9           15 16        7           10          6         11           11 17        4            8         14          6           13 18        9            1          5         12            8 19        8           13          5         11           11 20       12            8          7          8           11 21        8            9          7         10            9 22       14           14          7          6            8 23       10            9         12          7            5 24       15            6         12          9            4 25       11            7         12         10            6 26        8            8         10         10           11 27        7            9         16         10           11 28       11            8         10         10            9 29        4            6         11          6            9  
第二步求出相关系数矩阵 cor(cordata[, 2:11])  【练习5】PPT-06第51页 
Eg1计算两个列向量的相关系数采用Spearman方法 x  c(1:8) y  c(2:9) R  cor(x,y,methodspearman) R  Eg2计算20×5随机矩阵的协方差矩阵 X  matrix(rnorm(100),20,5) R  cor(X) R  四实验知识点总结 
1数据质量分析是数据预处理的前提其主要任务是检查原始数据中是否存在脏数据。脏数据主要包括缺失值、异常值、不一致的值、重复数据和含有特殊符号的数据。 
2缺失值分析包括1统计缺失值的变量个数2统计每个变量的未缺失数3统计变量的缺失数和缺失率 
3异常值分析方法包括1简单统计量分析23σ原则3箱型图分析 
4数据的不一致性是数据的矛盾性和不相容性不一致数据的产生主要发生在数据集成的过程中。 
5数据特征分析的方法包括1分布分析2对比分析3统计量分析4周期性分析5贡献度分析6相关性分析 
6常用的统计特征函数。 五遇到的问题和解决方法 
问题1在读入csv数据时出现以下报错。这个报错信息表明在尝试读取CSV文件时遇到了编码问题即文件中可能包含了非标准ASCII字符。 解决1直接指定读取文件的确切编码此处使用GB2312。