当前位置：首页 > news >正文

辖网站建设建站广告赚钱

news 2025/12/20 7:17:17

辖网站建设,建站广告赚钱,河北网站备案查询系统,app制作费用多少钱1、确认需求#xff08;构建问题#xff09; 我们需要做什么#xff1f; 比如根据一些输入数据#xff0c;预测某个值#xff1f; 比如输入一些特征#xff0c;判断这个是个什么动物#xff1f; 这里我们要可以尝试分析一下#xff0c;我们要处理的是个什么问题构建问题我们需要做什么比如根据一些输入数据预测某个值比如输入一些特征判断这个是个什么动物这里我们要可以尝试分析一下我们要处理的是个什么问题分类问题回归问题目前有哪些方案处理这种问题比如逻辑回归 SVM神经网络随机森林确认特征获取数据要确认好我们需要哪些特征以及这些特征的数据应该如何获取到最为关键的是当我们要进行模型预测或者实战的时候我们能拿到什么比如数据库获取从文件txt、excel等读取并对数据做简单的处理比如去掉缺省值等 3、特征处理特征编码为什么要进行编码因为很多特征是字符串我们得转化为数字或者二进制才能计算比较常用的 onehot编码 # pandas进行onehot编码 import pandas as pd df pd.DataFrame([[green,M,20,class1],[red,L,21,class2],[blue,XL,30,class3], ]) df.columns [color,size,weight,class label] df2 pd.get_dummies(df[class label])# sklearn工具类进行onehot编码 from sklearn.feature_extraction import DictVectorizer alist [{city:beijing,temp:33},{city:GZ,temp:42},{city:SH,temp:40}, ] d DictVectorizer(sparseFalse) feature d.fit_transform(alist) print(d.get_feature_names()) print(feature) Label Encoding 但是一次只能处理一列要for进行处理 from sklearn.preprocessing import LabelEncoder leLabelEncoder() df[‘Sex’]le.fit_transform(df[‘Sex’]) 注编码要注意的是你编码过程模型的输入输出也是经过编码的。上述两种编码是基于列种值的类别来进行编码的所以你每训练一次都需要保存下编码的类别并在预测输入数据的时候使用相同的类别数据进行编码我们可以直接保存old_data和encoder_data和之间的映射关系字典或者下面的csv格式里都可以。 for col in beat_sparse_cols: # sparse_feature encoderlbe LabelEncoder()# 直接在原来的表上进行修改beat_data[col] lbe.fit_transform(beat_data[col])# # method 2: save dict(selected), 为每个lbe保存一个对应的字典name encoding_ str(col) _dictlocals()[name] {}for i in list(lbe.classes_):# encoding[i] lbe.transform([i])[0]locals()[name][i] lbe.transform([i])[0]# save the lbe dict, note the indexdf pd.DataFrame(locals()[name], index [0])# df pd.DataFrame(list(my_dict.items()), columns[key, value]) # 否则默认保存的key是strdf.to_csv(save_dir / str(col) lbe_dict.csv, index False)在预测的新数据的时候加载出来查找类别对新输入进行编码。遇到没有类别的要特殊处理如 # train and test are pandas.DataFrames and c is whatever column le LabelEncoder() le.fit(train[c]) test[c] test[c].map(lambda s: unknown if s not in le.classes_ else s) le.classes_ np.append(le.classes_, unknown) train[c] le.transform(train[c]) test[c] le.transform(test[c]) 归一化当所有数据权重一样时使用 # 归一化 from sklearn.preprocessing import MinMaxScaler mm MinMaxScaler(feature_range(0,1)) data [[90,2,10,40],[60,5,15,45],[73,3,13,45] ] data mm.fit_transform(data) 标准化当数据存在巨大异常值时使用 from sklearn.preprocessing import StandardScaler ssStandardScaler() data [[90,2,10,40],[60,5,15,45],[73,3,13,45] ] data ss.fit_transform(data) print(data) 方差过滤和PCA # Filter过滤式方差过滤 from sklearn.feature_selection import VarianceThreshold v VarianceThreshold(threshold2) av.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]])# PCA from sklearn.decomposition import PCA pca PCA(n_components2) a pca.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]]) 包括PCA和标准化也和编码一样要考虑输入单个数据的时候如何进行如何进行反标准化等。 4、选择算法、训练模型选择算法不再多说。必须要做参数等交叉验证方便看看哪个算法的哪个算子上表现的最好。 model_selection.cross_val_score 【sklearn】sklearn中的交叉验证_sklearn交叉验证_L鲸鱼与海的博客-CSDN博客训练好后将模型保存下来【Sklearn】3种模型保存的文件格式及调用方法_sklearn 导出模型_人工智的博客-CSDN博客 5、工程化应用化选个框架django活动flask进行web化【python】Django_人工智的博客-CSDN博客 6、部署上线 django是单线程比较慢可以将其部署到一个web容器上如gunicorn 【Django】如何使用gunicorn部署django程序_我辈李想的博客-CSDN博客

查看全文

http://www.pierceye.com/news/77426/