当前位置: 首页 > news >正文

宠物出售的网站怎么做wordpress调用指定分类文章列表

宠物出售的网站怎么做,wordpress调用指定分类文章列表,hexo 导入 wordpress,录音转文字网站开发我花了几个月的时间分析来自传感器、调查及日志等相关数据。无论我用多少图表#xff0c;设计多么复杂的算法#xff0c;结果总是会与预期不同。更糟糕的是#xff0c;当你向首席执行官展示你的新发现时#xff0c;他/她总会发现缺陷#xff0c;你的发现与他们的理解完全不… 我花了几个月的时间分析来自传感器、调查及日志等相关数据。无论我用多少图表设计多么复杂的算法结果总是会与预期不同。更糟糕的是当你向首席执行官展示你的新发现时他/她总会发现缺陷你的发现与他们的理解完全不符- 毕竟他们是比你更了解领域的专家而你只是数据工程师或开发人员。 你为你的模型引入了大量脏数据没有清理数据你告诉你的公司用这些结果做事情结果肯定是错的。数据不正确或不一致会导致错误的结论因此清理和理解数据对结果的质量都会有很大影响。 垃圾进垃圾出 实际上简单算法的作用可能超过复杂的算法因为它被赋予了足够高质量的数据。 质量数据优于花哨的算法 出于这些原因重要的是要有一个分步指南一个备忘单。首先我们想要实现的目标是什么质量数据是什么意思质量数据的衡量标准是什么了解你想要完成的任务在采取任何行动之前你的最终目标至关重要。 目录 ·       数据质量合法性准确性完整性一致性 ·       工作流程检查清洁验证报告 ·       检查数据分析可视化软件包 ·       清理​​无关数据重复数据类型转换语法错误 ·       验证 ·       总结 数据质量 除了维基百科上的质量标准之外我找不到更好的解释质量标准。所以我将在这里总结一下。 合法性 数据符合定义的业务规则或约束的程度。 ·       数据类型约束特定列中的值必须是特定的数据类型例如布尔值数字日期等。 ·       范围约束通常数字或日期应在特定范围内。 ·       强制约束某些列不能为空。 ·       唯一约束字段或字段组合在数据集中必须是唯一的。 ·       Set-Membership约束列的值来自一组离散值例如枚举值。例如一个人的性别可能是男性或女性。 ·       外键约束在关系数据库中外键列不能具有引用的主键中不存在的值。 ·       正则表达式模式必须采用特定模式的文本字段。例如电话号码可能需要具有模式999999-9999。 ·       跨领域验证跨越多个领域的某些条件必须成立。例如患者出院的日期不能早于入院日期。 准确性 数据接近真实值的程度。 虽然定义所有的值允许出现无效值但这并不意味着它们都是准确的。 一个有效的街道地址可能实际上并不存在一个人的眼睛颜色比如蓝色可能是有效的但不是真的。另一件需要注意的是精度和精度之间的差异。 完整性 所有必需数据的已知程度。由于各种原因数据可能会丢失。如果可能的话可以通过质疑原始来源来缓解这个问题比如重新获得这个主题的数据。 一致性 数据在同一数据集内或跨多个数据集的一致程度。当数据集中的两个值相互矛盾时就会出现不一致。 离婚后有效年龄例如10岁可能与婚姻状况不符。客户被记录在具有两个不同地址的两个不同表中。哪一个是真的 工作流程 工作流程一共四个步骤旨在生成高质量的数据并考虑到我们所讨论的所有标准。 1.检查检测不正确和不一致的数据。 2.清洁修复或删除发现的异常。 3.验证清洁后检查结果以验证是否正确。 4.报告记录所做更改和当前存储数据质量的报告。 实际上你所看到的顺序过程是一个迭代的无穷无尽的过程。当检测到新的缺陷时可以从验证到检查。 检查 检查数据非常耗时并且需要使用许多方法来探索用于错误检测的基础数据。下面是其中的一些 数据分析 一个汇总统计有关数据的数据分析是真正有用的它可以提供有关数据质量的总体思路。例如检查特定列是否符合特定标准或模式。数据列是记录为字符串还是数字丢失了多少个值列中有多少个唯一值及其分布此数据集是否与另一个数据集链接或有关系 可视化 通过使用诸如平均值、标准偏差、范围或分位数等统计方法分析和可视化数据可以找到意外且因此错误的值。 例如通过可视化各国的平均收入可能会看到有一些异常值。这些异常值值得研究不一定是不正确的数据。 软件包 使用你的语言提供的几个软件包或库将允许你指定约束并检查数据是否违反这些约束。此外他们不仅可以生成违反哪些规则的报告还可以创建哪些列与哪些规则相关联的图表。 清洁 数据清理涉及基于问题和数据类型的不同技术。可以应用不同的方法每种方法都有自己的权衡。总的来说不正确的数据被删除纠正或估算。 不相关的数据 不相关的数据是那些实际上不需要的数据并且不适合我们试图解决的问题。例如如果我们分析有关人口总体健康状况的数据则不需要电话号码。同样如果你只对某个特定国家/地区感兴趣则不希望包含所有其他国家/地区。只有当你确定某个数据不重要时你才可以放弃它。否则你就需要探索特征变量之间的相关矩阵。 即使你注意到没有相关性你应该问一个域专家。你永远不会知道一个似乎无关紧要的特征从实际经验来看可能非常重要。 重复项 重复项是数据集中重复的数据点。 例如 ·       数据来自不同来源 ·       用户可能会两次点击提交按钮认为表单实际上没有提交 ·       提交了两次在线预订请求纠正了第一次意外输入的错误信息。 类型转换 确保将数字存储为数字数据类型日期应存储为日期对象或Unix时间戳秒数依此类推。如果需要可以将分类值转换为数字和从数字转换。 需要注意的是无法转换为指定类型的值应转换为NA值或任何值并显示警告。这表示值不正确必须修复。 语法错误 删除空格应删除字符串开头或结尾的额外空格。 span stylecolor:#f8f8f2code classlanguage-none hello world hello world/code/span 填充字符串字符串可以用空格或其他字符填充到一定宽度。例如某些数字代码通常用前缀零表示以确保它们始终具有相同的位数。 span stylecolor:#f8f8f2code classlanguage-none313 000313 (6 digits)/code/span 拼写错误字符串可以通过多种不同方式输入毫无疑问可能会出错。 Gender m Male fem. FemalE Femle 这个分类变量被认为有5个不同的类而不是预期的2个男性和女性。因此我们的职责是从上述数据中识别出每个值是男性还是女性。我们可以怎么做呢 第一种解决方案是手动将每个值映射到“男性”或“女性”。 dataframe[gender].map({m: male, fem.: female, ...}) 第二种解决方案是使用模式匹配。例如我们可以在字符串的开头查找性别中m或M的出现。 re.sub(r\^m\$, Male, male, flagsre.IGNORECASE) 第三种解决方案是使用模糊匹配一种算法用于识别预期字符串与给定字符串之间的距离。它的基本实现计算将一个字符串转换为另一个字符串所需的操作数。 Gender   male  female m         3      5 Male      1      3 fem.      5      3 FemalE    3      2 Femle     3      1 此外如果你有一个像城市名称这样的变量你怀疑拼写错误或类似字符串应该被视为相同。例如“lisbon”可以输入为“lisboa”“lisbona”“Lisbon”等。 City     Distance from lisbon lisbon       0 lisboa       1 Lisbon       1 lisbona      2 注意“0”“NA”“无”“空”或“INF”等值它们可能意味着同样的事情缺少价值。 规范 我们的职责是不仅要识别拼写错误还要将每个值放在同一标准格式中。对于字符串请确保所有值都是小写或大写。 对于数值请确保所有值都具有特定的测量单位。例如高度可以是米和厘米。1米的差异被认为与1厘米的差异相同。因此这里的任务是将高度转换为单个单位。 对于日期美国版本与欧洲版本不同。将日期记录为时间戳毫秒数与将日期记录为日期对象不同。 缩放/转换 缩放意味着转换数据以使其适合特定的比例例如0-100或0-1。 例如可以将学生的考试分数重新缩放为百分比0-100而不是GPA0-5。 它还可以帮助使某些类型的数据绘图更容易。例如我们可能希望减少偏斜以帮助绘图当有这么多异常值时。最常用的函数是logsquare root和inverse。缩放也可以在具有不同测量单位的数据上进行。 规范化 虽然规范化也将值重新调整为0-1的范围但目的是转换数据以使其正常分布。为什么 因为在大多数情况下如果我们要使用依赖于正态分布数据的统计方法我们会对数据进行标准化。怎样完成 可以使用日志功能也可以使用其中一种方法。 根据使用的缩放方法数据分布的形状可能会发生变化。例如“标准Z分数”和“学生t统计量”保留了形状而日志功能则没有。 缺失值 鉴于缺失值是不可避免的让我们在遇到它们时该怎么做。有三种或许更多的方法来处理它们。 一、Drop 如果列中的缺失值很少发生并且随机发生那么最简单和最正确的解决方案是删除具有缺失值的观察值行。如果缺少大多数列的值并且随机发生则典型的决定是删除整列。 这在进行统计分析时特别有用。 二、Impute 这意味着根据其他观察结果计算缺失值。有很多方法可以做到这一点 1、使用统计值如均值中位数。但是这些都不能保证获得无偏的数据特别是在有许多缺失值的情况下。 当原始数据不偏斜时平均值最有用而中值更稳健对异常值不敏感。在正态分布的数据中可以获得与均值相差2个标准偏差的所有值。接下来通过生成之间的随机数填写缺失值(mean — 2 * std) (mean 2 * std) rand  np.random.randint(average_age - 2*std_age, average_age  2*std_age, size count_nan_age) dataframe[age][np.isnan(dataframe[age])]  rand 2、使用线性回归。根据现有数据可以计算出两个变量之间的最佳拟合线比如房价与面积m2。值得一提的是线性回归模型对异常值很敏感。 3、Hot-deck从其他类似记录中复制值。这仅在你有足够的可用数据时才有用。并且它可以应用于数值的且已经分类的数据。 另外我们还可以采用随机方法用随机值填充缺失值。进一步采用这种方法可以先将数据集分成两组基于某些特征比如性别然后随机分别填写不同性别的缺失值。 三、Flag 一些人认为无论我们使用何种插补方法填写缺失值都会导致信息丢失。这是因为说缺少数据本身就是信息性的算法知道它。当丢失的数据不是随机发生时这一点尤为重要。举一个例子一个特定种族的大多数人拒绝回答某个问题。 丢失的数据可以用例如0填充但在计算任何统计值或绘制分布时必须忽略这些零。虽然分类数据可以用“缺失”填写一个新的类别它告诉我们缺少这一数据。 离群极端值 它们的值与所有其他观察值显著不同。远离Q1和Q3四分位数的任何数据值1.5 * IQR都被认为是异常值。 在被证明之前异常值是无辜的。话虽如此除非有充分理由否则不应删除它们。例如人们可以注意到一些不太可能发生的奇怪的可疑的值因此决定将它们删除。虽然他们值得调查之前删除。 值得一提的是某些模型如线性回归对异常值非常敏感。换句话说异常值可能会使模型脱离大多数数据所在的位置。 记录和交叉数据集错误 这些错误是由于在同一行中有两个或多个值或者是在彼此相互矛盾的数据集中。例如如果我们有一个关于城市生活成本的数据集。总列数必须等于租金运输和食物的总和。同样孩子不能结婚。员工的工资不能低于计算的税额。相同的想法适用于不同数据集的相关数据。 验证 完成后应通过重新检查数据并确保其规则和约束确实存在来验证正确性。 例如在填写缺失数据后它们可能违反任何规则和约束。如果不可能可能会涉及一些手动校正。 报告 报告数据的健康程度对清洁同样重要。如前所述软件包或库可以生成所做更改的报告违反了哪些规则以及多少次。 除了记录违规外还应考虑这些错误的原因。为什么他们发生 总结 我很高兴你能坚持到最后。但是如果不接受质量文化所提到的内容都没有价值。 无论验证和清理过程多么强大和强大随着新数据的进入我们必须将继续受苦。最好是保护自己免受疾病的侵害而不是花时间和精力去补救它。 一站式开发者服务海量学习资源0元起 阿里热门开源项目、机器学习干货、开发者课程/工具、小微项目、移动研发等海量资源更有开发者福利Kindle、技术图书幸运抽奖100%中--》https://www.aliyun.com/acts/product-section-2019/developer?utm_contentg_1000047140 原文链接 本文为云栖社区原创内容未经允许不得转载。
http://www.pierceye.com/news/530600/

相关文章:

  • 无锡网站维护公司wordpress 目录排序
  • 自己搭建的ftp怎么做网站装修公司展厅效果图
  • 做网站手机验证收费吗百度竞价推广是什么工作
  • 电商网站 案例熊掌号怎么域名做网站
  • 做网站怎么改关键词安卓开发软件工具
  • 做SEO公司多给网站wordpress 固定链接 无法访问
  • 潍坊百度网站优化网站建设相关文章
  • 做学术研究的网站怎样建设个人游戏网站
  • dede淘宝客网站网站页面优化简单吗
  • 长春做网站优化的公司赣州做网站公司哪家好
  • 网站开发宝典做网站属于软件开发吗
  • 网站建设要求 优帮云福州模板建站定制网站
  • wordpress本地更换为网站域名jsp网站开发书籍
  • 做一个网站的流程沧州网站建设
  • 山东省城乡住房建设厅网站住房建设部网站监理员
  • 怎么做百度网站验证保健品商城网站模板
  • 丹东市做网站广东做网站的公司
  • 网站收录大全销售推广
  • 网站发展历程东莞企业网站建设制作
  • 厦门市建设局查询保障摇号网站首页做房产网站长
  • 公司网站建设的普遍性长沙建站网
  • 东莞英文建站公司api模式网站开发
  • 参与网站网站建设可判几年大同住房和城乡建设网站
  • 住房和城乡建设部网站投诉电话哈尔滨网页设计网站模板
  • 西安网站制作哪家公司好阳江房产网最新楼盘江楼盘
  • 科技馆网站建设网络营销实务教案
  • 网站上线倒计时html5模板文创产品设计流程
  • 建设项目竣工环保验收公示网站网站建设具体实施方案
  • 蜜淘app在那个网站做的濮阳吧
  • 建网站市场哪家网站开发好