互动平台领手机,兰州网站建设与优化推广,沭阳住房和城乡建设局网站,网站优化网络公司在这篇文章#xff0c;我想和大家分享 10 个基本的中级和高级的绘图工具。我发现在现实生活中#xff0c;当涉及到绘图解释你的数据时#xff0c;这些工具非常有用。
作者#xff1a;加米谷大数据来源#xff1a;今日头条 我必须对你说实话#xff1a;当我学习数据科学时…在这篇文章我想和大家分享 10 个基本的中级和高级的绘图工具。我发现在现实生活中当涉及到绘图解释你的数据时这些工具非常有用。
作者加米谷大数据来源今日头条 我必须对你说实话当我学习数据科学时我完全低估了绘图的重要性。没错那时一切都一团糟我从头开始学习 python、熟悉了所有可能的算法、理解了所有东西背后的数学原理但是我的绘图技巧很糟糕。为什么会这样?我们总是在做同样的事情。你知道的pairplotsdistplotsqqplots…你在可视化数据时使用图表是理解数据的唯一方法。这些都是非常有用、通用和默认的图表。所以复制和粘贴一堆代码成了我时最常做的事情。 对于我的项目来说可交付结果总是一个模型。由于数小时的数据清洗和特征工程很可能会有一个不错的分数。我是我项目的唯一参与者我的教授们在他们给我这些数据时就已经知道关于数据的一切。那我作图是为了给谁看?我自己?好吧…没必要!对不?我比任何人都清楚每一步在实现什么我不需要向任何人解释。
但除此之外老实说作图一点都不神秘。任何人都可以作图。我 60 岁的父亲只要用 excel 就能作出一些图表。当然每个人都能做到这就是为什么我认为它并不神秘。我和我的朋友们都在从事数据科学和机器学习但大多数人甚至不明白那是什么。正如《哈佛商业评论》(Harvard Business Review)杂志所说这就是为什么我们都那么帅气性感。
问题是小伙子们——如果你们还没有从我过分的讽刺中发现现实生活并非如此。我相信这可能是我在数据科学中的最大失败没有充分考虑可解释性和可解释性的重要性。你可能是个天才但如果你不能向第三方解释你是如何得到这些美妙的结论以及为什么得到这些结论那么你可能什么都不是。例如在 Ravelin Technology我们提供基于机器学习的欺诈预防解决方案。想象一下你告诉一个客户你封锁了 x% 的交易只是因为机器学习模型是这样说的但你根本不知道为什么要这样做会怎样?当然对于任何试图最大化环化率和销售情况的电子商务来说这都不是很有吸引力对吧?想象一下在医疗保健等其他敏感领域出现同样的情况……那简直是灾难即将来临的千兆。
现在除了与业务相关的问题甚至从法律的角度或者从你的业务只关心预测的结果来看——不管你如何得到它们理解一个算法实际上是如何工作的对你会有帮助。你不仅能更好地向客户解释输出的原因还能更好地协调数据科学家和分析师的工作。
因此在现实世界中情况与我在学校从事学术数据科学项目时的情况完全不同我从来不是项目的唯一参与者我的同事和/或客户通常对我使用的数据不太了解。那我现在要为谁作图呢?听起来还没必要吗?很显然不是。能够向人们解释你的思维过程是任何数据相关工作的关键部分。在这种情况下复制和粘贴图表是不够的图表的个性化变得非常重要。 在这篇文章的剩余部分我想和大家分享 10 个基本的中级和高级的绘图工具。我发现在现实生活中当涉及到绘图解释你的数据时这些工具非常有用。
我将在下面几行中引用的库
Seabornimport seaborn as sns matplotlibmatplotlib.pyplot as plt
此外如果需要可以设置样式和你喜欢的格式例如
plt.style.use(fivethirtyEight) %config inlinebackend.figure\formatretina %matplotlib inline
说到这里让我们直接跳到这些工具
1.绘制复合图
有时你会想在一个图表中绘制出不同的东西。但有时你会希望在同一行或列中抛出不同的图表相互补充和/或显示不同的信息片段。
为此这里给出一个非常基本但必不可少的工具subplots。如何使用它?很简单。matplotlib 中的图表是一种结构可以这样使用
图形绘制图表的背景或画布轴我们的图表
通常这些东西是在代码后台自动设置的但是如果要绘制多个图形我们只需要按照以下方式创建图形和轴对象
fig, ax plt.subplots(ncolsnumber_of_cols, nrowsnumber_of_rows, figsize(x,y)
例如如果设置 ncols1 和 nrows2我们将创建一个由 xy 轴组成的图形其中只有两个图表分布在两个不同的行中。剩下的唯一事情是从 0 开始使用ax参数指定不同绘图的顺序。例如
sns.scatterplot(xhorizontal_data_1, yvertical_data_1, axax[0]); sns.scatterplot(xhorizontal_data_2, yvertical_data_2, axax[1]);
2.轴标签
这可能看起来没有必要或者不是很有帮助但是你无法想象如果你的图表有点混乱或者看到数据的人对此不是很熟悉你会被问多少次 x/y 轴代表的是什么。按照前面的两个绘图示例如果要为轴设置特定名称则必须使用以下代码行
ax[0].set(x labelMy X LabelylabelMy Y Label) ax[1].set(xlabelMy Second X LabelylabelMy Second and Very Creative Y Label)
3.设置标题
如果我们要将数据呈现给第三方另一个基本但关键的要点是使用标题它和之前的轴标记非常相似
ax[0].title.set_text(‘This title has to be very clear and explicative’) ax[1].title.set_text(‘And this title has to explain what’s different in this chart’
4.给图表重点元素做注释
通常情况下仅仅在图表的左右两侧使用刻度本身并不是很清楚。在图上标注值对于解释图表非常有用。
假设现在我们使用 subplots我们有几个图表其中一个是位于 ax[0] 位置的 seaborn 的 barplot。在这种情况下在条形图中每个条上获取注释的代码要复杂一些但很容易实现
for p in ax[0].patches: ax[0].annotate(“%.2f” % p.get_height(), (p.get_x() p.get_width() / 2., p.get_height()), ha’center’, va’center’, fontsize12, color’white’, xytext(0, -10), textcoords’offset points’
对于图表中的每个「patch」或条形图直到「ha」参数获取条形图的位置、高度和宽度为止以便将值注释放在正确的位置。以类似的方式我们还可以指定注释的对齐方式、字体大小和颜色而「xytext」参数指示我们是否要在某个 x 或 y 方向移动注释。在上面的例子中我们将在 y 轴上向下移动注释文本。
5.使用不同颜色区分标签
在某些情况下在一段时间或一系列的值中我们可能测量了不同种类的物体。例如假设我们测量 6 个月以来狗和猫的体重。在实验结束时我们想画出每只动物的体重分别用蓝色和红色区分猫和狗。为此在大多数传统绘图中我们可以使用参数「hue」为元素提供颜色列表。
举个例子
weight [5,4,8,2,6,2] month [‘febrero’,’enero’,’abril’,’junio’,’marzo’,’mayo’] animal_type [‘dog’,’cat’,’cat’,’dog’,’dog’,’dog’] hue [‘blue’,’red’,’red’,’blue’,’blue’,’blue’] sns.scatterplot(xmonth, yweight, huehue); 6.改变散点图中点的大小
使用上面的相同示例我们还可以使用从 1 到 5 的刻度表示图表中动物的大小。将此额外指标添加到绘图中的一个好选择是修改散点图的大小通过「size」参数将大小指定给新的附加向量并使用「size」调整它们之间的关系
size [2,3,5,1,4,1] sns.scatterplot(xmonth, yweight, huehue, sizesize, sizes (50,300)); 顺便说一下如果如上图所示图例使绘图更难阅读你可以将「legend」参数设置为 false。
7.在数据中包含一行以显示阈值
在现实生活中的许多情况下数据高于或低于某个阈值可能是问题提示信号或错误警告。如果要在绘图中清楚地显示可以使用以下命令添加一行
ax[0].axvline(32,0cr)
加在哪里?
ax[0] 将是我们要在其中插入行的图表32 将是绘制线的值c r 表示图表将是红色的
如果我们使用的是 subplots那么将 axvline 添加到相应的 axe 就很简单如上面的示例所示。但是如果不使用 subplots则应执行以下操作
gsns.scatterplot(xmonthyweighthuehuelegendfalse) g.axvline(2cr) plt.show() 8.多 Y 轴绘图
这可能是最简单但也是最有用的技巧之一。
有时我们只需要在图表中添加更多信息除了在绘图的右 y 轴上添加新的度量之外没有其他方法可以绕过它
ax2ax[0].twinx()
现在可以添加任何要将「ax」参数指向「ax2」的图表
sns.lineplot(xmonth, yaverage_animal_weight, axax2
请注意这个例子再次假设你使用的是 subplots。如果没有你应该遵循与前一点相同的逻辑
g sns.scatterplot(xmonth, yweight, huehue, legendFalse) g.axvline(2,c’r’) ax2 g.twinx() sns.lineplot(xmonth, yaverage_animal_weight, axax2, c’y’) plt.show() 请注意要使其工作你应该为两个图表中的 x 轴设置始终相同的数据。否则它们就不匹配了。
零基础大数据分析培训机构加米谷大数据小班教学数据分析与挖掘10月零基础班预报名享优惠 9. 重叠绘图和更改标签和颜色
在同一轴上重叠图表很容易我们只需要为所有想要的绘图编写代码然后我们可以简单地调用plt.show()将它们全部绘制在一起
a[1,2,3,4,5] b[4,5,6,2,2] c[2,5,6,2,1] sns.lineplot(xaybcr) sns.lineplot(xayccb) plt.show() 然而有时重叠会导致混淆所以我们可能需要做一些改进让人更容易理解。
例如假设你希望在同一个图形中重叠你采集的两个不同样本的身高分布一个来自你的同事另一个来自当地的篮球队。最好添加一些个性化的东西如不同的颜色并添加一个图例表明它们具体代表的是哪一个。好吧简单点
设置「colour」标签我们可以为每一个设置一种特定的颜色。请注意有时此参数可以更改为简单的「c」使用「label」参数我们可以通过简单地调用 x.legend()用来指定要显示的任何文本
举个例子
g sns.distplot(workmates_height, color’b’, label’Workmates’) sns.distplot(basketball_team, color’r’, axg, label’Basket team’) g.legend() plt.show() 10.在条形图中设置轴的顺序
最后是一个非常特殊的工具~如果你喜欢使用条形图你可能会面临这样的问题你的条形图没有按照你想要的顺序排列。在这种情况下有一个简单的修复方法将一个带有你想要的特定顺序的列表传递给「order」参数
a[secondfirstthird] b[15,10,20] sns.barplot(xayborder[firstsecondthird]); 绘图本身就是一个世界根据我的经验提高你技能的最好方法就是练习。但我希望这些工具和技巧能帮助你做好现实中数据科学的工作就像当初帮助我一样。
阅读目录置顶)(长期更新计算机领域知识https://blog.csdn.net/weixin_43392489/article/details/102380691
阅读目录置顶)(长期更新计算机领域知识https://blog.csdn.net/weixin_43392489/article/details/102380882
阅读目录置顶)(长期科技领域知识https://blog.csdn.net/weixin_43392489/article/details/102600114