作为数据科学家或分析师、人工智能或机器学习工程师,我们大部分的工作都是向同事或主管解释事物,报告个人的工作和发现,数据可视化已经成为我们生活中必不可少的一部分。
而对于不了解或不感兴趣的人来说,原始数据就是长串随机数字、图像或音频文件。我们的工作是让这些人理解数据,并引导他们从这些数据中作出有用的推论。
罗伯特·科萨拉说:“数据可视化是挖掘和利用数据的关键。即便是最简单的可视化,也能够消除数据提供者对自己的数据被低估、误解或歪曲的忧虑。数据可视化能够改变人们对数据的理解方式,提高大众对数据的兴趣,并推动更多更好的数据开发。”
我们用数据描述历史和未来,但如果没有可视化,在外行眼里就和预言家或古老先知无甚区别。本文将带你了解数据可视化的重要性,分享一些专业的可视化技巧,以及一些创建精美可视化的工具、库和软件。
数据可视化的定义及其重要性
数据可视化是将数据视觉化或图像化的过程。这个过程很重要,它可以通过图像表达不同数据之间的关联。人脑善于理解信息图表,而电子表格、CSV文件或数据库中上百行的原始数据则往往令人焦头烂额。
数据可视化可以让趋势和模式显而易见,这在数据科学的探索性数据分析阶段尤为重要。数据可视化不仅对数据科学家、分析师和人工智能/机器学习(AI/ML)工程师很重要,在技术领域内外所有和数据打交道的人都应该学习这一技能。
数据可视化的应用
正如约翰·图基所说:图像最大的价值在于迫使我们关注到意想不到的东西。
数据可视化可以应用于几乎所有领域,每当需要洞察或推断数据时,就离不开数据可视化。但是,数据可视化并不仅仅是为了美观。以图像形式展示数据有如下几个原因:
-
寻找关联:在没有数据可视化的情况下,尝试确定两个或多个事物之间的相关性是非常困难的。在数据分析中寻找关联是非常关键的,因此,若想对数据做出最深刻的理解,数据可视化是至关重要的。
-
观察变化:通过数据可视化,可以使用时间序列图观察既定时间内的趋势或模式变化。这有助于回顾历史数据,对未来可能发生的事件做出关键的预测或假设,这可以帮助组织或个人调整产品或服务。
-
识别频率:频率识别是视觉图表最基本的作用之一。它有助于我们确定自己的办事频率,以便知道要在哪里投入更多的努力、时间和精力,而在哪里可以放松。企业也可以使用频率图表来核对并洞悉特定时间的销量,调整营销流程,以满足消费者的需求。
可视化图表类型
既然知道了什么是可视化,那么就必须了解各种可视化图表的类型,以便讲述数据背后的故事。可视化图表有成百上千种,有些我们很可能永远不会碰到。我将分享几种我所了解的热门图表,排名不以重要性和兴趣为先后。
-
折线图:又称线条图、线状图或曲线图,是一种将一系列数据点(即“标记”)用直线段连接来呈现信息的图表。它是许多领域中常见的一种基本图表类型。它与散点图类似,但是它的测量点是有序的(通常按x轴排序),并用直线段连接。折线图通常用于将数据在一段时间(时间序列)内的趋势可视化,因此,线条通常是按时间顺序画的。在这种情况下,它们被称为趋势图。
-
条形图:亦称条状图,是一种用矩形条表示分类数据的图表,矩形条的高度或长度与其所代表的数值成正比。条形图可以横置或纵置,纵置时也称为柱形图。条形图可比较不同类别的离散数值。一个轴表示比较的类别,另一个轴显示数值。一些条形图有多组聚合的矩形条,可显示多个变量的值。
-
直方图:直方图可以大致显示数量分布的情况。它形似条形图,但衡量的是频数而非走势。
-
散点图:散点图是一种图表或数学图形,通常使用笛卡尔坐标系(Cartesian coordinate,又称直角坐标系)来显示两个变量下的两组数据。如果为数据点编码(设置颜色/形状/大小),则可以添加其他变量。数据显示为一组点,每个点都有两个变量,分别确定其在水平轴和垂直轴上的位置。
-
饼图/圆环图:饼图是一种圆形的统计图,它被分成多个区块来说明数字比例。在饼图中,每个区块的弧长(以及相应的中心角和面积)与其所代表的数值成正比。虽然饼图因形似一个被切成块的饼而得名,但它有多种呈现方式,比如圆环图就是一个空心的饼图,不仅能清楚地显示区块或比例,还美化了传统的饼图样式。
-
热力图:热力图是一种数据可视化技术,这种二维图像用颜色显示某现象的量级。颜色可能有色调或深浅的不同,使读者对某现象的聚集情况,或其在空间上的变化情况一目了然。
-
地图:利用包含位置信息的数据,可以绘制精美的可视化世界地图。这类地图用颜色编码,以较暗的阴影显示强度更高的区域,反之亦然。它非常适用于可视化病毒的传播情况,广泛应用于新冠病毒影响区域的可视化。
-

(编辑:保山站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|