2018-12-25

Storytelling with Data

What we want is not data, but the facts that data tells us.

读懂上下文

探索性分析和解释性分析

探索性分析：理解数据并找到其中值得关注或分享给他人的精华。（Exploratory Data Analysis, EDA）——牡蛎

1	EDA 之父 John Tukey 说过，「探索性数据是一种态度，是对我们相信存在抑或不存在的事物保持灵活的审视」。

探索性数据分析和数据可视化的目标是不同的，探索性数据分析重在「探索」，为研究者服务；数据可视化重在「讲故事」，为观众服务。

解释性分析：花时间将数据抽象为受众能够消化的信息。——珍珠

1
2

举个例子：在牡蛎中找珍珠，可能打开一百个牡蛎（尝试上百种不同的假设或从上百种不同的角度去审视数据）才碰巧找到两颗珍珠。
在向受众进行分析的时候，我们迫切的希望能够言之有物。解释某一件事或者讲述某一个故事——正是关于那两颗珍珠。

工作中：往往错误的在应该进行解释性分析的时候（珍珠）错误的进行了探索性分析（简单的展示了全部的数据——一百个牡蛎）。

在进行了完整的分析后，向受众展示一切是非常诱人的，因为可以以此来证明你所做的工作及分析的可靠性。抑制住这样的冲动，因为那会让受众重复打开所有的牡蛎！把注意力集中在珍珠上，这才是你的受众需要了解的信息。

1	Nathan Yau的《数据之美》，把数据可视化当作一种媒介而非工具，并花大量篇幅讨论数据本身以及探索和分析数据的策略。

对象、内容和方式

问题：

1.谁是你的受众？

2.你希望受众了解哪些内容或者做些什么？

3.如何用数据表达自己的观点？

对象

你的受众

你的受众越具体，你就越能成功地进行沟通。对受众了解得越多，就越能准确理解如何与之产生共鸣，如何在沟通中满足双方的需求。

你自己

思考：你与受众的关系？对方已经视你为可以信赖的专家？还需要努力树立威信？

以便调整你所讲整个故事的顺序和信息量。

1	Nancy Duarte 在她的Resonate一书中推荐将受众视为主人公，并针对了解受众、划分受众、建立共识提出具体策略。

内容

行为

你需要受众了解或者做什么？

想明白如何沟通对受众有意义。你应该每时每刻都有一个目标，并希望受众了解或者完成它。如果不能简洁清楚地表达这个目标，那就应该首先重新审视是否需要沟通。

提示行为：接受同意开始相信改变协作着手创建辩护想要分辨行动移情授权鼓励参与建立检查促进熟悉形成实现包括影响投入鼓舞了解学习喜欢劝说计划提升追求推荐接收记住报告答复促成支持简化启动尝试理解验证

机制

你会如何与受众沟通？

与受众沟通的方法会对以下因素产生影响：对受众如何消化信息的可控程度和信息披露的详细程度。

语气

庆祝成功还是鼓励行动？话题是轻松的还是严肃的？

方式

究竟什么样的数据可以用来表达观点呢？数据成为了你所讲述的故事的支撑性依据。不应该忽略不相符的数据，上下文、正面数据、反面数据各多少才算合适，这会因场景、对受众的信任程度以及其他因素的不同而已。

举例说明对象、内容和方式

先从对象开始，识别示例中的受众。针对不同受众，讲的故事会有差异，强调的重点会有变化，呼吁的行动会有所不同，展示的数据（甚至是否展示数据）也会有区别。如果奢望通过一次沟通来满足所有这些不同受众的需求，很可能最终无法满足任何一方的需求。

对象：可以批准资金使项目得以继续的预算委员会。
内容：项目是成功的，申请X美元用于继续开展项目。
方式：用项目前后的问卷数据展示项目是成功的。

询问上下文：实用问题

通常沟通都是为了完成别人的请求：客户、利益相关者或者你的老板。这代表你可能无法掌握全部的上下文，需要询问请求者从而完全了解情况。

梳理上下文问题。可以提前思考如何回答这些问题：

（1）有哪些至关重要的背景信息？

（2）受众和决策者是谁？对他们有什么了解？

（3）受众可能对话题存在什么样的正面或负面偏见？

（4）有什么样的数据可以支撑中这个案例？这些数据是受众所熟悉的还是新的？

（5）有什么风险？什么因素会弱化案例？我们是否需要主动提出来？

（6）成功的产出是什么样的？

（7）如果时间有限或者只能用一句话告诉受众需要做什么，你会说什么？

三分钟故事和中心思想

三分钟故事

就是三分钟时间把必要的信息告诉受众，确保你对所要讲的故事理解得清晰透彻。能做到这一点，你在演讲的时候就可以摆脱幻灯片或者图表的依赖。（电梯被问项目情况。。。）

中心思想

中心思想即将沟通内容进一步精炼为一句话。包含三个组成部分：

（1）必须能陈述你独特的观点；

（2）必须能切中要害；

（3）必须是一个完整的句子。

故事板

故事板大概是确保沟通切题所能做到的最重要的一件事了。
它能确立沟通的结构，是打算创建的内容的可视化大纲。

选择有效的图表

A. V. Abela 制作了一张图表建议，放在他的博客上。

Who首先要搞清楚谁是你的听众，一次性尝试与太多需求不同的人沟通，远没有与明确细分好的一部分听众沟通的效率高，
你对听众了解得越多，就越能准确理解如何与之产生共鸣，如何在沟通中满足双方的需求。

What你讲的这个故事到底要听众听懂什么？对于这点，作为讲故事的人一定要心中有数，你自己才是解读数据并帮助人们理
解和作出反应的人。否则面对堆砌了一堆花里胡哨的图表以及你一页页干巴巴的照本宣科之后，听众们可能会根本没有理解你
的意图和看明白数据的意义。

How只有在明确了听众是谁以及希望他们了解或做什么之后，我们才能做出决定: 究竟用什么样的数据、
什么样的数据展示方式（图表📈）来表达我们的观点。
一再强调让听众容易看懂你要说的故事是最重要的。

用对图表

简而言之，描述趋势使用折线图，描述数量使用柱状图（且必须从 0 开始），描述关系使用散点图，描述比例使用饼状图。2.3正直的数据分析会举例为什么柱状图必须从0开始。

科学家经过 30 年的研究，发现人对位置、长度和角度的感知最敏锐，可以用来表示数量，其次是面积和密度，可表示顺序，对于颜色和形状的感知是最不精确的，只可用来区分类别。

用对颜色

比较数量大小的时候，不要使用彩虹色，因为彩虹色不能体现线性关系，我们的认知没法感觉到红色比绿色「高」，更好的选择时用不同深浅的颜色。彩虹色还会对色盲人群造成困扰。

附加链接

正直的数据分析

做任何研究，研究者都不能事先确定任何立场，对于 EDA 来说更是如此，研究者必须保持怀疑和谨慎的态度，即便数据结果与你预期大不相同，也要尽量做到客观。

（1）不正直的数据分析有两类，一类是研究者想让数据结果更显著来支持自己的立场，包括篡改 p 值（p-hacking）p-hacking、数据窥探（data snooping）等等，这些行为往往让你的实验无法重复。xkcd 有篇漫画就讽刺了这个现象。漫画

（2）例如： FOX 把柱状图的下半部分砍掉，造成增长很多的假象。
而事实上，如果让柱状图从 0 开始显示，结果如下。

1
2
3

注意一图纵轴的底端（最右侧）是从 34 开始的，而不是 0。这意味着条形图理论上应该向下延伸到页面的底部。
事实上，按图中的画法，视觉增长达到了 460%［条形图的高度是 35-34=1 和 39.6-34=5.6，所以（5.6-1）/1=460%］。
如果我们以 0 作为纵轴起点，条形图按实际高度绘制（35 和 39.6），实际视觉增长只有 13%［（39.6-35）/35］。

（3）FOX 故意挑选某些月份的数据，误导观众以为奥巴马政府的失业率不断走高，可以看到 x 轴的月份根本不是每季度（By Quarter）的。

图表介绍

12个：简单文本、散点图、表格、折线图、热力图、斜率图、竖直条形图、水平条形图、堆叠竖直条形图、堆叠水平条形图、瀑布图、方形面积图

简单文本

1
2
3

只有一两项数据需要分享，直接使用数据本身

只用数字（尽可能突出）和一些辅助性文字

表格

适合与一群受众沟通

让设计融入背景，让数据占据核心地位：使用窄边框或者空白来区分表格的元素

特例：热力图 用颜色饱和度将表格细节和视觉暗示的使用结合起来

推荐阅读:Stephen Few 的 Show Me the Numbers 一书中有更多关于表格设计的内容，其有一章专门讨论表格的结构、元素以及表格设计的最佳实践。
Show Me the Numbers

热力图

有一种办法能够将表格中的细节和视觉暗示的使用结合起来，那就是热力图。热力图是用表格的形式可视化数据的一种方法，在显示数据的地方（在数据之外）利用着色的单元格传递数据相对大小的信息。

点图

1	散点图：展示两件事的关系

当行驶英里数少于 1700 英里或者多于 3300 英里时，每英里成本会高于平均水平。

线图

绘制连续数据

折线图

可以展现一组或多组数据

画图保证时间间隔一致性（2.3正直数据分析有反例）

可以在折线图中展示范围内的平均值

下图中展现了一个机场13个月内护照检查等待时间的最小值、平均值和最大值。

斜率图

1	适用于两个时间段或者两组对比数据点，可以快速展示两组数据之间各维度的相对提升、降低等差异

斜率图绘制模版

条形图

一定要有原点（2.3正直数据分析有反例）

对于线图来说，由于重点在于空间中的相对位置（而非相对坐标轴的长度），故可以使用非 0 的原点。
但你仍然要谨慎，要向受众明确你正在使用非 0 原点，并且将上下文考虑进来，以避免将微小的变化过度放大。

作图时考虑特异性的成份，如果希望受众重点关注整体趋势，可以考虑保留坐标轴。如果某些具体数值很重要，直接标记

过宽过窄都不好，宽度要比条形图之间的空白更宽。过宽受众希望比较面积而非长度。

竖直条形图/直方图

1
2
3

可以包含一组或多组数据（谨慎使用多组)，考虑你希望受众比较什么，并以此构造分类的层级，使之越简单越好。

考虑你希望受众比较什么，并以此构造分类的层级

堆叠竖直条形图

1	旨在比较各类别之间总体区别的同时还能看出每个类别中子成分的占比情况

(1).除了底部的子成分（紧贴 x 轴之上的那些），你很难比较其他子成分在跨类别时的情况，因为不再有统一的基线可供比较。这使得用肉眼比较变得更难。

(2).堆叠竖直条形图可以用绝对数值（直接绘制数值）组织，也可以让每列的值之和为 100%。如何选择取决于你试图向受众传达什么内容。当你使用 100% 的堆叠条时，思考附带每个类别总的绝对数值是否也有意义（既可以用不引人注目的方式直接包含在图形中，也可以用脚注的形式标记出来），这对数据解读也许会有帮助。

瀑布图

1	可用于抽离出堆叠条形图中的一部分进行重点关注，或者展示起点和结果以及其中的上升下降等变化

在图的左侧，我们可以看到年初这个团队的职员总数。从左往右，我们首先会看到数据的提升：新招聘以及从组织的其他团队转岗来的职员。之后数据减少：转岗到别的团队或是离职。最后一列代表了在年初基础上增减之后的年末职员总数。

1 2	秘诀就在于借用堆叠条形图的功能，将第一组数据（紧贴着 x 轴的那些）设为隐藏。这需要一些计算才能设置正确，不过却非常好用。

博客文章有一篇关于这个话题的博客文章，可以下载到 Excel 版的瀑布图示例以及自定义指南。

水平条形图

容易阅读

可以一组或多组数据

类别名称很长的时候及其有效

堆叠水平条形图

1
2
3

与堆叠竖直条形图类似，也可用于展示不同类别间整体或者子成分的比较，也同样可以按绝对数值或者百分比进行组织。

对用李克特量表法很有效————常用于问卷调查的度量，从强烈不同意到强烈同意

面积图

1	当需要可视化相差极大的数值时

其他类型图表

a.信息图是一个经常被误用的术语。一幅信息图只是信息或者数据的图形化展示。图表组成的信息图信息量可大可小。

从不足的方面来看，信息图通常包括尺寸过大、过分装饰的数字以及卡通化的图形。

这样的设计有一定的视觉吸引力，能够讨好读者。再多看几眼，信息图就显得很浅薄，无法让有辨别力的受众满意。

b.设计师在开始设计过程之前需要能够回答很多重要的问题。与之前讨论理解上下文时提出的问题是一样的。受众是谁？

你希望他们了解或者做什么？只有在回答了这些问题后，才能选择出有效的可视化方法。

优秀的数据可视化方案————无论是信息图还是其他————不仅仅是指定主题的事实堆积，而是要讲述一个故事。

需要避开的陷阱

邪恶的饼图

不要使用3D

不要倾斜角度

不要使用甜甜圈图

做了简单调查之后发现，大多数人会认为正蓝色对应的供应商 B 的市场份额看起来最大。然而，我们的视觉欺骗了自己，实际情况是 ———— 深蓝色对应的供应商A才是市场份额最大的！然而实际如下图：

让我们来分析下为什么邪恶😈 的3D饼🍪 图会带给我们错觉 —— 吸引我们眼球的是3D 图形、奇葩的视角，倾斜使得饼图上方的部分显得距离更远，因而看起来比实际要小，下方的部分则相对更近，也就比实际看起来更大。即便我们去掉 3D 效果，将图变成2D的，我们依然会很难分清谁大谁小 —— 因为人眼并不擅于在二维空间进行定量的度量。饼图不能用了，那我们该怎么办？在这个例子里，我们不妨把饼🍪 图改成水平条形图来试试，效果如下：

既然谈到了饼图，让我们快速地看一下另一种需要避免使用的“甜点图形”：甜甜圈图。

使用饼图意味着让受众比较角度和面积，而使用甜甜圈图意味着让受众比较两段弧形的长度（例如图中弧形 A 的长度与弧形 B 的长度）。你对自己的眼睛定量比较弧形长度的能力又有多少信心呢？

永远别用3D图形

1
2
3

数据可视化的黄金定律之一是：永远别用 3D 图形。

3D 使数据发生倾斜，从而更难甚至无法解读和比较。

a.例如在 3D 条形图中，你或许会疑惑作图应用绘制的是条形图的正面还是背面。有时甚至还会更不直观。以 Excel 为例，条形图的高度是由一个不可见的切面与 y 轴的交点决定的。

b.一月和二月的问题数量分别是多少？我为每个月至少绘制了一个问题。但以我读图的方式，如果将条形图的高度与网格线比较，并映射到左侧的 y 轴上，我会预估值大概为 0.8。这就是简陋的数据可视化。

双y轴

总之不是个好主意

替代方案一：直接添加标签

替代方案二：竖直分割

消除杂乱

1	本章关注的重点是识别并消除杂乱

认知负荷

认知负荷理论可以分为三种类型：

内在认知负荷
外部认知负荷
关联认知负荷

一般1.3两种认知负荷最适用于交互设计。

内在认知负荷

1
2
3

内在认知负荷是与某个具体指令相关的任务难度。这正是微文案和文案在好的交互中扮演重要角色的原因。

例如，大部分app的空状态是敦促用户去完成任务，这里的文案应简短、恰当以便用户容易听从指令。

关联认知负荷

1
2
3

关联认知负荷是指在处理信息及导图结构中投入的认知负荷。反映了组织不同类别的信息及其间关系的思维模式。

因此如果用户可以把新事物投射到他们已知的行为模式中，就可以更容易的认识和学习新事物。

数据墨水比或者信噪比

1 2	“最大化数据墨水比”，在其他因素不变的情况下，图表应该尽量多地将墨水花在数据上 --“最大化信噪比”

杂乱

造成过度或者无关的认知负荷的一个元凶。

杂乱会使内容比实际更复杂。

杂乱的存在会带来不甚理想（甚至更糟）的用户体验。

视觉认知的格式塔原则

可以识别图形中的信号（希望沟通的信息）和噪声（杂乱）。

六大原则：临近原则、相似原则、包围原则、闭合原则、连续原则和连接原则。
对于每项原则，我都会展示一个图表应用的示例。

临近原则

1 2	我们倾向于认为物理上临近的物体属于同一个群体。根据点与点相互之间临近与否，你会很自然地将这些点视为三个不同的群体。

简单地通过调整点与点之间的空白，你的眼睛会按预设的方向移动，左侧图中随列向下，右侧图中则随行向右。

相似原则

1
2
3

拥有相似颜色、形状、大小或者方向的物体会被视作相关或从属于一个群体。

在图 3-3 中，你会很自然地将左图中蓝色的圆或者右图中灰色的方块联系在一起。

这一原则也可以用于表格的设计，帮助将受众的目光聚焦到我们所期望的方向。颜色的相似性是让我们按行阅读（而非按列阅读）的线索。这消除了使用边框等额外元素引导注意的需求。

包围原则

1	我们会认为物理上包围在一起的物体从属于同一个群体。不需要很明显的包围来达到这个目的：浅色的背景通常就足够了。

阴影区域将预测数据与实际数据分隔开。

闭合原则

1
2

闭合的概念是指人们希望事情能够简化并符合脑海中已经存在的结构。因此人们倾向于将一系列个体元素看作一个可识别
的形状——当部分缺失时，我们的视觉会帮助填充。

作图应用（如 Excel）通常默认包含边框、背景色等元素。闭合原则告诉我们这是没有必要的——我们可以去掉这些元素，而图形看起来仍然是一个凝聚的整体。更棒的是：当我们去掉那些不必要的元素后，数据更为突出了。

连续原则

1 2	连续原则与闭合原则类似：当我们观察物体时，尽管没有显式的路径，但我们的眼睛倾向于寻找最平稳的路径并自然地创造出连续性。

如果我将图 1 的两部分分开，大多数人期望看到的是图 2 的情况，而实际可能是图 3。

该原则的使用，我将竖直的 y 轴从图 3-10 中移除。你仍然能看到条形图是对齐的，因为左侧标签和右侧数据间的空白一致（最平稳的路径）。与闭合原则的应用一样，去掉不必要的元素会使数据更为突出。

连接原则

1
2
3

最后一个格式塔原则是连接原则。我们倾向于将物理连接的物体视作一个群体。连接属性通常比相似的颜色、大小和形状有更强的关联价值。
在看图 3-11 时，你很可能将线条连接的形状（而非相似颜色、大小或形状）视为一对，这就是连接原则在起作用。
连接属性通常没有包围原则那么强，但你可以通过线条的粗细和深浅来影响这种关系以达到理想的视觉层次。

我们经常在折线图中使用连接原则以帮助眼睛看到数据中的规则，如图 3-12 所示。

对比的不正确使用

1	清晰的对比对受众来说是一种信号，帮助他们理解应该把注意力集中到哪里。反之，缺少清晰的对比则是视觉杂乱的一种表现。

精耕细作图表📈

我们通过一个假想场景来学习一下如何精耕细作图表：你作为一个HR，公司的事业正在蓬勃发展，而客服的人数不够用了，老板问你来年的招聘需求。你要绘制一个月度的新增工单以及处理工单的趋势，发现有证据表明人力不足的确导致了团队生产力的下降，现在你想将你绘制的粗糙图表改造成招聘需求的基础。绘制的原图如下，这是用excel最容易做出来的。

去除图形边框

去除网格线

去除数据标记

1	每一个元素都会增加听众的认知负荷，没必要的东西去掉更舒服😌

清理坐标轴标签

1
2
3

我最大的眼中钉之一便是 y 轴标签当中多余的尾数 0：它们并未包含任何参考价值，反而让数字看起来比实际复杂得多。

我们可以去掉这些尾数以减少受众不必要的认知负荷。我们同时还可以将 x 轴标签水平排列，从而消除了倾斜的文字。

直接标记数据

保持颜色一致

1
2
3

使用格式塔临近原则的同时，让我们也同样考虑格式塔相似原则，对数据标签和所描述的数据使用相同的颜色。

这对受众来说是另一条提示：这两部分信息是相关联的。

小结

Title:Storytelling with Data

Author:Eric Yue

Release Date:2018-12-25 - 19-05

Update Date:2020-11-28 - 15-37

Link:http://github.com/lzxyzq/2018/12/25/用数据讲故事/

Agreement: "Signed-Non-commercial-Shared in the same way 3.0" Please keep the original link and author for forward.