我们首先要处理一个最重要的问题——数据思维究竟是什么?
对数据思维的三个误解
先问你一个问题:这里有一组数字,1、2、3、4、5,它们的平均值是多少啊?你一定脱口而出,3。
回答正确。问题是,这是数据思维吗?
答案是,不是。这不是思维,而是人类先天携带的数字感。
拜自然进化的福气,我们一出生大脑里就有了数字感。不需要谁教就知道,西瓜比芝麻大,不能捡了芝麻丢了西瓜;知道买一送一比什么都不送好;知道一个酒店有100间房,要隔离150人,就肯定有些房间不止会住一个人。
虽然先天的数字感是获得数据思维的重要基础,但是它有时候也不靠谱,会把我们带到沟里。比如在必胜客,很多人就觉得,两个6英寸的披萨和一个12英寸的披萨差不多大。但其实,你可以算一下,大小差远了。
既然先天的数字感不是数据思维,是不是后天学习到的本事才是呢?我们把任务升级一下,计算中国城市居民的平均收入。这可是十亿条规模的数据量,心算手算都不行了,必须动用数据处理工具。会用数学工具,这是不是数据思维呢?
抱歉,这是技能,也不是思维。
你一定会问,既然技能不算,那是不是我知道用求平均值这个方法能算出平均收入这件事是数据思维呢?很抱歉,这还不是思维,而是知识。
这也不是,那么不是,到底什么是数据思维呢?
数据思维是使用数据来提出问题和解决问题的能力。
计算中国城市居民的平均收入,这是一个问题定义非常明确的任务,你只需要调动自己的知识和技能去完成这个任务就好。而数据思维,是针对问题的。设想一下,如果我们面临的任务并不明确,不是直接让你计算平均收入,而是一个大领导,就在电梯里问你:“咱们国家去年城市居民的收入状况什么样啊?”
这是一个具体的问题,而且在电梯里,你肯定不能长篇大论,最好的方法就是用一个指标明晰地回答问题。
一个有数据思维的人就应该这么思考:
平均值反映的是一组数字的集中情况。但是收入这件事,各人之间的差别太大了。有人年收入过一亿,有人年收入还不到一万。过亿的人少,不到一万的人多,所以用平均值就不能反映全貌。如果要反映全貌,中位数就更合适。中位数是指一组数字的中间位置。比如中位数是2 万元,那就意味着中国城市居民有一半年收入比2 万高,有一半比2 万低。所以,如果你能脱口而出“用中位数表示”,那就是一个特别有数据思维的回答。
这才是数据思维,使用数据来提出问题和解决问题。
高水平的数据思维什么样?
下面讲一个真实的故事,看看高水平的数据思维是什么样子的。
美国佛罗里达州的一个县有一家报纸,名字叫《太阳哨兵报》,发行量不足23万份。报社里有个小记者,叫萨莉·克斯汀。我们就叫她萨莉吧。
在2011年的时候,萨莉注意到一个新闻——当地一名退休警察超速行驶,造成了恶性交通事故。萨莉查阅了近10年的记录,发现这样的事情不少。于是她意识到,警察超速行驶这件事,很可能是一个非常值得关注的社会问题。但是,怎么证实这件事呢?
采访?不可能。就算有些警察愿意告诉你一些情况,那也只是个例,不是事情的全貌。
抓现行?也不可能。萨莉真的尝试过跟踪警车,抱着测速雷达在高速公路旁边蹲守,一发现有车辆超速,立刻驱车追赶。但很快发现,这根本行不通。第一,超速的不一定是警车,追了半天,发现不是警车就白追了。第二,就算运气好,抓到了警车,你也无权截停,仅仅有影像证据,并不充分,也不能服人。
萨莉最后想到了解决办法——申请数据公开。因为警车是公务用车,根据美国法律,公民有权了解其使用状态。因此,她获得了110万条数据。
这些数据是当地警车通过不同高速公路收费站的原始记录。这就好办了。警车通过收费站都有时间记录,这段路程的行驶时间就知道了。而收费站之间的距离是已知的,两个数据一除,速度就出来了。有没有超速,不就很清楚了吗?
在专业数据分析人员的帮助下,萨莉用了3个月的时间处理这些数据。得到了什么结果呢?
她发现,在13个月里,当地3900辆警车一共有5100宗超速事件,也就是说,警车超速天天发生。而且时间记录表明,绝大部分超速都发生在上下班时间和上下班途中,这说明警察超速并不是为了执行公务。
2012年2月,萨莉发表了系列报道。在大量数据和调查访谈的基础上,萨莉得出结论,因为工作需要和警察的特权意识,开快车成了警察群体的普遍习惯,即使下班后身着便服,车速也没能降下来。
报道一见报,舆论哗然。一些坐实违纪的警察陆续受到处理。48名州高速公路巡警被处以警告或者被勒令纪律反省。44名地方刑警被剥夺开车上下班的权利。迈阿密市有38名警察被处理,其中1名开除,10名停发工资。
萨莉也因为这个系列报道,获得了2013年度的普利策新闻奖。这是美国新闻传播界最重要的奖项。
三个重要启发
这个事件告诉我们什么呢?
第一,数据思维不同于数据知识和数据技能,数据思维是用数据提出问题和找到解决问题的办法。
萨莉记者的数据技能是不够的,我猜她肯定不会Python,不会SAS,不会清洗数据,也不会校验数据。否则,110万条数据并不是一个了不得的规模,一般的数据分析师处理这类简单任务也都是小case,但萨莉自己处理不了。
但是,萨莉建立了数据分析的框架,知道怎么利用数据产生她需要的结果,并且这些结果能完美地契合她要讲述的新闻故事。这就是数据思维。
第二,数据思维发挥作用,需要与其他能力组合。
萨莉的新闻敏感度、问题意识、行动能力,都不能归结为数据思维,这些都是与数据思维不同的能力和品质。它们与数据思维组合起来,才能完成一次高水平的新闻报道。
这就是说,数据思维不是包打天下的大力丸,好像有了这个思维就可以自动站上浪潮之巅。但是,高水平的数据思维可以与其他能力互补和协同,形成1+1>2的整体效应,大幅提高思考问题和解决问题的能力。
第三,数据思维是对数据知识和数据技能的认知。
这句话有点费解,我们慢慢梳理一下。一开始说了,数据思维是使用数据来提出问题和解决问题的能力,它与数据知识和数据技能不是一回事。但是,思考和解决问题,肯定又离不开知识和技能,这三者之间是什么关系呢?
答案是,我们对掌握的数据知识和技能形成一些认知,这些认知就是数据思维,然后我们以这些认知为工具来思考问题、解决问题。
举个例子,曾经有一位公司董事长在与协作公司的高层会议上热情澎湃地发言说:“我们双方是强强联合,不仅要做到1加1,更要做到1乘1。”
1乘1还是1,而1加1等于2,1乘1并不比1加1大,为什么董事长会犯这么简单的错误呢?因为很多人都有“乘法总是变大”“除法总是变小”的观念,这种认知让他们如此使用数据,结果闹了笑话。
我再举一个例子,假设我们需要监控一个10公里以外的设备的电源是否接通,你会怎么解决这个问题?是派人去定时巡查吗?这样做成本高,犯错的可能性也高。其实,你可以用一个联网的摄像头给显示电源接通的信号灯拍照片,然后把图像从网上传回来,用图像识别软件识别信号灯的情况,如果灯不亮就发出警报。
为什么很多人想不到用图像的方法呢?因为在他们头脑中,收集数据的方法只局限于人工观测,想不到其他的方案。
总之,我们是依据我们的认知来思考的。这些认知来自我们对自己掌握的数据知识和数据技能的理解,我们会在不知不觉中被这些或明或暗的观念所限制。当然,如果认知升级,观念更新,就会发现新天地,也会产生解决问题的创意。
请注意,数据知识和数据技能看起来好像是客观的,但对它们的理解、认知却是因人而异的。这就是每个人的数据思维水平相差很大的重要原因。
最后,再说一点励志的鸡汤:
萨莉是一名女记者。为什么强调她是女记者呢?为了向她学习。女生不要拿自己是女生做借口,说女性就是对数字无感,数学不好。看看人家萨莉,即使不会编程,照样做出了突出的成就。男生更应该像萨莉学习。就算你数学好,会编程,也不等于数据思维就高。获得数据思维是一个独立的任务。
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。