转型:如何培养数据敏感度?
从这一讲开始,我们进入课程的第一模块——感知数据。整个模块的基本任务,就是培养咱们的数据感。这一讲,咱们先说数据感的一个重要方面——如何提高自己对数据的敏感度?
对一样东西有超乎一般人的敏感度,是思维形成的基础。比如,摄影师就对光线有很高的敏感度,木工对木头的性质有很高的敏感度。
但这个能力不是天生的,怎么通过练习提高自己对数据的敏感度呢?这一讲,我来介绍三个方法,分别是量转型、量定义和对应值。我们一个一个来说。
方法一:量转型
量,就是数量的量。量转型的意思就是,你要把过去用定性的方式思考、谈论和使用一个东西的习惯,有意识地转变为用定量的方式思考、谈论和使用。
举个例子,看见一个小姐姐远远地走来,你就不要说,“小姐姐好漂亮”,而要说“小姐姐颜值好高”。
为什么呢?用“漂亮”这个词,就是在用定性的方式思考;而用“颜值”,就是用数量的方式思考。漂亮,只有漂亮和不漂亮两种可能;而颜值,空间就大了,可以是10分制,也可以用百分制。这就是“量转型”。
你是不是想说,这很无聊啊,给女生的容貌打分有这么大的意义吗?你大概不知道大名鼎鼎的Facebook的故事吧?Facebook现在是世界上最重要、规模最大的社交软件,但它起步的时候,就是创始人扎克伯格他们几个男同学想给女同学的颜值打分。没有这一步,就没有现在Facebook的成就。
更重要的是,你要认识到,对数据思维不足的同学来说,数据世界是非常陌生的,数据思维常常很反直觉,这就导致我们对数据的陌生感、距离感和疏离感,甚至是恐惧感、厌恶感和排斥感。
所以,感知数据的第一步就是建立对数据的亲近感。你把量转型看成是游戏也好,思想实验也好,总之,先强迫自己进入数据世界,才有可能领略数据世界的风景。
思考问题的时候要量转型,社会交往中也要量转型。
比如,八卦咱们课程的编辑老耿同学的时候,建议你调整自己,不要说“老耿这个人还行”,而要说“我对老耿啊,三七开”。这就从行还是不行这样定性的评价,变成了比例组合的定量评价。
其实,日常生活里的任何东西,只要你想,就都可以量转型。比如,你买一盏台灯,就不要买只有一个开关的,而是买那种亮度可以调节的。这样,就从“照亮”这个概念转型成了“亮度”这个定量的概念。
方法二:量定义
也就是说,我们要用量来定义质,从量的方面抓住事物的本质。
这个世界上所有的东西都可以用量来定义。我再强调一遍,这是数据思维课,不是哲学思辨课,所以对这句话,你不要挑战它,而要适应它。
举个例子,你听见老耿说,“我买了一台标准钢琴”,那你就会反应出,老耿买的钢琴有88个琴键。只有有88个琴键的钢琴才叫标准钢琴。量定义就是这个意思。
再比如海洋酸化。科学家告诉我们,现在的海洋正在酸化。那么,“酸化”到底是什么意思呢?它对应表示的现实世界的情况到底是什么呢?是说海水是酸的吗?
我们先看看海水现在的酸碱度是多少。一测量,pH值是8.1。因为酸碱度的中间位置是7,比7大的都是碱性的,所以现在海水还是碱性的。但是,一百年前是多少呢?8.2左右。从8.2降到8.1,说明海水正在向酸的方向发展,所以是“酸化”,而不是“酸性”。
再比如离婚率。我看一个报道说:现在的离婚率高得吓人,刚公布了2019年的数据,天津市离婚率高,top1,达到了71.28%!意思就是说,“每100人里面,竟然达到了71人离婚的比例。”
咱们先不要跟着激动,看看离婚率的定义是什么。
报道给出了图表。但是仔细一看,这里的数据是当年的离婚对数和结婚对数之比,意思是说,一年内,如果把所有结婚的看成是100对,那么离婚的相应就有71对。但是请注意,离婚的这些对,并不都是当年结婚的呀。也许会有那么几对是当年结、当年离,但这样的情况比较少,大部分都是往年结的。所以,分子和分母对应的不是一群人,“每100人就有71人离婚”这样的推论当然就是大错特错的。
如果真的想知道每100个人里有多少离婚,该怎么做呢?
就要把同一批结婚的人找出来,然后跟踪。比如2020年结婚的都记录下来,到2023年看一下,这批人里有多少离婚了,我们就知道了3年内的离婚率。还是这批人,到了2027年,再看一下有多少人离婚,就能判断“七年之痒”这个说法该不该重视。
简单总结一下:
这里说的“量定义”,是为了让你理解事物在质和量上的关系。我们一定可以找到一个关键量,这个量抓住了事物的本质,使这个事物得以与其他事物区别开来。这个信念就是数据思维最基本的认知之一。
但是回到现实世界,我们会面临一个具体问题:有些概念在观念世界里很清楚,但是要在现实世界里抓住它、看到它,就需要一个重要的方法,用量来定义这个概念。这就是“量定义”的高级阶段。你知道,在现实世界,我们就是用测量的方式,逼进一个观念世界里的概念的。
举个例子,说一个人老了,那含义很清楚,60岁以上就是老了。这里说的是生理年龄,不是心态,也不是活力等。但是说一个社会老了,怎么定义呢?一个社会,生生不息,怎么确定标准呢?
这就需要一个像生理年龄一样的标准去测量它。因此,我们就把老年人口占全体人口的比例看成是测量一个社会“生理上”老化程度的指标。刚才我们说了,定义一个老年人的标准是60岁以上,那么老年人口就是所有60岁及以上的群体。这样一来,通过老年人口占全体人口的比例,我们就能测量一个社会的老化程度了。
方法三:对应值
接着社会的老龄化问题。量定义清楚了,使用老年人口占全体人口的比例来测量。那么,这个比例要达到多少才是一个老龄社会呢?
这里,对应值就出场了。根据人口学家的共识,老年人口,也就是60岁以上的人口所占的比例超过10%,就是老龄社会。这个10%就是对应值。
老龄社会的对应值比较有共识,但是还有很多情况,对应值并没有共识,需要你来研究确定。
比如,讨论科研领域的性别平等状况,中国是平等的,还是不平等的呢?
性别平等状况的量定义比较清楚,把所有的科学家看成是100人,计算女性科学家在其中所占的比例就可以了。但是,哪个比例对应性别平等,哪个比例对应性别不平等呢?
这个对应值就很难有共识。有人说,女性科学家必须占50%及以上,才是平等的。也有人说,40%及以上就可以。还有的人说,在纯自然科学领域,超过30%就算平等,因为女性对探讨大自然兴趣不大,30%就说明没有社会障碍了。
到底谁的对应值是对的呢?这里我们不讨论,我们是数据思维课,不是社会学通识课。我只是通过这个例子让你明白,在很多情景下,对应值反映的是你对事物性质和原因的理解,理解不同,选择的值就可能不一样。但从数据思维的角度来说,你必须确定一个对应值,才能定义清楚你对事物的理解。
有了对应值这个概念,我们就开辟了一个思考问题的新角度。
举个例子,什么是微笑呢?你就不一定非从心理上定义,而是可以找到一个量来定义它。比如,露出三分之一的牙,在观察者看来就是微笑。
这个方式就是银行、证监会、支付平台等金融机构监控异常情况的逻辑。通过记录客户行为,形成一个客户支付行为的模式。这样,设计者就能找到一个对应值,在这个对应值以内,就是正常的;超过这个对应值,系统就会报警,认为这个客户有异常。
划重点
如何通过练习提高自己对数据的敏感度呢?教你三个方法
一,量转型。思考、谈论和使用一个东西时,有意识地把过去定性的方式转变为定量的方式。
二,量定义。如果一个事物的性质是用某一方面的量来定义的,就搞清楚它具体是怎么定义的。
三,对应值。在量定义的基础上,为事物确定一个明确的量的标准。
【免责声明】
1、个别文章内容来源于网络善意转载,版权归原作者所有,如侵权,请联系删除;
2、所有图片来源于网络,版权归原作者所有。如有侵权问题请告知,我们会立即处理。