很多统计学家认为,data science并不是一个独立的学科,而是统计的一部分。
这里面不排除有立场/利益问题。现在大部分data science都是在统计系下面的,统计最近这一二十年的繁荣和现代社会里大量的数据处理的需要也是分不开的。如果data science单独分出来,那么“传统”的统计的前景将变得非常暗淡。
但是客观上讲,我觉得统计学家的观点还是有道理的。
一个统计学家Karl Broman的几句话很有代表性:
"When physicists do mathematics, they don't say they're doing "number science". They're doing math.
If you're analyzing data, you're doing statistics. You can call it data science or informatics or analytics or whatever, but it's still statistics."
统计本来就是研究如何处理数据的科学。因此再单独地成立一个“数据科学”,理由并不是很充分。
换一个角度说,A和B要想成为两个独立的学科,那么每一个都要有比较大的一部分内容,是另一个不研究的。统计学里面有很多内容data science并不研究,这没有问题。但是另一个方向,data science的所有内容,都可以看成是统计的范畴。也就是说,在“统计学家是不是该研究data science”的问题上,至少是没有共识的。打个比方,你要问一个数学家他为什么不做某个物理的问题,那么他只要回答他是数学家就可以了,因为数学和物理是两个学科,数学家本来就不该做物理问题。但是你要问他为什么不做某个代数问题,那他就要回答他是做分析的,和代数不是一个方向。因为代数是数学的一部分,数学家完全可以做代数,所以他就要更仔细地解释他尽管是数学家,但是做的是另外的方向。那么如果你问一个统计学家他为什么不做某个data science的问题,他会怎么回答?你会听到他说,我是做XXX方向的,不做data science,而不会听到他说我是统计学家,不做data science。所以说,统计学家并不认为做data science是在做“统计之外的事情”。
有一种观点认为data science和统计的区别在于data science更偏重于对大数据的研究,技术上更多地和computer science联系。然而这本来也就是近年来统计的发展方向。作为一门很实用的科学,统计学在不断地发展,以适应现实的需求。因此,对大数据的研究和对计算机的更多的应用,本来就是统计研究的热点。现实的需求与其说产生了data science这个独立的学科,还不如说是推动统计学朝着一个可以被称为“data science”的方向连续地发展。
最后说一下专业划分。现在确实有很多大学开设了单独的data science专业。这个专业应该理解成统计学下面的一个专业方向,和传统的统计专业相比,它在培养上更注重computer science的基础和思想,在传统的数理统计上下的功夫比较少。所以单独把data science划出来以区别其他的统计专业还是有意义的。然而从学科的角度讲,data science至今为止还是统计的一个分支。









