学习统计已经多年,从开始的概率论、数理统计到后来的抽样技术、实验设计以及多种统计分析方法等等,这个时候发现需要来回顾一下我们学习过的东西,梳理一下,也好知道统计能干什么,我们每天吵得大数据实际上没有那么高深,统计的phDers在搞的很多东西越是高深,实际上越是将数据overfitting了,为什么这么说?金融高频数据的假设是价格反映一些信息,从一个大量的人群的行为上看,价格确实包含了很多统计信息,但是,如果过于追求理论与数据上的一致,必然也会导致过拟合,国家政策的出台怎么可能仅仅用跳过程来刻画呢?
本博主,单身小妞一枚,准备向大数据进军,在量化投资的圈圈里混了一段时间,回过头来发现,其实,我们可以先理一理统计学的这点“事”,或许会有不一样的收获。量化投资ers成天在优化参数,是不是我们可以从实验设计的角度考虑一下;数据分析ers所分析的数据很多来自调查问卷,分析的结果确实可以做成很漂亮的报告,可是有谁真正关心过调查的科学性,以及抽样的合理性,如果抽样框就已经有偏了,我们的数据结果不言而喻了;在统计的学术界总在把在现实世界里的一切想用概率来描述的信息都放在sigma代数里,各种理论框架建立地貌似很合理、科学,可是总有一种说不出的不对劲的地方,哪里不对劲呢?......
我们接下来我们先把统计学的每一门学科都理一遍,然后来讨论我们的统计学在大数据、数据挖掘的作用,以及不合理的地方。
——美妞要讲话啦啦啦~~~
转载于:https://www.cnblogs.com/julieyao/p/3422683.html
