A. 主要是负责做最顶尖数据统计和数据挖掘学习相关学术研究。比如发明一些新的算法,想早期的SVM,LDA最近的一些deeplearning模型。但是处在塔尖的的他们对于这些算法在业务场景的应用或者算法的实现兴趣并不大,主要精力都花在了理论研究上,比如证明个bounds什么的。写出来的东西大部分发表在NIPS或者ICML上,一般人也看不懂。他们主要存在于一些研究机构中,如国外高校或者企业研究院。一般企业如果需要这样的人,也是挖过来当震厂之宝吉祥物,不属于我们讨论的范围。
B. 他们既对算法有比较深入的了解,又有高超的编程技术。他们的数学可能达不到炉火纯青的地步,他们的兴趣也不在于各种繁琐的理论推导。他们对已有算法进行改进,并且给出最好的实现,造福广大人民群众,比如 libsvm,svdfeature,paramater server这样的工具。当然,这样的人才也是可遇不可求,而且他们也需要一个比较大的平台来施展自己的能力。他们的工作应该能够成为一个企业数据挖掘的大杀器。
成长路线图:
大数据工程师学习路线图
进阶推荐:
Hortonworks hadoop工程师认证
C. 他们既有理论知识,又有娴熟的业务思维,且熟悉各种统计应用工具,是企业做数据分析最佳人选。这类人属于企业的中层管理人才,最适合他们的岗位可能是数据分析师,BI或者数据产品经理,对数据分析理论技术工具都能熟练应用,EXCEL、SPSS、SAS熟练应用,且业务娴熟。
成长路线图:
数据分析师学习路线图
进阶推荐:
CDA建模分析师认证
D. 他们熟练应用统计工具,可能是SQL、SAS、R、或者Python高手,能将所有数据用最直观漂亮的报表呈现出来。他们不仅能熟练使用某种统计应用工具,且熟悉一点业务,是公司主要做数据分析的基层人员。