幻灯二

数据科学家的四项基本技能(科学家的成长故事十年芳华 逐梦前行 - 记录我的数据科学家成长之路)

小学时,老师经常问:“你长大后想当什么?”,我的回答是当一名科学家。工作后,领导经常问:“你的职业规划是什么?”,我的回答是当一名数据科学家。

一直以来我在思索着什么是数据科学家?CDA给了我们标准,数据科学家是同时具备研究数据本质的科学知识和应用数据科学的领域知识,从数据中获取信息并能解决问题的专家。在CDA LEVEL 3人才标准中,数据科学家具体指负责企业级商业数据科研项目的高端人才,能利用数据来改进产品、推动业务,并进行整体架构的大数据治理与项目管理,带领团队在该商业领域进行前瞻性研究和战略布局。

从业近10年,我从事过定量分析、数据分析、数据挖掘、算法研究等岗位,做过项目,也带过团队,考过很多证书,发过职称论文,也参加过许多建模竞赛,一直在朝着数据科学家路上努力拼搏。

有时候想写些什么总结经验之类,但又不知道为什么而写。刚好近期收到CDA“心中有数”的征文通知,我决定总结过去10年工作学习的历程,记录下努力奋斗的时光,与数据从业者们共勉,同时也以此为起点,继续我的数据科学家修炼之路。

一、我的职业之路

每一段历史都在述说这一个故事,每一个故事的背后都有着为其付出的人,每一个数据人员的成长之路都是披荆斩棘,一笔笔的公式推导、一行行的算法代码、一点点的业务积累,一个个的项目实践,汇聚成了数据人的职业素养,成就数据人的价值所在。

我的第一份工作是在上海一家咨询公司从事数据分析师,这一阶段我主要使用DB2、MySQL、Shell、VBA、SAS、Spss等工具,做过ETL、报表设计、数据集市、数据建模等工作。项目上我负责过人民银行征信中心征信报告异常查询监测数据挖掘项目,用K-Means聚类、决策树、时间序列分析ARIMA等识别出机构及用户的异常查询行为;负责过某城商行银行信用卡信用评分模型,使用Logistic预测客户违约概率;参与过某股份制银行信用卡存量客户经营、商城产品个性化推荐、集团客户交叉销售等项目,同时在平安银行信用卡、人行征信中心做过SAS Base培训。

随着互联网公司崛起,大数据技术、机器学习算法等在项目实践中取得很好效果,数据工作者迎来新的发展机遇。大多数的数据从业人员都希望能够进入互联网公司,发挥自己的一技之长,当然我也不例外。在众多OFFER中,我选择了互联网金融公司作为我的第二份工作。工作期间,我参与了公司大数据中心的筹建,负责过精准营销团队、算法建模团队。在R盛行的时候,我开始自学R语言编程, 多次参加R语言会议,与R语言大佬们讨论最前沿的算法及应用场景。R语言是开源的,作图能力和统计分析能力强大,然而在实际工作过程中安装很多依赖包较为繁琐,且内存管理、运行速度和效率等缺点突出。因此从2015年开始我逐步转向使用Python和Spark,使用Scikit-learn、Tensorflow等算法框架,也接触到了Hive、Hbase等大数据处理工具。期间,我负责过标签体系构建、客户分层模型、反欺诈模型、精准营销模型、消费信贷产品信用评分模型等项目,也做过数据宽表、数据架构设计、营销活动效果分析、随机立减算法设计、年度账单数据开发等工作。

在掌握大数据技术、建模工具之后,到了2017年我想寻求稳定,在特定行业内深耕细作,励志成为行业内的数据科学家。在获得京东金融、百融、阿里、银行等多个OFFER,因为家庭原因我选择回到家乡工作,从事信用卡数据建模工作,当前已参与信用卡A、B、C卡构建,以及客户标签体系建设、信用卡资产估值等工作。信用卡业务是银行最具互联网基因和创新能力的业务板块,是开展消费金融的重要载体,也是零售业务数字化转型的重要领域。在受内外部经营环境影响下,国内信用卡面临“成长困境”,深化数字化转型已成为必然。在数字化转型过程中,数据从业者大有可为,未来我将继续在信用卡行业,推进数据科学在营销、风控、产品、管理、服务、合作等方面的应用落地,致力于成为信用卡行业的数据科学家。

二、我的考证之路

为了鼓励员工持证上岗或者提升技能,许多单位都有证书奖励,尤其是银行等金融机构。在行内征求证书奖励意见时,我成功将CDA证书推荐进奖励范围,推荐理由是在数字化转型过程中,数字化人才梯队建设是首要任务,而CDA证书等级体系完美的诠释了如何去培养数字化人才队伍。CDA如果能够保证证书质量,坚持不断完善知识体系,我相信不久将来,一定能和CFA、CPA一样成为行业内权威证书。

从2017年开始,我陆续考取了银行、证券、基金、期货等金融从业证书,通过考试获得统计师、中级经济师职称,同时考取工信部高级数据分析师、Python技术应用工程师(高级)、大数据技术应用工程师(高级)、人工智能应用工程师(高级)等证书,在2019年CDA第十一届认证考试中我通过客观题和项目案例答辩,正式成为CDA L3数据科学家持证人,次年12月通过FRM一级,目前正在积极备战FRM二级。

在备考CDA证书之前,我认真研究国内数据分析行业的证书情况,与职称相关的有统计师、中级数据库系统工程师,与技能相关的有CDA、BDA、CPDA三种证书,我在网上搜索大量的资料,看过证书简介以及很多从业人员的评价,我从证书含金量、报考费用、证书知识点上综合考虑,最终选择CDA L3,当然仁者见仁智者见智。

得益于之前的项目经验和知识积累,我仅仅花了1个月时间复习就通过上机考试。结合我多次考证经历,现将备考经验总结如下。

首先是紧扣考纲,抓住重点。根据考试范围准备备考书籍、视频课、模拟题等材料,搜集前人的备考经验,以便制定计划。认真研读考纲,在有限时间内对于考纲要求的要掌握,考纲不要求可以选择放弃。

从2020年开始CDA的考纲有所变化,L3新考纲变得相对容易,也更聚焦数据挖掘和机器学习,因此要紧扣考纲,重点学习数据挖掘技术、数据处理与特征处理、自然语言处理、机器学习算法等内容,吃透书中内容。

其次是制定计划,有序复习。可以将备考分为三个阶段,一是基础阶段,将书中知识通读、消化,大纲中的每一部分形成脑图,便于自己系统掌握,这一阶段可以尝试做些练习题,巩固知识点。二是强化阶段,进行专题突破,针对第一阶段没有掌握的重要知识点重点学习,同时重做第一阶段的错题以及弄清楚解题思路。三是冲刺复习,查缺补漏,根据考纲形成思维脑图,覆盖所有考点,这一阶段可以尝试仿照考试时间做下模考题。

最后是调整心态,积极备考。在我历次考证过程中,我发现考试不能过于放松,也不能过于紧张,过于放松或者过于紧张都容易出现粗心,要以平常心积极应对考试。

我参加的是CDA第十一届考试,考试时间为12月29日。因为我和我爱人都没有去过武汉,因而将考点选择武汉,考完后先登黄鹤楼、再游户部巷、吃完热干面、又食武昌鱼,雄伟的长江大桥、美丽的武汉大学、人流熙攘的江汉路步行街,穿梭在武汉的大街小巷,享受着武汉的特色美景。很不幸的是考完后过了2周就是武汉疫情爆发期,我很幸运的逃过一劫,相信疫情以后的武汉会越来越好,有机会我将携家人再去江城一游。

接着说说我的项目案例经历,案例题目是假新闻预测模型的建置及预测。在通过第一阶段考试后,CDA老师会发一封邮件,附件里有项目案例要求和数据以及答辩的注意事项等。在拿到案例后,我认真研读了项目说明、项目分析要求和评估方式等。由于对假新闻识别问题比较陌生,在做项目案例过程中我浏览大量的国内外相关的文本挖掘前沿论文,归纳出案例的解决方法。

项目过程中70%时间花在特征工程上,包括特征使用方案、特征获取方案、特征处理方案和特征监控方案,具体框架见下图。

最终建立贝叶斯、BP神经网络、SVM、随机森林、XGBoost的分类模型,同时以词嵌入作为特征,建立CNN、LSTM、RNN等深度学习算法预测模型。

机器学习模型

深度学习模型

我的项目答辩老师是李御玺老师,李御玺老师和蔼认真,认真听完了我的答辩,给予了细致耐心的评价,希望我在文本特征构造多做工作,从作者偏好、情感分析、实体分析(人名、地名、组织等)、政治敏感等视角分析,增加模型预测精准度。

在做项目案例过程中可以说受益颇多,整个项目我花了差不多20天的时间,阅读了30多篇文章,写了2000多行代码,用了两台电脑去做文本特征提取,项目案例用到了机器学习、深度学习和文本挖掘多种算法,因而我对机器学习、深度学习和文本挖掘算法有了全面深入的认识。

三、数据科学,未来可期

顺应全球信息化的发展趋势,我国开启“数字中国”战略。在此战略背景下,各行各业已经进入数字化转型的角逐期。

作为一个银行人,我始终坚信,我辈需要在党的坚强领导下,笃定前行、持续奋斗,在全面建设高质量发展现代银行的道路上努力拼搏,不断奋进。

作为一个数据人,坚持初心与使命,今天取得的成绩并不是终点,而是攀登更高峰的起点。

面对未来的机遇与挑战,一方面努力工作,一方面坚持学习,尽管我已经取得CDA L3 数据科学家证书,但是我深知离数据科学家还有很长的路要走。

未来可期,未完待续……

您可能还会对下面的文章感兴趣: