深度解析制约大数据发展的三大因素

基于此,鄂维南院士将海外成熟的大数据建模分析技术带回国内,并组织成立了北京大数据研究院和普林科技,北京大数据研究院专注于顶层设计,探索大数据行业产学研相结的发展模式,普林科技负责落地实施,从业务层面推动大数据行业发展。

其次中国的数据有它的特色,例如在金融行业,目前大部分银行采用的是风险评分卡,运用专家经验定义风险变量,基于定性认识进行评分,通过事后风险回检优化评分卡,风险预警功能较差。虽然央行征信中心与国内少数技术领先银行使用的是风险评分模型,但模型方法相对陈旧,如央行所用FICO评分模型为上世纪80年代基于逻辑回归算法构建的评分体系,逻辑回归算法适合处理线性数据,但实际问题往往是非线性的,特别是信用风险评估场景下。此外,FICO模型没有针对我国具体业务进行场景细分,建模逻辑并不完全符合我国实际情况,因此导致准确率不足,风险预警能力差。

基于此,中国人民银行征信中心首次与国内大数据公司合作,这次合作中普林科技应用国际领先的大数据建模分析技术,运用决策树,随机森林,AdaBOOST,GBDT,SVM等算法,通过对信用报告的数字化解读与深入洞察,准确预测了违约风险,对贷款审批、贷中管理形成指导,新模型对好坏账户的区分度远高于行业平均水平。此次合作表明我国的大数据难题更需要适应国情的解决方案与本土的技术人才,这对我们的市场提出了一个新问题。

3.人才难觅

我们国家大数据发展最大的优势就是市场大,最大的劣势恰巧就是缺乏相应人才,人才缺乏的程度非常严重。首先在国际市场方面,我们要跟国外公司争人才,然而国外大数据行业同样十分火热。而不论在国内还是国外,跟企业竞争人才都是一项艰巨的事业,比如在世界上最好的大学之一的美国普林斯顿大学,想找数学家也是非常困难,人才很容易被大公司挖走,每年都有非常好的数据分析人才被企业挖走。所以人才难觅不只是口头说说,更是一个亟待解决的问题。

目前为止,我们国家仍然没有良好的培育大数据人才的机制,大数据教育主要面临以下三个问题。

首先,大数据是一个交叉学科,涉及统计学,管理,编程等多学科,知识点复杂,培训课程编辑难度大,缺乏系统的学习教程;

其次,现阶段大数据教育大多还停留在理论知识上,理论与实战严重脱节,学习者缺乏良好的实践机会;

再次,大数据教育的根本目的是为了解决业务上面临的实际问题,用科学的手段推动业务的进展,然而现阶段的大数据教育机构普遍缺乏相应的业务经验,产学研结合并不密切。

针对这些问题,鄂维南院士讲到:“其实我个人在这方面想了很长时间,就是怎样才能在中国真正建设一个具有国际标准、国际水平的大数据平台?我们国家拥有这么大的市场,我们在做大数据行业同时,一定要想着做就要做到这个领域领先水平。但要达到这个目标,有一点很关键,必须要有一个国际化标准的研究平台,因此,我带头成立了北京大数据研究院,而这个研究院所要做得事情,就是把人才培养教育和科研创新和市场化、产业化结合在一起。”