当所有的科学成为数据科学 你掌握的知识够用吗?

所有科学都在迅速变成所谓的“数据科学”。如今的研究人员,不论来自理工农医、甚至是人文学科,都时常在浩瀚的数据汪洋中感到窒息。为了从巨量数据中找到可用之物,并将它们转化成有价值的东西,越来越多的研究人员开始在数据的科学中摸索,而学习的途径有很多。

“学习从数据中找到有用信息,发现其中的矛盾与无常、并且知道如何处置,就和在物理实验室学习仪器操作一样,是一种动手能力。”
——格雷格·威尔逊

15

莎拉·利奥布曼(Sarah Loebman)

莎拉·利奥布曼(Sarah Loebman)是华盛顿大学天文学系一名研究银河系演化的博士生。和她一同工作的两个团队,一个负责夜观天相,另一个进行高分辨率计算机模拟。两个团队都在与浩如烟海的数据搏斗。”从前,我每天大部分时间都在往电脑上传数据。”她说道。
 
当物理系同事从NASA得到一笔经费,研究怎样将数据库技术应用到天文学时,莎拉和计算机系的同仁加入了他的项目。她想看看自己还能拿那堆不听话的数据怎么办。萨拉做的第一件事情,是报读了一门研究生的《数据库管理系统》。这改变了她对自己工作的看法。“数据库使我不再只拘泥于某一个时刻的模拟结果。”很快,她开始帮助其他同事处理数据,并优化他们的工作程序。
NASA
2009年,莎拉发表了论文《Pig/Hadoop和关系型数据库管理系统能帮助我们分析巨量的天体物理学数据吗?》。她即将在密歇根大学安娜堡分校开始博士后研究,在她看来,是跨学科的研究成果帮她得到了这个机会。
 
变革将至

16

埃德·拉佐沃斯卡(Ed Lazowska)

 
埃德·拉佐沃斯卡(Ed Lazowska)是华盛顿大学“比尔和梅琳达·盖茨-计算机科学与工程基金会”的主席。埃德认为,数据驱动型的发现将成为一种常态。一个新环境将造就出许多利奥布曼一样,既在自己的领域有所专长,又能熟练应用数据科学的研究人员,并使他们从中获益。他将这些人称作“π型人才”,有两条分属不同领域的健全腿脚支撑他们前进。
 
“所有科学都在迅速变成所谓的‘数据科学’。”华盛顿大学信息科学研究所的比尔·豪(Bill Howe)说道。今日的基因测序仪、望远镜、林冠层、道桥、建筑和POS终端上,都可以安装传感器,蚁穴中的每一只蚂蚁都能被做上标记。真正的挑战,在于从浩瀚的数据汪洋中找出可用之物,并将它们转化成有价值的东西。这个年月,工程学、科学、社会科学、法律、医学甚至人文学科的人,都抱怨自己快淹死在数据里,想找个分析和管理它们的东西。
 
学会写码、并能游刃有余地应付大量数据集,或许很快会成为传统科学领域的必备技能。为了将日常的数据处理任务自动化、实现不同分析工具之间的数据搬运,许多科学家已经编写了程序脚本。这些基本功能——还有基本的构架——为更加迅速与自动化的数据管理铺好了前路。但要优化利用这些飞速累积的数据,还需要用上数据库、可视技术、机器学习、并联系统等方面更多的计算机技术。
 
写码训练营

17

威尔逊(Greg Wilson)

需求就是动力,即便对那些有统计学和相关数学背景的人相对容易一些,其他学科的研究人员也能够在一段合理的时间内,学会处理大量数据所需要的技能。“这完全办得到。”“软件工坊”(Software Carpentry)创始人格雷格·威尔逊(Greg Wilson)如是说。“软件工坊”是一个由Mozilla和阿尔弗雷德·P·斯隆基金会共同出资的机构,过去15年里一直致力于帮助科学家开发更好用的软件。

更多详细信息,请您微信关注“计算网”公众号: