你不知道的数据工程师:80% 时间都在做「大数据苦工」

以为数据工程师每天做的就是像 http://hackertyper.net/ 这样,然后创造了一个又一个伟大的产品吗?错了!纽约时报记者采访了多位大数据工程师,他们表示自己 80% 的时间都在当「大数据苦工」,干的都是非人类可以想象的枯燥繁琐的工作——从海量的原始数据中提取有用数据,整理,转换格式,调整为算法可以理解的同样格式的规整数据……

因此,这些数据工程师称呼自己为「数据清洁工」、「数据搬运工」,「数据整形师」等等……知名健康追踪手环公司 Jawbone 的数据科学副总裁 Monica Rogati 向记者透露,对于大部分人,甚至是普通的程序员来说,这种工作都是极端枯燥,完全接受不了的,但对于数据工程师来说,这都是他们每天都要做的事情。

华盛顿大学教授,同时也是一家大数据创业公司 Trifacta 创始人的 Jeffrey Heer 教授则表示,直接把算法输入到一堆原始数据中,然后指望结果能够自己蹦出来,那简直就是奇谈……数据工程师需要把不同种类不同格式的数据(非常巨量)转换成为算法可以理解的格式整齐的数据,因此称呼数据工程师为「数据清洁工」也不足为奇。

Iodine 是一家医疗方面创业公司。该公司的员工透露,自己的产品能够通过挖掘国家食药管理局(FDA)、国家健康中心,以及医药公司提供的文字、图像等内容提供的原始数据,来为用户提供药品的副作用相关的警示。但事情远没有想象的那么简单。

光嗜睡一条就有「drowsiness」、「somnolence」和「sleepiness」三种说法,让用户去看这三个词肯定都能理解,但别指望算法能够理解这三个词代表同一个含义。

因此,所谓的「大数据」创业公司,最近在做的基本就是通过不同的渠道、切入点,来完成一个任务:产生一个标准化的、简单的数据处理软件,让数据工程师不那么累,直接把所有的原始数据输入进去,提取结果,简单如此。帕罗奥托一家名为 ClearStory Data 的创业公司就在做这样的事情。

这家公司提供的产品是一个能够将多种不同规格的原始数据整合到可视化呈现的表格、图片或地图中。该公司 CEO Shahani—Mulligan 表示,ClearStory 的产品能够整合 6 到 8 种不同的数据格式,提供处的结果适合对于数据一窍不通的终端用户使用。

你也可以手动来统计这些数据,我打赌你永远也找不到足够的数据工程师来做这些事……