【全文】美国白宫”大数据“白皮书——(浙江大学译)

大数据:抓住机遇、保存价值

美国总统行政办公室

2014 年 5 月

 

概述:

“即使大数据技术重塑了我们周围的世界,今天的发言也将帮助我们持续贯彻自身的价值观念。”“这份评估报告本质上被认为是一种对大数据作用范围的调查。在过去的 90 天中,评估小组对学术专家、产业代表、保护个人隐私的倡导者、人权团体、执法者,以及其它政府机构进行了调研。白宫科学与技术政策办公室(White House Office of Science and Technology Policy)与麻省理工大学、纽约大学、加州伯克利大学联合组织了三场大学会议。”“在 2014 年,美国国税局通过一个名为‘Get transcript’的工具将纳税人的信息数据加以共享,纳税人可以通过它获得他们自己最近三年的纳税记录。个人纳税者可以借此下载过去的纳税申报单,这使得居民进行抵押、学生贷款、商务贷款等活动与填写纳税表变得更加便捷。”

“尽管医学技术不断变化,但健康数据仍然是我们生活中非常私密的部分。在大数据使得较之以往任何时候都更为强大的发现成为可能的同时,重新审视相关信息被所有医疗保健机构共享后的隐私保密方式也显得相当重要。医疗保健行业的领导者已经呼吁构建一个更为广泛的信用框架,使得不同来源、不同隐私保密程度的健康数据得以汇聚。这一框架需要附加《健康保险便利和责任法案》与《反基因歧视法》(”Genetic Information Non-Discrimination Act“, GINDA)中的隐私保护条款,并同时设计标准化数据结构以提高

其跨平台适应性。 ”

“大数据正在改变世界。但是它并没有改变美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。这份调查报告旨在鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这样的进步的领域,与此同时,我们也需要相应的框架、结构与研究,来帮助保护我们的核心价值观念。

给总统的一封信

亲爱的总统先生:

我们正生活在社会、经济与技术革命之中。我们如何通信、交际、度过闲暇时光以及开展业务已经转移到了互联网上。互联网又渗透进入我们的手机,进入蔓延在我们家园和城市中的设备中,进入推动工业经济的工厂中。其导致的数据爆炸和挖掘正改变着我们的世界。

今年一月,你要求我们进行为期 90 天的调查,检验大数据将如何改变我们生活和工作的方式,改变政府、公民、企业家和消费者之间的关系。这次调查的重点在于公共和私营部门如何在将风险最小化的同时,将大数据的价值最大化。 它也为大数据确定了发展我们的经济,改善健康和教育以及使我们国家更加安全和节能的机会。虽然大数据毫无疑问地加大了政府权力累积未经核实的事实的可能性, 但它也提供了增强公众责任、 隐私和权利的方案。如果正确实施, 大数据将成为历史前进的推动力,帮助我们国家保持长期以来成为我国特点的公民和经济活力。

大数据技术将变革生活中的每一个领域。 它们使之成为可能的知识发现提出了我们为隐私保护构架的框架如何在大数据生态系统中应用的重大问题。大数据也引发了其他问题。 这个报告的一个重大发现在于,大数据分析有一定可能使长久存在的公民权利保护黯然失色,特别在于个人信息如何利用于住房、信贷、就业、健康、教育及市场领域上。美国人与数据的关系将扩展他们的机会和潜力,而不是缩减。

我们正在建设我们将继承的未来。 美国比世界上的任何其他国家更适合确保数据革命能够持续地为个人发展和社会良好效力。我们欣然提交本报告,建议我们如何在保护诸如隐私、公正、自决等基本价值的同时拥抱大数据技术。我们致力于这一倡议和改进。我们今天在这发起的对话将帮助我们在大数据重塑我们周围世界的同时,坚持我们自身的价值。

目录

1、大数据与个人

什么是大数据?

大数据有什么不同?

证明我们的价值

2、奥巴马政府在数据开放与隐私保护问题上的发展路径

奥巴马政府关于公开数据的举措

美国隐私法案和国际隐私法框架

3、公共部门的数据管理

大数据与医疗保健服务

对学习的研究:大数据与教育

大数据在国土安全部

在执法过程中贯彻隐私价值观

大数据技术对隐私法的启示

4、私营部门的数据管理

大数据对消费者与企业的益处

广告支撑的生态系统

数据服务业

5、为大数据构建的政策框架

大数据与公民

大数据与顾客

大数据与歧视

大数据与隐私

预测大数据变革的下一篇章

6、结论与建议

保护个人隐私的价值

数字时代负责任的教育创新

大数据与歧视

执法与安全保护

数据公共资源化

美国白宫”大数据“白皮书PDF版本下载:http://vdisk.weibo.com/s/GgQB3axicQgj/1401278850

1、大数据与个人

什么是大数据?

自从古代有过第一次计数和农作物产量记录以来, 数据收集和分析便成为社会功能改进的根本手段。 17、 18 世纪的微积分、概率论和统计学所提供的基础性工作,为科学家提供了一系列新工具,用来准确预测星辰运动、确定公众犯罪率、结婚率和自杀率。这些工具常常带来惊人的进步。在 19 世纪,约翰·斯诺(John Snow)博士运用近代早期的数据科学绘制了伦敦霍乱爆发的”群聚“地图。霍乱在过去被普遍认为是由”有害“空气导致的,斯诺通过调查被污染的公共水井进而确定了”霍乱“的元凶,并同时奠定了疾病细菌理论的基础。

从数据中撷取洞见以提振经济行为,这也是美国工业的惯常做法。弗雷德里克·温斯洛·泰勒(Frederick Winslow Taylor)在宾夕法尼亚州的米德瓦尔钢铁厂采用秒表和笔记板来分析生产力,这大大增加了车间产量,也铸就了他的信念,即数据科学可以为生活中每一个方面都带来革命性影响。

1911 年,泰勒撰写了《科学管理原理》,以回应西奥多·罗斯福(Theodore Roosevelt)总统有关提升”国家效能“的倡议:

从我们单个人的行动到大型企业的工作,科学管理的基本原理可以应用到一切类型的人类行为中……无论何时,只要正确运用这些原理,必定会产生真正令人惊讶的成果。

今天,数据比以往任何时候都更加深入地与我们的生活交织在一起。我们期待着用数据解决各种问题、改善福利,以及推动经济繁荣。数据的搜集、存储与分析技术不断提升,这种提升看上去正处于一种无限的向上轨迹之中。它们的加速是因为处理器能力的增强、计算与存储成本的降低,以及在各类设备中嵌入传感器的技术的增长。 2011 年,新生成的和复制的信息量估计超过了 1.8 ZB(泽字节);而在 2013 年,这一数字估计可达 4 ZB.

什么是泽字节(ZB 或 Zettabyte)

一泽字节等于 21 字节,或相应的信息单元。想想看,一个字节等于文本中的一个字符。 1ZB 相当于存储 323 兆份列夫·托尔斯泰所著的 1250 页的《战争与和平》所需的容量。6或者想象一下,假定每一个美国人每秒钟拍一张照片并连续拍 1 个月,所有这些照片存储进来容量就相当于 1ZB.

世界上每天大约有 5 亿张照片上传或分享,另外每分钟还有超过 200 小时的视频上传、分享。但是,即使是人们自己产生的信息,即从语音通话、电子邮件、文本到上传的图片、视频、音乐等全方位交流产生的信息,与每天产生的与他们相关的电子记录等数字化信息相比,在数量上都是相形见拙的。

这些趋势还将持续下去。我们只是处在所谓的”物联网“(”Internet of Things“)的相当初级的阶段。在物联网中,我们的各种应用设备、运输工具以及持续增长的”可穿戴“技术产品将可以彼此交换信息。技术的进步将促成创建、捕捉、管理与存储信息的成本降至2005 年的六分之一。自 2005 年以来,人们在硬件、软件、人才与服务方面的商业投资增长了近 50%,达到 4 万亿美元。

”物联网“

”物联网“这个术语用来描述具有可交换信息能力的设备网络。这些设备通常嵌入了传感器,并通过有线或无线网络连接后进行彼此间的信息交换。它们可能包括你的温控器、汽车,甚至是你咽下去的”小药片“,医生可以用它来监控你的肠胃以及消化道的健康状况。这些连接的设备通过互联网传输、编制和分析数据。

关于”大数据“有许多种定义,这种差别取决于你是一位计算机科学家,还是一位金融分析师,抑或是一位为风险投资人推销一个概念的企业家。多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大。换言之,”现在,数据可以更快获取,有着更大的广度和深度,并且包含了以前做不到的新的观测和度量类型。“7更确切地说,大数据集是”庞大的、多样化的、复杂的、纵深的和/或分布式的,它由各类仪器设备、传感器、网上交易、电子邮件、视频、点击流,以及现在与未来所有可以利用的其他数字化信号源产生“ .就大数据而言,真正重要的是它能做什么。先且不论我们如何把大数据界定为一种技术现象,大数据分析那多元而广阔的潜在用途将面临一些关键性的问题,即我们的法律、伦理与社会规范在大数据时代是不是有足够的能力保护个人隐私和其它价值。前所未有的计算能力与持续的改进能力为我们的生活带来了可能是先前从未预料到的发现、创新与进步。但是,这些能力对于普通消费者来说,多数都是既不可见,也无法得到的,因此, 它们在持有大数据的一方与有意无意地提供着数据的一方之间,形成了一种非对称的力量。

部分挑战也在于如何理解大数据发挥作用的许多不同的应用场景。大数据可以被看成一种资产、一种公共资源,或者一种个体身份的表达; 它的应用或许可以驱动未来的美国经济,也可以是我们所珍视的自由的一种威胁。大数据可能是所有这些事情。就这为期 3 个月的研究而言,评估组并不旨在对大数据的作用做出全面的解答。大数据技术和支撑它的产业都在不断地创新和变化中。相反,我们的研究集中在探讨个人与数据的搜集、利用方之间那些至关重要的问题。

这份评估报告的范围

今年 1 月 17 日, 奥巴马总统在司法部就改革美国信号情报工作的演讲中,责成他的顾问约翰·波德斯塔(John Podesta)就大数据技术正在或将要对经济、社会与政府行为的范围内发生的影响做出全面评价。为此,波德斯塔召集了商务部部长佩尼·普利茨克(Penny Pritzker)、能源部部长欧内斯特?莫尼兹(Ernest Moniz)、总统科学顾问约翰·霍尔德伦(John Holdren)、总统经济学顾问杰弗里·泽恩斯(Jeffrey Zients),以及其他高级政府官员。总统科学和技术顾问委员会(President's Council of Advisors for Science & Technology, PCAST)组织了一项平行报告,以评估基础技术。他们的成果支持了本报告中的许多技术性判断。

这份评估报告本质上被认为是一种对大数据作用范围的调查。在过去的 90天中,评估小组对学术专家、产业代表、保护个人隐私的倡导者、人权团体、执法者,以及其它政府机构进行了调研。白宫科学与技术政策办公室(White House Office of Science andTechnology Policy)与麻省理工大学、纽约大学、加州伯克利大学联合组织了三场大学会议。白宫科学与技术政策办公室也发放了”咨询请求“,就大数据和个人隐私问题寻求公众意见,并得到了超过 70 起回复。此外,白宫网站平台就公众对于大数据的各类使用及不同类型的大数据技术所持的态度,做了一项粗略的调查。在本报告附录中,可以看到工作组各项工作的列表。

大数据有什么不同?

这章首先界定一下大数据真正新颖和不同的是什么,它得益于总统科学和技术顾问委员会(PCAST)的工作。PCAST 写作了一份平行而独立的报告《大数据与个人隐私:一种技术的视角》。

”3V“: 数量(Volume)、类别(Variety)、速度(Velocity)

为了本项研究,评估小组聚焦的是那些数量巨大、类别繁多且高速运行的数据,而传统的数据采集与分析模式已经难以应对了。我们将其特征通俗地称为”3V“.数据采集、存储与处理成本的下降,连同像传感器、相机、地理位置及其它观测技术提供的新的数据来源,意味着我们生活在一个数据采集几乎无处不在的世界中。采集与处理的数据量是空前的。从基于网络的应用、可穿戴技术与先进传感器到监测生命体征、能源使用状况与慢跑者跑步速度的监测仪,由此带来的数据爆炸将推进人们对于高性能计算技术的需求,并推动针对最复杂数据的管理能力的提升。

不仅是数据的数量正在快速增长,它的格式也越发多样,来源也越发广泛。就像总统科学和技术顾问委员会的报告中所说的,有些数据是”天生数字化的“ (”born digital“),意思是说它就是特别创造出来用于计算机和数据处理系统的。 这些例子存在于电子邮件、网页浏览,或 GPS 定位之中。其它数据是”天生模拟的“ (”born analog“),这是说它从物理世界中发散出来,但可以不断被转化成数字格式。模拟数据的例子包括手机、相机或摄像设备录制的语音或可视信息,或者还有通过可穿戴设备监测到的身体活动数据,如心率或排汗量。”数据融合“(”data fusion“)能够将分散的数据源整合在一起,随着这种能力的提升,大数据可以带来一些远见卓识。

大数据来源是什么?

数据的来源与格式,连同其类别与复杂程度,都处于持续增长之中。 部分数据来源如下: 公众网络;社交媒体; 移动应用程序;联邦、州和地方记录与数据库;聚集商业交易与公共记录中的个人数据而形成的商业数据库;地理空间数据;各类调查;通过扫描并借助光学字符识别转化而成电子形式的传统离线文献。更多具有上网功能的设备与传感器的出现扩大了从物理实体,包括通过传感器和射频识别(radio-frequency identification, RFID)芯片采集数据的能力。而个人定位数据则来自 GPS 芯片、移动设备蜂窝信号基站的三角测量、无线网络映射,以及个人支付行为。

不仅如此,数据采集与分析的执行速度越来越接近即时时间,这意味对于一个人就其周边环境或生活所做的决定产生即时的影响而言,大数据分析有着越来越大的潜力。高速数据的例子包括记录使用者在线与网页互动活动的点击流数据,即时追踪定位的移动设备获得的 GPS 数据,以及得到广泛分享的社交媒体数据。客户与公司希望通过分析这种数据使其即刻获益的要求越来越高。事实上,如果手机定位应用不能即时准确地确认手机位置,它根本就不会有什么用处,并且,在确保我们的汽车安全运行的计算机系统中,实时操作就至为关键了。

新机会、新挑战

大数据技术能够将大量的数据集以从前不可能的方式分析出有价值的东西。的确,部分大数据所能产生的卓见是研究者过去从未敢想过的。但是,有关大数据的技术能力已然达到了成熟与普及的水平,它要求我们思考如何努力在大数据提供的机遇与这些技术所带来的社会、伦理问题之间做出平衡。

大数据应用的威力与机遇

若使用得当,大数据分析能够提高经济生产率,改善客户与政府服务体验、挫败恐怖分子并且拯救生命。例如:

大数据与不断发展的”物联网“使得人们将产业经济与信息经济进行整合成为可能。喷气式发动机和运货卡车现在能够装配许多传感器以监控上百个数据点,并且在需要维护时自动报警。这就使得整个系统更加扁平化,减少了维护成本,并同时增强了安全性。

医疗保险和医疗补助服务中心(The Centers for Medicare and Medicaid Services, CMS)已经开始在要求支付前用预测分析软件来标示看似报销欺诈的凭据。欺诈预防系统有助于实时甄别高风险医疗保健提供者的欺诈、浪费与滥用行为,它已经终止、阻止或确认了 1.15 亿美元的欺诈性支付,在该程序上头一年花的每 1 美元带来了 3 美元的成本节约。

在阿富汗战争最激烈的那几年,美国国防高级研究计划局(Defense AdvancedResearch Projects Agency, DARPA)派遣了数据科学家团队和可视化技术团队到战地。在一个名为 Nexus 7 的计划中,这些团队被直接派进作战部队,用他们的工具帮助指挥官解决特定的作战计划。在其中一个地区,Nexus 7 的工程师将卫星数据和监测仪数据融合, 观察交通工具是如何在道路网中流动,这使其更容易定位并摧毁简易爆炸装置。

有一个大数据研究综合了通过监测器采集的数百万个来自新生儿重症监护病房的数据样本,以确定哪些新生儿有可能感染了潜在的致命性传染病。通过分析所有数据(不只是医生在他们的巡视中标记的) ,该项目能够识别像体温升高、心率加快这样的因素,以此作为有可能发生了某种感染的早期预警信号。这些早期感染信号并不是经验丰富、工作细致的医生通过传统方式能够了解到的。

大数据技术也具有其它极大的前景,它可以用来更好地管理电网间的调配需求、 改进能效、为发展中国家提高农业生产力,以及预测传染病的传播等许多其它的应用领域。

大海捞针

现在,计算能力要做到”大海捞针“不仅是可能的,而且依然成为现实。过去,搜索多个大数据集既需要合理组织数据,也需要提出特定的研究问题,依赖选择对的查询以返回正确的结果。大数据分析令数据科学家积聚了海量数据,包括非结构化数据,并且使他们能够找出异常点与数据模式。在这种发现的模式中,为了找到针,你得有个大海;为了获得确定的洞见,你需要一定量的数据。而在其中所涉及的巨大数据量内,就隐含了对于个人隐私的关键性挑战。

例如,Broad 研究院的基因研究人员发现,海量的基因数据集在识别遗传变异对疾病的意义中有着关键的作用。在这个研究中,当样本数量是 3,500 时,和精神分裂症有关的遗传变异无法检测出来;当使用 10,000 个样本时,也只能有细微的识别;但是当样本达到 35,000 时,统计学上的意义便突然显示出来。正如一个研究人员所观察到的一样,”当达到某个拐点时,一切都变了。“对于更多数据的获取,尤其是像基因数据等私人敏感的数据,对于研究者来说将会是一个巨大的挑战,这一情况是由以限制其访问的隐私法为主的各种因素造成的。

大数据之下的数据集群与数据的关系可能会出乎人的预料,但同时也很深刻。同时,即使有海量的数据,大数据分析的结果也不一定完美。图像识别并不能识别这个图像是否重要。相关性仍然不等于因果性。利用大数据技术找到的相关性,或许不能为对结果、行为的预测以及其他个人判断提供恰当的基础。与一般数据一样,在大数据中,解释始终是重要的。

完美个性化的福利和后果

融合大量不同类型的数据并实时处理他们,就有可能在消费者开口之前,就提供给他们正确的信息、产品或者服务。少量数据能够被结合在一起,从而创造出某个人的清晰的行为图谱,进而预测他们的偏好与行为。这些详细的私人档案和个性化的经历在消费者市场上很有用,它能够向确定的一类人推送产品与服务,他们中的一员可能是一位酷爱编织的专业会计,也可能是一位喜欢恐怖电影的家庭主厨。

不幸的是,”完美的个性化“ (”perfect personalization“)也会在定价、服务与机会方面造成微妙的或是不明显的歧视。例如,一项研究表明,涉及到黑人常用名 (例如,”杰梅因(Jermaine)“)的网络搜索比涉及到白人常用名(例如,”杰弗里(Geoffrey)“)的搜索结果中更容易出现含有”逮捕“意味的广告。这项研究无法确定为什么种族偏见的结果会产生,因为在算法上,广告显示的生成是一个基于多变量的综合决策过程。显然,不同的群体通过不同的信息服务所产生的结果,有可能对个人造成真实的伤害,这种伤害可能发生在他们求职、买房甚至只是简单的搜索信息的时候。

还有一处值得关注:大数据技术能够从意识形态或文化上把人隔离开来,就像泡沫过滤器一样,有效地防止他们接触到一些对他们的偏见与假设构成挑战的信息。一些公司正在搜集并处理大量急剧增长的数据,并煞费苦心地挖掘个人资料与他们的喜好。然而,公众对这些活动的范围与规模的认知是有限的,消费者是很少有机会来控制这些被搜集并且反复使用的数据文件。

模糊与再识别

数据整合等技术在使大数据分析功能日益强大的同时, 也为对目前个人隐私的保护带来了严峻挑战。当数据开始连接到个人或设备时,一些隐私保护技术将设法去除这种链接,或者将个人身份信息”模糊化“(”de-identify“)——但是一些同样有效的技术也可以把这些碎片化的链接复原,并重新确定相应的个人或设备信息。同样,整合不同的数据可能会导致一些分析师所说的”马赛克效应“(”mosaic effect“),即个人身份信息甚至可以从不包括其个人识别码的数据库中得到或者推断出,只要明确包括其爱好等倾向在内的行为图谱即可。

许多技术人员认为, 数据的模糊化处理作为保护个人隐私的一种手段, 其作用也只是有限的。19事实上,对数据进行收集与模糊化处理是基于相关公司不恢复数据的承诺与对应的安保措施的基础上的。对数据进行加密、删除独特标识符、打乱数据使其无法识别个人,或者在其个人资料的控制上给予使用者更多的权限是目前采用的几种技术解决方案。但是有目的的模糊化处理可能使数据丧失其实用性与确保其出处及相应责任的能力。此外,它很难预测再识别技术将如何演变以应对看似匿名的数据。这将导致大量的不确定性,个人该怎样控制他或她的数据?他或她该怎样反对建立在海量数据之上的决策?

数据的保持

在过去,对于个人信息的自然控制的保存技术经常可以保证足够的隐私。数据可以被摧毁,对话可以被遗忘,记录可以被消除。但在数字世界,信息可以被获取、拷贝、分享、精确的翻译并且无限期的保存。从前存储大量数据的成本巨大,现在这些数据可以储存在一粒米大小的芯片里,既简单又实惠。结果是数据一旦被创造出来,就可以在许多情况下永恒的有效。此外,电子数据经常涉及到复杂多样的人群,使得个人的控制难以实现。比如,谁是一张照片的拥有者?是照片的拍摄者,还是照片里表现的人,是第一个邮寄它的人,抑或是邮寄它的地址?这些新科技的发展基本改变了一个人和与他/她相关的数据的关系。

数据自由的分享和复制的确比任何时候都要更多。个人、政府、企业、人际网络、同事、上台控制私人数据的其他政党,他们间的特殊责任仍在彼此区分。然而,技术发展的目标是明确的:越来越多的私人数据会产生,并在他人的控制下保存。保证数据的安全是当务之急。出于这个原因,”公众-个人合作社的各种模型“(”models for publicprivate cooperation“),例如在 2014 年 2 月成立的行政网络安全结构(Administration's Cybersecurity Framework),是确保该基础设施的安全与可调整性的重要部分,而正是这套基础设施,正在为世界上许许多多的数据库提供服务。

证明我们的价值

无论大数据所带来的问题是多么的严重与重要,政府依然会支持相关电子经济的发展并提供免费的数据流来激发大数据的创造力。科技的进步总是会产生如何权衡我们的隐私与社会价值之间的关系的问题。美国在公共领域内,在国会上,在法庭里,均遭受过这个的问题所引发的争议的挑战。而在历史长河之中,无论科技如何变化,我们一直坚定地保护宪法赋予公民的权力。

奥巴马总统上任伊始,政府就号召公众与私营部门善加利用数据的力量,使其提高生产力,改善生活质量,服务大众社会。这也就意味着,这项研究并不仅仅涉及大数据科技的可行性,还包括了大数据是如何可能挑战一般美国人的价值观与美国当下的法律框架。这份报告集中叙述了联邦政府如何在大数据科技改变消费者与公民的世界观的同时,确保我们价值观的延续与法律的与时俱进。

去年,关于隐私方面的公共争议主要集中于政府,尤其是在情报机构如何收集、储存,并应用数据这一方面。 这份报告在很大程度上搁置了由信号情报领域的大数据使用而引发的问题, 对这一问题的详细处理可以参加总统在 1 月份发布的政策指南。相应地,这份调查报告也同样考虑到了政府通过收集与使用这些大型数据库给公众带来了便利。公众的信任要求政府合理地运行与工作,并要求较之个人, 政府必须以一个更严格的标准来收集与使用个人信息。正如奥巴马总统所明确指出的,”对于一个领导者而言,仅仅说‘相信我们,我们不会滥用我们所收集到的数据’是不够的。“

这份调查报告开阔了我们对于大数据问题的视野, 它将大数据的应用范围远远扩大到情报领域之外。这种新的技术不仅仅只是在考察个人隐私,无论这种隐私是被定义成不被干涉,或者是掌握某人身份等其他权利。在这份调查报告中,一些影响最为深远的挑战主要集中在以下方面:大数据的分析有可能导致新型的不公平待遇,尤其是对于弱势群体; 也可能产生不透明的决策制定环境,以至于个人自治完全迷失于在一堆无法理解的算法之中。

这些都不是不能解决的问题,但是它们都需要更加深入与严肃的思考。 谨记历史学家梅尔文?克兰兹伯格(Melvin Kranzberg)的科技第一定律是非常重要的:”技术既无好坏,亦非中立。“ 22科技可以被用来服务群众,但也可以伤害个人。不管科技多么先进,美国公众都保留着一种力量, 即他们能够通过制定政策与法律来管理新技术的使用, 进而在某种程度上保护基本的价值观。

大数据正在改变世界。但是它并没有改变美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。这份调查报告旨在鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这样的进步的领域,与此同时,我们也需要相应的框架、结构与研究,来帮助保护我们的核心价值观念。

奥巴马政府在数据开放与隐私保护问题上的发展路径

回顾美国历史,技术与隐私法都处于不断交替发展之中。在营造创新环境、促进经济繁荣的同时,美国一直在全球范围内扮演着保护个人隐私的领导角色。

宪法第四修正案保护了”人民的人身、住宅、文件和财产不受无理搜查和扣押的权利“.对实在空间与有形资产的保护体现了尊重、重视人身安全与个人尊严的意识,公民良好的社会行为与民主社会的正常运行依赖于此二者。

在美国,一个保护隐私利益的法律框架已经建立起来, 并覆盖了宪法、联邦、各州等各个层面。”隐私权“不是一个狭隘的概念,而是由一系列概念组成的,它们针对侵害公民隐私权的各种行为,形成了各个样式的有针对性的保护措施。在美国,数据收集与将数据造福大众有着同样长的历史。宪法第二章第一款授权进行十年一度的人口普查,以分配美国众议院议席。在实践中,人口普查从来没有仅仅只进行简单的人数计算,而是收集一些更为具体的以公共利益为目的的人口统计信息。

自从奥巴马总统执政以来,联邦政府采取了史无前例的政策措施,将更多的它所拥有的数据向公众、公司与创新者开放。从 2009 年开始,奥巴马政府将大量资料库向公众开放,并且将许多数据公布在美国政府的中央信息交换库——Data.gov 网站上。这种将政府的信息数据当作一种资产并加以披露,使其易于获取与使用的做法,换句话说,就是信息的公开化。这大大加强了社会民主程度、开拓了经济发展机会、改善了公众生活质量。

奥巴马政府关于公开数据的举措

公开数据计划

根据政府的公开数据,我们凭借口袋里的智能手机就能知道我们所处的位置。几十年前,联邦政府将气象数据与全球定位系统免费对外开放,企业家们得以发明大量的新工具,提供新型服务,天气预报 APP、汽车导航系统等新发明因而不断涌现。

在过去,政府收集数据的方式主要是由政府机构自己进行收集,而奥巴马政府的一系列公开数据的倡议与决策,使得过去在健康、能源、气候、教育、经济、公共安全与全球发展等领域内难以收集的数据变得易于收集,开启了一个新的富有价值的数据宝库。奥巴马在 2013 年 5 月 9 日签署的第 13642 号总统行政令为联邦数据管理工作提出了新的准则:在保护好隐私安全性与机密性的同时,将数据公开化以及可读写化纳入政府的义务范围。扩大公开数据的影响也同样是总统第二期管理工作规划的核心部分,例如管理和预算办公室(Office of Management and Budget, OMB)就已经建议其下属机构公开更多他们决策所依据的政府信息,因此,相信信息公开将可以惠及更多的人。

公众在 Data.gov 网站上可以找到有关联邦消费者金融保护局(Consumer Financial Protection Bureau, CFPB)受到的所有抗议的信息,这些抗议主要针对于阿肯色州学生贷款的 911 个服务领域。这表明每个人可以利用 Data.gov 网站获得他们所需要的公开信息,而不需要对政府机构和这些机构所推动的工作项目有特别多的了解。感兴趣的软件开发者运用一些简单的工具,就能够自动获得这些数据包的信息。

联邦机构在某种程度上应根据公众的要求优先公布它们的数据以扩大数据的影响面,每一个机构都被要求需通过诸如邮件系统或是在线平台等数据反馈机制来征求它们应当收集哪些数据。这样一来,任何倡议者、企业家、研究者就能第一时间联系联邦政府,建议哪些数据应该被公开。为了更进一步的形成反馈并促进政府公开信息的有效使用,政府官员一直在积极召开并参与编码马拉松(code-a-thons)、头脑风暴工作坊(Data Jams)、数据开放运动(Datapaloozas)与其他的一些以数据开放为主题的会议。

根据 2013 年 5 月的总统行政令,管理与预算办公室以及科技政策办公室(Office of Science and Technology Policy, OSTP)发布了一个工作框架方案,为各机构管理运用即时更新的信息资源这一新形式财产提供指导,包括了对保护个人隐私、信息可信度的一系列要求30.政府机构根据开放程度已将信息资产划分为三个种类:开放性、半开放性、非开放性,并且只能出版发行开放性密级的信息。为了增进透明度,一些机构需将一些还没公布到网上的技术性公开数据纳入他们的外部数据财产清单。

”我的大数据“计划

使政府信息更公开透明、更易被机器读写仅仅是政府信息政策的一个组成部分。1974 年颁布的《隐私权法案》授予了公民可接触一些与其有关的个人信息的权利,公民行使这一权利应该变得更加安全高效,从 2010 年开始,奥巴马政府着手采取了一系列主题为”我的大数据“的倡议与措施,使得美国人可以更安全地获取他们的个人数据,用来更好地处理他们私人领域的申请活动和服务。

”我的大数据“计划具体包括以下部分:

”蓝纽扣“计划: ”蓝纽扣“允许消费者安全地获取他们的健康信息,使得他们可以更好地管理他们的健康与经济状况,并与信息提供者交换相关信息。在 2010 年,美国退伍军人事务部(U.S. Department of Veterans Affairs, DVA)开始了”蓝纽扣“计划,退伍老兵可以通过该计划下载他们的健康记录。从那时起,540 万退伍军人利用”蓝纽扣“获取他们的健康信息,超过五百家私人公司允诺向”蓝纽扣“计划的参与者提供更多他们所掌握的健康数据,今天,超过 1.5 亿的美国人能够从健康服务提供商、医药实验室、零售药房供应商与州免疫信息数据库获得他们所需的个人健康数据。

”创建副本“计划:在 2014 年,美国国税局通过一个名为”Get transcript“的工具将纳税人的信息数据加以共享,纳税人可以通过它获得他们自己最近三年的纳税记录。个人纳税者可以借此下载过去的纳税申报单,这使得居民进行抵押、学生贷款、商务贷款等活动与填写纳税表更加便捷。

”绿纽扣“计划:在 2012 年,美国政府与电力行业合作推出了”绿纽扣“计划,这为家庭与企业提供了便捷的途径来获得他们的能源使用信息, 并且有利于营造良好的消费者环境与电子化模式。今天,为 5900 万家庭与企业提供服务的 48 家电力供应商通过参与”绿纽扣“计划,帮助他们的消费者节约资源。凭借自身掌握的能源数据,消费者可以选择享受何种私人服务,以更好地管理他们的能源消耗状况来达到理财的目的。

”我的学生数据“计划: 教育部将助学金免费申请表与联邦助学情况的一些信息共享,这些信息囊括了借贷、补助金、注册与超额偿付等方面的具体事项,这使得学生与资助人能够上网下载所需信息资源。在这些计划中,信息都是通过”注重使用者体验“、”机器可读写“、”文本信息平面化“的方式实现共享的。

除了为人们提供安全、高效的个人信息,”我的大数据“计划帮助建立了一个有效的个人数据获得性模型,政府也希望将其推广到更多的私人与公众领域。获取个人信息的能力在未来将会变得越来越重要,生活的各个方面都将会逐步卷入到个人、公司与公共组织的信息交换之中。

大数据计划: ”数据-知识-行动“

在未来, ”大数据“将会成为这个信息交换过程的核心,使得数据转化为知识,并进而转化为行动的过程更加快捷。在 2012 年 3 月 29 日,六个联邦机构加入到”大数据研究和发展计划“(”Big data Research and Development Initiative“)中来,超过两亿的科研经费被用于工具与技术开发以推进对海量数据进行获取、组织与整理并发现有效信息的相关技术发展。

自从”数据-知识-行动“(”Data to Knowledge to Action“)计划实施以来,在 1 亿美金的”XDATA“项目支持下,美国国防部先进项目研究局(Defense Advanced Research Projects Agency, DARPA)创建了一个关于研究出版物与公开化资源软件的”开放目录“,努力发展能够处理分析存在缺陷的、不完整的海量数据的技术32.国家卫生研究院(National Institutes of Health, NIH)也拿出 5000 万美金支持开展生物领域的”数据-知识-行动“计划。国家科学基金会(National Science Foundation, NSF)赞助的大数据研究计划,为人类基因组研究节省了 40%的经费。能源部也宣布向”可扩展数据的管理分析及其可视化协会“ (”Scalable Data Management, Analysis, and Visualization Institute“)提供一项 2500 万美元的赞助,这家机构所处理的气候数据信息使得季节性台风预报的准确性提高了 25%以上。还有许多针对大数据的研究支持计划,比如奥巴马总统 2013 年 4 月发布的创新神经技术脑(BRAIN)计划。作为政府大数据计划的组成部分,国家科学基金会为大数据中出现的社会、道德与公共政策问题的相关研究也提供了特别的资金支持。

美国隐私法案和国际隐私法框架

美国《隐私法》的发展

工业革命带来的技术革新浪潮使得社会发生巨大变迁,《隐私法》正是在这一社会背景上发展起来的。隐私权最初由美国学者沃伦(Samuel Warren) 和布兰蒂斯(Louis Brandeis)在 1890 年由两人合著的著名法学论文《隐私权》一文中提出,初代可便携照相机的出现直接促成了他们观点的提出,在论文中,他们指出”最近的发明与商业应用将人们的目光吸引到个人隐私权的保护上来,…这项权利应不受侵犯…很多技术发明威胁到了隐私权,‘窃窃私语被公之于众’的预言可能被实现。“提出建立普遍性的隐私保护法的倡议出现在 20 世纪,这一倡议富有预见性,建立了从政府到个人的涵盖各个方面的公民隐私权。

案例法历经了上个世纪的发展,其中关于宪法第四修正案的解释条目随着时间与技术的发展也在不断进行调整。在 1928 年,联邦最高法院受理了”欧姆斯戴徳诉美国联邦政府“(Olmstead v. United States)一案并宣判在诉讼人屋外设置电话窃听装置并没有违反宪法第四修正案,即使政府以此获得了屋内谈话的内容。但是,欧姆斯戴德案的裁定因为贾斯蒂斯·布兰蒂斯(Justice Brandeis)的抗辩而传播得更广,他写道:”国父们曾经授予公民其隐私不可侵犯的权利以限制政府的行为。“

欧姆斯戴德案的法庭决议一直沿用,直到 1967 年 ”卡茨诉联邦政府“ (Katz v. United States)一案才被推翻。法庭认为,联邦调查局(Federal Bureau of Investigation, FBI)在没有调查授权的情况下在公用电话亭外安装监听记录装置,侵害了个人使用公用电话时应有的同时也是符合个人期待的隐私权,即使这个装置没有置于电话亭内部,或是身体以及财物上。此后,主观期待的隐私权得到保护,社会也开始将这视为理所当然。

民事法庭并没有立即将隐私权认定为一个公民向他者提起诉讼的正当理由——也就是律师们常说的”诉因“(”cause of action“)。直到 1934 年的《侵权行为法》中,无正当理由地严重侵犯个人隐私才被正式确定为可作为起诉的基本出发点。大多数州的法院这才开始将隐私权认定为诉因,这份规定并不是对民事侵权行为的单独一款规定,而是由 4 款复杂的规定组成的:

1.行为侵犯个人私人空间或私人事务

2.公开散播个人隐私

3.为丑化某人信息而将信息公开

4.为了非个人本人目的而挪用了个人肖像

现在许多批评认为这四款并没有很好地解决隐私问题,市场经济下因商业目的而大范围收集、使用、散播个人信息的现象仍很严重。同时一些人声称,自动化的程序应该能减轻隐私问题给公众带来的忧虑,因为它是使用电脑来进行操作并完成一系列任务,而不是像过去一样由人来操作完成。

信息公平实践原则

随着计算技术的发展与它在政府和私人间的应用更加普及,全球的政策制定者们开始重新审视它与隐私的关系。1973 年,美国卫生、教育与福利部发布了一份题为”录音、计算机与公民权利“(”Records, Computers, and the Rights of Citizens“)的报告。报告分析了”自动化个人数据系统可能导致的不良后果“并建议建立信息使用的保障措施。这些措施,也就是如今广为人知的”公平信息实务法则“(FIPPs),成为了当今数据保护制度的奠基石。

尽管这些法则在法律与国际公约中都有不同的表现形式,但本质上, ”公平信息实务法则“ 清楚地表达了处理个人信息时的基本保护措施。它规定个人有权知道他人收集了那些关于他的信息,以及这些信息是如何被使用的。进一步说,个人有权拒绝某些信息使用并更正不准确的信息。信息收集组织有义务保证信息的可靠性并保护信息安全。这些法则成为了 1974 年《隐私法》的基础,这一法案规范了联邦政府在个人信息的维护、收集、使用与传播等方面的行为。

19 世纪 70 年代后期,几个其他国家也相继通过了隐私法。 1980 年,经济合作及发展组织(OECD)发布了其《关于隐私保护和个人信息跨界流动管理的指导》 (”Guidelines Governing the Protection of Privacy and Transborder Flow of Personal Data“)。基于”公平信息实务法则“ 的经济合作及发展组织指导并提供了关于过去三十年里国家隐私法,特别行业隐私法及其实践的信息。1981 年,欧洲委员会通过了《个人信息自动处理中的个人保护公约》(”Automatic Processing of Personal Data“, Convention 108),这一公约采用”公平信息实务法则“的手段来凸显欧洲对于隐私权的保护。

尽管有一些关键的不同,但是美国和欧盟国家关于隐私权保护的框架都是基于 ”公平信息实务法则“ .基于隐私权是基本人权这一认识,欧洲国家的保护措施通常包括自上而下的严格法制与对于个人信息的使用的全面限制或是要求信息主体的明确同意。相对的,美国则通常采用在例如医疗保障与信用体系等特别领域实施特别规定来管控特定的风险。这使得美国很少有对于信息使用的全领域普适规则,从而为产品与服务的创新留下空间。但是,但这也为潜在的数据跨领域使用留下了空间”公平信息实务法则“ 形成了诸多部门法与国际公约的共同思路。他们被编入 2004年《亚洲太平洋经济合作组织隐私权法则》 (”Asia Pacific Economic Cooperation Privacy Principles“),这一文件由亚洲太平洋经济合作组织(简称亚太经合组织或 APEC)成员国签署通过,并构成美国-欧盟与美国-瑞士的安全港框架基础,这一框架将以对于”公平信息实务法则“的一致观点作为沟通美欧法律的基础。

美国特定行业的隐私法

上世纪七八十年代的美国,特别制定的行业法律开始出现并作为以侵权行为为基础的习惯法的补充。这些法律只对特定的数据提供保护。除了少数例外,大多数州与联邦政府都通过了相应法律。

《公平信用报告法案》(”Fair Credit Reporting Act“, FCRA)最初颁布于 1970 年,这一法案旨在促进消费报告机构所收集的信息的准确性与公平性的同时,推进相关隐私保护。这些信息被用于信用与保险报告、雇员背景调查与租户筛查。这一法案赋予了个人访问与修正个人信息的权利,从而保护了消费者的权利。它要求那些提供消费者报告的公司确保信息的准确与完整;它限制这些信息的使用;它要求这些机构在依据报告进行不利于当事人的措施(例如拒绝贷款)时需尽到告知的义务。

1996 年 的 《 健 康 保 险 携 带 与 责 任 法 案 》 (”Health Insurance Portability and Accountability Act“ ,HIPAA)规定个人健康信息只能被特定的、法案中明确的主体使用并披露,法案中也包括了用于帮助个人了解并控制其健康信息使用的标准。49《健康保险携带与责任法案》(HIPAA)的核心原则是”最小化必须“(”minimum necessary“)原则。50国会与卫生部会周期性地升级健康数据的保护。1998 年《儿童在线隐私保护法案》(”Children's>

预测大数据变革的下一篇章

对于现在绝大多数的普通交互来说,告知与同意框架充分保护了隐私。但是总统委员会的科技顾问表示,技术轨迹正在转向采集、使用和储存对消费者和个人并没有直接联系的数据上来 122.假若该框架被违背,比如由我们的家庭设备采集的数据,我们则需要重新关注数据的使用,这一政策转向正在被专家、学者广泛讨论 123.数据的使用情况是极为重要的,它对社会有利有弊,如“双刃剑”一般。

负责任地使用政策框架会带来许多潜在优势。将责任从个人转移到采集、保存和使用数据的实体,由于个人在目前市场中的位置,他们并不能很好地理解和抗争告知和同意框架。关注于使用责任制,也可以使数据的采集者和使用者对数据的管理及其可能产生的危害负责,而不是狭隘地将其责任定义为是否通过正常途径采集数据。

更多地关注责任并不意味着忽视收集的环境。对数据负责,一方面就是要尊重原始数据的采集。实际上,如同在消费者隐私权法案所阐述的尊重环境原则,这一规则并不令人惊讶。虽然数据的收集不能立即用在就业上,但技术的发展正在向这个方向转变。先进的数据标记技术可以已采集和用户授权使用的信息细节进行编码,从而使许可使用的信息可以一直跟随着数据。若是该技术得到良好发展和广泛使用,即使不能解决大数据中所有的问题,也可以用于应对一些关键挑战。

或许最为重要的是,为了更负责地使用大数据,我们应该将关注的重点放到如何平衡大数据所带来的效益和对隐私以及其它由于大数据采集信息的不可避免性而受到危害的价值。我们是否应该制定规则,不能在任何环境下使用没有得到使用授权的数据,即只使用得到使用授权的数据?对于医学研究中为了治愈癌症而使用的数据,和商业营销中对消费者的广告定位而使用的数据,我们应该如何区分和界定它们?

正如奥巴马总统在人权消费者隐私条例草案的发布会上所说,“尽管我们生活在一个能够比过去更自由地共享个人信息的世界,但我们必须坚决否认隐私价值已经过时。”隐私“从一开始就一直是我们的民主制度的心脏,而现在,我们比以往的任何时候更需要它。”这在利用大数据的时代更是如此。

结论与建议

奥巴马总统在 2014 年 1 月 17 日宣布的白宫对大数据及隐私的评估报告,设想研究大数据技术更广泛影响,他认识到,大数据革命广泛开展于公众与私营部门之间,其影响需要被一并考虑在当局对信号情报的审查当中。

90 天里,白宫大数据工作组着手于研究大数据技术是如何改变政府、商业和社会。我们试图了解大数据将会带来怎样的机遇、怎样的进步,我们希望领会已有科技和遇见不远的未来。与此同时,总统科学技术顾问委员会对相关技术进行了评估,他们的研究结果支撑了本报告中许多对科技的论断。

大数据工具为我们提供了惊人、强有力的契机,以解锁已存在的和新采集的数据、发现先前难以接近和洞察的现象。大数据可以推动医疗、教育、农业、能源使用的发展与突破,并对企业如何组织其供应链、监控其设备提供启示。大数据具有精简公共服务供给的潜力,从政府的各个层面提升税款的利用效率,并大大加强国家安全保障能力。大数据的承诺,需要政府数据被视为一种国家资源,并被负责任地提供给那些能够通过它创造出社会价值的人。同时,它为塑造下一代计算工具与技术提供机会,这也将反过来进一步地推动创新。

然而,大数据也引发了许多困惑。就其本质而言,许多部署在我们的手机、家中、办公室、城市路灯柱和屋顶的监测传感技术正在采集越来越多的信息。分析上的不断进步激励我们采集尽可能多的数据,这不仅是为了当下的使用,也是为了日后的应用潜力。从技术角度讲,这促使了数据具有功能性上的永恒性和普及性,使我们留下的数字痕迹被采集、分析、组合,揭示出关乎我们自身与生活的数量惊人的事物。这些发展挑战了人们长期以来的隐私观念,引发了“告知与许可”框架下,用户对被采集数据的初始权限的质疑。然而,这些趋势将不会阻止我们创造途径使人们参与到对其信息的处理和管理中去。

这份评估报告的重要发现之一为,在大数据被用来造福社会的同时,也有可能被用来制造社会危害。纵使在并非有意歧视的情况下,大数据的使用仍然可能导致有失公正的结果。微小的偏见具有潜在的积累性,可能给某些弱势群体带来大范围的结果影响。社会必须采取措施以防止这些潜在危害,无论是公民与政府、消费者和公司或是员工与企业之间,都应保持权力在个人与机构间的适当平衡。

大数据变革正处于其最初阶段。我们需要数年才能理解其完整的技术内涵、其对健康、教育、经济的强化作用,及更为关键的是,它对美国核心价值观的影响,包括隐私权、非歧视、自我决定权。

即使是在当下大数据变革的早期,本评估报告的作者仍认为重要的结论已然出现,即大数据可以从多个领域的层面告知当局者该如何迈出下一步。特别是以下五个方面,它们将引发美国关于在大数据世界如何最大化利益和最小化危害的全民讨论。

保护个人隐私的价值:在美国以及全球协作的隐私保护体系中,通过在市场上对个人信息的保护来维护个人隐私的价值

稳定/持续负责的教育:要认识到学校(尤其是 K-12)是使用大数据以提升学习机会的重要领域,同时也要对个人数据的使用进行保护,强化数位素养和技术

大数据与歧视:防止大数据使用过程中可能带来的新的歧视方式

执法和安全保障:在执法过程、公共安全、国家安全中,确保大数据的合理负责使用

数据公共资源化:将数据作为公共资源,用于提升公共服务,投资于能够推动大数据革命的科学研究

政策建议

本评估报告还指出了六条值得政府及时关注并制定相应政策的建议,分别为:

改进消费者隐私权力法案:商务部应当采取咨询手段,来征求利益相关者与公众对大数据发展及其是如何影响消费者隐私权法案的意见,然后制定立法文本草案供利益相关者审议,并向国会提交

通过关于国家数据外泄的立法:国会应当通过立法,沿袭当局 2011 年 5月的网络安全立法建议,制定一套国家统一数据外泄标准

将隐私保护扩展至非美籍人士:管理和预算办公室应与各部门和机构协作,在可行领域将 1974 年隐私法应用于非美籍人士,或制定可替代的隐私政策,应用于各种国籍的人士,以对其个人信息进行合适、有意义的保护

确保对在校学生的数据采集只被用于教育目的:联邦政府必须通过法规确保学生的数据恰当共享或使用,尤其针对几种在同一个教育环境下的数据

发展技术以阻止歧视:联邦政府首席公民权利和消费者保护机构应当发展技术专长,识别通过大数据分析而对受保护阶层产生歧视性影响的做法和结果,并制定调查和解决方案

修正电子通信隐私法:国会应当修正电子通信隐私法,以确保对在线数字内容的保护标准与现实所提供的相一致,包括去除未读的或留存一定年限以上的邮件中因超时而产生的差别

保护个人隐私的价值

大数据技术正在推动巨大的创新,同时也产生了新的隐私问题,其影响远远超出了当下备受关注的线上广告问题。这些影响使我们在未来的隐私保护中急需一个更具广泛性的国家审核模式,包括 2012 年发布的政府的消费者隐私权利法案。相对于传统的告知与同意模式,即专注于采集数据之前获得的用户许可,对其进行重新审核是尤为重要的。虽然在许多情况下,告知与同意仍作为一种基本模式存在,但如今,我们需要做出判断,在大数据环境下,更侧重于数据的使用和重复使用的研究方式是否会成为使隐私权管理更为高效的基础。或许,建立一种使个体参与到其个人数据采集后的使用和分配问题的机制,将会是更好的授权方法,以使人们能够从其个人信息中获利。隐私保护的方式也必须不断发展,以适应大数据所带来的社会效益。

推进消费者隐私权利法案

正如 2012 年 2 月奥巴马总统所明确的那样,消费者权利法案和与消费者隐私相关的蓝图代表了“一种动态模型,使得在新的信息技术条件下,提供强大隐私保障、推动创新”消费者隐私权利法案为基于公平信息实物准则。一些隐私专家相信,这些原则在一些细微处有足够的灵活性以解决和支持数据的新兴用途,包括大数据。但其他人对此并不太确信,尤其是技术人员,因为不可否认的是,大数据确实挑战了当下一些支撑隐私框架的关键假设,尤其是在采集和使用上。值得考虑的是,在告知和同意模式的背景下,大数据的发展该如何可行地保护隐私,以及存在哪些实际限制。

建议: 商务部应当立即征求公众意见,针对消费者隐私权利法案如何在支持大数据创新的同时,又对其风险作出反应,以及如何负责地使用框架,就像第五章所阐述的那样,包含在消费者隐私权利法案确立的框架之内。根据评价过程,商务部应当制定立法文本草案供利益相关者审议,并向国会提交。

提高数据服务行业(俗称为“数据经纪人”)的透明度

消费者有权更清楚地知晓,在与他们进行直接交易的企业以外的第三方数据采集者处,其数据是如何被共享的。这就意味着消费者应当清楚地知道数据采集与再利用的范围,即参与调解其用户体验或从用户多样化中采集信息的企业数量。数据服务行业应该跟随线上广告和信贷行业的脚步,建立专门的网站或门户网站,将公司名单及其数据使用方法列于其上,从而为消费者提供途径,以便他们更好地控制自身信息的采集和使用,同时也可使消费者对其数据的使用途径进行自主选择。

纵使我们越来越关注数据的使用,消费者仍希望借助于“不追踪”工具来掌控其数据被采集的时间和方式

由于现在出现了越来越多的记录个人行动、行为和位置数据的设备和服务,所以我们极其需要加强隐私保护工具的性能。民意调查显示,人们对这类工具有十分显著的需求,政府和私营部门必须继续发展隐私保护技术,改善对消费者的服务。

卫生保健服务方面,大数据使医学水平进一步提升、成本进一步降低,故政府应当建立协商程序,评估如何使健康保险流通与责任法案及其它相关的联邦法律法规能够更好地适用

在预测、检查、治疗疾病方面重大突破的实现,一方面需要最大限度的公众政策关注,另一方面,若想挖掘出其全部的潜能,必然少不了医药数据隐私体制的实质性的进步,这样才能使科研人员结合并分析各种生活方式和健康信息。任何改革还必须考虑,在监管和法律保护下,由健康保险流通和责任法案管辖范围外的企业组织散布的大量个人健康信息。

美国应当引领全球大数据对话,重申政府建立全球协作的隐私框架的承诺

大数据的优势有赖于全球信息自由流动。由于这将对不同国家的传统和法律框架产生影响,故美国应当集结国际合作伙伴参与对话,探讨大数据带来的好处与挑战。

具体来说,国务院和商务部应积极发展政府间的双边合作关系,包括欧盟、亚太经济合作组织(APEC)、经济合作与发展组织及其他利益相关者,对现有的及拟议的政策框架应对大数据的方式进行评估。

当局也应努力加强美国与欧盟安全港架构协议,鼓励更多的国家和公司加入亚太经合组织跨境隐私规则体系,通过努力,使欧洲绑定合作规则体系与亚太经合组织跨境隐私规则体系结盟,促进美国、欧洲和亚洲之间的数据流合作。

美国尊重全球化的个人隐私价值,并应将其体现在处理全体相关人员数据的方式上

因此,美国应扩大对非美籍人士的隐私保护。

建议:管理和预算办公室应与各部门和机构协作,在可行领域将 1974 年隐私法应用于非美籍人士,或制定可替代的隐私政策,应用于各种国籍人士,以对其个人信息进行合适、有意义的保护。

数字时代负责任的教育创新

大数据给孩子和青年提供了提升教育经历的重大机会。大数据与教育的交叉主要在两个方面。随着学生开始与教育机构共享数据,他们所期待的是发展知识与技能,而不是被用作建立个人优缺点的档案,从而对日后产生不良影响。教育机构也处于帮助孩子、青年及成人应对大数据世界的特殊位置。

在提升教育创新中应确保数据保护

随着网络设备的发展,个人学习变得越来越普遍,提升教育有赖于大数据的发展。接下来的五年,在总统的连接教育倡议下,科技设备将大量走进美国教室,具有加强教课与学习的极大潜力,特别是对于弱势群体。以网络为基础的教育工具和软件使教育技术和商业的重复与创新成为可能。无论是在教室内还是教室外,这些设备中都已被部署了强大的学生隐私安全保护系统。家庭教育权和隐私权法案以及儿童在线隐私权保护法案提供了联邦监管框架,来保护学生的隐私,但是前者制定于网络普及前,后者则制定于智能手机、平板电脑、应用软件、云计算和大数据产生之前。学生及其家属需要强劲的保护手段来应对当下出现的威胁,但同时,他们也应当获得途径来学习科技带来的益处,以保证学生能够充分发挥潜能。

建议: 联邦政府应确保学校采集的数据是用于教育用途,并继续支持投资和创新,以提高整个学校的绩效水平。为了促进创新。学校应当探讨如何在现代化背景下实施家庭教育权和隐私权法案以及儿童在线隐私权保护法案的联邦监管框架,以确保两个相辅相成的目标: (1)确保学生的数据适当共享或使用,尤其针对几种在同一个教育环境下的数据, (2)确保教育科技中的创新,包括新的方法和商业模型,有足够的机会蓬勃发展。

数位素养是 21 世纪的重要技能

为了确保各年龄层的学生、公民和消费者在数据使用中有权充分保护自己,以防数据滥用,对于他们来说,顺畅地理解数据被采集和共享的方式、算法被采用的方式和目的,以及他们可以使用什么样的工具和技术来保护自己尤为重要。即使这些技能将不会取代监管保护方式,增加数位素养也可以使人们更好地在一个充斥着大数据的世界中生活。数位素养,即理解个人数据是如何被手机共享和使用,应当被看做 K-12 教育中的关键技能,并融入标准课程中。

大数据与歧视

自动化决策技术是不透明的,基本无法被普通人应用。然而,他们正在承担越来越重要的作用,并在有关个人获得医疗、教育、就业、信贷、商品和服务环境中被使用。环境和技术的结合造成了许多困难,即如何确保发现、判断和纠正在自动化决策过程中有意或无意产生的歧视效应。我们必须开展关于大数据、歧视、公民自由的全国对话。

联邦政府必须关注大数据技术,避免与国家法律和价值观不符的歧视的产生潜力

建议:联邦政府的首席公民权利和消费者保护机构,包括司法部、联邦贸易委员会、消费者金融保护局和公平就业机会委员会,应当扩大技术专长,来识别对受保护阶级有歧视性影响的大数据分析所促进的做法和结果,并制定计划,调查和解决违反法律的此类事件,在评估和解决潜在问题时,这些机构可能会考虑数据的分类、采集背景,以及对某些特别值得关注的群体,如残疾人的基因组信息。

消费者期望于有权知道,他们所接受的商品和服务的价格是否与其它的有系统性的不同

令消费者难以置信的是,呈现给他们的数据和算法作为全部参数,塑造了他们的线上和线下生活。尽管如此,由于消费者的体验是基于其个人信息,所以一定的透明度也是适宜的,特别在不同公司给消费者提供不同的定价时,例如消费者利用网络搜索引擎或大型零售商的网上商店比较机票价格。经济顾问委员会应评估线上和线下不同定价的演变方式,评估市场有效运作的意义,思考是否需要保证消费者公平的新途径。

数据分析可被用于保障公民自由

同样的大数据技术,在导致歧视的同时,也可以帮助群体行使其权力。相关应用和数据挖掘功能可以识别以及经验性地证实的歧视现象,并揭示其造成的危害。联邦政府民权办公室和民权社会,应采用新且有力的大数据手段,以确保最易受攻击的群体能够得到公正的对待。

为了树立公民意识,联邦政府消费者保护和技术机构应当组织公开研讨会、落实问题报告,其应当针对的问题有,这些新技术潜在的歧视性做法,差别定价的做法,和在信贷、就业、教育、住房和医疗保健上使用代理评价重复规范评分的做法。

执法与安全保护

大数据的合法使用可以使社区更安全,使国家的基础架构更具弹性,并加强国家安全。十分关键的是,国家安全、国土安全、执法和情报机构应当积极尝试和合法运用大数据技术,同时也坚持全面问责制,进行监督并保证隐私。

应当重新修订电子通信隐私法

建议:国会应当修正电子通信隐私法,以确保对在线数字内容的保护标准与现实所提供的相一致,包括去除未读的或留存一定年限以上的邮件中因过时而产生的差别。

执法中使用的预测分析应当继续受到仔细的政策审查

至关重要的是,在预测刑事调查的情况外,法律管理下的大数据分析应当被适当部署对个人隐私和公民自由的保护系统。无罪推定是美国刑事司法系统遵循的基本原则。针对言论和社交自由的宪法权利,为防止寒蝉效益,公众必须了解这些项目的存在、操作方式及功效。

联邦机构中隐私和数据方面的专家应为国家、地方和其他联邦执法机构提供技术援助,以探索并部署大数据技术

执法机关应继续研究如何培养大数据监控技术的联邦拨款项目,使其能够被负责任地使用,同时研究在国家和地方建立全国大数据试点项目登记处的潜在效用,以跟踪、识别和推广最佳途径。针对未来一年有助于推进隐私社会的隐私保护技术的发展,联邦政府机构与技术领导者、专家也应当报告其进度。

评估政府对合法获取的商业数据的使用,以确保其与我们的价值观一致

在了解长期的基本商业记录对搜索犯罪嫌疑人的作用时,联邦政府应该承担对美国公民市售数据用途的审查,注重雇佣大数据技术服务的运用,并确保它们与适当的监督结合,以保护公民隐私和自由。

联邦政府应当实施最佳途径,建立制度协议与机制,以帮助确保数据的使用控制和安全存储

美国国土安全部、情报界和国防部领导者正在制定隐私保护和个人信息处理政策。其它公共部门机构应当评估这些做法,特别是通过数据标记来强制限制使用、控制访问政策和定格的审计,是否能整合到他们的数据库和数据处理中,向其中融入对隐私、公民权利和公民自由的保护策略。

利用大数据分析和信息共享来加强网络安全保护驱动经济发展的网络、支持公共安全和保护国家安全,这已经成为关键的国土安全使命。联邦政府与私营部门合作伙伴计划中,在试点项目和研究中使用大数据,以保证网络安全,并保护关键基础设施,加强我们的应变能力和网络防御能力,特别是在越来越多网络威胁数据被共享的情况下。当局继续支持立法保护隐私,为公司特殊威胁数据共享提供目标责任保护,并在此基础上适当保护其网络。与此同时,政府将继续采取行政措施,增加奖励,减少数据共享和分析的屏障,帮助公众和私营部门预防和应对网络威胁。

数据公共资源化

政府数据是国家资源,并应被尽可能广泛地向公众提供数据,以提高政府效率,确保政府问责制,推动经济繁荣和社会良好,同时也要继续保护个人隐私、商业机密和国家安全。这意味着寻找新的机会使政府释放大量数据,并确保所有机构最大限度地使用Data.gov,即联邦数据的工具与资源存储库。大数据可以改善公共服务,带来对政策制定的新认知,从政府的各个层面提升税款的利用效率。

政府数据应当被准确、安全地存储,并最大程度地开放访问政府数据,尤其是统计和人口普查,由于其高精确性、高可靠性和高保密性而区别于其他数据。类似的,如今的“我的数据”倡议使美国人可以通过有效的方式轻松安全地访问个人数据,其格式构成的模型使得个人数据拥有可获得性,这应当被尽可能广泛地应用于政府中。

所有部门和机构应其高级隐私官员和公民自由官员密切配合,评估他们是如何驾驭大数据,从而最好地执行任务

过去未大范围采用过高级数据分析工具的部门和机构应当最大程度地理解:大数据革命对他们及其服务的公民意味着什么。他们应该尝试开展试点项目,发展内部人才,扩大研究和开发。各机构应从最早阶段就开始与他们的隐私和公民自由官员协商建立这些项目。

特别的,大数据分析为美国人民在提供政府服务时增加价值和绩效带来了重要机会。大数据也有发现和报告浪费、欺诈和滥用的强大力量,从而能够节省税款、提高公信度。大数据也可以帮助进一步识别出政府高绩效的做法,从而这些做法可以重复应用于类似的机构和程序,并可能提供新的使公共部门管理有效化的方式。

我们应在隐私保护技术的研究和开发上大幅增加投资,鼓励计算机科学和数学、社会科学、通讯和法律等学科的跨领域研究

政府应致力于引导研究,以确定在哪些领域中,大数据分析可以给美国人民的生活水平带来最显著提升,同时鼓励数据学家进一步发展社会、伦理和政策知识。为此,科学与技术政策办公室应在与整个机构中专家的合作中,致力于明确可以带来显著公共利益的领域,例如城市信息学,并对可以使其受到适当关注、获取适当资源的方式进行评估。

关注有发展前景的基本领域,例如数据源、去身份和加密等,但同时,我们也应当鼓励关注那些可以迅速应用到消费者中的市场型新科技工具。由于我们需要越来越多的从事数据方向的干部和能将关键策略转变为技术基础设施的社会科学家,我们将资金投入到一些研究中,例如针对从社会伦理角度传授科学技术知识的科学技术研究,对数据科学家和工程师进行模块化教学,使他们了解这份事业所具有的更广阔的社会影响力。

译者信息与版权说明

翻译人员:

给总统的一封信 阮海博 (浙江大学计算机科学与技术 2012 级本科生)

第一章 陈新 (浙江大学历史学系教授)

邱桐 (浙江大学工业工程 2013 级本科生)

第二章 李政毅 (浙江大学社会学 2012 级本科生)

第三章 鄢龙 (浙江大学金融学 2012 级本科生)

第四章 陈曼珂 (浙江大学会计学 2012 级本科生)

第五章 付文鑫 (浙江大学机械工程及其自动化 2012 级本科生)

第六章 王依琪 (浙江大学环境工程 2012 级本科生)

校对人:

陈曼珂、阮海博、王依琪、鄢龙

统稿人:

鄢龙

版权顾问:

赵越(华东政法大学知识产权专业 2010 级本科生)

本译文版权归译者所有,仅供网友学习、参考,不得作商业用途,一经发现,版权人保

留追诉权利。网络使用请注明来源“浙江大学历史数据研究小组”.

联系人:

鄢龙,电话 18868111770,电子邮件:yourslongly@outlook.com ;

王依琪,电话 15967171025,电子邮件:wyq0717@gmail.com .