Q
数字化自我(Quantified Self) – 使用应用程序跟踪用户一天的一举一动,从而更好地理解其相关的行为
查询(Query) – 查找某个问题答案的相关信息
R
再识别(Re-identification) – 将多个数据集合并在一起,从匿名化的数据中识别出个人信息
回归分析(Regression analysis) – 确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注:自变量,因变量,二者不可互换)
RFID – 射频识别; 这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据
实时数据(Real-time data) – 指在几毫秒内被创建、处理、存储、分析并显示的数据
推荐引擎(Recommendation engine) – 推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品
路径分析(Routing analysis) – 针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径,以达到降低燃料费用,提高效率的目的
S
半结构化数据(Semi-structured data) – 半结构化数据并不具有结构化数据严格的存储结构,但它可以使用标签或其他形式的标记方式以保证数据的层次结构
情感分析(Sentiment Analysis) – 通过算法分析出人们是如何看待某些话题
信号分析(Signal analysis) – 指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。
相似性搜索(Similarity searches) – 在数据库中查询最相似的对象,这里所说的数据对象可以是任意类型的数据
仿真分析(Simulation analysis) – 仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量,确保产品性能达到最优
智能网格(Smart grid) – 是指在能源网中使用传感器实时监控其运行状态,有助于提高效率
软件即服务(SaaS: Software-as-a-Service) – 基于Web的通过浏览器使用的一种应用软件
空间分析(Spatial analysis) – 空间分析法分析地理信息或拓扑信息这类空间数据,从中得出分布在地理空间中的数据的模式和规律
SQL – 在关系型数据库中,用于检索数据的一种编程语言
结构化数据(Structured data) -可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者一个文件,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。
T
T字节(TB: Terabytes) – 约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。
时序分析(Time series analysis) – 分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的,并且要取自相同时间间隔的连续时间点。
拓扑数据分析(Topological Data Analysis) – 拓扑数据分析主要关注三点:复合数据模型、集群的识别、以及数据的统计学意义。
交易数据(Transactional data) – 随时间变化的动态数据
透明性(Transparency) – 消费者想要知道他们的数据有什么作用、被作何处理,而组织机构则把这些信息都透明化了。
U
非结构化数据(Un-structured data) – 非结构化数据一般被认为是大量纯文本数据,其中还可能包含日期,数字和实例。
V
价值(Value) – (译者注:大数据4V特点之一) 所有可用的数据,能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。
可变性(Variability) – 也就是说,数据的含义总是在(快速)变化的。例如,一个词在相同的推文中可以有完全不同的意思。
多样(Variety) – (译者注:大数据4V特点之一) 数据总是以各种不同的形式呈现,如结构化数据,半结构化数据,非结构化数据,甚至还有复杂结构化数据
高速(Velocity) – (译者注:大数据4V特点之一) 在大数据时代,数据的创建、存储、分析、虚拟化都要求被高速处理。
真实性(Veracity) – 组织机构需要确保数据的真实性,才能保证数据分析的正确性。因此,真实性(Veracity)是指数据的正确性。
可视化(Visualization) – 只有正确的可视化,原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图,可视化指是的复杂的图表,图表中包含大量的数据信息,但可以被很容易地理解和阅读。
大量(Volume) – (译者注:大数据4V特点之一) 指数据量,范围从Megabytes至Brontobytes