36大数据相关术语500例解释及中英文对照②

六十五:数据备份(Data Backup)

数据备份是把文件或数据库从原来存储的地方复制到其他地方的活动,其目的是为了在设备发生故障或发生其他威胁数据安全的灾害时保护数据,将数据遭受破坏的程度减到最小。取回原先备份的文件的过程称为恢复数据。

1.完全备份(Full Backup)。这种备份策略的优点是当发生数据丢失的灾难时.可以迅速恢复丢失的数据。不足之处是每天都对整个系统进行完全备份.造成备份的数据大量重复。对于业务繁忙、备份时间有限的用户,选择这种备份策略是不明智的。

2.增量备份(Incremental Backup)。先进行一次完全备份,在接下来的时间里只对当天新的或被修改过的数据进行备份。这种备份策略的优点是节省了磁盘空间,缩短了备份时间;缺点是当灾难发生时,数据的恢复比较麻烦.备份的可靠性也很差。

3.差分备份(Differential Backup)。先进行一次系统完全备份,在接下来的几天里.再将当天所有与备份不同的数据(新的或修改过的)备份到磁盘上。差分备份策略在避免了以上两种策略的缺陷的同时.又具有了其所有优点。首先,它无须每天都对系统做完全备份,因此所需的备份时间短,并节省了磁盘空间。其次,它的灾难恢复也很方便.一旦发生问题,用户只需使用完全备份和发生问题前一天的备份就可以将系统恢复。

六十七:贪心算法(Greedy algorithm)

贪心算法(又称贪婪算法)是指,在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,他所做出的仅是在某种意义上的局部最优解。

贪心算法不是对所有问题都能得到整体最优解,关键是贪心策略的选择,选择的贪心策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,只与当前状态有关。

六十八:分治法(Divide and Conquer)

在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础,如排序算法(快速排序,归并排序),傅立叶变换(快速傅立叶变换)。

六十九:动态规划(Dynamic programming)

动态规划(dynamic programming)是运筹学的一个分支,是求解决策过程(decision process)最优化的数学方法。20世纪50年代初美国数学家R.E.Bellman等人在研究多阶段决策过程(multistep decision process)的优化问题时,提出了著名的最优化原理(principle of optimality),把多阶段过程转化为一系列单阶段问题,利用各阶段之间的关系,逐个求解,创立了解决这类过程优化问题的新方法——动态规划。1957年出版了他的名著《Dynamic Programming》,这是该领域的第一本著作。

七十:排序算法

所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。排序算法,就是如何使得记录按照要求排列的方法。排序算法在很多领域得到相当地重视,尤其是在大量数据的处理方面。一个优秀的算法可以节省大量的资源。在各个领域中考虑到数据的各种限制和规范,要得到一个符合实际的优秀算法,得经过大量的推理和分析。

七十一:迭代法(Iterative Method)

迭代法也称辗转法,是一种不断用变量的旧值递推新值的过程,跟迭代法相对应的是直接法,即一次性解决问题。迭代法又分为精确迭代和近似迭代。“二分法”和“牛顿迭代法”属于近似迭代法。迭代算法是用计算机解决问题的一种基本方法。它利用计算机运算速度快、适合做重复性操作的特点,让计算机对一组指令(或一定步骤)进行重复执行,在每次执行这组指令(或这些步骤)时,都从变量的原值推出它的一个新值。

七十二:分枝界限法(Branch and Bound Method)

分枝定界法是一个用途十分广泛的算法,运用这种算法的技巧性很强,不同类型的问题解法也各不相同。分支定界法的基本思想是对有约束条件的最优化问题的所有可行解(数目有限)空间进行搜索。该算法在具体执行时,把全部可行的解空间不断分割为越来越小的子集(称为分支),并为每个子集内的解的值计算一个下界或上界(称为定界)。在每次分支后,对凡是界限超出已知可行解值那些子集不再做进一步分支。这样,解的许多子集(即搜索树上的许多结点)就可以不予考虑了,从而缩小了搜索范围。这一过程一直进行到找出可行解为止,该可行解的值不大于任何子集的界限。因此这种算法一般可以求得最优解。