36大数据相关术语500例解释及中英文对照②

七十七:支持向量机(Support Vector Machine)

在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。

SVM的主要思想可以概括为两点:⑴它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而 使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;

七十八:Floyd算法

Floyd算法又称为插点法,是一种用于寻找给定的加权图中多源点之间最短路径的算法。该算法名称以创始人之一、1978年图灵奖获得者、斯坦福大学计算机科学系教授罗伯特·弗洛伊德命名。

七十九:辛普森悖论(Simpson’s Paradox)

辛普森悖论亦有人译为辛普森诡论,为英国统计学家E.H.辛普森(E.H.Simpson)于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。

为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。

八十:熵

熵(entropy)指的是体系的混乱的程度,它在控制论、概率论、数论、天体物理、生命科学等领域都有重要应用,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。熵的概念由鲁道夫·克劳修斯(Rudolf Clausius)于1850年提出,并应用在热力学中。1948年,克劳德·艾尔伍德·香农(Claude Elwood Shannon)第一次将熵的概念引入信息论中。

八十一:甘特图

甘特图(Gantt chart)又叫横道图、条状图(Bar chart)。以提出者亨利·L·甘特先生的名字命名。

甘特图内在思想简单,即以图示的方式通过活动列表和时间刻度形象地表示出任何特定项目的活动顺序与持续时间。基本是一条线条图,横轴表示时间,纵轴表示活动(项目),线条表示在整个期间上计划和实际的活动完成情况。它直观地表明任务计划在什么时候进行,及实际进展与计划要求的对比。管理者由此可便利地弄清一项任务(项目)还剩下哪些工作要做,并可评估工作进度。

八十二:帕累托图

帕累托图(Pareto chart)是以意大利经济学家V.Pareto的名字而命名的。

帕累托图又叫排列图、主次图,是按照发生频率大小顺序绘制的直方图,表示有多少结果是由已确认类型或范畴的原因所造成。它是将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表。可以用来分析质量问题,确定产生质量问题的主要因素。

八十三:SWOT分析法

SWOT分析法又称为态势分析法,它是由旧金山大学的管理学教授于20世纪80年代初提出来的,SWOT四个英文字母分别代表:优势(Strength)、劣势(Weakness)、机会(Opportunity)、威胁(Threat)。

八十四:google pagerank

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由[1] 根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。

八十五:AdaBoost