数据压缩是以尽可能少的数码来表示信源所发出的信号,减少容纳给定的消息集合或数据采样集合的信号空间。这里讲的信号空间,就是被压缩的对象,是指某信号集合所占的时域、空域和频域。信号空间的这几种形式是相互关联的,存储空间的减少,意味着信号传输效率的提高,所占用带宽的节省。只要采取某种方法来减少某个信号空间,就能够压缩数据。
数据压缩是信息论中一个很重要的概念。从信息论的角度来看,信源编码的一个最主要的目的,就是要解决数据的压缩问题。这一点,反映在整个通信过程中。
五十七:数据恢复(Data Recovery)
数据恢复是指由于各种原因导致数据损失时,把保留在介质上的数据重新还原。即使数据被删除或硬盘出现故障,在介质没有严重受损的情况下,数据均有可能被无损恢复。
格式化或误删除引起的数据损失情况,大部分数据仍未损坏,只要用软件重新恢复连接环节,即可重读数据。如果硬盘因硬件损坏而无法访问时,只要更换发生故障的零件,即可恢复数据。但在介质严重受损或数据被覆盖时,数据将极难恢复。
五十八:数据集成(Data Integration)
数据集成就是将若干个分散的数据源中的数据,逻辑地或物理地集成到一个统一的数据集合中。数据集成的核心任务是要将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。集成是指维护数据源整体上的数据一致性、提高信息共享利用的效率;透明的方式是指用户无需关心如何实现对异构数据源数据的访问,只关心以何种方式访问何种数据。实现数据集成的系统称作数据集成系统(见下图),它为用户提供统一的数据源访问接口,执行用户对数据源的访问请求。
五十九:数据迁移(Data Migration)
数据迁移是数据系统整合中保证系统平滑升级和更新的关键部分。在信息化建设过程中,随着技术的发展,原有的信息系统不断被功能更强大的新系统所取代。从两层结构到三层结构,从Client/Server到Browser/Server。在新旧系统的切换过程中,必然要面临一个数据迁移的问题。
六十:数据元(Data Element)
数据元即数据元素,是通过定义、标识、表示和允许值等一系列属性描述的数据单元,在一定语境下,构建一个语义正确、独立且无歧义的特定概念语义的信息单元。数据元可理解为数据的基本单元,将若干具有相关性的数据元按一定次序组成一个整体结构,即数据模型。
六十一:数据冗余(Data Redundancy/Redundant Data)
数据冗余是指同一个数据在系统中多次重复出现。在文件系统中,由于文件之间没有联系,有时一个数据在多个文件中出现;而数据库系统则克服了文件系统的这种缺陷,但仍然存在数据冗余问题。消除数据冗余的目的是为了避免更新时可能出现的问题,以便保持数据的一致性。
六十二:数据抽取
数据抽取是从数据源中抽取数据的过程。数据抽取是指从源数据源系统抽取目的数据源系统需要的数据。实际应用中,数据源较多采用的是关系数据库。
六十三:网络数据抽取 (Web data mining)
网络数据抽取(Web data mining),是指从网络中取得大量的又利用价值的数字化信息。主要包括结构化数据抽取(Structured Data Extraction)、信息集成(Information integreation)和观点挖掘(Opinion mining)等。
结构化数据抽取(Structured Data Extraction)的目标是从Web页面中抽取结构化数据。这些结构化数据往往存储在后台数据库中,由网页按一定格式承载着展示给用户。例如论坛列表页面、Blog页面、搜索引擎结果页面等。
信息集成(Information integration)是针对结构化数据而言的。其目标是将从不同网站中抽取出的数据统一化后集成入库。其关键问题是如何从不同网站的数据表中识别出意义相同的数据并统一存储。
六十四:数据标准化(data standardization)
数据标准化是指研究、制定和推广应用统一的数据分类分级、记录格式及转换、编码等技术标准的过程。