数据整理层在数据挖掘技术中的实现在数据整理过程中,由于数据源数据内容往往交叉,所以需要按照互动性对观测数据进行分类。同时,由于原始数据中有噪声数据、冗余数据及缺失数据等问题,需要对数据进行解析、清洗、重构,并填补缺失数据以提高待挖掘数据的质量。经过分类后数据被大致分为两大类:结构化数据、半结构化与非结构化数据。对于结构化数据,需要对其进行数据过滤,剔除无效数据以提高分析效率;对于半结构化和非结构化数据,需要按照一定的标准处理成机器语言或索引。例如,对电力用户评论、电力系统运行日志资料等数据,就需要转换成加权逻辑或是模糊逻辑,并将不同的词语映射到标准值上,形成企业统一的语言。数据管理层在数据挖掘技术中的实现通过数据整理层,将经过整理和转化的数据存储到电力数据仓库(datawarehouse,DW)中,由于不同的电力数据库储存标准不同,因此需要整合转化后才能储存到数据仓库中,这里就需要对数据仓库进行重新设计。
经过重新设计的数据仓库,可以根据不同的主题设计不同的属性集,从而减少数据处理量;针对不同的主题数据库,可以采取粗糙集的属性归约算法删除数据中的冗余信息,得到精简的数据集;然后将决策树所表示的数据集表示为IF-THEN的分类规则知识,并储存在规则知识库中;如果有新数据样本需要处理,可以按照一定的规则算法进行识别匹配,从而进行综合评价。数据分析层在数据挖掘技术中的实现经过数据管理层处理的数据,可以通过联机分析处理技术(on-lineanalyticalprocessing,OLAP)来支撑复杂的决策分析过程,从而将数据转化成为辅助决策的信息。鉴于电力企业对数据实时性要求很高,可以将电力企业的数据分为实时性数据和非实时性数据进行分类处理。针对非实时性数据,可以考虑基于分布式文件系统(distributedfilesystem,DFS)和MapReduce技术的云计算来进行处理;也可以基于Hadoop,一种DFS和MapReduce的开源实现的云计算平台来进行数据处理。对于实时性数据,如电力负荷数据,一方面电力企业可以通过内存计算技术,将全部数据通过内存运行进行计算,这将是提高计算速度的有效办法;另外,可以在云平台前面设置若干前置机,用于实时接收数据。
数据展示层可视化企业目标通过电力营销决策支持系统(ElectricMarketingDecisionSupportSystem,EMDSS),运用良好的数据可视化设计,借助图形表达数据中的复杂信息,将数据挖掘的成果可视化,并将其运用到电力企业未来的发展规划中。将深度挖掘的数据可视化,可以使员工清楚地认识到电力企业未来的发展方向、评价决策制定的正确与否。结果是否符合实际,是决定整个系统挖掘技术是否成功的标准。展望基于我国的基本国情,电力企业具备非常好的从数据运营角度获取更大程度信息、资源、知识发现的基础。因此,电力企业完全可以立足大数据,以数据挖掘技术为基础,创造数据增值服务。智能电网的发展对于智能的理解,是指能够深刻分析收集到的材料、数据,以获得一个比较系统和全面的知识来解决特定的问题,从而满足商业战略目标的需要。智能面向电力行业,就是指电力行业发电、供电和用电的组织结构更加合理、运行程序更加优良、综合功效更加强大的智慧系统,即所谓的智能电网。智能电网基于数据和能源的同步传输,通过促进能源与信息技术的深度融合,已经逐渐形成了以能源、数据为运行体系支撑下的坚强可靠、友好互动、清洁环保的能源管理网络。