元数据管理 元数据(Metadata)是关于数据、操纵数据的进程以及应用程序的结构、意义的描述信息,其主要目标是提供数据资源的全面指南。元数据是描述数据仓库内数据结构和建立方法的数据,可将其按用途分为技术元数据(TechnicalMetadata)、业务元数据(BusinessMetada...
显示全部元数据管理
元数据(Metadata)是关于数据、操纵数据的进程以及应用程序的结构、意义的描述信息,其主要目标是提供数据资源的全面指南。元数据是描述数据仓库内数据结构和建立方法的数据,可将其按用途分为技术元数据(TechnicalMetadata)、业务元数据(BusinessMetadata)和内联映射元数据(Inter-MappingMetadata)。
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库的数据,主要包括数据仓库结构的描述(各个主题的定义、星形模式或雪花形模式的描述定义等)、ODS层的企业数据模型描述(以描述关系表及其关联关系为形式)、对数据稽核规则的定义、数据集市定义描述与装载描述(包括Cube的维度、层次、度量以及相应事实表、概要表的抽取规则)。另外,安全认证数据也作为元数据的一个重要部分进行管理。
业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。业务元数据包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据来源;系统所提供的分析方法及公式、报表信息。
内联映射元数据(Inter-MappingMetada-ta)实现技术元数据与业务元数据的层间映射,使得信息系统的概念模型与物理模型相互独立,使企业的概念、业务模型重组以及物理模型的变化相互透明。内联映射元数据从技术上为业务需求驱动、企业数据驱动的双驱动建设模型提供了重要保证,使信息系统的建设具有更高的灵活性与适应性。
专题数据挖掘
电信企业在长期信息化建设过程中积累了大量业务运营数据和业务管理数据,一般的企业数据量已超过TB级。市场的激烈竞争和管理的复杂性,决定了企业需要对客户关系、市场营销、产品工程、投资分析等方面的历史数据进行提取与分析,将数据转化为有用的信息。数据挖掘一般用于在海量数据集中发现间接、隐藏、新颖的规律,数据挖掘技术的优势在于,通过对数据集进行有限步骤的采集、整理、分析、推理、比较等分析手段,来揭露埋藏数据内部的有用信息。数据挖掘常用的算法包括:关联规则、聚类检测、决策树、神经网络、遗传算法、支持向量机等,在SAS、IM8等数据挖掘工具中支持的算法包括决策树、聚类分析、神经网络、回归分析等。
以电信经营数据分类与预测分析数据挖掘专题为例,分类包括客户分类、网元分类等;预测包括客户发展分析与预测、业务量发展分析与预测、客户流失分析与预测、营销管理与销售机会分析与预测、市场竞争分析与预测、大客户分析与预测等。采用回归分析业务量进行预测,以2003年7月1日到29日的通话次数历史数据,预测2003年7月30日的通话次数,结果为:2003年7月30日的预测通话次数为31715.84323,2003年7月30日的实际通话次数为30926;具有较高的预测准确率。
电信企业的数据仓库系统建设是一项复杂的系统工程,通过上述实例中的实施,用户形成了一套有自己特色的,涵盖企业客户、产品、账务等主题的数据模型,建立了企业级的数据仓库,并进行数据模型和数据仓库的运行验证,产生报表的速度、质量、数据分析结论都基本上达到数据仓库应有的效能,为电信企业的经营分析与决策提供了科学的依据。
相关链接
数据仓库的概念及特点
目前,数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。对于数据仓库的概念,我们可以从两个层次予以理解:一是数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;二是数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
根据数据仓库概念的含义,数据仓库拥有以下四个特点:
——面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
——集成。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
——相对稳定。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需定期加载、刷新。
——反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势作出定量分析和预测。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
数据仓库概念与传统的数据库有着本质的区别:数据仓库的特点是面向分析型数据处理、对多个异构的数据源进行有效集成、数据相对稳定并反映历史变化;数据库的特点是面向事务型数据处理、数据库之间相互独立且异构、数据实时更新且通常关心当前数据。
收起