lk2556
作者lk2556·2014-02-12 00:18
项目经理·cd

什么激发数据挖掘?为什么它是重要的?

字数 1610阅读 1946评论 0赞 0
      需要是发明之母。
      近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,
并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包
括商务管理、生产控制、市场分析、工程设计和科学探索等。
      数据挖掘是信息技术自然进化的结果。进化过程的见证是数据库工业界开发以下功能(图1.1):
数据收集和数据库创建,数据管理(包括数据存储和提取,数据库事务处理),以及数据分析与理
解(涉及数据仓库和数据挖掘)。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存
储和提取、查询和事务处理有效机制开发的必备基础。随着提供查询和事务处理的大量数据库系统
广泛付诸实践,数据分析和理解自然成为下一个目标。
      自 60 年代以来,数据库和信息技术已经系统地从原始的文件处理进化到复杂的、功能强大的数
据库系统。自70 年代以来,数据库系统的研究和开发已经从层次和网状数据库发展到开发关系数
据库系统(数据存放在关系表结构中;见1.3.1 小节)、数据建模工具、索引和数据组织技术。此外,
用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据。联机事
务处理(OLTP)将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效
存储、提取和管理的主要工具作出了重要贡献。
      自 80 年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数
据库系统。这些使用了先进的数据模型,如扩充关系、面向对象、对象-关系和演绎模型。包括空间
的、时间的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系
统百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。异种数据库和基于Internet 的全球
信息系统,如WWW 也已出现,并成为信息工业的生力军。
      在过去的三十年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集
设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展,使得大量数据库和信
息存储用于事务管理、信息提取和数据分析。
      现在,数据可以存放在不同类型的数据库中。最近出现的一种数据库结构是数据仓库(1.3.2 小
节)。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库
技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP 是一种分析技术,具有汇总、合并
和聚集功能,以及从不同的角度观察信息的能力。尽管OLAP 工具支持多维分析和决策,对于深层
次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。
      数据丰富,伴随着对强有力的数据分析工具的需求,被描述为“数据丰富,但信息贫乏”。快速
增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了
人的能力(图1.2)。结果,收集在大型数据库中的数据变成了“数据坟墓”——难得再访问的数据
档案。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直观,因为决
策者缺乏从海量数据中提取有价值知识的工具。此外,考虑当前的专家系统技术。通常,这种系统
依赖用户或领域专家人工地将知识输入知识库。不幸的是,这一过程常常有偏差和错误,并且耗时、
费用高。数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医
学研究作出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成
知识“金块”。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广