需要是發(fā)明之母。
近年來(lái),數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用, 并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。獲取的信息和知識(shí)可以廣泛用于各種應(yīng)用,包 括商務(wù)管理、生產(chǎn)控制、市場(chǎng)分析、工程設(shè)計(jì)和科學(xué)探索等。
數(shù)據(jù)挖掘是信息技術(shù)自然進(jìn)化的結(jié)果。進(jìn)化過(guò)程的見(jiàn)證是數(shù)據(jù)庫(kù)工業(yè)界開(kāi)發(fā)以下功能(圖 1.1): 數(shù)據(jù)收集和數(shù)據(jù)庫(kù)創(chuàng)建,數(shù)據(jù)管理(包括數(shù)據(jù)存儲(chǔ)和提取,數(shù)據(jù)庫(kù)事務(wù)處理),以及數(shù)據(jù)分析與理 解(涉及數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘)。例如,數(shù)據(jù)收集和數(shù)據(jù)庫(kù)創(chuàng)建機(jī)制的早期開(kāi)發(fā)已成為稍后數(shù)據(jù)存 儲(chǔ)和提取、查詢和事務(wù)處理有效機(jī)制開(kāi)發(fā)的必備基礎(chǔ)。隨著提供查詢和事務(wù)處理的大量數(shù)據(jù)庫(kù)系統(tǒng) 廣泛付諸實(shí)踐,數(shù)據(jù)分析和理解自然成為下一個(gè)目標(biāo)。
自 60 年代以來(lái),數(shù)據(jù)庫(kù)和信息技術(shù)已經(jīng)系統(tǒng)地從原始的文件處理進(jìn)化到復(fù)雜的、功能強(qiáng)大的數(shù) 據(jù)庫(kù)系統(tǒng)。自 70 年代以來(lái),數(shù)據(jù)庫(kù)系統(tǒng)的研究和開(kāi)發(fā)已經(jīng)從層次和網(wǎng)狀數(shù)據(jù)庫(kù)發(fā)展到開(kāi)發(fā)關(guān)系數(shù) 據(jù)庫(kù)系統(tǒng)(數(shù)據(jù)存放在關(guān)系表結(jié)構(gòu)中;見(jiàn) 1.3.1 小節(jié))、數(shù)據(jù)建模工具、索引和數(shù)據(jù)組織技術(shù)。此外, 用戶通過(guò)查詢語(yǔ)言、用戶界面、優(yōu)化的查詢處理和事務(wù)管理,可以方便、靈活地訪問(wèn)數(shù)據(jù)。聯(lián)機(jī)事 務(wù)處理(OLTP)將查詢看作只讀事務(wù),對(duì)于關(guān)系技術(shù)的發(fā)展和廣泛地將關(guān)系技術(shù)作為大量數(shù)據(jù)的有效 存儲(chǔ)、提取和管理的主要工具作出了重要貢獻(xiàn)。
自 80 年代中期以來(lái),數(shù)據(jù)庫(kù)技術(shù)的特點(diǎn)是廣泛接受關(guān)系技術(shù),研究和開(kāi)發(fā)新的、功能強(qiáng)大的數(shù) 據(jù)庫(kù)系統(tǒng)。這些使用了先進(jìn)的數(shù)據(jù)模型,如擴(kuò)充關(guān)系、面向?qū)ο蟆?duì)象-關(guān)系和演繹模型。包括空間 的、時(shí)間的、多媒體的、主動(dòng)的和科學(xué)的數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、辦公信息庫(kù)在內(nèi)的面向應(yīng)用的數(shù)據(jù)庫(kù)系 統(tǒng)百花齊放。涉及分布性、多樣性和數(shù)據(jù)共享問(wèn)題被廣泛研究。異種數(shù)據(jù)庫(kù)和基于 Internet 的全球 信息系統(tǒng),如 WWW 也已出現(xiàn),并成為信息工業(yè)的生力軍。
在過(guò)去的三十年中,計(jì)算機(jī)硬件穩(wěn)定的、令人吃驚的進(jìn)步導(dǎo)致了功能強(qiáng)大的計(jì)算機(jī)、數(shù)據(jù)收集
設(shè)備和存儲(chǔ)介質(zhì)的大量供應(yīng)。這些技術(shù)大大推動(dòng)了數(shù)據(jù)庫(kù)和信息產(chǎn)業(yè)的發(fā)展,使得大量數(shù)據(jù)庫(kù)和信
息存儲(chǔ)用于事務(wù)管理、信息提取和數(shù)據(jù)分析。
現(xiàn)在,數(shù)據(jù)可以存放在不同類(lèi)型的數(shù)據(jù)庫(kù)中。最近出現(xiàn)的一種數(shù)據(jù)庫(kù)結(jié)構(gòu)是數(shù)據(jù)倉(cāng)庫(kù)(1.3.2 小 節(jié))。這是一種多個(gè)異種數(shù)據(jù)源在單個(gè)站點(diǎn)以統(tǒng)一的模式組織的存儲(chǔ),以支持管理決策。數(shù)據(jù)倉(cāng)庫(kù) 技術(shù)包括數(shù)據(jù)清理、數(shù)據(jù)集成和聯(lián)機(jī)分析處理(OLAP)。OLAP 是一種分析技術(shù),具有匯總、合并 和聚集功能,以及從不同的角度觀察信息的能力。盡管 OLAP 工具支持多維分析和決策,對(duì)于深層 次的分析,如數(shù)據(jù)分類(lèi)、聚類(lèi)和數(shù)據(jù)隨時(shí)間變化的特征,仍然需要其它分析工具。