前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了淺談多維數(shù)據(jù)挖掘和決策樹(shù)粗糙集理論范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
摘要:隨著信息技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,數(shù)據(jù)存儲(chǔ)被越來(lái)越多的企業(yè)使用,機(jī)構(gòu)和部門(mén),這需要更多的智能和數(shù)據(jù)挖掘的更準(zhǔn)確的方法。多維數(shù)據(jù)挖掘技術(shù),包括聯(lián)機(jī)分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,建立了日益完善的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和OLAP技術(shù),使得用戶(hù)可以更方便的選擇和分析。本文主要研究和分析了粗糙集的多維數(shù)據(jù)挖掘,包括多維數(shù)據(jù)集的概念,決策樹(shù)技術(shù)和粗糙集的集成,以及基于粗糙集數(shù)據(jù)挖掘的多維設(shè)計(jì)。
關(guān)鍵詞:多維數(shù)據(jù)挖掘;粗糙集;決策樹(shù)技術(shù)
1概念的多維數(shù)據(jù)和粗糙集
1.1基本的OLAP多維數(shù)據(jù)集的概念
多維數(shù)據(jù)庫(kù)和多維數(shù)據(jù)集的多維數(shù)據(jù)庫(kù)中提出的物流方式。多維是人們觀察數(shù)據(jù)的特定。層次是指部門(mén)描述在不同程度的數(shù)據(jù),例如,時(shí)間維度包括日,月,這樣的水平,年度和季度。成員的價(jià)值觀。數(shù)據(jù)單元數(shù)的多維數(shù)組的維數(shù)可以挑選出的成員,這些成員可以確定一個(gè)特定的值。度量,一般數(shù)值度量指標(biāo),用于描述數(shù)據(jù)。多維分析是一系列分析(切片,旋轉(zhuǎn)等)的數(shù)據(jù)(以多維的方式獲得)來(lái)觀察和控制更加全面而詳細(xì)的數(shù)據(jù),并把信息和物質(zhì)。數(shù)據(jù)層指的是多維數(shù)據(jù)集的一個(gè)子集,是由一個(gè)或幾個(gè)維度的維度的成員有限的任命。數(shù)據(jù)旋轉(zhuǎn)意味著改變尺寸的位置去觀察用戶(hù)從其他角度的多維數(shù)據(jù)。
1.2數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘的功能是發(fā)現(xiàn)蘊(yùn)含在其中的是很難找到的數(shù)據(jù)信息和技術(shù)。隨著人們?nèi)找嬖鲩L(zhǎng)的對(duì)信息的價(jià)值的知識(shí),數(shù)據(jù)挖掘是逐步發(fā)展。這種技術(shù)可以解決信息不完全的數(shù)據(jù)過(guò)多的問(wèn)題,建立關(guān)系模型和做出正確的預(yù)測(cè)。它具有傳統(tǒng)加工方法的特點(diǎn)和優(yōu)勢(shì),如處理大型數(shù)據(jù)庫(kù);隨機(jī)信息查詢(xún);有用的規(guī)則和合理的預(yù)測(cè)基于數(shù)據(jù)挖掘技術(shù);及時(shí)響應(yīng)和決心改變數(shù)據(jù),包括尋找規(guī)律和管理,維護(hù)。這些規(guī)則是不斷更新新的數(shù)據(jù)進(jìn)入,他們并不適合所有的數(shù)據(jù),因?yàn)閿?shù)據(jù)庫(kù)是非常大的,如果他們同意在一定范圍內(nèi)適用。
1.3數(shù)據(jù)挖掘過(guò)程
數(shù)據(jù)挖掘主要包括四個(gè)環(huán)節(jié):業(yè)務(wù)對(duì)象的確定和主題分析;數(shù)據(jù)預(yù)處理包括數(shù)據(jù)選擇,清洗,轉(zhuǎn)換和加載;對(duì)選定的知識(shí)水平直接相關(guān)的數(shù)據(jù)挖掘;驗(yàn)證結(jié)果分析得到新的,可用的和可理解的數(shù)據(jù);知識(shí)同化避免矛盾。
1.4粗糙集理論的基本知識(shí)
粗糙集理論已被應(yīng)用于許多領(lǐng)域(機(jī)器學(xué)習(xí),決策,流程分析,數(shù)據(jù)挖掘)。粗糙集理論是分類(lèi)成集嵌入知識(shí),并把它的一部分。在工業(yè)應(yīng)用中,一些知識(shí)庫(kù)可能是如此復(fù)雜和龐大,多余部分應(yīng)消除為了簡(jiǎn)化知識(shí)。簡(jiǎn)化的過(guò)程包括還原兩域。知識(shí)依賴(lài)也應(yīng)該控制。在信息系統(tǒng)中的數(shù)據(jù)(決策表)的智能系統(tǒng),可以以多種方式呈現(xiàn),如語(yǔ)言形式和數(shù)字形式。不準(zhǔn)確的數(shù)字形式會(huì)使獲得的信息不完全和不均勻,這個(gè)問(wèn)題需要通過(guò)知識(shí)表示方法解決。這表示一般的信息系統(tǒng)(信息表)在粗糙集理論。知道的知識(shí)表示系統(tǒng)的概念可以很容易地以表格的形式表示的系統(tǒng),即知識(shí)表示系統(tǒng)或信息系統(tǒng)的屬性值表。決策表,重要的和特殊的表,可以準(zhǔn)確地描述一些復(fù)雜的邏輯和簡(jiǎn)潔。這一決策表可以連接獨(dú)立的術(shù)語(yǔ)與幾個(gè)動(dòng)作直接得到明確表示。
1.5粗糙集理論的五大特征
第一,它能處理各種數(shù)據(jù),包括零碎的數(shù)據(jù)和數(shù)據(jù)的多變量;其次,它可以處理不精確的、模糊的數(shù)據(jù),包括確定性和非確定性;第三,它可以計(jì)算出知識(shí)和知識(shí)水平的不同粒度最小的表示;第四,它可以揭示出的管理模式與簡(jiǎn)單的概念;第五,它可以產(chǎn)生精確的規(guī)則易于檢查和驗(yàn)證,特別適用于自動(dòng)生成規(guī)則的智能控制。此外,粗糙集理論的最重要的優(yōu)點(diǎn)是它能提供的先驗(yàn)信息,除了數(shù)據(jù)集需要解決的問(wèn)題。當(dāng)然,這個(gè)理論不是萬(wàn)能的。
2決策樹(shù)
2.1概述決策樹(shù)算法
數(shù)據(jù)分類(lèi)是最常用的數(shù)據(jù)挖掘分析方法。具體地說(shuō),它是建立一個(gè)分類(lèi)函數(shù)或模型圖的數(shù)據(jù)記錄到預(yù)先假定類(lèi)和基于訓(xùn)練集的了解數(shù)據(jù)的預(yù)測(cè)。高高的可理解性和決策樹(shù)方法簡(jiǎn)單的計(jì)算成本,使得它越來(lái)越受歡迎。不過(guò),有一定的隨機(jī)性和不確定性這一方法。決策樹(shù)是一種用于計(jì)算凈現(xiàn)值的期望值大于零,通過(guò)決策樹(shù)和價(jià)值上的所有情況的概率是已知的前提下,其可行性概率決策分析方法。這是一個(gè)直觀的使用概率分析的圖解法。它被稱(chēng)為決策樹(shù)由于其決策機(jī)構(gòu)圖看起來(lái)像一棵樹(shù)。在機(jī)器學(xué)習(xí)中,決策樹(shù)是一種表示對(duì)象的屬性和對(duì)象值之間的映射關(guān)系預(yù)測(cè)模型。決策節(jié)點(diǎn)的幾種可能方案的選擇,即最終優(yōu)化方案。狀態(tài)節(jié)點(diǎn)代表的經(jīng)濟(jì)效應(yīng)(期望值)的替代方案。通過(guò)比較所有節(jié)點(diǎn)地位的經(jīng)濟(jì)效果,最佳的方案可以在一些決策標(biāo)準(zhǔn)的選擇。結(jié)果節(jié)點(diǎn)代表自然條件下各方案的損益值。評(píng)價(jià)指標(biāo)具體包括以下五個(gè)環(huán)節(jié):預(yù)測(cè)精度,分類(lèi)意義地模型來(lái)預(yù)測(cè)新的數(shù)據(jù)類(lèi)型的能力;簡(jiǎn)潔地描述,這一評(píng)價(jià)指標(biāo)的決策取決于理解水平和對(duì)問(wèn)題的描述方式;計(jì)算復(fù)雜,主要是指空間和實(shí)踐地復(fù)雜性因?yàn)樗麄兌际怯?jì)算成本密切相關(guān);模型的魯棒性,這種評(píng)價(jià)指標(biāo)是準(zhǔn)確預(yù)測(cè)的基礎(chǔ)數(shù)據(jù)分類(lèi)互補(bǔ)的能力,尤其是當(dāng)有噪聲或數(shù)據(jù)不完整的治療手段;可擴(kuò)展性,準(zhǔn)確性和能力建設(shè)(分類(lèi))模型數(shù)據(jù)庫(kù)非常大的。
2.2基于粗糙集和決策樹(shù)的數(shù)據(jù)挖掘算法設(shè)計(jì)的集成
2.2.1描述算法分類(lèi)是預(yù)測(cè)和評(píng)估新的案件類(lèi)型的相似性通過(guò)根據(jù)現(xiàn)有的類(lèi)型以掌握客觀事物存在的規(guī)則。分類(lèi)主要是把相同的元素的特性(包括一些基本特征,在這種特征的對(duì)象的值)在一起。粗糙集離不開(kāi)分類(lèi)機(jī)制的支持。分類(lèi)是一種等價(jià)關(guān)系,等價(jià)關(guān)系分類(lèi)是這個(gè)空間的分類(lèi)。決策樹(shù)是一種用實(shí)例來(lái)提高分類(lèi),歸納算法預(yù)測(cè)未知數(shù)據(jù)的處理和挖掘。粗糙集理論的數(shù)據(jù)預(yù)處理和對(duì)海量數(shù)據(jù)的處理和消除冗余屬性約簡(jiǎn)的生命比其他方法更容易。然而,粗糙集理論沒(méi)有交叉驗(yàn)證的特點(diǎn),所以它可能不是很準(zhǔn)確。決策樹(shù)方法具有高速,簡(jiǎn)單,易懂的分類(lèi)規(guī)則,但它是適用于數(shù)據(jù)集的屬性,可能會(huì)導(dǎo)致可怕的結(jié)構(gòu)分類(lèi)??傊?,粗糙集和決策樹(shù)相互受益,他們都是用來(lái)處理離散數(shù)據(jù)。所以他們可以集成來(lái)降低數(shù)據(jù)的粗糙集消除冗余,然后發(fā)現(xiàn)分類(lèi)規(guī)則的決策樹(shù)。
2.2.2算法程序基于粗糙集和決策樹(shù)相結(jié)合的數(shù)據(jù)挖掘算法的過(guò)程是逐步選擇的關(guān)鍵屬性,形成一個(gè)新的條件屬性集,并不斷重復(fù)這個(gè)過(guò)程直到D組趕上。
2.3比較算法
決策樹(shù),也可稱(chēng)為分類(lèi)解析,將通過(guò)遞歸集合訓(xùn)練直到所有的或大部分的記錄在每一個(gè)子集都是同一類(lèi)型。主要的決策樹(shù)算法目前使用的方法基于信息理論和最小的基尼指數(shù)法。通常,歸納學(xué)習(xí)系統(tǒng)將得到一個(gè)決策樹(shù)的應(yīng)用具有幾個(gè)優(yōu)點(diǎn):理解用戶(hù);生成決策樹(shù)和處理大規(guī)模訓(xùn)練集的能力的時(shí)間少;決策樹(shù),也可稱(chēng)為分類(lèi)解析,將通過(guò)遞歸集合訓(xùn)練直到所有的或大部分的記錄在每一個(gè)子集都是同一類(lèi)型。主要的決策樹(shù)算法目前使用的方法基于信息理論和最小的基尼指數(shù)法。通常,歸納學(xué)習(xí)系統(tǒng)將得到一個(gè)決策樹(shù)的應(yīng)用具有幾個(gè)優(yōu)點(diǎn):理解用戶(hù);生成決策樹(shù)和處理大規(guī)模訓(xùn)練集的能力的時(shí)間少;生成算法簡(jiǎn)單的檢查;明確規(guī)定順序決策方法確定案件的類(lèi)型;高精度。然而,有一些缺點(diǎn)和決策樹(shù)很容易被不相關(guān)的屬性的干擾。為了解決這一問(wèn)題,粗糙集技術(shù)要求。根據(jù)決策樹(shù)的評(píng)價(jià)標(biāo)準(zhǔn),這兩種技術(shù)的結(jié)合可以大大減少計(jì)算的復(fù)雜性和描述。
3基于粗糙集數(shù)據(jù)挖掘的多維設(shè)計(jì)
不斷提高數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和OLAP技術(shù),多維技術(shù)(包括聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘)創(chuàng)建。下面的過(guò)程是通過(guò)粗糙集理論和決策樹(shù)技術(shù)研究實(shí)現(xiàn)數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)。
3.1系統(tǒng)設(shè)計(jì)目標(biāo)
本系統(tǒng)是通過(guò)在SQL服務(wù)器分析服務(wù)器環(huán)境VB.NET開(kāi)發(fā)。應(yīng)用該系統(tǒng)可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的多維數(shù)據(jù)集,在這樣的環(huán)境中建立數(shù)據(jù)挖掘。在用戶(hù)選擇數(shù)據(jù)的維度和維度的層次結(jié)構(gòu),他們將得到不同的和全面的決策樹(shù),通過(guò)本系統(tǒng)的內(nèi)隱知識(shí)。此外,該系統(tǒng)還具有模型驗(yàn)證功能。據(jù)此,用戶(hù)可以選擇最合適的挖掘模型,得到高精度的信息。
3.2系統(tǒng)設(shè)計(jì)
該系統(tǒng)有6個(gè)數(shù)據(jù)挖掘:數(shù)據(jù)準(zhǔn)備;數(shù)據(jù)抽取;數(shù)據(jù)篩選;數(shù)據(jù)預(yù)處理;訓(xùn)練數(shù)據(jù)集的決策樹(shù)分析;通過(guò)檢查數(shù)據(jù)集分析結(jié)果檢驗(yàn)。數(shù)據(jù)準(zhǔn)備需要建立多維數(shù)據(jù)集在SQL服務(wù)器分析服務(wù)器環(huán)境分析。ADOMD技術(shù)用于數(shù)據(jù)選擇。在選擇正確的尺寸和維度的層次結(jié)構(gòu)和多維數(shù)據(jù)集的度量值,系統(tǒng)可生成MDX語(yǔ)句,得到相應(yīng)的數(shù)據(jù)集。數(shù)據(jù)抽取是隨機(jī)抽取數(shù)據(jù)的隨機(jī)函數(shù)生成分析數(shù)據(jù)表,在前面的步驟中產(chǎn)生的數(shù)據(jù)是不準(zhǔn)確的,足夠短暫。在這一環(huán)節(jié)產(chǎn)生的數(shù)據(jù)是未經(jīng)預(yù)處理的,所以其決策屬性是連續(xù)的,有相當(dāng)多的決策屬性。數(shù)據(jù)預(yù)處理是離散和減少訓(xùn)練集。確保所有的連續(xù)屬性離散的等頻率離散化的措施。然后減少離散數(shù)據(jù),并將數(shù)據(jù)集分成訓(xùn)練數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)集。進(jìn)行決策分析,對(duì)預(yù)處理后的數(shù)據(jù)集,包括建立數(shù)據(jù)挖掘模型,該模型加載選定的數(shù)據(jù)集和分析這些訓(xùn)練集的決策樹(shù)。
4結(jié)論
總之,基于粗糙集和決策樹(shù)相結(jié)合的基礎(chǔ)上,該系統(tǒng)可以通過(guò)對(duì)多維數(shù)據(jù)集的數(shù)據(jù)挖掘算法的數(shù)據(jù)分析產(chǎn)生更全面的知識(shí),以提高決策者的決策的準(zhǔn)確性。目前,多維數(shù)據(jù)挖掘是不完善的,需要改進(jìn)。例如,在知識(shí)約簡(jiǎn)過(guò)程注意是不均勻的;該算法只適用于離散屬性值;有很多算法(時(shí)序分析)可用于多維數(shù)據(jù)挖掘。
參考文獻(xiàn):
[2]高靜,徐章艷,宋威,等.一種新的基于粗糙集模型的決策樹(shù)算法[J].計(jì)算機(jī)工程,2008,34(3):9-11.
[4]羅秋瑾,陳世聯(lián).基于值約簡(jiǎn)和決策樹(shù)的最簡(jiǎn)規(guī)則提取算法[J].計(jì)算機(jī)應(yīng)用,2005,25(8):1853-1855.
[5]馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹(shù)的探討[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(1):185-185,214.
[6][德]M.巴斯蒂安.武森,高學(xué)東,譯.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:冶金工業(yè)出版社,2003.
[7]翟俊海,王熙照,張滄生.基于粗糙集技術(shù)的決策樹(shù)歸納[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(18):45-47.
[8]黃宇穎.基于粗糙集的決策樹(shù)算法在體檢系統(tǒng)中的研究[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(25):78—80.
作者:戴艷麗 單位:宿遷高等師范學(xué)校