基于校園數(shù)據(jù)挖掘的一卡通管理系統(tǒng)決策支持的設(shè)計(jì)與開(kāi)發(fā)
文章出處:http://www.dipdnbxp.cn 作者:黃志成 人氣: 發(fā)表時(shí)間:2010年07月29日
校園信息化的不斷推進(jìn)和深入,更多的校園領(lǐng)域?qū)嵤?shù)字化管理。
當(dāng)前很多學(xué)校已啟用校園一卡通系統(tǒng), 但只是作為簡(jiǎn)單業(yè)務(wù)平臺(tái)應(yīng)用,沒(méi)有實(shí)現(xiàn)資源整合與分析, 不能給管理層帶來(lái)決策知識(shí)。為解決以上問(wèn)題,并結(jié)合本校實(shí)踐經(jīng)驗(yàn),提出整合校園一卡通資源,并使用數(shù)據(jù)挖掘技術(shù)構(gòu)建一卡通決策支持系統(tǒng)。
1 、研究?jī)?nèi)容
校園一卡通應(yīng)用主要在以下兩個(gè)大方面:消費(fèi)應(yīng)用方面,例如熱水消費(fèi)、智能電控繳費(fèi)、上機(jī)管理消費(fèi)、校園網(wǎng)繳費(fèi)、飯?zhí)孟M(fèi)、超市消費(fèi)、銀行轉(zhuǎn)帳等;教學(xué)教輔應(yīng)用方面,例如借還書(shū)管理、多媒體課室管理、課室電子課表管理、迎新離校管理、就業(yè)跟蹤管理等。各應(yīng)用系統(tǒng)的數(shù)據(jù)在業(yè)務(wù)上是獨(dú)立的,各應(yīng)用系統(tǒng)的數(shù)據(jù)就不能以一種統(tǒng)一集中的宏觀決策信息呈現(xiàn)。再則,一卡通系統(tǒng)的不斷應(yīng)用將會(huì)積累越來(lái)越大量的數(shù)據(jù),傳統(tǒng)操作型數(shù)據(jù)庫(kù)已不能處理這些海量歷史數(shù)據(jù),使用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行存儲(chǔ),并使用聯(lián)機(jī)分析處理技術(shù)進(jìn)行分析,顯得十分必要。聯(lián)機(jī)處理分析可以從多種角度、多種粒度、多個(gè)維度上分析微觀或宏觀信息,更好地輔助高層管理人員決策。同時(shí),在聯(lián)機(jī)分析處理基礎(chǔ)上,通過(guò)數(shù)據(jù)挖掘技術(shù),挖掘和發(fā)現(xiàn)數(shù)據(jù)隱藏關(guān)系和趨勢(shì),從而提前制定決策。
數(shù)據(jù)挖掘系統(tǒng)不僅僅作為一個(gè)知識(shí)呈現(xiàn)的工具,而更應(yīng)發(fā)揮其智能輔助決策的作用。數(shù)據(jù)挖掘系統(tǒng)還應(yīng)把發(fā)現(xiàn)的知識(shí), 提供給其他有需要的應(yīng)用系統(tǒng)共享,實(shí)現(xiàn)跨系統(tǒng)之間聯(lián)動(dòng),使決策更加智能化。
2 、系統(tǒng)架構(gòu)
本決策支持系統(tǒng)包含數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)與管理、OLAP 服務(wù)、前端工具與應(yīng)用、決策支持應(yīng)用5 個(gè)部分。數(shù)據(jù)源是整個(gè)決策支持系統(tǒng)的數(shù)據(jù)基礎(chǔ);數(shù)據(jù)的存儲(chǔ)與管理是整個(gè)決策支持系統(tǒng)最復(fù)雜部分。在現(xiàn)有數(shù)據(jù)源的基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行抽?。‥xtract)、轉(zhuǎn)換和清洗(Transform)、裝載(Load),并有效集成操作( 即ETL 處理),按照主題進(jìn)行重新組織,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù);聯(lián)機(jī)分析處理(OLAP)按照多維數(shù)據(jù)模型進(jìn)行再次重組,以支持用戶(hù)多角度、多層次的分析;前端工具主要包括各種數(shù)據(jù)分析工具、報(bào)表工具、查詢(xún)工具、數(shù)據(jù)挖掘工具與應(yīng)用;決策支持應(yīng)用綜合挖掘系統(tǒng)發(fā)現(xiàn)的知識(shí),綜合知識(shí)庫(kù)經(jīng)驗(yàn),輔助管理人員進(jìn)行決策,并且向其他應(yīng)用系統(tǒng)提供發(fā)掘的知識(shí),實(shí)現(xiàn)聯(lián)動(dòng)。系統(tǒng)采用SQL Server 2005 為數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘解決方案,總體結(jié)構(gòu)如圖1 所示。
圖1 決策支持總體架構(gòu)
3 、系統(tǒng)設(shè)計(jì)
3.1 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)[1]
數(shù)據(jù)倉(cāng)庫(kù)模型采用三層數(shù)據(jù)建模方式:概念模型設(shè)計(jì)、邏輯模型設(shè)計(jì)和物理模型設(shè)計(jì)。概念模型設(shè)計(jì)主要在原有數(shù)據(jù)庫(kù)的基礎(chǔ)上建立較為穩(wěn)固的概念模型,確定主題域及內(nèi)容,以及界定系統(tǒng)的邊界,數(shù)據(jù)圍繞主題進(jìn)行組織。邏輯模型設(shè)計(jì)階段要進(jìn)行的主要工作是分析主題域、確定當(dāng)前要裝載的主題,設(shè)計(jì)維度表和事實(shí)表,并確定維度的粒度層次和數(shù)據(jù)分割策略等。維度表和事實(shí)表組織采用雪花模型組織。物理模型設(shè)計(jì)主要確定數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)、存儲(chǔ)位置、容量、更新頻率和索引策略等。
數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)設(shè)計(jì)好后,ETL 過(guò)程首先從異構(gòu)數(shù)據(jù)源抽取數(shù)據(jù),然后按照數(shù)據(jù)倉(cāng)庫(kù)的維度表和事實(shí)表設(shè)計(jì)要求進(jìn)行轉(zhuǎn)換處理, 對(duì)所有臟數(shù)據(jù)進(jìn)行清洗。數(shù)據(jù)轉(zhuǎn)換與清洗按圖2 所示的W.H.Inmon 博士[2]提出的6 個(gè)步驟進(jìn)行。
圖2 ETL 過(guò)程的6 個(gè)步驟
數(shù)據(jù)經(jīng)過(guò)ETL 處理后裝入數(shù)據(jù)倉(cāng)庫(kù), 從建造面向某個(gè)部門(mén)(或某個(gè)應(yīng)用)特定的數(shù)據(jù)集市開(kāi)始,逐步擴(kuò)充數(shù)據(jù)倉(cāng)庫(kù)所包含的主題和范圍,最后形成一個(gè)能反映全貌的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建后,進(jìn)行聯(lián)機(jī)分析處理,通過(guò)靈活的多維瀏覽,結(jié)合上卷、下鉆等操作,宏觀或微觀上提取有用的信息,作為高層管理人員決策支持和依據(jù)。同時(shí),通過(guò)一系列的報(bào)表分析,更加直觀地顯示數(shù)據(jù)統(tǒng)計(jì)信息。
3.2 數(shù)據(jù)挖掘設(shè)計(jì)[3~4]
在數(shù)據(jù)倉(cāng)庫(kù)建成后,使用數(shù)據(jù)挖掘技術(shù)構(gòu)建相應(yīng)挖掘模型。每種挖掘類(lèi)型完成某種特定功能。關(guān)聯(lián)規(guī)則挖掘模型通過(guò)分析學(xué)生屬性、消費(fèi)金額、消費(fèi)時(shí)間、消費(fèi)地點(diǎn)等之間的關(guān)聯(lián), 來(lái)分析個(gè)體學(xué)生消費(fèi)行為;時(shí)序挖掘模型可以月為周期挖掘超市日消費(fèi)數(shù)據(jù)的序列,并作出預(yù)測(cè);聚類(lèi)挖掘模型可以用于總體飯?zhí)孟M(fèi)或用電消費(fèi)值的分類(lèi),以了解學(xué)生總體的消費(fèi)區(qū)間;決策樹(shù)挖掘模型通過(guò)分析學(xué)生專(zhuān)業(yè)、年級(jí)、住址、家庭情況等屬性對(duì)飯?zhí)孟M(fèi)或用電消費(fèi)的影響,以發(fā)現(xiàn)決定影響消費(fèi)的重要屬性,形成決策樹(shù)。
數(shù)據(jù)挖掘模型的數(shù)據(jù)源主要從數(shù)據(jù)倉(cāng)庫(kù)中抽取,但并不是數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)百分百滿(mǎn)足模型的要求。很多時(shí)候, 還要對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行二次處理,以適應(yīng)模型要求,裝入挖掘模型。SQL Server 2005 提供有前端展示工具,用于解釋模型數(shù)據(jù)。
3.3 系統(tǒng)聯(lián)動(dòng)設(shè)計(jì)
SQL Server 2005 提供有Data Mining Access ObjectsAPI 接口[5]來(lái)訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘模型。通過(guò)DMAO 接口, 可以方便地操作數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘模型, 從而實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘模型的監(jiān)控。配合知識(shí)庫(kù)經(jīng)驗(yàn),把發(fā)掘的知識(shí)作為預(yù)警信息分發(fā)到相應(yīng)的應(yīng)用系統(tǒng), 其他應(yīng)用系統(tǒng)收到預(yù)警信息后,作出相應(yīng)的聯(lián)動(dòng)處理[6]。
例如,關(guān)聯(lián)規(guī)則挖掘模型根據(jù)知識(shí)庫(kù)經(jīng)驗(yàn),把滿(mǎn)足知識(shí)庫(kù)閾值的飯?zhí)孟M(fèi)和學(xué)生宿舍用電消費(fèi)關(guān)聯(lián)規(guī)則,以預(yù)警的形式向?qū)W生助學(xué)貸款系統(tǒng)和學(xué)生勤工助學(xué)系統(tǒng)發(fā)送消息。例如,某學(xué)生申請(qǐng)了助學(xué)貸款,但通過(guò)挖掘其歷史消費(fèi)數(shù)據(jù),發(fā)現(xiàn)該學(xué)生經(jīng)常產(chǎn)生較大消費(fèi)金額,與其貧困的家庭生活狀況不太適應(yīng),可能有欺騙嫌疑,則數(shù)據(jù)挖掘模型向助學(xué)貸款管理系統(tǒng)產(chǎn)生一條預(yù)警信息,讓助學(xué)貸款系統(tǒng)作相應(yīng)處理??傮w結(jié)構(gòu)如圖所示。
圖3 數(shù)據(jù)挖掘與應(yīng)用系統(tǒng)間聯(lián)動(dòng)
數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)是一個(gè)系統(tǒng)工程,是一個(gè)不斷建立、發(fā)展、完善的過(guò)程。因此,決策支持系統(tǒng)的建設(shè)也是一個(gè)不斷發(fā)展的過(guò)程。
4 、結(jié)語(yǔ)
本文提出并設(shè)計(jì)了應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)的校園一卡通決策支持方案,對(duì)本校一卡通數(shù)據(jù)作了深入分析,得出了有用的決策信息,在一定程度上輔助管理人員進(jìn)行決策。數(shù)據(jù)挖掘系統(tǒng)與其他應(yīng)用系統(tǒng)之間的聯(lián)動(dòng)是一個(gè)有益的嘗試,并且是一個(gè)有相當(dāng)挑戰(zhàn)性的課題。本系統(tǒng)仍需不斷發(fā)展和改進(jìn)完善。