歡迎您訪問(wèn)鄭州興邦電子股份有限公司官方網(wǎng)站!
阿里巴巴誠(chéng)信通企業(yè)
全國(guó)咨詢熱線:40000-63966
興邦電子,中國(guó)水控機(jī)第一品牌

聯(lián)系興邦電子

全國(guó)咨詢熱線:40000-63966

售后:0371-55132951/55132952

工廠:河南省 鄭州市 高新區(qū)蓮花街電子電器產(chǎn)業(yè)園

校園一卡通系統(tǒng)挖掘?qū)W生異常行為淺析

文章出處:http://www.xianjuhong.com 作者:吳慧韞 王河堂 人氣: 發(fā)表時(shí)間:2011年07月09日

[文章內(nèi)容簡(jiǎn)介]:數(shù)字化校園及一卡通系統(tǒng)中所存儲(chǔ)的學(xué)生信息、一卡通數(shù)據(jù),成為有問(wèn)題學(xué)生的決策依據(jù),這僅是數(shù)據(jù)挖掘在數(shù)字化校園中的一個(gè)簡(jiǎn)單應(yīng)用,如何把數(shù)據(jù)挖掘技術(shù)和數(shù)字化校園更好地結(jié)合起來(lái),為高校的管理、建設(shè)決策提供更完備的支持是各大高校接下來(lái)面臨的一個(gè)現(xiàn)實(shí)問(wèn)題。

        當(dāng)前,在高校擴(kuò)招和學(xué)生隊(duì)伍總量不斷增大的背景下,高校學(xué)生異常行為的人數(shù)呈上升趨勢(shì),一些違法、違紀(jì)、違俗、違德等異常行為時(shí)有發(fā)生,而學(xué)生管理工作者也往往因?yàn)閷W(xué)生異常行為發(fā)生前的“苗頭”把握不準(zhǔn),常常處于當(dāng)“消防員”的被動(dòng)局面。

        如何利用現(xiàn)代化的手段對(duì)學(xué)生早期異常行為進(jìn)行檢測(cè)與控制,幫助管理者及時(shí)發(fā)現(xiàn)有問(wèn)題的學(xué)生,從而進(jìn)行有針對(duì)性的教育與幫助,具有十分重要的意義。

  一卡通數(shù)據(jù)來(lái)源

  近年來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)技術(shù)的日漸完善,國(guó)內(nèi)不少大學(xué)都相繼建立了校園一卡通系統(tǒng)。校園一卡通系統(tǒng)是數(shù)字化校園的重要組成部分,它為數(shù)字化校園的建設(shè)提供了全面的數(shù)據(jù)采集和良好的信息共享環(huán)境。

        該系統(tǒng)的開發(fā)建設(shè)將進(jìn)一步提高信息化管理水平,實(shí)現(xiàn)由面向計(jì)算機(jī)的管理轉(zhuǎn)變?yōu)槊嫦驍?shù)據(jù)管理。而目前大多數(shù)高校僅僅停留在使用一卡通系統(tǒng)的基礎(chǔ)上,殊不知可在此基礎(chǔ)上建立數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),實(shí)現(xiàn)對(duì)各部門生成的大量數(shù)據(jù)的科學(xué)提取、凈化、存儲(chǔ),從而使得信息系統(tǒng)滿足從業(yè)務(wù)處理到中層管理的控制,以及通過(guò)對(duì)各階段各部門的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析、挖掘,最終達(dá)到為領(lǐng)導(dǎo)決策提供支持的目的。

  校園一卡通系統(tǒng)一旦建成,它所采用的校園卡可替代現(xiàn)有的多種證件,包括:學(xué)生證、工作證、身份證、借書證、閱覽證、醫(yī)療證、會(huì)員證、就餐卡和錢包等。

  校園一卡通系統(tǒng)的主要數(shù)據(jù)來(lái)源:

  1.學(xué)生入校時(shí)填寫的各種登記表格、各學(xué)期注冊(cè)情況登記等相關(guān)文檔。

  2.學(xué)生在食堂就餐時(shí)的劃卡記錄。

  3.學(xué)生體檢情況、就醫(yī)情況的醫(yī)療記錄。

  4.圖書館學(xué)生借書情況登記、進(jìn)出圖書館閘機(jī)記錄等。

  5.校內(nèi)各種開放設(shè)施的劃卡消費(fèi)情況記錄,如公共機(jī)房、校體育設(shè)施、校賓館飯店。

  6.學(xué)生早鍛煉情況的記錄。

  7.學(xué)生通過(guò)門禁系統(tǒng)出入各建筑樓宇的記錄。

  這些數(shù)據(jù)均可以從數(shù)字化校園中的公共數(shù)據(jù)平臺(tái)及相關(guān)職能部門的信息管理系統(tǒng)中導(dǎo)出、匯總進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。

  利用數(shù)據(jù)挖掘異常行為

  數(shù)據(jù)的條件獨(dú)立性

  一般說(shuō)來(lái),數(shù)據(jù)的獨(dú)立性包括條件獨(dú)立性、因果獨(dú)立性與上下文獨(dú)立性。這些獨(dú)立性關(guān)系,都對(duì)數(shù)據(jù)分析具有重要的作用。

  條件獨(dú)立性是指在某些變量給定時(shí),其他部分結(jié)點(diǎn)相獨(dú)立,因此只要找出特定的給定變量,即可為決策提供足夠的支持,這稱為條件獨(dú)立性。因果獨(dú)立性是指變量之間的直接影響,但是并沒有對(duì)如何依賴作出約束。一些情況下,多個(gè)變量相互合作,對(duì)某變量共同產(chǎn)生影響。但是,很多情況下,各變量獨(dú)自對(duì)其他變量起作用,原因變量之間沒有合作,此時(shí)原因變量對(duì)結(jié)果變量的影響是因果獨(dú)立的,這稱為因果獨(dú)立性。

  通常每個(gè)變量都帶有條件概率標(biāo),在各原因變量狀態(tài)組合的每種取值情況下給出結(jié)果變量的每種取值的條件概率。條件概率表一方面需要的條件概率數(shù)目是原因變量結(jié)點(diǎn)數(shù)目的指數(shù)冪,另一方面無(wú)法捕捉原因變量概率分布的某些規(guī)律。這是第三種獨(dú)立關(guān)系,稱為上下文獨(dú)立性,通??梢圆捎脳l件概率樹的形式對(duì)上下文獨(dú)立關(guān)系進(jìn)行表示。本文以條件獨(dú)立性為例,對(duì)一卡通的數(shù)據(jù)信息進(jìn)行研究。

  一般地,若變量E和F在G給定(p(G)≠0)時(shí),滿足下列條件之一時(shí)是條件獨(dú)立的:

  1. P(E|F∩G)=P(E|G) 且 P(E|G)≠0,P(F|G)≠0

  2.P(E|G)=0 或 P(F|G)=0

  基于條件獨(dú)立性的數(shù)據(jù)分析

  為了提高有問(wèn)題學(xué)生認(rèn)定的準(zhǔn)確率與有效性,針對(duì)一卡通的相關(guān)數(shù)據(jù)流進(jìn)行以下幾個(gè)方面的分析:

  1.根據(jù)學(xué)生入學(xué)時(shí)填寫的各種記錄表初步了解其基本情況。

  2.通過(guò)分析長(zhǎng)期的學(xué)生的金融消費(fèi)數(shù)據(jù)以及樓宇身份認(rèn)證等數(shù)據(jù)計(jì)算月平均開銷、出入教師或圖書館的頻率、早鍛煉的積極性等,給出認(rèn)證偏低區(qū)間的實(shí)證結(jié)果。這可用來(lái)發(fā)現(xiàn)性格內(nèi)向但不愿向師長(zhǎng)和同學(xué)說(shuō)明情況的學(xué)生。

  3.根據(jù)校內(nèi)各種開放設(shè)施的劃卡消費(fèi)及認(rèn)證情況記錄計(jì)算月平均開銷及各種活動(dòng)的出勤情況。對(duì)于月開銷較大或出勤情況反常的學(xué)生應(yīng)深入了解情況,杜絕個(gè)別學(xué)生思想臨時(shí)出現(xiàn)緊急波動(dòng)的情況。

  4.根據(jù)體檢情況、就醫(yī)情況的醫(yī)療記錄關(guān)注有問(wèn)題學(xué)生的健康狀況。對(duì)于健康狀況較差的有問(wèn)題學(xué)生應(yīng)加大援助的力度。

  5.根據(jù)上機(jī)情況、圖書館借閱情況及考試成績(jī)了解有問(wèn)題學(xué)生的學(xué)習(xí)努力程度。

  本文針對(duì)上述的第二條中的數(shù)據(jù)進(jìn)行重點(diǎn)的數(shù)據(jù)挖掘,同時(shí)針對(duì)初步結(jié)果,再結(jié)合第一、三、四、五條進(jìn)行聚類分析,試圖尋找到消費(fèi)和認(rèn)證行為的某些相關(guān)性及條件獨(dú)立性,從而有助于學(xué)校及早發(fā)現(xiàn)思想有問(wèn)題的學(xué)生,為教師進(jìn)行思想有問(wèn)題學(xué)生決策提供更準(zhǔn)確的數(shù)據(jù)支持。

  一卡通信息的數(shù)據(jù)挖掘

  1.數(shù)據(jù)準(zhǔn)備:由于一卡通的流水?dāng)?shù)據(jù)中有許多龐大的價(jià)值較低的數(shù)據(jù),因此,現(xiàn)有的一卡通流水?dāng)?shù)據(jù)必須經(jīng)過(guò)數(shù)據(jù)的預(yù)處理后才能變成挖掘的對(duì)象。

  (1)將卡流水交易數(shù)據(jù)庫(kù)分割成小的數(shù)據(jù)表。我們將校園卡流水交易數(shù)據(jù)庫(kù)分成若干張細(xì)表,每個(gè)表為一個(gè)月的數(shù)據(jù),少則幾萬(wàn)(假期),多則上百萬(wàn)條記錄。

  (2)通過(guò)卡號(hào)將存在于卡流水交易數(shù)據(jù)庫(kù)和用戶資料表的數(shù)據(jù)搜索出來(lái),為數(shù)據(jù)挖掘提供數(shù)據(jù)源。

  (3)計(jì)算屬性:由于集成幾個(gè)數(shù)據(jù)庫(kù)而得到的數(shù)據(jù)依然反映的是每次刷卡交易的記錄,實(shí)際情況是消費(fèi)或認(rèn)證可能在某處的一個(gè)或多個(gè)POS機(jī)上完成。因此需根據(jù)刷卡的時(shí)間進(jìn)行分段求和,我們把一天分成三個(gè)時(shí)間段(0∶00~10∶00,10∶00~15∶00,15∶00~24∶00),在這三個(gè)時(shí)間段內(nèi)的刷卡記錄分別歸為早、中、晚三個(gè)階段,因此對(duì)于每一個(gè)卡號(hào)用戶必須分別按這三個(gè)時(shí)段統(tǒng)計(jì)出三個(gè)階段的刷卡頻率。

  本地學(xué)生周末通常不在學(xué)校,因此需要特殊處理;考試期間由于學(xué)業(yè)繁重,早鍛煉的頻率也將正常下降,此時(shí)也需要特殊處理。但為了分析結(jié)果的準(zhǔn)確性,不能清洗任何刷卡記錄。

  2.建立數(shù)據(jù)倉(cāng)庫(kù)

  采用Microsoft Analysis Services建立數(shù)據(jù)倉(cāng)庫(kù):首先新建數(shù)據(jù)倉(cāng)庫(kù)DSS,數(shù)據(jù)源自于上述經(jīng)過(guò)預(yù)處理的一卡通數(shù)據(jù)庫(kù);然后建立多維數(shù)據(jù)集,將所有數(shù)據(jù)按月劃分為多個(gè)數(shù)據(jù)表,每個(gè)數(shù)據(jù)表建立一個(gè)多維數(shù)據(jù)集,選擇刷卡金額或認(rèn)證次數(shù)為度量值,通過(guò)POS機(jī)具信息表、賬戶信息表、認(rèn)證信息表建立維度表。

  3.知識(shí)分析

  根據(jù)一個(gè)月的情況,計(jì)算出每個(gè)學(xué)生的每月學(xué)習(xí)日的刷卡次數(shù)(X)。

  這里我們定義以下幾個(gè)指標(biāo):每月學(xué)習(xí)日正餐消費(fèi)次數(shù)(X)、每月學(xué)習(xí)日正餐最低消費(fèi)次數(shù)參考值(M)、學(xué)習(xí)日正餐的一餐消費(fèi)額(Y)、學(xué)習(xí)日正餐的一餐消費(fèi)額參考值(N)。

  若滿足X≥M,以及Y<N,可認(rèn)定為是刷卡次數(shù)偏低的群體,這個(gè)群體組成一個(gè)集合。結(jié)合該群體的基本信息如生源地、性別、年齡、年級(jí)等分析其相關(guān)性。

  圖1 學(xué)生正餐消費(fèi)次數(shù)與消費(fèi)金額分布

  圖1是學(xué)生正餐消費(fèi)次數(shù)與消費(fèi)金額分布圖示例。X軸為某月份(2010年9月份)學(xué)生正餐消費(fèi)次數(shù)(除去每日早餐與周六、周日三餐),Y軸為該月正餐的一餐消費(fèi)均值(單位為分),圖1抽樣數(shù)據(jù)為2010級(jí)所有學(xué)生(4150名)。管理者可以粗略地觀察消費(fèi)均值集中分布區(qū)域,與消費(fèi)次數(shù)集中分布區(qū)域。如需要進(jìn)一步挖掘出低消費(fèi)人群,需要在下文中進(jìn)一步分析。

  M和N是人為給定的,需要校方管理人員結(jié)合實(shí)情與經(jīng)驗(yàn)給出,比如上例中,我們假定為M=15次,N=5.00元,則通過(guò)X≥15次,N<5.00元,可以找到圖1中相應(yīng)的消費(fèi)偏低的群體。

  以上僅是一種理想的狀況,在真實(shí)的分析中,有時(shí)需要根據(jù)不同的聚類來(lái)調(diào)整參數(shù)以得到不同的分析結(jié)果。比如:刷卡消費(fèi)偏低群體中性別比例與實(shí)際在校生的性別比差別很大時(shí),可能是學(xué)習(xí)日男女活動(dòng)的頻率差異參考值導(dǎo)致,因?yàn)槟信休^大差異,需要調(diào)整。我們抽樣的數(shù)據(jù)可以進(jìn)一步按性別進(jìn)行聚類分樣。

  最后,通過(guò)學(xué)生基本信息庫(kù)的關(guān)聯(lián)分析,我們可以進(jìn)一步得到:刷卡消費(fèi)偏低與家庭情況的相關(guān)性、刷卡次數(shù)偏低與校內(nèi)其他開放設(shè)施的劃卡消費(fèi)相關(guān)性、刷卡消費(fèi)偏低與圖書館自習(xí)次數(shù)的相關(guān)性、刷卡消費(fèi)偏低與就診次數(shù)的相關(guān)性等等,以此讓教師有更全面的判斷。例如對(duì)于刷卡消費(fèi)偏低同時(shí)圖書館自習(xí)次數(shù)較多成績(jī)優(yōu)秀的學(xué)生應(yīng)給予助學(xué)補(bǔ)助及勤工助學(xué)機(jī)會(huì)。

  對(duì)于刷卡次數(shù)異常的學(xué)生,說(shuō)明思想出現(xiàn)了波動(dòng),例如經(jīng)常不參加集體活動(dòng)或經(jīng)常在正常上課時(shí)間外出等。學(xué)校根據(jù)分析結(jié)果,找出這些行為異常的學(xué)生名單,便于校方進(jìn)行重點(diǎn)的思想教育活動(dòng)。

  數(shù)字化校園及一卡通系統(tǒng)中所存儲(chǔ)的學(xué)生信息、一卡通數(shù)據(jù),成為有問(wèn)題學(xué)生的決策依據(jù),這僅是數(shù)據(jù)挖掘在數(shù)字化校園中的一個(gè)簡(jiǎn)單應(yīng)用,如何把數(shù)據(jù)挖掘技術(shù)和數(shù)字化校園更好地結(jié)合起來(lái),為高校的管理、建設(shè)決策提供更完備的支持是各大高校接下來(lái)面臨的一個(gè)現(xiàn)實(shí)問(wèn)題。

本文關(guān)鍵詞:校園一卡通系統(tǒng)
回到頂部