數(shù)據(jù)分析師范文
時(shí)間:2023-03-19 19:52:32
導(dǎo)語:如何才能寫好一篇數(shù)據(jù)分析師,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
Keywords:big data of archive; data scientist; post requirements; post duties; quality demands
大數(shù)據(jù)時(shí)代,數(shù)據(jù)成為重要的戰(zhàn)略資源。在電子辦公深度與廣度不斷拓展的進(jìn)程中,人類對(duì)數(shù)據(jù)“精、準(zhǔn)、深”的要求日益突出。在基于數(shù)據(jù)決策、依賴數(shù)據(jù)管理等“以數(shù)據(jù)說話”的理念日益深入人心的大環(huán)境下,作為大數(shù)據(jù)的關(guān)鍵組成部分――檔案大數(shù)據(jù)的地位和作用也逐漸凸顯出來,它是大數(shù)據(jù)重要維度即歷史維度數(shù)據(jù)的核心,在各個(gè)領(lǐng)域都有很好的應(yīng)用前景。但是,應(yīng)該看到,受保密、檔案管理機(jī)制等因素的制約,檔案大數(shù)據(jù)的應(yīng)有價(jià)值還沒有得到充分發(fā)揮,檔案大數(shù)據(jù)與其他數(shù)據(jù)的整合還有一段很長(zhǎng)的路要走。為提升檔案資源建設(shè)與利用效益,對(duì)檔案大數(shù)據(jù)進(jìn)行分析,優(yōu)化檔案事業(yè)發(fā)展方案,更好地為領(lǐng)導(dǎo)決策和各領(lǐng)域工作的開展提供數(shù)據(jù)支撐,成為檔案工作的重要組成部分,這就需要檔案資源和檔案事業(yè)數(shù)據(jù)的鼎力支撐。雖然從國(guó)家主管部門到各級(jí)檔案館(室),都在開展檔案數(shù)據(jù)的統(tǒng)計(jì)和分析工作,但是,由于缺乏固定而專業(yè)的分析人員,從數(shù)據(jù)統(tǒng)計(jì)和分析的全面性、系統(tǒng)性、多維性、深入性和規(guī)范性等方面看,仍有待進(jìn)一步增強(qiáng)。在此種形勢(shì)下,檔案大數(shù)據(jù)作用的發(fā)揮和檔案事業(yè)發(fā)展的科學(xué)性很大程度上取決于檔案部門自身結(jié)構(gòu)的優(yōu)化和管理資源使用效益的提升。
1 檔案領(lǐng)域數(shù)據(jù)分析師崗位設(shè)置的意義
大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析在各領(lǐng)域有著十分重要的意義,各行業(yè)對(duì)數(shù)據(jù)分析師的需求與日俱增。與其他數(shù)據(jù)相比,檔案大數(shù)據(jù)很大一部分源于政府、軍隊(duì)等組織機(jī)構(gòu)的活動(dòng),具有權(quán)威性和憑證性等不可替代的價(jià)值特點(diǎn),雖然有著服務(wù)社會(huì)、服務(wù)百姓的義務(wù),但又必須確保國(guó)家利益不受侵害。因此,在行業(yè)內(nèi)部設(shè)立數(shù)據(jù)分析師崗位不僅是社會(huì)需求、也是檔案行業(yè)組織機(jī)構(gòu)結(jié)構(gòu)優(yōu)化的內(nèi)在需要。
1.1 優(yōu)化檔案資源體系建設(shè)的需要。從局部看,各級(jí)檔案部門都不同程度地存在著檔案收集不齊全、著錄不規(guī)范等問題。從整體看,各檔案部門之間存在著檔案資源交叉重復(fù)、數(shù)據(jù)異構(gòu)等問題。系統(tǒng)地設(shè)置統(tǒng)計(jì)項(xiàng)目,全面地對(duì)檔案資源建設(shè)現(xiàn)狀進(jìn)行分析,就可以準(zhǔn)確地發(fā)現(xiàn)檔案資源體系建設(shè)中的弱項(xiàng)和“瓶頸”。通信網(wǎng)絡(luò)和數(shù)字設(shè)備發(fā)展實(shí)踐告訴人們:當(dāng)今,電子文件的增長(zhǎng)幾乎達(dá)到了幾何級(jí)。例如,阿富漢戰(zhàn)爭(zhēng)期間,美軍為打擊一小股恐怖分子,其情報(bào)偵測(cè)、監(jiān)視系統(tǒng)24小時(shí)產(chǎn)生的數(shù)據(jù)量就達(dá)53TB。在如此大的數(shù)據(jù)量面前,如何分類電子文件、確定保管期限?網(wǎng)站、微博、通訊交友軟件等產(chǎn)生的數(shù)據(jù),哪些是需要作為電子文件保存的、又該如何保存?現(xiàn)有館(室)藏檔案資源,哪些方面需要豐富、哪些方面需要“瘦身”?如何從國(guó)家層面調(diào)控檔案資源體系建設(shè)?這些均有待于檔案領(lǐng)域數(shù)據(jù)分析師從“保存歷史、服務(wù)社會(huì)”視角、以可靠的數(shù)據(jù)和科學(xué)的分析給出建設(shè)性的解答。
1.2 分析和把握檔案利用規(guī)律的需要。檔案資源的利用是有規(guī)律可循的,掌握了這個(gè)規(guī)律對(duì)于提升檔案資源利用率是十分有益的。有的檔案資源,其利用具有擴(kuò)展效應(yīng),即一次成功利用可能會(huì)激發(fā)人數(shù)更多、范圍更廣、程度更深的利用,例如名人檔案、著名戰(zhàn)役檔案、歷史典故檔案等;有的檔案資源,其利用具有遞減效應(yīng),即一次成功利用之后可能很長(zhǎng)時(shí)間內(nèi)不會(huì)再有第二次利用,例如事關(guān)普通百姓的個(gè)人檔案。如果機(jī)械地根據(jù)其前段時(shí)間的關(guān)注熱點(diǎn)推薦檔案信息服務(wù)產(chǎn)品,則不僅達(dá)不到理想效果甚至還會(huì)引起用戶反感。依托數(shù)據(jù)分析師的科學(xué)分析,有助于檔案部門聚焦服務(wù)熱點(diǎn),提前做好檔案信息服務(wù)預(yù)案,根據(jù)用戶需求方向準(zhǔn)確提供檔案資源及其編研產(chǎn)品服務(wù)。
1.3 推動(dòng)檔案管理科學(xué)發(fā)展的需要。近年來,檔案事業(yè)出現(xiàn)了一派欣欣向榮的景象,尤其是檔案信息化建設(shè)、民生檔案的收集與管理等得到了長(zhǎng)足發(fā)展。但是,無論是硬件建設(shè)、還是軟件建設(shè),離精細(xì)式、集約化科學(xué)發(fā)展尚有一定距離,這就需要發(fā)揮檔案大數(shù)據(jù)的決策助手作用。對(duì)于不同學(xué)識(shí)背景、不同工作經(jīng)歷、不同職業(yè)精神的數(shù)據(jù)分析人員來說,同樣的統(tǒng)計(jì)數(shù)據(jù)得出的結(jié)論也是不盡相同的。設(shè)置固定的數(shù)據(jù)分析師崗位,則有益于提升數(shù)據(jù)統(tǒng)計(jì)和分析工作的科學(xué)性。通過數(shù)據(jù)分析師對(duì)檔案事業(yè)分門別類的統(tǒng)計(jì)和分析,可以有效地沖破經(jīng)驗(yàn)主義思維的“籬笆”,發(fā)現(xiàn)和把握新形勢(shì)下檔案管理工作的發(fā)展規(guī)律,更加統(tǒng)籌、協(xié)調(diào)和集約化地利用管理資源,構(gòu)建檔案事業(yè)發(fā)展的良好生態(tài)。
1.4 更好地服務(wù)社會(huì)發(fā)展的需要。如果說“讀史可以明智”只能模糊地形容檔案的作用,檔案大數(shù)據(jù)在金融、醫(yī)藥、衛(wèi)生、交通、安全和軍事等領(lǐng)域的成功應(yīng)用,已經(jīng)很好地量化和解釋了檔案大數(shù)據(jù)的價(jià)值。它是轉(zhuǎn)換思維方式、科學(xué)決策的直接支撐,是引領(lǐng)社會(huì)更快、更好發(fā)展的“催化劑”。設(shè)置檔案大數(shù)據(jù)分析師,無疑會(huì)有助于提升檔案信息服務(wù)于社會(huì)的廣度與深度。同時(shí),也有助于檔案部門把握契機(jī)創(chuàng)新服務(wù)社會(huì)的模式與內(nèi)容。
2 檔案領(lǐng)域數(shù)據(jù)分析師的崗位職責(zé)
檔案領(lǐng)域數(shù)據(jù)分析師,可以依據(jù)各級(jí)主管部門、檔案館(室)的編制和事業(yè)發(fā)展?fàn)顩r合理配置,其職責(zé)主要是從檔案資源建設(shè)、檔案利用、檔案事業(yè)綜合發(fā)展以及檔案文件內(nèi)容等方面進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析,并制定優(yōu)化方案和提出發(fā)展規(guī)劃建議。
2.1 檔案資源數(shù)據(jù)統(tǒng)計(jì)和分析。檔案資源數(shù)量統(tǒng)計(jì)和分析,主要是對(duì)館(室)藏或者主管范圍內(nèi)的檔案資源數(shù)量情況進(jìn)行統(tǒng)計(jì)和分析,包括對(duì)各全宗文件數(shù)量的分類統(tǒng)計(jì)和分析、同類全宗文件數(shù)量的對(duì)比分析、現(xiàn)行全宗文件產(chǎn)生量與歸檔量的對(duì)比分析、永久檔案與定期檔案數(shù)量的對(duì)比分析、不同類型載體檔案數(shù)量的對(duì)比分析、不同地域不同系統(tǒng)檔案移交數(shù)量對(duì)比分析、不同時(shí)期檔案數(shù)量對(duì)比分析、不同密級(jí)檔案數(shù)量對(duì)比分析等。
檔案資源質(zhì)量統(tǒng)計(jì)和分析。主要是對(duì)館(室)藏或者主管范圍內(nèi)的檔案質(zhì)量情況進(jìn)行統(tǒng)計(jì)和分析,包括檔案資源載體和信息完好度分析、檔案資源結(jié)構(gòu)分析、檔案著錄情況分析、檔案信息化建設(shè)情況分析、檔案目錄數(shù)據(jù)庫質(zhì)量分析、檔案全文數(shù)據(jù)質(zhì)量分析、檔案縮微情況分析、檔案修復(fù)情況分析等。
檔案資源優(yōu)化方案的制定?;陴^(室)功能,在科學(xué)分析的基礎(chǔ)上,提出一定范圍內(nèi)檔案資源體系建設(shè)優(yōu)化方案。主要是從檔案資源結(jié)構(gòu)和數(shù)量視角,有重點(diǎn)地對(duì)現(xiàn)有檔案資源進(jìn)行豐富、再鑒定工作。對(duì)明顯存在缺失的館(室)藏方向,分析檔案資源可能的分布點(diǎn),為收(征)集工作提供指導(dǎo)。具體分析檔案著錄、目錄數(shù)據(jù)庫構(gòu)建情形,提供檔案著錄尤其是電子文件著錄以及檔案目錄數(shù)據(jù)庫優(yōu)化方案。必要時(shí),對(duì)全文數(shù)據(jù)質(zhì)量進(jìn)行優(yōu)化。根據(jù)檔案完好度統(tǒng)計(jì),制定檔案修復(fù)計(jì)劃。
2.2 檔案利用數(shù)據(jù)統(tǒng)計(jì)和分析。檔案利用人群統(tǒng)計(jì)和分析。主要是對(duì)用戶基本情況進(jìn)行統(tǒng)計(jì)和分析,包括用戶職業(yè)、單位、年齡、學(xué)歷、檔案專業(yè)知識(shí)、興趣點(diǎn)、檔案意識(shí)等,從共性和個(gè)性等方面進(jìn)行分析和研究。
檔案利用目的、利用效益統(tǒng)計(jì)和分析。主要是對(duì)檔案利用目標(biāo)和用戶所獲得的收益進(jìn)行分析。從編史修志、工作查考、解決個(gè)人問題等方面對(duì)檔案利用目的作進(jìn)一步細(xì)分,分別進(jìn)行統(tǒng)計(jì)和分析,并關(guān)注其利用效益。同時(shí),分析一定時(shí)期內(nèi)得到用戶關(guān)注和利用的檔案資源,尤其是得到用戶重點(diǎn)關(guān)注或利用的檔案資源。
檔案檢索效率統(tǒng)計(jì)和分析。主要是對(duì)檔案目錄和全文的檢索效率進(jìn)行分析,與圖書情報(bào)資源等相關(guān)領(lǐng)域的檢索效率進(jìn)行對(duì)比,考慮其是否滿足用戶需要,有無改進(jìn)策略。密切跟蹤信息和知識(shí)領(lǐng)域的發(fā)展前沿,將先進(jìn)的技術(shù)和工具應(yīng)用到檔案檢索效率的提升上來,主要是對(duì)檔案信息組織和檢索模式提出創(chuàng)新方案。
檔案利用發(fā)展趨勢(shì)預(yù)測(cè)。由于社會(huì)和國(guó)家發(fā)展的需要,人們會(huì)在一定時(shí)期內(nèi)有重點(diǎn)地開展某個(gè)或某些方面的工作。數(shù)據(jù)分析師應(yīng)密切關(guān)注某個(gè)系統(tǒng)、國(guó)家乃至整個(gè)人類社會(huì)的發(fā)展形勢(shì),科學(xué)地統(tǒng)計(jì)和分析用戶的潛在需求,準(zhǔn)確地預(yù)測(cè)出檔案利用的重點(diǎn)方向,從而有針對(duì)性地做好檔案利用準(zhǔn)備工作。例如,編史修志工作往往在國(guó)家層面、某一系統(tǒng)或行業(yè)層面進(jìn)行統(tǒng)一行動(dòng),有的又會(huì)與編制體制調(diào)整、大型紀(jì)念活動(dòng)、大項(xiàng)任務(wù)開展等時(shí)機(jī)緊密結(jié)合;個(gè)人利用檔案,往往會(huì)與國(guó)家出臺(tái)某項(xiàng)政策、某一年齡段人群的成長(zhǎng)經(jīng)歷、某些文化活動(dòng)的開展等密切關(guān)聯(lián)。根據(jù)檔案利用歷史數(shù)據(jù)的分析、當(dāng)前社會(huì)熱點(diǎn)、用戶關(guān)注方向等,引導(dǎo)檔案信息資源的開發(fā),借助大數(shù)據(jù)工具,利用檔案信息資源整合平臺(tái),充分地進(jìn)行知識(shí)挖掘,高效地構(gòu)建專題數(shù)據(jù)庫,向用戶推送檔案信息資源。
2.3 檔案事業(yè)數(shù)據(jù)綜合統(tǒng)計(jì)和分析。檔案人才隊(duì)伍建設(shè)情況統(tǒng)計(jì)和分析。當(dāng)今時(shí)代,不僅要求檔案工作者具有較高的信息素養(yǎng),而且需要檔案工作者轉(zhuǎn)變理念,從知識(shí)管理視角出發(fā),為用戶提供問題解決方案。檔案領(lǐng)域數(shù)據(jù)分析師應(yīng)該對(duì)檔案工作者個(gè)體素質(zhì)和整個(gè)隊(duì)伍建設(shè)情況進(jìn)行統(tǒng)計(jì)和分析,要重點(diǎn)關(guān)注專業(yè)學(xué)歷、知識(shí)儲(chǔ)備、年齡結(jié)構(gòu)、管理能力、信息素養(yǎng)和職業(yè)精神等方面。
檔案事業(yè)組織領(lǐng)導(dǎo)形勢(shì)統(tǒng)計(jì)和分析。組織領(lǐng)導(dǎo)是檔案事業(yè)發(fā)展的關(guān)鍵。檔案領(lǐng)域數(shù)據(jù)分析師,應(yīng)可以系統(tǒng)地設(shè)置檔案事業(yè)各類統(tǒng)計(jì)表格,并根據(jù)形勢(shì)發(fā)展創(chuàng)新地設(shè)置統(tǒng)計(jì)項(xiàng)目和衡量指標(biāo)。不僅要分析檔案主管部門對(duì)檔案工作的組織領(lǐng)導(dǎo)情況,還要分析各級(jí)組織機(jī)構(gòu)對(duì)檔案事業(yè)的組織領(lǐng)導(dǎo)形勢(shì),包括工作規(guī)劃、經(jīng)費(fèi)投入和對(duì)檔案事業(yè)的關(guān)注度等。
檔案專業(yè)硬件、軟件建設(shè)情況統(tǒng)計(jì)和分析。在國(guó)家大力倡導(dǎo)檔案信息共享平臺(tái)建設(shè)的情形下,對(duì)行業(yè)內(nèi)硬件、軟件建設(shè)情況進(jìn)行統(tǒng)計(jì)和分析,要重點(diǎn)對(duì)檔案館(室)庫房建設(shè)、檔案安全體系建設(shè)、業(yè)務(wù)設(shè)備建設(shè)、檔案軟件系統(tǒng)建設(shè)等方面進(jìn)行統(tǒng)計(jì)和分析,避免低水平重復(fù)建設(shè)、提升管理資源利用效益。
制定檔案事業(yè)科學(xué)發(fā)展方案。檔案領(lǐng)域數(shù)據(jù)分析師要適應(yīng)大環(huán)境的需要,從檔案工作者個(gè)體出發(fā),提出人才培養(yǎng)和培訓(xùn)方案。從檔案人才隊(duì)伍整體建設(shè)出發(fā),合理提出編制調(diào)整、人才配備和人才發(fā)展等建議。在硬件建設(shè)方面,從檔案事業(yè)整體發(fā)展視角提供指導(dǎo)意見,合理配置各類設(shè)備設(shè)施。在應(yīng)用系統(tǒng)開發(fā)方面,針對(duì)技術(shù)發(fā)展形勢(shì)及時(shí)提供建議,為頒布軟件系統(tǒng)需求標(biāo)準(zhǔn)、協(xié)調(diào)資源做出貢獻(xiàn)。
2.4 檔案文件內(nèi)容大數(shù)據(jù)的分析和知識(shí)挖掘。無論是科技檔案、專門檔案,還是文書檔案,其利用都是圍繞著組織機(jī)構(gòu)(或個(gè)人)的業(yè)務(wù)行為開展的。因此,從業(yè)務(wù)層面對(duì)檔案內(nèi)容大數(shù)據(jù)進(jìn)行分析,是檔案大數(shù)據(jù)分析的重要內(nèi)容。根據(jù)各專業(yè)發(fā)展的需要,利用高效、可視化的圖形分析工具,對(duì)檔案文件內(nèi)容大數(shù)據(jù)進(jìn)行分析,挖掘出其中蘊(yùn)含的知識(shí)點(diǎn),以指導(dǎo)各領(lǐng)域業(yè)務(wù)工作的科學(xué)開展。
3 檔案領(lǐng)域數(shù)據(jù)分析師的基本素質(zhì)要求
數(shù)據(jù)分析師肩負(fù)著對(duì)檔案事業(yè)各類數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析的職責(zé),并且要根據(jù)分析結(jié)果制定出推動(dòng)各行業(yè)科學(xué)發(fā)展的、切實(shí)可行的方案,這就要求其具有高度的事業(yè)心和責(zé)任感,具備檔案、計(jì)算機(jī)、數(shù)學(xué)和管理等領(lǐng)域?qū)I(yè)知識(shí)和技能。
3.1 思維開闊,開拓精神強(qiáng)。無論是統(tǒng)計(jì)項(xiàng)目的設(shè)置、還是優(yōu)化方案的制定,都要求檔案領(lǐng)域數(shù)據(jù)分析師關(guān)注相關(guān)領(lǐng)域前沿發(fā)展形勢(shì),具有開闊的思維和較強(qiáng)的創(chuàng)新意識(shí),能夠敏銳地捕捉到檔案事業(yè)發(fā)展中的主要矛盾,打破舊的思維和工作運(yùn)行模式,為建立起切合實(shí)際的、具有前瞻性的檔案工作機(jī)制貢獻(xiàn)力量。
3.2 檔案專業(yè)功底扎實(shí)。檔案領(lǐng)域的數(shù)據(jù)分析,其出發(fā)點(diǎn)和落腳點(diǎn)均在檔案收集、管理和利用。因而,數(shù)據(jù)分析師應(yīng)具備系統(tǒng)的檔案專業(yè)理論知識(shí)。不僅要熟知檔案領(lǐng)域基本理論,而且要掌握領(lǐng)域前沿發(fā)展和理論創(chuàng)新情況,密切跟蹤行業(yè)發(fā)展實(shí)踐,能夠科學(xué)地設(shè)計(jì)好統(tǒng)計(jì)與衡量指標(biāo)、優(yōu)化和促進(jìn)檔案事業(yè)的綜合發(fā)展。
3.3 掌握計(jì)算機(jī)應(yīng)用專業(yè)知識(shí)。數(shù)據(jù)分析師經(jīng)常要與計(jì)算機(jī)網(wǎng)絡(luò)、多種軟件工具打交道,必須具備較高的信息素養(yǎng)和扎實(shí)的計(jì)算機(jī)應(yīng)用專業(yè)知識(shí)。檔案領(lǐng)域數(shù)據(jù)分析師,應(yīng)了解機(jī)器學(xué)習(xí)、人工智能和自然語言知識(shí),能夠結(jié)合領(lǐng)域?qū)嶋H,提出具體的統(tǒng)計(jì)、分析軟件系統(tǒng)需求;能夠熟練操作基本分析軟件,掌握大數(shù)據(jù)分析工具的使用(如R軟件、SPSS、MATLAB),準(zhǔn)確地采集、處理數(shù)據(jù),必要時(shí)進(jìn)行數(shù)據(jù)遷移;能夠在看似無關(guān)的數(shù)據(jù)中挖掘出蘊(yùn)含的關(guān)聯(lián)、發(fā)現(xiàn)檔案資源建設(shè)和檔案事業(yè)發(fā)展內(nèi)在規(guī)律。
3.4 熟悉管理學(xué)基本理論。無論是檔案資源管理、還是檔案事業(yè)的綜合管理,都離不開管理學(xué)基本理論的運(yùn)用。因此,檔案領(lǐng)域數(shù)據(jù)分析師應(yīng)熟悉現(xiàn)代管理學(xué)基本理論,具有嚴(yán)謹(jǐn)?shù)倪壿嬎季S能力和較好的文字表述能力,能夠運(yùn)用管理學(xué)前沿理論來指導(dǎo)檔案資源建設(shè)和檔案事業(yè)科學(xué)發(fā)展方案的制定。
篇2
關(guān)鍵詞數(shù)據(jù)挖掘 教學(xué)模式 合作式教學(xué)
中圖分類號(hào):G642文獻(xiàn)標(biāo)識(shí)碼:A
數(shù)據(jù)是無處不在的。當(dāng)飛速增長(zhǎng)的數(shù)據(jù)給我們帶來方便和便捷的同時(shí),也將我們推入浩瀚的數(shù)據(jù)海洋。廣泛用于商業(yè)和科學(xué)領(lǐng)域中的自動(dòng)數(shù)據(jù)收集設(shè)備每小時(shí)能夠產(chǎn)生幾TB規(guī)模的數(shù)據(jù),人們面臨的問題已經(jīng)不再是沒有充分的信息可選擇,而是如何有效利用如此龐大的數(shù)據(jù),并且找到蘊(yùn)含于這些信息之中的有價(jià)值的知識(shí)。由于數(shù)據(jù)分析師的匱乏,導(dǎo)致了很多領(lǐng)域出現(xiàn)了“數(shù)據(jù)豐富而知識(shí)匱乏”的現(xiàn)象,因而在信息計(jì)算科學(xué)、統(tǒng)計(jì)學(xué)等本科專業(yè)中開設(shè)數(shù)據(jù)分析課程是非常有必要的。
數(shù)據(jù)分析就是分析和處理數(shù)據(jù)的理論和方法,從數(shù)據(jù)中獲得有用的信息,其內(nèi)容豐富,方法眾多,最大的特點(diǎn)就是“讓數(shù)據(jù)說話”。該課程設(shè)計(jì)的分析方法眾多,如:方差分析、非參數(shù)統(tǒng)計(jì)、多元統(tǒng)計(jì)分析、判別聚類分析、時(shí)間序列分析等。由于計(jì)算機(jī)編程的復(fù)雜及數(shù)據(jù)的難以采集,這些分析方法在課程中大多處于理論教學(xué),使得本科階段的學(xué)生很難接受。隨著計(jì)算機(jī)及統(tǒng)計(jì)軟件(如SAS,SPSS)的普及,大大的減少了對(duì)程序能力的要求,隨著大量數(shù)據(jù)被數(shù)據(jù)采集者開放(如金融數(shù)據(jù)庫),使學(xué)生有可研究的對(duì)象,從而使得我們?cè)诖髮W(xué)本科階段開設(shè)數(shù)據(jù)分析課程成為可能,但需要合適的教學(xué)模式以適應(yīng)本科階段的教學(xué)。
由于數(shù)據(jù)分析的方法眾多,對(duì)不同學(xué)科的數(shù)據(jù)又會(huì)有其特殊的分析模型,在一門課中介紹全部是不可能的,透徹的介紹每種方法的原理更是不可能的?;趯W(xué)生的數(shù)學(xué)和計(jì)算機(jī)基礎(chǔ),從實(shí)際問題出發(fā),介紹了常用的方差分析,回歸分析,主成份分析、判別和聚類分析等方法,以方法綜合應(yīng)用為主,理論為輔,運(yùn)用SAS軟件來實(shí)現(xiàn)。在教學(xué)過程中采用了以下幾個(gè)模式,并達(dá)到了較好的教學(xué)效果。
1 選用SAS軟件為課程配套工具軟件
在數(shù)據(jù)分析課程的教學(xué)中,算法實(shí)現(xiàn)對(duì)于本科生來說難度太大,該階段的學(xué)生只學(xué)過C語言,很多分析方法如果用C語言來編程完成,難度將無法想象。我們要培養(yǎng)數(shù)據(jù)分析師,而不是高級(jí)程序員。隨著統(tǒng)計(jì)軟件在全球的流行,我們選取了SAS軟件作為工具,結(jié)合數(shù)據(jù)分析課程的教學(xué)。通過簡(jiǎn)單的編程即可實(shí)現(xiàn)所有數(shù)據(jù)分析方法,并且應(yīng)用多樣化,功能強(qiáng)大。但由于SAS入手較難,為了不影響數(shù)據(jù)挖掘可能的教學(xué)時(shí)間,我們?yōu)樵搶I(yè)學(xué)生準(zhǔn)備了兩周實(shí)踐課程,專門進(jìn)行SAS的教學(xué),取得了很好的效果。在數(shù)據(jù)分析課程中,每一種方法只需介紹基本思想,簡(jiǎn)單原理,計(jì)算步驟及SAS系統(tǒng)中對(duì)應(yīng)的模塊和程序說明。例如在介紹方差分析時(shí),同時(shí)介紹SAS系統(tǒng)中ANOVA和GLM過程,利用SAS軟件可迅速得到各種統(tǒng)計(jì)量,學(xué)生只需通過結(jié)果做相關(guān)的分析結(jié)論,簡(jiǎn)化繁瑣計(jì)算,節(jié)省課時(shí),提高了學(xué)生的學(xué)習(xí)興趣。
2 引入合作式教學(xué),加入討論課模式
數(shù)據(jù)分析課程當(dāng)中,理論知識(shí)的傳授和應(yīng)用能力的培養(yǎng)歸根結(jié)底是為了解決實(shí)際問題。各種分析算法,軟件都是幫助解決問題的一個(gè)工具。如何讓學(xué)生去面臨實(shí)際問題,并通過收集數(shù)據(jù),建立模型,求解模型從而解決問題,這才是我們希望學(xué)生真正得到的能力。所以,我們引入的合作式教學(xué)模式。每次討論課給定特定的專題,學(xué)生以組為單位收集相關(guān)資料數(shù)據(jù),并進(jìn)行問題分析,選定數(shù)據(jù)分析方法并建模求解,對(duì)得到的結(jié)果進(jìn)行相關(guān)的解釋,最后進(jìn)行合理性分析。如對(duì)某產(chǎn)品在各個(gè)超市的銷售量的分析,判斷地區(qū)是否對(duì)銷售量有影響。整個(gè)過程從灌輸式的教學(xué)模式轉(zhuǎn)變?yōu)橐龑?dǎo)式的教學(xué)模式,學(xué)生在討論課當(dāng)中占據(jù)主導(dǎo)地位。在分析問題得到結(jié)論后,以小組為單位進(jìn)行總結(jié)匯報(bào),由組外同學(xué)進(jìn)行點(diǎn)評(píng)討論,教師只做啟發(fā),指導(dǎo)工作。這種教學(xué)模式,不僅大大提高了學(xué)生的主動(dòng)性,調(diào)動(dòng)的學(xué)生思維,提高解決問題的實(shí)際能力,表達(dá)、溝通及團(tuán)隊(duì)合作能力,而且課堂氣氛活躍,參與面廣,討論中相互發(fā)現(xiàn)問題,糾正錯(cuò)誤。
3 適當(dāng)介紹方法產(chǎn)生的背景、原理、重點(diǎn)介紹方法的綜合應(yīng)用
適當(dāng)介紹方法產(chǎn)生背景和原理,可加深學(xué)生對(duì)分析方法的理解,深入了解方法的適用領(lǐng)域,所能解決的問題,與實(shí)際相結(jié)合,從而提高學(xué)生的學(xué)習(xí)興趣。但我們更應(yīng)該把分析方法綜合應(yīng)用作為首要教授的方面,即如何讓學(xué)生把所學(xué)的數(shù)據(jù)方法正確的應(yīng)用到實(shí)際問題當(dāng)中。我們應(yīng)該從以下幾個(gè)方面入手:
(1)介紹分析方法的基本背景和原理,講清應(yīng)用范圍。教學(xué)中,我們可簡(jiǎn)單介紹分析方法的基本思想和計(jì)算方法,但其具體能解決何種問題必須講清。如:聚類分析和判別分析兩類問題,都是用于事物的分類,但兩者的本質(zhì)是完全不一樣的。判別分析中的類別是已知的,并且類別的屬性或已知,或間接的給出(通過一組已經(jīng)分類的樣本),根據(jù)已知的知識(shí)對(duì)現(xiàn)有未知的樣本進(jìn)行分類。而聚類分析則體現(xiàn)的是“物以類聚”的思想,將相似性強(qiáng)的樣本歸為一類,其中類別的特點(diǎn),數(shù)量在聚類完成前是完全不知道的。如醫(yī)生看病判斷病情屬于分類問題,而對(duì)新的疫情進(jìn)行類別區(qū)別則是屬于聚類問題。利用實(shí)例使學(xué)生區(qū)分兩種方法所能解決的問題以及兩種方法所處理的數(shù)據(jù)的區(qū)別。
(2)融入數(shù)學(xué)建模思想,加強(qiáng)分析方法的應(yīng)用。每個(gè)分析方法從理論到實(shí)際應(yīng)用都需要一個(gè)過程。如果將一個(gè)實(shí)際問題轉(zhuǎn)變?yōu)橐粋€(gè)數(shù)學(xué)能解決的問題,就需要運(yùn)用數(shù)學(xué)建模的思想,建立數(shù)學(xué)模型解決實(shí)際的問題。如:一個(gè)城市的安全程度往往可以通過這個(gè)城市的犯罪率來體現(xiàn),但是犯罪種類之多使得我們無法通過某種犯罪次數(shù)來得出結(jié)論。這就使得我們要建立主成分分析模型,運(yùn)用主成份分析方法,將現(xiàn)有的多種犯罪數(shù)據(jù)進(jìn)行線性組合,得到幾個(gè)主要的犯罪指標(biāo)――總體犯罪率,重度犯罪比例等等。利用少量的指標(biāo)去體現(xiàn)原來多個(gè)指標(biāo)所體現(xiàn)的大部分信息,達(dá)到反應(yīng)總體狀況的效果。通過簡(jiǎn)單的、學(xué)生感興趣的例子,引入主成份模型的原理,介紹分析方法,使其感受到主成份分析的重要性和必要性。通過各個(gè)主成分依次求出,其反應(yīng)出的總體信息不斷加大,還可引入貢獻(xiàn)率和累計(jì)貢獻(xiàn)率得概念,使學(xué)生明確如何合理選擇主成分。比如當(dāng)前m個(gè)主成份的累計(jì)貢獻(xiàn)率達(dá)到85%的時(shí)候,就可認(rèn)為這m個(gè)主成份能夠反應(yīng)總體的絕大部分信息。重點(diǎn)介紹各個(gè)統(tǒng)計(jì)量在當(dāng)前模型中的含義,作用及對(duì)應(yīng)關(guān)系,使得學(xué)生能夠使用分析方法在實(shí)際中加以應(yīng)用。
(3)加強(qiáng)介紹方法的步驟、軟件實(shí)現(xiàn)及結(jié)果解釋。建立模型后如何利用軟件解決模型是學(xué)生必須掌握的技術(shù)。任何數(shù)據(jù)分析算法,都不太可能利用人工計(jì)算完成。由于我們選取了SAS作為分析軟件,所以在課堂中,介紹完原理和數(shù)學(xué)模型后,都會(huì)給出相關(guān)實(shí)現(xiàn)的步驟。SAS編程相對(duì)簡(jiǎn)單,分析過程大多是PROC步完成,其針對(duì)每種分析方法都會(huì)有相關(guān)的過程函數(shù),并且會(huì)有與算法對(duì)應(yīng)的輸入?yún)?shù)。學(xué)生只要模仿調(diào)用相關(guān)過程,并對(duì)結(jié)果進(jìn)行相關(guān)解釋即可實(shí)現(xiàn)相應(yīng)分析方法的應(yīng)用。比如利用SAS程序進(jìn)行回歸分析簡(jiǎn)單例子:
proc regdata= study.bclass;
modelweight = height /r clm cli dw;
run;
其中,模型參數(shù)r表示要輸出殘差分析,包括因變量的觀察值、由輸入數(shù)據(jù)和估計(jì)模型來計(jì)算的預(yù)測(cè)值、殘差值、標(biāo)準(zhǔn)誤差、學(xué)生化殘差、COOKD統(tǒng)計(jì)量等。通過計(jì)算可得到各個(gè)相關(guān)統(tǒng)計(jì)量的值,學(xué)生無需涉及計(jì)算過程,只需知道計(jì)算得到的各個(gè)統(tǒng)計(jì)量所代表的含義,并會(huì)對(duì)結(jié)果進(jìn)行解釋。只有學(xué)會(huì)對(duì)結(jié)果的解釋分析,才能解決真正的實(shí)際問題。
通過教學(xué)實(shí)踐,我認(rèn)為將統(tǒng)計(jì)軟件作為配套工具和數(shù)據(jù)分析方法結(jié)合教學(xué),可以起到相輔相成的作用,加入合作式教學(xué)模式,開展討論課不僅學(xué)生綜合能力得到了提高,而且學(xué)生團(tuán)隊(duì)合作意識(shí)得到了加強(qiáng)。同時(shí),教師必須擔(dān)任好自己的角色,要精心設(shè)計(jì)教學(xué)中的每個(gè)細(xì)節(jié),如分析方法原理的引入,討論專題的選擇等,這樣才能起到良好的教學(xué)效果。
注釋
紀(jì)希禹. 數(shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M]. 機(jī)械工業(yè)出版社,2009.
篇3
據(jù)國(guó)家郵政局?jǐn)?shù)據(jù),2013年“雙11”全天共產(chǎn)生訂單快遞物流量約1.8億件。對(duì)比2012年數(shù)據(jù),“三通一達(dá)”快遞公司流量全部翻倍,日處理量已過千萬,卻并未像往年出現(xiàn)“快遞爆倉”的現(xiàn)象,網(wǎng)購者普遍認(rèn)為配送效率較高。這其中,大數(shù)據(jù)應(yīng)用起到了絕對(duì)的重要作用。
一、大數(shù)據(jù)時(shí)代
最早提出“大數(shù)據(jù)(Big Data)”的是全球知名咨詢公司麥肯錫,他們認(rèn)為“大數(shù)據(jù)是下一輪創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的前沿”,“對(duì)于企業(yè)來說,海量電子數(shù)據(jù)的應(yīng)用將成為未來競(jìng)爭(zhēng)和增長(zhǎng)的基礎(chǔ)”。由于大數(shù)據(jù)具有規(guī)模性、多樣性、高速性、價(jià)值性的特點(diǎn),使得數(shù)據(jù)處理工具、處理方式,隨著互聯(lián)網(wǎng)與信息技術(shù)的進(jìn)步,得到逐步發(fā)展,同時(shí)大數(shù)據(jù)應(yīng)用也已經(jīng)深入到各行各業(yè),從科技到醫(yī)療、政府、教育、經(jīng)濟(jì)以及社會(huì)的其他各個(gè)領(lǐng)域。2013年5月召開的“京交會(huì)”上,申通快遞展示了其最新的“信息化智能平臺(tái)”。該平臺(tái)通過對(duì)數(shù)據(jù)的歸納、分類和整合,可以清楚地查看申通網(wǎng)絡(luò)任何一個(gè)網(wǎng)點(diǎn)的經(jīng)營(yíng)現(xiàn)狀和業(yè)務(wù)構(gòu)成等。而在2013年初,京東商城就已啟動(dòng)云計(jì)算研發(fā)基地,并成立“京東商城――中國(guó)人民大學(xué)”電子商務(wù)實(shí)驗(yàn)室,著力電子商務(wù)大數(shù)據(jù)的分析與合作。
二、大數(shù)據(jù)給物流專業(yè)教育帶來的機(jī)遇與挑戰(zhàn)
據(jù)規(guī)劃,菜鳥網(wǎng)絡(luò)將建成一張能支撐日均300億元網(wǎng)絡(luò)零售額的智能物流骨干網(wǎng)絡(luò),讓全國(guó)任何一個(gè)地區(qū)做到24小時(shí)內(nèi)送貨必達(dá)。這是大數(shù)據(jù)在物流領(lǐng)域的一次大應(yīng)用,這種應(yīng)用將會(huì)改變物流行業(yè)格局,勢(shì)必給各物流運(yùn)營(yíng)商帶來沖擊。所以,物流快遞行業(yè)必須及時(shí)提高企業(yè)競(jìng)爭(zhēng)力度,擴(kuò)大企業(yè)實(shí)力,進(jìn)而迎接激烈的挑戰(zhàn),而一些菜鳥網(wǎng)帶來的不僅僅是挑戰(zhàn),還蘊(yùn)含著有利商機(jī),同時(shí)創(chuàng)造大量的就業(yè)崗位,帶來大量的人才缺口。根據(jù)麥肯錫公司的預(yù)測(cè)報(bào)告,到2018年,僅僅美國(guó)可從事“深度分析研究”的大數(shù)據(jù)專業(yè)人才短缺就將達(dá)到14萬~19萬人之間。這些人才不但需要掌握著機(jī)器學(xué)習(xí)技術(shù)、統(tǒng)計(jì)或計(jì)算機(jī)科學(xué)技術(shù),而且還必須能夠真正知道如何將龐大的數(shù)據(jù)信息轉(zhuǎn)化為有意義的商業(yè)情報(bào)。大數(shù)據(jù)的價(jià)值在于從海量的數(shù)據(jù)中發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值。可喜的是,物流快遞行業(yè)正是一個(gè)產(chǎn)生大量數(shù)據(jù)的行業(yè),在物流快遞各個(gè)環(huán)節(jié)中都會(huì)產(chǎn)生海量的數(shù)據(jù)。應(yīng)用“大數(shù)據(jù)”技術(shù),通過對(duì)其中的數(shù)據(jù)進(jìn)行歸納、分類和整合,清楚地分析企業(yè)網(wǎng)絡(luò)任何一個(gè)網(wǎng)點(diǎn)的經(jīng)營(yíng)現(xiàn)狀和業(yè)務(wù)情況等。然而,傳統(tǒng)物流本科教育培養(yǎng)的是更偏向物流系統(tǒng)構(gòu)建、分析,物流系統(tǒng)運(yùn)營(yíng)管理等精英人才。大數(shù)據(jù)在物流行業(yè)的應(yīng)用產(chǎn)生的物流系統(tǒng)數(shù)據(jù)分析師對(duì)企業(yè)的作用將越來越大,這就對(duì)物流教育提出了更高的要求。只會(huì)IT技術(shù)的人才是不能解決物流行業(yè)數(shù)據(jù)處理問題的,大數(shù)據(jù)需要的是復(fù)合型的人才,需要將深厚的技術(shù)背景與所在行業(yè)和業(yè)務(wù)領(lǐng)域的需求相結(jié)合。物流教育機(jī)遇隨之而來。
三、我國(guó)物流專業(yè)教育現(xiàn)狀
雖然大數(shù)據(jù)給物流教育帶來了機(jī)遇,但當(dāng)前的物流教育模式,仍然不能勝任,因?yàn)槲覈?guó)推行物流教育20多年來,取得了一定的成就,但同時(shí)也存在一定的問題。(1)學(xué)科建設(shè)不夠完善。缺乏獨(dú)立的物流知識(shí)體系,很容易造成教學(xué)安排的重復(fù),導(dǎo)致教學(xué)體系的冗余狀態(tài)。(2)教育模式陳舊?,F(xiàn)階段的教育模式仍然是重知識(shí)傳授、輕能力培養(yǎng),填鴨式教育不利于學(xué)生創(chuàng)新能力培養(yǎng),分析問題、解決問題能力也欠佳。(3)教材雜,不能因材施教。存在相當(dāng)一部分教材知識(shí)出現(xiàn)了重疊問題,很少將物流實(shí)踐經(jīng)驗(yàn)技術(shù)總結(jié)指導(dǎo)來進(jìn)行教材編寫,教材質(zhì)量普遍較低。(4)課程結(jié)業(yè)考察模式陳舊。學(xué)生只學(xué)習(xí)教材,容易形成期末突擊學(xué)習(xí),考完就忘的局面。(5)教學(xué)配套實(shí)驗(yàn)室建設(shè)落后。即使建設(shè)了相應(yīng)的物流實(shí)驗(yàn)室,但用于教學(xué)和科研的較少,擁有物流省級(jí)以上實(shí)驗(yàn)室的更少。(6)學(xué)術(shù)與實(shí)踐能力并重的物流教師缺乏。由于當(dāng)前教師都需要博士學(xué)位,因此大量年輕教師都缺乏企業(yè)實(shí)踐,對(duì)學(xué)生培養(yǎng)不利。(7)案例、互動(dòng)教學(xué)少。物流是實(shí)踐行業(yè),教育應(yīng)輔以大量案例、互動(dòng)教學(xué),但當(dāng)前案例教學(xué)大都較陳舊,國(guó)外案例不大符合國(guó)內(nèi)實(shí)際情況,更多的案例沒有能將問題分析透,不能讓學(xué)生在實(shí)際中學(xué)習(xí)成長(zhǎng)。
四、大數(shù)據(jù)背景下物流專業(yè)教育模式
在當(dāng)前大數(shù)據(jù)發(fā)展如火如荼的背景下,大數(shù)據(jù)分析處理能力對(duì)物流專業(yè)教育提出了更高的要求。物流是實(shí)踐性很強(qiáng)的行業(yè),物流教育也應(yīng)立足實(shí)踐。大數(shù)據(jù)帶來的是思維的轉(zhuǎn)變,強(qiáng)調(diào)的是創(chuàng)新,是新發(fā)明、新服務(wù)的源泉。因此物流教育應(yīng)立足實(shí)踐并積極創(chuàng)新,其教育模式可適當(dāng)借鑒國(guó)外教育模式。德國(guó)模式:德國(guó)從人才培養(yǎng)目標(biāo)、課程體系、師資隊(duì)伍和實(shí)踐環(huán)節(jié)的設(shè)計(jì)上都以應(yīng)用型人才培養(yǎng)為基礎(chǔ),對(duì)于培養(yǎng)目標(biāo)而言,培養(yǎng)的人才不僅有系統(tǒng)的科學(xué)技術(shù)知識(shí),而且具有超強(qiáng)的實(shí)際應(yīng)用能力,學(xué)生畢業(yè)后能很快勝任大中型企業(yè)的技術(shù)骨干或小型企業(yè)的技術(shù)骨干等工作,其課程體系也與企業(yè)實(shí)際應(yīng)用緊緊銜接,師資隊(duì)伍也以雙師型(即雙軌制)為主,實(shí)踐環(huán)節(jié)考核也有嚴(yán)格要求。
英國(guó)“工讀交替,實(shí)踐教學(xué)”模式:學(xué)生先到企業(yè)學(xué)習(xí),了解企業(yè)的需要和自己需要的理論知識(shí)體系,再回到學(xué)校進(jìn)行專業(yè)知識(shí)技術(shù)的學(xué)習(xí),之后再回到企業(yè)進(jìn)行實(shí)踐。通過這種形式讓學(xué)生充分將理論知識(shí)與實(shí)踐技能相結(jié)合,畢業(yè)時(shí)同時(shí)具備較好的系統(tǒng)知識(shí)與實(shí)踐技能。高校的培養(yǎng)目標(biāo)、課程設(shè)置等方面均以應(yīng)用為主,注重產(chǎn)學(xué)結(jié)合。多數(shù)高校與當(dāng)?shù)氐钠髽I(yè)形成互利合作機(jī)制,系科設(shè)置和課程設(shè)置按社會(huì)需要調(diào)整,學(xué)校招生人數(shù)大都以企事業(yè)單位的需要和勞動(dòng)市場(chǎng)的人才預(yù)測(cè)來確定。這種人才培養(yǎng)模式不僅為社會(huì)培養(yǎng)大量應(yīng)用型工程師,也大大提高了就業(yè)率。美國(guó)“生計(jì)教育”模式:高校的專業(yè)設(shè)置、課程設(shè)置與社會(huì)職業(yè)需求緊密關(guān)聯(lián),使高校教育與社會(huì)職業(yè)高度相關(guān),高校本科應(yīng)用型人才培養(yǎng)強(qiáng)調(diào)學(xué)生在接受教育的同時(shí)接受專業(yè)知識(shí)與技能的培訓(xùn)。人才培養(yǎng)的特點(diǎn)可以概括為:教學(xué)方式靈活多樣、企業(yè)高校合作培養(yǎng)、政府企業(yè)支持培養(yǎng)、系統(tǒng)知識(shí)與專業(yè)技能同時(shí)培養(yǎng)。這三種模式總結(jié)起來,就是高校教育注重社會(huì)需求,按崗位需要來設(shè)置知識(shí)技能教育體系,注重實(shí)踐,高校與企業(yè)聯(lián)合培養(yǎng)學(xué)生,其畢業(yè)后反哺企業(yè),提高實(shí)踐能力與行業(yè)熱情。
因此,在當(dāng)前形勢(shì)下,物流教育模式可適當(dāng)做出調(diào)整,可從以下幾個(gè)方面進(jìn)行轉(zhuǎn)變:
1.明確就業(yè)定位。全國(guó)各高校的物流專業(yè)可根據(jù)自身專業(yè)優(yōu)勢(shì)進(jìn)行物流人才教育細(xì)分,不必全國(guó)都培養(yǎng)大致相同的人才。各高校有各自的優(yōu)勢(shì)專業(yè),完全可以形成自己的獨(dú)特優(yōu)勢(shì),進(jìn)行差異化物流教育。根據(jù)定位來設(shè)置自己的培養(yǎng)計(jì)劃,按需培養(yǎng)。
2.加強(qiáng)校企合作。各高??筛鶕?jù)自己情況,加強(qiáng)與企業(yè)的合作,細(xì)分行業(yè),形成以行業(yè)為基礎(chǔ)的物流專業(yè)特色。同濟(jì)大學(xué)物流工程專業(yè)至今已與建材行業(yè)、快遞行業(yè)、快消品行業(yè)、電子產(chǎn)品行業(yè)等多個(gè)行業(yè)建立產(chǎn)學(xué)研合作基地,通過行業(yè)滲透積累科研經(jīng)驗(yàn),反哺教學(xué),培養(yǎng)卓越工程師。
3.加強(qiáng)學(xué)生實(shí)踐。在建立的產(chǎn)學(xué)研基地中,充分磨合企業(yè)需求,為企業(yè)提供科研保障的同時(shí),加大學(xué)生實(shí)踐力度,強(qiáng)調(diào)學(xué)生在實(shí)踐中學(xué)習(xí),在實(shí)踐中成長(zhǎng)。大數(shù)據(jù)教育靠學(xué)校自身是無法完成的,只有將學(xué)生投入到企業(yè)實(shí)踐中,從企業(yè)獲取數(shù)據(jù),應(yīng)用所學(xué)知識(shí)技能進(jìn)行挖掘分析,為企業(yè)提供決策支持,才是多贏。為此,建議設(shè)置兩個(gè)實(shí)習(xí)期:大一暑假一至兩個(gè)月的專業(yè)實(shí)習(xí),了解企業(yè)需求和學(xué)生自身所需學(xué)習(xí)的知識(shí)體系;第二個(gè)時(shí)期為大四上學(xué)期,學(xué)生學(xué)習(xí)后再實(shí)踐,要求能為企業(yè)解決一些具體問題,如大數(shù)據(jù)分析、網(wǎng)絡(luò)優(yōu)化、倉庫布局及運(yùn)作優(yōu)化等。同濟(jì)大學(xué)物流工程專業(yè)當(dāng)前已設(shè)置6周的企業(yè)實(shí)習(xí),全身心投入到具體實(shí)踐當(dāng)中。
4.開展校企合作的科研訓(xùn)練計(jì)劃。建立如全國(guó)物流大學(xué)生設(shè)計(jì)大賽類似的訓(xùn)練計(jì)劃,由企業(yè)根據(jù)自身情況題目,由學(xué)生組隊(duì)參賽,培養(yǎng)協(xié)作意識(shí)、動(dòng)手能力與創(chuàng)新意識(shí),解決實(shí)際問題,同時(shí)企業(yè)也能獲得一些“意想不到”的創(chuàng)新想法。學(xué)生的畢業(yè)論文或畢業(yè)設(shè)計(jì)盡可能安排在企業(yè)進(jìn)行,雙導(dǎo)師的培養(yǎng)模式更能讓學(xué)生快速成長(zhǎng)。同濟(jì)大學(xué)物流工程專業(yè)的某件畢業(yè)論文,將企業(yè)的倉庫效率提高30%。
5.鼓勵(lì)教師到企業(yè)踐習(xí)。君欲善其事,必先利其器。只有當(dāng)教師擁有足夠的行業(yè)經(jīng)驗(yàn)的時(shí)候,才能更好地減少填鴨式教育,讓課堂更生動(dòng),提高教學(xué)效率,也能為企業(yè)解決更多的科研問題,形成緊密的校企合作關(guān)系,為學(xué)生教育提供更好的資源保障。
6.加強(qiáng)實(shí)驗(yàn)室、專業(yè)圖書館建設(shè)。高水平實(shí)驗(yàn)室是科研和教學(xué)的必要手段。實(shí)體仿真實(shí)驗(yàn)器材和軟件環(huán)境,可以讓學(xué)生合理地構(gòu)建自己的物流網(wǎng)絡(luò),充分發(fā)揮想象力,培養(yǎng)創(chuàng)新能力,也是作為大數(shù)據(jù)分析的必備硬件。專業(yè)圖書館建設(shè)也能彰顯專業(yè)優(yōu)勢(shì),提供科研教學(xué)便利。
篇4
關(guān)鍵詞:房地產(chǎn)產(chǎn)業(yè);數(shù)據(jù)挖掘;技術(shù);市場(chǎng)
中圖分類號(hào):F293.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1001-828X(2013)10-0-02
一、引言
近幾十年來,隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,很多的新型產(chǎn)業(yè)在不斷地發(fā)展當(dāng)中,在這其中,發(fā)展最為迅猛的是房地產(chǎn)產(chǎn)業(yè)。目前我國(guó)的房地產(chǎn)行業(yè)已然逐步變成了能對(duì)我國(guó)社會(huì)經(jīng)濟(jì)發(fā)展產(chǎn)生重大影響的產(chǎn)業(yè)部門,房地產(chǎn)產(chǎn)業(yè)給企業(yè)家?guī)砹司薮蟮慕?jīng)濟(jì)效益,增加了國(guó)民經(jīng)濟(jì)的發(fā)展的收入,并在經(jīng)濟(jì)發(fā)展的過程當(dāng)中占主導(dǎo)地位,這使得許多的企業(yè)家投入房地產(chǎn)產(chǎn)業(yè)的投資當(dāng)中,房地產(chǎn)行業(yè)在一時(shí)之間商業(yè)價(jià)值迅速增大,然而伴隨著房地產(chǎn)行業(yè)的快速發(fā)展,我國(guó)的房地產(chǎn)行業(yè)越來越多的問題被凸顯出來,如房屋空置率居高不下,房?jī)r(jià)增長(zhǎng)幅度過快,房地產(chǎn)業(yè)投資過度等。而數(shù)據(jù)挖掘技術(shù)中的神經(jīng)網(wǎng)絡(luò)模擬法,可以充分對(duì)房地產(chǎn)市場(chǎng)進(jìn)行預(yù)測(cè)以及分析,并且可以得出可靠的結(jié)論,降低問題所引發(fā)的風(fēng)險(xiǎn),這樣才能夠保障房地產(chǎn)產(chǎn)業(yè)能夠健康并穩(wěn)健地發(fā)展。
二、房地產(chǎn)行業(yè)需要數(shù)據(jù)發(fā)掘技術(shù)支持
由于市場(chǎng)的競(jìng)爭(zhēng)日益加大,很多新型產(chǎn)業(yè)由于得到不較為合理的發(fā)展需求而一夜倒閉,因此房地產(chǎn)行業(yè)想要在日益加劇的競(jìng)爭(zhēng)中取得勝利,就需要有準(zhǔn)確的市場(chǎng)判斷與充分的信息支持。行業(yè)信息,客戶信息以及經(jīng)濟(jì)環(huán)境等大量的信息數(shù)據(jù)積累是房地產(chǎn)行業(yè)市場(chǎng)運(yùn)作的主要參考。在面對(duì)成幾何級(jí)數(shù)快速增長(zhǎng)的龐大數(shù)據(jù),房地產(chǎn)行業(yè)需要一個(gè)可以將龐大數(shù)據(jù)轉(zhuǎn)化為有價(jià)值知識(shí)的有力分析數(shù)據(jù)工具。否則也只是空有豐富數(shù)據(jù)但是可用信息貧乏的數(shù)據(jù)墳?zāi)埂?/p>
數(shù)據(jù)挖掘,就是一項(xiàng)數(shù)據(jù)處理的有效工具,它可以從龐大的數(shù)據(jù)中發(fā)現(xiàn)潛在的模式以及關(guān)聯(lián),并且能有效的進(jìn)行預(yù)測(cè)性分析。在一些統(tǒng)計(jì)學(xué)、人工智能等數(shù)據(jù)庫技術(shù)領(lǐng)域有著廣泛的應(yīng)用。數(shù)據(jù)挖掘有助于充分看清業(yè)務(wù)發(fā)展趨勢(shì),最大化的對(duì)未來結(jié)果進(jìn)行預(yù)測(cè),并且?guī)椭康禺a(chǎn)行業(yè)所面臨的問題分析出解決的關(guān)鍵性因素,使得企業(yè)保持競(jìng)爭(zhēng)優(yōu)勢(shì)地位。
三、數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在眾多領(lǐng)域有著廣泛應(yīng)用,且成效卓著,因而逐漸被應(yīng)用于房地產(chǎn)行業(yè)的相關(guān)工作和研究。
(一)數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是一項(xiàng)針對(duì)企業(yè)龐大的信息存儲(chǔ)進(jìn)行系統(tǒng)的理解以及檢查雛菊的工具。數(shù)據(jù)挖掘可以根據(jù)預(yù)先設(shè)定的商業(yè)目標(biāo),對(duì)龐大的數(shù)據(jù)進(jìn)行分析探索,尋找出數(shù)據(jù)中隱含的商業(yè)經(jīng)濟(jì)規(guī)律,并且生成相對(duì)應(yīng)的預(yù)測(cè)分析模型。
數(shù)據(jù)挖掘由于所發(fā)現(xiàn)的都是可執(zhí)行,可以理解以及目前未知的信息,所以也常常被稱之為Knowledge Discovery in Databases即知識(shí)發(fā)現(xiàn)。與傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)相比較,數(shù)據(jù)挖掘技術(shù)能更好地與數(shù)據(jù)庫進(jìn)行結(jié)合,而且數(shù)據(jù)挖掘技術(shù)中用以發(fā)現(xiàn)信息中隱藏的商業(yè)規(guī)律已經(jīng)不僅僅局限于統(tǒng)計(jì)技術(shù),其中遺傳算法,神經(jīng)網(wǎng)絡(luò),自組織圖,神經(jīng)模糊系統(tǒng)等逐漸發(fā)展而出。數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)的信息只是,不僅可以用于預(yù)測(cè)模型的構(gòu)建,更可以被統(tǒng)計(jì)分析師用以豐富背景只是,然后在適應(yīng)的時(shí)候運(yùn)用到數(shù)據(jù)分析中。
描述與預(yù)測(cè)是一般情況下數(shù)據(jù)挖掘的兩類任務(wù)。描述性的數(shù)據(jù)挖掘任務(wù)主要是用來刻畫數(shù)據(jù)庫中數(shù)據(jù)所存在的一般特性。而預(yù)測(cè)性的數(shù)據(jù)挖掘任務(wù)則主要是以目前的數(shù)據(jù)為基礎(chǔ),通過不斷的推算以進(jìn)行未來預(yù)測(cè)。具體來說,數(shù)據(jù)挖掘技術(shù)主要可以處理一下幾種問題:
1.關(guān)聯(lián)分析。所謂關(guān)聯(lián)規(guī)則,則是在同一件事中出現(xiàn)不同項(xiàng)時(shí),尋找屬性間的相關(guān)性。例如在某個(gè)項(xiàng)目住宅的目標(biāo)客戶對(duì)該項(xiàng)目各個(gè)方面評(píng)價(jià)的相關(guān)性分析,所尋找的是某些事件時(shí)間上的關(guān)聯(lián),如房地產(chǎn)周期以及該項(xiàng)目的股票漲跌等。
2.預(yù)測(cè)與分類。分類是根據(jù)預(yù)設(shè)好的標(biāo)準(zhǔn)以及類別,將數(shù)據(jù)庫中所記錄的信息進(jìn)行分類,如根據(jù)房地產(chǎn)客戶消費(fèi)決策模式,建立預(yù)測(cè)模式,為潛在客戶的職業(yè)家庭,收入等個(gè)人屬性分類,預(yù)測(cè)出其在購房方面可消費(fèi)支出。房地產(chǎn)行業(yè)客戶可以分為實(shí)際客戶,潛在客戶與購買者,想要如此分類,分類系統(tǒng)則會(huì)產(chǎn)生相應(yīng)的規(guī)則:如果該客戶愿意并且可以承擔(dān)每個(gè)月XX元的月供,并且在X年內(nèi)計(jì)劃在某地區(qū)進(jìn)行購房,他/她則是潛在客戶;而進(jìn)行過至少一次業(yè)務(wù)詢問的客戶,則是購買者。
3.聚類。聚類是想數(shù)據(jù)庫整體分成不同的群組,使得群組與群組直接的差別明顯化,并且使得同一群組的數(shù)據(jù)盡可能的相似。聚類與分類看似相同,其實(shí)差別甚大。分類是在進(jìn)行分類之前,以及知道要將數(shù)據(jù)分成什么性質(zhì)的哪幾類,而聚類則相反。
4.演變分析。演變分析師指數(shù)據(jù)挖掘所藐視的行為隨著時(shí)間而變化的趨勢(shì)以及規(guī)律,并且對(duì)其分析對(duì)象進(jìn)行建模。如將教育水平發(fā)展趨勢(shì),社會(huì)經(jīng)濟(jì)發(fā)展以及認(rèn)購構(gòu)成變動(dòng)進(jìn)行結(jié)合,對(duì)房地產(chǎn)日后消費(fèi)趨勢(shì)進(jìn)行分析。
5.描述可視化。通過進(jìn)行空間聚集以及相似計(jì)算等一些具體的地理位置聚類概化,形成形象的某區(qū)域的描述。
(二)數(shù)據(jù)挖掘的市場(chǎng)研究?jī)r(jià)值
數(shù)據(jù)挖掘的技術(shù)運(yùn)用多方面,在房地產(chǎn)的運(yùn)用當(dāng)中有十分普遍,并且數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)市場(chǎng)的使用價(jià)值十分高,因此所產(chǎn)生的經(jīng)濟(jì)效益也是十分可觀的。同時(shí)數(shù)據(jù)挖掘的應(yīng)用也極其廣泛。房地產(chǎn)行業(yè)的客戶一般具有特征面熟復(fù)雜,客戶人群數(shù)量龐大,需求不一,并且容易受到外界因素影響,所以,數(shù)據(jù)挖掘在應(yīng)用當(dāng)中不是一層不變的,而是它具有多變性以及多層性的特點(diǎn)。合理的應(yīng)用數(shù)據(jù)挖掘技術(shù),不僅可以識(shí)別客戶的購買行為,分析客戶的購買趨勢(shì)以及購買模式,還可以設(shè)計(jì)出更好的營(yíng)銷方案,較少商業(yè)成本,充分滿足客戶需要。數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用價(jià)值詳見下表。
(三)在房地產(chǎn)行業(yè)中應(yīng)用數(shù)據(jù)挖掘技術(shù)
隨著社會(huì)的不斷發(fā)展,技術(shù)的不斷創(chuàng)新,房地產(chǎn)的發(fā)展迅速,數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)的使用越來越多,在房地產(chǎn)和房地產(chǎn)業(yè)的研究方面應(yīng)用逐漸廣泛,為房地產(chǎn)業(yè)帶來了諸多的產(chǎn)業(yè)效益。
1.數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)的應(yīng)用
數(shù)據(jù)挖掘技術(shù)應(yīng)用于房地產(chǎn),具體需要開展以下工作:
明確商業(yè)目標(biāo)。數(shù)據(jù)挖掘技術(shù)應(yīng)用的首要任務(wù)就是必須明確需要達(dá)到何種程度的商業(yè)目標(biāo),以及需要解決的問題。商業(yè)目標(biāo)描述需要盡可能地清晰以及細(xì)化,以便選擇適合的挖掘方法以及便于對(duì)數(shù)據(jù)挖掘效果的檢測(cè),以判斷建立的模式是否有效。在實(shí)際應(yīng)用時(shí),就需要數(shù)據(jù)挖掘工作人員對(duì)房地產(chǎn)業(yè)的目標(biāo)有一個(gè)整體把握,在目標(biāo)指導(dǎo)下開展數(shù)據(jù)收集、分析工作,從而確保房地產(chǎn)朝著前景廣闊的方向發(fā)展。
數(shù)據(jù)準(zhǔn)備。在明確商業(yè)目標(biāo)的基礎(chǔ)上,為了保證所需要提出的數(shù)據(jù)質(zhì)量,除了在進(jìn)行必要的數(shù)據(jù)修正以及檢查,還需要在不同源的數(shù)據(jù)之間考慮其一致性。如果一段數(shù)據(jù)中包含過多的字符,則需要找到對(duì)模型輸出影響最大的字符,適當(dāng)?shù)販p少其他不影響模型輸出的多于字符。若是數(shù)據(jù)集是有許多變量組合起來的,需要選擇性的擴(kuò)大變量范圍,形成效果良好的預(yù)測(cè)變量,因此在準(zhǔn)備數(shù)據(jù)階段,需要依照實(shí)際,考慮是否需要建立新的變量。在房地產(chǎn)中,就需考慮客戶、市場(chǎng)消費(fèi)信息調(diào)查數(shù)據(jù)的重復(fù)性、特殊性等問題,確保調(diào)查所得數(shù)據(jù)能夠反映真實(shí)的市場(chǎng)情況和客戶需求,進(jìn)而做出正確決策。然而某些缺失的數(shù)據(jù)本身存在有特殊的意義,比如一些富有的客戶常常會(huì)忽略收入或者是價(jià)格的影響,所以對(duì)于收集數(shù)據(jù)要進(jìn)行適當(dāng)整理和準(zhǔn)備。
建立模型。模型的建立是一個(gè)反復(fù)完善的工程,并不是一個(gè)一次性的工作。選擇適合解決某問題的模型,在其建立過程中,可能會(huì)對(duì)數(shù)據(jù)產(chǎn)生新的理解,并且修改,甚至改變開始對(duì)于問題的設(shè)定。大部分的數(shù)據(jù)挖掘模型并不是為了某個(gè)問題而特意設(shè)定的,模式之間也不存在于排斥問題,某個(gè)模型并不一定是解決這個(gè)問題的最好方法。比如:CART決策樹以及神經(jīng)網(wǎng)絡(luò)既可以幫助分類樹的建立,又可以建立回歸樹。數(shù)據(jù)模型是房地產(chǎn)市場(chǎng)信息的脈絡(luò),課使領(lǐng)導(dǎo)者對(duì)于相關(guān)信息有一個(gè)整體的把握,進(jìn)而分配各項(xiàng)事務(wù),推動(dòng)房地產(chǎn)的發(fā)展。
輸出結(jié)果評(píng)價(jià)以及解釋。模型建立之后,還有一項(xiàng)重要的工作,就是解釋其價(jià)值以及評(píng)價(jià)其結(jié)果。在實(shí)際中,應(yīng)用數(shù)據(jù)的變化會(huì)影響模型的準(zhǔn)確率。但是模型選擇的正確評(píng)價(jià)方法并不一定是參照準(zhǔn)確度。對(duì)模型的評(píng)價(jià)需要了解錯(cuò)誤類型以及產(chǎn)生的相關(guān)費(fèi)用多少。在不同預(yù)測(cè)錯(cuò)誤產(chǎn)生不同代價(jià)的模型中,代價(jià)最小的模型將是最好的選擇而不是出錯(cuò)率最小的模型。
實(shí)施。模型在建立成功并且驗(yàn)證通過后,有兩種常見的使用方法。第一是給分析師提供參考,由其進(jìn)行分析查看此輸出模型,并且做出方案建議以及解釋。第二是將模型應(yīng)用進(jìn)不同的數(shù)據(jù)集合上。正確的輸出模型可以標(biāo)示同一類事例,以及給同一類客戶進(jìn)行打分等。然而在應(yīng)用模型之后,即使其應(yīng)用結(jié)果很成功,也不能放棄不斷監(jiān)控模型效果。因?yàn)橐磺惺挛锒际窃诓煌W兓c發(fā)展的,過了一段時(shí)間后,很可能隨著人們的消費(fèi)觀點(diǎn)以及購買方式的改變,此模型已經(jīng)無法再進(jìn)行作用。因此,要隨著時(shí)間的變化,以及事實(shí)結(jié)合,對(duì)模型進(jìn)行測(cè)試,完善,甚至有些時(shí)候需要重新建立更新模型。
通過以上五個(gè)具體步驟完成數(shù)據(jù)挖掘,并應(yīng)用到實(shí)際的房地產(chǎn)工作中,就能實(shí)現(xiàn)數(shù)據(jù)挖掘技術(shù)的價(jià)值,促進(jìn)房地產(chǎn)的進(jìn)一步發(fā)展。
2.數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)研究的應(yīng)用
數(shù)據(jù)挖掘是進(jìn)行房地產(chǎn)市場(chǎng)分析和預(yù)測(cè)的新技術(shù),目前已逐漸應(yīng)用于房地產(chǎn)業(yè)的相關(guān)研究當(dāng)中,但仍有許多問題有待完善。數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)研究的應(yīng)用主要有以下幾個(gè)方面:
周期和規(guī)律研究。房地產(chǎn)在某段時(shí)間、某些特定地區(qū)的發(fā)展會(huì)有波動(dòng),通常會(huì)以周期的形式出現(xiàn),有規(guī)律可循,這也是房地產(chǎn)商進(jìn)行投資等決策的依據(jù)之一。數(shù)據(jù)挖掘技術(shù)科應(yīng)用于分析影響房地產(chǎn)波動(dòng)的周期性因素以及這些因素之間的相互關(guān)系。
市場(chǎng)發(fā)展趨勢(shì)研究。房地產(chǎn)業(yè)屬于市場(chǎng)經(jīng)濟(jì)的一部分,受市場(chǎng)的影響很大,包括樓盤供應(yīng)情況、房地產(chǎn)投資開發(fā)、房地產(chǎn)市場(chǎng)的需求、國(guó)民經(jīng)濟(jì)增長(zhǎng)等。數(shù)據(jù)挖掘技術(shù)則應(yīng)用于相關(guān)信息的收集,了解房地產(chǎn)的市場(chǎng)需求,并對(duì)市場(chǎng)進(jìn)行預(yù)測(cè)和預(yù)警,及時(shí)采用有效的措施對(duì)房地產(chǎn)市場(chǎng)加以有效的宏觀調(diào)控,促進(jìn)其可持續(xù)發(fā)展。
房地產(chǎn)客戶和競(jìng)爭(zhēng)對(duì)手研究。研究者通過關(guān)聯(lián)分析和序列分析這兩種數(shù)據(jù)挖掘方法,可了解房地產(chǎn)客戶需求及其影響因素,找出客戶的消費(fèi)行為模式,為營(yíng)銷人員提供依據(jù);也可了解競(jìng)爭(zhēng)對(duì)手的信息和發(fā)展?fàn)顩r,以便及時(shí)進(jìn)行策略調(diào)整。
房地產(chǎn)經(jīng)濟(jì)區(qū)劃的研究。針對(duì)房地產(chǎn)經(jīng)濟(jì)發(fā)展區(qū)域分布不均衡現(xiàn)象,研究者應(yīng)用數(shù)據(jù)挖掘的比較分析方法對(duì)經(jīng)濟(jì)區(qū)劃進(jìn)行動(dòng)態(tài)分析,及時(shí)制定和調(diào)整規(guī)劃。
在我國(guó),數(shù)據(jù)挖掘技術(shù)與房地產(chǎn)領(lǐng)域的結(jié)合研究是近幾年一個(gè)較新的課題,因而還面臨許多問題,如國(guó)家缺乏數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)應(yīng)用的具體標(biāo)準(zhǔn),尚未建立相關(guān)的大型數(shù)據(jù)庫,研究的結(jié)果的效用不高等等。解決好這些問題,對(duì)于房地產(chǎn)業(yè)的發(fā)展具有重要意義。
四、結(jié)束語
綜上所述,隨著市場(chǎng)經(jīng)濟(jì)的不斷發(fā)展,科學(xué)技術(shù)的不斷創(chuàng)新,人們生活水平的不斷提高,新型產(chǎn)業(yè)的不斷誕生,房地產(chǎn)產(chǎn)業(yè)帶來的巨大的經(jīng)濟(jì)效益已經(jīng)不容小視,如何才能在社會(huì)競(jìng)爭(zhēng)中,保持房地產(chǎn)效益的增值呢,這就需要研發(fā)者精湛的研發(fā)技術(shù)和市場(chǎng)銷售者敏銳的觀察力了,數(shù)據(jù)挖掘技術(shù)正是房地產(chǎn)能夠保持快速發(fā)展的較好技術(shù)支持。數(shù)據(jù)挖掘技術(shù)在房地產(chǎn)行業(yè)的應(yīng)用,有利于其把握市場(chǎng)經(jīng)濟(jì)動(dòng)態(tài)以及客戶購買趨勢(shì),使得其利于激烈競(jìng)爭(zhēng)中優(yōu)勢(shì)地位。更能有效的解決快速發(fā)展中出現(xiàn)的各種問題,使其服務(wù)水平以及營(yíng)業(yè)效率更上一層樓。
參考文獻(xiàn):
[1]陳琳.江蘇房地產(chǎn)投資與經(jīng)濟(jì)增長(zhǎng)關(guān)系實(shí)證研究[D].江蘇大學(xué),2007.
[2]肖建雄.中國(guó)房地產(chǎn)業(yè)建立戰(zhàn)略聯(lián)盟研究[D].湖南大學(xué),2007.
[3]陳超.我國(guó)房?jī)r(jià)的非理性波動(dòng)研究[D].東北師范大學(xué),2007.
[4]湯丹花.江蘇省現(xiàn)代服務(wù)業(yè)發(fā)展研究[D].江蘇大學(xué),2006.
[5]伊元元.LG集團(tuán)投資房地產(chǎn)的競(jìng)爭(zhēng)戰(zhàn)略研究[D].哈爾濱工業(yè)大學(xué),2006.
篇5
【關(guān)鍵詞】大數(shù)據(jù)時(shí)代 數(shù)據(jù)分析 信息安全防護(hù)
隨著我國(guó)網(wǎng)絡(luò)信息技術(shù)不斷的發(fā)展,當(dāng)下時(shí)代已經(jīng)成為大數(shù)據(jù)時(shí)代。以往大數(shù)據(jù)的概念主要存在于物理學(xué)領(lǐng)域、生物學(xué)領(lǐng)域、生態(tài)環(huán)境學(xué)領(lǐng)域、軍事領(lǐng)域、金融領(lǐng)域、通訊領(lǐng)域等,而當(dāng)下網(wǎng)絡(luò)和信息業(yè)的空前發(fā)展使大數(shù)據(jù)引起了人們的關(guān)注。數(shù)據(jù)信息已經(jīng)滲透到社會(huì)的各行各業(yè),人們通過相關(guān)數(shù)據(jù)信息的發(fā)現(xiàn)和利用,可達(dá)到增加生產(chǎn)率和市場(chǎng)消費(fèi)率的效果。但大數(shù)據(jù)技術(shù)收集信息軟件給網(wǎng)絡(luò)用戶的隱私帶來了問題,網(wǎng)絡(luò)私人信息的安全防護(hù)遭到威脅。因此本文對(duì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析與信息安全防護(hù)做出相關(guān)研究,研究?jī)?nèi)容如下。
1 大數(shù)據(jù)概述
大數(shù)據(jù)主要是指使用常規(guī)軟件工具無法在規(guī)定的時(shí)間內(nèi)對(duì)網(wǎng)絡(luò)往來信息進(jìn)行捕捉和管理以及處理。大數(shù)據(jù)時(shí)代的主要特點(diǎn)為5V,即數(shù)據(jù)總量大(Volume)、類型繁多(Variety)、價(jià)值密度低(Value)、速度快、時(shí)效高(Velocity)。大數(shù)據(jù)的初始計(jì)量單位為P(P=1000T)、E(E=100000T)、Z(Z=10000000T),數(shù)據(jù)量龐大,其種類包括網(wǎng)絡(luò)文字信息、音頻信息、視頻信息、圖片信息以及地理位置等,數(shù)據(jù)種類豐富對(duì)數(shù)據(jù)的處理能力也提出了較高的要求。在大數(shù)據(jù)中,雖然信息量大,但可利用的信息是有限的,因此,大數(shù)據(jù)價(jià)值密度較低。大數(shù)據(jù)相對(duì)于傳統(tǒng)數(shù)據(jù)而言,需要人們更強(qiáng)的處理信息的能力和速度,對(duì)人們的數(shù)據(jù)駕馭力量提出了挑戰(zhàn)。大數(shù)據(jù)在影響著人們生活方式的同時(shí),還影響著各個(gè)行業(yè)的發(fā)展,大數(shù)據(jù)的出現(xiàn)也使信息安全面臨著一些問題。
2 大數(shù)據(jù)時(shí)代數(shù)據(jù)分析概述
2.1 抽樣量化
在大數(shù)據(jù)時(shí)代,樣本就是總體本身,因此在分析某事物的過程中,不需依靠少量的數(shù)據(jù)樣本,而是得到全部的數(shù)據(jù)。傳統(tǒng)的抽樣有樣本缺乏穩(wěn)定和隨機(jī)抽樣困難的情況,且在事先設(shè)定好了調(diào)查目的往往會(huì)使調(diào)查內(nèi)容和范圍受到人為限制,調(diào)查過程中的側(cè)重點(diǎn)也導(dǎo)致抽樣數(shù)據(jù)無法反映總體情況。另外樣本量的有限也使抽樣結(jié)果缺乏精確性,致使錯(cuò)誤率的增加,同時(shí)傳統(tǒng)抽樣時(shí)間效率和生產(chǎn)率低。
2.2 數(shù)據(jù)模糊計(jì)算
在大數(shù)據(jù)的影響下,人們接受數(shù)據(jù)較為繁雜,數(shù)據(jù)精確性減弱。有數(shù)據(jù)規(guī)模龐大,因此對(duì)數(shù)據(jù)追求精確性的可能性較小,測(cè)量數(shù)據(jù)和調(diào)查數(shù)據(jù)都會(huì)因?yàn)橐恍┎豢煽氐囊蛩鼗蛘J(rèn)為因素致使數(shù)據(jù)精確性欠缺。大數(shù)據(jù)時(shí)代獲得的數(shù)據(jù)量多,但不精確的數(shù)據(jù)也在其中,因此對(duì)待大數(shù)據(jù)應(yīng)該看到其有利方面。數(shù)據(jù)的不精確也有利于對(duì)事物總體的了解,樣本的增加使信息更為真實(shí)。大數(shù)據(jù)的不精確是不經(jīng)意產(chǎn)生的,因此,在需要精確數(shù)據(jù)的領(lǐng)域還是需要避免不精確性的發(fā)生。
2.3 利用數(shù)據(jù)關(guān)系
關(guān)注事物的相關(guān)性,而不是只追求因果。傳統(tǒng)抽樣中會(huì)預(yù)先假定因果,但在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的復(fù)雜和龐大,會(huì)導(dǎo)致因果關(guān)系復(fù)雜化和分析因果復(fù)雜化。因此,大數(shù)據(jù)不不利于追求因果關(guān)系,而利于事物相關(guān)關(guān)系的追求。大數(shù)據(jù)對(duì)數(shù)據(jù)的分析思路為分析數(shù)據(jù)相關(guān)性,事物關(guān)系之間的形式多樣化,關(guān)系和目的也是根據(jù)數(shù)據(jù)的變化而變化,沒有相對(duì)較為固定的因果和親疏關(guān)系。
大數(shù)據(jù)所提供的價(jià)值可以讓人們預(yù)判自己所想知道的事情,比如華爾街利用網(wǎng)絡(luò)民眾的情緒變化進(jìn)行拋售股票;基金公司根據(jù)對(duì)購物網(wǎng)站顧客的評(píng)論來分析產(chǎn)品銷售情況;銀行根據(jù)網(wǎng)絡(luò)求職的崗位情況判斷就業(yè);投資機(jī)構(gòu)從大數(shù)據(jù)中查找企業(yè)破產(chǎn)的前兆;美國(guó)總統(tǒng)團(tuán)隊(duì)根據(jù)社交軟件分析選民喜好。以此可以看出在大數(shù)據(jù)時(shí)代,可利用的數(shù)據(jù)信息對(duì)利用者而言十分重要。
3 大數(shù)據(jù)時(shí)代面臨的信息安全問題
3.1 信息安全風(fēng)險(xiǎn)
由于大數(shù)據(jù)的特點(diǎn)之一為存儲(chǔ)信息較為廣泛,對(duì)信息安全性有一定的影響。大數(shù)據(jù)信息海量存儲(chǔ)技術(shù)的成熟降低了信息存儲(chǔ)的成本,因此大數(shù)據(jù)信息處理量顯著增加,處理中心分析信息也變得更加容易。大數(shù)據(jù)信息中心可以根據(jù)終端網(wǎng)絡(luò)用戶的行為信息進(jìn)行分析,然后將結(jié)果提供給信息利用者,分析搜索的商品后向你推薦所感興趣的商品。在移動(dòng)互聯(lián)網(wǎng),終端用戶信息被隨時(shí)采集和存儲(chǔ),造成了信息安全風(fēng)險(xiǎn)。
3.2 個(gè)人隱私泄露
有一些網(wǎng)絡(luò)企業(yè)會(huì)對(duì)網(wǎng)絡(luò)終端用戶的隱私進(jìn)行搜集。為了贏得市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì),用戶信息成為了企業(yè)的發(fā)展根據(jù)。比如一些智能手機(jī)軟件會(huì)在用戶不知情的情況下,對(duì)用戶使用軟件的時(shí)間、地點(diǎn)和位置進(jìn)行信息記錄,發(fā)送到軟件服務(wù)器,暴露用戶的個(gè)人隱私泄露信息。
3.3 安全防護(hù)難度
大數(shù)據(jù)時(shí)代由于非結(jié)構(gòu)化的數(shù)據(jù)類型多、價(jià)值密度低,信息量龐大,因此對(duì)安全防護(hù)技術(shù)要求較高,目前我國(guó)防護(hù)技術(shù)還未能夠處理大量和多類型的數(shù)據(jù),因此數(shù)據(jù)防護(hù)難度系數(shù)較高。
4 數(shù)據(jù)時(shí)代面臨的信息安全問題的應(yīng)對(duì)措施
4.1 安全技術(shù)研發(fā)
目前大數(shù)據(jù)需要能夠處理大量和多類型的數(shù)據(jù)分析技術(shù),以主動(dòng)發(fā)現(xiàn)大數(shù)據(jù)中潛藏的威脅,比如利用信息豐富開發(fā)認(rèn)證系統(tǒng)技術(shù)或建設(shè)數(shù)據(jù)真實(shí)分析系統(tǒng),將惡意信息和無用信息排除在外。
4.2 制定個(gè)人隱私泄露保護(hù)法律法規(guī)
由于大數(shù)據(jù)是新生事物,因此相關(guān)的法律法規(guī)存在空白。網(wǎng)絡(luò)上違法的數(shù)據(jù)信息行為需要有強(qiáng)制和高效的規(guī)則對(duì)其進(jìn)行規(guī)范,以保護(hù)個(gè)人信息的合理利用性。
4.3 提高民眾信息安全認(rèn)知
大數(shù)據(jù)來源于民眾,因此提高民眾的信息安全意識(shí),可有效防范數(shù)據(jù)信息面臨的信息安全問題,從而起到維護(hù)個(gè)人隱私泄露、避免負(fù)面影響的作用。
5 結(jié)語
綜上所述,大數(shù)據(jù)時(shí)代數(shù)據(jù)分析與信息安全防護(hù)具有重要意義,當(dāng)下網(wǎng)絡(luò)和信息業(yè)的空前發(fā)展使大數(shù)據(jù)引起了人們的關(guān)注,數(shù)據(jù)信息已經(jīng)滲透到社會(huì)的各行各業(yè),數(shù)據(jù)分析使人們受益匪淺。但大數(shù)據(jù)技術(shù)收集信息軟件給網(wǎng)絡(luò)用戶的信息安全帶來了問題。比如信息安全風(fēng)險(xiǎn)、個(gè)人隱私泄露、安全防護(hù)有難度等,本研究作者經(jīng)過多方面思考提出提高安全技術(shù)研發(fā)程度、制定個(gè)人隱私保護(hù)法律法規(guī)以及提高民眾信息安全認(rèn)知的解決意見,以促進(jìn)大數(shù)據(jù)時(shí)代信息安全性的增加。
參考文獻(xiàn)
[1]田秀霞,王曉玲,高明等.數(shù)據(jù)庫服務(wù)――安全與隱私保護(hù)[J].軟件學(xué)報(bào),2010,21(5):991-1006.
[2]劉小龍,鄭滔.一種針對(duì)非控制數(shù)據(jù)攻擊的改進(jìn)防御方法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(12):3762-3766.
[3]李峰,李虎成,於益軍等.基于并行計(jì)算和數(shù)據(jù)復(fù)用的快速靜態(tài)安全校核技術(shù)[J].電力系統(tǒng)自動(dòng)化,2013,37(14):75-80.
篇6
【關(guān)鍵詞】開源數(shù)據(jù)庫 PostgreSQL 數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)庫是一種能夠?qū)?shù)據(jù)進(jìn)行存儲(chǔ)和管理的“倉庫”,它是一個(gè)應(yīng)用領(lǐng)域中通用的數(shù)據(jù)處理系統(tǒng),是長(zhǎng)期存儲(chǔ)在計(jì)算機(jī)內(nèi)可進(jìn)行共享的數(shù)據(jù)集合。開源數(shù)據(jù)庫是未進(jìn)行加密,源代碼為開放性的數(shù)據(jù)庫,目前主流的開源數(shù)據(jù)庫有MySQL數(shù)據(jù)庫、PostgreSQL數(shù)據(jù)庫、Ingres r3 數(shù)據(jù)庫、MaxDB數(shù)據(jù)庫、InterBase數(shù)據(jù)庫,每個(gè)數(shù)據(jù)庫均有其特性。本文以PostgreSQL數(shù)據(jù)庫為對(duì)象,重點(diǎn)對(duì)其數(shù)據(jù)存儲(chǔ)的實(shí)現(xiàn)路徑進(jìn)行研究。
1 PostgreSQL開源數(shù)據(jù)庫的特點(diǎn)分析
PostgreSQL是一款具有豐富特色的開源數(shù)據(jù)庫管理系統(tǒng),其不但功能齊全,而且還具有商業(yè)級(jí)數(shù)據(jù)庫管理系統(tǒng)的特性,在某些方面甚至超越了商業(yè)數(shù)據(jù)庫。PostgreSQL可在各種平臺(tái)上應(yīng)用,支持異步Copy、預(yù)寫日志容錯(cuò)、表空間機(jī)制,同時(shí)還支持多種字符編碼,易于擴(kuò)展,在多用戶并發(fā)方面有著極其優(yōu)異的表現(xiàn)。大體上可將PostgreSQL的特性歸納為以下幾個(gè)方面:
1.1 開放性
PostgreSQL支持的數(shù)據(jù)類型較多,如IP地址、數(shù)組、幾何圖元、文本、數(shù)值等,同時(shí)該數(shù)據(jù)庫還允許用戶自定義正規(guī)的SQL類型。
1.2 可編程性
該數(shù)據(jù)庫能夠?yàn)橛脩籼峁┐罅康腁PI,如OBDC、Libpq等,給用戶的開發(fā)使用提供了條件。
1.3 可定制性
該數(shù)據(jù)庫可以通過多種編程語言來實(shí)現(xiàn)函數(shù)功能,如PHP、Ruby、Java、C++等等。對(duì)于數(shù)據(jù)庫而言,函數(shù)又被稱之為存儲(chǔ)過程,它的輸出結(jié)果可以在查詢中當(dāng)做表來使用,這一特點(diǎn)使PostgreSQL具備了可定制的特性。
1.4 索引
在PostgreSQL數(shù)據(jù)庫中,用戶既可以使用數(shù)據(jù)庫內(nèi)置的GIN、Hash表、GiST進(jìn)行索引,也可以自定義索引,GiST作為通用索引的基礎(chǔ)結(jié)構(gòu),其為多種索引策略的實(shí)現(xiàn)提供了支撐。
2 PostgreSQL開源數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)路徑
對(duì)于PostgreSQL數(shù)據(jù)庫而言,在存儲(chǔ)層的設(shè)計(jì)中,需要重點(diǎn)考慮的問題是應(yīng)通過何種方式存儲(chǔ)對(duì)象規(guī)模,尤其是一些大數(shù)據(jù)的存儲(chǔ)。
2.1 數(shù)據(jù)外存的實(shí)現(xiàn)
2.1.1 relation與外部文件的對(duì)應(yīng)
用戶是PostgreSQL數(shù)據(jù)庫的使用者,對(duì)于這些使用者而言,每一個(gè)二維表都是一個(gè)邏輯概念,在邏輯當(dāng)中包含了兩部分內(nèi)容,一部分是表定義,另一部分是表數(shù)據(jù)。前者的主要作用是對(duì)用戶的邏輯進(jìn)行展示,它需要被數(shù)據(jù)庫系統(tǒng)保存,存放表定義的地方即表空間;后者從物理的角度上講,是以文件的形式存儲(chǔ)在操作系統(tǒng)當(dāng)中,即可存放在系統(tǒng)的表空間當(dāng)中,也可存放在用戶自定義的表空間當(dāng)中。數(shù)據(jù)一般都是以文件的形式被存儲(chǔ)在表空間當(dāng)中的,換言之?dāng)?shù)據(jù)是表空間的物理外在形式。從代碼的角度進(jìn)行分析,可通過relpathbackend函數(shù)對(duì)邏輯概念與物理存儲(chǔ)之間的關(guān)系進(jìn)行查看,具體步驟如下:先按照RelFileNode指定的關(guān)系,找出與外存相對(duì)應(yīng)的文件或是文件位置,然后根據(jù)入口的第一個(gè)參數(shù)mode,拼接出外存文件的路徑,再利用mode中的spcNode的值,判斷應(yīng)當(dāng)在哪個(gè)表空間上進(jìn)行物理存儲(chǔ)操作,最后便可得出數(shù)據(jù)的具體存儲(chǔ)位置。
2.1.2 系統(tǒng)relation的存儲(chǔ)
對(duì)于PostgreSQL數(shù)據(jù)庫系統(tǒng)而言,它的relation存儲(chǔ)是將數(shù)據(jù)存放在預(yù)先創(chuàng)建的表空間當(dāng)中,這里需要?jiǎng)?chuàng)建兩個(gè)表空間,一個(gè)是base,另一個(gè)是global。
2.2 數(shù)據(jù)內(nèi)存的實(shí)現(xiàn)
從操作系統(tǒng)的角度上講,在PostgreSQL數(shù)據(jù)庫當(dāng)中,數(shù)據(jù)的存儲(chǔ)就是對(duì)一些二進(jìn)制的信息進(jìn)行存儲(chǔ),整個(gè)存儲(chǔ)過程無法獲悉文件的內(nèi)容,文件本身的邏輯含義主要取決于應(yīng)用層面,讀入的數(shù)據(jù)會(huì)存放于數(shù)據(jù)緩沖區(qū)當(dāng)中,換言之,數(shù)據(jù)的邏輯含義始于緩沖區(qū)。
2.2.1 表數(shù)據(jù)頁存儲(chǔ)
在PostgreSQL開源數(shù)據(jù)庫管理系統(tǒng)當(dāng)中,數(shù)據(jù)的存儲(chǔ)格式主要有以下幾種類型:系統(tǒng)表數(shù)據(jù)、日志文件、用戶表數(shù)據(jù)以及用戶自行創(chuàng)建的數(shù)據(jù)等。由于數(shù)據(jù)對(duì)象的創(chuàng)建方式存在一定的差別,以序列和視圖為例,它們的創(chuàng)建并不涉及任何數(shù)據(jù),僅僅是一個(gè)單純的定義,而用戶自定義的表則是由定義和數(shù)據(jù)兩部分組成,這些信息在實(shí)際存儲(chǔ)中,會(huì)以tuple的形式存儲(chǔ)于數(shù)據(jù)庫系統(tǒng)當(dāng)中,因此,在數(shù)據(jù)庫的存儲(chǔ)格式中,數(shù)據(jù)分為兩個(gè)部分,一部分為頁頭,另一部分為tuple數(shù)據(jù)組。根據(jù)這一前提條件,通過對(duì)PagaAddltem函數(shù)中l(wèi)ower和upper變量賦值方式的分析,便可獲得tuple的存儲(chǔ)方式。
2.2.2 大數(shù)據(jù)的處理
系統(tǒng)表可用于視圖、序列等定義信息的存儲(chǔ),每個(gè)表都是以元祖的形式存儲(chǔ)在pg_class當(dāng)中。由于每個(gè)表均與一個(gè)外存文件相對(duì)應(yīng),其文件名稱則是以該對(duì)象的filenode號(hào)命名。Relfilenode的結(jié)構(gòu)如下:
typedef struct RelFileNode
{
Oid spcNode; /*tablepace*/
Oid dbNode; /*database*/
Oid relNode; /*relation*/
}Relfilenode;
從上面這個(gè)結(jié)構(gòu)當(dāng)中可以看出,在PostgreSQL數(shù)據(jù)庫系統(tǒng)當(dāng)中,表空間、數(shù)據(jù)庫、關(guān)系標(biāo)識(shí)、物理存儲(chǔ)是與該結(jié)構(gòu)唯一對(duì)應(yīng)的。如果一個(gè)文件當(dāng)中存儲(chǔ)的內(nèi)容過多,在表超過1GB后,這些文件便會(huì)被分裂為大小在1GB左右的段,首段的文件名與filenode相同,其余各段則可用filenode1、filenode2、filenode3來表述,由此能夠防止不同操作系統(tǒng)對(duì)文件大小的限制。
3 結(jié)論
綜上所述,在大數(shù)據(jù)時(shí)代的背景下,開源數(shù)據(jù)庫已經(jīng)逐步成為業(yè)內(nèi)研究的重點(diǎn),尤其是與數(shù)據(jù)庫關(guān)聯(lián)最為密切的數(shù)據(jù)存儲(chǔ)問題,更成為重中之重。本文主要針對(duì)主流開源數(shù)據(jù)庫中的PostgreSQL進(jìn)行了分析,并對(duì)其數(shù)據(jù)存儲(chǔ)的實(shí)現(xiàn)路徑進(jìn)行了論述,以期能為開源數(shù)據(jù)庫的推廣使用提供幫助。
參考文獻(xiàn)
[1]蔡佳作,歐爾格力.基于PostgreSQL的地理空間數(shù)據(jù)存儲(chǔ)管理方法研究[J].青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2016(06):67-68.
[2]陳愷萌,盧科,岳麗華.PostgreSQL閃存緩沖區(qū)置換算法擴(kuò)展與性能驗(yàn)證[J].計(jì)算機(jī)科學(xué)與探索,2012(08):54-56.
[3]許彥.基于PostgreSQL存儲(chǔ)引擎的多線程化方法研究與實(shí)現(xiàn)[D].武漢:華中科技大學(xué),2012.
[4]董紀(jì)英,燕志偉,梁正玉.SQLite、MySQL、PostgreSQL關(guān)系型數(shù)據(jù)庫管理系統(tǒng)比較[J].電腦編程技巧與維護(hù),2014(07):98-99.
篇7
(兗州煤業(yè)榆林能化有限公司,陜西榆林719000)
[摘要]隨著信息技術(shù)的發(fā)展與應(yīng)用,各種數(shù)據(jù)信息通過互聯(lián)網(wǎng)、云終端、交際圈、物聯(lián)網(wǎng)等之間的大規(guī)模傳遞,人類進(jìn)入到一個(gè)大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息之間的傳遞影響著人們的決策成本,傳統(tǒng)的信息不對(duì)等所造成的差距條件已經(jīng)消失,而不起眼的數(shù)據(jù)卻能夠創(chuàng)造巨大的價(jià)值。本文對(duì)大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)分析理念進(jìn)行分析和指導(dǎo)。
[
關(guān)鍵詞 ]大數(shù)據(jù)時(shí)代;數(shù)據(jù)分析理念;分析
[DOI]10.13939/j.cnki.zgsc.2015.22.074
在傳統(tǒng)的商業(yè)運(yùn)作模式中,在運(yùn)營(yíng)過程中對(duì)自身經(jīng)營(yíng)發(fā)展的分析只停留在數(shù)據(jù)的簡(jiǎn)單匯總層面,缺乏有效地對(duì)客戶網(wǎng)絡(luò)、業(yè)務(wù)范圍、營(yíng)銷產(chǎn)品、競(jìng)爭(zhēng)對(duì)手優(yōu)劣等方面進(jìn)行深入解析;而在當(dāng)今大數(shù)據(jù)時(shí)代,通過所接收的大量?jī)?nèi)部和外部數(shù)據(jù)中所蘊(yùn)含的信息中透露的市場(chǎng)彈性,可以預(yù)測(cè)市場(chǎng)需求,進(jìn)行分析決策,從而制定更加行之有效的戰(zhàn)略發(fā)展計(jì)劃。“大數(shù)據(jù)”是一個(gè)量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。在當(dāng)今信息時(shí)代,很多企業(yè)用戶在實(shí)際應(yīng)用中把多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量;數(shù)據(jù)類型廣,數(shù)據(jù)來源種類多,且數(shù)據(jù)種類和格式日漸豐富,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),早已打破傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)范疇,如何在大數(shù)據(jù)時(shí)代背景下進(jìn)行科學(xué)有效的數(shù)據(jù)分析這需要加強(qiáng)對(duì)市場(chǎng)的了解,對(duì)泡沫經(jīng)濟(jì)的規(guī)避,了解數(shù)據(jù)所傳遞的信息真假。
1數(shù)據(jù)化決策的興起與運(yùn)用
在大數(shù)據(jù)時(shí)代,信息之間的爆炸增長(zhǎng),使得各種信息傳遞非常之快,只需要拿起網(wǎng)絡(luò)終端就可以了解到地球另一邊發(fā)生了什么。文字、圖形、影像都化作數(shù)據(jù)流在網(wǎng)絡(luò)中以電信號(hào)的方式傳遞著信息。數(shù)據(jù)流在傳遞各行各業(yè)的信息同時(shí)形成了滲透于各行業(yè)的核心資產(chǎn)和創(chuàng)新驅(qū)動(dòng)力。在大數(shù)據(jù)時(shí)代,企業(yè)所擁有的數(shù)據(jù)集合規(guī)模及數(shù)據(jù)的分析和處理能力決定著企業(yè)在市場(chǎng)中的核心競(jìng)爭(zhēng)力。
因此通過數(shù)據(jù)分析進(jìn)行決策漸漸成為新的分析理念,例如,在支付寶上進(jìn)行對(duì)電影票房的投資,這些投資通過對(duì)導(dǎo)演往期作品和演員的表演張力,及投資方的選角等數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)電影的票房,選取投資可獲利的電影,進(jìn)行票房投資,從而獲取票房分紅。我國(guó)的石油油田根據(jù)地震技術(shù)的收集數(shù)據(jù),進(jìn)行科學(xué)統(tǒng)一規(guī)劃的分析處理,形成對(duì)地下油田的分析建模,能夠有效直觀地展示地下油藏的分布情況,從而選擇油井的開采點(diǎn)。中國(guó)人民銀行通過對(duì)人民幣匯率的漲幅,進(jìn)行數(shù)據(jù)分析,來制定符合中國(guó)國(guó)情的外匯貨幣政策,對(duì)貨幣進(jìn)行宏觀調(diào)控,這能夠有力的保護(hù)人民幣升值時(shí),在國(guó)際貿(mào)易市場(chǎng)中國(guó)進(jìn)出口貿(mào)易所面臨的壓力。在大數(shù)據(jù)時(shí)代背景下,通過直覺和經(jīng)驗(yàn)進(jìn)行決策分析的優(yōu)勢(shì)不斷下降,在商業(yè)、政治及公共服務(wù)領(lǐng)域中,通過對(duì)大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析從而做出符合時(shí)代背景的決策,已成了目前的潮流。
2數(shù)據(jù)分析理念及方法
(1)數(shù)據(jù)分析要引入統(tǒng)計(jì)學(xué)思想。在大數(shù)據(jù)時(shí)代背景下,傳統(tǒng)的抽樣分析已經(jīng)并不適用于對(duì)大數(shù)據(jù)的分析中,在大數(shù)據(jù)時(shí)代應(yīng)當(dāng)要轉(zhuǎn)變思維,轉(zhuǎn)變抽樣思想,樣本就是總體,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠少量數(shù)據(jù)樣本,這樣才能夠在最大限度地明白事物發(fā)展變更過程,能夠?qū)?shù)據(jù)所表露的信息進(jìn)行更好地處理[1]。要更樂于接受數(shù)據(jù)的紛繁蕪雜,不再追求精確的數(shù)據(jù),這并不是說其嚴(yán)謹(jǐn)性降低了,而是往往不起眼,不符合常理的數(shù)據(jù)更能夠反映實(shí)際的情況。通過對(duì)數(shù)據(jù)網(wǎng)絡(luò)之間的聯(lián)系進(jìn)行分析,不再探求難以捉摸的因果關(guān)系,通過數(shù)據(jù)的分析處理更能夠反應(yīng)數(shù)據(jù)的變更。這些想法都與統(tǒng)計(jì)學(xué)相關(guān)通過所收集的數(shù)據(jù),進(jìn)行有效的分類處理,能夠更好地反應(yīng)事物的變化,更有利于做出決策[2]。
(2)數(shù)據(jù)分析流程。在實(shí)際的數(shù)據(jù)分析過程中,因大數(shù)據(jù)貫穿區(qū)域較廣,在地域和行業(yè)之間穿插交錯(cuò),顛覆了傳統(tǒng)的線性數(shù)據(jù)收集模式,而形成了顛覆傳統(tǒng)的、非線性的決策基礎(chǔ),這種決策方式要求我們通過對(duì)數(shù)據(jù)進(jìn)行收集,將各行各業(yè)所收集的基本信息,轉(zhuǎn)化為數(shù)據(jù),將數(shù)據(jù)經(jīng)過初步的整合分類,做出符合當(dāng)?shù)禺?dāng)時(shí)的數(shù)據(jù)信息,將數(shù)據(jù)進(jìn)行深層次的技術(shù)處理,將處理過后的信息化為知識(shí),運(yùn)用到實(shí)際的決策中去。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的積累并不會(huì)貶值,而且還會(huì)不斷增值,為了更全面、深入地了解研究對(duì)象,往往需要對(duì)數(shù)據(jù)進(jìn)行整合,這就使得數(shù)據(jù)的積累尤為重要。
(3)數(shù)據(jù)分析對(duì)統(tǒng)計(jì)學(xué)的意義。在大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)分析理念能夠有效地對(duì)數(shù)據(jù)流進(jìn)行合理地分類處理,進(jìn)行科學(xué)的統(tǒng)計(jì)行為,統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫,或者分布式計(jì)算集群來對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,這就意味著所有有用的數(shù)據(jù)信息均來源于數(shù)據(jù)分析處理之后的結(jié)果。大數(shù)據(jù)的數(shù)據(jù)分析理念擴(kuò)寬了統(tǒng)計(jì)學(xué)的研究范圍,而不僅僅只是實(shí)現(xiàn)數(shù)據(jù)的對(duì)比,而是從根本上豐富了研究的內(nèi)容,如:一些實(shí)時(shí)性需求會(huì)用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop,滿足大多數(shù)常見的分析需求,對(duì)傳統(tǒng)的統(tǒng)計(jì)工作有著四個(gè)轉(zhuǎn)變。統(tǒng)計(jì)研究過程的轉(zhuǎn)變,使統(tǒng)計(jì)過程成為收集與研究。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,統(tǒng)計(jì)研究工作思想的轉(zhuǎn)變,數(shù)據(jù)的收集不斷增加,信息的錄入不斷升級(jí),其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。這就使得能夠更好地進(jìn)行數(shù)據(jù)分析處理決策[3]。
3數(shù)據(jù)分析過程中注意事項(xiàng)
3.1數(shù)據(jù)分析要明確變量
將數(shù)據(jù)收集進(jìn)行處理是為了明確市場(chǎng)中的某一個(gè)變量意義,這就使得在進(jìn)行數(shù)據(jù)分析的時(shí)候要能夠明確地找尋變量存在前后所發(fā)生的變化,通過數(shù)據(jù)對(duì)比可以知道該變量在大數(shù)據(jù)的市場(chǎng)中所存在的影響因素。是否對(duì)市場(chǎng)有著風(fēng)險(xiǎn)或有利于市場(chǎng)的開發(fā)利用,能夠在數(shù)據(jù)分析后做出合理決策。
3.2統(tǒng)計(jì)中不再追求精確的數(shù)據(jù)
大數(shù)據(jù)時(shí)代下,數(shù)據(jù)的不精確性不僅不會(huì)破壞總體信息可靠性,還有利于進(jìn)行剝絲抽繭,從而了解總體情況。大數(shù)據(jù)時(shí)代,越來越多的數(shù)據(jù)提供越來越多的信息,也會(huì)讓人們?cè)絹碓搅私饪傮w的真實(shí)情況。錯(cuò)綜復(fù)雜的數(shù)據(jù)能夠反映數(shù)據(jù)之下到底是泥潭還是機(jī)遇。數(shù)據(jù)之間傳遞的信息良莠不齊,如果要一一追求準(zhǔn)確性不利于統(tǒng)計(jì)工作的開展,因此可以將個(gè)別的異常值剔除。大數(shù)定律告訴我們,隨著樣本的增加,樣本平均數(shù)越來越接近總體,這就使得樣本與總體的差異性很小,更加符合實(shí)際情況。
4結(jié)論
綜上所述,大數(shù)據(jù)包含結(jié)構(gòu)內(nèi)外的海量數(shù)據(jù),隨著云計(jì)算平臺(tái)進(jìn)行大規(guī)模收集處理,通過建立數(shù)據(jù)庫的手段,對(duì)數(shù)據(jù)分流,使用數(shù)據(jù)挖掘等方法進(jìn)行處理、分析,使得所數(shù)據(jù)結(jié)果更加符合顯示狀況。數(shù)據(jù)分析理念是通過闡明存在于世界、物質(zhì)、感官享受上的復(fù)雜網(wǎng)絡(luò)關(guān)系,從而做出符合時(shí)代背景的分析決策。
參考文獻(xiàn):
[1]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
篇8
關(guān)鍵詞:實(shí)踐教學(xué) Crystal Reports 數(shù)據(jù)分析 應(yīng)用型人才
中圖分類號(hào):G642.41 文獻(xiàn)標(biāo)識(shí)碼:C DOI:10.3969/j.issn.1672-8181.2013.19.087
1 實(shí)踐教學(xué)的分類
目前,高校人才培養(yǎng)目標(biāo)正在向應(yīng)用型人才方向轉(zhuǎn)移,比如:獨(dú)立學(xué)院、職業(yè)學(xué)院以及高職高專都明確提出他們的人才培養(yǎng)目標(biāo)就是滿足社會(huì)需要的實(shí)用型人才,而實(shí)用型人才培養(yǎng)的重要環(huán)節(jié)是加強(qiáng)實(shí)踐教學(xué),學(xué)生通過大量的實(shí)驗(yàn)活動(dòng)提升自己的理論與實(shí)際操作水平。
一般認(rèn)為,實(shí)踐教學(xué)由基礎(chǔ)型、設(shè)計(jì)型和綜合應(yīng)用創(chuàng)新型等三類各具特色并逐層深化的實(shí)踐教育方式構(gòu)成一個(gè)完整的體系。
1.1 基礎(chǔ)型實(shí)踐教學(xué)
基礎(chǔ)型實(shí)踐教學(xué)由基礎(chǔ)課及專業(yè)基礎(chǔ)課中包含的演示型、基礎(chǔ)型和設(shè)計(jì)型實(shí)驗(yàn)環(huán)節(jié)組成,目標(biāo)在于鞏固和提高學(xué)生學(xué)習(xí)的理論知識(shí)。
1.2 設(shè)計(jì)型實(shí)踐教學(xué)
設(shè)計(jì)型實(shí)踐教學(xué)由專業(yè)課中的綜合型試驗(yàn)或獨(dú)立實(shí)踐課程組成,目的在于進(jìn)一步提高學(xué)生的動(dòng)手能力、理論聯(lián)系實(shí)踐的能力及創(chuàng)新能力。該類實(shí)驗(yàn)采用在教師指導(dǎo)下,學(xué)生自主選題、自主設(shè)計(jì)、集體交流,鼓勵(lì)創(chuàng)新和團(tuán)隊(duì)協(xié)作等新型實(shí)驗(yàn)教學(xué)方法,使學(xué)生的實(shí)踐能力有跨越性的突破。
1.3 綜合應(yīng)用與創(chuàng)新型實(shí)踐教學(xué)
綜合應(yīng)用與創(chuàng)新型實(shí)踐教學(xué)以學(xué)生參與各項(xiàng)校內(nèi)外社會(huì)活動(dòng)為主,學(xué)生可隨不同的指導(dǎo)老師,按興趣分組,按能力分工,著眼于學(xué)生實(shí)踐能力的綜合培養(yǎng),著眼于潛力個(gè)性開拓,著眼于創(chuàng)新精神的激勵(lì)。努力培養(yǎng)學(xué)生掌握企業(yè)管理和工程設(shè)計(jì)的基本方法,實(shí)現(xiàn)學(xué)生從具備一定實(shí)驗(yàn)?zāi)芰Φ骄哂休^高實(shí)戰(zhàn)能力的跨越。
2 Crystal Reports 系統(tǒng)
2.1 Crystal Reports簡(jiǎn)介
Crystal Reports 是SAP公司開發(fā)的、功能強(qiáng)大、動(dòng)態(tài)和可操作的報(bào)表解決方案,它能讀取多種數(shù)據(jù)源,在網(wǎng)絡(luò)環(huán)境下設(shè)計(jì)、開發(fā)可視化報(bào)表,嵌入到企業(yè)ERP系統(tǒng)或普通應(yīng)用系統(tǒng)中。在Crystal Reports的幫助下,用戶能夠制作企業(yè)OLAP在線分析,進(jìn)行企業(yè)業(yè)務(wù),比如財(cái)務(wù)、生產(chǎn)和銷售管理的在線分析,以便指導(dǎo)企業(yè)經(jīng)營(yíng)工作,全球很多大公司都在選用這個(gè)軟件。
2.2 Crystal Reports特點(diǎn)
2.2.1 豐富的呈現(xiàn)形式
多種報(bào)表樣式:普通報(bào)表、交叉表和多維報(bào)表;
20多種圖形:條形圖、餅圖、曲線圖、甘特圖、雷達(dá)圖等,另外提供常用的報(bào)表模板。
2.2.2 廣泛的數(shù)據(jù)源連接
提供超過35個(gè)數(shù)據(jù)驅(qū)動(dòng)用于訪問任何相關(guān)數(shù)據(jù)源,支持在一份報(bào)表中整合多個(gè)數(shù)據(jù)源的能力,包括:ODBC、ADO等數(shù)據(jù)存儲(chǔ)方式。
2.2.3 可視化設(shè)計(jì)環(huán)境
通過拖放元素組成報(bào)表,設(shè)置標(biāo)題,自定義變量,整合數(shù)據(jù)庫字段等,有排序?qū)<?、分組專家、匯總專家和圖標(biāo)專家等向?qū)?。還有強(qiáng)大的公式語言:160多個(gè)系統(tǒng)函數(shù),也可以自定義需要的函數(shù)。如圖1所示。
圖1 Crystal Reports的可視化設(shè)計(jì)界面
2.2.4 多種文件導(dǎo)出格式
如:Word、Excel、HTML、XML、PDF、RTF、CSV、TXT等,方便將信息遞交給不同需求的用戶。
2.3 學(xué)習(xí)Crystal Reports軟件的好處
對(duì)于信管專業(yè)的學(xué)生,培養(yǎng)目標(biāo)包括三個(gè)方面:第一,掌握計(jì)算機(jī)科學(xué)和管理學(xué)的基本知識(shí)和技能;第二,具備進(jìn)行信息系統(tǒng)分析、設(shè)計(jì)的能力;第三,能進(jìn)行計(jì)算機(jī)知識(shí)和管理知識(shí)的交叉復(fù)合應(yīng)用,能夠在專業(yè)應(yīng)用上有所創(chuàng)新。根據(jù)專業(yè)培養(yǎng)目標(biāo),要求信管專業(yè)的學(xué)生成為進(jìn)行軟件開發(fā),進(jìn)行OLTP在線事務(wù)處理和OLAP在線分析處理的應(yīng)用型人才。
在企事業(yè)單位的數(shù)據(jù)處理過程中,通常利用大型數(shù)據(jù)庫和大型軟件系統(tǒng)來完成相關(guān)任務(wù),同時(shí)需要進(jìn)行應(yīng)用軟件的二次開發(fā),比如ERP軟件SAP、Oracle應(yīng)用于企業(yè)后需要定制各種財(cái)務(wù)、生產(chǎn)和銷售分析報(bào)表,SAP、Oracle的ERP系統(tǒng)本身自帶的報(bào)表不可能滿足所有用戶的所有需求,因此這些大型的標(biāo)準(zhǔn)化軟件需要系統(tǒng)實(shí)施人員進(jìn)行再開發(fā),而Crystal Reports由于具有上述優(yōu)點(diǎn)而成為最好的開發(fā)工具,所以可以選擇Crystal Reports對(duì)信息管理和電子商務(wù)專業(yè)的同學(xué)進(jìn)行相關(guān)的系統(tǒng)訓(xùn)練以適應(yīng)社會(huì)發(fā)展的需要。
3 利用Crystal Reports 進(jìn)行實(shí)踐教學(xué)的方法
Crystal Reports既是一個(gè)在線分析軟件也是一個(gè)報(bào)表開發(fā)工具,因此,可認(rèn)為屬于程序設(shè)計(jì)科目,我們把它作為理論課程《數(shù)據(jù)分析與挖掘》的實(shí)驗(yàn)部分介紹給信息管理和電子商務(wù)專業(yè)的學(xué)生是因?yàn)檫@門課程的主要內(nèi)容是介紹數(shù)據(jù)庫的OLAP在線分析和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,在進(jìn)行OLAP分析中,需要利用多維報(bào)表工具,而Crystal Reports可以制作多維報(bào)表。
從Crystal Reports的特點(diǎn)以及它的應(yīng)用范圍來看,可以把利用它進(jìn)行的實(shí)踐活動(dòng)歸類為設(shè)計(jì)型實(shí)踐和綜合應(yīng)用與創(chuàng)新型實(shí)踐相結(jié)合的實(shí)驗(yàn)項(xiàng)目,所以對(duì)同學(xué)們要求按照“規(guī)范設(shè)計(jì),鼓勵(lì)創(chuàng)新”的原則進(jìn)行實(shí)驗(yàn)活動(dòng)。
由于《數(shù)據(jù)分析與挖掘》課程的理論性強(qiáng)、內(nèi)容多、難度大,所以相關(guān)實(shí)驗(yàn)采取學(xué)生分組進(jìn)行,每個(gè)小組2-3人,明確小組中每人的職責(zé),比如:數(shù)據(jù)收集、OLAP報(bào)表制作、結(jié)果分析、報(bào)告撰寫等工作內(nèi)容,要求他們齊心協(xié)力、通力合作,首先把實(shí)驗(yàn)內(nèi)容和分工情況匯報(bào)給實(shí)驗(yàn)指導(dǎo)老師,經(jīng)過實(shí)驗(yàn)老師的確認(rèn)同意后,學(xué)生才能繼續(xù)后面的實(shí)驗(yàn)。實(shí)驗(yàn)時(shí)間除了學(xué)院實(shí)驗(yàn)室安排的課時(shí)(一般在實(shí)驗(yàn)專周中的15學(xué)時(shí)),還可以在實(shí)驗(yàn)課后用自己的電腦完成,完成后撰寫5000字左右的實(shí)驗(yàn)報(bào)告,把實(shí)驗(yàn)過程完整地記錄下來,并對(duì)實(shí)驗(yàn)提出自己的建議,以便實(shí)驗(yàn)老師不斷完善實(shí)驗(yàn)?zāi)J?、改善?shí)驗(yàn)指導(dǎo),使之更符合社會(huì)發(fā)展和培養(yǎng)目標(biāo)的需要。
由于Crystal Reports是《數(shù)據(jù)分析與挖掘》課程的實(shí)驗(yàn)項(xiàng)目,所以讓同學(xué)們接觸實(shí)際應(yīng)用案例是首先必須考慮的問題,我們采取鼓勵(lì)同學(xué)廣開門路,挖掘數(shù)據(jù)來源,實(shí)行一個(gè)案例一個(gè)小組,找不到合適數(shù)據(jù)源的小組可以共享其他小組數(shù)據(jù)的方法解決數(shù)據(jù)源和案例問題,經(jīng)過同學(xué)們的努力,收集了10多個(gè)企業(yè)實(shí)際運(yùn)行數(shù)據(jù),由于數(shù)據(jù)和信息是企業(yè)的生命,也是企業(yè)嚴(yán)加保護(hù)的資源,一般企業(yè)不愿提供,因此我們只要求企業(yè)過去10年至過去5年的部分?jǐn)?shù)據(jù),并對(duì)數(shù)據(jù)加以刪減修改變更,保證企業(yè)的數(shù)據(jù)不泄密,同學(xué)們收集到的數(shù)據(jù)類型主要有Excel、Access、SQL Server以及Oracle等,這些類型的數(shù)據(jù)都可以被Crystal Reports讀取,但是讀取之前必須進(jìn)行ETL的操作,即對(duì)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和載入數(shù)據(jù)庫,以規(guī)范數(shù)據(jù)格式,完成數(shù)據(jù)標(biāo)準(zhǔn)化操作。
實(shí)驗(yàn)教師在整個(gè)實(shí)驗(yàn)活動(dòng)中除了在實(shí)驗(yàn)室向同學(xué)們演示Crystal Reports的使用方法外,還必須跟蹤同學(xué)們的實(shí)驗(yàn)進(jìn)度,加強(qiáng)對(duì)實(shí)驗(yàn)過程的管理,要求同學(xué)們分組用PPT演示稿上臺(tái)介紹自己的實(shí)驗(yàn)情況,讓全體同學(xué)分享他們的成果,實(shí)驗(yàn)老師對(duì)同學(xué)們完成的實(shí)驗(yàn)報(bào)告要進(jìn)行點(diǎn)評(píng),讓他們知道自己那些地方做得好,那些地方有欠缺,以便今后改進(jìn)提高。
4 取得的成果及對(duì)實(shí)驗(yàn)教學(xué)的思考
在經(jīng)過實(shí)驗(yàn)專周的活動(dòng)后,同學(xué)們完成了基于企業(yè)經(jīng)營(yíng)業(yè)務(wù)的在線分析OLAP實(shí)驗(yàn),分組提交了各種報(bào)告,如圖2所示。
圖2 學(xué)生的OLAP實(shí)驗(yàn)報(bào)告
從這些報(bào)告中,我們可以看出大部分同學(xué)完成情況良好,制作的圖表美觀大方,文本格式標(biāo)準(zhǔn)規(guī)范,大家通過實(shí)驗(yàn)理解了數(shù)據(jù)分析與挖掘的基本概念,學(xué)會(huì)了Crystal Reports的操作方法,能夠利用軟件工具讀取各種數(shù)據(jù)源,進(jìn)行數(shù)據(jù)的OLAP在線分析,按照需要制作標(biāo)準(zhǔn)報(bào)表、交叉報(bào)表和多維報(bào)表,這個(gè)過程相當(dāng)于對(duì)應(yīng)用軟件系統(tǒng)進(jìn)行了二次開發(fā),開發(fā)的結(jié)果為企業(yè)的經(jīng)營(yíng)決策提供重要的參考意見,達(dá)到了預(yù)期目標(biāo)。
通過這些實(shí)驗(yàn)項(xiàng)目的實(shí)施,我們感覺到在實(shí)驗(yàn)教學(xué)應(yīng)該注意如下幾點(diǎn):
第一,教學(xué)思想具備理念新穎性。
教學(xué)模式的構(gòu)建受教學(xué)思想的支配,教學(xué)思想是教學(xué)模式的靈魂和核心,好的教學(xué)模式必須以先進(jìn)的教學(xué)思想為指導(dǎo),體現(xiàn)先進(jìn)的教學(xué)理念。實(shí)施新穎的教學(xué)思想可以通過向同學(xué)們開出現(xiàn)代的、先進(jìn)的學(xué)習(xí)科目來實(shí)現(xiàn),比如:數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等。
第二,教學(xué)目標(biāo)強(qiáng)調(diào)技術(shù)實(shí)用性。
在當(dāng)今信息技術(shù)條件下,應(yīng)用性人才必須能夠?qū)⑿畔⒓夹g(shù)直接應(yīng)用于工作實(shí)踐中。實(shí)踐教學(xué)的目的就是培養(yǎng)學(xué)生具備這樣的應(yīng)用能力,而不是簡(jiǎn)單地對(duì)理論的驗(yàn)證或?qū)夹g(shù)的一般了解,我們向同學(xué)們介紹Crystal Reports就是出于提高他們技術(shù)能力的需要。
第三,教學(xué)內(nèi)容充分考慮社會(huì)適應(yīng)性。
應(yīng)用型人才培養(yǎng)是以某一技術(shù)領(lǐng)域或職業(yè)崗位的能力培養(yǎng)為核心。因此,實(shí)踐教學(xué)的內(nèi)容必須滿足社會(huì)適應(yīng)性的能力要求,同時(shí)還要提供適應(yīng)學(xué)生可持續(xù)發(fā)展需要的能力和素質(zhì)。在內(nèi)容體系的組織上,實(shí)踐教學(xué)與理論教學(xué)必須相互滲透,理論知識(shí)需要通過實(shí)踐再認(rèn)識(shí),并通過實(shí)踐課程來實(shí)現(xiàn)。
第四,教學(xué)手段突出技術(shù)先進(jìn)性。
當(dāng)代電子信息技術(shù)的快速發(fā)展,使得教育技術(shù)手段得到極大的提高,先進(jìn)的教學(xué)技術(shù)對(duì)教學(xué)模式的改革起到了直接的推動(dòng)作用,多媒體技術(shù)的普及,使仿真訓(xùn)練等更多地應(yīng)用于實(shí)踐教學(xué)。比如Cisco公司的Packet Tracer網(wǎng)絡(luò)模擬仿真軟件就是一個(gè)非常好的例子,在我們的教學(xué)過程中,我們也采用了這個(gè)軟件向同學(xué)們介紹計(jì)算機(jī)網(wǎng)絡(luò)知識(shí),效果非常顯著。
總之,實(shí)踐教學(xué)需要走不斷改革創(chuàng)新之路,滿足社會(huì)對(duì)應(yīng)用型人才的需求,開辟實(shí)踐教學(xué)的新途徑,找出新辦法,培養(yǎng)合格的社會(huì)需要、國(guó)家需要的應(yīng)用型、復(fù)合型人才。
篇9
(中國(guó)石油大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 102249)
摘?要:人類利用形象思維獲取視覺符號(hào)中所蘊(yùn)含的信息并發(fā)現(xiàn)規(guī)律,進(jìn)而獲得科學(xué)發(fā)現(xiàn)。文章介紹科學(xué)可視化、信息可視化和數(shù)據(jù)可視化的內(nèi)涵,闡述大數(shù)據(jù)可視化分析方法。
關(guān)鍵詞 :大數(shù)據(jù);可視化分析;并行計(jì)算
文章編號(hào):1672-5913(2015)05-0094-04 中圖分類號(hào):G642
專欄作家簡(jiǎn)介:陳明,男,中國(guó)石油大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授,博士生導(dǎo)師,特聘教授,研究方向?yàn)榉植际讲⑿杏?jì)算、計(jì)算智能、軟件工程、大數(shù)據(jù)計(jì)算等,chenming@cup.edu.cn。
0 引 言
人類的創(chuàng)造性不僅取決于邏輯思維,還與形象思維密切相關(guān)。人類利用形象思維將數(shù)據(jù)映射為形象視覺符號(hào),從中發(fā)現(xiàn)規(guī)律,進(jìn)而獲得科學(xué)發(fā)現(xiàn)。期間,可視化關(guān)鍵技術(shù)對(duì)重大科學(xué)發(fā)現(xiàn)起到重要作用。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)可視化分析的研究與發(fā)展將為科學(xué)新發(fā)現(xiàn)創(chuàng)造新的手段和條件[1]。
數(shù)據(jù)可視化于20世紀(jì)50年代出現(xiàn),典型例子是利用計(jì)算機(jī)創(chuàng)造出了圖形圖表。1987年,布魯斯·麥考梅克等撰寫的《Visualization in scientific Computing》促進(jìn)了可視化技術(shù)的發(fā)展,將科學(xué)計(jì)算中的可視化稱之為科學(xué)可視化[2]。20世紀(jì)90年代初期,出現(xiàn)了信息可視化。目前將科學(xué)可視化與信息可視化都?xì)w為數(shù)據(jù)可視化。
2 科學(xué)可視化
2.1 問題的提出
傳統(tǒng)的科學(xué)可視化技術(shù)已成功應(yīng)用于各學(xué)科領(lǐng)域,但如果將其直接應(yīng)用于大數(shù)據(jù),將面臨實(shí)用性和有效性問題,這說明需要對(duì)科學(xué)可視化技術(shù)重新審視與深入研究。
2.2 分布式并行可視化算法
可擴(kuò)展性是構(gòu)造分布式并行算法的一項(xiàng)重要指標(biāo)。傳統(tǒng)的科學(xué)可視化算法應(yīng)用在小規(guī)模的計(jì)算機(jī)集群中,最多可以包括幾百個(gè)計(jì)算節(jié)點(diǎn),而實(shí)際應(yīng)用是要在數(shù)千甚至上萬個(gè)計(jì)算節(jié)點(diǎn)上運(yùn)行。隨著數(shù)據(jù)規(guī)模的逐漸增大,算法的效率逐漸成為數(shù)據(jù)分析流程的瓶頸,設(shè)計(jì)新的分布并行可視化算法已經(jīng)成為一個(gè)研究熱點(diǎn)。
2.2.1 并行圖像合成算法
傳統(tǒng)的并行圖像合成算法主要包括前分割算法、中間分割算法和后分割算法3種類型,前分割算法主要分為如下3步驟:
(1)將數(shù)據(jù)分割并分配到每個(gè)計(jì)算節(jié)點(diǎn)上;
(2)每個(gè)計(jì)算節(jié)點(diǎn)獨(dú)立繪制分配到的數(shù)據(jù),在這一步,節(jié)點(diǎn)之間不需要數(shù)據(jù)交換;
(3)將計(jì)算節(jié)點(diǎn)各自繪制的圖形匯總,合成最終的完整圖形。
從上述步驟中可以看出,由于節(jié)點(diǎn)之間可能需要大量的數(shù)據(jù)交換,尤其是步驟(3)可能成為算法的瓶頸。解決這個(gè)問題的關(guān)鍵是減少計(jì)算節(jié)點(diǎn)之間的通信開銷,可以通過對(duì)數(shù)據(jù)進(jìn)行劃分并在各計(jì)算節(jié)點(diǎn)間進(jìn)行分配來實(shí)現(xiàn)。劃分和分配方案需要與數(shù)據(jù)的訪問一致,原則是計(jì)算節(jié)點(diǎn)只使用駐留本計(jì)算節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行跟蹤,從而減少數(shù)據(jù)交換。
2.2.2 并行顆粒跟蹤算法的研究
傳統(tǒng)的科學(xué)可視化研究對(duì)象主要集中在三維標(biāo)量場(chǎng)數(shù)據(jù)。在科學(xué)大數(shù)據(jù)中,經(jīng)常使用三維流場(chǎng)數(shù)據(jù),其原因如下所述。
將二維的流場(chǎng)可視化方法直接應(yīng)用在三維流的結(jié)構(gòu)不可能都成功,每個(gè)顆粒雖然可以單獨(dú)跟蹤,但是可能出現(xiàn)在空間中的任何一個(gè)位置,這就需要計(jì)算節(jié)點(diǎn)之間通過通信交換顆粒。同時(shí),當(dāng)大量的顆粒在空間移動(dòng)時(shí),每個(gè)計(jì)算節(jié)點(diǎn)可能處理不同數(shù)量的顆粒,從而造成計(jì)算量嚴(yán)重失衡。解決這些問題的關(guān)鍵是減少計(jì)算節(jié)點(diǎn)之間的通信開銷,其基本思路同并行圖像合成算法。
2.2.3 重要信息的提取與顯示技術(shù)
科學(xué)大數(shù)據(jù)可視化的另一個(gè)重要研究方向是如何從數(shù)據(jù)中快速有效地提取重要信息,并且用這些重要信息來指導(dǎo)可視化的生成。從可視化的角度來看,一方面需要可視化設(shè)計(jì)表達(dá)數(shù)據(jù)定信息的定義,通過人機(jī)交互工具,由用戶來調(diào)整參數(shù),觀察和挖掘數(shù)據(jù)中的重要信息;另一方面需要根據(jù)用戶的反饋信息調(diào)整可視化,以更好地突顯重要信息,淡化非重要信息,方便用戶對(duì)重要信息及其背景的觀測(cè)。整個(gè)信息的提取過程是個(gè)典型的交互式可視分析過程?;谶@一思想的兩個(gè)技術(shù)是流場(chǎng)可視化的層次流線束技術(shù)和用于標(biāo)量數(shù)據(jù)的基于距離場(chǎng)的可視化技術(shù)。
2.2.4 原位可視化
傳統(tǒng)的科學(xué)可視化采用科學(xué)計(jì)算后進(jìn)行處理的模式。隨著計(jì)算機(jī)系統(tǒng)計(jì)算速度的提高,I/O速度與計(jì)算速度之間的差距增大。隨著計(jì)算規(guī)模越來越大,而相應(yīng)生成的數(shù)據(jù)規(guī)模也越來越大,現(xiàn)有的存儲(chǔ)系統(tǒng)無法把所有的計(jì)算數(shù)據(jù)都保存下來。解決上述問題的常用方法是采用空間或者時(shí)間上的采樣方法,最后只保存部分?jǐn)?shù)據(jù),造成結(jié)果數(shù)據(jù)的丟失,不能保證高精度數(shù)值模擬。
原位可視化的基本思想是:
(1)將可視化與科學(xué)模擬集成在一起。在科學(xué)模擬的過程中,每個(gè)時(shí)間片的結(jié)果生成之后,可以立刻調(diào)用可視化模塊,直接與科學(xué)模擬程序集成。為了減少數(shù)據(jù)的冗余,可視化程序與科學(xué)模擬程序共享數(shù)據(jù)結(jié)構(gòu)。
(2)由于數(shù)據(jù)的分割和分配優(yōu)先滿足科學(xué)模擬的需求,可視化程序的工作分配有可能是不均衡的,需要重現(xiàn)可視化的工作量在各個(gè)計(jì)算節(jié)點(diǎn)上分配算法,減少數(shù)據(jù)傳輸。
(3)可視化程序的開銷不能太高,要保持集成系統(tǒng)的高效能,必須提高可視化程序的效率,其可擴(kuò)展性必須與科學(xué)模擬一致,可以應(yīng)用上萬個(gè)、上10萬個(gè)或更多的計(jì)算節(jié)點(diǎn)。
3 信息可視化
自18世紀(jì)后期數(shù)據(jù)圖形學(xué)誕生以來,抽象信息的視覺表達(dá)手段一直被用來揭示數(shù)據(jù)及其他隱匿模式的奧秘。20世紀(jì)90年代期間出現(xiàn)的圖形化界面則使得人們能夠直接與可視化信息進(jìn)行交互,從而推動(dòng)了信息可視化研究。信息可視化通過人類的視覺能力,來理解抽象信息的意思,從而加強(qiáng)人類的認(rèn)知活動(dòng),達(dá)到能夠駕馭日益增多的數(shù)據(jù)的能力。
信息可視化是跨學(xué)科領(lǐng)域的大規(guī)模非數(shù)值型信息資源的視覺展現(xiàn),能夠幫助人們理解和分析數(shù)據(jù)。信息可視化中的交互方法能夠?qū)崿F(xiàn)用戶與數(shù)據(jù)的快速交互,更好地驗(yàn)證假設(shè)和發(fā)現(xiàn)內(nèi)在聯(lián)系。信息可視化技術(shù)提供了理解高維度、多層次、時(shí)空、動(dòng)態(tài)、關(guān)系等復(fù)雜數(shù)據(jù)的手段,與科學(xué)可視化相比,信息可視化更側(cè)重于抽象數(shù)據(jù)集,如對(duì)非結(jié)構(gòu)化文本或者高維空間中不具有固有的二維或三維幾何結(jié)構(gòu)的點(diǎn)的視覺展現(xiàn)。信息可視化適用于大規(guī)模非數(shù)字型信息資源的可視化表達(dá)。
信息可視化與科學(xué)可視化的不同之處是,信息可視化所要可視化的數(shù)據(jù)并不是某些數(shù)學(xué)模型的結(jié)果或者是大型數(shù)據(jù)集,而是具有自身固有結(jié)構(gòu)的抽象數(shù)據(jù)。
科學(xué)可視化主要處理具有地理結(jié)構(gòu)的數(shù)據(jù),信息可視化主要處理像樹、圖形等抽象式的數(shù)據(jù)結(jié)構(gòu),可視化分析則主要挖掘數(shù)據(jù)背景的問題與原因。更進(jìn)一步說,科學(xué)可視化技術(shù)是指空間數(shù)據(jù)的可視化技術(shù),而信息可視化技術(shù)則是指非空間數(shù)據(jù)的可視化技術(shù)。
4 數(shù)據(jù)可視化
4.1 概 念
數(shù)據(jù)可視化技術(shù)是指運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的交互處理的理論、方法和技術(shù)[3]。
數(shù)據(jù)可視化不僅包括科學(xué)計(jì)算數(shù)據(jù)的可視化,而且包括工程數(shù)據(jù)和測(cè)量數(shù)據(jù)的可視化。數(shù)據(jù)可視化是對(duì)大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的數(shù)據(jù)的可視化,它是可視化技術(shù)在非空間數(shù)據(jù)領(lǐng)域的應(yīng)用,不再局限于通過關(guān)系數(shù)據(jù)表來觀察和分析數(shù)據(jù)信息,還能以更直觀的方式看到數(shù)據(jù)及其結(jié)構(gòu)關(guān)系。
4.2 數(shù)據(jù)可視化技術(shù)的特點(diǎn)
數(shù)據(jù)可視化技術(shù)能夠分析大量復(fù)雜和多維的數(shù)據(jù),提供像人眼一樣的直覺的、交互的和反應(yīng)靈敏的可視化環(huán)境。數(shù)據(jù)可視化技術(shù)的特點(diǎn)如下所述。
(1)交互性。用戶可以方便地以交互的方式管理和開發(fā)數(shù)據(jù)。
(2)多維性。對(duì)象或事件的數(shù)據(jù)具有多維變量或?qū)傩裕鴶?shù)據(jù)可以按其每一維的值分類、排序、組合和顯示。
(3)可視性。數(shù)據(jù)可以用圖像、曲線、二維圖形、三維體和動(dòng)畫來顯示,用戶可對(duì)其模式和相互關(guān)系進(jìn)行可視化分析。
數(shù)據(jù)可視化已經(jīng)出現(xiàn)了許多方法,主要有基于幾何技術(shù)、面向像素技術(shù)、圖標(biāo)技術(shù)、層次技術(shù)、圖像技術(shù)和分布式技術(shù)等。
4.3 數(shù)據(jù)可視化技術(shù)的相關(guān)概念
(1)數(shù)據(jù)空間:是由n維屬性和m個(gè)元素組成的數(shù)據(jù)集所構(gòu)成的多維信息空間。
(2)數(shù)據(jù)開發(fā):指利用一定的算法和工具對(duì)數(shù)據(jù)進(jìn)行定量的推演和計(jì)算。
(3)數(shù)據(jù)分析:指對(duì)多維數(shù)據(jù)進(jìn)行切片、分塊、旋轉(zhuǎn)等動(dòng)作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù)。
5 大數(shù)據(jù)可視化分析
5.1 概 念
大數(shù)據(jù)可視化分析需要應(yīng)用有效的數(shù)據(jù)管理方法[4]。這也是創(chuàng)建混合環(huán)境的需要。在大數(shù)據(jù)環(huán)境下,人們利用各種技術(shù)分析數(shù)據(jù),用形象直觀的方式展示結(jié)果,這樣能夠快速發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的規(guī)律特征。
可視化分析關(guān)注人類感知與用戶交互的問題。大數(shù)據(jù)來自不同領(lǐng)域的模擬與觀察實(shí)測(cè)。大數(shù)據(jù)可視分析通常應(yīng)用高性能計(jì)算機(jī)群、處理數(shù)據(jù)存儲(chǔ)與管理的高性能數(shù)據(jù)庫組件及云端服務(wù)器和提供人機(jī)交互界面的桌面計(jì)算機(jī)。
5.2 大數(shù)據(jù)可視化分析方法
5.2.1 原位交互分析技術(shù)
在進(jìn)行可視化分析時(shí),將在內(nèi)存中的數(shù)據(jù)盡可能多地進(jìn)行分析稱之為原位交互分析。對(duì)于超過PB量級(jí)以上的數(shù)據(jù),將數(shù)據(jù)存儲(chǔ)于磁盤進(jìn)行分析的后處理方式已不適合。與此相反,可視分析則在數(shù)據(jù)仍在內(nèi)存中時(shí)就會(huì)做盡可能多的分析。這種方式能極大地減少I/O的開銷,并且可實(shí)現(xiàn)數(shù)據(jù)使用與磁盤讀取比例的最大化。然而應(yīng)用原位交互分析也會(huì)出現(xiàn)下述問題:①由于人機(jī)交互減少,進(jìn)而容易造成整體工作流中斷;②硬件執(zhí)行單元不能高效地共享處理器,導(dǎo)致整體工作流中斷。
5.2.2 數(shù)據(jù)存儲(chǔ)技術(shù)
大數(shù)據(jù)是云計(jì)算的延伸,云服務(wù)及其應(yīng)用的出現(xiàn)影響了大數(shù)據(jù)存儲(chǔ)。流行的Apache Hadoop架構(gòu)已經(jīng)支持在公有云端存儲(chǔ)EB量級(jí)數(shù)據(jù)的應(yīng)用。許多互聯(lián)網(wǎng)公司都已經(jīng)開發(fā)出了基于Hadoop的EB量級(jí)的超大規(guī)模數(shù)據(jù)應(yīng)用。一個(gè)基于云端的解決方案可能滿足不了EB量級(jí)數(shù)處理。一個(gè)主要的疑慮是每千兆字節(jié)的云存儲(chǔ)成本仍然顯著高于私有集群中的硬盤存儲(chǔ)成本。另一個(gè)問題是基于云的數(shù)據(jù)庫的訪問延時(shí)和輸出始終受限于云端通信網(wǎng)絡(luò)的帶寬。不是所有的云系統(tǒng)都支持分布式數(shù)據(jù)庫的ACID標(biāo)準(zhǔn)。對(duì)于Hadoop軟件的應(yīng)用,這些需求必須在應(yīng)用軟件層實(shí)現(xiàn)。
5.2.3 可視化分析算法
大數(shù)據(jù)的可視化算法不僅要考慮數(shù)據(jù)規(guī)模,而且要考慮視覺感知的高效算法。需要引入創(chuàng)新的視覺表現(xiàn)方法和用戶交互手段。更重要的是用戶的偏好必須與自動(dòng)學(xué)習(xí)算法有機(jī)結(jié)合起來,這樣可視化的輸出具有高度適應(yīng)性??梢暬惴☉?yīng)擁有巨大的控制參數(shù)搜索空間,減少數(shù)據(jù)分析與探索的成本及降低難度,可以組織數(shù)據(jù)并且減少搜索空間。
5.2.4 不確定性的量化
許多數(shù)據(jù)分析任務(wù)中引入數(shù)據(jù)亞采樣來應(yīng)對(duì)實(shí)時(shí)性的要求,由此也帶來了更大的不確定性。數(shù)據(jù)中不確定性的來源對(duì)于決策和風(fēng)險(xiǎn)分析十分重要。隨著數(shù)據(jù)規(guī)模不斷增大,直接處理整個(gè)數(shù)據(jù)集的能力也受到了極大的限制。不確定性量化已經(jīng)成為科學(xué)與工程領(lǐng)域的重要問題之一。不確定性的量化對(duì)未來的可視分析工具極端重要,新的可視化技術(shù)將提供一個(gè)不確定性的直觀視圖來幫助用戶了解風(fēng)險(xiǎn),從而幫助用戶選擇正確的參數(shù),減少產(chǎn)生誤導(dǎo)性結(jié)果。不確定性的量化將成為可視化分析任務(wù)的核心部分。
5.2.5 并行計(jì)算
并行處理可以有效地減少可視計(jì)算所占用的時(shí)間,從而實(shí)現(xiàn)數(shù)據(jù)分析的實(shí)時(shí)交互。多核的計(jì)算體系結(jié)構(gòu)的每個(gè)核所占有的內(nèi)存也將減少,在系統(tǒng)內(nèi)移動(dòng)數(shù)據(jù)的代價(jià)也將提高。為了發(fā)掘并行計(jì)算的潛力,許多可視化分析算法需要完全地重新設(shè)計(jì)。在單個(gè)核心內(nèi)存容量的限制之下,不僅需要有更大規(guī)模的并行,也需要設(shè)計(jì)新的數(shù)據(jù)模型,需要設(shè)計(jì)出既考慮數(shù)據(jù)大小又考慮視覺感知的高效算法,需要引入創(chuàng)新的視覺表現(xiàn)方法和用戶交互手段。
5.2.7 領(lǐng)域資源庫、框架以及工具
由于缺少低廉的領(lǐng)域資源庫、框架和工具,基于高性能計(jì)算的可視化分析應(yīng)用的快速研發(fā)受到了嚴(yán)重阻礙。如用戶界面、數(shù)據(jù)庫等領(lǐng)域?qū)τ诳梢暦治鱿到y(tǒng)的開發(fā)至關(guān)重要。在絕大部分的高性能計(jì)算平臺(tái)上,即使是最基本的軟件開發(fā)工具也很少見。目前為高性能計(jì)算平臺(tái)開發(fā)定制這樣的軟件,還是個(gè)耗時(shí)耗力的做法。
5.2.8 用戶界面與交互設(shè)計(jì)
由于傳統(tǒng)的可視化分析算法的設(shè)計(jì)通常沒有考慮可擴(kuò)展性,所以許多算法的計(jì)算過于復(fù)雜或者不能輸出易理解的簡(jiǎn)明結(jié)果;加之?dāng)?shù)據(jù)規(guī)模不斷地增長(zhǎng),以人為中心的用戶界面與交互設(shè)計(jì)面臨多層次性和高復(fù)雜性的困難;同時(shí)計(jì)算機(jī)自動(dòng)處理系統(tǒng)對(duì)于需要人參與判斷的分析過程的性能不高,現(xiàn)有的技術(shù)不能更充分發(fā)揮人的認(rèn)知能力。利用人機(jī)交互可以化解上述問題。為此,在大數(shù)據(jù)的可視化分析中,用戶界面與交互設(shè)計(jì)成為研究的熱點(diǎn),主要應(yīng)考慮下述問題:用戶驅(qū)動(dòng)的數(shù)據(jù)簡(jiǎn)化、可擴(kuò)展性與多級(jí)層次、異構(gòu)數(shù)據(jù)融合、交互查詢中的數(shù)據(jù)概要與分流、表示證據(jù)和不確定性、時(shí)變特征分析、設(shè)計(jì)與工程開發(fā)等一系列問題。
6 結(jié) 語
原位交互分析技術(shù)、數(shù)據(jù)存儲(chǔ)技術(shù)、可視分析算法和用戶界面與交互設(shè)計(jì)等多種技術(shù)的運(yùn)用,使得人們可以通過交互可視界面來對(duì)大數(shù)據(jù)進(jìn)行分析、推理和決策,這種將數(shù)據(jù)通過可視化變成圖形的方法能更好地激發(fā)人的形象思維與想象力。
參考文獻(xiàn):
[1] 李國(guó)杰. 大數(shù)據(jù)研究的科學(xué)價(jià)值[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(9): 8-15.
[2] 俞宏峰. 大規(guī)模科學(xué)可視化[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(9): 29-36.
[3] 陳明. 大數(shù)據(jù)概論[M]. 北京: 科學(xué)出版社, 2014: 182-198.
篇10
分布式數(shù)據(jù)庫系統(tǒng)作為計(jì)算機(jī)網(wǎng)絡(luò)和數(shù)據(jù)庫有機(jī)結(jié)合體,建立計(jì)算機(jī)信息平臺(tái)和分布式數(shù)據(jù)庫系統(tǒng)兩者之間息息相關(guān),相互作用。然而,網(wǎng)絡(luò)環(huán)境復(fù)雜性,加之一直處在開放式狀態(tài),致使存在諸多不安全因素,直接影響到分布式數(shù)據(jù)庫系統(tǒng)的安全使用?;诖?,文章通過對(duì)分布式數(shù)據(jù)系統(tǒng)的不安全因素進(jìn)行分析,提出了分布式數(shù)據(jù)庫系統(tǒng)安全防護(hù)措施,以供參考、完善。
【關(guān)鍵詞】分布式 數(shù)據(jù)庫系統(tǒng) 安全分析
分布式數(shù)據(jù)庫作為一種計(jì)算機(jī)數(shù)據(jù)庫系統(tǒng),對(duì)計(jì)算機(jī)數(shù)據(jù)儲(chǔ)存于共享尤為重要。在計(jì)算機(jī)飛速發(fā)展的時(shí)代,分布式數(shù)據(jù)庫系統(tǒng)的應(yīng)用在帶來方便的同時(shí),也面臨著巨大挑戰(zhàn),必須盡快找出處在不安全因素,并采取相應(yīng)的安全措施進(jìn)行處理,從而為用戶使用提供安全性保障。
1 分布式數(shù)據(jù)系統(tǒng)的不安全因素
1.1 黑客攻擊
黑客攻擊的方法是各種各樣的,不僅能夠利用網(wǎng)絡(luò)信息上的“監(jiān)聽客戶―數(shù)據(jù)庫服務(wù)器―服務(wù)器的報(bào)文”的方式來竊取數(shù)據(jù)信息,還可利用用戶的口令實(shí)施身份攻擊。此外,為了達(dá)到攻擊的目的性,黑客還可通過破譯攻擊方式,使用密碼分析來獲取加密文件,再解密或者是篡改數(shù)據(jù)信息。一般情況下,黑客攻擊的目的主要是為了擾亂系統(tǒng)的穩(wěn)定運(yùn)行與竊取數(shù)據(jù)信息,其中黑客攻擊的方式包括3種類型:假裝攻擊、迂回攻擊及竊取攻擊。
1.2 內(nèi)部威脅
由于分布式數(shù)據(jù)庫系統(tǒng)終端位置的物理特性分布具有分散性的特點(diǎn),威脅到系統(tǒng)運(yùn)用內(nèi)部本身的安全性,加上它的每一個(gè)分站點(diǎn)都會(huì)存在薄弱環(huán)節(jié),會(huì)直接給整個(gè)系統(tǒng)運(yùn)行的安全帶來威脅。因此,對(duì)于每一個(gè)分站點(diǎn)的潛在安全風(fēng)險(xiǎn)引起的問題,都會(huì)發(fā)出警報(bào),這時(shí)必須充分利用網(wǎng)絡(luò)安全性為系統(tǒng)提供安全防護(hù)措施。
1.3 計(jì)算機(jī)病毒
計(jì)算機(jī)病毒的發(fā)展與網(wǎng)絡(luò)、自身因素有關(guān),對(duì)計(jì)算機(jī)網(wǎng)絡(luò)來說,網(wǎng)絡(luò)環(huán)境的開發(fā)性加快了計(jì)算機(jī)病毒傳播的速度,難以根除計(jì)算機(jī)病毒。對(duì)計(jì)算機(jī)病毒本身而言,計(jì)算機(jī)病毒本身具有傳染性較強(qiáng)、隱蔽性良好和傳播速度快的特點(diǎn),在發(fā)現(xiàn)病毒的時(shí)候通常已經(jīng)被感染計(jì)算機(jī)病毒。
2 分布式數(shù)據(jù)庫系統(tǒng)安全防護(hù)措施
2.1 建立安全審核系統(tǒng)
在運(yùn)用分布式數(shù)據(jù)庫系統(tǒng)過程中,應(yīng)建立安全審核系統(tǒng),對(duì)獲得任何時(shí)間、用戶訪問數(shù)據(jù)庫系統(tǒng)具有舉足輕重的作用,能夠提升數(shù)據(jù)庫系統(tǒng)使用的安全性。并且還應(yīng)建立相應(yīng)的用戶權(quán)限安全性審核體系,用來找出威脅系統(tǒng)安全性的來源,以此建立有針對(duì)性的數(shù)據(jù)庫安全防護(hù)系統(tǒng)。例如某省公安廳交通警察總隊(duì)的某個(gè)項(xiàng)目中,運(yùn)用了數(shù)據(jù)庫系統(tǒng)安全審計(jì)系統(tǒng),通過部署數(shù)據(jù)庫審核系統(tǒng),在不更改業(yè)務(wù)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上,采用旁路鏡像方法,實(shí)時(shí)采集服務(wù)器和數(shù)據(jù)庫網(wǎng)絡(luò)數(shù)據(jù)流,協(xié)議分析和識(shí)別信息數(shù)據(jù),最終將全部網(wǎng)絡(luò)操作進(jìn)行還原,然后記錄儲(chǔ)存于取證分析操作痕跡,以此提出相應(yīng)的設(shè)定安全策略,審核多個(gè)不同的分站點(diǎn),防止違規(guī)操作同時(shí),向管理員報(bào)警,從而實(shí)現(xiàn)分布式部署。
2.2 凈化網(wǎng)絡(luò)環(huán)境
針對(duì)上述復(fù)雜、開放性網(wǎng)絡(luò)環(huán)境條件下,分布式數(shù)據(jù)庫系統(tǒng)運(yùn)用中存在的不安全因素,為了降低網(wǎng)絡(luò)環(huán)境的影響力,真正做到安全防范,必須凈化網(wǎng)絡(luò)環(huán)境,加強(qiáng)網(wǎng)絡(luò)管理力度,為系統(tǒng)使用的安全性提供保障。例如某市為了凈化網(wǎng)絡(luò)環(huán)境,確保計(jì)算機(jī)信息系統(tǒng)安全,促進(jìn)計(jì)算機(jī)應(yīng)用與發(fā)展,按照《中華人民共和國(guó)計(jì)算機(jī)信息系統(tǒng)安全保護(hù)條例》相關(guān)規(guī)定,結(jié)合當(dāng)?shù)赜?jì)算機(jī)應(yīng)用情況,明確相關(guān)部門工作職責(zé),加強(qiáng)網(wǎng)絡(luò)管理,收集和通報(bào)計(jì)算機(jī)病毒,對(duì)計(jì)算機(jī)病毒來源進(jìn)行追查,定期檢測(cè)計(jì)算機(jī)病毒,及時(shí)消除計(jì)算機(jī)病毒傳播與擴(kuò)散。
2.3 病毒防控措施
分布式數(shù)據(jù)庫系統(tǒng)內(nèi)部?jī)?chǔ)存與管理著海量數(shù)據(jù)信息,都是為了防止黑客利用各種非法手段篡改、破壞和竊取數(shù)據(jù)庫中的文件,為了保護(hù)數(shù)據(jù)庫系統(tǒng)中全部文件的安全性與完整性,必須對(duì)分布式數(shù)據(jù)庫系統(tǒng)中的數(shù)據(jù)庫文件進(jìn)行病毒防控,做好相應(yīng)的病毒預(yù)防與控制措施,從而有效降低黑客攻擊的威脅性。例如某校為了預(yù)防與控制本校計(jì)算機(jī)感染病毒,維護(hù)用戶利益,按照國(guó)家與公安部門相關(guān)規(guī)定,結(jié)合本校的實(shí)情,制定相應(yīng)的病毒防控措施,要求學(xué)校信息化建設(shè)和管理領(lǐng)導(dǎo)小組負(fù)責(zé)病毒預(yù)防與控制工作,并成立病毒防控小組,負(fù)責(zé)監(jiān)督與指導(dǎo)病毒防控工作,根據(jù)有關(guān)規(guī)定檢測(cè)計(jì)算機(jī)系統(tǒng)和軟件的病毒,對(duì)產(chǎn)生病毒計(jì)算機(jī)進(jìn)行清除,并更新防病毒軟件,新接入的軟件必須經(jīng)過檢測(cè),確定沒有病毒后才能使用。
2.4 保密安全措施
用戶訪問權(quán)限在通過一系列身份驗(yàn)證后,分站點(diǎn)和分站點(diǎn)之間才可以進(jìn)行數(shù)據(jù)互動(dòng)。為了確保數(shù)據(jù)信息的保密性,在數(shù)據(jù)信息傳遞的整個(gè)過程中,一般會(huì)對(duì)需要傳輸?shù)臄?shù)據(jù)信息設(shè)置密碼,在通信雙方建立一條保密通道,對(duì)數(shù)據(jù)信息訪問與傳輸進(jìn)行加密處理,以此避免數(shù)據(jù)被竊取、反復(fù)發(fā)送及遭到黑客攻擊。另外,應(yīng)使用實(shí)時(shí)入侵檢測(cè)方式,加大分站點(diǎn)之間的安全監(jiān)測(cè)力度,在通信雙方建立一條安全通道,加強(qiáng)數(shù)據(jù)信息傳輸?shù)谋C苄?。例如某公司為了確保整個(gè)分布式數(shù)據(jù)系統(tǒng)信息系統(tǒng)中數(shù)據(jù)信息的保密性,在發(fā)送信息數(shù)據(jù)過程中,使用端對(duì)端加密方式對(duì)數(shù)據(jù)信息進(jìn)行加密,然后進(jìn)入TCP/IP數(shù)據(jù)包封裝,將其設(shè)置成不可識(shí)別或者是不可閱讀的信息數(shù)據(jù),最后通過網(wǎng)絡(luò)方式傳送到另一個(gè)用戶系統(tǒng)中(目的地),再對(duì)信息數(shù)據(jù)進(jìn)行解密重組,變成可讀數(shù)據(jù)信息。
3 結(jié)束語
在開放式和復(fù)雜的網(wǎng)絡(luò)環(huán)境中運(yùn)用分布式數(shù)據(jù)庫系統(tǒng)時(shí),應(yīng)充分分析了解不安全因素,通過建立訪問控制和審計(jì)體系和安全審核系統(tǒng)方式,凈化網(wǎng)絡(luò)環(huán)境,實(shí)時(shí)預(yù)防和控制病毒傳播,從而做好分布式數(shù)據(jù)庫系統(tǒng)保密安全措施,確保分布式數(shù)據(jù)庫系統(tǒng)安全使用。
參考文獻(xiàn)
[1]鄒平吉.對(duì)分布式數(shù)據(jù)庫系統(tǒng)的安全分析與探討[J].林區(qū)教學(xué),2013(12):98-100.
[2]韓春陽.分布式數(shù)據(jù)庫系統(tǒng)的安全策略研究[J].硅谷,2014(07):164-164,181.
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫論文 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)通信論文 數(shù)據(jù) 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討