數據分析設計范文

時間:2023-05-04 13:16:29

導語:如何才能寫好一篇數據分析設計,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

數據分析設計

篇1

關鍵詞:習題設計;發(fā)展 ;數據分析觀念

【中圖分類號】G 【文獻標識碼】B 【文章編號】1008-1216(2016)12C-0029-02

簡單的數據統(tǒng)計重在讓學生經歷數據的收集、整理和分析過程,掌握一些簡單的數據處理技能,感受數據蘊含著的信息,培養(yǎng)初步的數據分析觀念。在課堂教學中,這一核心知識受到教師的足夠重視,然而我們的課堂時間有限,僅僅依靠教材提供的有限的統(tǒng)計活動還不足以發(fā)展學生的數據分析觀念。如果能夠依托統(tǒng)計教學的核心,靈活設計習題,從不同側重點進行有針對性的訓練,有意識地讓學生運用數據分析解決問題,將能發(fā)展學生的數據分析觀念,使習題成為教材的有益補充。

一、豐富統(tǒng)計素材,主動收集整理數據

培養(yǎng)數據分析觀念的首要方面是引導學生有意識地從數據的角度思考有關問題,就是遇到有關問題時能夠想到通過設計簡單的數據收集計劃收集所需數據,解決所求問題,從而體會到數據是有用的,數據中蘊含著我們想要的信息。教師在進行練習設計時,要考慮不同年齡學生生活經驗和認知水平的差異,賦予習題鮮活的背景,激勵學生主動收集整理數據。

在學習了簡單的統(tǒng)計圖表之后,我設計如下統(tǒng)計練習:

夏天到了,吃冰激凌成為很多孩子的愛好,學校門前的張老板想通過一個調查來了解哪種口味的冰激凌在我們學校最流行。

(1)小組討論:要完成這項任務,你們需要做哪些工作?請在下面的表格中,圈出需要的選項。

1 確定調查時間,設計調查用的統(tǒng)計表。

2 以小組為單位,每班隨機抽取15名學生,對他們最喜歡的冰激凌進行調查統(tǒng)計。

3 以小組為單位,對我校學生的年齡進行調查統(tǒng)計。

4 匯總統(tǒng)計表,繪制條形統(tǒng)計圖。

(2)小組合理分工,展開調查統(tǒng)計。

(3)根據分析結果給張老板提出一些建議。對愛吃冰激凌的同學又會提出什么建議?

吃冰激凌是孩子們的最愛,與學生的生活密切相關,很容易引起他們的共鳴。學生意識到要想幫張老板解決這一問題,調查收集數據是必需的,有用的,激發(fā)學生熱情投身學習活動。真實的統(tǒng)計數據,會幫助張老板解決現實的問題。而對愛吃冰激凌的同學提建議,又有意識地對學生進行健康常識教育。由扶到放的習題設計,幫助學生逐步提高開展實際調查的能力。

二、精心設計問題提高分析數據信息能力

從不同角度分析數據,以便從數據中獲得盡可能多的信息,并發(fā)現蘊含其中的一些規(guī)律,是數據分析觀念的基本內涵之一。練習中通過精心設計問題串,引導學生從不同角度理解和分析數據信息,感受數據分析方法的多樣性,并為發(fā)現和提出更有意義的問題提供機會。

小明家每兩個月交一次水費,每次用水的噸數如下表:

月份 1~2月 3~4月 5~6月 7~8月 9~10月 11~12月

用水量(噸) 8 5 6 16 7 6

根據上表回答以下問題:

(1)從上表中知道,用水量最多的是哪兩個月份?最少呢?分別占全年總用水量的百分之幾?

(2)全年平均每個月用水多少噸?

(3)根據生活常識,你能解釋一下為什么7~8月份的用水量最多嗎?

(4)如果想說明7~8月份的用水量比全年的1/4還多,選( )統(tǒng)計圖表示最容易使人明白。

本題中前兩題從一組數據的極值入手,大致了解數據的分布范圍,對于家庭用水量有個初步了解。然后通過計算解決其中一個月份與全年之間的關系,并通過平均數分析用水情況,對于出現的極端情況,嘗試利用生活常識進行解釋,使學生體會極端數據出現的原因,最后通過選擇統(tǒng)計圖,加深對各種統(tǒng)計圖的特征的把握,進一步增強學生根據解決問題需要靈活選擇統(tǒng)計圖分析數據的能力。

三、連貫使用數據提高收集整理數據意識

對于同樣的數據,由于背景和目標不同可以有多種分析的方法,需要根據問題背景選擇合適的方法。每年學校都會組織學生進行體檢,我將學生的身高情況及時收集,保存。在解決“ 鐵道部門規(guī)定,兒童身高在120厘米以下乘火車免票,120~150厘米之間享受半價。我們班有多少人乘火車可以享受免票?有多少人需要購買全價票?”這一習題時,我組織學生討論并形成一些可行的收集學生身高的方法,將最近學生體檢的身高數據及時呈現在大屏幕上,學生感到非常驚訝,感到老師真是個有心人,根據提供的數據學生很快列表整理信息,順利解決問題,老師這種收集和整理重要數據的習慣,使學生也受到潛移默化的影響。這時,我進一步追問,看到這些身高的數據,它們還能幫助我們解決什么問題。學生想到可以了解自己身高在班級處于什么情況,學校可以根據身高給我們定做課桌椅,可以定做校服……這時我又呈現,定做校服時大號、中號、小號和特號相關的身高要求,然后讓學生根據需要重新對剛才的數據進行分組整理。通過變換問題情境,使學生體驗到同一數據由于要解決的問題不同,整理、分析的方法往往會不同。

到了五年級學習了折線統(tǒng)計圖,我再一次將學生身高情況呈現給學生,不同的是這次我將每個同學1~5年級的身高情況都呈現出來,學生感到非常興奮,“你能將自己這5年的身高情況繪制成折線統(tǒng)計圖嗎?”,學生繪制非常用心,在組內交流近5年身高增長情況時更是積極主動,分析得頭頭是道。這時我又引導學生根據自己身高增長情況對六年級的身高進行預測,并學習老師,做一個“數據收藏家”,記住自己的身高,到時看看自己預測得準不準。

等到六年級復習時,我再次呈現,學生將六年來的身高增長情況繪制完整,并檢驗自己的預測,同時對自己15歲時的身高情況再次進行預測,此時,給學生增加了我市近年來男、女生平均身高增長統(tǒng)計圖,發(fā)現男女生13~15歲身高增長的一些規(guī)律,很多同學又調整了預測。同樣的身高數據由于解決的問題不同,分析方法大不相同,對數據進行橫向及縱向的比較,會使我們的判斷和預測更準一些。

四、巧設矛盾沖突促進動手實驗能力提升

游戲是激發(fā)學生主動參與統(tǒng)計活動的很好方式,在游戲實驗活動中通過數據體會概率事件的隨機性,在教學可能性時,我設計這樣一題:

小明和小軍兩人玩游戲,袋子里放有2個和1個,每次任意從中摸出兩個圖形,摸完后放回,如果摸到的兩個圖形能拼成平行四邊形為小明贏,如果能拼成小房子圖形,則是小軍贏。你認為這樣的游戲公平嗎?同桌的同學玩一玩,看看拼成哪種圖形的人贏的次數多?想想為什么?

游戲中的三個圖形中有兩個是相同的,任意從中摸兩個,結果只有2種情況,學生很容易認為游戲是公平的,實際上兩種情況出現的可能性大小不同,極易引發(fā)學生爭辯,促使學生主動通過實驗活動求證結論。動手實驗正是學生體會隨機現象的最佳路徑,通過學生的實驗,認識到游戲的設計是不公平的,與原有猜測產生沖突,學生急于一探究竟,發(fā)現小軍贏的可能性會大一些。當然,游戲試驗中,也會出現拼成平行四邊形的次數等于或超過小軍的現象,這一非常規(guī)情形的出現也是體會隨機現象的重要資源,使學生深刻體會小軍贏的可能性大一些,游戲是不公平的,但是小軍不會一定贏,更有利于學生感悟隨機現象的特點。

五、適度綜合運用,全面感受分析數據的意義

統(tǒng)計與概率的內容和其他數學領域的內容有著緊密的聯(lián)系。這部分課程的教學,應為發(fā)展和運用比、分數、百分數、度量、圖像等概念提供活動背景,為培養(yǎng)學生綜合運用知識解決問題能力提供機會。

王阿姨在汽車銷售公司上班,工資由基本工資和銷售獎金組成,即每銷售1輛汽車給予一定數量的獎金。下表顯示王阿姨今年3~6月份銷售汽車的輛數與工資情況:

銷售汽車輛數 8 10 11 12

月工資(元) 3000 3300 3450 3600

根據上表提供的信息你能算出王阿姨的基本工資是多少,每銷售1輛汽車的獎金是多少元嗎?

本題緊密聯(lián)系社會生活實際問題,學生需要在認真理解題意的基礎上,借助計算分析題中的數量關系,發(fā)現不同信息之間的聯(lián)系,從而得出正確的計算方法,提升學生數據分析能力,在綜合解決問題的過程中全面感受分析數據的意義。

篇2

關鍵詞:數據分析;數據挖掘;大數據;云計算

0引言

商業(yè)銀行作為經營信用、貨幣的企業(yè),面向的客戶是幾乎全方位的,同時銀行業(yè)的競爭也是異常殘酷的[1]。從網點、ATM、POS、網銀、手機銀行乃至其他網絡信息等各類渠道數據信息中,挖掘、分析出有效的數據,可以增加營銷效率、加快產品創(chuàng)新,快人一步擴大業(yè)務發(fā)展空間和市場份額[2]。大數據可以使商業(yè)銀行決策由經驗依賴到數據依賴的轉變,實時、深入地把握業(yè)務和市場動態(tài),從而更加科學、有效地決策,讓商業(yè)銀行能夠穩(wěn)健、可持續(xù)發(fā)展[3]。大數據的挖掘、分析可以有效地提高商業(yè)銀行精細化管理水平,在風險控制、成本核算、資本管理、績效考核等各個方面發(fā)揮出巨大作用,讓經營管理能力大幅提升,更理性、更高效、更精確[4]。

1大數據技術

1.1HadoopMapReduce技術

Hadoop是一種分布式系統(tǒng)的平臺,通過它可以很輕松地搭建一個高效、高質量的分布系統(tǒng)[5]。Hadoop的最核心的設計思想:MapReduce是Hadoop的核心組件之一,Hadoop主要包括2部分:一是分布式文件系統(tǒng)HDFS,HDFS為海量的數據提供了存儲;二是分布式計算框MapReduce,為海量的數據提供了計算。MapReduce是大規(guī)模數據計算的利器,Map和Reduce是它的主要思想,Map負責將數據打散,Reduce負責對數據進行聚集。Hadoop采用并行工作模式,同時維護多個工作數據副本,確保失敗的節(jié)點能夠重新分布處理,具有可靠、高效、可伸縮、低成本的優(yōu)點。

1.2NOSQL數據庫技術

NOSQL(NotOnlySQL)數據庫是指非關系數據庫。這是相對于傳統(tǒng)關系數據庫提出的概念,隨著Web2.0網站的興起,數據量越來越大,傳統(tǒng)關系型數據在處理大數據、實時讀寫以及多表聯(lián)查已經越來越力不從心,而NOSQL以鍵值對存儲,機構不固定,每個元組可以根據需要增加、減少鍵值對,減少了時間和空間的開銷,同時NOSQL可以處理大數據,能夠良好地運行在廉價的PC服務器機器上,便于擴展[7]。

1.3內存分析技術

內存分析(In-memoryAnalytics)技術是在內存中直接獲取分析數據。隨著64位操作系統(tǒng)的普及,系統(tǒng)可用內存大幅度提升,同時由于工藝不斷成熟,內存容量不斷,價格不斷下降。由于內存容量暴增,人們開始直接將數據預讀到內存中,對內存中的數據進行分析加工,而不用如傳統(tǒng)的那樣將數據反復不斷地讀入內存、寫入磁盤,從而極大地提升了數據分析效率。

2商業(yè)銀行數據應用現狀

目前,商業(yè)銀行對于大數據的挖掘還處于起步階段,沒有一個在設計之初就目標明確的定位于大數據挖掘、分析的系統(tǒng)[8]?,F有的幾個與數據挖掘相關的管理信息系統(tǒng)有PCRM系統(tǒng)(個人優(yōu)質客戶系統(tǒng))、RPTS系統(tǒng)(綜合報表系統(tǒng))、GDP系統(tǒng)(基礎數據平臺系統(tǒng))等,這些系統(tǒng)在設計之初就具有先天的局限性,它們僅僅是針對某個或者某幾個業(yè)務部門的應用開發(fā)的,遠遠還談不上大數據分析。同時這些系統(tǒng)由于沒有統(tǒng)一的規(guī)劃設計,物理架構大致相同,一些重要數據,如定期、活期主檔及明細表全部重復加工,造成人力、財力的浪費,效率較低[9]。在上面提到的幾個管理信息系統(tǒng)中,GDP系統(tǒng)是相對比較典型的應用,現在對GDP系統(tǒng)物理架構和邏輯架構進行分析。如圖1所示的GDP物理架構圖,采用成熟的3層B/S架構,2臺乃至多臺PC服務器部署WEB前置服務,做表示層;由1臺小型機部署應用服務程序,做邏輯層;1臺小型機上運行數據庫系統(tǒng),做數據訪問層。數據庫由控制庫和日終庫組成,其中控制庫使用SYBASEASE庫,將不同的處理任務劃分成一個個的作業(yè)鏈,作業(yè)鏈中包含不同的作業(yè),通過對作業(yè)和作業(yè)鏈調度次序進行控制;日終庫采用SYBASEIQ庫,對日終數據進行高效處理??刂茙炫c日終庫可在同一臺小型機上。2臺PC服務器使用IBMWebSphere部署高可用集群,提供WEB服務,包含作業(yè)調度服務和前臺展示。

3構建商業(yè)銀行數據分析

系統(tǒng)模型商業(yè)銀行作為傳統(tǒng)金融企業(yè),與新興的互聯(lián)網企業(yè)不同之處在于:行內的數據中含有許多機密、隱私的信息,同時無論媒體還是客戶都關心銀行數據的安全性。在數據挖掘、分析包括使用的時候,效率與安全的選擇需要慎重考量。為了避免資源的浪費,本文在設計模型前,必須對現有數據進行詳盡分析,剔除重復、無效的數據,將有效數據進行分類。商業(yè)銀行數據應用中大致可以分為2種類型:一類是高可靠數據,以數據的準確性為主,需要提供給統(tǒng)計部門、核算部門及監(jiān)管部門,對于這類數據我們必須在使用前進行數據清洗、篩選后,才能夠真正使用;另一類則不需要很精確,只需要一個大致數量級或者一個大的方向,主要供決策層、管理經營層及產品研發(fā)、營銷等部門使用,對于這類數據其實才是真正符合現今大數據的概念,無需對數據進行清洗,可以直接進行挖掘。針對側重于安全可靠和快速高效這2種不同的需求,以及結合商業(yè)銀行現有技術發(fā)展,本文設計出下面2種模型。

3.1高可靠模型

基于商業(yè)銀行對數據的精度要求較高,在設計模型時首先考慮的是數據的完整性和安全性,其次才考慮效率等其他的問題。因此,本文對現有成熟和完備的商業(yè)銀行GDP系統(tǒng)3層架構和業(yè)務定位深入分析的基礎上,進行了一些改進,克服現有GDP系統(tǒng)3層結構的不足。

3.2高效率模型

對于商業(yè)銀行精度要求不高,但是非常具有時效性和海量的數據,不需要考慮數據的完整性、安全性。為此,本文使用一些互聯(lián)網的新技術以及開源的軟件,拋棄原有3層架構,引入大數據挖掘新技術,實現大數據的挖掘需求。

4數據分析

當將海量的數據挖掘出來后,怎樣使用這些數據?投入這么多人力、物力當然是希望它能帶來更多的收益,怎樣將數據變成收益?這就需要對數據進行分析,結合自身以及行業(yè)的現狀進行分析。在傳統(tǒng)的數據中,以少量的數據為依據,以數據的準確性為目標進行的統(tǒng)計工作,其實這樣的統(tǒng)計是有偏差和片面的。而大數據則以海量數據為依托,強調數據的完整性、綜合性和復雜性,通過答題輪廓,捕捉發(fā)展脈絡,確定未來發(fā)展方向。從決策層出發(fā),大數據可以為我們更快地找出未來銀行的發(fā)展方向,最大限度地避免在決策方向上出現偏差。一直以來商業(yè)銀行的決策是由個人或小團隊進行的,但是在這些決策中往往有很多依靠過往的經驗、主管判斷的,這就帶來決策缺少扎實的依據,很多決策適合一些地方,但在另外一些地方卻未必很適合。特別是現在科技發(fā)展日新月異,對傳統(tǒng)銀行業(yè)帶來了巨大的沖擊,原來的很多經驗不但不能帶來幫助,甚至會制約決策層的思維,決策遠遠滿足不了前瞻性、有效性和針對性的要求。

而大數據的分析則可以更準確、更快捷地幫助決策層把握脈絡,從而做出具有前瞻性、及時的、精準的決策。從管理執(zhí)行層來看,通過大數據的分析可以更快捷地推出精品產品,更有效地營銷客戶,更高效的使用行內各種資源,提高管理能力,創(chuàng)造更多利潤。通過大數據的分析,管理層能夠分析出哪些產品受哪些客戶的喜好,分析各類客戶都有什么需求,可以根據這些有針對性地開發(fā)一些受客戶歡迎的產品??梢詫σ恍└哔|量的VIP客戶進行分析,對他們的資金利用進行跟蹤,盡量將資金鏈鎖定在行內,利用資金空閑時段進行中間業(yè)務的營銷,可以對這些客戶在貸款的利率上進行一定幅度的優(yōu)惠等等??梢詫鶎有小⒕W點人員效率進行分析、優(yōu)化,對行內的電子設備,如ATM、POS機等進行分析,在使用量龐大的地方可以加大投放,收回一些效率低下的設備等等。從監(jiān)管層來看,通過大數據的分析可以更加直觀、有效地對商業(yè)銀行的合規(guī)經營做出監(jiān)管??梢詮拇髷祿袑Ω鞯氐慕洜I、營銷費用、采購招標等需要進行監(jiān)管的地方進行分析,一旦發(fā)現某個地方有異常情況,就可以進行重點關注、重點監(jiān)管,而不是像以前那樣無差別的監(jiān)管,或者靠經驗去進行監(jiān)管,從而能夠更快、更有效地進行監(jiān)管,提前去發(fā)現問題,制止問題事件的擴大,為商業(yè)銀行減少損失,更有效保障商業(yè)銀行的利益。

5結語

大數據在商業(yè)銀行決策、生產運行和經營管理中越來越重要,構建商業(yè)銀行自身的大數據挖掘、分析系統(tǒng)已經迫在眉睫了,如何構建大數據分析系統(tǒng)、利用分析系統(tǒng)實現數據到價值、利潤的轉化,這需要不斷的研究。本文通過深入分析商業(yè)銀行的數據分析現狀,總結其數據分析的優(yōu)、缺點。并針對側重于安全可靠和快速高效2種不同需求,以及結合商業(yè)銀行現有技術發(fā)展,設計了商業(yè)銀行數據分析系統(tǒng),使商業(yè)銀行從珍貴數據中分析、挖掘對其戰(zhàn)略發(fā)展和業(yè)務經營有巨大推動作用的信息。

參考文獻:

[1]薛良飛.云計算在新型信息化系統(tǒng)中的綜合研究[D].濟南:山東大學,2013.

[2]李斌,黃治國,彭星.利率市場化會降低城市商業(yè)銀行投融資水平嗎?——基于中國24家城市商業(yè)銀行數據的實證研究[J].中南財經政法大學學報,2015(1):40-47.

[3]方先明,蘇曉珺,孫利.我國商業(yè)銀行競爭力水平研究——基于2010—2012年16家上市商業(yè)銀行數據的分析[J].中央財經大學學報,2014(3):31-38.

[4]劉曉茜.云計算數據中心結構及其調度機制研究[D].北京:中國科學技術大學,2011.[5]陸嘉恒.Hadoop實戰(zhàn)[M].北京:機械工業(yè)出版社,2012.

[6]張世明,徐和祥,錢冬明,等.云架構模式下“網絡學習空間人人通”體系探析[J].華東師范大學學報(自然科學版),2014(2):30-39.

[7]江務學,張璟,王志明.云計算及其架構模式[J].遼寧工程技術大學學報(自然科學版),2011(4):575-579.

[8]韓浩.大數據技術在商業(yè)銀行中的運用探討[M].蘇州:蘇州大學,2014.

篇3

一、突出數據分析的意義

統(tǒng)計是研究“數據”的,“數據”和我們平時說的“數”不同,數據是有實際背景的。數據包括數,又不僅僅指數。史寧中教授指出,數據是信息的載體,這個載體包括數,也包括言語、信號、圖像,凡是能夠承載事物信息的東西,都構成數據。

人們進行統(tǒng)計活動都是有目的的,并不是為了統(tǒng)計而統(tǒng)計。通過對統(tǒng)計數據進行分析,幫助人們進行判斷、預測或決策,從而讓人們體會到數據中蘊含的信息,這就是數據分析的意義。

這節(jié)課中,教師精心安排與現實生活聯(lián)系緊密的統(tǒng)計內容,呈現豐富的背景,讓學生充分感受“數據”是說明問題的有力“證據”,充分感受數據分析不僅是有意思的,更是有意義的。

課堂教學伊始,教師沒有平鋪直敘,而是組織學生將對春季降水量的感受和經驗與數學中的問題聯(lián)系起來,從“春雨貴如油”“好雨知時節(jié)”引出他們對兩張折線統(tǒng)計圖的辨析?!按河曩F如油”,這是針對北方的春季降雨而言的,春天降水量不大,雨水顯得很珍貴;而對于南方來說,春天的降水量要比北方大一些。學生利用經驗想象數據,繼而出示兩張圖,學生很自然地將表格中的圖像等數據進行對比分析,即用數據來闡釋經驗,做出判斷。

呈現6~18歲男女生平均身高統(tǒng)計圖,貼近學生的生活,幫助學生發(fā)現數據中蘊含的信息,從數據角度了解學生時期身高變化的特點,有生活味又有數學味。通過對常州、悉尼各月平均氣溫統(tǒng)計圖的分析,了解南半球、北半球的氣溫情況,判斷暑假去澳大利亞旅游帶什么樣的衣服,問題既是現實的又是有趣的。學生提供建議,必須用數據“說話”。對不銹鋼保溫杯和陶瓷保溫杯的保溫效果做出判斷,根據數據進行分析,判斷是科學的、有說服力的。

全課呈現了不同的統(tǒng)計內容,有“大事”,有“小事”,但每一次的分析,都緊扣數據,感受數據分析的意義,體現統(tǒng)計活動的價值,從而激發(fā)學生學習統(tǒng)計知識的興趣,發(fā)展他們的數據分析觀念。

二、注重數據分析的方法

傳統(tǒng)數學主要根據假設和規(guī)定的原則進行計算或推理,而數據分析的方法,卻主要采用歸納來推理。著名數理統(tǒng)計學家陳希孺先生認為,統(tǒng)計方法是一種歸納性質的方法,統(tǒng)計推斷是一種歸納推斷。統(tǒng)計學的研究方法是基于歸納,而傳統(tǒng)數學是基于演繹。我們要認識到,歸納推理得出的結論具有隨機性,與代數、幾何等通過演繹推理得到的結論不同。結論的隨機性,并不說明數據分析的方法有問題,而這正是通過數據分析方法得到的統(tǒng)計結果的特性。

在這節(jié)課中,教師設計的統(tǒng)計內容,在由數據分析方法得到某些結論時,注意體現數據分析方法的特性。

如,我國男女生平均身高的統(tǒng)計圖,這里呈現的數據是根據樣本推斷出來的,體現了局部推斷整體的數據分析方法。把上課班級具體的學生身高與之對照,會有“出入”,教師在學生出現疑義時要給予適度引導:即從總的方面看有其規(guī)律性,但要承認例外個案的存在。

再如,暑假去澳大利亞旅游問題,教師首先呈現2002年常州、悉尼各月平均氣溫統(tǒng)計圖,從中引導學生發(fā)現:悉尼的氣溫變化趨勢和常州正好相反。教師追問:是因為2002年特別冷嗎?再出示從1858年到2002年這145年間悉尼市各月平均氣溫統(tǒng)計圖,學生在對照比較2002年與這145年的數據的過程中,深切體會到了“歸納”的思想,并認識到:對今年的氣溫情況做出預測,僅看去年的情況,是有一定的隨機性和偶然性的,因為每年收集到的數據可能是不同的,所以要將過去的情況綜合起來看。天氣預報,在一定程度上就是基于對過去積累的氣象數據的分析研讀,發(fā)現數據中隱藏的規(guī)律,從而預測將來的天氣變化情況。這里,學生對“歸納”的體驗特別深刻,正是源自教師的精心設計。

又如,北京奧運會的舉辦時間,在考慮天氣因素時,呈現2003、2004、2005、2006年8月份的降水量統(tǒng)計圖,在數據的基礎上形成預測與推論,讓學生體會到數據分析的預測和決策作用。呈現第25~30屆奧運會中國和美國獲得金牌情況的統(tǒng)計表,通過分析近6屆奧運會上中國與美國所獲得金牌的數量,預測下一屆奧運會上中國可能獲得的金牌數量,這也很好地體現了數據分析方法的特性。即,不能簡單地從中國前幾屆奧運會金牌數量總體呈上升趨勢,就斷定下一屆奧運會金牌數還會上升。

從這節(jié)課的教學中,可以看到教師對數據分析方法準確而深刻的認識,進而在教學過程中精妙表達與清晰傳遞。統(tǒng)計教學“教什么”,是值得我們深入研究的。

三、經歷數據分析的過程

數據分析觀念,是一種需要在親身經歷的過程中培養(yǎng)出來的對一組數據的“領悟”,是由一組數據所想到的、所推測到的以及在此基礎上對于統(tǒng)計獨特的思維方法和應用價值的認識。經歷數據分析的過程,要圍繞“數據”做文章,遇到問題“想數據”,分析問題“用數據”,讓學生在看數據時有需求、有目的、有過程、有體會。

哪幅圖是北京各月降水量統(tǒng)計圖?哪幅圖是常州各月降水量統(tǒng)計圖?學生并不是盲目地猜測,而是依據對俗語“春雨貴如油”“好雨知時節(jié)”的理解,并調度自己的經驗,將春季的降水量與其他季節(jié)的降水量進行比較,把兩張降水量統(tǒng)計圖聯(lián)系起來觀察。由此,引導學生對兩幅單式折線統(tǒng)計圖的數據進行辨別、分析。辨別的過程,也就是對表格中的數據進行分析的過程。教師又通過呈現一連串的需要對單式折線統(tǒng)計圖中的數據進行分析比較才能作答的問題,讓學生在感到麻煩、困難的過程中體會到單式折線統(tǒng)計圖的不足,他們會聯(lián)系單式條形統(tǒng)計圖與復式條形統(tǒng)計圖的學習經歷尋思“合并”單式折線統(tǒng)計圖。這也就產生了學習復式折線統(tǒng)計圖的需求,促進學生主動領悟復式折線統(tǒng)計圖的特點,明確其使用的情境。

在分析6~12歲男女生平均身高統(tǒng)計圖的基礎上,讓學生預測12歲之后男女生身高變化的情況。這里,教師關注的是讓學生體會并理解后面的兩條“折線”發(fā)生怎樣的變化,需要再調查數據、分析數據才能做出判斷。之后,對兩條“折線”的比較與解讀充分體現了復式折線統(tǒng)計圖的特點,讓學生體悟到數據有助于分析問題。

買哪一種保溫杯,教師提出問題:不銹鋼保溫杯和陶瓷保溫杯,哪一種保溫效果好一些?教師先讓學生聯(lián)系自己的“經驗”說一說,繼而出示有關數據的統(tǒng)計表。在此基礎上,呈現復式折線統(tǒng)計圖,讓學生更直觀地“看出”哪種保溫杯保溫效果更好。

不同的統(tǒng)計對象,教師一次又一次讓學生面臨具體的問題,通過問題引領,運用數據去分析、解釋?!皵祿笔菍W生發(fā)現、提出、分析、解決問題的好伙伴。數據分析觀念,是在與數據接觸的過程中培養(yǎng)出來的。

這節(jié)課,加強了對圖、表的分析解讀,適當淡化了有關統(tǒng)計圖、表的制作,但也不是不要制作。在合并北京、常州各月降水量的統(tǒng)計圖時,教師完整地演示復式折線統(tǒng)計圖的制作過程,以第一幅圖為標準,再描點、注數、連線,并在學生對圖例、線條表示方法、統(tǒng)計圖的名稱等方面提出修改建議的過程中完善了他們對復式折線統(tǒng)計圖的認識。而在呈現12~18歲男女生平均身高統(tǒng)計表之后,教師放手讓學生根據統(tǒng)計表制作統(tǒng)計圖。我們要認識到,制作統(tǒng)計圖表,是整個統(tǒng)計活動的中間環(huán)節(jié),是作為工具為最終的判斷、預測、決策服務的。適當的畫圖,有助于學生認識圖,讀懂數據表達的信息。制作圖表的過程,也是認識數據的過程。

我們已經形成這樣的認識:統(tǒng)計教學應引導學生經歷完整的收集、整理、描述和分析數據的過程,發(fā)展數據分析觀念。我們還要辯證地認識到:讓學生經歷統(tǒng)計活動的全過程,并不是每一次統(tǒng)計活動都要讓學生經歷全過程,在統(tǒng)計知識與方法的學習過程中,我們可以組織學生有側重地參與統(tǒng)計活動的某一個片段。如果在學習統(tǒng)計的過程中,都是讓學生經歷統(tǒng)計的全過程,并在其中的每一個環(huán)節(jié)平均著力,那教學也就變得牽強附會、形而上學。

篇4

關鍵詞:大數據;數據挖掘;現代百貨業(yè);顧客細分

隨著零售業(yè)信息技術的發(fā)展,如何有效地利用商場信息化帶來的數據成為企業(yè)生存與發(fā)展新的利潤增長點,這是現代百貨業(yè)不得不考慮的問題。華地國際揚州萬家福商城通過建立以客戶為中心的管理信息系統(tǒng),分析會員數據的同時可以指導營銷,幫助挖掘顧客消費行為和規(guī)律, 設計出更加符合顧客需要的商品和服務,在近二十年的系統(tǒng)使用過程中,智能客戶關系管理系統(tǒng)得到不斷完善,真正做到實現顧客細分,精準營銷,極大地增強了企業(yè)自身的競爭力。

一、萬家福會員卡決策支持系統(tǒng)的設計思路

1.確定目標(理解業(yè)務):這是系統(tǒng)模型構建的關鍵一步,將現實問題轉化為數據挖掘的算法,以會員消費數據為基礎,最終實現顧客細分,從而達到有針對性對顧客一對一營銷的目的。

2.關于數據:包括數據準備和數據理解。數據挖掘的前提是要求數據是真實的、大量的、有效的。在確定了目標之后,選擇符合條件的大量數據,對數據進行預處理,包括數據的選擇、整理、清理、異常值的處理、標準化處理過程等。

3.建立顧客細分模型:在研究零售業(yè)顧客細分模型及方法的基礎上,總結出適合萬家福商城比較理想的模式,主要功能是實現顧客細分,同時對顧客的細分結果進行分析,并提出相應的營銷策略。

4.擴展功能:在實現顧客細分的基礎上,進行深層次展望,有針對性地制定營銷策略,為決策提供支持。

二、萬家福會員卡決策支持系統(tǒng)的實踐研究

1.會員資料庫基礎架構設計

⑴會員卡的靜態(tài)數據, 如年齡、性別、職業(yè)、單位郵編、單位地址、手機號碼、興趣愛好、家庭成員等。

⑵會員卡的消費信息,如購物時間、購買品類、金額、頻率等。

⑶會員卡的基礎信息定義,包括卡種、卡類型、保管地點、年齡段、地區(qū)、職業(yè)等。

2.會員決策支持系統(tǒng)及大數據分析

在會員決策系統(tǒng)的大力支持下,管理層可以根據需要對按照不同的屬性劃分的會員卡進行分析,比如通過對卡的類型 ,持卡人的性別、年齡和居住地可以掌握顧客結構及有關變化的趨勢數據,分析顧客的消費行為、尋找新的消費模式等等。

3.根據決策分析支持系統(tǒng)實施會員營銷,發(fā)展、鎖定會員

要想實施精準營銷,關鍵在于目標顧客的篩選,品牌的顧客具備有哪些特征?顧客的購物行為特征是怎樣的?等等,會員決策支持系統(tǒng)有對會員數據強大的智能分析功能,管理者可以通過系統(tǒng)平臺進行判斷、分類,從顧客購買的產品特征判定顧客的消費意識、性別、年齡、購物偏好、行為習慣、家庭情況等,并通過對顧客連續(xù)的購買記錄進行分析并修正原有的判斷。不同品類間的促銷組合也可以用來做精準營銷,通過會員決策支持系統(tǒng)的會員深度分析模塊,可以對品類的關聯(lián)度分析,當某個區(qū)域的商品出現滯銷,但又苦于找不到目標群體時,那么就可以通過商品組合做捆綁銷售,而這種商品組合經過系統(tǒng)的分析為開展營銷活動提供了精準的數據,向顧客傳達準確有效的營銷信息。

4.深度分析及挖掘會員消費行為數據,案例解析

通過決策分析支持系統(tǒng)的查詢和統(tǒng)計分析,我們的目標客戶以白領和中產企業(yè)家為主,這部分群體具有明顯的營銷特點:收入較高且穩(wěn)定、品牌粘性強,對價格不會敏感。維持和提升這部分客戶的品牌忠誠度對上本的發(fā)展至關重要。

第一步,進行消費引導。借助短信功能平臺首先向會員進行生日營銷,告知當天購物享雙倍積分并有禮品贈送。經過一段時間的短信發(fā)送,生日來店的會員明顯增多,參與人數由開始的1、2個到后來的十多個至二十幾個,逐漸增多。

第二步,開展有效的營銷活動。比如,積分營銷,分分禮,禮紛紛。會員持卡消費獲得積分獎勵,積分累計到一定分數將可獲贈禮品。

同時,借助決策分析支持系統(tǒng)提供的強大會員篩選器,幫助客服部門多角度準確篩選營銷群體,進行時點會員營銷。系統(tǒng)提供刷卡贈送、消費實時贈送、累積后贈送等多種促銷方式,以電子優(yōu)惠券、短信的形式精準發(fā)送到會員手中。

三、結語

總體而言,基于數據挖掘技術的會員卡決策分析支持系統(tǒng)可以對零售業(yè)顧客群進行合理的細分,建立顧客細分模型,有針對性地對目標顧客進行一對一營銷,有助于提高營銷活動的針對性和有效性,有助于客戶關系管理的良好實施。隨著信息化的繼續(xù)發(fā)展,必將在數據處理及資源整合,為企業(yè)提供決策支持等方面,發(fā)揮更大的作用。

參考文獻:

[1](美)Michael J A Berry , Gordon SLinoff.數據挖掘技術:市場營銷、銷售與客戶關系管理領域應用[M].機械工業(yè)出版社,2011.

[2]利.數據挖掘與商業(yè)智能完全解決方案[M].北京:電子工業(yè)出版社,2011.

[3]趙濤.商場經營管理:理論、案例、制度、實務――商業(yè)現代化與基礎管理叢書[M].北京工業(yè)大學出版社,2009.

篇5

關鍵詞 海洋環(huán)境;環(huán)境監(jiān)測;數據庫設計

中圖分類號:P71 文獻標識碼:A 文章編號:1671—7597(2013)021-065-01

當今海洋資源被我們廣泛所利用,隨之而來的是海洋的污染及其一系列的環(huán)境問題,為了可持續(xù)發(fā)展,我們必須對海洋環(huán)境的現狀進行有效的監(jiān)測管理,才能更好的保護海洋資源環(huán)境。海洋環(huán)境監(jiān)測是海洋環(huán)境保護的“哨兵”和“耳目”,是關系到海洋環(huán)境保護事業(yè)健康發(fā)展的前提和基礎,是防止和消除海洋環(huán)境污染,減少損害的重要手段。隨著我國對個海洋區(qū)域維權的開展,漁業(yè),石油等生產活動的不斷擴大,長期的,實時的檢測海洋環(huán)境數據,合理的統(tǒng)計數據分析,將為我國開展可持續(xù)發(fā)展戰(zhàn)略,解決海洋污染,保護生態(tài)環(huán)境等活動提供可靠有效地數據基礎,為海洋區(qū)域的災害預防,解讀海洋水文氣象變化,監(jiān)測氣象服務提供重要的依據。

1 系統(tǒng)組成及數據庫設計

1.1 海洋環(huán)境監(jiān)測系統(tǒng)組成

海洋環(huán)境檢測系統(tǒng)主要由海洋環(huán)境監(jiān)測站、數據中心、業(yè)務應用平臺三部分組成。安裝在海洋沿岸及其附屬平臺上的海洋環(huán)境監(jiān)測站,包含一系列數據采集、接收、保存的計算機終端,可以實時檢測海洋環(huán)境觀測數據,這些計算機終端通過海洋岸站與區(qū)域中心之間的數據專線或者無線傳輸網絡將數據發(fā)送至中心數據庫。經過業(yè)務應用系統(tǒng)的處理,不同用戶可以通過web瀏覽器交互查詢調閱單個或多個、實時的或歷史的監(jiān)測資料以及統(tǒng)計數據,業(yè)務平臺管理人員還可以通過基礎應用平臺對設備進行監(jiān)控,對業(yè)務型用戶進行授權管理。

1.2 數據庫選型

海洋環(huán)境監(jiān)測系統(tǒng)以數據服務和數據分析為主要業(yè)務,因此合理高效的數據庫設計是系統(tǒng)建設成功的關鍵之一。穩(wěn)定,高效,二次開發(fā)友好,安全是超大數據量數據庫選型的關鍵點。

中心數據庫擬采用Oracle數據庫。Oracle數據庫屬于關系型數據庫,能在所有主流平臺上運行,并完全支持所有的工業(yè)標準,采用完全開放策略,并提供了基于角色(ROLE)分工的安全保密管理,在數據庫管理功能、完整性檢查、安全性、一致性方面都有良好的表現。Oracle提供了與第三代高級語言的接口軟件PRO*系列,能在C,C++等主語言中嵌入SQL語句及過程化(PL/SQL)語句,對數據庫中的數據進行操縱,加上它有許多優(yōu)秀的前臺開發(fā)工具如 POWER BUILD、SQL*FORMS、VISIA BASIC 等,可以快速開發(fā)生成基于客戶端PC 平臺的應用程序,并具有良好的移植性。

Oracle提供了新的分布式數據庫能力,可通過網絡較方便地讀寫遠端數據庫里的數據,并有對稱復制的技術。能夠有效應對災難,快速恢復生產能力。

1.3 數據庫模塊劃分

海洋環(huán)境檢測系統(tǒng)主要包括以下幾個模塊:用戶模塊,權限管理模塊,系統(tǒng)設置模塊,日志模塊,數據檢測模塊和預警通知模塊。

1.4 數據庫表設計

1.4.1 數據檢測模塊

數據監(jiān)測模塊為海洋環(huán)境監(jiān)測系統(tǒng)的核心模塊,存儲了該系統(tǒng)核心的數據,是系統(tǒng)業(yè)務的基石。本模塊主要包括實時數據表,日記錄表,其相關聯(lián)的表包括監(jiān)測站信息表,監(jiān)測要素信息表,監(jiān)測項目表等,各表關系及詳細信息。

1.4.2 系統(tǒng)設置模塊

系統(tǒng)設置模塊主要用來設定系統(tǒng)運行時的基礎數據,包括站點信息表,監(jiān)測設置表,系統(tǒng)參數設置表等。站點信息表保存各區(qū)域中監(jiān)測站的序號,地理位置,檢測項目,風速風向儀高度等資料數據,每個監(jiān)測站可監(jiān)測多個項目。監(jiān)測設置表保存各站點監(jiān)測的個性化設置,如監(jiān)測人員,維修人員,監(jiān)測時段等等。系統(tǒng)參數設置表保存整個海洋環(huán)境監(jiān)測系統(tǒng)的參數,如訪問時間,最大使用內存,最大連接數,日志文件大小等。

1.4.3 日志模塊

日志模塊用來記錄系統(tǒng)運行狀況,包括各監(jiān)測站點運行日志和業(yè)務系統(tǒng)運行日志兩個部分。監(jiān)測站點日志包括站點運行日志表和站點維護信息表,其中站點日志表主要記錄站點運行狀態(tài),如站點實際開始監(jiān)測時間,實際結束監(jiān)測時間,運行狀況,終端良好率等,站點維護信息表主要記錄站點維護信息,如維護人員,維護時間,維護內容,維護費用等。業(yè)務系統(tǒng)日志包括Web應用服務器日志和系統(tǒng)運行錯誤日志。前者可以通過配置Web應用服務器自身日志模塊來實現,無需將能大量日志記錄保存到數據庫中。后者即系統(tǒng)運行錯誤表主要記錄系統(tǒng)運行發(fā)生的錯誤信息,錯誤堆棧,錯誤時間等,為系統(tǒng)維護人員排除錯誤提供決策信息。該表信息簡單,不再詳述。

1.4.4 預警通知模塊

預警通知模塊用來對需要通知用戶或者管理員的業(yè)務邏輯進行監(jiān)控,促進用戶在合理的時間完成各項任務,并可以對可能發(fā)生的不良情況提前預料和反饋。

基于上述流程,該模塊包括通知表,預警規(guī)則表,郵件表。其中通知表和郵件表用來保存發(fā)送到用戶的通知或郵件,而這相對簡單,不再詳述。

預警表主要字段包括rule_id,rule_name,rule_desc,rule_type,interval_date,weekend_include_flag,status,start_date,weekend_include_flag,status,start_date,end_date,WHO。

1.4.5 用戶管理模塊

用戶管理模塊主要記錄所用系統(tǒng)的使用用戶信息。該模塊包括用戶信息表,系統(tǒng)部門表和用戶部門分配表,表間關系和表詳細信息

2 結束語

海洋環(huán)境監(jiān)測數據庫及WEB 應用平臺設計界面友好明了、操作簡單通用、數據全面豐富、特別是動態(tài)潮汐、風況等要素演變曲線,能極大方便預報員的日常預報及工程設計管理人員使用,不但可以拓寬資料的應用范圍,而且能實現多站數據集中,多單位共享,滿足了用戶的不同需求,在海洋環(huán)境預報,及防災減災等方面可以發(fā)揮重要作用。

篇6

[關鍵詞]多維分析;故障預測;大數據;油氣生產設備

[DOI]10.13939/ki.zgsc.2017.12.243

1 引 言

油氣生產行業(yè)所采用的各類數字化設備較多,隨著行業(yè)的競爭加劇,如何減少設備故障引起的停產時間,如何優(yōu)化采購降低設備故障率,如何提前對故障做出預測以提前應對,是石油企業(yè)所亟須思考和解決的問題。

隨著工業(yè)自動化技術、物聯(lián)網技術、大數據技術在油氣生產行業(yè)的開始應用,為解決上述問題提供了全新的思路。運用大數據技術,可高速有效分析多維度的設備實時運行數據,并結合其他靜態(tài)和動態(tài)信息,對設備的故障進行分析和預測,分析結果為生產、經營和QHSE服務,實現技術手段和管理模式的革新,實現科學決策、卓越運營與安全生產,最終達到可持續(xù)的業(yè)務增長。例如茂名石化探索如何在不改變已知原料屬性下,實現在重整裝置上提高汽油收率最高和汽油辛烷值最高的生產目標。為解決這個問題,采用大數據分析技術,收集了重整裝置近三年的MES、HSE、實時數據庫、腐蝕數據、ITCC、機泵監(jiān)測數據、氣象信息等數據,通過Hadoop建模,對重整原料歷史數據進行主成分聚類分析,形成了典型的原料操作樣本庫,并據此快速確定每種原料類別下的最優(yōu)操作方案。技術人員對近4600個批次的石油原料進行了分析建模,組成了操作樣本庫。通過該方法計算優(yōu)化工藝操作參數,可使汽油收率從89.88%提高到90.10%,是大數據在油氣生產行業(yè)應用的成功例子。

本文擬通過將油氣生產設備故障數據、配套物聯(lián)網采集的工況數據、維修保養(yǎng)記錄數據及工業(yè)自動化數據組合應用于設備故障大數據分析,實現對設備的綜合故障率分析與故障預測,從而為設備采購的最高性價比提供數據支撐,也為預防性維修維護提供決策支持,提升生產運行的安全性和企業(yè)經營效益。

2 大數據分析技術的運用

油氣生產行業(yè)設備數據數量大,并發(fā)處理要求較高,對數據存儲、處理、分析的巨大壓力,要解決海量數據處理的問題就需要引入大數據技術。

Hadoop是目前最流行和功能最強大的一個軟件計算平臺,可以很容易地開發(fā)和運行處理油氣生產過程中的海量數據的分析模型。其核心部分主要包括―HDFS(Hadoop Distributed File System)和基于MapReduce機制的并行算法實現。Hadoop提供的分布式文件系統(tǒng)HDFS是建立在大型集群上可靠存儲大數據集的文件系統(tǒng),具有強容錯性、流式數據訪問與大數據集、硬件和操作系統(tǒng)的異構性的優(yōu)勢。而MapReduce是一種簡化的分布式程序設計模型,用于處理和生成大量數據集。通過該模型,程序自動分布到一個由普通機器組成的超大機群上并發(fā)執(zhí)行。MapReduce通過把對數據集的大規(guī)模操作分發(fā)給網絡上的每個節(jié)點來實現可靠性,每個節(jié)點會周期性地把完成的工作和狀態(tài)信息返回給主節(jié)點,實現大數據的并發(fā)處理。

Hadoop的上述優(yōu)點尤其適合于油氣生產行業(yè)的海量數據分析應用。

3 設備故障率多維分析

設備故障率是評估設備性能優(yōu)劣的一個重要指標。顧名思義,是設備故障運行與正常運行的比率。通過統(tǒng)計的方法可以計算特定個體、特定型號、特定類型或特定廠商的設備的故障信息,對設備時間質量進行評估和橫縱向對比。

在油氣生產中,設備的故障記錄信息是故障率分析的依據,但因為實際運行中各個井站、礦區(qū)的運行情況不同也影響了設備發(fā)生故障的情況,因此還需要引入配套物聯(lián)網采集的工況數據,以及日常的維修保養(yǎng)情況記錄數據,將這些信息進行進一步組合,在Hadoop大數據分析中建模挖掘,得出更精確的設備綜合故障率結果。

本文采用的多維故障率分析,基于3個大類的數據:

(1)設備故障信息:包括設備廠商信息、設備類型、設備型號、設備壽命、運行時間、故障類型、故障次數、故障時長、故障恢復時長等;

(2)物聯(lián)網采集的工況數據:油氣生產設備產量、流量、振動、位移,以及運行環(huán)境溫度、濕度、處理物質腐蝕性等;

(3)維修保養(yǎng)記錄數據:保養(yǎng)級別、保養(yǎng)時間、更換配件比、維修時間、維修級別等數據。

在Hadoop中,根據3類數據的權重、優(yōu)先級,以及每個數據項的占比等,進行大數據分析建模。進而將各個維度的數據輸入到Hadoop的MapReduce框架中,在計算模型中進行分析計算,最后得到分析結果。多維分析過程如圖1所示。

如上表所示,基于大數據分析的油氣生產設備故障分析統(tǒng)計過程是從油饃產中產生的多維數據(故障相關、設備相關、環(huán)境相關、操作相關)中獲取在任意時間間隔內的某項故障相關的統(tǒng)計結果。其統(tǒng)計數據源是多維數據按一定規(guī)則的組合,同時獲得相應的不同維度的統(tǒng)計結果。

下面以例子說明分析全過程。

向MapReduce庫輸入單個設備編號參數、時間區(qū)段參數,向Job Tracker提交統(tǒng)計任務,MapReduce庫將設備故障記錄庫中的數據分為m個分塊。Map Tracker讀取分塊中的設備故障記錄,作為map函數輸入,map函數按設備編號和時間區(qū)段參數,將該分塊內符合條件的設備故障記錄統(tǒng)計出來,結果保存在中間鍵值對中。Reduce Tracker讀取所有Map Tracker產生的中間鍵值對,將其歸并為一組統(tǒng)計記錄,從而得到單位時間內指定設備的故障率,或指定時間范圍內該設備故障次數變化趨勢等信息。

進一步,當輸入參數為設備型號、時間區(qū)段時,Map Tracker調用map函數,將分塊文件中的屬于該設備型號的所有設備列出,結果保存為中間鍵值對,作為下一級MapReduce過程的map函數輸入,在下一級的MapReduce過程中,再使用上例中的過程,過濾不同編號設備在指定時間段內的故障記錄并歸并出相關統(tǒng)計信息。整個過程如圖2所示。

多維分析數據來源正是應用上述MapReduce過程或多次MapReduce過程的迭代,得到最終分析結果。多維數據的故障率分析方法,解決了傳統(tǒng)單一數據對比未考慮實際運行環(huán)境、運行負荷、日常維護頻度等方面的因素,通過組合計算達到分析結果更全面完整的目的,為設備管理、設備采購、巡檢維修等日常管理工作提供更準確的決策輔助。

4 設備故障預測分析

獲得設備綜合故障率結果后,可進一步實現設備的故障預測。對于井口裝置、閥門等控制設備的常規(guī)維護手段多為定期檢修或故障后維修,存在“過修”和“失修”現象,造成生產設備損耗和停產減產風險。通過設備的故障預測預警,在設備正常運轉條件下,能夠分析出潛在故障及原因、實現預知性維修,將能有效減少維修成本、降低非計劃停工風險。

對設備的故障預測預警,通過現場數據采集數據傳輸HDFS的數據存儲對運行狀態(tài)與故障模型進行并行計算大數據分析設備的故障預測幾個步驟實現,如圖3所示。

通過現場的各類傳感器,將重點設備的關鍵參數進行實時采集和傳輸,通過RTU或者DCS等設備,傳輸到Hadoop的HDFS分布式文件系統(tǒng)中,按照流文件格式進行存儲。

設計MapReduce的設備故障預測模型,將幾個采集上來的維度數據進行并行計算分析,分析算法可以Java程序方式實現基本的Map函數和Reduce函數。

(1)MapReduce庫先把預測算法程序的輸入文件劃分為M份(M為用戶定義),每一份通常有16MB到64MB;然后使用fork將用戶進程拷貝到集群內其他機器上。

(2)被分配了Map作業(yè)的Task Tracker,開始讀取對應分片的輸入數據,包括此重點設備的振動、位移、溫度等各個維度的數據。

(3)接著進行Reduce作業(yè)。

(4)當所有的Map和Reduce作業(yè)都完成了,MapReduce函數調用返回預測模型程序的代碼。

通過以上方式,實時獲取設備的振動、溫度、壓力、流量等數據,同時將數據輸入到Hadoop故障預測模型進行實時分析比對,一旦比對類似,則可預測故障的近似發(fā)生時間,從而合理安排預防性維護,從而保證了設備維護更有針對性。

5 結 論

本文通過將與油氣生產設備故障相關的工況數據、故障數據、維修保養(yǎng)等操作數據,作為多維數據源進行組合,輸入到Hadoop大數據分析模型中,利用Hadoop的并行處理優(yōu)勢解決油氣生產設備運行環(huán)境復雜、實時數據量大、影響因素眾多的故障分析難點,為設備的優(yōu)化采購提供依據;同時將故障分析結果進一步導入到故障預測中,也為預防性維修維護提供決策參考,提升油氣生產運行安全和綜合運營效益。

參考文獻:

[1]趙慶周,李勇,田世明.基于智能配電網大數據分析的狀態(tài)監(jiān)測與故障處理方法[J].電網技術,2016(3):774-780.

[2]檀朝|,陳見成,劉志海.大數據挖掘技術在石油工程的應用前景展望[J].中國石油和化工,2015(1):49-51.

[3]李金諾.淺談石油行業(yè)大數據的發(fā)展趨勢[J].價值工程,2013(29):172-174.

篇7

關鍵詞:Web網絡;大數據分類;系統(tǒng);設計

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2017)17-0216-02

我國當前,已經有與Web網絡大數據分類的很多方法研究相繼出現,絕大多數學者也取得了一定的成效。但是基于Web網絡的大數據分類法,此種方法在使用過程中采用了由上到下的方法,分類樹形信息較為混亂,此種數據作為選擇的樣本節(jié)點,在通過決策樹進行決策時,就可以根據相應的計算規(guī)律進行節(jié)點截取。決策樹的歸類方法在具體的使用過程中具備著操作較為簡便、計算程度較輕的優(yōu)點,但是數據拓展效果較差,并且很容易在使用過程中受到噪音的干擾。因此隨之提出了有關網絡大數據處理的方法,即為利用迭代法對數據庫的信息進行全部的獲取,在搜集項集的過程中支持數集的定閾值,根據頻繁獲取的定閾值來獲取用戶所采用的最小置信度。此種方法在使用過程中受到了一定條件的約束,消耗了相對較多的資源。在此種方法之后,提出了基于在對網絡大數據進行計算分類的過程中能夠阿金數據進行樣本處理,經由高緯度的空間對其進行轉換,雖然此種方法能夠將低緯度的線性計算問題轉換為高緯度的線性計算問題,但是在實際的運用過程中卻由于數據的種類受到了一定的限制,分類效果不夠優(yōu)化。通過對上述多種網絡大數據分類的方法進行優(yōu)弊端的分析,進而設計出了一種新型的Web網絡大數據分析系統(tǒng),此種系統(tǒng)能夠在使用過程中采用軟件和計算機硬件兩者相結合的方式,對數據進行分析總結。經過試驗證實,此種系統(tǒng)的應用在使用過程中具備了相對較高的網絡大數據分類性能。

1基于Web網絡大數據分類系統(tǒng)的設計總體結構

在對Web網絡大數據進行分類時,如果只是對大數據進行分類工作可能會在此過程中消耗一定程度的技術資源,與此同時對數據進行分類處理所用的時間也很長,因此不能即時的對網絡大數據進行分類。但是如果只是通過借助計算機硬件設施對大數據進行分類,那么就需要更多的資源配置,從而加大了成本的投入,在配置和管制上也就不太方便了。但是為了能夠使得計算機軟件發(fā)揮它的功能性特點,從而完成Web網絡大數據的劃分,讓軟件處理功能與計算機的硬件特點形成對Web網絡大數據分類系統(tǒng)設計(系統(tǒng)設計結構圖如圖1所示)。

首先如圖所示通過系統(tǒng)的處理器以及軟件部分對Web網絡大數據進行數據采集,經由Web網絡的處理器對所采集的數據進行處理之后,然后經計算機的硬件設施對處理后的數據進行存儲,在對Web網絡數據進行處理的過程中通過軟件處理過程的數據,實現了系統(tǒng)性的數據處理功能,最終經由處理之后,將數據傳輸至存儲板塊,對數據進行存儲,從而完成了一系列的系統(tǒng)性Web網絡大數據分類,供系統(tǒng)管理者對數據進行下一步的處理。

2基于Web網絡大數據分類系統(tǒng)的若干硬件設計

2.1 Web數據采集器

經過圖一所示,要想完成Web網絡大數據的系統(tǒng)分析,重點就在于用何種材質的數據采集器完成對數據的采集過程。在通常情況下通過計算機的網絡接口處安裝計算機的數據采集器硬件設施,從而通過數據采集器向計算機發(fā)送采集到的相關數據。數據采集器的硬件設施(如圖2所示)。

由上圖可知,數據采集器的電源模塊會經由單片機產生電壓,經由REGIN發(fā)送到單片機的電壓調節(jié)器上,從而給單片機提供系統(tǒng)所需的電壓。與此同時使得系統(tǒng)運行所產生的電壓通過系統(tǒng)的輸送程序從而對3v期間進行運用。Web網絡中的被預測信號經由系統(tǒng)的相應調節(jié)之后,使用該單片機將設備上的期間進行轉化,從而經由轉換之后獲取相應的數據,就完成了對Web網絡的數據采集過程。在運行這一系統(tǒng)過程中對數據的采集如果數值過大,那么就需要在該系統(tǒng)的運行過程中考慮多方面的因素,比如對數據采集的選取過程,數據采集器運行過程中進行的電壓轉換等,眾多因素都能夠對數據采集器的功能性軟件產生一定的影響。

2.2 Web網絡處理器

Web網絡處理器也是在對Web網絡大數據進行分類的系統(tǒng)中硬件設施中重要的一個組成部分,網絡處理器主要應用于該系統(tǒng)中對經由上部信息處理之后的大數據進行分類的程序。Web網絡處理器通常對此硬件設備選用的過程中,使用INTEL公司出產的產品,對此硬件進行設計的時候,應該選用綜合性較強并且能夠高效率的對數據進行處理的設備。Web網絡網絡處理器結構圖(如圖3所示)。

經過上圖所示可以得知Web網絡處理器的整個系統(tǒng)運行,是將信息進行采集之后對其進行處理,這個程序是可以進行代碼編程的,而編程所得程序的實用性就在于此種程序將采集的數據進行了存儲,并且將數據進行了分類,從而納入了處理器的程序之中。運用Web網絡處理器對數據進行分類處理,得出的Web網絡數據結果經由系統(tǒng)的數據控制以及與外部硬件存儲設備相連接,從而將處理過后的數據發(fā)送至存儲系統(tǒng)進行保存。

3基于Web網絡大數據分類系統(tǒng)的軟件設計

3.1 Web網絡大數據采集程序

為了對Web網絡大數據進行數據的處理過程,讓數據采集器能夠對Web網絡大數據完成全部的采集過程,則需要對數據的采集源頭進行代碼設計。通過代碼的鏈接從而獲取相應的網頁處理。為了在過程中保證數據的處理完整性,通過編碼的形式對其進行調整。圖4為單片機與AT45DB081的硬件原理圖。

3.2 Web網絡大數據分類程序

為了對Web網絡大數據進行合理的分類,需要在設計過程中對其進行相關數據信息的處理程序實現。那么在對Web進行信息分類的過程中,也就是根據數據的情況進行歸屬分類,從而實現相關代碼如圖5所示。

3.3 Web網絡大數據分類程序的改進

對數據進行分類過程中,Web網絡大數據的分類實效性是整個數據分類過程的重要部分,那么為了保障數據的分類時效性,也就是在第一時間對使用者進行數據分析,提升系統(tǒng)的操作效率,保障Web網絡網絡大數據分類程序的系統(tǒng)效率,從而對其進行代碼改進,實現Web網絡網絡大數據的具體分析。

篇8

關鍵詞:大比例尺基礎;地理信息;數據庫

Abstract: as an important part of the infrastructure, digital city construction in large scale basis to improve the digital city's basic geographic information database construction, enhance the level of social management and public service. Large scale is based on the analysis of fundamental geographic information database construction, on the basis of the whole process to find out in the construction of the key points, and by strengthening the integrity of data, preparing work, promote the automation of processing multiple aspects, such as perfect the construction of database, and to summarize, to find effective and practical method of database construction.

Key words: large scale basis; Geographic information; The database

中圖分類號:P208文獻標識碼:A文章編號:2095-2104(2013)

現在我國很多城市都在實行數字城市建設,按照各個部門提供的信息編制對應的地理信息系統(tǒng)?;A的地理信息就是把城市不同元素各種地理信息歸集到一塊,成為數字信息的載體,它具有涉及范圍寬廣、面向全社會、共享性強、公益性高的特點,是數字城市建設的核心內容,維持系統(tǒng)運行的先決條件。信息源的數目和質量決定著國家信息系統(tǒng)運用技術的深度,而大比例尺基礎的地理信息正是重要的數據信息源,按其制定的地形圖能達到城市不同專項地理信息系統(tǒng)使用的要求,因此要求基礎地理空間數據具有更高的精準性和及時性。

一、地理數據的準備工作

原有的大比例尺基礎地形圖在制定過程中,應按照現有的國家制圖規(guī)定的制度,對每種地形的元素在比例尺不相同如1:500和1:1000的情況下設定符號、種類級別大體保持統(tǒng)一,而很多城市在建立自己的地理信息數據庫的時候在大比例尺基礎地形圖上加入不少國家制圖所規(guī)定條款外的數據信息,例如某棟大樓的高度、特殊建筑的標志、公交站點等便于人們識路。此類數據信息的來源要根據人們在實際生活中的要求進行詳細的收集,并保證數據的準確性。盡管這類城市地理數據信息并未以國家制圖規(guī)定內容提及,但是我們在完善城市地理信息數據庫的時候并不能忽略這些信息,盡可能做到在制定的地形圖上對這些地理信息進行妥善保留,以增加城市地理信息數據庫的內在使用價值。

在建設大比例尺基礎的地理信息數據庫的同時,也要增加對有關數據地理產品規(guī)章制度要求的建設,但是由于我國某些城市地理信息的特殊性,其建設過程較為緩慢,因此想要達到保持地理基礎數據信息的一致性,滿足城市基礎地理信息建設與數據之間輪流使用的要求等目的,就先對有關數據的結構及表格進行籌劃工作。要嚴格按照國家的相關要求找到對數據進行分類的方法。因為數據庫地形圖對比例尺不同的情況下相同的地理要素在地理圖形的表達上有通過點、線、面不同形式來表達的方式,所以我們要對其加以區(qū)分,如可采用在地形圖國家相關規(guī)定標準編碼數字后面根據不同的表達方式加上對應尾數。除此之外,還要設定具體的不同數據類型對地形要素進行描述,對地理信息數據表的每個內容和有關說明進行分析確立,建立明細的地理信息數據庫。為了方便數據庫的自動建設,要把各種比例尺下地理信息與相關數據表格相互聯(lián)系起來,顧及到所用的地理信息軟件平臺以及最后地理信息數據庫結果的數據表達格式,如果要在不同的地理信息處理平臺之間進行數據交換,就應該做好數據接口預先措施。

二、數據執(zhí)行的自動化

在建設大比例尺基礎的地理信息數據庫的時候,可應用計算機系統(tǒng)對地理要素的選擇、整理、轉換等設定一些程序自動化進行處理,并提前制定相關因數來達到目的。進行選擇地形要素時,一要按照建設時的實際情況制定一些列網格對數據進行過濾選擇,按城市地理信息的相關特點對地形要素篩選,以比例尺從1:500向1:2000轉換的情況為例,可在地形圖上舍去下水道、管道以及其附帶內容等相關地形要素,因為這些內容在1:2000地形圖上可不予體現。二是要按照城市地理空間對地形圖相關一部分要素篩選處理,根據有關數據庫建設的標準,對地理要素進行選擇,一般包含面狀地理要素的大小以及線型要素的長短,還是上面的例子,分別確定不同比例下衛(wèi)生間、地下通道、綠化植物、大型工廠設施、天橋、立交橋等地形要素面積的選擇??蓪⒚娣e較小的地形要素用不按地圖比例的簡單易懂的點狀符號來表示,像汽車加油站、寺廟、雷達監(jiān)控室、變壓器、通風設備、亭臺樓閣、走廊、鐘樓等等,在這些地理要素的關鍵部位要用點狀圖形來說明;江河等線型水系、柵欄、層次低的單線道路等等線型地理要素可按照所規(guī)定的長度進行選擇。三要設定相關規(guī)定對地理信息要素較為密集的位置在地形圖上進行取舍,例如市區(qū)繁華地段、旗桿點、交通發(fā)達點等。

在建設大比例尺基礎的地理信息數據庫的時候,對地理信息要素進行整合處理,可將不用區(qū)別的地理信息要素在數據庫中進行整合,不需要其他形式的處理。以1:2000的比例尺向1:10000轉換時,將柵欄、鐵絲網以及籬笆進行整合。

三、建立數據庫的過程

在建設大比例尺基礎的地理信息數據庫的時候,先要對所建數據庫的城市進行地理調查研究,做出相應地形數據的整理分析。不少城市缺少大比例尺基礎地形的數據,對建設數據庫的目的性不強。所以要想建設好數字城市,相關工作人士應按照其地理信息數據形成情況做好研究,在滿足國家相關制度、區(qū)域標準和本行業(yè)有關規(guī)定的基礎上,設立一套數據體系,按照預先方案對數據庫圖層、結構、文件等進行規(guī)劃,確保數據庫的質量,完成大比例尺基礎的地理信息數據庫基本建設。其建設流程如下:對已有的數據分析研究制定數據標準規(guī)范整理相關數據檢測數據轉換數據入庫交換數據共享數據應用數據。

(一)研究數據

由于現有的城市大比例基礎地理信息數據具有存在年限的不同、搜集來源、格式多種化、質量不統(tǒng)一、管理不集中等現象,因此在這些數據入庫之間,要經過詳細的分析研究、整理。

(二)標準的設立

其關鍵部分就是數據庫的規(guī)劃,對整理數據的有關要求、數據保存的措施以及以后數據應用有著重要的影響。因此在設定相關數據庫的標準時,要按照國家、區(qū)域、行業(yè)的相關說明和規(guī)定進行操作。

(三)數據的整合

不但要進行原有數據的處理,還要對收集后的數據按照標準進行有效的處理措施。

(四)數據的檢測

對整理后的數據進行加測,如果存在缺陷,就應該重新進行檢測。主要有地理圖形的檢測和數據屬性方面的檢測。其中存在的難點是由數據量巨大,對于為細小的問題認為難以及時發(fā)現,可采用人工與相關專業(yè)檢測軟件配合來對數據進行檢測。

(五)數據經轉換后進庫

經過整理與檢測的數據并不能直接入庫,還需用相關工具進行格式上面的轉換,保持轉換前后地理信息在各個方面數據一一對應,并沒有地理圖形和數據屬性方面的差異。

四、建立完成的數據庫應具有特點

(一)實用性:能夠滿足用戶的需要,便于使用、管理和維護。

(二)適用性:系統(tǒng)的結構能夠滿足各種類型用戶的需要,運作方便、靈活,方便對數據進行更新。

(三)標準化:數據庫的內容、數據分類、格式編碼、相關精度等方面應采用國家所規(guī)定的標準、行業(yè)的相關規(guī)定、地方的有關制度。

(四)擴充性:數據編碼、應用范圍以及軟硬件設施可進行擴從,以適應未來技術水平的更新。

(五)領先性:應用先進的技術、方法、設備等,提升數據庫的技術水平;最大程度地節(jié)約資金。

(六)開放與共享性:促使基礎地理信息數據庫能夠成為綜合性地理信息資源。

五、加強建設過程中質量

數據庫相關產品的質量方面控制難于數字線劃圖方面的質量控制,因此在建設大比例尺基礎的地理信息數據庫的時候應制定先進有效的質量控制措施來保證數據庫的建設質量,對地理信息數據作出數據精度、數據屬性、地理圖形統(tǒng)一性、良好的數據完備性進行控制,主要有檢測數據的完整程度;檢查地形圖圖層中的空地物類;確保數據庫沒有遺漏要素。對建設設計方案進行檢測,檢測結果數據和相關規(guī)范。無效數據排除,在數據庫建設過程會產生一小部分無效的或者重復的數據,需及時進行排查。

六、結論

基于以上分析論述,為加強城市宏觀管理以及規(guī)劃的需求,建設數字城市可以通過建設大比例尺基礎的地理信息數據庫來實現。隨著比例尺的進一步加大,地形圖所覆蓋的信息更為廣泛,其應用范圍也會進一步擴展,如衛(wèi)星運行圖片、航空飛行軌跡等等。因此,對于城市地理信息數據庫的建設,應作為城市建設基礎設施的重要內容之一。

參考文獻:

[1]葉海波,吳遇文.大比例尺基礎地形數據的建庫與應用[J].測繪,2012(4)

篇9

關鍵詞:多元智能算法;智能處理技術;神經元網絡技術;差分嵌入編程技術;數據挖掘技術

中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2012)29-6996-04

“三流的企業(yè)賣產品,二流的企業(yè)賣技術,一流的企業(yè)賣標準”,這句話形象地概括出了標準在企業(yè)競爭中的決定性作用。放眼當今世界,凡是標準領先的企業(yè),無一不在該行業(yè)中居于主導地位,決定著行業(yè)的進入壁壘或者發(fā)展趨向。企業(yè)標準信息的存貯、處理及應用已越來越廣泛?!岸嘣髽I(yè)標準數據處理分析編寫系統(tǒng)的開發(fā)設計”企業(yè)標準編寫系統(tǒng)能更進一步對各類標準數據進行綜合分析與優(yōu)化處理研究應用。本系統(tǒng)是基本于woindows操作下的具有三層架構的應用程序,具有開放的用戶層、應用層、數據層,并為設計、開發(fā)、集成和部署軟件平臺應用提供基于組件的方法。系統(tǒng)應用又與access數據庫、word系統(tǒng)、其它出版系統(tǒng)等構成多元化集成系統(tǒng)平臺,它具有應用程序調度與管理功能、系統(tǒng)安全管理功能、資源程序分配管理、功能業(yè)務流程制訂與管理功能、流程追蹤與記憶管理功能、數據挖掘功能、多架構平臺集成算法先進等功能。這是一套集管理技術、格式化文檔處理、多項算法技術、海量級數據處理技術于一體的應用開發(fā)系統(tǒng)。在石油生產科研中必將起到積極的作用和得到廣泛的應用,也必將創(chuàng)造更大的經濟效益和社會效益。

1 數據處理算法研究

隨著人工智能科學的深入發(fā)展,對智能控制的研究已演變成多元層次、樹層次與子層次遞階控制的模式。有學者將遺傳算法與人工神經元網絡算法結合,分別提出了“基于人工神經元網絡的遺傳算子自學習”和“基于權值進化的人工神經元網絡”的思想體系。也有學者對遺傳算法、人工神經元網絡算法和免疫算法三者的集成進行了研究。其主要的思想是對外界環(huán)境學習、自適應功能由人工神經元網絡算法完成,算法參數的調節(jié)、升級功能由遺傳算法完成,算法對環(huán)境適應性的評價由免疫算法完成。智能算法的多元化意味著算法復雜度的上升,同時也意味著編程難度和軟件潛在故障率的上升。是否采用多元智能算法及如何采用多元智能算法,需要根據系統(tǒng)性能要求和設計精度進行相關的評估。

1.1 多元算法的研究

多元算法已經成為當前數據挖掘技術和數據處理中重要的方法之一,而求解多元算法模型的關鍵問題是如何確定回歸系數和模糊測度。針對以往使用遺傳算法確定回歸系數和模糊測度時間復雜度高和收斂速度較慢的問題,使用一種高效的搜索算法——粒子群算法求解基于廣義Choquet-積分的多元非線性回歸模型,分別在人工數據和真實數據上進行實驗,對粒子群算法和遺傳算法進行比較.結果表明,用粒子群算法求解該模型不僅比遺傳算法收斂速度快,而且還能搜索到比遺傳算法更優(yōu)的解。

1.2 數據流工程正則算法的研究

數據流工程正則算法的研究以形式化的方法研究數據流分析的基本原理,給出了數據流表達式的概念。并在此概念的基礎上,研制出一個數據流異常的數據流分析算法。算法要求通用性強,運用本算法不難開發(fā)出相應的程序,根據標準工程的特點研發(fā)“正則集的代數”算法并形成表達式,進而完成編寫代碼。

正則集的代數”算法格式如/abc/,其中位于“/”定界符之間的部分就是將要在目標對象中進行匹配的模式。用戶只要把希望查找匹配對象的模式內容放入“/”定界符之間即可。為了能夠使用戶更加靈活的定制模式內容,正則表達式提供了專門的“元字符”。所謂元字符就是指那些在正則表達式中具有特殊意義的專用字符,可以用來規(guī)定其前導字符(即位于元字符前面的字符)在目標對象中的出現模式。

較為常用的元字符包括: “+”, “*”,以及 “?”。其中,“+”元字符規(guī)定其前導字符必須在目標對象中連續(xù)出現一次或多次,“*”元字符規(guī)定其前導字符必須在目標對象中出現零次或連續(xù)多次,而“?”元字符規(guī)定其前導對象必須在目標對象中連續(xù)出現零次或一次。這也是項目的創(chuàng)新點。

1.3 標準工程算法

主要研制出符合標準化GB/T 1.1-2009要求的工程算法及20多個重點子算法。如:GB/T 321 優(yōu)先數和優(yōu)先數系及ISO 圖形算法。通過國標規(guī)定,建立數據庫,然后通過數據挖掘技術方法建立研究算法,然后依數據分析技術建立數據模型,最后完成算法代碼。標準工程用到的數據挖掘技術算法(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、事先不知道的、但又是潛在有用的信息和知識的過程。嵌入式線性算法技術主要用在數據處理、解釋、結果呈現上面。

2 建立多元企業(yè)標準數據處理分析編寫系統(tǒng)的開發(fā)設計

2.2系統(tǒng)的安全設計

本集成系統(tǒng)平臺具有功能完善的信息交換式管理界面(如圖1所示),安全的系統(tǒng)嵌入式接口和強壯的用戶管理,整個軟件系統(tǒng)是一個完整的統(tǒng)一整體平臺,密不可分。使用加強的MD5口令算法加密,各模塊之間緊密集成與子程間具有防拷貝功能。

2.3系統(tǒng)的功能設計

3 結束語

“多元企業(yè)標準數據處理分析編寫系統(tǒng)的開發(fā)設計”的軟件設計規(guī)范, 操作簡單靈活, 適應性強, 易學易用。它是由系統(tǒng)平臺管理模塊、數據庫管理模塊、標準編寫起草模塊、標準編寫修改模塊、標準編寫標準生成模塊、與word集成模塊、Windows API控制模塊、數據導出模塊、數據導入模塊、內存優(yōu)化管理模塊及眾多算法模塊有機地集成在一起而成的綜合系統(tǒng)。它具有程序設計算法的創(chuàng)新性及國際軟件編程的先進理念,軟件投入使用可減輕企業(yè)標準制定者的疲勞強度及軟件學習的效率,提高企業(yè)標準編寫質量及標準制定的工作效率。軟件的推廣使用,得到了企業(yè)標準制定人員的良好應用與用戶好評,在石油行業(yè)企業(yè)標準制定中,獲得良好的工作效率、經濟效益和社會效益,為整個石油行業(yè)生產質量節(jié)能工作做出貢獻。

參考文獻:

[1] 馬有志.鉆井多元數據分析處理系統(tǒng)的開發(fā)設計[J].計算機應用研究,2008(25):2005.

篇10

關鍵詞:教學設計前端分析;數據挖掘;綜合集成方法論;BP神經網絡;層次聚類

中圖分類號:G40-057 文獻標識碼:A 文章編號:1673-8454(2011)21-0084-04

教學設計對于教學工作科學化,提高學習者分析問題、解決問題的能力和培養(yǎng)科學思維能力與科學態(tài)度,促進教育技術的實踐與理論的發(fā)展和適應信息社會發(fā)展的需求等方面都有著重要的意義和價值。前端分析,是教學設計的第一步,它是教學設計過程的基礎,有助于理順問題與方法、目的與手段的關系,其設計的好壞直接影響到后面的一系列工作。在不同的教學設計過程模式中,前端分析的內容略有不同,但主要包括:學習任務、學習需要、學習者特征和學習環(huán)境等。鑒于本文的研究主要定位于學科課程范圍,學習需要和學習任務由學校學科專業(yè)所規(guī)定,學習環(huán)境一般在具體的情境中由授課教師掌握控制,又由于學習者是教學活動的主體,教學設計的一切活動都是為了學習者的學,學生之間存在著共性,也存在著差異,本文只對學習者特征做主要研究。對學生進行分析的目的是了解影響學生學習的認知能力、學習風格、學習動機。通過對學習者三個方面特征的研究,使得教師更好地把握學習者的情況,從而達到更好地實現因材施教、因風格施教的口的。

為了有利于后續(xù)教學設計自動化的探索,本文基于綜合集成(Meta-synthesis)方法論,即將專家的知識與經驗、統(tǒng)計數據和信息資料,以及計算機技術三者有機動態(tài)地結合起來,構成一個高度智能化的人機交互系統(tǒng),把數據挖掘技術應用于數字化后的教學設計前端分析中,列舉出實驗過程,并對實驗結果進行分析。

一、理論基礎

1.數據挖掘技術概述

數據挖掘(Data Mining,DM)是從大量的、不規(guī)則的、含有噪音的數據集中識別出有效的、新穎的、潛在有用的,以及最終可被人理解和利用的模式的高級處理過程。它包含神經網絡、聚類、粗糙集、遺傳算法、決策樹、關聯(lián)規(guī)則等多種技術。它被廣泛應用于各個領域,包括金融業(yè)、零售業(yè)、電信業(yè)及其他科技應用領域。

2.BP神經網絡方法

BP神經網絡(誤差反向傳播網絡)是目前使用最廣泛、發(fā)展最成熟的一種經典的神經網絡模型,它是一種監(jiān)督學習型數據挖掘方法。BP神經網絡是一種多層前饋神經網絡,主要特點是輸入信號前向傳遞,誤差反向傳遞,并且在這個過程中不斷修改權值直到達到目標值。網絡包括:輸入層,隱層和輸出層。其網絡模型如圖1所示:

其中,X1,X2……Xn是輸入信號。YI,Y2……Yn是輸出信號。Wij,wjk代表權值。輸入層輸入信號,輸出層輸出處理結果信號,隱層處理信號,在處理的過程中,根據來自輸出層的反饋信號,權值不斷被調整,當輸出層誤差減小到預定值時,學習結束??梢哉f,BP神經網絡學習的實質就是權值的改變。

3.聚類分析方法

聚類分析是一種無監(jiān)督學習型數據挖掘方法,其實質是建立一利,分類方法,它能夠將一批樣本數據按照他們在性質上的親密程度在沒有先驗知識的情況下自動進行分類。層次聚類是聚類分析中的一種方法,它是根據樣本間的親疏程度,將最相似的樣本結合在一起,以逐次聚合的方式分類,白:到最后所有的樣水成一類。

根據聚類過程的不同,層次聚類法可分為方向相反的兩大類:分解法(自頂向下)和凝聚法(自底向上)。本研究采用的是凝聚法,其基本思想是:(1)假定N個樣本各自成一類,計算類間距(等于各樣本之間的距離);(2)選擇距離最近的兩類并成一個新類:(3)計算新類與其他類問的距離;(4)重復第2步和第3步,這樣每次縮小一類,直到所有樣本都成一類為上。

二、學習者特征測量方法

學習者特征主要包括認知能力、學習風格、學習動機三個方面。

美國著名教育心理學家布魯姆(B.S.Bloom)的“教育目標分類”理論把教學目標分為認知、情感和動作技能三個目標領域,其中認知能力的目標按智力活動的復雜程度由低級到高級又可劃分為六個等級:(1)認記――記憶或重復以前呈現過的信息的能力,也就是知識保持能力;(2)理解――用自己的語言來解釋所獲得的信息的能力;(3)應用――將知識(概念、原理或定律)應用于新情況的能力;(4)分析――把復雜的知識分解為若干個彼此相關的組成部分的能力;(5)綜合――將有關的知識元素綜合起來形成新知識塊或新模式的能力:(6)評價――根據已有知識或給定的標準對事物作出評價和鑒定的能力。根據認知能力的評估與測量方法的不同,可以把學生認知能力值測量方法分為兩種:“小組評估法”和“逐步逼近法。”研究是根據“小組評估法”來設計量表測試學生認知能力的。

學習動機是指直接推動學生進行學習的一種內部動力,是激勵和指引學生進行學習的一種需要,本文學習動機測量是根據王迎、彭華茂、黃榮懷等在《遠程學習者學習動機測量工具的編制與應用》一文中提出的“遠程學習者學習動機問卷”測量的,該問卷是根據奧蘇貝爾的學習動機分類理論從三個動機維度,即認知內驅力、自我提高內驅力和附屬內驅力來制定的一種測驗學生學習動機類型和強度的表格:奧蘇貝爾將學習動機劃分為三個方面:即認知內驅力(cognitive drive)、自我提高內驅力(ego-enhancement drive)以及附屬內驅力(affiliative drive),認知內驅力是一種要求了解和理解的需要,要求掌握知識的需要,以及系統(tǒng)地闡述問題并解決問題的需要,這是一種內部動機;自我提高內驅力是個體因自己的勝任能力或工作能力而贏得相應地位的需要,這是一種外部動機:附屬內驅力:是個體為了保持長者(家長、教師等)的贊許:或認可而表現出來的把學習或工作做好的一種需要,也是一種外部動機。

學習風格(Learmng Stvte)的概念是由美國學者Herbert Thelen于1954年首次提出,在今天的教育和技能培訓領域中,學習風格一詞已是研究者最廣泛使用的概念之一,學習風格理論已成為當今教育心理學一個新的領域。學習風格是學習者持續(xù)一貫的帶有個性特征的學習方式,是學習策略和學習傾向的總和。其測定方法主要有測驗法、行為觀察法、行為評定法和作品分析法。其中,測驗法是最主要的方法。學習風格的測量在手段上可以分為圖式和量表兩種形式。大多數研究者采用量表方式來測定學習風格。學習風格的測量工具可以分為七種二場獨立一場依存類型測量工具、榮格個性

類型測量工具、感知覺類型測量工具、社會互動類型測量工具、多元智能類型測量工具、基于經驗的學習風格測量量表、基于三維模型的學習風格測量量表。所羅門學習風格量表屬于多元智能類型測量工具。多元智力理論是由加德納提出的,但他并未開發(fā)測量工具。所羅門學習風格量表(也稱Felder-Si/verman量表)是由Feldel和Soloman于1997年開發(fā)的一種用來測量學生學習風格類型的量表,是教育領域比較有權威的學習風格量表。所羅門(Barbara A.Soloman)從信息加工感知、輸入、理解四個方面將學習風格分為4個組對8種類型,它們是:活躍型與沉思型、感悟型與直覺型、視覺型與言語型、序列型與綜合型,比較全面地反映了學習者的學習風格,且具有很強的操作性,可以較好地進行學習風格的調試。因此,本文中學習風格測量選用“所羅門學習風格量表”測量。

三、調查問卷結果

本研究的調查對象是云南大學2008屆職業(yè)與繼續(xù)教育學院市場營銷和財會專業(yè)現代教育技術學課程的89名本科生的認知能力、學習動機和學習風格。調查問卷共89份,經篩選整理后,有效問卷為89份?表1、2、3為問卷處理后的部分數據。

四、層次聚類方法分類

利用SPSS軟件,用層次聚類分析法對上述問卷數據進行聚類得到分類結果,然后把結果反饋給被調查者,再由被調查者和專家對結果進行核實、探討,取得共識,接下來對可疑或不合理的數據進行相應的調整,如此反復修改,最后形成用于接下來的實驗研究中的學生特征分類結果。其中,把認知能力分為較強和一般兩類,學習動機分為較強、中等和較弱三類。

學習風格的測量結果可以直接用于描述學習者,故不做進一步研究。

五、認知能力數據分析預測

1.BP網絡設計

首先,需要獲得網絡的輸入和目標樣本。根據上面得到的學生特征分類結果,選取其中30組作為訓練樣本、樣本被分為較強組和一般組。

接下來確定網絡結構,根據Kohnogorov定理,采用一個Nx(2N+I)xM的3層BP網絡作為狀態(tài)分類器。其中,N表示輸入特征向量的分量數,M表示輸出狀態(tài)類別總數。對于本例,N=6。為了簡化網絡,用(1,1)表示較強狀態(tài),(1,0)表示一般狀態(tài)。這樣一來,就可以在網絡中只設計兩個輸入神經元表示這兩種狀態(tài)類別。由此可得,該BP網絡結構為:輸入層有6個神經元,中間層有13個神經元,輸出層有2個神經元。按照一般的設計方案,中間層神經元的傳遞函數為s型正切函數,輸出層神經元的傳遞函數為S型對數函數,是因為該函數為0-1麗數(后面我們必須將樣本數據歸一化到0-1內),正好滿足狀態(tài)類別的輸出要求。

令P表示網絡的輸入樣本向量,T表示網絡的目標向量,由上表可得

P=[81 82 69 78 65 46、69 68 65 72 72 53,79 92 56 67 78 61、

79 60 62 69 81 60 82 85 70 82 80 62 66 g4 69 63 85 59,

80 90 75 78 79 51,90 93 63 88 77 59

69 78 60 76 83 57,……]

T=[1 1 1 1 1 1 1 1,1 1 1 1,1 1 1 1 1 1,1 1 1 1,1 1,1 1 1 1 1 1

1 0 1 n 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 10

利用如下代碼建立一個符合以上要求的BP網絡。網絡的訓練函數為trainhn,學習函數取默認值learngdm,性能函數取默認值mse。其中麗數mlnnaax設定了輸入向量元素的閾值范圍。

net=newff(minmax(P),[13,2],{tansig','logsig”),’trainlml;

2.網絡訓練

net=train(net,P,T)

訓練結果為:

TRAINLM,Epoch 0/50,MSE 0 730893/0.001,Gra-dient 1.60962/le-010

TRAINLM,Epoch 7/50,MSE 0.000444178/0.001,Gradient 0.0902879/le-010

TRAINLM,Performance goa]met,

可見,經過7次訓練后,網絡誤差達到了設定的最小值,結果如圖2所示。

3.網絡測試與運用

網絡測試的目的是為了確定網絡是甭滿足實際應用的需求。選取7組“較強”狀態(tài)數據和3組“一般”狀態(tài)數據作為測試數據。利用上面設計的網絡,判別它們分別屬于哪一種狀態(tài)。運行結果如圖3所示:

由此可見,前7組數據預測其為“較強”狀態(tài),后3組數據預測其為“一般”狀態(tài),這與實際情況相符合,說明所設計的網絡是合理的,可以投入運用。

六、學習動機數據分析預測

學習動機在BP網絡設計、網絡訓練、網絡測試與應用上的方法與認知能力相似,故不再贅述。在此只給出網絡的目標樣本訓練的結果圖(圖4)、測試樣本(表4)和測試結果(圖5)。

目標樣本為:

由此可見,前2組數據預測其為“較強”狀態(tài),第3組數據預測其為“中等”狀態(tài),第4組不能判斷其狀態(tài)情況,第5組數據預測其為“中等”狀態(tài),第6組數據預測其為“較弱”狀態(tài),其中,第1、2、3、6組數據預測結果與實際相符合,第4、5組預測結果與實際情況不符合,故神經網絡預測成功率為66.7%,基本可以使用。

七、小結

教學設計前端分析是一個復雜的問題,本文以從定性到定量綜合集成方法為主,在大量實驗數據的基礎上,選用數據挖掘技術中的BP神經網絡和層次聚類分析對教學設計前端分析中的認知能力和學習動機做了研究,系統(tǒng)預測成功率較高,這對于進一步開展后續(xù)的教學設計研究及實現教學設計自動化的研究起著很好的鋪墊作用。

參考文獻:

[1]于景元,涂元季從定性到定量綜合集成方法――案例研究U]系統(tǒng)工程理論與實踐,2002(5):2.

[2]陳文偉,陳晟知識工程與知識管理[M].北京:清華大學出版社,2010:165.

[3]韓力群人工神經網絡教程[M].北京北京郵電大學出版社,2006:59-64.

[4]楊曉明SPSS在教育統(tǒng)計中的應用[M].北京:高等教育出版社,2004:247.

[5]瞿俊,基于重疊度的層次聚類算法研究及其應用[D].福建:廈門大學,2007.

[6]羅伯特?M?加涅學習的條件[M].北京:人民教育出版社,1985.

[7]張正蘭,張明,蔡紹稷建造認知型學生模型的研究[J].南京師大學報(自然科學版),1997,20(1):2-4.

[8]陳琦,劉孺德當代教育心理學[M].北京:北京師范大學出版社,1997:120.

[9]王迎,彭華茂,黃榮懷遠程學習者學習動機測量工具的編制與應用U1開放教育研究,2006,12(5):1-4

[10]李淑霞成功遠程學習者研究綜述[J].成功(教育),2007.

[11]陳晶,李玉斌,劉家勛.網絡遠程學習者特征分析方法初探[J].現代遠程教育研究,2006(5).

[12]龍雪梅WBI設計中的學習風格分析[J].西南師范大學學報,2001(8):480-483.

[13]陳麗遠程教育學基礎[M].北京:高等教育出版社,2004(7).