大數(shù)據(jù)分析范文
時(shí)間:2023-04-06 11:43:51
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇大數(shù)據(jù)分析,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
數(shù)據(jù)分析:從挖金土豆到篩金沙
大數(shù)據(jù)之所以成為業(yè)界的熱點(diǎn),是因?yàn)楝F(xiàn)在做數(shù)據(jù)分析的價(jià)值越來(lái)越大,在Hadoop等技術(shù)的支持下,成本相對(duì)越來(lái)越低。對(duì)于企業(yè)做數(shù)據(jù)分析的價(jià)值和方法的前后變化,Informatica公司大中國(guó)區(qū)首席產(chǎn)品顧問(wèn)但彬在論壇上,用一個(gè)非常生動(dòng)形象的比喻做了說(shuō)明:“如果將做數(shù)據(jù)分析比喻成開(kāi)采金礦,原來(lái)我們所做的是用挖掘機(jī)挖金土豆,而現(xiàn)在則是用篩子來(lái)篩金沙。因?yàn)楝F(xiàn)在大量分布在社交網(wǎng)絡(luò)的數(shù)據(jù),對(duì)企業(yè)而言就是就像是大量的金沙,分布廣泛而分散。如果能用低成本的方法篩出金沙,是非常有價(jià)值且值得做的事情?!?/p>
但彬介紹,Informatica作為一家數(shù)據(jù)集成公司,更關(guān)注的是如何把來(lái)自各個(gè)地方的大數(shù)據(jù),通過(guò)像抽水機(jī)的泵一樣的裝置整合到需要的程度和地方。Informatica2011年完成了近8億元的收入,這也是對(duì)大數(shù)據(jù)市場(chǎng)火熱程度的一個(gè)印證。
Informatica主要從四個(gè)方向考慮大數(shù)據(jù)處理的一些問(wèn)題:第一,大數(shù)據(jù)的集成,即從數(shù)據(jù)種類的多樣性方面,整合所有來(lái)源的所有數(shù)據(jù)類型,不管是來(lái)自交易系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),社交網(wǎng)絡(luò)的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),還是來(lái)自RFID讀卡器的感應(yīng)數(shù)據(jù);第二,保障數(shù)據(jù)的權(quán)威、可信性,保障數(shù)據(jù)安全,實(shí)現(xiàn)可重復(fù)利用、一致的數(shù)據(jù)質(zhì)量;第三是實(shí)現(xiàn)數(shù)據(jù)的自助式服務(wù),消除手工操作帶來(lái)的錯(cuò)誤,提高生產(chǎn)率,允許分析員通過(guò)基于瀏覽器的工具直觀地定義和校驗(yàn)從源到目標(biāo)的處理流程,以此自動(dòng)生成映射邏輯,交由開(kāi)發(fā)人員部署運(yùn)行;第四是自適應(yīng)服務(wù),通過(guò)多協(xié)議數(shù)據(jù)配置、集成數(shù)據(jù)質(zhì)量等手段實(shí)現(xiàn)交付適應(yīng)不同項(xiàng)目需求的數(shù)據(jù)。
從交易到交互,從互聯(lián)網(wǎng)行業(yè)到傳統(tǒng)行業(yè),大數(shù)據(jù)的滲透力和影響力不容小覷。在Teradata大中華區(qū)首席架構(gòu)師張新宇看來(lái),除了數(shù)據(jù)管理,更重要的是數(shù)據(jù)分析,利用新的分析方法,比如通過(guò)使用Map Reduce(編程語(yǔ)言可以是Java/Python/Perl/C/C++)新分析框架,提供針對(duì)多種數(shù)據(jù)的并行處理能力等,實(shí)現(xiàn)大數(shù)據(jù)的洞察力是更關(guān)鍵的。
北京賽迪時(shí)代信息產(chǎn)業(yè)股份有限公司存儲(chǔ)工程服務(wù)事業(yè)部總經(jīng)理李降龍也介紹,大數(shù)據(jù)帶來(lái)的挑戰(zhàn)在于怎樣實(shí)時(shí)處理這些數(shù)據(jù),通過(guò)虛擬化搭建一個(gè)計(jì)算和存儲(chǔ)資源池,以彈性架構(gòu)有效地合理分配和使用它們,并建立合理應(yīng)用系統(tǒng),使大數(shù)據(jù)得到最好的管理和使用,才能發(fā)揮大數(shù)據(jù)的價(jià)值。論壇上民族證券CIO顏陽(yáng)也分享了證券公司對(duì)于大數(shù)據(jù)的理解以及他們所做輿情分析的大數(shù)據(jù)應(yīng)用。
職場(chǎng)新貴:數(shù)據(jù)科學(xué)家
針對(duì)大數(shù)據(jù)而生的新一代分析工具――Map Reduce近年來(lái)備受關(guān)注,它一次遍歷數(shù)據(jù),連接列表順序分析,而不需要像傳統(tǒng)的SQL那樣為了排序需要對(duì)表做自關(guān)聯(lián)。Map Reduce在數(shù)字營(yíng)銷優(yōu)化、社交網(wǎng)絡(luò)及關(guān)系分析、欺詐檢測(cè)及預(yù)防、設(shè)備數(shù)據(jù)分析等場(chǎng)景中都有非常好的應(yīng)用。
除了原有的關(guān)系型數(shù)據(jù)分析,結(jié)合非關(guān)系型數(shù)據(jù)(NoSQL)的探索性分析的需求在企業(yè)內(nèi)部越來(lái)越旺盛,如此一來(lái),一種新的IT職業(yè)――數(shù)據(jù)科學(xué)家會(huì)越來(lái)越火。
篇2
通過(guò)一系列收購(gòu),EMC已經(jīng)建立了一條比較完善的大數(shù)據(jù)產(chǎn)品線。在此基礎(chǔ)上,EMC拋出了大數(shù)據(jù)之旅的三段論。
第一關(guān):構(gòu)建云基礎(chǔ)架構(gòu)
大數(shù)據(jù)分析和處理的基礎(chǔ)是完善的云基礎(chǔ)架構(gòu),主要包括大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)分析兩個(gè)平臺(tái)。
EMC大數(shù)據(jù)存儲(chǔ)平臺(tái)的兩大支柱產(chǎn)品是Isilon集群NAS以及Atmos海量智能存儲(chǔ)。Isilon集群NAS是EMC兩年前收購(gòu)的產(chǎn)品,具有很強(qiáng)的橫向擴(kuò)展能力,使用起來(lái)非常方便。目前,Isilon集群NAS被用于許多云存儲(chǔ)的項(xiàng)目。Atmos海量智能存儲(chǔ)可以很好地支持分布式大數(shù)據(jù)計(jì)算。許多電信運(yùn)營(yíng)商基于Atmos構(gòu)建了公有云系統(tǒng),其部署非常簡(jiǎn)單,而且性價(jià)比很高。
EMC的大數(shù)據(jù)解決方案分成純軟件和軟硬件一體兩種。Isilon集群NAS與Greenplum軟件組成了一體化解決方案。蔡漢輝介紹說(shuō):“Isilon集群NAS目前主要作為大數(shù)據(jù)存儲(chǔ)平臺(tái),可與Greenplum、Hadoop結(jié)合,但同時(shí)也會(huì)兼顧傳統(tǒng)存儲(chǔ)應(yīng)用。為了更好地支持大數(shù)據(jù)和云服務(wù),Isilon集群NAS在今年底還會(huì)開(kāi)放API,讓更多第三方的廠商能基于Isilon集群NAS平臺(tái)進(jìn)行開(kāi)發(fā)?!?/p>
EMC大數(shù)據(jù)分析平臺(tái)的核心是兩年前收購(gòu)得來(lái)的Greenplum的產(chǎn)品,主要包括Greenplum Database(支持結(jié)構(gòu)化數(shù)據(jù)庫(kù))和Greenplum HD(支持Hadoop)。蔡漢輝介紹說(shuō):“Greenplum大數(shù)據(jù)分析平臺(tái)可以實(shí)時(shí)處理任何來(lái)源的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。Greenplum不僅可以處理PB級(jí)的數(shù)據(jù),而且處理速度可以達(dá)到10TB/h?!?/p>
第二關(guān):實(shí)現(xiàn)社交化服務(wù)
構(gòu)建高性能、可靠、靈活的大數(shù)據(jù)分析平臺(tái)是第一步,接下來(lái),用戶要構(gòu)建數(shù)據(jù)處理的協(xié)作平臺(tái),建立自助服務(wù)的環(huán)境。EMC把這個(gè)階段稱為社交化階段。
2012年3月,EMC了首個(gè)用于大數(shù)據(jù)的社交工具集Greenplum Chorus,使得數(shù)據(jù)科學(xué)家可以通過(guò)類似Facebook的社交方式進(jìn)行協(xié)作。Greenplum Chorus是EMC中國(guó)研發(fā)團(tuán)隊(duì)主導(dǎo)開(kāi)發(fā)的產(chǎn)品。Greenplum Chorus基于開(kāi)放的架構(gòu),是一個(gè)用于數(shù)據(jù)挖掘和協(xié)作分析的流程平臺(tái)。Greenplum Chorus包括數(shù)據(jù)探索、個(gè)人項(xiàng)目工作空間(又稱個(gè)人沙盒)、數(shù)據(jù)分析和幾個(gè)主要環(huán)節(jié)。
Greenplum Chorus開(kāi)發(fā)主管莊富任介紹了Greenplum Chorus的工作流程:Greenplum Chorus提供了強(qiáng)大的搜索引擎,可以快速尋找到數(shù)據(jù),并將這些數(shù)據(jù)進(jìn)行關(guān)聯(lián),從而實(shí)現(xiàn)數(shù)據(jù)采集的可視化;采集來(lái)的數(shù)據(jù)被放到個(gè)人沙盒中進(jìn)行處理,這個(gè)處理過(guò)程不會(huì)影響整個(gè)數(shù)據(jù)庫(kù)的運(yùn)行;在協(xié)作分析階段,數(shù)據(jù)分析人員可以共享工作空間、代碼,協(xié)同工作兼具靈活性和安全性;最后,相關(guān)的處理結(jié)果被出來(lái)。上述處理過(guò)程將循環(huán)往復(fù)。
Greenplum Chorus未來(lái)將走向開(kāi)源。EMC已經(jīng)了一個(gè)名為OpenChorus的計(jì)劃,其目標(biāo)是促進(jìn)技術(shù)創(chuàng)新,同時(shí)促進(jìn)那些運(yùn)行在Greenplum Chorus平臺(tái)上的協(xié)作的、社交化的數(shù)據(jù)應(yīng)用的普及。2012年下半年,EMC還將公布Greenplum Chorus源代碼,讓更多人加入到Greenplum Chorus陣營(yíng)中來(lái)。
第三關(guān):敏捷開(kāi)發(fā)服務(wù)
大數(shù)據(jù)處理的第三個(gè)階段就是構(gòu)建一個(gè)敏捷的開(kāi)發(fā)環(huán)境,用于實(shí)時(shí)決策,并且更好地支持大數(shù)據(jù)應(yīng)用程序。
從形式上看,傳統(tǒng)的大數(shù)據(jù)方案包括打包方案和定制化開(kāi)發(fā)兩種。打包方案具有高效率、低成本的優(yōu)勢(shì),但是需要精確的數(shù)據(jù)模型。定制化開(kāi)發(fā)可以實(shí)現(xiàn)應(yīng)用的創(chuàng)新,但是實(shí)施起來(lái)難度大,周期長(zhǎng),而且價(jià)格昂貴。EMC希望為用戶提供一種敏捷開(kāi)發(fā)的方式,在充分發(fā)揮上述兩種方案優(yōu)勢(shì)的同時(shí)彌補(bǔ)其不足。為此,2012年3月,EMC收購(gòu)了Pivotal Labs公司。Pivotal Labs是一家私營(yíng)的敏捷軟件開(kāi)發(fā)服務(wù)和工具提供商。
篇3
大數(shù)據(jù)分析技術(shù)給信息安全領(lǐng)域帶來(lái)了全新的解決方案,但是如同其它領(lǐng)域一樣,大數(shù)據(jù)的功效并非簡(jiǎn)單地采集數(shù)據(jù),而是需要資源的投入,系統(tǒng)的建設(shè),科學(xué)的分析。Gartner在2013年的報(bào)告中指出,大數(shù)據(jù)技術(shù)作為未來(lái)信息架構(gòu)發(fā)展的十大趨勢(shì)之首,具有數(shù)據(jù)量大、種類繁多、速度快、價(jià)值密度低等特點(diǎn)。將大數(shù)據(jù)技術(shù)應(yīng)用與信息安全領(lǐng)域可實(shí)現(xiàn)容量大、成本低、效率高的安全分析能力。
1.1信息安全分析引入大數(shù)據(jù)的必要性
大數(shù)據(jù)具有“4V”的特點(diǎn):Volume、Variety、Velocity和Value,可實(shí)現(xiàn)大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數(shù)據(jù)的處理和分析要求,將大數(shù)據(jù)應(yīng)用于信息安全領(lǐng)域能夠有效的識(shí)別各種攻擊行為或安全事件,具有重大的研究意義和實(shí)用價(jià)值。隨著企業(yè)規(guī)模的增大和安全設(shè)備的增加,信息安全分析的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)。數(shù)據(jù)源豐富、數(shù)據(jù)種類多、數(shù)據(jù)分析維度廣;同時(shí),數(shù)據(jù)生成的速度更快,對(duì)信息安全分析應(yīng)答能力要求也相應(yīng)增長(zhǎng)。傳統(tǒng)信息安全分析主要基于流量和日志兩大類數(shù)據(jù),并與資產(chǎn)、業(yè)務(wù)行為、外部情報(bào)等進(jìn)行關(guān)聯(lián)分析?;诹髁康陌踩治鰬?yīng)用主要包括惡意代碼檢測(cè)、僵木蠕檢測(cè)、異常流量、Web安全分析等;基于日志的安全分析應(yīng)用主要包括安全審計(jì)、主機(jī)入侵檢測(cè)等。將大數(shù)據(jù)分析技術(shù)引入到信息安全分析中,就是將分散的安全數(shù)據(jù)整合起來(lái),通過(guò)高效的采集、存儲(chǔ)、檢索和分析,利用多階段、多層面的關(guān)聯(lián)分析以及異常行為分類預(yù)測(cè)模型,有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動(dòng)性。而且,大數(shù)據(jù)分析涉及的數(shù)據(jù)更加全面,主要包括應(yīng)用場(chǎng)景自身產(chǎn)生的數(shù)據(jù)、通過(guò)某種活動(dòng)或內(nèi)容“創(chuàng)建”出來(lái)的數(shù)據(jù)、相關(guān)背景數(shù)據(jù)及上下文關(guān)聯(lián)數(shù)據(jù)等。如何高效合理的處理和分析這些數(shù)據(jù)是安全大數(shù)據(jù)技術(shù)應(yīng)當(dāng)研究的問(wèn)題。
1.2安全大數(shù)據(jù)分析方法
安全大數(shù)據(jù)分析的核心思想是基于網(wǎng)絡(luò)異常行為分析,通過(guò)對(duì)海量數(shù)據(jù)處理及學(xué)習(xí)建模,從海量數(shù)據(jù)中找出異常行為和相關(guān)特征;針對(duì)不同安全場(chǎng)景設(shè)計(jì)針對(duì)性的關(guān)聯(lián)分析方法,發(fā)揮大數(shù)據(jù)存儲(chǔ)和分析的優(yōu)勢(shì),從豐富的數(shù)據(jù)源中進(jìn)行深度挖掘,進(jìn)而挖掘出安全問(wèn)題。安全大數(shù)據(jù)分析主要包括安全數(shù)據(jù)采集、存儲(chǔ)、檢索和安全數(shù)據(jù)的智能分析。(1)安全數(shù)據(jù)采集、存儲(chǔ)和檢索:基于大數(shù)據(jù)采集、存儲(chǔ)、檢索等技術(shù),可以從根本上提升安全數(shù)據(jù)分析的效率。采集多種類型的數(shù)據(jù),如業(yè)務(wù)數(shù)據(jù)、流量數(shù)據(jù)、安全設(shè)備日志數(shù)據(jù)及輿情數(shù)據(jù)等。針對(duì)不同的數(shù)據(jù)采用特定的采集方式,提升采集效率。針對(duì)日志信息可采用Chukwa、Flume、Scribe等工具;針對(duì)流量數(shù)據(jù)可采用流量景象方法,并使用Storm和Spark技術(shù)對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和分析;針對(duì)格式固定的業(yè)務(wù)數(shù)據(jù),可使用HBase、GBase等列式存儲(chǔ)機(jī)制,通過(guò)MapReduce和Hive等分析方法,可以實(shí)時(shí)的對(duì)數(shù)據(jù)進(jìn)行檢索,大大提升數(shù)據(jù)處理效率。(2)安全數(shù)據(jù)的智能分析:并行存儲(chǔ)和NoSQL數(shù)據(jù)庫(kù)提升了數(shù)據(jù)分析和查詢的效率,從海量數(shù)據(jù)中精確地挖掘安全問(wèn)題還需要智能化的分析工具,主要包括ETL(如預(yù)處理)、統(tǒng)計(jì)建模工具(如回歸分析、時(shí)間序列預(yù)測(cè)、多元統(tǒng)計(jì)分析理論)、機(jī)器學(xué)習(xí)工具(如貝葉斯網(wǎng)絡(luò)、邏輯回歸、決策樹(shù)、隨機(jī)森利)、社交網(wǎng)絡(luò)工具(如關(guān)聯(lián)分析、隱馬爾可夫模型、條件隨機(jī)場(chǎng))等。常用的大數(shù)據(jù)分析思路有先驗(yàn)分析方法、分類預(yù)測(cè)分析方法、概率圖模型、關(guān)聯(lián)分析方法等??墒褂肕ahout和MLlib等分析工具對(duì)數(shù)據(jù)進(jìn)行挖掘分析。綜上,一個(gè)完備的安全大數(shù)據(jù)分析平臺(tái)應(yīng)自下而上分為數(shù)據(jù)采集層、大數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)挖掘分析層、可視化展示層。主要通過(guò)數(shù)據(jù)流、日志、業(yè)務(wù)數(shù)據(jù)、情報(bào)信息等多源異構(gòu)數(shù)據(jù)進(jìn)行分布式融合分析,針對(duì)不同場(chǎng)景搭建分析模型,最終實(shí)現(xiàn)信息安全的可管可控,展現(xiàn)整體安全態(tài)勢(shì)。
2安全大數(shù)據(jù)分析的典型應(yīng)用
2.1基于用戶行為的不良信息治理
中國(guó)移動(dòng)開(kāi)展了基于大數(shù)據(jù)的不良信息治理工作,主要針對(duì)垃圾短信和騷擾詐騙電話開(kāi)展基于異常行為的大數(shù)據(jù)分析。通過(guò)開(kāi)源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數(shù)據(jù)分析平臺(tái),采集用戶的行為數(shù)據(jù),構(gòu)建用戶行為分析模型;分別提出了異常行為分類預(yù)測(cè)模型、統(tǒng)計(jì)預(yù)測(cè)分析模型、社交網(wǎng)絡(luò)分析模型等,將用戶的行為數(shù)據(jù)輸入到模型中,可以精準(zhǔn)地挖掘出違規(guī)電話號(hào)碼,并且發(fā)現(xiàn)違規(guī)號(hào)碼與正常號(hào)碼之間存在大量相異的行為特征。通過(guò)用戶的行為,構(gòu)建多維度的用戶畫(huà)像數(shù)據(jù)庫(kù),支撐全方位的大數(shù)據(jù)不良信息治理服務(wù),支撐大數(shù)據(jù)不良內(nèi)容的智能識(shí)別等。實(shí)踐表明,大數(shù)據(jù)分析技術(shù)能夠挖掘出更多潛在的違規(guī)號(hào)碼,是對(duì)現(xiàn)有系統(tǒng)的有效補(bǔ)充。除此之外,中國(guó)移動(dòng)還將大數(shù)據(jù)技術(shù)應(yīng)用在安全態(tài)勢(shì)感知、手機(jī)惡意軟件檢測(cè)和釣魚(yú)網(wǎng)站的分析中,提升了現(xiàn)有系統(tǒng)的分析能力。
2.2基于網(wǎng)絡(luò)流量的大數(shù)據(jù)分析
在互聯(lián)網(wǎng)出口進(jìn)行旁路流量監(jiān)控,使用Hadoop存儲(chǔ)及Storm、Spark流分析技術(shù),通過(guò)大數(shù)據(jù)分析技術(shù)梳理業(yè)務(wù)數(shù)據(jù),深度分析所面臨的安全風(fēng)險(xiǎn)。主要分析思路是采集Netflow原始數(shù)據(jù)、路由器配置數(shù)據(jù)、僵木蠕檢測(cè)事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點(diǎn)分析及協(xié)議還原等方法,進(jìn)行Web漏洞挖掘、CC攻擊檢測(cè)、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。
2.3基于安全日志的大數(shù)據(jù)分析
基于安全日志的大數(shù)據(jù)分析思路主要是融合多種安全日志,進(jìn)行數(shù)據(jù)融合關(guān)聯(lián)分析,構(gòu)建異常行為模型,來(lái)挖掘違規(guī)安全事件。主要的安全日志包含Web日志、IDS設(shè)備日志、Web攻擊日志、IDC日志、主機(jī)服務(wù)器日志、數(shù)據(jù)庫(kù)日志、網(wǎng)管日志、DNS日志及防火墻日志等,通過(guò)規(guī)則關(guān)聯(lián)分析、攻擊行為挖掘、情景關(guān)聯(lián)分析、歷史溯源等方法,來(lái)分析Web攻擊行為、Sql注入、敏感信息泄露、數(shù)據(jù)分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應(yīng)用場(chǎng)景?;诎踩罩镜拇髷?shù)據(jù)分析已經(jīng)在國(guó)際上有廣泛的應(yīng)用。如IBMQRadar應(yīng)用整合分散在網(wǎng)絡(luò)各處的數(shù)千個(gè)設(shè)備端點(diǎn)和應(yīng)用中的日志源事件數(shù)據(jù),并將原始安全數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以區(qū)別威脅和錯(cuò)誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機(jī)、垃圾郵件和其它威脅等;IBMQradar還可以將系統(tǒng)漏洞與事件和網(wǎng)絡(luò)數(shù)據(jù)相關(guān)聯(lián),劃分安全性事件的優(yōu)先級(jí)等。ZettaSet海量事件數(shù)據(jù)倉(cāng)庫(kù)來(lái)分析網(wǎng)絡(luò)中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數(shù)據(jù)倉(cāng)庫(kù))。Orchestrator是端到端的Hadoop管理產(chǎn)品,支持多個(gè)Hadoop分布;SDW是構(gòu)建在Hadoop的基礎(chǔ)上,并且基于Hive分布式存儲(chǔ)。SDW于2011年BlackHat網(wǎng)絡(luò)安全會(huì)議面世,SDW可從網(wǎng)絡(luò)防火墻、安全設(shè)備、網(wǎng)站流量、業(yè)務(wù)流程以及其它事務(wù)中挖掘安全信息,確定并阻止安全性威脅。處理的數(shù)據(jù)質(zhì)量和分析的事件數(shù)量比傳統(tǒng)SIEM多;對(duì)于一個(gè)月的數(shù)據(jù)負(fù)載,傳統(tǒng)SIEM搜索需要20~60min,Hive運(yùn)行查詢只需1min左右。
2.4基于DNS的安全大數(shù)據(jù)分析
基于DNS的安全大數(shù)據(jù)分析通過(guò)對(duì)DNS系統(tǒng)的實(shí)時(shí)流量、日志進(jìn)行大數(shù)據(jù)分析,對(duì)DNS流量的靜態(tài)及動(dòng)態(tài)特征進(jìn)行建模,提取DNS報(bào)文特征:DNS分組長(zhǎng)、DNS響應(yīng)時(shí)間、發(fā)送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報(bào)文特征,構(gòu)建異常行為模型,來(lái)檢測(cè)針對(duì)DNS系統(tǒng)的各類流量攻擊(如DNS劫持、DNS拒絕服務(wù)攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚(yú)網(wǎng)站域名等。
2.5APT攻擊大數(shù)據(jù)分析
高級(jí)可持續(xù)性威脅(APT)攻擊通過(guò)周密的策劃與實(shí)施,針對(duì)特定對(duì)象進(jìn)行長(zhǎng)期的、有計(jì)劃的攻擊,具有高度隱蔽性、潛伏期長(zhǎng)、攻擊路徑和渠道不確定等特征?,F(xiàn)已成為信息安全保障領(lǐng)域的巨大威脅。“震網(wǎng)”潛伏3年,造成伊朗納坦茲核電站上千臺(tái)鈾濃縮離心機(jī)故障。收集業(yè)務(wù)系統(tǒng)流量、Web訪問(wèn)日志、數(shù)據(jù)日志、資產(chǎn)庫(kù)及Web滲透知識(shí)庫(kù)等,提取系統(tǒng)指紋、攻擊種類、攻擊時(shí)間、黑客關(guān)注度、攻擊手段類型、行為歷史等事件特征,再基于大數(shù)據(jù)機(jī)器學(xué)習(xí)方法,發(fā)現(xiàn)Web滲透行為、追溯攻擊源、分析系統(tǒng)脆弱性,加強(qiáng)事中環(huán)節(jié)的威脅感知能力,同時(shí)支撐調(diào)查取證。
3總結(jié)
篇4
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;大數(shù)據(jù);統(tǒng)計(jì)學(xué);數(shù)據(jù)分析
引言:
目前階段,在計(jì)算機(jī)處理技術(shù)不斷發(fā)展的背景下,在對(duì)規(guī)模較大并且較為復(fù)雜的數(shù)據(jù)進(jìn)行處理過(guò)程中,人們已經(jīng)逐漸掌握了方法與技能,并且能夠在大規(guī)模的數(shù)據(jù)中找出具有一定價(jià)值的信息,所以,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨。在數(shù)據(jù)時(shí)代中,在人文社科與人類自然科學(xué)技術(shù)等方面都會(huì)有較大的發(fā)展,同時(shí)也會(huì)一定程度上改變?nèi)藗兊纳钆c工作方式。除此之外,大數(shù)據(jù)時(shí)代也同樣為統(tǒng)計(jì)學(xué)提供了良好的發(fā)展機(jī)會(huì),但也存在一定的挑戰(zhàn)。
一、大數(shù)據(jù)時(shí)代的概念
大數(shù)據(jù)時(shí)代的提出者是麥肯錫,他認(rèn)為數(shù)據(jù)已經(jīng)逐漸進(jìn)入到各個(gè)行業(yè)與各業(yè)務(wù)職能的領(lǐng)域中,并且逐漸成為了主要的生產(chǎn)因素[1]。因此,人們?cè)趯?duì)大規(guī)模數(shù)據(jù)進(jìn)行挖掘與應(yīng)用的過(guò)程,也就意味著新的生產(chǎn)率增長(zhǎng)的來(lái)臨。雖然“大數(shù)據(jù)”在眾多行業(yè)被廣泛應(yīng)用,但是,特別是在信息與互聯(lián)網(wǎng)的領(lǐng)域中應(yīng)用突出。
二、怎樣理解大數(shù)據(jù)
(一)大數(shù)據(jù)概念界定與構(gòu)成
大數(shù)據(jù),即由于日常產(chǎn)生的數(shù)據(jù)量快速增長(zhǎng),使得數(shù)據(jù)庫(kù)無(wú)法利用相應(yīng)的管理工具對(duì)其進(jìn)行管理與收集,最終導(dǎo)致在進(jìn)行搜索、分析、存取、共享數(shù)據(jù)時(shí)具有較大的困難。
大數(shù)據(jù)的構(gòu)成包括四部分,并將其總結(jié)為4V,即Volume,Variety,Value,Velocity[2]。第一部分是價(jià)值密度低,將視頻作為具體實(shí)例來(lái)說(shuō),實(shí)現(xiàn)連續(xù)并且不間斷的監(jiān)控,其中有價(jià)值的數(shù)據(jù)信息只有一兩秒。第二部分是數(shù)據(jù)體量極大,已經(jīng)從TB實(shí)現(xiàn)了PB的躍升。第三部分是數(shù)據(jù)類型眾多,主要包括視頻、圖片、網(wǎng)絡(luò)日志以及地理信息等。第四部分是處理的速度超快,可以用一秒定律來(lái)解釋。
(二)海量數(shù)據(jù)帶來(lái)哪些挑戰(zhàn)
第一,數(shù)據(jù)存儲(chǔ)。由于大數(shù)據(jù)的數(shù)據(jù)規(guī)模是PB級(jí)別,所以,存儲(chǔ)的系統(tǒng)也需要進(jìn)行等級(jí)的拓展,并且可以通過(guò)磁盤(pán)柜或者是增加模塊實(shí)現(xiàn)容量的增加。然而,目前階段,數(shù)據(jù)的增長(zhǎng)速度驚人,所以系統(tǒng)資源的消耗也不斷增加,導(dǎo)致系統(tǒng)的運(yùn)行效率有所下降[3]。因?yàn)閷?duì)海量數(shù)據(jù)始終停留在分布式的存儲(chǔ)階段,所以,對(duì)于爆炸式的數(shù)據(jù)增長(zhǎng),原有的存儲(chǔ)方案已經(jīng)無(wú)法滿足現(xiàn)有的數(shù)據(jù)變化需求。
第二,處理技術(shù)。由于海量數(shù)據(jù)的分布性與數(shù)據(jù)量與以往存在較大的差異,所以,原有的數(shù)據(jù)管理技術(shù)已經(jīng)處于落后狀態(tài)。
第三,數(shù)據(jù)安全。在互聯(lián)網(wǎng)規(guī)模逐漸擴(kuò)大的情況下,數(shù)據(jù)的應(yīng)用已經(jīng)出現(xiàn)指數(shù)級(jí)別的增長(zhǎng),所以,對(duì)于數(shù)據(jù)安全的保護(hù)與監(jiān)控來(lái)說(shuō)具有一定的難度。
(三)大數(shù)據(jù)相關(guān)應(yīng)用與實(shí)踐
第一,體育賽事應(yīng)用。以2014年的世界杯為例,在充分發(fā)揮記者與編輯敏銳度的基礎(chǔ)上,騰訊也利用對(duì)大數(shù)據(jù)的分析以及云計(jì)算等方式來(lái)為為其提供移動(dòng)與社交的數(shù)據(jù)。與此同時(shí),騰訊與IBM進(jìn)行合作,并通過(guò)文化、賽事與球迷三方面來(lái)對(duì)世界杯球迷的關(guān)注重點(diǎn)進(jìn)行信息的挖掘,進(jìn)而實(shí)現(xiàn)新欄目的創(chuàng)作,并且在短時(shí)間內(nèi)贏得了廣大球迷的認(rèn)可與關(guān)注。
第二,產(chǎn)品推薦應(yīng)用。產(chǎn)品推薦的應(yīng)用比較廣泛,可以對(duì)客戶信息、交易歷史、購(gòu)買過(guò)程等數(shù)據(jù)進(jìn)行全面的分析,并進(jìn)行有價(jià)值信息的挖掘。同時(shí),針對(duì)同一產(chǎn)品的不同客戶訪問(wèn)信息也可以進(jìn)行挖掘。最終,通過(guò)對(duì)客戶行為的分析,來(lái)確定消費(fèi)者的共,這樣就可以更好的為客戶推薦產(chǎn)品。
除此之外,在產(chǎn)品推薦中,可以在對(duì)客戶社交行為進(jìn)行信息挖掘與分析的基礎(chǔ)上來(lái)進(jìn)行社區(qū)的營(yíng)銷。對(duì)客戶微信微博以及社區(qū)活動(dòng)中的偏好數(shù)據(jù)進(jìn)行分析,并為其提供符合客戶興趣愛(ài)好的產(chǎn)品。
圖一
三、如何分析大數(shù)據(jù)
(一)如何挖掘數(shù)據(jù)中價(jià)值
以匹配廣告為具體事例進(jìn)行分析,主要有兩種數(shù)據(jù)。第一種是廣告庫(kù),其中包括廣告庫(kù)以及廣告的客戶信息[4]。但是這種數(shù)據(jù)信息比較適合在傳統(tǒng)數(shù)據(jù)庫(kù)中應(yīng)用。第二種是用戶在觀看廣告后的行為??梢园岩陨蟽煞N數(shù)據(jù)進(jìn)行有效的結(jié)合,并通過(guò)相應(yīng)的算法來(lái)體現(xiàn)價(jià)值。在實(shí)踐應(yīng)用過(guò)程中,可以充分體會(huì)到第二種信息的重要作用??梢詾橛脩籼峁┢渌璧男畔?,并通過(guò)群體智能以及群體行為對(duì)之前用戶使用的效果進(jìn)行分析,最終通過(guò)具體的反饋機(jī)制,將最優(yōu)質(zhì)的信息提供給用戶,還可以進(jìn)行搜索或者是查詢信息。
(二)如何做處理與分析
第一,更新抽樣調(diào)查的工作理念。由于大數(shù)據(jù)時(shí)代的數(shù)據(jù)樣本是以往資料綜合,所以,可以對(duì)相關(guān)事務(wù)的數(shù)據(jù)信息進(jìn)行分析,進(jìn)一步對(duì)總體進(jìn)行了解,還可以更好的了解局部。同時(shí)需要解決以下問(wèn)題:抽樣框架不穩(wěn)定,調(diào)查目的設(shè)定不合理、樣本量受限[5]。第二,積極改變對(duì)于數(shù)據(jù)精確度的標(biāo)準(zhǔn)。在大數(shù)據(jù)時(shí)代的背景下,數(shù)據(jù)的來(lái)源比較廣泛,并且對(duì)數(shù)據(jù)進(jìn)行處理的技術(shù)也有所提高,所以,可以允許數(shù)據(jù)存在不準(zhǔn)確的情況。大數(shù)據(jù)時(shí)代需要吸收多種數(shù)據(jù),但并需要一味的要求數(shù)據(jù)精準(zhǔn)。第三,合理轉(zhuǎn)變數(shù)據(jù)關(guān)系的分析重點(diǎn)。由于大數(shù)據(jù)時(shí)代的數(shù)據(jù)規(guī)模比較大,而且結(jié)構(gòu)也十分復(fù)雜,變量的關(guān)系也比較繁雜。所以,在對(duì)數(shù)據(jù)進(jìn)行分析的過(guò)程中,不應(yīng)該對(duì)因果關(guān)系進(jìn)行仔細(xì)的分析,而重要的是對(duì)事物相關(guān)的關(guān)系進(jìn)行分析。需要轉(zhuǎn)換思路,對(duì)事物關(guān)系的形式與目的進(jìn)行詳細(xì)的分析。
四、 大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)科和統(tǒng)計(jì)研究工作的影響
(一) 拓展統(tǒng)計(jì)學(xué)研究領(lǐng)域
因?yàn)榇髷?shù)據(jù)時(shí)代的到來(lái),所以會(huì)對(duì)各個(gè)領(lǐng)域產(chǎn)生一定的影響,同樣給統(tǒng)計(jì)學(xué)帶來(lái)影響。在統(tǒng)計(jì)學(xué)中,其主要的研究對(duì)象就是其所要認(rèn)識(shí)的客體,是客觀存在事物自身的數(shù)量特征與關(guān)系。其中,統(tǒng)計(jì)學(xué)研究對(duì)象最主要的特點(diǎn)就是數(shù)量性。然而,在傳統(tǒng)的統(tǒng)計(jì)學(xué)當(dāng)中,數(shù)據(jù)主要是試驗(yàn)與調(diào)查的數(shù)值。在大數(shù)據(jù)時(shí)代中,統(tǒng)計(jì)研究的對(duì)象不僅包括以結(jié)構(gòu)數(shù)據(jù)度量的數(shù)量,此外,還可以包括一些無(wú)法用數(shù)量關(guān)系進(jìn)行衡量的半結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù),其中可以包括動(dòng)畫(huà)、圖片、聲音、文本等等[6]。所以,可以說(shuō),在大數(shù)據(jù)時(shí)代背景下,統(tǒng)計(jì)學(xué)的研究對(duì)象領(lǐng)域有所擴(kuò)大。
(二) 對(duì)統(tǒng)計(jì)計(jì)算規(guī)范產(chǎn)生影響
在傳統(tǒng)的統(tǒng)計(jì)學(xué)當(dāng)中,一般是使用方差、平均數(shù)以及相對(duì)數(shù)等數(shù)據(jù)計(jì)算規(guī)范來(lái)真實(shí)反映事物量特征的,同時(shí)還可以反映事物量的關(guān)系與界限,能夠通過(guò)數(shù)據(jù)計(jì)算規(guī)范來(lái)計(jì)算出具體的數(shù)值。但是,半結(jié)構(gòu)與非結(jié)構(gòu)的數(shù)據(jù)是無(wú)法通過(guò)傳統(tǒng)數(shù)據(jù)計(jì)算規(guī)范進(jìn)行計(jì)算的[7]。所以,在大數(shù)據(jù)時(shí)代的背景下,傳統(tǒng)的數(shù)據(jù)計(jì)算規(guī)范也同樣遇到了難題。
(三) 對(duì)統(tǒng)計(jì)研究工作的過(guò)程產(chǎn)生影響
1. 數(shù)據(jù)整理和分析
第一,數(shù)據(jù)審核。原有的數(shù)據(jù)審核主要的目的就是對(duì)數(shù)據(jù)準(zhǔn)確性和完整性進(jìn)行嚴(yán)格的檢查。但是,在大數(shù)據(jù)的時(shí)代中,對(duì)數(shù)據(jù)的審核就必須要確保數(shù)據(jù)處理的速度以及預(yù)測(cè)的準(zhǔn)確程度,同時(shí)還需要對(duì)數(shù)處理的規(guī)模進(jìn)行準(zhǔn)確的確定,也就是數(shù)據(jù)量級(jí)別的確定。除此之外,因?yàn)榇髷?shù)據(jù)自身具有不穩(wěn)定性,并且十分混亂。但是,即使是這樣,大數(shù)據(jù)也能夠挖掘出信息內(nèi)部存在的隱蔽關(guān)系以及有價(jià)值的知識(shí)。所以,大數(shù)據(jù)所反映的研究對(duì)象存在準(zhǔn)確與不準(zhǔn)確兩種,但是,任何一種的數(shù)據(jù)都具有一定的價(jià)值,通常情況下是不需要進(jìn)行替換或者是刪除的[8]。
第二,數(shù)據(jù)存儲(chǔ)。在以往的數(shù)據(jù)存儲(chǔ)中,審核、匯總以及編制的圖表等資料是重點(diǎn)資料,并且需要進(jìn)行保存起來(lái)的。然而,大數(shù)據(jù)保存最主要的目的就是對(duì)存儲(chǔ)的成本進(jìn)行有效的控制,同時(shí)需要根據(jù)相應(yīng)的法規(guī)計(jì)劃來(lái)確定數(shù)據(jù)存儲(chǔ)的規(guī)模。
2. 數(shù)據(jù)積累、開(kāi)發(fā)與應(yīng)用
第一,數(shù)據(jù)積累。傳統(tǒng)統(tǒng)計(jì)工作主要是根據(jù)所制定的研究目的來(lái)對(duì)數(shù)據(jù)進(jìn)行匯總與分類,并進(jìn)行保存,這樣可以更好的為后期數(shù)據(jù)的分析與查詢提供有利的條件。但是,在大數(shù)據(jù)的積累中,具有價(jià)值的信息需要對(duì)大數(shù)據(jù)進(jìn)行處理后才可以發(fā)現(xiàn)。不容置疑,大數(shù)據(jù)具有一定的復(fù)雜性,所以,在積累的過(guò)程中,不可以進(jìn)行簡(jiǎn)單的處理。因?yàn)榇髷?shù)據(jù)的規(guī)模大,結(jié)構(gòu)也比較復(fù)雜,無(wú)法實(shí)現(xiàn)簡(jiǎn)單的分類,而且,在對(duì)大數(shù)據(jù)進(jìn)行簡(jiǎn)單整理時(shí)非常容易使其混亂,對(duì)其真實(shí)性產(chǎn)生影響,可能會(huì)丟失具有價(jià)值的信息。
第二,數(shù)據(jù)開(kāi)發(fā)。大數(shù)據(jù)時(shí)代下的數(shù)據(jù)流動(dòng)性極強(qiáng),所以,其自身的價(jià)值有再生性。因此,大數(shù)據(jù)時(shí)代的數(shù)據(jù)不會(huì)貶值,反而會(huì)增值。為了能夠?qū)λ芯康膶?duì)象進(jìn)行更深入的了解,就需要對(duì)其整合。
第三,數(shù)據(jù)應(yīng)用。對(duì)數(shù)據(jù)的傳統(tǒng)應(yīng)用主要是為了對(duì)現(xiàn)象進(jìn)行解釋與預(yù)測(cè)。但是,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)應(yīng)用的核心就是在相關(guān)關(guān)系前提下的預(yù)測(cè)。
結(jié)語(yǔ)
綜上所述,現(xiàn)階段我國(guó)社會(huì)正處于大數(shù)據(jù)時(shí)代,并且對(duì)于社會(huì)未來(lái)的發(fā)展具有重要的意義。文章對(duì)大數(shù)據(jù)時(shí)代的概念與定義以及構(gòu)成進(jìn)行了闡述與分析,同時(shí),對(duì)大數(shù)據(jù)的實(shí)際應(yīng)用與實(shí)踐進(jìn)行了探討。針對(duì)大數(shù)據(jù)價(jià)值的挖掘與分析處理進(jìn)行了研究,最后列舉了大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)科以及統(tǒng)計(jì)研究工作的影響,進(jìn)而對(duì)今后大數(shù)據(jù)的數(shù)據(jù)分析工作提供了有價(jià)值的理論依據(jù),并積極的推動(dòng)了大數(shù)據(jù)時(shí)代的發(fā)展,進(jìn)一步促進(jìn)了社會(huì)的進(jìn)步。(作者單位:中國(guó)人民大學(xué))
參考文獻(xiàn):
[1]朱建平,章貴軍,劉曉葳等.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014,31(2):10-19.
[2]張學(xué)敏.大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析[J].電子世界,2014(16):5-5,6.
[3]李祥歌,王奇奇,郭軼博等.基于大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘及分析[J].電子制作,2015(3):81-81.
[4]劉江娜.大數(shù)據(jù)時(shí)代:為什么數(shù)據(jù)分析能讓你的企業(yè)脫穎而出[J].環(huán)球市場(chǎng)信息導(dǎo)報(bào),2014(36):92-93.
[5]郭華庚,向禮花.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)信息歸檔的元數(shù)據(jù)分析[J].貴州師范學(xué)院學(xué)報(bào),2015,31(3):24-28.
[6]高書(shū)國(guó).大數(shù)據(jù)時(shí)代的數(shù)據(jù)困惑――教育研究的數(shù)據(jù)困境[J].教育科學(xué)研究,2015(1):24-30.
篇5
一、大數(shù)據(jù)分析的概念及內(nèi)涵
伴隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務(wù)、社交網(wǎng)等網(wǎng)絡(luò)信息化技術(shù)的逐步推廣與應(yīng)用,社會(huì)各行各業(yè)中在多年以來(lái)的信息化進(jìn)程中,均積累了大量的數(shù)據(jù)信息,而這些數(shù)據(jù)信息在近年來(lái)仍呈現(xiàn)出涌噴的增長(zhǎng)態(tài)勢(shì)。而與此同時(shí),數(shù)據(jù)的形態(tài)也發(fā)生了巨大的改變,以往的格式化數(shù)據(jù)正逐步過(guò)渡到格式化與非格式化數(shù)據(jù)(如圖像數(shù)據(jù)、視頻數(shù)據(jù)等)共存的時(shí)代。各類數(shù)據(jù)源的每天生成并傳輸?shù)皆朴?jì)算平臺(tái),以供前端數(shù)據(jù)挖掘、數(shù)據(jù)分析、模型建設(shè)及數(shù)據(jù)可視化展現(xiàn)應(yīng)用,從而為社會(huì)各行各業(yè)提供綜合??梢哉f(shuō),社會(huì)的發(fā)展真正進(jìn)入了讓數(shù)據(jù)說(shuō)話的時(shí)代,即大數(shù)據(jù)時(shí)代。
大數(shù)據(jù)分析,即是各類數(shù)據(jù)進(jìn)行有效分析的技術(shù)與措施。由于在大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息往往呈現(xiàn)出數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型復(fù)雜(Variety)、價(jià)值密度低(Value)這4V特點(diǎn),如何在規(guī)模巨大、成分復(fù)雜的數(shù)據(jù)源中挖掘出對(duì)企業(yè)有用的信息,并在最短內(nèi)做出有效分析,將是大數(shù)據(jù)時(shí)代企業(yè)所要進(jìn)行的一項(xiàng)核心工作。
二、構(gòu)建會(huì)計(jì)大數(shù)據(jù)分析型企業(yè)的意義
數(shù)據(jù)的真正價(jià)值在于發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的信息。因此,在大數(shù)據(jù)時(shí)代,對(duì)企業(yè)會(huì)計(jì)數(shù)據(jù)的有效分析與利用,將成為所有企業(yè)共同競(jìng)爭(zhēng)的核心。通過(guò)構(gòu)建會(huì)計(jì)大數(shù)據(jù)分析型企業(yè),不僅能使企業(yè)會(huì)計(jì)成本得到量化,而且能有效促進(jìn)企業(yè)經(jīng)營(yíng)管理水平的進(jìn)一步提升。
1.改變企業(yè)傳統(tǒng)的運(yùn)營(yíng)與管理模式
會(huì)計(jì)大數(shù)據(jù)分析型企業(yè)的構(gòu)建,以商業(yè)智能技術(shù)作為企業(yè)的決策中心與神經(jīng)系統(tǒng),通過(guò)對(duì)企業(yè)各類數(shù)據(jù)的充分挖掘與分析,從而實(shí)現(xiàn)企業(yè)管理流程的優(yōu)化與改良,使原本經(jīng)驗(yàn)式或粗放式的管理的逐步轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)和精細(xì)化的管理模式。
例如,企業(yè)的貸款經(jīng)營(yíng)管理,通過(guò)收集到足夠的貸款數(shù)據(jù),并以此建立模型進(jìn)行綜合分析,可以有效評(píng)估貸款的風(fēng)險(xiǎn),實(shí)現(xiàn)授信和定價(jià)的指導(dǎo),以及放貸的批量化自動(dòng)審批。這種企業(yè)數(shù)據(jù)化分析與管理模式的構(gòu)建,不僅能最大程度的降低企業(yè)的經(jīng)營(yíng)成本,而且能提高放貸的效率性,使企業(yè)能很好的維持盈利水平。
2.推動(dòng)企業(yè)市場(chǎng)競(jìng)爭(zhēng)的深度與廣度
會(huì)計(jì)大數(shù)據(jù)分析型企業(yè)的構(gòu)建,有利于企業(yè)內(nèi)部管理與外部營(yíng)銷的創(chuàng)新。對(duì)企業(yè)內(nèi)部管理而言,通過(guò)對(duì)自身會(huì)計(jì)數(shù)據(jù)的有效分析,可以優(yōu)化各個(gè)運(yùn)營(yíng)環(huán)節(jié),并輔助決策,從而激發(fā)出企業(yè)業(yè)務(wù)流程中的潛在價(jià)值,進(jìn)而降低運(yùn)營(yíng)成本,提高管理水平與運(yùn)營(yíng)效率;對(duì)企業(yè)外部營(yíng)銷而言,企業(yè)可以通過(guò)對(duì)海量、精準(zhǔn)客戶數(shù)據(jù)的有效分析,或者借助于第三方數(shù)據(jù)分析平臺(tái),以進(jìn)一步了解客戶的消費(fèi)行為與消費(fèi)方式,從而預(yù)測(cè)銷售,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷模式與互動(dòng)營(yíng)銷模式,進(jìn)而提高企業(yè)外部營(yíng)銷的科學(xué)性與有效性。近年來(lái),在各個(gè)行業(yè)中都出現(xiàn)了以數(shù)據(jù)挖掘和數(shù)據(jù)分析,作為自身市場(chǎng)競(jìng)爭(zhēng)優(yōu)勢(shì)的企業(yè),例如谷歌、海爾、寶潔等企業(yè),它們都將自身的成功歸結(jié)于對(duì)企業(yè)內(nèi)外部大量數(shù)據(jù)分析的有效應(yīng)用。
三、會(huì)計(jì)大數(shù)據(jù)分析型企業(yè)的構(gòu)建思路
會(huì)計(jì)大數(shù)據(jù)分析性企業(yè)的數(shù)據(jù)平臺(tái)建設(shè),主要是依托于商業(yè)智能技術(shù),通過(guò)收集大量的會(huì)計(jì)數(shù)據(jù)原始資料,并借助商業(yè)智能化工具實(shí)現(xiàn)對(duì)海量會(huì)計(jì)數(shù)據(jù)的分析報(bào)告、數(shù)據(jù)查詢、在線分析處理、報(bào)表生成以及數(shù)據(jù)可視化等服務(wù)。整個(gè)會(huì)計(jì)數(shù)據(jù)分析共享平臺(tái)的邏輯架構(gòu)圖,見(jiàn)下圖所示:
1.平臺(tái)總體架構(gòu)
如上圖所示,整個(gè)平臺(tái)的邏輯架構(gòu)分為了數(shù)據(jù)源層、數(shù)據(jù)管理層和數(shù)據(jù)應(yīng)用層。其中,數(shù)據(jù)源層是企業(yè)各類會(huì)計(jì)數(shù)據(jù)的收集源頭,各類會(huì)計(jì)數(shù)據(jù)通過(guò)“ETL過(guò)程”進(jìn)行抽取、轉(zhuǎn)換、過(guò)濾和加載到數(shù)據(jù)共享分析平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)中,以保障數(shù)據(jù)收集的質(zhì)量;數(shù)據(jù)管理層,則是企業(yè)會(huì)計(jì)數(shù)據(jù)進(jìn)行存儲(chǔ)、交互處理和分析的核心層,它借助于數(shù)據(jù)分析共享平臺(tái)的數(shù)據(jù)倉(cāng)庫(kù)為數(shù)據(jù)應(yīng)用層提供高質(zhì)量和有效的數(shù)據(jù)需求;數(shù)據(jù)應(yīng)用層,則是會(huì)計(jì)數(shù)據(jù)在企業(yè)各項(xiàng)經(jīng)營(yíng)管理層面中發(fā)揮真正價(jià)值的地方,企業(yè)的多項(xiàng)業(yè)務(wù)通過(guò)“模型應(yīng)用”、“數(shù)據(jù)挖掘”、“報(bào)表應(yīng)用”、“管理駕駛艙”、“即席分析與查詢”等功能實(shí)現(xiàn)企業(yè)各種業(yè)務(wù)的數(shù)據(jù)應(yīng)用。
2.ETL過(guò)程
ETL(Extraction Transformation Load)過(guò)程,是實(shí)現(xiàn)對(duì)數(shù)據(jù)源層中各類會(huì)計(jì)數(shù)據(jù)處理的一個(gè)動(dòng)態(tài)過(guò)程。企業(yè)可通過(guò)選擇適宜的 ETL工具,以提高數(shù)據(jù)處理的效率。目前,最為主流的ETL數(shù)據(jù)處理工具有:Ascential公司的DataStage工具、Informatica公司的Powercenter、NCR公司的ETL Automation、SAS等等。通過(guò)ETL過(guò)程,可以將滿足企業(yè)各類業(yè)務(wù)需求的數(shù)據(jù)裝載到目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)。
3.目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)
數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse),是指適應(yīng)企業(yè)會(huì)計(jì)數(shù)據(jù)決策分析的需求,而進(jìn)行建設(shè)的數(shù)據(jù)庫(kù)應(yīng)用技術(shù),它與傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)有較大的差別。數(shù)據(jù)庫(kù)技術(shù)只是數(shù)據(jù)庫(kù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)直接面向主體的、集成的、非易失的、隨時(shí)間變化的和用于企業(yè)戰(zhàn)略決策的數(shù)據(jù)集合。
當(dāng)前,目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)已成為了會(huì)計(jì)大數(shù)據(jù)分析性企業(yè)由數(shù)據(jù)到知識(shí),再由知識(shí)轉(zhuǎn)換為利潤(rùn)的核心技術(shù)。近年來(lái),隨著目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的日益成熟,我國(guó)許多行業(yè)中都紛紛建立了自身的數(shù)據(jù)倉(cāng)庫(kù),在銀行、保險(xiǎn)、電信等行業(yè)中都得到了很好的應(yīng)用。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)正逐漸成為21世紀(jì)企業(yè)信息化發(fā)展的核心技術(shù)。
4.數(shù)據(jù)應(yīng)用層的功能實(shí)現(xiàn)
(1)模型應(yīng)用。數(shù)據(jù)模型可以通過(guò)一系列科學(xué)標(biāo)準(zhǔn)的建模過(guò)程,以有效的對(duì)企業(yè)會(huì)計(jì)數(shù)據(jù)特征進(jìn)行抽象,從而獲取關(guān)鍵信息與指標(biāo)。模型應(yīng)用的重點(diǎn)是預(yù)測(cè)未來(lái),它主要基于企業(yè)歷史會(huì)計(jì)數(shù)據(jù),開(kāi)發(fā)各種預(yù)測(cè)模型,對(duì)企業(yè)客戶和業(yè)務(wù)的未來(lái)發(fā)展作出預(yù)測(cè),從而對(duì)設(shè)計(jì)和策略方案進(jìn)一步優(yōu)化,進(jìn)而實(shí)現(xiàn)企業(yè)未來(lái)效益的最優(yōu)化。
(2)數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中自動(dòng)搜索隱藏于其中的具有價(jià)值信息的過(guò)程。數(shù)據(jù)挖掘功能的實(shí)現(xiàn),主要是借助于數(shù)據(jù)庫(kù)技術(shù)、通信技術(shù)、人工智能技術(shù)、模式識(shí)別技術(shù)等多種新興技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行提取與分析。目前,最為流行的三大數(shù)據(jù)挖掘工具是SAS公司的SAS/EM,IBM公司的Intelligent Miner和SPSS公司的Clementine。
(3)報(bào)表應(yīng)用。報(bào)表應(yīng)用技術(shù)是利用會(huì)計(jì)數(shù)據(jù)信息,對(duì)企業(yè)歷史經(jīng)營(yíng)狀況進(jìn)行回顧與總結(jié)。報(bào)表應(yīng)用技術(shù)還可細(xì)分為常規(guī)報(bào)表與即席查詢這兩個(gè)部分,常用的報(bào)表工具有:IBM公司的Cogonos、SAS公司的PORTAL等。
(4)管理駕駛艙。管理駕駛艙技術(shù),是幫助企業(yè)管理層能的了解到數(shù)據(jù)背后的信息,實(shí)現(xiàn)將報(bào)表、分析層指標(biāo)等數(shù)據(jù)信息的動(dòng)態(tài)形象、交互界面以友好的方式呈現(xiàn)為管理層,從而幫助管理層能快速掌握企業(yè)各項(xiàng)經(jīng)營(yíng)的指標(biāo)狀況,為企業(yè)未來(lái)經(jīng)營(yíng)的合理決策與風(fēng)險(xiǎn)評(píng)估提供信息依據(jù)。
(5)即席分析與查詢。即席分析與查詢功能,是一個(gè)面向數(shù)據(jù)庫(kù)的應(yīng)用,它主要用于企業(yè)會(huì)計(jì)業(yè)務(wù)信息查詢和報(bào)表生成,也能夠?yàn)槠髽I(yè)會(huì)計(jì)數(shù)據(jù)分析提供一個(gè)高性能和高效率的查詢系統(tǒng)。
篇6
億聯(lián)國(guó)科的BigBase數(shù)據(jù)庫(kù)在3月30日舉行的2012第五屆中國(guó)數(shù)據(jù)中心大會(huì)上被評(píng)為2012年度中國(guó)優(yōu)秀大數(shù)據(jù)分析平臺(tái)。BigBase是為了滿足云計(jì)算時(shí)代海量數(shù)據(jù)在線分析應(yīng)用的迫切需求,由億聯(lián)國(guó)科打造的中國(guó)首款擁有自主知識(shí)產(chǎn)權(quán)的基于NoSQL技術(shù)的商用大數(shù)據(jù)在線分析系統(tǒng)。BigBase是一個(gè)適用于超大規(guī)模結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和在線分析的專業(yè)化系統(tǒng)。該產(chǎn)品針對(duì)中國(guó)傳統(tǒng)行業(yè)的實(shí)際需求進(jìn)行了大量技術(shù)創(chuàng)新,可以有效降低各種大數(shù)據(jù)處理應(yīng)用的技術(shù)門檻,節(jié)省人力和財(cái)力,為各類企業(yè)和政府部門提供海量數(shù)據(jù)在線分析的能力。
目前,BigBase系統(tǒng)已成功應(yīng)用于電子商務(wù)、通信、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等相關(guān)企業(yè)。作為一款適用于大規(guī)模結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和在線分析的新型數(shù)據(jù)庫(kù),BigBase主要適用于三個(gè)方面的應(yīng)用:一是大規(guī)模的數(shù)據(jù)庫(kù)應(yīng)用,當(dāng)數(shù)據(jù)庫(kù)中一個(gè)單表的記錄大于1億條時(shí),必須使用類似BigBase的新型數(shù)據(jù)平臺(tái);二是高流量的應(yīng)用,大量的流式數(shù)據(jù)要高速地寫(xiě)入到系統(tǒng)中; 三是應(yīng)用于在線分析,要求實(shí)時(shí)獲得查詢結(jié)果,同時(shí)還要滿足多個(gè)用戶的并發(fā)查詢需求。
BigBase的出現(xiàn)成功地解決了傳統(tǒng)數(shù)據(jù)庫(kù)遇到海量日志類數(shù)據(jù)分析時(shí)無(wú)能為力的問(wèn)題。BigBase在設(shè)計(jì)上不同于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),而是屬于典型的NoSQL數(shù)據(jù)庫(kù)。與所有NoSQL數(shù)據(jù)庫(kù)一樣,BigBase主要用于對(duì)數(shù)據(jù)的高并發(fā)讀寫(xiě)和海量數(shù)據(jù)的存儲(chǔ)。BigBase在架構(gòu)和數(shù)據(jù)模型方面進(jìn)行了簡(jiǎn)化,同時(shí)增強(qiáng)了系統(tǒng)的擴(kuò)展能力和并發(fā)能力。
與絕大多數(shù)NoSQL數(shù)據(jù)庫(kù)不同,BigBase還擁有自己獨(dú)特的優(yōu)勢(shì),主要包括以下四方面:第一,具有高吞吐率,數(shù)據(jù)寫(xiě)入速度達(dá)到每臺(tái)服務(wù)器每秒100萬(wàn)條記錄以上,比傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的速度快100倍以上,數(shù)據(jù)查詢時(shí)間為毫秒級(jí);第二,可以實(shí)現(xiàn)服務(wù)端的計(jì)算,提供NoSQL數(shù)據(jù)所不具備的區(qū)間查詢以及服務(wù)端統(tǒng)計(jì)計(jì)算能力;第三,具有更高的數(shù)據(jù)壓縮率;第四,實(shí)現(xiàn)了軟硬件一體化,通過(guò)專用的服務(wù)器硬件和數(shù)據(jù)壓縮技術(shù),可以更大程度地提高系統(tǒng)的處理性能。
BigBase已經(jīng)成為海量數(shù)據(jù)在線分析的利器。目前,大數(shù)據(jù)的商業(yè)價(jià)值逐漸受到用戶的肯定。傳統(tǒng)商業(yè)智能系統(tǒng)中用于分析的數(shù)據(jù),大多是企業(yè)自身信息系統(tǒng)所產(chǎn)生的標(biāo)準(zhǔn)化和結(jié)構(gòu)化的運(yùn)營(yíng)數(shù)據(jù),這些數(shù)據(jù)只占企業(yè)所能獲取數(shù)據(jù)的不足15%。另外85%的非結(jié)構(gòu)性和半結(jié)構(gòu)性數(shù)據(jù)廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、移動(dòng)計(jì)算、傳感器和電子商務(wù)等媒介之中。企業(yè)如果能將這些新的數(shù)據(jù)與業(yè)務(wù)進(jìn)行融合,那么依此做出的決策會(huì)更加準(zhǔn)確。
篇7
關(guān)鍵詞:城市交通;空氣質(zhì)量監(jiān)測(cè);移動(dòng)物聯(lián);公共交通;大數(shù)據(jù)
空氣質(zhì)量監(jiān)測(cè)作為促進(jìn)經(jīng)濟(jì)社會(huì)綠色發(fā)展中的重要一環(huán),以往的技術(shù)研究和應(yīng)用大多存在固定監(jiān)測(cè)站成本高、覆蓋范圍不全、難以實(shí)時(shí)反饋等問(wèn)題[1]。目前,在大力推行清潔生產(chǎn),發(fā)展循環(huán)經(jīng)濟(jì)的背景下,我國(guó)的城市空氣質(zhì)量雖有好轉(zhuǎn),但由于機(jī)動(dòng)車的快速增加,尾氣排放加劇,大氣環(huán)境污染治理依舊嚴(yán)峻[2-3],亟需完善空氣質(zhì)量監(jiān)測(cè)方法和機(jī)制,推進(jìn)空氣污染治理智能化進(jìn)程。當(dāng)前,國(guó)家在大多數(shù)城市布設(shè)或完善了顆粒物、氣體監(jiān)測(cè)設(shè)備,形成了國(guó)省控點(diǎn)結(jié)合的地面污染源檢測(cè)網(wǎng)。然而,傳統(tǒng)監(jiān)測(cè)模式存在覆蓋范圍不大、數(shù)字化水平不高、監(jiān)測(cè)與監(jiān)管結(jié)合不緊密、監(jiān)測(cè)數(shù)據(jù)質(zhì)量有待提高等問(wèn)題,且固定監(jiān)測(cè)點(diǎn)成本投入較大、只能靜態(tài)收集污染數(shù)據(jù)、不能實(shí)時(shí)掌握和反饋、日常維護(hù)復(fù)雜,難以滿足大氣污染治理的綠色發(fā)展需求[4]。由于交通工具的移動(dòng)特性,若在交通工具上安裝多種傳感器,便能在城市中獲取覆蓋范圍廣,頻率高的動(dòng)態(tài)感知數(shù)據(jù)用以相關(guān)研究,彌補(bǔ)固定傳感器靜態(tài)感知的不足[1]。有研究指出可以通過(guò)可移動(dòng)的傳感器來(lái)感知城市空氣質(zhì)量[5-6],利用車輛的移動(dòng)性來(lái)對(duì)城市的整體空氣質(zhì)量進(jìn)行細(xì)粒度感知,彌補(bǔ)固定地面空氣監(jiān)測(cè)站的不足。然而,目前仍未見(jiàn)有系統(tǒng)的研究及規(guī)模應(yīng)用。因此,面對(duì)我國(guó)空氣污染的嚴(yán)峻形勢(shì),亟需采取新方法實(shí)現(xiàn)空氣污染治理智能化,并進(jìn)行應(yīng)用實(shí)踐?;诖?,本文開(kāi)展了基于移動(dòng)物聯(lián)的空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)融合分析應(yīng)用研究。利用公交系統(tǒng)覆蓋范圍廣,運(yùn)行軌跡、時(shí)間和發(fā)班間隔穩(wěn)定的特點(diǎn),在公交車輛上搭載移動(dòng)空氣質(zhì)量監(jiān)測(cè)設(shè)備實(shí)時(shí)采集PM2.5、PM10等空氣污染物監(jiān)測(cè)數(shù)據(jù),并與車輛定位等數(shù)據(jù)進(jìn)行融合,對(duì)各污染物進(jìn)行動(dòng)態(tài)監(jiān)測(cè),全面掌握路段區(qū)域空氣質(zhì)量污染的時(shí)空差異性,快速識(shí)別出污染因子,掌握其擴(kuò)散與傳播機(jī)理,并在廣州市進(jìn)行實(shí)踐應(yīng)用,助力空氣治理智能化、數(shù)字化轉(zhuǎn)型。
1研究框架概述
研究技術(shù)框架主要包括四個(gè)部分:①數(shù)據(jù)采集。通過(guò)安裝在公交車上的車載移動(dòng)式空氣微型監(jiān)測(cè)傳感器,實(shí)時(shí)采集大氣環(huán)境中的PM2.5、PM10等信息,車載GPS定位器可實(shí)時(shí)采集車輛的GPS位置信息,攝像頭可以采集車輛運(yùn)行時(shí)的環(huán)境視頻數(shù)據(jù)。②數(shù)據(jù)傳輸。本研究采用標(biāo)準(zhǔn)的環(huán)保部通訊規(guī)范協(xié)議,將實(shí)時(shí)采集到的PM2.5、PM10、車載GPS數(shù)據(jù),視頻數(shù)據(jù)傳輸至網(wǎng)格化在線監(jiān)測(cè)系統(tǒng)軟件平臺(tái)。③數(shù)據(jù)分析?;诙嘣创髷?shù)據(jù)融合分析,提供實(shí)時(shí)、準(zhǔn)確、可視的管理決策依據(jù),支撐政府環(huán)保部門對(duì)空氣質(zhì)量的監(jiān)測(cè)和分析挖掘,可指導(dǎo)提出有效的整改措施,實(shí)現(xiàn)治理工作的全面協(xié)同和問(wèn)題的高效辦理,使空氣污染治理更加精細(xì)化、智能化,促進(jìn)降本增效。④信息。應(yīng)用可在公交車載屏幕上展示監(jiān)測(cè)信息,為乘客提供實(shí)時(shí)空氣質(zhì)量信息服務(wù),也可以通過(guò)手機(jī)APP移動(dòng)端向市民空氣質(zhì)量相關(guān)信息。研究的整體框架圖如圖1。本文充分利用現(xiàn)有公共交通資源搭載移動(dòng)式空氣微型監(jiān)測(cè)站,既能有效降低建設(shè)和維護(hù)成本,又彌補(bǔ)了固定監(jiān)測(cè)點(diǎn)覆蓋面不廣的短板。通過(guò)固定與移動(dòng)監(jiān)測(cè)的動(dòng)靜結(jié)合,使兩種監(jiān)測(cè)方式采集的數(shù)據(jù)相互補(bǔ)充,相互校準(zhǔn),真正實(shí)現(xiàn)空氣污染的全面監(jiān)測(cè)。同時(shí),在數(shù)據(jù)分析過(guò)程中,有效地融合多源數(shù)據(jù),有助于實(shí)現(xiàn)空氣監(jiān)測(cè)區(qū)域化、精準(zhǔn)化、智能化,減少人力巡查和治理投入。
2監(jiān)測(cè)原理及設(shè)備安裝布點(diǎn)選線
2.1監(jiān)測(cè)原理
本文采用激光光散射法原對(duì)空氣質(zhì)量進(jìn)行監(jiān)測(cè)。監(jiān)測(cè)傳感器主要由激光源、測(cè)量腔、透鏡組、光檢測(cè)器、濾波放大電路、微處理器元器件等組成,工作時(shí),由激光源發(fā)出的激光通過(guò)透鏡組形成一個(gè)薄層面光源。當(dāng)其照射在由氣流吹入測(cè)量腔內(nèi)的氣溶膠時(shí),會(huì)產(chǎn)生散射光。散射光經(jīng)過(guò)透鏡組再照射到光檢測(cè)器上面時(shí),會(huì)產(chǎn)生電信號(hào),經(jīng)過(guò)放大電路生成模擬信號(hào),得到散射光強(qiáng)度的變化曲線。微處理器可基于米氏理論算法,得到顆粒物的等效粒徑和顆粒數(shù)量,從而輸出結(jié)果。作為傳感器的載體,公交車輛具有以下特性:①行駛時(shí)間一般為6:00-22:00,可滿足對(duì)空氣質(zhì)量監(jiān)測(cè)的時(shí)間段要求;②運(yùn)行軌跡固定,能夠滿足對(duì)特定路線和區(qū)域進(jìn)行持續(xù)監(jiān)測(cè)的需求;③公交車輛發(fā)班間隔時(shí)間一般不超過(guò)15分鐘,可滿足對(duì)空氣監(jiān)測(cè)的頻次要求;④公交線路覆蓋范圍廣,可以監(jiān)測(cè)城市大部分區(qū)域內(nèi)的空氣質(zhì)量水平。在公交車輛運(yùn)行時(shí),通過(guò)安裝在公交車上的傳感器,可實(shí)現(xiàn)對(duì)空氣中PM2.5,PM10等污染物數(shù)據(jù)的采集,同時(shí),車載GPS和攝像頭等設(shè)備可實(shí)時(shí)采集公交車輛運(yùn)行的位置和環(huán)境視頻等數(shù)據(jù),為空氣質(zhì)量監(jiān)測(cè)大數(shù)據(jù)融合分析提供基礎(chǔ)。
2.2監(jiān)測(cè)設(shè)備安裝與布點(diǎn)選線
2.2.1監(jiān)測(cè)設(shè)備安裝選擇合適線路的公交車輛安裝數(shù)據(jù)采集設(shè)備。采用車頂安裝方式,利用設(shè)備底部的強(qiáng)力磁鐵,無(wú)需對(duì)車體進(jìn)行改裝,直接放置即可與車頂牢固連接在一起。車載微站主機(jī)安裝在公交車前端應(yīng)急逃生口后側(cè),將主機(jī)磁體部分向下吸附在安裝車輛車頂即可,主機(jī)電源線順延車頂至公交車前門防水刷處,線纜加套波紋管并使用玻璃膠固定,可防止因?yàn)殚L(zhǎng)時(shí)間暴曬造成線纜老化。使用玻璃膠對(duì)波紋管進(jìn)行固定,可防止在車輛形成過(guò)程中造成不必要的刮蹭。2.2.2監(jiān)測(cè)布點(diǎn)選線試點(diǎn)應(yīng)用城市此前所使用的空氣質(zhì)量監(jiān)測(cè)手段主要為地面固定監(jiān)測(cè)站,存在成本投入高、難以實(shí)時(shí)跟蹤污染情況等短板[15]。為了滿足更高的環(huán)境治理要求,有必要采用更加科學(xué)、高效且經(jīng)濟(jì)的監(jiān)測(cè)方式?;谥攸c(diǎn)監(jiān)測(cè)區(qū)域和最大化覆蓋范圍原則,選擇合適的公交線路。根據(jù)公交線路分布情況,共選擇21條線路,225臺(tái)公交車輛,監(jiān)測(cè)范圍覆蓋10個(gè)國(guó)控站點(diǎn),確定研究應(yīng)用試點(diǎn)范圍,數(shù)據(jù)采集時(shí)間段為每天6:00-22:00及政府環(huán)保部門指定的其他時(shí)間段。
3研究應(yīng)用場(chǎng)景
通過(guò)數(shù)據(jù)采集、挖掘分析,可實(shí)現(xiàn)空氣質(zhì)量動(dòng)態(tài)監(jiān)測(cè)和智能決策治理。具體研究應(yīng)用場(chǎng)景如下:
3.1多源大數(shù)據(jù)融合的實(shí)時(shí)監(jiān)控
融合車載GPS數(shù)據(jù)以及實(shí)時(shí)采集到的PM2.5、PM10等污染物的含量數(shù)據(jù),可形成帶有每個(gè)路段,每種污染物實(shí)時(shí)污染程度的電子地圖,形成實(shí)時(shí)路段熱力圖及三維熱力圖;融合車輛運(yùn)行所采集到的視頻數(shù)據(jù)和實(shí)時(shí)空氣質(zhì)量數(shù)據(jù),可以迅速定位污染源,初步確定污染原因,如道路施工揚(yáng)塵,工廠工業(yè)氣體排放等。
3.2污染因子識(shí)別
實(shí)現(xiàn)各污染物多時(shí)空維度的實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)和分析,能夠全面掌握路段區(qū)域空氣質(zhì)量污染的時(shí)空差異性。通過(guò)多維時(shí)空交叉統(tǒng)計(jì)分析,快速識(shí)別出污染因子。(圖2)
3.3數(shù)據(jù)存儲(chǔ)與動(dòng)態(tài)分析預(yù)測(cè)
對(duì)至少1年的實(shí)時(shí)數(shù)據(jù)及至少3年的平均數(shù)據(jù)(包括車輛衛(wèi)星定位、視頻監(jiān)控、空氣質(zhì)量等)進(jìn)行存儲(chǔ),根據(jù)路段及時(shí)間對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,供用戶可視化查詢。此外,可對(duì)監(jiān)測(cè)數(shù)據(jù)的變化趨勢(shì)進(jìn)行動(dòng)態(tài)分析、預(yù)測(cè),并疊加歷史數(shù)據(jù)進(jìn)行綜合對(duì)比分析,提供可視化界面供用戶查詢。
3.4大數(shù)據(jù)驅(qū)動(dòng)的智能化閉環(huán)治理設(shè)定
PM2.5、PM10等污染物的濃度預(yù)警限值,實(shí)時(shí)動(dòng)態(tài)告警。同時(shí),基于公交車輛運(yùn)行的規(guī)律性,可對(duì)指定監(jiān)測(cè)區(qū)域或時(shí)段進(jìn)行重點(diǎn)監(jiān)測(cè)。通過(guò)挖掘監(jiān)測(cè)大數(shù)據(jù)價(jià)值,掌握污染源的時(shí)空分布規(guī)律,快速鎖定污染源位置及傳輸方向。通過(guò)多維度智能分析,支撐提出有針對(duì)性的治理手段,跟蹤反饋治理效果,形成閉環(huán)。
3.5基于移動(dòng)物聯(lián)的多源信息服務(wù)
將空氣質(zhì)量監(jiān)測(cè)采集數(shù)據(jù)與車載數(shù)據(jù)進(jìn)行融合,實(shí)現(xiàn)信息交互,可在公交車載屏幕上展示監(jiān)測(cè)信息,為乘客提供實(shí)時(shí)信息服務(wù),也可通過(guò)手機(jī)APP移動(dòng)端向市民空氣質(zhì)量相關(guān)信息,提高公眾環(huán)保參與意識(shí),促進(jìn)經(jīng)濟(jì)社會(huì)綠色健康發(fā)展。
4結(jié)束語(yǔ)
篇8
當(dāng)一家企業(yè)的推銷員拿著產(chǎn)品挨家挨戶推銷時(shí),另一家同類產(chǎn)品企業(yè)足不出戶,就已通過(guò)互聯(lián)網(wǎng)采集到大量的數(shù)據(jù),并對(duì)海量的碎片化數(shù)據(jù)進(jìn)行深挖和分析,從而為客戶提供更好的服務(wù)。
后者采用的方式正屬于“大數(shù)據(jù)分析”的范疇。作為國(guó)內(nèi)領(lǐng)先的數(shù)據(jù)分析公司,國(guó)雙科技在此領(lǐng)域已深耕數(shù)年。其年輕的創(chuàng)始人、CEO祁國(guó)晟接受《財(cái)經(jīng)界》記者采訪時(shí)表示,相對(duì)于傳統(tǒng)的線下?tīng)I(yíng)銷,大數(shù)據(jù)分析能更精準(zhǔn)、快速地從海量數(shù)據(jù)中挖掘出有效的價(jià)值,并可以直觀明了的方式度量結(jié)果。
不過(guò),他同時(shí)坦言,作為一個(gè)新興領(lǐng)域,受安全、人才等因素的影響,大數(shù)據(jù)分析還有待市場(chǎng)的進(jìn)一步認(rèn)可。
“大數(shù)據(jù)推動(dòng)快速發(fā)展”
國(guó)雙科技是從2005年開(kāi)始做數(shù)據(jù)生意的?!爱?dāng)時(shí)還不叫‘大數(shù)據(jù)’,也沒(méi)有‘云計(jì)算’的說(shuō)法,業(yè)內(nèi)的普遍觀點(diǎn)是通過(guò)互聯(lián)網(wǎng)提供軟件服務(wù),叫做SaaS(軟件即服務(wù))?!逼顕?guó)晟說(shuō)。
談到大數(shù)據(jù),祁國(guó)晟認(rèn)為這是一個(gè)相對(duì)的概念,“大數(shù)據(jù)不是單純說(shuō)數(shù)據(jù)量有多大,它至少包含了三方面的要求:數(shù)據(jù)量大、對(duì)于數(shù)據(jù)的分析深度要求高、時(shí)效要求快。當(dāng)這三個(gè)問(wèn)題擺在一起,而傳統(tǒng)的IT不能解決的話,這就是一個(gè)大數(shù)據(jù)問(wèn)題?!边@個(gè)概念是近兩年才熱起來(lái)的,一經(jīng)提出,迅速被IT和互聯(lián)網(wǎng)行業(yè)廣泛認(rèn)同;對(duì)大數(shù)據(jù)進(jìn)行有效分析和應(yīng)用能夠?yàn)榻M織帶來(lái)價(jià)值,很快成為共識(shí)。
國(guó)雙科技數(shù)年前就開(kāi)始向客戶提供“數(shù)據(jù)分析”相關(guān)的服務(wù),涉及電子政務(wù)咨詢、運(yùn)營(yíng)商數(shù)據(jù)分析、網(wǎng)絡(luò)電視臺(tái)解決方案、搜索引擎營(yíng)銷、廣告效果量化、用戶體驗(yàn)優(yōu)化、移動(dòng)應(yīng)用解決方案等,“我們已經(jīng)服務(wù)了數(shù)百家企業(yè)和政府機(jī)構(gòu),核心技術(shù)現(xiàn)如今已覆蓋到網(wǎng)站、移動(dòng)APP、互聯(lián)網(wǎng)電視等多領(lǐng)域的數(shù)據(jù)分析,并通過(guò)結(jié)合整合營(yíng)銷方案AdSuite、SEO(搜索引擎優(yōu)化)、SEM(搜索引擎營(yíng)銷)、UEO(用戶體驗(yàn)優(yōu)化)提供給客戶?!逼顕?guó)晟介紹說(shuō)。
經(jīng)過(guò)幾年的技術(shù)和數(shù)據(jù)積累,加上“大數(shù)據(jù)”概念在國(guó)內(nèi)的走熱,祁國(guó)晟專注的數(shù)據(jù)生意開(kāi)始釋放能量。據(jù)悉,2011年,國(guó)雙科技實(shí)現(xiàn)銷售收入增長(zhǎng)10倍以上,2012年同樣保持著這樣的增長(zhǎng)態(tài)勢(shì)。就在最近,國(guó)雙科技入選“2013 德勤高科技、高成長(zhǎng)中國(guó)50強(qiáng)”榜單。
在祁國(guó)晟看來(lái),國(guó)雙科技得到快速發(fā)展是必然的,因?yàn)椴粌H公司有技術(shù)創(chuàng)新,市場(chǎng)也有“剛性”需求?;ヂ?lián)網(wǎng)的超高速發(fā)展,帶動(dòng)數(shù)據(jù)量急速膨脹,即使硬件一步一步升級(jí),數(shù)據(jù)處理的速度也趕不上數(shù)據(jù)產(chǎn)生的速度;即使用戶可以從一些現(xiàn)有數(shù)據(jù)庫(kù)廠商那里買來(lái)解決方案,也解決不了用戶對(duì)數(shù)據(jù)挖掘的深度和量級(jí)的需求。
而從國(guó)際上來(lái)看,大數(shù)據(jù)分析也在成為大企業(yè)的“制勝法寶”。比如,沃爾瑪“顧問(wèn)式營(yíng)銷”就是以大數(shù)據(jù)為支撐。在其全球的任何一個(gè)賣場(chǎng),顧客購(gòu)買任何一件產(chǎn)品,其購(gòu)物信息都會(huì)即時(shí)傳送到沃爾瑪?shù)钠髽I(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù),并實(shí)時(shí)地進(jìn)行分析,并及時(shí)挖掘到也許連顧客自己都不清楚的潛在購(gòu)物需求。日本服裝品牌優(yōu)衣庫(kù)也通過(guò)對(duì)銷售的每一件服裝的相關(guān)數(shù)據(jù)進(jìn)行分析,并根據(jù)其結(jié)果來(lái)進(jìn)行新品設(shè)計(jì)和生產(chǎn),確保其深得世界各地用戶的喜愛(ài)。
同時(shí),數(shù)據(jù)分析不受行業(yè)的限制?!拔覀兊挠脩粢押w汽車、食品、快消、旅游、金融等各個(gè)行業(yè)?!逼顕?guó)晟說(shuō)。
市場(chǎng)有待進(jìn)一步拓展
然而,從目前國(guó)內(nèi)外大數(shù)據(jù)營(yíng)銷市場(chǎng)情況看,熱衷于此的似乎都是上規(guī)模、具有核心競(jìng)爭(zhēng)力的大企業(yè),中小企業(yè)較少問(wèn)津。
國(guó)雙科技的情況也是如此。這個(gè)成立僅8年的本土企業(yè),服務(wù)的客戶也“鎖定”在規(guī)模相對(duì)較大的企業(yè)群,如中國(guó)人保財(cái)險(xiǎn)、日產(chǎn)汽車、可口可樂(lè)、歐萊雅、央視國(guó)際、江蘇衛(wèi)視等。2012年3月,國(guó)雙科技獲得政府青睞,成為國(guó)家信息中心戰(zhàn)略合作伙伴,雙方共同成立了網(wǎng)絡(luò)政府研究中心,為全國(guó)的政府網(wǎng)站提供技術(shù)與服務(wù)。
祁國(guó)晟表示:“大企業(yè)機(jī)構(gòu)更成熟、架構(gòu)更完善,對(duì)精細(xì)化運(yùn)營(yíng)的要求更高,需要很詳細(xì)的數(shù)據(jù)分析和數(shù)據(jù)挖掘以降低成本。”
“而中小企業(yè)大多還處于跑馬圈地的階段,對(duì)他們來(lái)說(shuō),優(yōu)先考慮的是如何發(fā)展,”祁國(guó)晟認(rèn)為,“雖然有些中小企業(yè)在發(fā)展階段對(duì)數(shù)據(jù)分析也有需求,但往往因?yàn)橄嚓P(guān)產(chǎn)品和服務(wù)費(fèi)用較高而止步。”
“數(shù)據(jù)類人才短缺也是導(dǎo)致數(shù)據(jù)分析類產(chǎn)品和服務(wù)成本高的原因之一,”祁國(guó)晟說(shuō):“全球大數(shù)據(jù)行業(yè)都有這個(gè)問(wèn)題,我國(guó)更加嚴(yán)重?!?/p>
因?yàn)槿鄙傧嚓P(guān)的技術(shù)人員,小企業(yè)即使有第三方數(shù)據(jù)公司提供的軟件系統(tǒng)也無(wú)法很好使用,必然還需要相應(yīng)的服務(wù);而服務(wù)成本又因?yàn)槿瞬哦倘毕鄬?duì)較高,所以,矛盾必然出現(xiàn)。
對(duì)于國(guó)雙科技來(lái)說(shuō),人才同樣是個(gè)頭疼的問(wèn)題。“我們需要高度復(fù)合型的人才,這樣的人才在市場(chǎng)上比較少,需要很長(zhǎng)時(shí)間的培訓(xùn)。因?yàn)槿比耍覀冇袝r(shí)候不得不放棄一些本來(lái)很優(yōu)質(zhì)的客戶,” 祁國(guó)晟說(shuō):“我們寧可少做幾個(gè)客戶,也不能因?yàn)槿耸植蛔愣档头?wù)質(zhì)量?!?/p>
企業(yè)在委托第三方技術(shù)公司幫助其應(yīng)用大數(shù)據(jù)方面,另一個(gè)擔(dān)憂來(lái)自于對(duì)數(shù)據(jù)安全的顧慮。事實(shí)上,目前,數(shù)據(jù)安全威脅已經(jīng)可以通過(guò)技術(shù)手段加以防范?!捌髽I(yè)數(shù)據(jù)安全有關(guān)的技術(shù)已經(jīng)很成熟,通過(guò)加裝防火墻、密碼保護(hù)、存儲(chǔ)安全技術(shù)云計(jì)算等等多種IT手段,已經(jīng)可以確保核心數(shù)據(jù)不被外泄或篡改?!?/p>
篇9
【關(guān)鍵詞】大數(shù)據(jù)分析 公共交通 醫(yī)藥 移動(dòng)通信
所謂大數(shù)據(jù),一方面是指在一定時(shí)間內(nèi)無(wú)法被常規(guī)信息技術(shù)和傳統(tǒng)數(shù)據(jù)庫(kù)管理軟硬件工具感知、獲取和處理的巨量數(shù)據(jù)集合;另一方面,是指形成、管理、挖掘大數(shù)據(jù), 快速搜集、處理、分析大數(shù)據(jù)的技術(shù)和能力。
大數(shù)據(jù)的主要特點(diǎn)是海量、非結(jié)構(gòu)化和半結(jié)構(gòu)化、實(shí)時(shí)處理。大數(shù)據(jù)技術(shù),或大數(shù)據(jù)分析技術(shù),就是對(duì)這些數(shù)量巨大的海量數(shù)據(jù)進(jìn)行搜索、整理、分析、加工,以便獲得有價(jià)值的產(chǎn)品和服務(wù),以及提煉出具有深刻見(jiàn)解和潛在價(jià)值信息的技術(shù)和手段。
1 大數(shù)據(jù)分析在公共交通中的應(yīng)用
交通擁堵日益嚴(yán)重,交通事故頻繁發(fā)生,這些都是各大城市亟待解決的問(wèn)題,科學(xué)分析交通管理體系成為改善城市交通的關(guān)鍵所在。因此,高效、準(zhǔn)確地獲取交通數(shù)據(jù)是構(gòu)建合理城市交通管理體系的前提,而這一難題可以通過(guò)大數(shù)據(jù)管理得到解決。
大數(shù)據(jù)分析技術(shù)改變了傳統(tǒng)公共交通的路徑:大數(shù)據(jù)可以跨越行政區(qū)域的限制;大數(shù)據(jù)可以高效地整合交通信息;大數(shù)據(jù)可以較好地配置公共交通資源;大數(shù)據(jù)可以促進(jìn)公共交通均衡性發(fā)展。在大數(shù)據(jù)中,隨著數(shù)據(jù)庫(kù)攝入更多數(shù)據(jù),所消耗的計(jì)算工作量反而遞減,配置成本也隨之減小,但所做的計(jì)算則更加精準(zhǔn)。大數(shù)據(jù)在公共交通中的應(yīng)用表現(xiàn)在:一旦某個(gè)路段發(fā)生問(wèn)題,能立刻從大數(shù)據(jù)中調(diào)出有用信息,確保交通的連貫性和持續(xù)性;另一方面,大數(shù)據(jù)具有較高預(yù)測(cè)能力,可降低誤報(bào)和漏報(bào)的概率, 可隨時(shí)針對(duì)公共交通的動(dòng)態(tài)性給予實(shí)時(shí)監(jiān)控。因此,在駕駛者無(wú)法預(yù)知交通擁堵的可能性時(shí),大數(shù)據(jù)可幫助用戶預(yù)先了解。
2 大數(shù)據(jù)分析在醫(yī)藥領(lǐng)域中的應(yīng)用
在醫(yī)學(xué)領(lǐng)域,我們正處在一醫(yī)學(xué)信息爆炸的時(shí)代?;蛐蛄?、各種醫(yī)學(xué)圖像、電子病歷記錄和多中心臨床藥物試驗(yàn)等,使生物醫(yī)學(xué)領(lǐng)域跨入網(wǎng)絡(luò)化的大數(shù)據(jù)時(shí)代。如何從醫(yī)療大數(shù)據(jù)中提取出有用的信息是目前亟待解決的問(wèn)題,構(gòu)建醫(yī)療大數(shù)據(jù)系統(tǒng)需要將各家醫(yī)院通過(guò)互聯(lián)網(wǎng)連接,實(shí)現(xiàn)各家醫(yī)院之間的數(shù)據(jù)共享。將醫(yī)療數(shù)據(jù)存于專門的數(shù)據(jù)庫(kù)中,在信息協(xié)作平臺(tái)上將各種醫(yī)療信息分類整合,建立成一個(gè)相互共享的網(wǎng)絡(luò),從而實(shí)現(xiàn)醫(yī)療數(shù)據(jù)信息的共享。
大數(shù)據(jù)技術(shù)的核心就是預(yù)測(cè),使用大數(shù)據(jù)分析技術(shù)可以提高診斷疾病的準(zhǔn)確率,對(duì)有效地治療疾病具有重要價(jià)值。其中最好地體現(xiàn)在傳染病預(yù)測(cè)上,因?yàn)閭魅静〉陌l(fā)生、發(fā)展、分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關(guān)系,特別在全球氣候變化和經(jīng)濟(jì)全球化背景下,自然環(huán)境及人類社會(huì)活動(dòng)對(duì)傳染病的影響越來(lái)越重要。因此,時(shí)間和空間信息對(duì)傳染病的預(yù)測(cè)、預(yù)警具有重要意義。利用大數(shù)據(jù)可對(duì)傳染病疫情的時(shí)間、空間信息進(jìn)行多維搜索,檢索、處理和分析這些疫情信息可實(shí)現(xiàn)對(duì)傳染病的流行趨勢(shì)及影響范圍進(jìn)行預(yù)測(cè)、預(yù)警,對(duì)提高傳染病防控的針對(duì)性、預(yù)見(jiàn)性和主動(dòng)性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義。
3 大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用
當(dāng)前的大數(shù)據(jù)技術(shù)面臨著數(shù)據(jù)過(guò)大和安全隱患越多這兩個(gè)問(wèn)題。在移動(dòng)通信網(wǎng)絡(luò)發(fā)展的過(guò)程中,網(wǎng)上用戶在不斷增加,通信網(wǎng)絡(luò)的范圍在不斷擴(kuò)大, 而移動(dòng)通信網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量也在不斷上升。大數(shù)據(jù)技術(shù)和移動(dòng)通信網(wǎng)絡(luò)的安全問(wèn)題密切相關(guān),一旦技術(shù)出現(xiàn)漏洞,移動(dòng)通信網(wǎng)絡(luò)的數(shù)據(jù)就會(huì)出現(xiàn)安全隱患。大數(shù)據(jù)技術(shù)中存儲(chǔ)功能的是云儲(chǔ)存技術(shù),它將大量的網(wǎng)絡(luò)數(shù)據(jù)放在統(tǒng)一的平臺(tái)之上,加大了數(shù)據(jù)丟失的風(fēng)險(xiǎn),影響移動(dòng)通信網(wǎng)絡(luò)的安全。
優(yōu)化移動(dòng)通信網(wǎng)絡(luò),需要運(yùn)用大數(shù)據(jù)技術(shù)的儲(chǔ)存功能。移動(dòng)通信網(wǎng)絡(luò)的用戶在不斷變化,每天都要更新大量的數(shù)據(jù),而且這些數(shù)據(jù)都需要進(jìn)行妥善管理和保存。在這一過(guò)程中,可以應(yīng)用大數(shù)據(jù)技術(shù)的存儲(chǔ)功能, 將存儲(chǔ)虛擬化作為解決存儲(chǔ)問(wèn)題的有效策略。
優(yōu)化移動(dòng)通信網(wǎng)絡(luò),需要獲取相關(guān)的數(shù)據(jù)信息。移動(dòng)通信網(wǎng)絡(luò)的用戶非常多,而且其所跨越的時(shí)間、空間維度都很大,這些用戶在移動(dòng)通信網(wǎng)絡(luò)留下的海量的數(shù)據(jù)信息,使數(shù)據(jù)獲取工作難以繼續(xù)。在進(jìn)行數(shù)據(jù)的獲取和收集工作時(shí),移動(dòng)通信網(wǎng)絡(luò)可以應(yīng)用大數(shù)據(jù)技術(shù),減少人力和物力的投入,同時(shí)增加數(shù)據(jù)的準(zhǔn)確度。
4 結(jié)語(yǔ)
本文是大數(shù)據(jù)技術(shù)在實(shí)際生活領(lǐng)域的應(yīng)用,分別闡述了大數(shù)據(jù)分析技術(shù)在公共交通、醫(yī)藥領(lǐng)域、移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的具體運(yùn)用。借助大數(shù)據(jù)技術(shù)的即時(shí)性、準(zhǔn)確性和預(yù)測(cè)性,將其應(yīng)用到人們的日常生活領(lǐng)域,提高了人們的生活質(zhì)量。
參考文獻(xiàn)
[1]陳美.大數(shù)據(jù)在公共交通中的應(yīng)用[J]. 圖書(shū)與情報(bào),2012(06):22-28.
[2]張春麗,成.大數(shù)據(jù)分析技術(shù)及其在醫(yī)藥領(lǐng)域中的應(yīng)用[J].標(biāo)記免疫分析與臨床,2016(03):327-333.
[3]汪敏,廖名揚(yáng).大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用研究[J].通訊世界,2017(02):123.
[4]祝興平.大數(shù)據(jù)分析技術(shù)及其在數(shù)字出版中的應(yīng)用[J].出版發(fā)行研究,2014(04):13-16.
[5]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào),2014(09):1889-1908.
作者簡(jiǎn)介
段雯瓊(1996-),女,河南省漯河市人。大學(xué)本科學(xué)歷。研究方向?yàn)橥ㄐ?、互?lián)網(wǎng)。
篇10
現(xiàn)在的大數(shù)據(jù)的后面是個(gè)大冰川,海平面上的普通人一般能看見(jiàn),海平面以下是專業(yè)人士能看見(jiàn)的。Linkedin內(nèi)部大約有起碼20種不同的數(shù)據(jù)庫(kù),就是完全不同的技術(shù)的數(shù)據(jù)庫(kù),還不包括同樣一種數(shù)據(jù)庫(kù)有不同的應(yīng)用。但實(shí)際上我們真正的內(nèi)部企業(yè)用戶,包括Linkedin本身,需要的不是一個(gè)大冰川,需要的最后是冰激淋,就想把結(jié)果出來(lái)就行,他不需要大冰川。
怎么能做到這個(gè)冰淇淋呢?咱們講講數(shù)據(jù)分析的變革?;敬髷?shù)據(jù)分析的三個(gè)原則,這個(gè)基本的原則是我大約加入Linkedin9個(gè)月以后我們決定下來(lái)的。我們?nèi)绻鲆患钪匾氖碌脑?,那個(gè)事需要有三個(gè)屬性:
第一個(gè)簡(jiǎn)單,他出來(lái)的結(jié)果必須要非常非常簡(jiǎn)單,沒(méi)有任何花哨的東西,任何人都能夠看明白看懂。
第二個(gè)迅速,就是剛才說(shuō)的速度的問(wèn)題,越慢結(jié)束度越低,越快接受度越高。當(dāng)然在Linkedin使用的是藍(lán)圖法則,3秒鐘的法則。
第三就是要規(guī)模化,規(guī)?;鬟@的角度來(lái)說(shuō),我們當(dāng)時(shí)思考的方法是這樣的,希望Linkedin內(nèi)部所有的員工每一個(gè)人都能夠用數(shù)據(jù)來(lái)分析幫他們做決策,很快的做決策。
怎么做到這一點(diǎn)?
第一步,我們需要建立一個(gè)真正的金字塔。分析師不應(yīng)該從數(shù)據(jù)開(kāi)始,他必須要從客戶、產(chǎn)品、市場(chǎng)、銷售開(kāi)始,也就是說(shuō)明白公司怎么能做到這件事。他必須要明白如何在這種層面標(biāo)記未來(lái)的事物,標(biāo)記比數(shù)據(jù)本身重要得多。分析師本身要分析自己以后要分析什么,這樣才能把正確標(biāo)記加到數(shù)據(jù)庫(kù)里面去。他還必須要明白,數(shù)據(jù)庫(kù)之間的公用,流程,每種數(shù)據(jù)是怎么分工的。
下面就干活了。在Linkedin有一個(gè)不成文的共識(shí),你做的東西不僅僅是有趣是不夠的,必須要注重執(zhí)行性。我分析到這個(gè)結(jié)果以后到底能做什么,這是很重要的。說(shuō)完了做以后咱們就走到?jīng)Q策,決策本身一定要實(shí)現(xiàn)增加商業(yè)的價(jià)值,或?yàn)閳F(tuán)隊(duì)增加價(jià)值。
第二步是規(guī)?;?。需要用科技來(lái)把金字塔變成一個(gè)非常小的底,而大的中心,最小的一個(gè)尖的一個(gè)過(guò)程。舉個(gè)例子,Linkedin我待的九個(gè)月之內(nèi)和另外一個(gè)同事合作,完成了500個(gè)不同的需求項(xiàng)目和模型,但是當(dāng)年我們其實(shí)直接支持兩百個(gè)人,500&pide;200,每年我才回答2.5個(gè)問(wèn)題,這絕對(duì)是非數(shù)據(jù)驅(qū)動(dòng)。后來(lái)我們決定是把整個(gè)做一個(gè)系統(tǒng),來(lái)模擬以前我們兩做的大部分工作,這個(gè)系統(tǒng)響應(yīng)3秒鐘,簡(jiǎn)單的規(guī)?;?,大概花了三個(gè)月,五個(gè)人,在內(nèi)部支持銷售的,在今天為止每天這個(gè)系統(tǒng)可以服務(wù)1000個(gè)銷售員工,大約用這個(gè)系統(tǒng)十次,用一次大約時(shí)間是3秒到一分鐘,這個(gè)系統(tǒng)一天就能做到以前我們兩個(gè)人做不到的事情,這就是一個(gè)規(guī)?;慕Y(jié)果。當(dāng)年出來(lái)結(jié)果是我們銷售增長(zhǎng)了175個(gè)百分點(diǎn)。