大數(shù)據(jù)分析范文
時間:2023-04-06 11:43:51
導(dǎo)語:如何才能寫好一篇大數(shù)據(jù)分析,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
數(shù)據(jù)分析:從挖金土豆到篩金沙
大數(shù)據(jù)之所以成為業(yè)界的熱點,是因為現(xiàn)在做數(shù)據(jù)分析的價值越來越大,在Hadoop等技術(shù)的支持下,成本相對越來越低。對于企業(yè)做數(shù)據(jù)分析的價值和方法的前后變化,Informatica公司大中國區(qū)首席產(chǎn)品顧問但彬在論壇上,用一個非常生動形象的比喻做了說明:“如果將做數(shù)據(jù)分析比喻成開采金礦,原來我們所做的是用挖掘機挖金土豆,而現(xiàn)在則是用篩子來篩金沙。因為現(xiàn)在大量分布在社交網(wǎng)絡(luò)的數(shù)據(jù),對企業(yè)而言就是就像是大量的金沙,分布廣泛而分散。如果能用低成本的方法篩出金沙,是非常有價值且值得做的事情?!?/p>
但彬介紹,Informatica作為一家數(shù)據(jù)集成公司,更關(guān)注的是如何把來自各個地方的大數(shù)據(jù),通過像抽水機的泵一樣的裝置整合到需要的程度和地方。Informatica2011年完成了近8億元的收入,這也是對大數(shù)據(jù)市場火熱程度的一個印證。
Informatica主要從四個方向考慮大數(shù)據(jù)處理的一些問題:第一,大數(shù)據(jù)的集成,即從數(shù)據(jù)種類的多樣性方面,整合所有來源的所有數(shù)據(jù)類型,不管是來自交易系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),社交網(wǎng)絡(luò)的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),還是來自RFID讀卡器的感應(yīng)數(shù)據(jù);第二,保障數(shù)據(jù)的權(quán)威、可信性,保障數(shù)據(jù)安全,實現(xiàn)可重復(fù)利用、一致的數(shù)據(jù)質(zhì)量;第三是實現(xiàn)數(shù)據(jù)的自助式服務(wù),消除手工操作帶來的錯誤,提高生產(chǎn)率,允許分析員通過基于瀏覽器的工具直觀地定義和校驗從源到目標的處理流程,以此自動生成映射邏輯,交由開發(fā)人員部署運行;第四是自適應(yīng)服務(wù),通過多協(xié)議數(shù)據(jù)配置、集成數(shù)據(jù)質(zhì)量等手段實現(xiàn)交付適應(yīng)不同項目需求的數(shù)據(jù)。
從交易到交互,從互聯(lián)網(wǎng)行業(yè)到傳統(tǒng)行業(yè),大數(shù)據(jù)的滲透力和影響力不容小覷。在Teradata大中華區(qū)首席架構(gòu)師張新宇看來,除了數(shù)據(jù)管理,更重要的是數(shù)據(jù)分析,利用新的分析方法,比如通過使用Map Reduce(編程語言可以是Java/Python/Perl/C/C++)新分析框架,提供針對多種數(shù)據(jù)的并行處理能力等,實現(xiàn)大數(shù)據(jù)的洞察力是更關(guān)鍵的。
北京賽迪時代信息產(chǎn)業(yè)股份有限公司存儲工程服務(wù)事業(yè)部總經(jīng)理李降龍也介紹,大數(shù)據(jù)帶來的挑戰(zhàn)在于怎樣實時處理這些數(shù)據(jù),通過虛擬化搭建一個計算和存儲資源池,以彈性架構(gòu)有效地合理分配和使用它們,并建立合理應(yīng)用系統(tǒng),使大數(shù)據(jù)得到最好的管理和使用,才能發(fā)揮大數(shù)據(jù)的價值。論壇上民族證券CIO顏陽也分享了證券公司對于大數(shù)據(jù)的理解以及他們所做輿情分析的大數(shù)據(jù)應(yīng)用。
職場新貴:數(shù)據(jù)科學(xué)家
針對大數(shù)據(jù)而生的新一代分析工具――Map Reduce近年來備受關(guān)注,它一次遍歷數(shù)據(jù),連接列表順序分析,而不需要像傳統(tǒng)的SQL那樣為了排序需要對表做自關(guān)聯(lián)。Map Reduce在數(shù)字營銷優(yōu)化、社交網(wǎng)絡(luò)及關(guān)系分析、欺詐檢測及預(yù)防、設(shè)備數(shù)據(jù)分析等場景中都有非常好的應(yīng)用。
除了原有的關(guān)系型數(shù)據(jù)分析,結(jié)合非關(guān)系型數(shù)據(jù)(NoSQL)的探索性分析的需求在企業(yè)內(nèi)部越來越旺盛,如此一來,一種新的IT職業(yè)――數(shù)據(jù)科學(xué)家會越來越火。
篇2
通過一系列收購,EMC已經(jīng)建立了一條比較完善的大數(shù)據(jù)產(chǎn)品線。在此基礎(chǔ)上,EMC拋出了大數(shù)據(jù)之旅的三段論。
第一關(guān):構(gòu)建云基礎(chǔ)架構(gòu)
大數(shù)據(jù)分析和處理的基礎(chǔ)是完善的云基礎(chǔ)架構(gòu),主要包括大數(shù)據(jù)存儲和大數(shù)據(jù)分析兩個平臺。
EMC大數(shù)據(jù)存儲平臺的兩大支柱產(chǎn)品是Isilon集群NAS以及Atmos海量智能存儲。Isilon集群NAS是EMC兩年前收購的產(chǎn)品,具有很強的橫向擴展能力,使用起來非常方便。目前,Isilon集群NAS被用于許多云存儲的項目。Atmos海量智能存儲可以很好地支持分布式大數(shù)據(jù)計算。許多電信運營商基于Atmos構(gòu)建了公有云系統(tǒng),其部署非常簡單,而且性價比很高。
EMC的大數(shù)據(jù)解決方案分成純軟件和軟硬件一體兩種。Isilon集群NAS與Greenplum軟件組成了一體化解決方案。蔡漢輝介紹說:“Isilon集群NAS目前主要作為大數(shù)據(jù)存儲平臺,可與Greenplum、Hadoop結(jié)合,但同時也會兼顧傳統(tǒng)存儲應(yīng)用。為了更好地支持大數(shù)據(jù)和云服務(wù),Isilon集群NAS在今年底還會開放API,讓更多第三方的廠商能基于Isilon集群NAS平臺進行開發(fā)?!?/p>
EMC大數(shù)據(jù)分析平臺的核心是兩年前收購得來的Greenplum的產(chǎn)品,主要包括Greenplum Database(支持結(jié)構(gòu)化數(shù)據(jù)庫)和Greenplum HD(支持Hadoop)。蔡漢輝介紹說:“Greenplum大數(shù)據(jù)分析平臺可以實時處理任何來源的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。Greenplum不僅可以處理PB級的數(shù)據(jù),而且處理速度可以達到10TB/h。”
第二關(guān):實現(xiàn)社交化服務(wù)
構(gòu)建高性能、可靠、靈活的大數(shù)據(jù)分析平臺是第一步,接下來,用戶要構(gòu)建數(shù)據(jù)處理的協(xié)作平臺,建立自助服務(wù)的環(huán)境。EMC把這個階段稱為社交化階段。
2012年3月,EMC了首個用于大數(shù)據(jù)的社交工具集Greenplum Chorus,使得數(shù)據(jù)科學(xué)家可以通過類似Facebook的社交方式進行協(xié)作。Greenplum Chorus是EMC中國研發(fā)團隊主導(dǎo)開發(fā)的產(chǎn)品。Greenplum Chorus基于開放的架構(gòu),是一個用于數(shù)據(jù)挖掘和協(xié)作分析的流程平臺。Greenplum Chorus包括數(shù)據(jù)探索、個人項目工作空間(又稱個人沙盒)、數(shù)據(jù)分析和幾個主要環(huán)節(jié)。
Greenplum Chorus開發(fā)主管莊富任介紹了Greenplum Chorus的工作流程:Greenplum Chorus提供了強大的搜索引擎,可以快速尋找到數(shù)據(jù),并將這些數(shù)據(jù)進行關(guān)聯(lián),從而實現(xiàn)數(shù)據(jù)采集的可視化;采集來的數(shù)據(jù)被放到個人沙盒中進行處理,這個處理過程不會影響整個數(shù)據(jù)庫的運行;在協(xié)作分析階段,數(shù)據(jù)分析人員可以共享工作空間、代碼,協(xié)同工作兼具靈活性和安全性;最后,相關(guān)的處理結(jié)果被出來。上述處理過程將循環(huán)往復(fù)。
Greenplum Chorus未來將走向開源。EMC已經(jīng)了一個名為OpenChorus的計劃,其目標是促進技術(shù)創(chuàng)新,同時促進那些運行在Greenplum Chorus平臺上的協(xié)作的、社交化的數(shù)據(jù)應(yīng)用的普及。2012年下半年,EMC還將公布Greenplum Chorus源代碼,讓更多人加入到Greenplum Chorus陣營中來。
第三關(guān):敏捷開發(fā)服務(wù)
大數(shù)據(jù)處理的第三個階段就是構(gòu)建一個敏捷的開發(fā)環(huán)境,用于實時決策,并且更好地支持大數(shù)據(jù)應(yīng)用程序。
從形式上看,傳統(tǒng)的大數(shù)據(jù)方案包括打包方案和定制化開發(fā)兩種。打包方案具有高效率、低成本的優(yōu)勢,但是需要精確的數(shù)據(jù)模型。定制化開發(fā)可以實現(xiàn)應(yīng)用的創(chuàng)新,但是實施起來難度大,周期長,而且價格昂貴。EMC希望為用戶提供一種敏捷開發(fā)的方式,在充分發(fā)揮上述兩種方案優(yōu)勢的同時彌補其不足。為此,2012年3月,EMC收購了Pivotal Labs公司。Pivotal Labs是一家私營的敏捷軟件開發(fā)服務(wù)和工具提供商。
篇3
大數(shù)據(jù)分析技術(shù)給信息安全領(lǐng)域帶來了全新的解決方案,但是如同其它領(lǐng)域一樣,大數(shù)據(jù)的功效并非簡單地采集數(shù)據(jù),而是需要資源的投入,系統(tǒng)的建設(shè),科學(xué)的分析。Gartner在2013年的報告中指出,大數(shù)據(jù)技術(shù)作為未來信息架構(gòu)發(fā)展的十大趨勢之首,具有數(shù)據(jù)量大、種類繁多、速度快、價值密度低等特點。將大數(shù)據(jù)技術(shù)應(yīng)用與信息安全領(lǐng)域可實現(xiàn)容量大、成本低、效率高的安全分析能力。
1.1信息安全分析引入大數(shù)據(jù)的必要性
大數(shù)據(jù)具有“4V”的特點:Volume、Variety、Velocity和Value,可實現(xiàn)大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數(shù)據(jù)的處理和分析要求,將大數(shù)據(jù)應(yīng)用于信息安全領(lǐng)域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業(yè)規(guī)模的增大和安全設(shè)備的增加,信息安全分析的數(shù)據(jù)量呈指數(shù)級增長。數(shù)據(jù)源豐富、數(shù)據(jù)種類多、數(shù)據(jù)分析維度廣;同時,數(shù)據(jù)生成的速度更快,對信息安全分析應(yīng)答能力要求也相應(yīng)增長。傳統(tǒng)信息安全分析主要基于流量和日志兩大類數(shù)據(jù),并與資產(chǎn)、業(yè)務(wù)行為、外部情報等進行關(guān)聯(lián)分析?;诹髁康陌踩治鰬?yīng)用主要包括惡意代碼檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應(yīng)用主要包括安全審計、主機入侵檢測等。將大數(shù)據(jù)分析技術(shù)引入到信息安全分析中,就是將分散的安全數(shù)據(jù)整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關(guān)聯(lián)分析以及異常行為分類預(yù)測模型,有效的發(fā)現(xiàn)APT攻擊、數(shù)據(jù)泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數(shù)據(jù)分析涉及的數(shù)據(jù)更加全面,主要包括應(yīng)用場景自身產(chǎn)生的數(shù)據(jù)、通過某種活動或內(nèi)容“創(chuàng)建”出來的數(shù)據(jù)、相關(guān)背景數(shù)據(jù)及上下文關(guān)聯(lián)數(shù)據(jù)等。如何高效合理的處理和分析這些數(shù)據(jù)是安全大數(shù)據(jù)技術(shù)應(yīng)當研究的問題。
1.2安全大數(shù)據(jù)分析方法
安全大數(shù)據(jù)分析的核心思想是基于網(wǎng)絡(luò)異常行為分析,通過對海量數(shù)據(jù)處理及學(xué)習(xí)建模,從海量數(shù)據(jù)中找出異常行為和相關(guān)特征;針對不同安全場景設(shè)計針對性的關(guān)聯(lián)分析方法,發(fā)揮大數(shù)據(jù)存儲和分析的優(yōu)勢,從豐富的數(shù)據(jù)源中進行深度挖掘,進而挖掘出安全問題。安全大數(shù)據(jù)分析主要包括安全數(shù)據(jù)采集、存儲、檢索和安全數(shù)據(jù)的智能分析。(1)安全數(shù)據(jù)采集、存儲和檢索:基于大數(shù)據(jù)采集、存儲、檢索等技術(shù),可以從根本上提升安全數(shù)據(jù)分析的效率。采集多種類型的數(shù)據(jù),如業(yè)務(wù)數(shù)據(jù)、流量數(shù)據(jù)、安全設(shè)備日志數(shù)據(jù)及輿情數(shù)據(jù)等。針對不同的數(shù)據(jù)采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數(shù)據(jù)可采用流量景象方法,并使用Storm和Spark技術(shù)對數(shù)據(jù)進行存儲和分析;針對格式固定的業(yè)務(wù)數(shù)據(jù),可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數(shù)據(jù)進行檢索,大大提升數(shù)據(jù)處理效率。(2)安全數(shù)據(jù)的智能分析:并行存儲和NoSQL數(shù)據(jù)庫提升了數(shù)據(jù)分析和查詢的效率,從海量數(shù)據(jù)中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預(yù)處理)、統(tǒng)計建模工具(如回歸分析、時間序列預(yù)測、多元統(tǒng)計分析理論)、機器學(xué)習(xí)工具(如貝葉斯網(wǎng)絡(luò)、邏輯回歸、決策樹、隨機森利)、社交網(wǎng)絡(luò)工具(如關(guān)聯(lián)分析、隱馬爾可夫模型、條件隨機場)等。常用的大數(shù)據(jù)分析思路有先驗分析方法、分類預(yù)測分析方法、概率圖模型、關(guān)聯(lián)分析方法等??墒褂肕ahout和MLlib等分析工具對數(shù)據(jù)進行挖掘分析。綜上,一個完備的安全大數(shù)據(jù)分析平臺應(yīng)自下而上分為數(shù)據(jù)采集層、大數(shù)據(jù)存儲層、數(shù)據(jù)挖掘分析層、可視化展示層。主要通過數(shù)據(jù)流、日志、業(yè)務(wù)數(shù)據(jù)、情報信息等多源異構(gòu)數(shù)據(jù)進行分布式融合分析,針對不同場景搭建分析模型,最終實現(xiàn)信息安全的可管可控,展現(xiàn)整體安全態(tài)勢。
2安全大數(shù)據(jù)分析的典型應(yīng)用
2.1基于用戶行為的不良信息治理
中國移動開展了基于大數(shù)據(jù)的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數(shù)據(jù)分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數(shù)據(jù)分析平臺,采集用戶的行為數(shù)據(jù),構(gòu)建用戶行為分析模型;分別提出了異常行為分類預(yù)測模型、統(tǒng)計預(yù)測分析模型、社交網(wǎng)絡(luò)分析模型等,將用戶的行為數(shù)據(jù)輸入到模型中,可以精準地挖掘出違規(guī)電話號碼,并且發(fā)現(xiàn)違規(guī)號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構(gòu)建多維度的用戶畫像數(shù)據(jù)庫,支撐全方位的大數(shù)據(jù)不良信息治理服務(wù),支撐大數(shù)據(jù)不良內(nèi)容的智能識別等。實踐表明,大數(shù)據(jù)分析技術(shù)能夠挖掘出更多潛在的違規(guī)號碼,是對現(xiàn)有系統(tǒng)的有效補充。除此之外,中國移動還將大數(shù)據(jù)技術(shù)應(yīng)用在安全態(tài)勢感知、手機惡意軟件檢測和釣魚網(wǎng)站的分析中,提升了現(xiàn)有系統(tǒng)的分析能力。
2.2基于網(wǎng)絡(luò)流量的大數(shù)據(jù)分析
在互聯(lián)網(wǎng)出口進行旁路流量監(jiān)控,使用Hadoop存儲及Storm、Spark流分析技術(shù),通過大數(shù)據(jù)分析技術(shù)梳理業(yè)務(wù)數(shù)據(jù),深度分析所面臨的安全風(fēng)險。主要分析思路是采集Netflow原始數(shù)據(jù)、路由器配置數(shù)據(jù)、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協(xié)議還原等方法,進行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。
2.3基于安全日志的大數(shù)據(jù)分析
基于安全日志的大數(shù)據(jù)分析思路主要是融合多種安全日志,進行數(shù)據(jù)融合關(guān)聯(lián)分析,構(gòu)建異常行為模型,來挖掘違規(guī)安全事件。主要的安全日志包含Web日志、IDS設(shè)備日志、Web攻擊日志、IDC日志、主機服務(wù)器日志、數(shù)據(jù)庫日志、網(wǎng)管日志、DNS日志及防火墻日志等,通過規(guī)則關(guān)聯(lián)分析、攻擊行為挖掘、情景關(guān)聯(lián)分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數(shù)據(jù)分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應(yīng)用場景?;诎踩罩镜拇髷?shù)據(jù)分析已經(jīng)在國際上有廣泛的應(yīng)用。如IBMQRadar應(yīng)用整合分散在網(wǎng)絡(luò)各處的數(shù)千個設(shè)備端點和應(yīng)用中的日志源事件數(shù)據(jù),并將原始安全數(shù)據(jù)進行標準化,以區(qū)別威脅和錯誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBMQradar還可以將系統(tǒng)漏洞與事件和網(wǎng)絡(luò)數(shù)據(jù)相關(guān)聯(lián),劃分安全性事件的優(yōu)先級等。ZettaSet海量事件數(shù)據(jù)倉庫來分析網(wǎng)絡(luò)中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數(shù)據(jù)倉庫)。Orchestrator是端到端的Hadoop管理產(chǎn)品,支持多個Hadoop分布;SDW是構(gòu)建在Hadoop的基礎(chǔ)上,并且基于Hive分布式存儲。SDW于2011年BlackHat網(wǎng)絡(luò)安全會議面世,SDW可從網(wǎng)絡(luò)防火墻、安全設(shè)備、網(wǎng)站流量、業(yè)務(wù)流程以及其它事務(wù)中挖掘安全信息,確定并阻止安全性威脅。處理的數(shù)據(jù)質(zhì)量和分析的事件數(shù)量比傳統(tǒng)SIEM多;對于一個月的數(shù)據(jù)負載,傳統(tǒng)SIEM搜索需要20~60min,Hive運行查詢只需1min左右。
2.4基于DNS的安全大數(shù)據(jù)分析
基于DNS的安全大數(shù)據(jù)分析通過對DNS系統(tǒng)的實時流量、日志進行大數(shù)據(jù)分析,對DNS流量的靜態(tài)及動態(tài)特征進行建模,提取DNS報文特征:DNS分組長、DNS響應(yīng)時間、發(fā)送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構(gòu)建異常行為模型,來檢測針對DNS系統(tǒng)的各類流量攻擊(如DNS劫持、DNS拒絕服務(wù)攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網(wǎng)站域名等。
2.5APT攻擊大數(shù)據(jù)分析
高級可持續(xù)性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征?,F(xiàn)已成為信息安全保障領(lǐng)域的巨大威脅?!罢鹁W(wǎng)”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。收集業(yè)務(wù)系統(tǒng)流量、Web訪問日志、數(shù)據(jù)日志、資產(chǎn)庫及Web滲透知識庫等,提取系統(tǒng)指紋、攻擊種類、攻擊時間、黑客關(guān)注度、攻擊手段類型、行為歷史等事件特征,再基于大數(shù)據(jù)機器學(xué)習(xí)方法,發(fā)現(xiàn)Web滲透行為、追溯攻擊源、分析系統(tǒng)脆弱性,加強事中環(huán)節(jié)的威脅感知能力,同時支撐調(diào)查取證。
3總結(jié)
篇4
關(guān)鍵詞:大數(shù)據(jù)時代;大數(shù)據(jù);統(tǒng)計學(xué);數(shù)據(jù)分析
引言:
目前階段,在計算機處理技術(shù)不斷發(fā)展的背景下,在對規(guī)模較大并且較為復(fù)雜的數(shù)據(jù)進行處理過程中,人們已經(jīng)逐漸掌握了方法與技能,并且能夠在大規(guī)模的數(shù)據(jù)中找出具有一定價值的信息,所以,大數(shù)據(jù)時代已經(jīng)來臨。在數(shù)據(jù)時代中,在人文社科與人類自然科學(xué)技術(shù)等方面都會有較大的發(fā)展,同時也會一定程度上改變?nèi)藗兊纳钆c工作方式。除此之外,大數(shù)據(jù)時代也同樣為統(tǒng)計學(xué)提供了良好的發(fā)展機會,但也存在一定的挑戰(zhàn)。
一、大數(shù)據(jù)時代的概念
大數(shù)據(jù)時代的提出者是麥肯錫,他認為數(shù)據(jù)已經(jīng)逐漸進入到各個行業(yè)與各業(yè)務(wù)職能的領(lǐng)域中,并且逐漸成為了主要的生產(chǎn)因素[1]。因此,人們在對大規(guī)模數(shù)據(jù)進行挖掘與應(yīng)用的過程,也就意味著新的生產(chǎn)率增長的來臨。雖然“大數(shù)據(jù)”在眾多行業(yè)被廣泛應(yīng)用,但是,特別是在信息與互聯(lián)網(wǎng)的領(lǐng)域中應(yīng)用突出。
二、怎樣理解大數(shù)據(jù)
(一)大數(shù)據(jù)概念界定與構(gòu)成
大數(shù)據(jù),即由于日常產(chǎn)生的數(shù)據(jù)量快速增長,使得數(shù)據(jù)庫無法利用相應(yīng)的管理工具對其進行管理與收集,最終導(dǎo)致在進行搜索、分析、存取、共享數(shù)據(jù)時具有較大的困難。
大數(shù)據(jù)的構(gòu)成包括四部分,并將其總結(jié)為4V,即Volume,Variety,Value,Velocity[2]。第一部分是價值密度低,將視頻作為具體實例來說,實現(xiàn)連續(xù)并且不間斷的監(jiān)控,其中有價值的數(shù)據(jù)信息只有一兩秒。第二部分是數(shù)據(jù)體量極大,已經(jīng)從TB實現(xiàn)了PB的躍升。第三部分是數(shù)據(jù)類型眾多,主要包括視頻、圖片、網(wǎng)絡(luò)日志以及地理信息等。第四部分是處理的速度超快,可以用一秒定律來解釋。
(二)海量數(shù)據(jù)帶來哪些挑戰(zhàn)
第一,數(shù)據(jù)存儲。由于大數(shù)據(jù)的數(shù)據(jù)規(guī)模是PB級別,所以,存儲的系統(tǒng)也需要進行等級的拓展,并且可以通過磁盤柜或者是增加模塊實現(xiàn)容量的增加。然而,目前階段,數(shù)據(jù)的增長速度驚人,所以系統(tǒng)資源的消耗也不斷增加,導(dǎo)致系統(tǒng)的運行效率有所下降[3]。因為對海量數(shù)據(jù)始終停留在分布式的存儲階段,所以,對于爆炸式的數(shù)據(jù)增長,原有的存儲方案已經(jīng)無法滿足現(xiàn)有的數(shù)據(jù)變化需求。
第二,處理技術(shù)。由于海量數(shù)據(jù)的分布性與數(shù)據(jù)量與以往存在較大的差異,所以,原有的數(shù)據(jù)管理技術(shù)已經(jīng)處于落后狀態(tài)。
第三,數(shù)據(jù)安全。在互聯(lián)網(wǎng)規(guī)模逐漸擴大的情況下,數(shù)據(jù)的應(yīng)用已經(jīng)出現(xiàn)指數(shù)級別的增長,所以,對于數(shù)據(jù)安全的保護與監(jiān)控來說具有一定的難度。
(三)大數(shù)據(jù)相關(guān)應(yīng)用與實踐
第一,體育賽事應(yīng)用。以2014年的世界杯為例,在充分發(fā)揮記者與編輯敏銳度的基礎(chǔ)上,騰訊也利用對大數(shù)據(jù)的分析以及云計算等方式來為為其提供移動與社交的數(shù)據(jù)。與此同時,騰訊與IBM進行合作,并通過文化、賽事與球迷三方面來對世界杯球迷的關(guān)注重點進行信息的挖掘,進而實現(xiàn)新欄目的創(chuàng)作,并且在短時間內(nèi)贏得了廣大球迷的認可與關(guān)注。
第二,產(chǎn)品推薦應(yīng)用。產(chǎn)品推薦的應(yīng)用比較廣泛,可以對客戶信息、交易歷史、購買過程等數(shù)據(jù)進行全面的分析,并進行有價值信息的挖掘。同時,針對同一產(chǎn)品的不同客戶訪問信息也可以進行挖掘。最終,通過對客戶行為的分析,來確定消費者的共,這樣就可以更好的為客戶推薦產(chǎn)品。
除此之外,在產(chǎn)品推薦中,可以在對客戶社交行為進行信息挖掘與分析的基礎(chǔ)上來進行社區(qū)的營銷。對客戶微信微博以及社區(qū)活動中的偏好數(shù)據(jù)進行分析,并為其提供符合客戶興趣愛好的產(chǎn)品。
圖一
三、如何分析大數(shù)據(jù)
(一)如何挖掘數(shù)據(jù)中價值
以匹配廣告為具體事例進行分析,主要有兩種數(shù)據(jù)。第一種是廣告庫,其中包括廣告庫以及廣告的客戶信息[4]。但是這種數(shù)據(jù)信息比較適合在傳統(tǒng)數(shù)據(jù)庫中應(yīng)用。第二種是用戶在觀看廣告后的行為??梢园岩陨蟽煞N數(shù)據(jù)進行有效的結(jié)合,并通過相應(yīng)的算法來體現(xiàn)價值。在實踐應(yīng)用過程中,可以充分體會到第二種信息的重要作用??梢詾橛脩籼峁┢渌璧男畔?,并通過群體智能以及群體行為對之前用戶使用的效果進行分析,最終通過具體的反饋機制,將最優(yōu)質(zhì)的信息提供給用戶,還可以進行搜索或者是查詢信息。
(二)如何做處理與分析
第一,更新抽樣調(diào)查的工作理念。由于大數(shù)據(jù)時代的數(shù)據(jù)樣本是以往資料綜合,所以,可以對相關(guān)事務(wù)的數(shù)據(jù)信息進行分析,進一步對總體進行了解,還可以更好的了解局部。同時需要解決以下問題:抽樣框架不穩(wěn)定,調(diào)查目的設(shè)定不合理、樣本量受限[5]。第二,積極改變對于數(shù)據(jù)精確度的標準。在大數(shù)據(jù)時代的背景下,數(shù)據(jù)的來源比較廣泛,并且對數(shù)據(jù)進行處理的技術(shù)也有所提高,所以,可以允許數(shù)據(jù)存在不準確的情況。大數(shù)據(jù)時代需要吸收多種數(shù)據(jù),但并需要一味的要求數(shù)據(jù)精準。第三,合理轉(zhuǎn)變數(shù)據(jù)關(guān)系的分析重點。由于大數(shù)據(jù)時代的數(shù)據(jù)規(guī)模比較大,而且結(jié)構(gòu)也十分復(fù)雜,變量的關(guān)系也比較繁雜。所以,在對數(shù)據(jù)進行分析的過程中,不應(yīng)該對因果關(guān)系進行仔細的分析,而重要的是對事物相關(guān)的關(guān)系進行分析。需要轉(zhuǎn)換思路,對事物關(guān)系的形式與目的進行詳細的分析。
四、 大數(shù)據(jù)對統(tǒng)計學(xué)科和統(tǒng)計研究工作的影響
(一) 拓展統(tǒng)計學(xué)研究領(lǐng)域
因為大數(shù)據(jù)時代的到來,所以會對各個領(lǐng)域產(chǎn)生一定的影響,同樣給統(tǒng)計學(xué)帶來影響。在統(tǒng)計學(xué)中,其主要的研究對象就是其所要認識的客體,是客觀存在事物自身的數(shù)量特征與關(guān)系。其中,統(tǒng)計學(xué)研究對象最主要的特點就是數(shù)量性。然而,在傳統(tǒng)的統(tǒng)計學(xué)當中,數(shù)據(jù)主要是試驗與調(diào)查的數(shù)值。在大數(shù)據(jù)時代中,統(tǒng)計研究的對象不僅包括以結(jié)構(gòu)數(shù)據(jù)度量的數(shù)量,此外,還可以包括一些無法用數(shù)量關(guān)系進行衡量的半結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù),其中可以包括動畫、圖片、聲音、文本等等[6]。所以,可以說,在大數(shù)據(jù)時代背景下,統(tǒng)計學(xué)的研究對象領(lǐng)域有所擴大。
(二) 對統(tǒng)計計算規(guī)范產(chǎn)生影響
在傳統(tǒng)的統(tǒng)計學(xué)當中,一般是使用方差、平均數(shù)以及相對數(shù)等數(shù)據(jù)計算規(guī)范來真實反映事物量特征的,同時還可以反映事物量的關(guān)系與界限,能夠通過數(shù)據(jù)計算規(guī)范來計算出具體的數(shù)值。但是,半結(jié)構(gòu)與非結(jié)構(gòu)的數(shù)據(jù)是無法通過傳統(tǒng)數(shù)據(jù)計算規(guī)范進行計算的[7]。所以,在大數(shù)據(jù)時代的背景下,傳統(tǒng)的數(shù)據(jù)計算規(guī)范也同樣遇到了難題。
(三) 對統(tǒng)計研究工作的過程產(chǎn)生影響
1. 數(shù)據(jù)整理和分析
第一,數(shù)據(jù)審核。原有的數(shù)據(jù)審核主要的目的就是對數(shù)據(jù)準確性和完整性進行嚴格的檢查。但是,在大數(shù)據(jù)的時代中,對數(shù)據(jù)的審核就必須要確保數(shù)據(jù)處理的速度以及預(yù)測的準確程度,同時還需要對數(shù)處理的規(guī)模進行準確的確定,也就是數(shù)據(jù)量級別的確定。除此之外,因為大數(shù)據(jù)自身具有不穩(wěn)定性,并且十分混亂。但是,即使是這樣,大數(shù)據(jù)也能夠挖掘出信息內(nèi)部存在的隱蔽關(guān)系以及有價值的知識。所以,大數(shù)據(jù)所反映的研究對象存在準確與不準確兩種,但是,任何一種的數(shù)據(jù)都具有一定的價值,通常情況下是不需要進行替換或者是刪除的[8]。
第二,數(shù)據(jù)存儲。在以往的數(shù)據(jù)存儲中,審核、匯總以及編制的圖表等資料是重點資料,并且需要進行保存起來的。然而,大數(shù)據(jù)保存最主要的目的就是對存儲的成本進行有效的控制,同時需要根據(jù)相應(yīng)的法規(guī)計劃來確定數(shù)據(jù)存儲的規(guī)模。
2. 數(shù)據(jù)積累、開發(fā)與應(yīng)用
第一,數(shù)據(jù)積累。傳統(tǒng)統(tǒng)計工作主要是根據(jù)所制定的研究目的來對數(shù)據(jù)進行匯總與分類,并進行保存,這樣可以更好的為后期數(shù)據(jù)的分析與查詢提供有利的條件。但是,在大數(shù)據(jù)的積累中,具有價值的信息需要對大數(shù)據(jù)進行處理后才可以發(fā)現(xiàn)。不容置疑,大數(shù)據(jù)具有一定的復(fù)雜性,所以,在積累的過程中,不可以進行簡單的處理。因為大數(shù)據(jù)的規(guī)模大,結(jié)構(gòu)也比較復(fù)雜,無法實現(xiàn)簡單的分類,而且,在對大數(shù)據(jù)進行簡單整理時非常容易使其混亂,對其真實性產(chǎn)生影響,可能會丟失具有價值的信息。
第二,數(shù)據(jù)開發(fā)。大數(shù)據(jù)時代下的數(shù)據(jù)流動性極強,所以,其自身的價值有再生性。因此,大數(shù)據(jù)時代的數(shù)據(jù)不會貶值,反而會增值。為了能夠?qū)λ芯康膶ο筮M行更深入的了解,就需要對其整合。
第三,數(shù)據(jù)應(yīng)用。對數(shù)據(jù)的傳統(tǒng)應(yīng)用主要是為了對現(xiàn)象進行解釋與預(yù)測。但是,在大數(shù)據(jù)時代,數(shù)據(jù)應(yīng)用的核心就是在相關(guān)關(guān)系前提下的預(yù)測。
結(jié)語
綜上所述,現(xiàn)階段我國社會正處于大數(shù)據(jù)時代,并且對于社會未來的發(fā)展具有重要的意義。文章對大數(shù)據(jù)時代的概念與定義以及構(gòu)成進行了闡述與分析,同時,對大數(shù)據(jù)的實際應(yīng)用與實踐進行了探討。針對大數(shù)據(jù)價值的挖掘與分析處理進行了研究,最后列舉了大數(shù)據(jù)對統(tǒng)計學(xué)科以及統(tǒng)計研究工作的影響,進而對今后大數(shù)據(jù)的數(shù)據(jù)分析工作提供了有價值的理論依據(jù),并積極的推動了大數(shù)據(jù)時代的發(fā)展,進一步促進了社會的進步。(作者單位:中國人民大學(xué))
參考文獻:
[1]朱建平,章貴軍,劉曉葳等.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014,31(2):10-19.
[2]張學(xué)敏.大數(shù)據(jù)時代的數(shù)據(jù)分析[J].電子世界,2014(16):5-5,6.
[3]李祥歌,王奇奇,郭軼博等.基于大數(shù)據(jù)時代的數(shù)據(jù)挖掘及分析[J].電子制作,2015(3):81-81.
[4]劉江娜.大數(shù)據(jù)時代:為什么數(shù)據(jù)分析能讓你的企業(yè)脫穎而出[J].環(huán)球市場信息導(dǎo)報,2014(36):92-93.
[5]郭華庚,向禮花.大數(shù)據(jù)時代網(wǎng)絡(luò)信息歸檔的元數(shù)據(jù)分析[J].貴州師范學(xué)院學(xué)報,2015,31(3):24-28.
[6]高書國.大數(shù)據(jù)時代的數(shù)據(jù)困惑――教育研究的數(shù)據(jù)困境[J].教育科學(xué)研究,2015(1):24-30.
篇5
一、大數(shù)據(jù)分析的概念及內(nèi)涵
伴隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務(wù)、社交網(wǎng)等網(wǎng)絡(luò)信息化技術(shù)的逐步推廣與應(yīng)用,社會各行各業(yè)中在多年以來的信息化進程中,均積累了大量的數(shù)據(jù)信息,而這些數(shù)據(jù)信息在近年來仍呈現(xiàn)出涌噴的增長態(tài)勢。而與此同時,數(shù)據(jù)的形態(tài)也發(fā)生了巨大的改變,以往的格式化數(shù)據(jù)正逐步過渡到格式化與非格式化數(shù)據(jù)(如圖像數(shù)據(jù)、視頻數(shù)據(jù)等)共存的時代。各類數(shù)據(jù)源的每天生成并傳輸?shù)皆朴嬎闫脚_,以供前端數(shù)據(jù)挖掘、數(shù)據(jù)分析、模型建設(shè)及數(shù)據(jù)可視化展現(xiàn)應(yīng)用,從而為社會各行各業(yè)提供綜合。可以說,社會的發(fā)展真正進入了讓數(shù)據(jù)說話的時代,即大數(shù)據(jù)時代。
大數(shù)據(jù)分析,即是各類數(shù)據(jù)進行有效分析的技術(shù)與措施。由于在大數(shù)據(jù)時代,數(shù)據(jù)信息往往呈現(xiàn)出數(shù)據(jù)量大(Volume)、速度快(Velocity)、類型復(fù)雜(Variety)、價值密度低(Value)這4V特點,如何在規(guī)模巨大、成分復(fù)雜的數(shù)據(jù)源中挖掘出對企業(yè)有用的信息,并在最短內(nèi)做出有效分析,將是大數(shù)據(jù)時代企業(yè)所要進行的一項核心工作。
二、構(gòu)建會計大數(shù)據(jù)分析型企業(yè)的意義
數(shù)據(jù)的真正價值在于發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的信息。因此,在大數(shù)據(jù)時代,對企業(yè)會計數(shù)據(jù)的有效分析與利用,將成為所有企業(yè)共同競爭的核心。通過構(gòu)建會計大數(shù)據(jù)分析型企業(yè),不僅能使企業(yè)會計成本得到量化,而且能有效促進企業(yè)經(jīng)營管理水平的進一步提升。
1.改變企業(yè)傳統(tǒng)的運營與管理模式
會計大數(shù)據(jù)分析型企業(yè)的構(gòu)建,以商業(yè)智能技術(shù)作為企業(yè)的決策中心與神經(jīng)系統(tǒng),通過對企業(yè)各類數(shù)據(jù)的充分挖掘與分析,從而實現(xiàn)企業(yè)管理流程的優(yōu)化與改良,使原本經(jīng)驗式或粗放式的管理的逐步轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動和精細化的管理模式。
例如,企業(yè)的貸款經(jīng)營管理,通過收集到足夠的貸款數(shù)據(jù),并以此建立模型進行綜合分析,可以有效評估貸款的風(fēng)險,實現(xiàn)授信和定價的指導(dǎo),以及放貸的批量化自動審批。這種企業(yè)數(shù)據(jù)化分析與管理模式的構(gòu)建,不僅能最大程度的降低企業(yè)的經(jīng)營成本,而且能提高放貸的效率性,使企業(yè)能很好的維持盈利水平。
2.推動企業(yè)市場競爭的深度與廣度
會計大數(shù)據(jù)分析型企業(yè)的構(gòu)建,有利于企業(yè)內(nèi)部管理與外部營銷的創(chuàng)新。對企業(yè)內(nèi)部管理而言,通過對自身會計數(shù)據(jù)的有效分析,可以優(yōu)化各個運營環(huán)節(jié),并輔助決策,從而激發(fā)出企業(yè)業(yè)務(wù)流程中的潛在價值,進而降低運營成本,提高管理水平與運營效率;對企業(yè)外部營銷而言,企業(yè)可以通過對海量、精準客戶數(shù)據(jù)的有效分析,或者借助于第三方數(shù)據(jù)分析平臺,以進一步了解客戶的消費行為與消費方式,從而預(yù)測銷售,實現(xiàn)精準營銷模式與互動營銷模式,進而提高企業(yè)外部營銷的科學(xué)性與有效性。近年來,在各個行業(yè)中都出現(xiàn)了以數(shù)據(jù)挖掘和數(shù)據(jù)分析,作為自身市場競爭優(yōu)勢的企業(yè),例如谷歌、海爾、寶潔等企業(yè),它們都將自身的成功歸結(jié)于對企業(yè)內(nèi)外部大量數(shù)據(jù)分析的有效應(yīng)用。
三、會計大數(shù)據(jù)分析型企業(yè)的構(gòu)建思路
會計大數(shù)據(jù)分析性企業(yè)的數(shù)據(jù)平臺建設(shè),主要是依托于商業(yè)智能技術(shù),通過收集大量的會計數(shù)據(jù)原始資料,并借助商業(yè)智能化工具實現(xiàn)對海量會計數(shù)據(jù)的分析報告、數(shù)據(jù)查詢、在線分析處理、報表生成以及數(shù)據(jù)可視化等服務(wù)。整個會計數(shù)據(jù)分析共享平臺的邏輯架構(gòu)圖,見下圖所示:
1.平臺總體架構(gòu)
如上圖所示,整個平臺的邏輯架構(gòu)分為了數(shù)據(jù)源層、數(shù)據(jù)管理層和數(shù)據(jù)應(yīng)用層。其中,數(shù)據(jù)源層是企業(yè)各類會計數(shù)據(jù)的收集源頭,各類會計數(shù)據(jù)通過“ETL過程”進行抽取、轉(zhuǎn)換、過濾和加載到數(shù)據(jù)共享分析平臺的數(shù)據(jù)倉庫中,以保障數(shù)據(jù)收集的質(zhì)量;數(shù)據(jù)管理層,則是企業(yè)會計數(shù)據(jù)進行存儲、交互處理和分析的核心層,它借助于數(shù)據(jù)分析共享平臺的數(shù)據(jù)倉庫為數(shù)據(jù)應(yīng)用層提供高質(zhì)量和有效的數(shù)據(jù)需求;數(shù)據(jù)應(yīng)用層,則是會計數(shù)據(jù)在企業(yè)各項經(jīng)營管理層面中發(fā)揮真正價值的地方,企業(yè)的多項業(yè)務(wù)通過“模型應(yīng)用”、“數(shù)據(jù)挖掘”、“報表應(yīng)用”、“管理駕駛艙”、“即席分析與查詢”等功能實現(xiàn)企業(yè)各種業(yè)務(wù)的數(shù)據(jù)應(yīng)用。
2.ETL過程
ETL(Extraction Transformation Load)過程,是實現(xiàn)對數(shù)據(jù)源層中各類會計數(shù)據(jù)處理的一個動態(tài)過程。企業(yè)可通過選擇適宜的 ETL工具,以提高數(shù)據(jù)處理的效率。目前,最為主流的ETL數(shù)據(jù)處理工具有:Ascential公司的DataStage工具、Informatica公司的Powercenter、NCR公司的ETL Automation、SAS等等。通過ETL過程,可以將滿足企業(yè)各類業(yè)務(wù)需求的數(shù)據(jù)裝載到目標數(shù)據(jù)倉庫系統(tǒng)。
3.目標數(shù)據(jù)倉庫系統(tǒng)
數(shù)據(jù)倉庫(Data Warehouse),是指適應(yīng)企業(yè)會計數(shù)據(jù)決策分析的需求,而進行建設(shè)的數(shù)據(jù)庫應(yīng)用技術(shù),它與傳統(tǒng)的數(shù)據(jù)庫技術(shù)有較大的差別。數(shù)據(jù)庫技術(shù)只是數(shù)據(jù)庫倉庫系統(tǒng)的基礎(chǔ),數(shù)據(jù)倉庫是一個直接面向主體的、集成的、非易失的、隨時間變化的和用于企業(yè)戰(zhàn)略決策的數(shù)據(jù)集合。
當前,目標數(shù)據(jù)倉庫技術(shù)已成為了會計大數(shù)據(jù)分析性企業(yè)由數(shù)據(jù)到知識,再由知識轉(zhuǎn)換為利潤的核心技術(shù)。近年來,隨著目標數(shù)據(jù)倉庫應(yīng)用的日益成熟,我國許多行業(yè)中都紛紛建立了自身的數(shù)據(jù)倉庫,在銀行、保險、電信等行業(yè)中都得到了很好的應(yīng)用。數(shù)據(jù)倉庫技術(shù)正逐漸成為21世紀企業(yè)信息化發(fā)展的核心技術(shù)。
4.數(shù)據(jù)應(yīng)用層的功能實現(xiàn)
(1)模型應(yīng)用。數(shù)據(jù)模型可以通過一系列科學(xué)標準的建模過程,以有效的對企業(yè)會計數(shù)據(jù)特征進行抽象,從而獲取關(guān)鍵信息與指標。模型應(yīng)用的重點是預(yù)測未來,它主要基于企業(yè)歷史會計數(shù)據(jù),開發(fā)各種預(yù)測模型,對企業(yè)客戶和業(yè)務(wù)的未來發(fā)展作出預(yù)測,從而對設(shè)計和策略方案進一步優(yōu)化,進而實現(xiàn)企業(yè)未來效益的最優(yōu)化。
(2)數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中自動搜索隱藏于其中的具有價值信息的過程。數(shù)據(jù)挖掘功能的實現(xiàn),主要是借助于數(shù)據(jù)庫技術(shù)、通信技術(shù)、人工智能技術(shù)、模式識別技術(shù)等多種新興技術(shù)對海量數(shù)據(jù)進行提取與分析。目前,最為流行的三大數(shù)據(jù)挖掘工具是SAS公司的SAS/EM,IBM公司的Intelligent Miner和SPSS公司的Clementine。
(3)報表應(yīng)用。報表應(yīng)用技術(shù)是利用會計數(shù)據(jù)信息,對企業(yè)歷史經(jīng)營狀況進行回顧與總結(jié)。報表應(yīng)用技術(shù)還可細分為常規(guī)報表與即席查詢這兩個部分,常用的報表工具有:IBM公司的Cogonos、SAS公司的PORTAL等。
(4)管理駕駛艙。管理駕駛艙技術(shù),是幫助企業(yè)管理層能的了解到數(shù)據(jù)背后的信息,實現(xiàn)將報表、分析層指標等數(shù)據(jù)信息的動態(tài)形象、交互界面以友好的方式呈現(xiàn)為管理層,從而幫助管理層能快速掌握企業(yè)各項經(jīng)營的指標狀況,為企業(yè)未來經(jīng)營的合理決策與風(fēng)險評估提供信息依據(jù)。
(5)即席分析與查詢。即席分析與查詢功能,是一個面向數(shù)據(jù)庫的應(yīng)用,它主要用于企業(yè)會計業(yè)務(wù)信息查詢和報表生成,也能夠為企業(yè)會計數(shù)據(jù)分析提供一個高性能和高效率的查詢系統(tǒng)。
篇6
億聯(lián)國科的BigBase數(shù)據(jù)庫在3月30日舉行的2012第五屆中國數(shù)據(jù)中心大會上被評為2012年度中國優(yōu)秀大數(shù)據(jù)分析平臺。BigBase是為了滿足云計算時代海量數(shù)據(jù)在線分析應(yīng)用的迫切需求,由億聯(lián)國科打造的中國首款擁有自主知識產(chǎn)權(quán)的基于NoSQL技術(shù)的商用大數(shù)據(jù)在線分析系統(tǒng)。BigBase是一個適用于超大規(guī)模結(jié)構(gòu)化數(shù)據(jù)存儲和在線分析的專業(yè)化系統(tǒng)。該產(chǎn)品針對中國傳統(tǒng)行業(yè)的實際需求進行了大量技術(shù)創(chuàng)新,可以有效降低各種大數(shù)據(jù)處理應(yīng)用的技術(shù)門檻,節(jié)省人力和財力,為各類企業(yè)和政府部門提供海量數(shù)據(jù)在線分析的能力。
目前,BigBase系統(tǒng)已成功應(yīng)用于電子商務(wù)、通信、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等相關(guān)企業(yè)。作為一款適用于大規(guī)模結(jié)構(gòu)化數(shù)據(jù)存儲和在線分析的新型數(shù)據(jù)庫,BigBase主要適用于三個方面的應(yīng)用:一是大規(guī)模的數(shù)據(jù)庫應(yīng)用,當數(shù)據(jù)庫中一個單表的記錄大于1億條時,必須使用類似BigBase的新型數(shù)據(jù)平臺;二是高流量的應(yīng)用,大量的流式數(shù)據(jù)要高速地寫入到系統(tǒng)中; 三是應(yīng)用于在線分析,要求實時獲得查詢結(jié)果,同時還要滿足多個用戶的并發(fā)查詢需求。
BigBase的出現(xiàn)成功地解決了傳統(tǒng)數(shù)據(jù)庫遇到海量日志類數(shù)據(jù)分析時無能為力的問題。BigBase在設(shè)計上不同于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,而是屬于典型的NoSQL數(shù)據(jù)庫。與所有NoSQL數(shù)據(jù)庫一樣,BigBase主要用于對數(shù)據(jù)的高并發(fā)讀寫和海量數(shù)據(jù)的存儲。BigBase在架構(gòu)和數(shù)據(jù)模型方面進行了簡化,同時增強了系統(tǒng)的擴展能力和并發(fā)能力。
與絕大多數(shù)NoSQL數(shù)據(jù)庫不同,BigBase還擁有自己獨特的優(yōu)勢,主要包括以下四方面:第一,具有高吞吐率,數(shù)據(jù)寫入速度達到每臺服務(wù)器每秒100萬條記錄以上,比傳統(tǒng)關(guān)系型數(shù)據(jù)庫的速度快100倍以上,數(shù)據(jù)查詢時間為毫秒級;第二,可以實現(xiàn)服務(wù)端的計算,提供NoSQL數(shù)據(jù)所不具備的區(qū)間查詢以及服務(wù)端統(tǒng)計計算能力;第三,具有更高的數(shù)據(jù)壓縮率;第四,實現(xiàn)了軟硬件一體化,通過專用的服務(wù)器硬件和數(shù)據(jù)壓縮技術(shù),可以更大程度地提高系統(tǒng)的處理性能。
BigBase已經(jīng)成為海量數(shù)據(jù)在線分析的利器。目前,大數(shù)據(jù)的商業(yè)價值逐漸受到用戶的肯定。傳統(tǒng)商業(yè)智能系統(tǒng)中用于分析的數(shù)據(jù),大多是企業(yè)自身信息系統(tǒng)所產(chǎn)生的標準化和結(jié)構(gòu)化的運營數(shù)據(jù),這些數(shù)據(jù)只占企業(yè)所能獲取數(shù)據(jù)的不足15%。另外85%的非結(jié)構(gòu)性和半結(jié)構(gòu)性數(shù)據(jù)廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、移動計算、傳感器和電子商務(wù)等媒介之中。企業(yè)如果能將這些新的數(shù)據(jù)與業(yè)務(wù)進行融合,那么依此做出的決策會更加準確。
篇7
關(guān)鍵詞:城市交通;空氣質(zhì)量監(jiān)測;移動物聯(lián);公共交通;大數(shù)據(jù)
空氣質(zhì)量監(jiān)測作為促進經(jīng)濟社會綠色發(fā)展中的重要一環(huán),以往的技術(shù)研究和應(yīng)用大多存在固定監(jiān)測站成本高、覆蓋范圍不全、難以實時反饋等問題[1]。目前,在大力推行清潔生產(chǎn),發(fā)展循環(huán)經(jīng)濟的背景下,我國的城市空氣質(zhì)量雖有好轉(zhuǎn),但由于機動車的快速增加,尾氣排放加劇,大氣環(huán)境污染治理依舊嚴峻[2-3],亟需完善空氣質(zhì)量監(jiān)測方法和機制,推進空氣污染治理智能化進程。當前,國家在大多數(shù)城市布設(shè)或完善了顆粒物、氣體監(jiān)測設(shè)備,形成了國省控點結(jié)合的地面污染源檢測網(wǎng)。然而,傳統(tǒng)監(jiān)測模式存在覆蓋范圍不大、數(shù)字化水平不高、監(jiān)測與監(jiān)管結(jié)合不緊密、監(jiān)測數(shù)據(jù)質(zhì)量有待提高等問題,且固定監(jiān)測點成本投入較大、只能靜態(tài)收集污染數(shù)據(jù)、不能實時掌握和反饋、日常維護復(fù)雜,難以滿足大氣污染治理的綠色發(fā)展需求[4]。由于交通工具的移動特性,若在交通工具上安裝多種傳感器,便能在城市中獲取覆蓋范圍廣,頻率高的動態(tài)感知數(shù)據(jù)用以相關(guān)研究,彌補固定傳感器靜態(tài)感知的不足[1]。有研究指出可以通過可移動的傳感器來感知城市空氣質(zhì)量[5-6],利用車輛的移動性來對城市的整體空氣質(zhì)量進行細粒度感知,彌補固定地面空氣監(jiān)測站的不足。然而,目前仍未見有系統(tǒng)的研究及規(guī)模應(yīng)用。因此,面對我國空氣污染的嚴峻形勢,亟需采取新方法實現(xiàn)空氣污染治理智能化,并進行應(yīng)用實踐?;诖?,本文開展了基于移動物聯(lián)的空氣質(zhì)量監(jiān)測大數(shù)據(jù)融合分析應(yīng)用研究。利用公交系統(tǒng)覆蓋范圍廣,運行軌跡、時間和發(fā)班間隔穩(wěn)定的特點,在公交車輛上搭載移動空氣質(zhì)量監(jiān)測設(shè)備實時采集PM2.5、PM10等空氣污染物監(jiān)測數(shù)據(jù),并與車輛定位等數(shù)據(jù)進行融合,對各污染物進行動態(tài)監(jiān)測,全面掌握路段區(qū)域空氣質(zhì)量污染的時空差異性,快速識別出污染因子,掌握其擴散與傳播機理,并在廣州市進行實踐應(yīng)用,助力空氣治理智能化、數(shù)字化轉(zhuǎn)型。
1研究框架概述
研究技術(shù)框架主要包括四個部分:①數(shù)據(jù)采集。通過安裝在公交車上的車載移動式空氣微型監(jiān)測傳感器,實時采集大氣環(huán)境中的PM2.5、PM10等信息,車載GPS定位器可實時采集車輛的GPS位置信息,攝像頭可以采集車輛運行時的環(huán)境視頻數(shù)據(jù)。②數(shù)據(jù)傳輸。本研究采用標準的環(huán)保部通訊規(guī)范協(xié)議,將實時采集到的PM2.5、PM10、車載GPS數(shù)據(jù),視頻數(shù)據(jù)傳輸至網(wǎng)格化在線監(jiān)測系統(tǒng)軟件平臺。③數(shù)據(jù)分析。基于多源大數(shù)據(jù)融合分析,提供實時、準確、可視的管理決策依據(jù),支撐政府環(huán)保部門對空氣質(zhì)量的監(jiān)測和分析挖掘,可指導(dǎo)提出有效的整改措施,實現(xiàn)治理工作的全面協(xié)同和問題的高效辦理,使空氣污染治理更加精細化、智能化,促進降本增效。④信息。應(yīng)用可在公交車載屏幕上展示監(jiān)測信息,為乘客提供實時空氣質(zhì)量信息服務(wù),也可以通過手機APP移動端向市民空氣質(zhì)量相關(guān)信息。研究的整體框架圖如圖1。本文充分利用現(xiàn)有公共交通資源搭載移動式空氣微型監(jiān)測站,既能有效降低建設(shè)和維護成本,又彌補了固定監(jiān)測點覆蓋面不廣的短板。通過固定與移動監(jiān)測的動靜結(jié)合,使兩種監(jiān)測方式采集的數(shù)據(jù)相互補充,相互校準,真正實現(xiàn)空氣污染的全面監(jiān)測。同時,在數(shù)據(jù)分析過程中,有效地融合多源數(shù)據(jù),有助于實現(xiàn)空氣監(jiān)測區(qū)域化、精準化、智能化,減少人力巡查和治理投入。
2監(jiān)測原理及設(shè)備安裝布點選線
2.1監(jiān)測原理
本文采用激光光散射法原對空氣質(zhì)量進行監(jiān)測。監(jiān)測傳感器主要由激光源、測量腔、透鏡組、光檢測器、濾波放大電路、微處理器元器件等組成,工作時,由激光源發(fā)出的激光通過透鏡組形成一個薄層面光源。當其照射在由氣流吹入測量腔內(nèi)的氣溶膠時,會產(chǎn)生散射光。散射光經(jīng)過透鏡組再照射到光檢測器上面時,會產(chǎn)生電信號,經(jīng)過放大電路生成模擬信號,得到散射光強度的變化曲線。微處理器可基于米氏理論算法,得到顆粒物的等效粒徑和顆粒數(shù)量,從而輸出結(jié)果。作為傳感器的載體,公交車輛具有以下特性:①行駛時間一般為6:00-22:00,可滿足對空氣質(zhì)量監(jiān)測的時間段要求;②運行軌跡固定,能夠滿足對特定路線和區(qū)域進行持續(xù)監(jiān)測的需求;③公交車輛發(fā)班間隔時間一般不超過15分鐘,可滿足對空氣監(jiān)測的頻次要求;④公交線路覆蓋范圍廣,可以監(jiān)測城市大部分區(qū)域內(nèi)的空氣質(zhì)量水平。在公交車輛運行時,通過安裝在公交車上的傳感器,可實現(xiàn)對空氣中PM2.5,PM10等污染物數(shù)據(jù)的采集,同時,車載GPS和攝像頭等設(shè)備可實時采集公交車輛運行的位置和環(huán)境視頻等數(shù)據(jù),為空氣質(zhì)量監(jiān)測大數(shù)據(jù)融合分析提供基礎(chǔ)。
2.2監(jiān)測設(shè)備安裝與布點選線
2.2.1監(jiān)測設(shè)備安裝選擇合適線路的公交車輛安裝數(shù)據(jù)采集設(shè)備。采用車頂安裝方式,利用設(shè)備底部的強力磁鐵,無需對車體進行改裝,直接放置即可與車頂牢固連接在一起。車載微站主機安裝在公交車前端應(yīng)急逃生口后側(cè),將主機磁體部分向下吸附在安裝車輛車頂即可,主機電源線順延車頂至公交車前門防水刷處,線纜加套波紋管并使用玻璃膠固定,可防止因為長時間暴曬造成線纜老化。使用玻璃膠對波紋管進行固定,可防止在車輛形成過程中造成不必要的刮蹭。2.2.2監(jiān)測布點選線試點應(yīng)用城市此前所使用的空氣質(zhì)量監(jiān)測手段主要為地面固定監(jiān)測站,存在成本投入高、難以實時跟蹤污染情況等短板[15]。為了滿足更高的環(huán)境治理要求,有必要采用更加科學(xué)、高效且經(jīng)濟的監(jiān)測方式。基于重點監(jiān)測區(qū)域和最大化覆蓋范圍原則,選擇合適的公交線路。根據(jù)公交線路分布情況,共選擇21條線路,225臺公交車輛,監(jiān)測范圍覆蓋10個國控站點,確定研究應(yīng)用試點范圍,數(shù)據(jù)采集時間段為每天6:00-22:00及政府環(huán)保部門指定的其他時間段。
3研究應(yīng)用場景
通過數(shù)據(jù)采集、挖掘分析,可實現(xiàn)空氣質(zhì)量動態(tài)監(jiān)測和智能決策治理。具體研究應(yīng)用場景如下:
3.1多源大數(shù)據(jù)融合的實時監(jiān)控
融合車載GPS數(shù)據(jù)以及實時采集到的PM2.5、PM10等污染物的含量數(shù)據(jù),可形成帶有每個路段,每種污染物實時污染程度的電子地圖,形成實時路段熱力圖及三維熱力圖;融合車輛運行所采集到的視頻數(shù)據(jù)和實時空氣質(zhì)量數(shù)據(jù),可以迅速定位污染源,初步確定污染原因,如道路施工揚塵,工廠工業(yè)氣體排放等。
3.2污染因子識別
實現(xiàn)各污染物多時空維度的實時動態(tài)監(jiān)測和分析,能夠全面掌握路段區(qū)域空氣質(zhì)量污染的時空差異性。通過多維時空交叉統(tǒng)計分析,快速識別出污染因子。(圖2)
3.3數(shù)據(jù)存儲與動態(tài)分析預(yù)測
對至少1年的實時數(shù)據(jù)及至少3年的平均數(shù)據(jù)(包括車輛衛(wèi)星定位、視頻監(jiān)控、空氣質(zhì)量等)進行存儲,根據(jù)路段及時間對數(shù)據(jù)進行統(tǒng)計分析,供用戶可視化查詢。此外,可對監(jiān)測數(shù)據(jù)的變化趨勢進行動態(tài)分析、預(yù)測,并疊加歷史數(shù)據(jù)進行綜合對比分析,提供可視化界面供用戶查詢。
3.4大數(shù)據(jù)驅(qū)動的智能化閉環(huán)治理設(shè)定
PM2.5、PM10等污染物的濃度預(yù)警限值,實時動態(tài)告警。同時,基于公交車輛運行的規(guī)律性,可對指定監(jiān)測區(qū)域或時段進行重點監(jiān)測。通過挖掘監(jiān)測大數(shù)據(jù)價值,掌握污染源的時空分布規(guī)律,快速鎖定污染源位置及傳輸方向。通過多維度智能分析,支撐提出有針對性的治理手段,跟蹤反饋治理效果,形成閉環(huán)。
3.5基于移動物聯(lián)的多源信息服務(wù)
將空氣質(zhì)量監(jiān)測采集數(shù)據(jù)與車載數(shù)據(jù)進行融合,實現(xiàn)信息交互,可在公交車載屏幕上展示監(jiān)測信息,為乘客提供實時信息服務(wù),也可通過手機APP移動端向市民空氣質(zhì)量相關(guān)信息,提高公眾環(huán)保參與意識,促進經(jīng)濟社會綠色健康發(fā)展。
4結(jié)束語
篇8
當一家企業(yè)的推銷員拿著產(chǎn)品挨家挨戶推銷時,另一家同類產(chǎn)品企業(yè)足不出戶,就已通過互聯(lián)網(wǎng)采集到大量的數(shù)據(jù),并對海量的碎片化數(shù)據(jù)進行深挖和分析,從而為客戶提供更好的服務(wù)。
后者采用的方式正屬于“大數(shù)據(jù)分析”的范疇。作為國內(nèi)領(lǐng)先的數(shù)據(jù)分析公司,國雙科技在此領(lǐng)域已深耕數(shù)年。其年輕的創(chuàng)始人、CEO祁國晟接受《財經(jīng)界》記者采訪時表示,相對于傳統(tǒng)的線下營銷,大數(shù)據(jù)分析能更精準、快速地從海量數(shù)據(jù)中挖掘出有效的價值,并可以直觀明了的方式度量結(jié)果。
不過,他同時坦言,作為一個新興領(lǐng)域,受安全、人才等因素的影響,大數(shù)據(jù)分析還有待市場的進一步認可。
“大數(shù)據(jù)推動快速發(fā)展”
國雙科技是從2005年開始做數(shù)據(jù)生意的?!爱敃r還不叫‘大數(shù)據(jù)’,也沒有‘云計算’的說法,業(yè)內(nèi)的普遍觀點是通過互聯(lián)網(wǎng)提供軟件服務(wù),叫做SaaS(軟件即服務(wù))。”祁國晟說。
談到大數(shù)據(jù),祁國晟認為這是一個相對的概念,“大數(shù)據(jù)不是單純說數(shù)據(jù)量有多大,它至少包含了三方面的要求:數(shù)據(jù)量大、對于數(shù)據(jù)的分析深度要求高、時效要求快。當這三個問題擺在一起,而傳統(tǒng)的IT不能解決的話,這就是一個大數(shù)據(jù)問題?!边@個概念是近兩年才熱起來的,一經(jīng)提出,迅速被IT和互聯(lián)網(wǎng)行業(yè)廣泛認同;對大數(shù)據(jù)進行有效分析和應(yīng)用能夠為組織帶來價值,很快成為共識。
國雙科技數(shù)年前就開始向客戶提供“數(shù)據(jù)分析”相關(guān)的服務(wù),涉及電子政務(wù)咨詢、運營商數(shù)據(jù)分析、網(wǎng)絡(luò)電視臺解決方案、搜索引擎營銷、廣告效果量化、用戶體驗優(yōu)化、移動應(yīng)用解決方案等,“我們已經(jīng)服務(wù)了數(shù)百家企業(yè)和政府機構(gòu),核心技術(shù)現(xiàn)如今已覆蓋到網(wǎng)站、移動APP、互聯(lián)網(wǎng)電視等多領(lǐng)域的數(shù)據(jù)分析,并通過結(jié)合整合營銷方案AdSuite、SEO(搜索引擎優(yōu)化)、SEM(搜索引擎營銷)、UEO(用戶體驗優(yōu)化)提供給客戶?!逼顕山榻B說。
經(jīng)過幾年的技術(shù)和數(shù)據(jù)積累,加上“大數(shù)據(jù)”概念在國內(nèi)的走熱,祁國晟專注的數(shù)據(jù)生意開始釋放能量。據(jù)悉,2011年,國雙科技實現(xiàn)銷售收入增長10倍以上,2012年同樣保持著這樣的增長態(tài)勢。就在最近,國雙科技入選“2013 德勤高科技、高成長中國50強”榜單。
在祁國晟看來,國雙科技得到快速發(fā)展是必然的,因為不僅公司有技術(shù)創(chuàng)新,市場也有“剛性”需求?;ヂ?lián)網(wǎng)的超高速發(fā)展,帶動數(shù)據(jù)量急速膨脹,即使硬件一步一步升級,數(shù)據(jù)處理的速度也趕不上數(shù)據(jù)產(chǎn)生的速度;即使用戶可以從一些現(xiàn)有數(shù)據(jù)庫廠商那里買來解決方案,也解決不了用戶對數(shù)據(jù)挖掘的深度和量級的需求。
而從國際上來看,大數(shù)據(jù)分析也在成為大企業(yè)的“制勝法寶”。比如,沃爾瑪“顧問式營銷”就是以大數(shù)據(jù)為支撐。在其全球的任何一個賣場,顧客購買任何一件產(chǎn)品,其購物信息都會即時傳送到沃爾瑪?shù)钠髽I(yè)級數(shù)據(jù)倉庫,并實時地進行分析,并及時挖掘到也許連顧客自己都不清楚的潛在購物需求。日本服裝品牌優(yōu)衣庫也通過對銷售的每一件服裝的相關(guān)數(shù)據(jù)進行分析,并根據(jù)其結(jié)果來進行新品設(shè)計和生產(chǎn),確保其深得世界各地用戶的喜愛。
同時,數(shù)據(jù)分析不受行業(yè)的限制?!拔覀兊挠脩粢押w汽車、食品、快消、旅游、金融等各個行業(yè)?!逼顕烧f。
市場有待進一步拓展
然而,從目前國內(nèi)外大數(shù)據(jù)營銷市場情況看,熱衷于此的似乎都是上規(guī)模、具有核心競爭力的大企業(yè),中小企業(yè)較少問津。
國雙科技的情況也是如此。這個成立僅8年的本土企業(yè),服務(wù)的客戶也“鎖定”在規(guī)模相對較大的企業(yè)群,如中國人保財險、日產(chǎn)汽車、可口可樂、歐萊雅、央視國際、江蘇衛(wèi)視等。2012年3月,國雙科技獲得政府青睞,成為國家信息中心戰(zhàn)略合作伙伴,雙方共同成立了網(wǎng)絡(luò)政府研究中心,為全國的政府網(wǎng)站提供技術(shù)與服務(wù)。
祁國晟表示:“大企業(yè)機構(gòu)更成熟、架構(gòu)更完善,對精細化運營的要求更高,需要很詳細的數(shù)據(jù)分析和數(shù)據(jù)挖掘以降低成本?!?/p>
“而中小企業(yè)大多還處于跑馬圈地的階段,對他們來說,優(yōu)先考慮的是如何發(fā)展,”祁國晟認為,“雖然有些中小企業(yè)在發(fā)展階段對數(shù)據(jù)分析也有需求,但往往因為相關(guān)產(chǎn)品和服務(wù)費用較高而止步?!?/p>
“數(shù)據(jù)類人才短缺也是導(dǎo)致數(shù)據(jù)分析類產(chǎn)品和服務(wù)成本高的原因之一,”祁國晟說:“全球大數(shù)據(jù)行業(yè)都有這個問題,我國更加嚴重?!?/p>
因為缺少相關(guān)的技術(shù)人員,小企業(yè)即使有第三方數(shù)據(jù)公司提供的軟件系統(tǒng)也無法很好使用,必然還需要相應(yīng)的服務(wù);而服務(wù)成本又因為人才短缺相對較高,所以,矛盾必然出現(xiàn)。
對于國雙科技來說,人才同樣是個頭疼的問題。“我們需要高度復(fù)合型的人才,這樣的人才在市場上比較少,需要很長時間的培訓(xùn)。因為缺人,我們有時候不得不放棄一些本來很優(yōu)質(zhì)的客戶,” 祁國晟說:“我們寧可少做幾個客戶,也不能因為人手不足而降低服務(wù)質(zhì)量。”
企業(yè)在委托第三方技術(shù)公司幫助其應(yīng)用大數(shù)據(jù)方面,另一個擔(dān)憂來自于對數(shù)據(jù)安全的顧慮。事實上,目前,數(shù)據(jù)安全威脅已經(jīng)可以通過技術(shù)手段加以防范?!捌髽I(yè)數(shù)據(jù)安全有關(guān)的技術(shù)已經(jīng)很成熟,通過加裝防火墻、密碼保護、存儲安全技術(shù)云計算等等多種IT手段,已經(jīng)可以確保核心數(shù)據(jù)不被外泄或篡改?!?/p>
篇9
【關(guān)鍵詞】大數(shù)據(jù)分析 公共交通 醫(yī)藥 移動通信
所謂大數(shù)據(jù),一方面是指在一定時間內(nèi)無法被常規(guī)信息技術(shù)和傳統(tǒng)數(shù)據(jù)庫管理軟硬件工具感知、獲取和處理的巨量數(shù)據(jù)集合;另一方面,是指形成、管理、挖掘大數(shù)據(jù), 快速搜集、處理、分析大數(shù)據(jù)的技術(shù)和能力。
大數(shù)據(jù)的主要特點是海量、非結(jié)構(gòu)化和半結(jié)構(gòu)化、實時處理。大數(shù)據(jù)技術(shù),或大數(shù)據(jù)分析技術(shù),就是對這些數(shù)量巨大的海量數(shù)據(jù)進行搜索、整理、分析、加工,以便獲得有價值的產(chǎn)品和服務(wù),以及提煉出具有深刻見解和潛在價值信息的技術(shù)和手段。
1 大數(shù)據(jù)分析在公共交通中的應(yīng)用
交通擁堵日益嚴重,交通事故頻繁發(fā)生,這些都是各大城市亟待解決的問題,科學(xué)分析交通管理體系成為改善城市交通的關(guān)鍵所在。因此,高效、準確地獲取交通數(shù)據(jù)是構(gòu)建合理城市交通管理體系的前提,而這一難題可以通過大數(shù)據(jù)管理得到解決。
大數(shù)據(jù)分析技術(shù)改變了傳統(tǒng)公共交通的路徑:大數(shù)據(jù)可以跨越行政區(qū)域的限制;大數(shù)據(jù)可以高效地整合交通信息;大數(shù)據(jù)可以較好地配置公共交通資源;大數(shù)據(jù)可以促進公共交通均衡性發(fā)展。在大數(shù)據(jù)中,隨著數(shù)據(jù)庫攝入更多數(shù)據(jù),所消耗的計算工作量反而遞減,配置成本也隨之減小,但所做的計算則更加精準。大數(shù)據(jù)在公共交通中的應(yīng)用表現(xiàn)在:一旦某個路段發(fā)生問題,能立刻從大數(shù)據(jù)中調(diào)出有用信息,確保交通的連貫性和持續(xù)性;另一方面,大數(shù)據(jù)具有較高預(yù)測能力,可降低誤報和漏報的概率, 可隨時針對公共交通的動態(tài)性給予實時監(jiān)控。因此,在駕駛者無法預(yù)知交通擁堵的可能性時,大數(shù)據(jù)可幫助用戶預(yù)先了解。
2 大數(shù)據(jù)分析在醫(yī)藥領(lǐng)域中的應(yīng)用
在醫(yī)學(xué)領(lǐng)域,我們正處在一醫(yī)學(xué)信息爆炸的時代。基因序列、各種醫(yī)學(xué)圖像、電子病歷記錄和多中心臨床藥物試驗等,使生物醫(yī)學(xué)領(lǐng)域跨入網(wǎng)絡(luò)化的大數(shù)據(jù)時代。如何從醫(yī)療大數(shù)據(jù)中提取出有用的信息是目前亟待解決的問題,構(gòu)建醫(yī)療大數(shù)據(jù)系統(tǒng)需要將各家醫(yī)院通過互聯(lián)網(wǎng)連接,實現(xiàn)各家醫(yī)院之間的數(shù)據(jù)共享。將醫(yī)療數(shù)據(jù)存于專門的數(shù)據(jù)庫中,在信息協(xié)作平臺上將各種醫(yī)療信息分類整合,建立成一個相互共享的網(wǎng)絡(luò),從而實現(xiàn)醫(yī)療數(shù)據(jù)信息的共享。
大數(shù)據(jù)技術(shù)的核心就是預(yù)測,使用大數(shù)據(jù)分析技術(shù)可以提高診斷疾病的準確率,對有效地治療疾病具有重要價值。其中最好地體現(xiàn)在傳染病預(yù)測上,因為傳染病的發(fā)生、發(fā)展、分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關(guān)系,特別在全球氣候變化和經(jīng)濟全球化背景下,自然環(huán)境及人類社會活動對傳染病的影響越來越重要。因此,時間和空間信息對傳染病的預(yù)測、預(yù)警具有重要意義。利用大數(shù)據(jù)可對傳染病疫情的時間、空間信息進行多維搜索,檢索、處理和分析這些疫情信息可實現(xiàn)對傳染病的流行趨勢及影響范圍進行預(yù)測、預(yù)警,對提高傳染病防控的針對性、預(yù)見性和主動性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義。
3 大數(shù)據(jù)分析在移動通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用
當前的大數(shù)據(jù)技術(shù)面臨著數(shù)據(jù)過大和安全隱患越多這兩個問題。在移動通信網(wǎng)絡(luò)發(fā)展的過程中,網(wǎng)上用戶在不斷增加,通信網(wǎng)絡(luò)的范圍在不斷擴大, 而移動通信網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量也在不斷上升。大數(shù)據(jù)技術(shù)和移動通信網(wǎng)絡(luò)的安全問題密切相關(guān),一旦技術(shù)出現(xiàn)漏洞,移動通信網(wǎng)絡(luò)的數(shù)據(jù)就會出現(xiàn)安全隱患。大數(shù)據(jù)技術(shù)中存儲功能的是云儲存技術(shù),它將大量的網(wǎng)絡(luò)數(shù)據(jù)放在統(tǒng)一的平臺之上,加大了數(shù)據(jù)丟失的風(fēng)險,影響移動通信網(wǎng)絡(luò)的安全。
優(yōu)化移動通信網(wǎng)絡(luò),需要運用大數(shù)據(jù)技術(shù)的儲存功能。移動通信網(wǎng)絡(luò)的用戶在不斷變化,每天都要更新大量的數(shù)據(jù),而且這些數(shù)據(jù)都需要進行妥善管理和保存。在這一過程中,可以應(yīng)用大數(shù)據(jù)技術(shù)的存儲功能, 將存儲虛擬化作為解決存儲問題的有效策略。
優(yōu)化移動通信網(wǎng)絡(luò),需要獲取相關(guān)的數(shù)據(jù)信息。移動通信網(wǎng)絡(luò)的用戶非常多,而且其所跨越的時間、空間維度都很大,這些用戶在移動通信網(wǎng)絡(luò)留下的海量的數(shù)據(jù)信息,使數(shù)據(jù)獲取工作難以繼續(xù)。在進行數(shù)據(jù)的獲取和收集工作時,移動通信網(wǎng)絡(luò)可以應(yīng)用大數(shù)據(jù)技術(shù),減少人力和物力的投入,同時增加數(shù)據(jù)的準確度。
4 結(jié)語
本文是大數(shù)據(jù)技術(shù)在實際生活領(lǐng)域的應(yīng)用,分別闡述了大數(shù)據(jù)分析技術(shù)在公共交通、醫(yī)藥領(lǐng)域、移動通信網(wǎng)絡(luò)優(yōu)化中的具體運用。借助大數(shù)據(jù)技術(shù)的即時性、準確性和預(yù)測性,將其應(yīng)用到人們的日常生活領(lǐng)域,提高了人們的生活質(zhì)量。
參考文獻
[1]陳美.大數(shù)據(jù)在公共交通中的應(yīng)用[J]. 圖書與情報,2012(06):22-28.
[2]張春麗,成.大數(shù)據(jù)分析技術(shù)及其在醫(yī)藥領(lǐng)域中的應(yīng)用[J].標記免疫分析與臨床,2016(03):327-333.
[3]汪敏,廖名揚.大數(shù)據(jù)分析在移動通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用研究[J].通訊世界,2017(02):123.
[4]祝興平.大數(shù)據(jù)分析技術(shù)及其在數(shù)字出版中的應(yīng)用[J].出版發(fā)行研究,2014(04):13-16.
[5]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報,2014(09):1889-1908.
作者簡介
段雯瓊(1996-),女,河南省漯河市人。大學(xué)本科學(xué)歷。研究方向為通信、互聯(lián)網(wǎng)。
篇10
現(xiàn)在的大數(shù)據(jù)的后面是個大冰川,海平面上的普通人一般能看見,海平面以下是專業(yè)人士能看見的。Linkedin內(nèi)部大約有起碼20種不同的數(shù)據(jù)庫,就是完全不同的技術(shù)的數(shù)據(jù)庫,還不包括同樣一種數(shù)據(jù)庫有不同的應(yīng)用。但實際上我們真正的內(nèi)部企業(yè)用戶,包括Linkedin本身,需要的不是一個大冰川,需要的最后是冰激淋,就想把結(jié)果出來就行,他不需要大冰川。
怎么能做到這個冰淇淋呢?咱們講講數(shù)據(jù)分析的變革。基本大數(shù)據(jù)分析的三個原則,這個基本的原則是我大約加入Linkedin9個月以后我們決定下來的。我們?nèi)绻鲆患钪匾氖碌脑?,那個事需要有三個屬性:
第一個簡單,他出來的結(jié)果必須要非常非常簡單,沒有任何花哨的東西,任何人都能夠看明白看懂。
第二個迅速,就是剛才說的速度的問題,越慢結(jié)束度越低,越快接受度越高。當然在Linkedin使用的是藍圖法則,3秒鐘的法則。
第三就是要規(guī)?;?,規(guī)?;鬟@的角度來說,我們當時思考的方法是這樣的,希望Linkedin內(nèi)部所有的員工每一個人都能夠用數(shù)據(jù)來分析幫他們做決策,很快的做決策。
怎么做到這一點?
第一步,我們需要建立一個真正的金字塔。分析師不應(yīng)該從數(shù)據(jù)開始,他必須要從客戶、產(chǎn)品、市場、銷售開始,也就是說明白公司怎么能做到這件事。他必須要明白如何在這種層面標記未來的事物,標記比數(shù)據(jù)本身重要得多。分析師本身要分析自己以后要分析什么,這樣才能把正確標記加到數(shù)據(jù)庫里面去。他還必須要明白,數(shù)據(jù)庫之間的公用,流程,每種數(shù)據(jù)是怎么分工的。
下面就干活了。在Linkedin有一個不成文的共識,你做的東西不僅僅是有趣是不夠的,必須要注重執(zhí)行性。我分析到這個結(jié)果以后到底能做什么,這是很重要的。說完了做以后咱們就走到?jīng)Q策,決策本身一定要實現(xiàn)增加商業(yè)的價值,或為團隊增加價值。
第二步是規(guī)?;P枰每萍紒戆呀鹱炙兂梢粋€非常小的底,而大的中心,最小的一個尖的一個過程。舉個例子,Linkedin我待的九個月之內(nèi)和另外一個同事合作,完成了500個不同的需求項目和模型,但是當年我們其實直接支持兩百個人,500&pide;200,每年我才回答2.5個問題,這絕對是非數(shù)據(jù)驅(qū)動。后來我們決定是把整個做一個系統(tǒng),來模擬以前我們兩做的大部分工作,這個系統(tǒng)響應(yīng)3秒鐘,簡單的規(guī)?;耍蟾呕巳齻€月,五個人,在內(nèi)部支持銷售的,在今天為止每天這個系統(tǒng)可以服務(wù)1000個銷售員工,大約用這個系統(tǒng)十次,用一次大約時間是3秒到一分鐘,這個系統(tǒng)一天就能做到以前我們兩個人做不到的事情,這就是一個規(guī)?;慕Y(jié)果。當年出來結(jié)果是我們銷售增長了175個百分點。