<u id="6r3yn"><optgroup id="6r3yn"><strong id="6r3yn"></strong></optgroup></u><tr id="6r3yn"></tr> <dfn id="6r3yn"></dfn>

  1. <tt id="6r3yn"><b id="6r3yn"></b></tt>
  2. 色狠狠色噜噜AV一区,欧美熟妇性XXXX欧美熟人多毛 ,无码成人免费全部观看,日本高清色WWW在线安全,久久久国产99久久国产久麻豆 ,亚洲综合在线日韩av,成在人线无码aⅴ免费视频,日韩加勒比一本无码精品

    基于大數(shù)據(jù)的統(tǒng)計分析模型設計論文

    時間:2021-04-21 08:36:14 論文 我要投稿

    基于大數(shù)據(jù)的統(tǒng)計分析模型設計論文

      統(tǒng)計是利用盡可能少的局部樣本數(shù)據(jù)來發(fā)現(xiàn)總體規(guī)律,處理對象往往數(shù)據(jù)規(guī)模小且數(shù)據(jù)結構單一。在大數(shù)據(jù)環(huán)境下,面臨海量數(shù)據(jù)的采集與統(tǒng)計,傳統(tǒng)方法已無法滿足大規(guī)模數(shù)據(jù)集處理。基于Hadoop系統(tǒng),利用其分布式存儲和并行處理機制,設計了大數(shù)據(jù)環(huán)境下的統(tǒng)計分析模型,從海量數(shù)據(jù)中提取出有用的信息特征,實現(xiàn)數(shù)據(jù)資源共享,為相關部門決策提供信息服務。

    基于大數(shù)據(jù)的統(tǒng)計分析模型設計論文

      0引言

      隨著統(tǒng)計數(shù)據(jù)規(guī)模的快速增長,數(shù)據(jù)特征日趨復雜,數(shù)據(jù)收集渠道多樣,統(tǒng)計學相關領域研究已進入大數(shù)據(jù)時代。如何高效收集樣本數(shù)據(jù)、挖掘信息,從海量數(shù)據(jù)中提取有用的信息特征,將信息及時提供給相關部門決策,成為當前統(tǒng)計學研究熱點之一。與國外相比,我國在統(tǒng)計分析工作中存在信息資源整合程度不高、數(shù)據(jù)共享匱乏、信息不完整等問題。隨著大數(shù)據(jù)時代的到來,對大數(shù)據(jù)分析與挖掘的研究和應用越來越重視,大數(shù)據(jù)的挖掘與分析將幫助統(tǒng)計部門在有效合理的時間內采集、處理、管理與分析海量數(shù)據(jù)。

      目前政府部門間借助政務平臺可以實現(xiàn)數(shù)據(jù)資源共享,但是企業(yè)與政府間缺乏數(shù)據(jù)的分享平臺,造成了信息隔離,對此,統(tǒng)計部門要構建起全方位的海量數(shù)據(jù)共享和分布式存儲的安全統(tǒng)計分析平臺,實現(xiàn)跨地區(qū)的統(tǒng)計信息交流,滿足海量信息數(shù)據(jù)的實時分享和處理。

      1大數(shù)據(jù)

      大數(shù)據(jù)是一種大規(guī)模的數(shù)據(jù)集合,數(shù)據(jù)分析人員無法在一定時間內用一般軟件對其進行提取、處理、分析和管理。處理大數(shù)據(jù)的關鍵技術包括大規(guī)模數(shù)據(jù)集的并行處理技術、分布式數(shù)據(jù)庫、分布式文件存儲與處理系統(tǒng)、數(shù)據(jù)挖掘、云計算等。大數(shù)據(jù)具有5V特點:Volume(體量浩大)、Variety(類型多樣)、Velocity(生成快速)、Veracity(真實性高)、Value(價值巨大)。

      1.1云計算

      云計算(Cloud Computing)是傳統(tǒng)信息技術發(fā)展融合的產(chǎn)物,基于效用計算(Utility Computing)、并行計算(Parallel Computing)、分布式計算(Distributed Computing),它提供便捷的、可用的、按需付費的網(wǎng)絡訪問。云計算平臺可以提供IaaS(基礎設施即服務)、PaaS(平臺即服務)、 SaaS(軟件即服務),同時負責數(shù)據(jù)安全、分布式網(wǎng)絡存儲、虛擬化、負載均衡、熱備份冗余等,用戶在使用資源時不需考慮底層基礎架構。

      大數(shù)據(jù)應用不在于掌握龐大的數(shù)據(jù)信息,而在于對獲取的數(shù)據(jù)進行專業(yè)化處理,以挖掘出數(shù)據(jù)的價值。大數(shù)據(jù)處理任務無法用單機串行計算方式處理,必須采用分布式架構進行計算。其特點在于依托云計算的分布式處理、云存儲、分布式數(shù)據(jù)庫和虛擬化技術對海量數(shù)據(jù)進行挖掘。

      1.2大數(shù)據(jù)處理技術

      1.2.1大數(shù)據(jù)研究現(xiàn)狀

      Science、Nature等國際頂級學術期刊出專刊探討了大數(shù)據(jù)處理與分析研究,介紹海量數(shù)據(jù)給社會生產(chǎn)和人們生活帶來的挑戰(zhàn)和機遇,學者們斷言:“數(shù)據(jù)將是未來舉足輕重的資源。在應用方面,目前已有很多企業(yè)開始做大數(shù)據(jù)處理的相關研究,IBM、谷歌、雅虎、亞馬遜等公司紛紛提出自己的大數(shù)據(jù)處理架構和計算模式。谷歌首先提出了分布式存儲系統(tǒng)GFS文件系統(tǒng)、大型分布式數(shù)據(jù)庫BigTable。2012年美國政府斥資2億美元啟動了大數(shù)據(jù)研究和發(fā)展計劃,大力發(fā)展數(shù)據(jù)信息化基礎設施建設。

      1.2.2大數(shù)據(jù)處理關鍵技術

      處理和分析大數(shù)據(jù)的關鍵在于具備分布式存儲功能和強大的計算能力,數(shù)據(jù)處理的基礎在于數(shù)據(jù)存儲,數(shù)據(jù)分析的關鍵在于強勁的處理能力。 Hadoop是一個可擴展、可靠、開源的分布式計算系統(tǒng),該框架能夠實現(xiàn)在計算機集群中用簡單的計算模式處理海量數(shù)據(jù),同依賴高性能服務器相比,Hadoop擴展性較好,同時集群中的節(jié)點都可以提供本地存儲和計算。

      1.3基于大數(shù)據(jù)的統(tǒng)計分析研究

      統(tǒng)計是一項數(shù)據(jù)處理工程,面對大數(shù)據(jù)集的處理,統(tǒng)計樣本變大、數(shù)據(jù)特征復雜等使得統(tǒng)計工作也變得繁瑣,而數(shù)據(jù)挖掘是從大量數(shù)據(jù)中取得有用信息的過程,利用現(xiàn)代信息技術及挖掘算法,可以高效地對有用數(shù)據(jù)獲取與處理。不妨將數(shù)據(jù)挖掘理解為一個大數(shù)據(jù)狀態(tài)下精確處理數(shù)據(jù)的統(tǒng)計模型,對挖掘后的數(shù)據(jù)再引入統(tǒng)計學的思想進行相關數(shù)據(jù)處理與分析,將兩種方法有機結合起來。

      圖1大數(shù)據(jù)環(huán)境下的統(tǒng)計工作基礎架構 Hadoop為統(tǒng)計分析工作提供了一個穩(wěn)定可靠的分析系統(tǒng)和共享存儲,它包含兩個核心技術:MapReduce和HDFS。MapReduce實現(xiàn)數(shù)據(jù)的處理和分析,HDFS負責數(shù)據(jù)的共享存儲。如圖1所示,大數(shù)據(jù)環(huán)境下,統(tǒng)計工作的基本架構包含數(shù)據(jù)采集中心和統(tǒng)計分析處理中心。數(shù)據(jù)采集中心主要是通過部署在云計算環(huán)境下的服務器集群去完成數(shù)據(jù)采集工作,數(shù)據(jù)主要存放在HDFS分布式數(shù)據(jù)庫中;統(tǒng)計管理部門設立總的服務器集群,為保證系統(tǒng)的可擴展性,還可以將基層的服務器隨時納入該集群中,利用MapReduce機制分配和處理計算任務;統(tǒng)計分析處理中心主要是智能算法池,通過算法的`應用對采集到的數(shù)據(jù)進行分析。

      2基于Hadoop的大數(shù)據(jù)統(tǒng)計分析模型構建

      大數(shù)據(jù)環(huán)境下的統(tǒng)計分析系統(tǒng)以海量數(shù)據(jù)挖掘為基礎,傳統(tǒng)的統(tǒng)計分析系統(tǒng)采用定期對數(shù)據(jù)進行處理和分析的方式來更新模型。由于是定期被動更新,模型無法保持實時性,容易造成統(tǒng)計結果不連續(xù)。

      系統(tǒng)的設計關鍵在于海量數(shù)據(jù)的實時采集獲取、統(tǒng)計分析處理和存儲,目的在于實現(xiàn)統(tǒng)計信息資源的共享。基于Hadoop的層次化統(tǒng)計分析模型如圖2所示,自上而下包括云平臺應用層、邏輯與接口層、計算層、文件系統(tǒng)管理層、物理資源層。

      圖2基于Hadoop的層次化統(tǒng)計分析模型 物理資源層:負責管理平臺的基礎設施,為平臺提供物理設施,除包含分布式集群、數(shù)據(jù)采集終端、基礎網(wǎng)絡外,還包括圍繞應用相關的基礎組件。

      文件系統(tǒng)管理層:主要用于存儲數(shù)據(jù)文件和日志文件,同時具備高可用數(shù)據(jù)備份功能。該層主要采用HDFS分布式存儲,提供很強的數(shù)據(jù)吞吐能力。針對不同的數(shù)據(jù)統(tǒng)計終端,該層設計使用不同的操作系統(tǒng),以便于數(shù)據(jù)的統(tǒng)一性。

      計算層是該統(tǒng)計模型的核心層,所有的運算機制和數(shù)據(jù)處理任務都在該層完成。其基礎框架是基于Hadoop MapReduce并行計算框架,采用對數(shù)據(jù) “分而治之”的方法來完成并行化的大數(shù)據(jù)統(tǒng)計分析工作,用Map和Reduce函數(shù)提供兩個高層的并行編程抽象模型和接口,工作人員只需要實現(xiàn)這兩個基本接口即可快速完成并行化數(shù)據(jù)處理程序設計。此外該層還包含了Hadoop平臺的流數(shù)據(jù)處理storm和實時處理spark,用于對數(shù)據(jù)源的實時分析處理和更新,以滿足統(tǒng)計部門的高效快速響應要求。

      邏輯與接口層:該層主要功能是實現(xiàn)上層應用層的基礎管理功能,主要包含用戶管理、安全身份認證、統(tǒng)計任務的分配以及連接各地統(tǒng)計部門的接口等,該層還負責整體功能的性能監(jiān)控。

    【基于大數(shù)據(jù)的統(tǒng)計分析模型設計論文】相關文章:

    基于數(shù)據(jù)流SFCM挖掘的入侵檢測系統(tǒng)模型論文04-29

    基于數(shù)據(jù)挖掘的高校教務系統(tǒng)設計論文11-15

    基于對象數(shù)據(jù)模型的信息管理系統(tǒng)結構設計技術探究論文10-28

    基于模型的軟件測試技術探析論文05-03

    淺談基于的Windows Azure平臺下的訪問控制模型的設計論文11-16

    基于工業(yè)設計模型的高校實驗室建設論文11-19

    石油勘探開發(fā)主數(shù)據(jù)模型研究與設計論文11-02

    基于水文模型及水動力模型的山洪臨界雨量研究論文10-29

    基于AR模型便攜式心率變異系統(tǒng)的設計與實現(xiàn)論文11-15

    主站蜘蛛池模板: 中文字幕亚洲日韩无线码| 夜夜被公侵犯的美人妻| 久久精品免视看国产成人明星| 亚洲欧美另类激情综合区蜜芽| 日韩大陆欧美高清视频区| 成人有色视频免费观看网址| av狼友无码国产在线观看| 国产人与禽zoz0性伦多活几年 | 国产成人片无码视频| 亚洲成本人无码薄码区| 国产欧美精品aaaaaa片| 51国产偷自视频区视频| 闺蜜张开腿让我爽了一夜| 在线视频中文字幕二区| 亚洲av成人无码天堂| 亚洲欧洲日韩精品在线| 无码熟妇人妻AV在线影片最多| 狠狠色噜噜狠狠狠888米奇| 白嫩无码人妻丰满熟妇啪啪区百度| 国产99久9在线视频传媒| 国语对白做受xxxxx在线中国| 国产玖玖玖九九精品视频靠爱| 高清国产av一区二区三区| 国产网红主播精品一区| 亚洲国产aⅴ成人精品无吗| 九九精品99久久久香蕉| 国产精品普通话国语对白露脸| 少妇太爽了在线观看视频| 国产激情久久久久影院小草| 亚洲中文字幕日产乱码高清| 天天狠天天透天天伊人| 无码一区二区| 国产精品亚洲二区在线看| 国产乱码一区二区三区免费| 欧美激情一区二区成人| 国产精品久久久久9999赢消 | 中文在线最新版天堂| 最近免费中文字幕大全免费版视频| 亚洲 日韩 欧美 成人 在线| 国产三级在线观看完整版| 中文字幕人妻日韩精品|