教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

大數(shù)據(jù)培訓(xùn):設(shè)計數(shù)據(jù)倉庫

更新時間:2023年11月17日16時38分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓(xùn)

  針對網(wǎng)站流量日志分析系統(tǒng)項目,可以將數(shù)據(jù)倉庫設(shè)計為星狀模式,使用一張事實表ods_weblog_origin(俗稱窄表)來存儲由MapReduce清洗之后的數(shù)據(jù),表結(jié)構(gòu)如表11-2所示。

  表11-2 ods_weblog_origin

  從表11-3可以看出,上述字段即為MapReduce初步預(yù)處理后的數(shù)據(jù)字段。ods_weblog_origin表名前綴ods(Operational Data Store)是指操作型數(shù)據(jù)存儲,作用是為使用者提供當(dāng)前數(shù)據(jù)狀態(tài),且具有及時性、操作性和集成性的全體數(shù)據(jù)信息。

  ods_weblog_origin表是指對應(yīng)原始數(shù)據(jù)的表,字段與數(shù)據(jù)產(chǎn)生映射,雖然該表記錄了全部數(shù)據(jù),但是并不利于數(shù)據(jù)分析,為了細(xì)化分析數(shù)據(jù),通常會把窄表中融合各種信息的數(shù)據(jù)進(jìn)行分隔,提取出新字段,將窄表分解為寬表,信息更加詳細(xì),如將ods_weblog_origin表中time_local字段拆分為dw_weblog_detail(俗稱寬表),表結(jié)構(gòu)如表11-3所示。

  從表11-3可以看出,dw_weblog_detail表將數(shù)據(jù)進(jìn)一步細(xì)分,方便后期進(jìn)行數(shù)據(jù)分析。表名前綴dw(data warehouse)即數(shù)據(jù)倉庫,它是面向主題的,反映歷史數(shù)據(jù)變化,用于支撐管理決策的事實表。

  完成事實表設(shè)計后,結(jié)合實際業(yè)務(wù)需求設(shè)計維度表,如本章案例主要講解日均PV量(page visits,頁面瀏覽量),因此,對應(yīng)設(shè)計的維度表如表11-4所示。

  表11-3 dw_weblog_detail

  表11-4 t_avgpv_num

  表11-4結(jié)構(gòu)簡單,這里只設(shè)計了日期和平均PV值兩個字段,讀者也可以自行設(shè)計相關(guān)業(yè)務(wù),如根據(jù)IP分析所在的地域制定訪客地域維度,根據(jù)客戶終端標(biāo)識制定訪客終端維度等多角度進(jìn)行數(shù)據(jù)分析。

0 分享到:
和我們在線交談!