廣州總校區切換校區

數據分析師:Pig、Hive和Impala

課時總數:24課時

課程介紹


  通過Cloudera公司的ApacheHadoop培訓將您的知識提升到一個新的水平。


  Cloudera大學提供的為期4天的數據分析培訓課程專注于ApachePig、Hive和ClouderaImpala,將教會您如何將傳統的數據分析和商業智能技術應用到大數據領域。Cloudera為數據專業人員提供了基于SQL和其它熟悉的腳本編程語言的工具,用來訪問、操作、轉換和分析復雜數據集。

  學習掌握現代大數據分析工具

    學員在本課程中將學習掌握以下現代大數據分析工具:

      ●  ApacheImpala(孵化項目)作為一個SQL運行環境提供對Hadoop里的數據進行即時交互式分析的能力。

      ●  ApacheHive為數據分析師、數據庫管理員以及其他非Java編程人員提供了一個類-SQL的查詢語言HiveQL來分析處理Hadoop數據。

      ●  ApachePig提供腳本編程工具來分析處理Hadoop數據。

  一.培訓內容

   通過講師在課堂上的講解,以及實操練習,學員將熟悉Hadoop生態系統,學習主題包括:

      ●  使用Pig,Hive及Impala獲取、存儲及分析數據。

      ●  使用Hadoop工具執行基本的ETL工作(抽取-extract,轉換-transform和加載-load)。

      ●  使用Pig、Hive及Impala改善典型分析任務的效率。

      ●  關聯不同及豐富的數據源以獲取全面和真實的商業價值。

      ●  對數據集進行交互式和復雜查詢。

  二.培訓對象及學員基礎

  本課程是專為數據分析師、商業智能專家、開發人員、系統架構師和數據庫管理員開發的。培訓學員不需要具備ApacheHadoop知識。

      ●  需具備一定的SQL知識水平。

      ●  基本熟悉Linux命令行。

      ●  培訓學員至少熟悉一種腳本語言知識(例如,Bash腳本編程、Perl、Python和Ruby)將會更有幫助,但不是必需的。

  三.認證

  結束本課程培訓后,我們建議學員準備并注冊參加ClouderaCCA數據分析師認證考試。通過并獲得該證書是向公司及客戶證明個人在Hadoop數據分析領域的技術和專長的有力依據。

  四.課程大綱

    1.  Hadoop基礎知識

      ●  Hadoop動機

      ●  Hadoop概覽

      ●  數據存儲:HDFS

      ●  分布式數據處理:YARN、MapReduce和Spark

      ●  數據處理與分析:Pig、Hive和Impala

      ●  數據集成:Sqoop

      ●  其它的Hadoop數據工具

      ●  練習分析場景說明

    2.  Pig簡介

      ●  Pig是什么

      ●  Pig的特點

      ●  Pig使用案例

      ●  與Pig的交互

    3.  Pig基本數據分析

      ●  PigLatin語法

      ●  加載數據

      ●  簡單數據類型

      ●  字段定義

      ●  數據輸出

      ●  架構查看

      ●  數據篩選和排序

      ●  常用函數

    4.  使用Pig處理復雜的數據

      ●  數據存儲格式

      ●  復合/嵌套數據類型

      ●  數據分組

      ●  復雜數據內置函數

      ●  遍歷分組數據

    5.  Pig多數據集操作

      ●  數據集合并技術

      ●  在Pig中聯接數據集

      ●  集合運算

      ●  拆分數據集

    6.  Pig故障診斷和性能優化

      ●  Pig故障排除

      ●  日志

      ●  使用Hadoop的WebUI

      ●  數據采樣及調試

      ●  性能概述

      ●  了解執行計劃

      ●  提高Pig作業性能的技巧

    7.  Hive和Impala簡介

      ●  什么是Hive

      ●  什么是Impala

      ●  為什么使用Hive和Impala

      ●  架構和數據存儲

      ●  Hive及Impala與傳統數據庫的比較

      ●  Hive使用案例

    8.  使用Hive和Impala進行數據查詢

      ●  數據庫和表

      ●  基本的Hive和Impala查詢語言語法

      ●  數據類型

      ●  使用Hue來執行查詢

      ●  使用Beeline(HiveShell)

      ●  使用ImpalaShell

    9.  Hive及Impala數據管理

      ●  數據存儲

      ●  創建數據庫和表

      ●  加載數據

      ●  修改數據庫和表

      ●  使用視圖簡化查詢

      ●  存儲查詢結果

    10.  數據存儲和性能

      ●  對表進行分區

      ●  分區表的數據加載

      ●  何時使用分區

      ●  文件格式的選取

      ●  使用Avro及Parquet文件格式

    11.  使用Hive和Impala進行關系數據分析

      ●  連接數據集

      ●  常見的內置函數

      ●  聚合和窗口函數

    12.  復雜數據類型

      ●  在Hive里使用復雜數據

      ●  在Impala里使用復雜數據

    13.  使用Hive及Impala分析文本數據

      ●  在Hive及Impala里使用正則表達式

      ●  在Hive里通過SerDe加載處理文本

      ●  情感分析及n-gram

    14.  Hive優化

      ●  了解查詢性能

      ●  Bucketing(分桶)

      ●  索引數據

      ●  HiveonSpark

    15.  Impala優化

      ●  Impala如何執行查詢

      ●  改善Impala性能

    16.  擴展Hive及Impala

      ●  使用SerDe加載特殊格式文件

      ●  通過定制腳本來轉換數據

      ●  用戶自定義函數

      ●  參數化查詢

    17.  選擇好工具

      ●  比較Pig、Hive、Impala和關系數據庫該選擇哪一個

    18.  總結


  Cloudera大數據課程體系




在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優質服務!

向日葵视频app官方iso下载站长统计_向日葵视频app官网下载在线观看免费无病毒