廣州總校區切換校區

Spark和Hadoop上的數據科學

課時總數:18課時

課程介紹

      通過Cloudera公司提供的數據科學培訓和認證,將您的知識提升到一個新的水平。

 數據科學家幫助政府、企事業單位及科研院校創建大數據時代的新型信息平臺,用于對海量數據進行深度挖掘、從中提取有用的信息,用于回答以前無法解決甚至是無法想象的問題。

學員將學習數據科學家是如何使用Hadoop和Spark技術來幫助企業改進現有產品、開發新產品新應用,留住用戶并開拓市場,降低成本,提高收益,發現和帶來新的商業機會。

Cloudera大學為期3天的數據科學家課程幫助學員理解什么是數據科學家,他們解決什么樣的問題,以及使用何種高效工具和新技術。通過課堂模擬,學員學會如何運用數據科學的方法來應對并解決現實中來自不同行業的挑戰,為以后勝任數據科學家的角色做好準備。

 

一. 培訓內容

       通過講師在課堂上的講解,以及實操練習,學員將學習以下內容:

  •  如何獲取、清洗和綜合來自不同數據源的數據,為分析提供統一全面的視圖。
  •  了解用于從海量數據探索潛在商業價值的統計方法。
  •  掌握何時將Hadoop streaming 和Apache Spark 嵌入搭建數據科學所需的數據產品流水線中去。
  •  了解數據科學項目所需的機器學習技術。
  •  如何使用SparkMLlib實現和管理推薦系統,如何設置和評估結果。
  •  了解將新開發的分析項目部署到大規模產品環境中可能碰到的擴展能力問題及如何規避。


 

二. 培訓對象及學員基礎

本課程面向軟件開發人員、大數據工程師以及高級數據分析人員。學員需掌握使用Linux環境的基本技能,建議具備Hadoop方面的基本知識或經驗:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟練使用至少一種腳本編程語言,建議Python,或者熟悉其他語言譬如Perl或Ruby。

 

三. 數據科學家認證

在完成本課程的學習后,我們鼓勵培訓學員繼續深造并注冊參加Cloudera認證專家:數據科學家(CCP:DS)考試。獲得該認證可以讓學員脫穎而出;它可以幫助學員成為該領域的精英,并向雇主和客戶提供與您的專業知識相關的確鑿證據。

 

四. 課程大綱

1. 引言

  •  課程簡介
  •  Cloudera簡介
  •  課程安排
  •  介紹


2. 數據科學概述

  •  什么是數據科學?
  •  數據科學日益增長的需求
  •  數據科學家的角色


3. 使用案例

  •  金融行業
  •  零售行業
  •  廣告行業
  •  國防和情報行業
  •  電信及公用事業行業
  •  醫療健康及制藥行業


4. 項目生命周期

  •  項目生命周期的流程步驟
  •  實操練習應用場景說明


5. 數據采集

  •  從哪里獲取數據
  •  數據采集技術


6. 評估輸入數據

  •  數據格式
  •  數據容量
  •  數據質量


7. 數據轉換

  •  文件格式轉換
  •  連接數據集
  •  數據匿名化


8. 數據分析和統計方法

  •  統計與概率之間的關系
  •  描述性統計
  •  推理性統計
  •  向量和矩陣


9. 機器學習的基礎知識

  •  概述
  •  機器學習的3C分類
  •  數據和算法的重要性
  •  聚焦:樸素貝葉斯分類器


10. 推薦系統概述

  •  什么是推薦系統
  •  協同過濾的類型
  •  推薦系統的局限性
  •  基本概念


11. Apache Spark和MLlib簡介

  •  什么是Apache Spark ?
  •  MapReduce的比較
  •  Apache Spark基礎知識
  •  Spark的MLlib Package


12. 通過MLlib實現推薦系統

  •  針對潛在因子推薦系統的ALS方法概述
  •  ALS推薦系統超參數
  •  MLlib中構建推薦系統
  •  調整超參數
  •  加權


13. 實驗和評估

  •  設計有效的實驗
  •  進行有效的實驗
  •  推薦系統的用戶界面


14. 生產部署和超越


  •  生產部署
  •  提升數據產品擴展能力技巧和技術
  •  結果匯總和可視化
  •  如何改進
  •  推薦系統未來展望


15. 總結


Cloudera大數據課程體系



在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優質服務!

向日葵视频app官方iso下载站长统计_向日葵视频app官网下载在线观看免费无病毒