廣州總校區切換校區

Cloudera檢索培訓

課時總數:0課時

課程介紹

通過Cloudera公司提供的Hadoop和企業數據中心培訓,將您的知識提升到一個新的水平并有助于您解決實際問題。

Cloudera大學提供的為期3天的檢索培訓課程是專門針對希望在Hadoop中索引數據以實現更強大的實時查詢功能的開發人員和工程師而設計的。培訓學員將學習如何通過將Cloudera檢索系統與外部應用程序進行整合,以挖掘他們的數據更多的價值。

 

提升您的生態系統專業知識

Cloudera檢索系統具備全文本、交互式搜索功能,并且具備針對Hadoop和企業數據中心的可擴展、靈活索引功能。Cloudera檢索系統由Apache Solr提供技術支持,可以針對新一代集成式、多工作負載查詢提供規模性和可靠性。

 

一. 培訓內容

       過講師在課堂上的講解,以及實操練習,學員將學習以下內容:

  • 對存儲在HDFS和HBase中的數據進行批量索引。
  •  通過Flume以近實時的方式執行流數據的索引。
  •  以多語言和多文件格式對內容進行索引。
  •  通過Morphlines處理和轉換輸入數據。
  •  使用Hue創建索引的用戶界面。
  •  Cloudera檢索系統與外部應用程序進行整合。
  •  使用層面搜索(faceting)、高亮(highlighting)、拼寫糾錯等功能改善搜索體驗。

 

二. 培訓對象及學員基礎

   本課程是專門針對至少基本了解Hadoop和具備通用語言(例如Java、C、C ++、Perl或Python)編程經驗的開發人員和工程師設計的。培訓學員應非常熟悉Linux命令行,并且應該能夠執行基本任務(例如,創建和刪除目錄、查看和更改文件權限、執行腳本、并檢查文件輸出)。不要求培訓學員必需具備Apache Solr或Cloudera檢索系統使用經驗,同時也不要求具備HBase或SQL使用經驗。

 

三. 課程大綱

1. Cloudera Search概述

  •  什么是Cloudera Search?
  •  特性
  •  使用案例
  •  基本架構


2. 執行基本查詢

  •  Admin UI中執行查詢
  •  基本語法
  •  近似匹配技術
  •  控制輸出


3. 編寫功能更強大的查詢

  •  相關性和過濾器
  •  查詢解析器
  •  函數
  •  地理空間搜索
  •  層面搜索(Faceting)


4. 準備索引文檔

  •  索引過程概述
  •  了解Morphlines
  •  生成配置文件
  •  模式設計
  •  文檔集管理


5. 通過MapReduce批量索引HDFS數據

  •  HDFS批量索引過程概述
  •  MapReduce索引工具的使用
  •  測試和故障排除


6. 通過Flume的近實時索引

  •  近實時索引過程概述
  •  Apache Flume簡介
  •  如何通過Flume執行近實時索引
  •  測試和故障排除


7. 通過Lily索引HBase數據

  •  什么是Apache HBase?
  •  HBase的批量索引
  •  以近實時方式索引HBase表


8. 以其他語言和格式索引數據

  •  字段類型和分析器鏈
  •  單詞衍生、字符映射和語言支持
  •  Admin UI中的模式和分析支持
  •  通過Apache Tika進行元數據和


9. 內容提取

  •  通過SolrCell索引二進制文件類型


10. 提高搜索質量和性能

  •  相關結果遞送
  •  幫助用戶查找信息
  •  查詢性能和故障排除


11. 構建搜索用戶界面

  •  搜索UI概述
  •  通過Hue構建用戶界面
  •  將搜索(Search)功能集成到自定義


12. 應用程序中


13. 部署注意事項


  •  部署規劃
  •  確定硬件需求
  •  安全性概述
  •  文檔集別名


14. 結論


Cloudera大數據課程體系





在線咨詢 ×

您好,請問有什么可以幫您?我們將竭誠提供最優質服務!

向日葵视频app官方iso下载站长统计_向日葵视频app官网下载在线观看免费无病毒