Hadoop大數據開發技術入門資源簡介
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統(Hadoop Distributed File System,HDFS)和(Google MapReduce的開源實現)為核心的
Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優點允許用戶將Hadoop部署在低廉(low-cost)的硬件上,形成分布式系統;
MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下并發并行應用程序。所以用戶可以利用集群的Hadoop輕松地組織計算機資源,
從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數據的處理。
Hadoop是一個開源框架,可編寫和運行分布式應用處理大規模數據。分布式計算是一個寬泛并且不斷變化的領域。
方便Hadoop運行在由一般商用機器構成的大型集群上,或者云計算服務上,比如EC2。
健壯Hadoop致力于在一般商用硬件上運行,其架構假設硬件會頻繁失效,Hadoop可以從容地處理大多數此類故障。
可擴展Hadoop通過增加集群節點,可以線性地擴展以處理更大的數據集。
簡單Hadoop允許用戶快速編寫高效的并行代碼。
Hadoop框架的核心是HDFS和MapReduce。其中 HDFS 是分布式文件系統,MapReduce 是分布式數據處理模型和執行環境。掌握了這兩部分,也就掌握了Hadoop最核心的東西。
課程目錄
課時1Hadoop起源介紹.mp4
課時2Hadoop生態圈介紹.mp4
課時3Hadoop基本組件介紹.mp4
課時4Hadoop組成框架介紹.mp4
課時5Hadoop安裝.mp4
課時6Eclipse環境搭建.mp4
課時7HDFS組件及備份機制介紹以及讀寫文件流程介紹.mp4
課時8Shell命令介紹.mp4
課時9HDFS Java API介紹(一).mp4
課時10HDFS Java API介紹(二).mp4
課時11HDFS新特性介紹.mp4
課時12YARN組件介紹以及YARN框架上job執行流程介紹.mp4
課時13MR編程模型總體介紹.mp4
課時14Shuffle階段Map端執行流程介紹.mp4
課時15Shuffle階段Reduce端執行流程介紹.mp4
課時16WordCount案例總體介紹.mp4
課時17MapReduce中數據類型介紹.mp4
課時18MR中自定義數據類型編寫.mp4
課時19案例介紹以及類的編寫.mp4
課時20Shuffle組件Partitioner自定義介紹.mp4
課時21Shuffle組件Combiner以及Grouping自定義介紹.mp4
課時22二次排序實現.mp4
課時23順序式MR組合任務介紹.mp4
課時24依賴關系組合式MR任務介紹.mp4
課時25鏈式MR任務介紹.mp4
課時26MapSideJoin介紹.mp4
課時27ReduceSideJoin介紹.mp4
課時28半連接介紹.mp4
課時29倒排索引實現.mp4