Pig 教程學習手册

Published on 2023-04-20 00:10:05 · 中文 · English · بالعربية · Español · हिंदीName · 日本語 · Русский язык

Apache Pig 教程

Apache Pig 教程
Pig 教程提供了 Pig 的基本和高級概念。 我們的 Pig 教程是為初學者和專業人士設計的。
Pig 是一個高級數據流平臺,用於執行 Hadoop 的 Map Reduce 程式。 它是由雅虎開發的。 Pig 的語言是 pig Latin。
我們的 Pig 教程包括 Apache Pig 和 Pig 使用、Pig 安裝、Pig 運行模式、Pig Latin 概念、Pig 數據類型、Pig 示例、Pig 使用者定義函數的所有主題等

什麼是Apache Pig

Apache Pig 是一個高級數據流平臺,用於執行Hadoop 的MapReduce 程式。 Pig 使用的語言是 Pig Latin。
Pig 文稿在內部轉換為 Map Reduce 作業,並在 HDFS 中存儲的數據上執行。 除此之外,Pig 還可以在 Apache Tez 或 Apache Spark 中執行其工作。
Pig 可以處理任何類型的數據,即結構化、半結構化或非結構化,並將相應的結果存儲到 Hadoop 數據文件中系統。 使用 PIG 可以實現的每個任務也可以使用 MapReduce 中使用的 java 來實現。

Apache Pig 的特性

讓我們看看 Pig 技術的各種用途。

1) 易於程式設計

為 map reduce 編寫複雜的 java 程式對於非程式師來說是相當困難的。 Pig 使這個過程變得簡單。 在 Pig 中,查詢在內部轉換為 MapReduce。

2) 優化機會

任務的編碼方式允許系統自動優化它們的執行,允許使用者專注於語義而不是效率。

3) 可擴充性

編寫了使用者定義的函數,用戶可以在其中編寫要執行的邏輯

4) 靈活

它可以輕鬆處理結構化和非結構化數據。

5) 內置操作符

它包含各種類型的操作符,例如排序、過濾和連接。

Apache MapReduce 和 PIG 之間的區別

Apache Pig 的優勢

更少的代碼-Pig 使用更少的代碼來執行任何操作。 可重用性-Pig 代碼足夠靈活,可以再次重用。 嵌套數據類型-Pig 提供了一個有用的嵌套數據類型概念,例如元組、包和映射。