豚のチュートリアル学習マニュアル

アパッチピッグチュートリアル

Pig チュートリアルでは、Pig の基本概念と高度な概念について説明します。私たちのPigチュートリアルは、初心者と専門家の両方向けに設計されています。

Pig は、Hadoop のマップ削減プログラムを実行するための高度なデータストリーミングプラットフォームです。これは、ヤフーによって開発されました。豚の言語は豚ラテン語です。

Pig チュートリアルでは、Apache Pig と Pig の使用方法、Pig のインストール、Pig 実行モード、Pig ラテン語の概念、Pig データ型、Pig の例、Pig ユーザー定義関数に関するすべてのトピックなどについて説明します。

Apache Pig は、Hadoop の MapReduce プログラムを実行するための高度なデータストリーミングプラットフォームです。 Pigが使用する言語はPigラテン語です。

Pig スクリプトは内部でマップ削減ジョブに変換され、HDFS に格納されているデータに対して実行されます。これに加えて、PigはApache TesまたはApache Sparkで作業を実行することもできます。

Pigは、構造化、半構造化、非構造化の任意のタイプのデータを処理し、対応する結果をHadoopデータファイルシステムに保存できます。 PIGを使用して達成できるすべてのタスクは、MapReduceで使用されるJavaを使用して実装することもできます。

Pigテクノロジーのさまざまな用途を見てみましょう。

Map Reduce用の複雑なJavaプログラムを書くことは、プログラマーでない人にとっては非常に難しい場合があります。豚はこのプロセスを簡単にします。 Pig では、クエリは内部的に MapReduce に変換されます。

タスクのコーディング方法により、システムはタスクの実行を自動的に最適化できるため、ユーザーは効率ではなくセマンティクスに集中できます。

ユーザー定義関数は、ユーザーが実行するロジックを記述できる記述されています

構造化データと非構造化データを簡単に処理できます。

これには、並べ替え、フィルター処理、結合など、さまざまな種類の演算子が含まれています。

より少ないコード - Pigは何かをするためにより少ないコードを使用します。再利用性 - Pigコードは、再利用できる柔軟性があります。ネストされたデータ型 - Pigは、タプル、パッケージ、マップなどのネストされたデータ型の便利な概念を提供します。