Po półtora roku rozwoju, wydała Apache Software Foundation uruchomienie nowej wersji Apache Hadoop 3.3.0, wersja w którym dodał ulepszenia dla platform ARM, wsparcie dla planowania uruchomień kontenerów i innych rzeczy.
Apache Hadoop pozycjonuje się jako bezpłatna platforma zorganizować rozproszone przetwarzanie dużych ilości danych przy użyciu paradygmat map / redukuj, w którym zadanie jest podzielone na wiele mniejszych, izolowanych fragmentów, z których każdy może działać w oddzielnym węźle klastra.
Magazyn oparty na platformie Hadoop może obejmować tysiące węzłów i zawierać eksabajty danych.
Informacje o Apache Hadoop
Hadoop zawiera implementację rozproszonego systemu plików Hadoop (HDFS), który automatycznie zapewnia redundancję danych i jest zoptymalizowany pod kątem aplikacji MapReduce.
Kluczową funkcją jest to, że w celu efektywnego planowania zadań każdy system plików musi znać i podawać swoją lokalizację, nazwę szafy (a dokładniej przełącznika), w której znajduje się węzeł roboczy.
Aplikacje Hadoop mogą wykorzystywać te informacje do wykonywania pracy w węźle, w którym znajdują się dane, a w przypadku awarii na tej samej szafie / przełączniku, zmniejszając w ten sposób ruch w sieci.
Aby uprościć dostęp do danych w pamięci Hadoop, Opracowano bazę danych HBase i podobny do SQL język Pig, który jest typem SQL dla MapReduce, którego zapytania mogą być równoległe i przetwarzane przez różne platformy Hadoop.
Projekt jest oceniany jako całkowicie stabilny i gotowy do eksploatacji przemysłowej. Hadoop jest aktywnie wykorzystywany w dużych projektach przemysłowych, zapewniając możliwości podobne do platformy Google Bigtable / GFS / MapReduce, podczas gdy Google oficjalnie delegował Hadoop i inne projekty Apache, są uprawnione do korzystania z opatentowanych technologii związanych z metodą MapReduce.
Hadoop zajmuje pierwsze miejsce wśród repozytoriów Apache pod względem liczby wprowadzonych zmian i piątą co do wielkości bazę kodu (około 4 miliony linii kodu).
Co nowego w Apache Hadoop 3.3?
Ta nowa wersja Hadoop jest umieszczony jako pierwsza wersja, która ma el obsługa platform opartych na ARM, Dzięki czemu osoby zainteresowane wdrożeniem tej platformy będą mogły znaleźć już dostępny plik binarny dla ARM.
Inną z głównych zmian, które są prezentowane w tej nowej wersji, jest wdrożenie nowej wersji formatu Protobuf (Bufory protokołów) używane do serializacji danych strukturalnych został zaktualizowany do wersji 3.7.1 ze względu na koniec cyklu życia gałęzi protobuf-2.5.0.
Oprócz tego też możliwości złącza S3A zostały już rozszerzone że teraz go ma dodana obsługa uwierzytelniania za pomocą tokenów, ulepszona obsługa buforowania odpowiedzi z kodem 404, wyższa wydajność S3guard i zwiększona niezawodność operacyjna.
również Dodano usługę rozpoznawania nazw DNS klient może określić serwery za pośrednictwem DNS na podstawie nazw hostów, co pozwala zrezygnować z listy wszystkich hostów w konfiguracji.
Tak dobrze jak obsługa planowania uruchamiania kontenerów za pośrednictwem scentralizowanego menedżera zasobów (ResourceManager), nawet z możliwością dystrybucji kontenerów z uwzględnieniem obciążenia każdego węzła.
Z innych zmian, które się wyróżniają tej nowej wersji:
- W systemie plików ABFS rozwiązano problemy z automatycznym dostrajaniem.
- Dodano natywną obsługę systemu plików Tencent Cloud COS w celu uzyskania dostępu do pamięci obiektów COS.
- Dodano pełną obsługę języka Java 11.
- Ustabilizowano implementację HDFS RBF (federacja oparta na routerze). Kontrola bezpieczeństwa została dodana do routera HDFS.
- Dodano katalog aplikacji wyszukiwania YARN (kolejny negocjator zasobów).
Wreszcie, jeśli chcesz dowiedzieć się więcej na ten temat, możesz sprawdzić szczegóły nowej wersji pod adresem oryginalny post.
Osoby zainteresowane uzyskaniem nowej wersji mogą pobrać przygotowane pliki binarne W poniższym linku.