Hadoop Tek Düğüm Kümesi (Pseudonode) CentOS 7'ye Nasıl Kurulur


Hadoop, Büyük Veri ile ilgilenmek için yaygın olarak kullanılan açık kaynaklı bir çerçevedir. Büyük Veri/Veri Analitiği projelerinin çoğu, Hadoop Eko-Sistemi üzerine inşa ediliyor. İki katmandan oluşur; biri Veri Depolamak, diğeri Veri İşleme içindir.

Depolama, HDFS (Hadoop Dağıtılmış Dosya Sistemi) adı verilen kendi dosya sistemi tarafından halledilecek ve İşleme gerçekleştirilecek YARN (Yine Başka Bir Kaynak Müzakerecisi) tarafından halledilir. Mapreduce, Hadoop Eko-Sistemi'nin varsayılan işleme motorudur.

Bu makalede, tüm arka plan programlarının (JVM'ler) bulunacağı Hadoop'un Pseudonode kurulumunu yükleme süreci açıklanmaktadır. CentOS 7'de Tek Düğüm Kümesini çalıştırıyor.

Bu esas olarak yeni başlayanların Hadoop'u öğrenmesi içindir. Gerçek zamanlı olarak Hadoop, verilerin sunucular arasında bloklar halinde dağıtılacağı ve işin paralel olarak yürütüleceği çok düğümlü bir küme olarak kurulacak.

Önkoşullar

  • Minimum CentOS 7 sunucusu kurulumu.
  • Java v1.8 sürümü.
  • Hadoop 2.x kararlı sürümü.

Bu sayfada

  • CentOS 7'ye Java Nasıl Kurulur
  • CentOS 7'de Parolasız Oturum Açmayı Ayarlayın
  • CentOS 7'de Hadoop Tek Düğüm Nasıl Kurulur
  • CentOS 7'de Hadoop Nasıl Yapılandırılır
  • HDFS Dosya Sistemini NameNode Aracılığıyla Formatlamak

Java'yı CentOS 7'ye yükleme

1. Hadoop, Java'dan oluşan bir Eko-Sistemdir. Hadoop'u kurabilmek için sistemimizde zorunlu olarak Java'nın yüklü olması gerekir.

yum install java-1.8.0-openjdk

2. Ardından, sistemde yüklü olan Java sürümünü doğrulayın.

java -version

CentOS 7'de Parolasız Girişi Yapılandırma

Makinemizde ssh'nin yapılandırılmış olması gerekiyor, Hadoop düğümleri SSH kullanarak yönetecek. Ana düğüm, ikincil düğümlerine bağlanmak ve başlatma ve durdurma gibi işlemleri gerçekleştirmek için SSH bağlantısını kullanır.

Master'ın ssh kullanarak kölelerle şifre olmadan iletişim kurabilmesi için şifresiz ssh kurmamız gerekiyor. Aksi takdirde her bağlantı kurulumunda şifreyi girmeniz gerekmektedir.

Bu tek düğümde, Ana hizmetler (Ad Düğümü, İkincil Ad Düğümü ve Kaynak Yöneticisi) ve Bağlı< hizmetleri (Datanode ve Nodemanager) ayrı JVM'ler olarak çalışacaktır. Tek düğüm olmasına rağmen Master'ın kimlik doğrulama olmadan Slave ile iletişim kurmasını sağlamak için şifresiz ssh'ye ihtiyacımız var.

3. Sunucuda aşağıdaki komutları kullanarak şifresiz bir SSH girişi ayarlayın.

ssh-keygen
ssh-copy-id -i localhost

4. Şifresiz SSH girişini yapılandırdıktan sonra tekrar giriş yapmayı deneyin, şifreniz olmadan bağlanacaksınız.

ssh localhost

Hadoop'u CentOS 7'ye yükleme

5. Apache Hadoop web sitesine gidin ve aşağıdaki wget komutunu kullanarak Hadoop'un kararlı sürümünü indirin.

wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
tar xvpzf hadoop-2.10.1.tar.gz

6. Ardından, Hadoop ortam değişkenlerini gösterildiği gibi ~/.bashrc dosyasına ekleyin.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Dosyaya ~/.bashrc ortamı değişkenlerini ekledikten sonra, dosyayı kaynaklayın ve aşağıdaki komutları çalıştırarak Hadoop'u doğrulayın.

source ~/.bashrc
cd $HADOOP_PREFIX
bin/hadoop version

CentOS 7'de Hadoop'u Yapılandırma

Makinenize sığması için aşağıdaki Hadoop yapılandırma dosyalarını yapılandırmamız gerekiyor. Hadoop'ta her hizmetin kendi bağlantı noktası numarası ve verileri depolamak için kendi dizini vardır.

  • Hadoop Yapılandırma Dosyaları – core-site.xml, hdfs-site.xml, mapred-site.xml ve iplik-site.xml

8. Öncelikle hadoop-env.sh dosyasındaki JAVA_HOME ve Hadoop yolunu gösterildiği gibi güncellememiz gerekiyor. .

cd $HADOOP_PREFIX/etc/hadoop
vi hadoop-env.sh

Dosyanın başına aşağıdaki satırı girin.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. Ardından core-site.xml dosyasını değiştirin.

cd $HADOOP_PREFIX/etc/hadoop
vi core-site.xml

Aşağıdakileri gösterildiği gibi <configuration> etiketleri arasına yapıştırın.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. NN ve DN depolaması için kullanılacak olan tecmint kullanıcı ana dizini altında aşağıdaki dizinleri oluşturun.

mkdir -p /home/tecmint/hdata/
mkdir -p /home/tecmint/hdata/data
mkdir -p /home/tecmint/hdata/name

10. Ardından hdfs-site.xml dosyasını değiştirin.

cd $HADOOP_PREFIX/etc/hadoop
vi hdfs-site.xml

Aşağıdakileri gösterildiği gibi <configuration> etiketleri arasına yapıştırın.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Tekrar mapred-site.xml dosyasını değiştirin.

cd $HADOOP_PREFIX/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

Aşağıdakileri gösterildiği gibi <configuration> etiketleri arasına yapıştırın.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Son olarak yarn-site.xml dosyasını değiştirin.

cd $HADOOP_PREFIX/etc/hadoop
vi yarn-site.xml

Aşağıdakileri gösterildiği gibi <configuration> etiketleri arasına yapıştırın.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

HDFS Dosya Sistemini NameNode Aracılığıyla Formatlamak

13. Kümeyi başlatmadan önce, Hadoop NN'i kurulu olduğu yerel sistemimizde biçimlendirmemiz gerekir. Genellikle kümeye ilk kez başlamadan önceki başlangıç aşamasında yapılır.

NN'i biçimlendirmek NN meta deposunda veri kaybına neden olacaktır, bu nedenle daha dikkatli olmalıyız; kasıtlı olarak gerekmedikçe küme çalışırken NN'i biçimlendirmemeliyiz.

cd $HADOOP_PREFIX
bin/hadoop namenode -format

14. NameNode arka plan programını ve DataNode arka plan programını başlatın: (bağlantı noktası 50070).

cd $HADOOP_PREFIX
sbin/start-dfs.sh

15. ResourceManager arka plan programını ve NodeManager arka plan programını başlatın: (bağlantı noktası 8088).

sbin/start-yarn.sh

16. Tüm hizmetleri durdurmak için.

sbin/stop-dfs.sh
sbin/stop-dfs.sh
Özet

Özet
Bu makalede, Hadoop Pseudonode (Tek Düğüm) Kümesi'ni kurmak için adım adım süreci inceledik. Temel Linux bilgisine sahipseniz ve bu adımları takip ederseniz, küme 40 dakika içinde UP olacaktır.

Bu, yeni başlayanların Hadoop'u öğrenmeye ve pratik yapmaya başlaması için çok yararlı olabilir veya Hadoop'un bu vanilya versiyonu Geliştirme amacıyla kullanılabilir. Gerçek zamanlı bir kümeye sahip olmak istiyorsak ya elimizde en az 3 fiziksel sunucuya ihtiyacımız var ya da birden fazla sunucuya sahip olmak için Bulut provizyonu yapmamız gerekiyor.