Đăng vào

Làm quen với Big Data: Xây dựng mô hình đơn giản

Mở đầu

Gần đây mình có làm việc trong một project về Big Data trong lĩnh vực hàng không, ngoài làm việc ở công ty thì mình cũng dành ra thêm thời gian học hỏi thêm vài thứ liên quan. Tình cờ mình tìm thấy vài Tutorial hướng dẫn build Big Data platform cho mục đích học tập nghiên cứu, thấy cũng hay và liên quan đến công việc hiện tại nên cũng làm theo. Đến bây giờ tuy chưa ổn nhưng gọi là cũng có thể dùng nó để học thêm về Machine Learning, AI nên muốn chia sẻ mới mọi người. Mình sử dụng hướng dẫn tham khảo từ Repository: Docker Hadoop Spark Workbench. dựa theo đó mình đã build được các docker:

  • Hadoop
  • Spark
  • Zeppelin
  • Hue (HDFS Filebrowser)

Tiến hành

Cấu hình phần cứng

Đầu tiên, để chạy được toàn bộ ứng dụng thì cấu hình máy khá mạnh, với mình:

  • Ổ cứng SSD và dung lượng trống > 20 GB
  • Ram 16Gb
  • Docker Engine >= 1.13.0
  • docker-compose >= 1.10.0

Tiến hành

Bước 1: Cài docker và các tool cần thiết

Bước 2: Clone repo của mình: https://github.com/nvtienanh/spark-workbench

  • Để build lại các docker images:
make build
  • Để chạy toàn platform:
make up
  • Để dừng platform:
make down

Bước 3: Chỉnh sửa hoặc cải thiện theo code theo nhu cầu của các bạn

Kết quả của mình

  • Khởi động các docker image thành công:
  • Hue (HDFS Filebrowser):
  • Spark master:
  • Hadoop datanode:
  • Zeppelin:

TODO lists

Đây chỉ là mô hình mình dùng để học tập và nghiên cứu nên rõ ràng chưa thể nào hoàn thiện được và còn nhiều vấn đề mình chưa sửa được:

  • Tự động scale up worker
  • Kết nối Hue với postgresSQL
  • ...