Gần đây mình có làm việc trong một project về Big Data trong lĩnh vực hàng không, ngoài làm việc ở công ty thì mình cũng dành ra thêm thời gian học hỏi thêm vài thứ liên quan. Tình cờ mình tìm thấy vài Tutorial hướng dẫn build Big Data platform cho mục đích học tập nghiên cứu, thấy cũng hay và liên quan đến công việc hiện tại nên cũng làm theo. Đến bây giờ tuy chưa ổn nhưng gọi là cũng có thể dùng nó để học thêm về Machine Learning, AI nên muốn chia sẻ mới mọi người. Mình sử dụng hướng dẫn tham khảo từ Repository: Docker Hadoop Spark Workbench. dựa theo đó mình đã build được các docker:
Đầu tiên, để chạy được toàn bộ ứng dụng thì cấu hình máy khá mạnh, với mình:
Bước 1: Cài docker và các tool cần thiết Bước 2: Clone repo của mình: https://github.com/nvtienanh/spark-workbench
Để build lại các docker images:
make build
Để chạy toàn platform:
make up
Để dừng platform:
make down
Bước 3: Chỉnh sửa hoặc cải thiện theo code theo nhu cầu của các bạn
Đây chỉ là mô hình mình dùng để học tập và nghiên cứu nên rõ ràng chưa thể nào hoàn thiện được và còn nhiều vấn đề mình chưa sửa được:
Thông tin