Thứ sáu - 19/05/2023 08:41
Ứng dụng Spark trong phân tích và xử lý dữ liệu lớn
Spark là một hệ thống tính toán phân tán mã nguồn mở cho phép xử lý và phân tích dữ liệu lớn. Spark được phát triển tại Đại học California, Berkeley và hiện được duy trì bởi tổ chức phần mềm Apache. Trong bài viết này trình bày tổng quan về Spark và các thành phần của nó, bao gồm Spark Core, Spark SQL, Spark Streaming và Mllib, Spark GraphX; cách sử dụng Spark cho các nhiệm vụ xử lý dữ liệu khác nhau như làm sạch, chuyển đổi và phân tích dữ liệu, cách thiết lập một cụm Spark và chạy các ứng dụng Spark trên đó.
Tác giả bài viết: Phạm Thị Hường