Các dự án dữ liệu lớn hiện nay (lên đến cỡ petabyte hay thậm chí exabyte) trong nhiều lĩnh vực chẳng hạn như y sinh học đã và đang đặt ra nhiều thách thức về mặt lưu trữ, quản lý, phân tích và xử lý dữ liệu. Ngoài ra với xu hướng dữ liệu mở, khoa học mở, và nền tảng mở ngày nay, việc chia sẻ và chuẩn hóa nhiều nguồn dữ liệu đa dạng và không đồng nhất đồng thời đảm bảo tính bảo mật dữ liệu cũng đặt ra nhiều thách thức lớn cần phải giải quyết. Việc xây dựng các hệ thống quản lý, phân tích, và chia sẻ dữ liệu đảm bảo tính khả chuyển (portability), có thể mở rộng (scalability), và có thể tái tạo (reproducibility) đang trở nên cấp thiết và đặc biệt được chú trọng trong nhiều dự án y sinh học lớn gần đây. Dự án 1000 hệ gen người Việt và các dự án ứng dụng khác đã, đang và sẽ được triển khai tại VinBigData cũng đặt ra những thách thức tương tự và việc xây dựng một hệ thống như vậy trở nên đặc biệt quan trọng nhằm đảm bảo sự hiệu quả lâu dài của dự án.

Mục tiêu chung của dự án này là xây dựng một hệ thống quản lý, phân tích và chia sẻ dữ liệu lớn (Management, Analysis, and Sharing of large datasets – MASH), trước mắt tập trung vào dữ liệu y tế và sau đó mở rộng ra các nguồn dữ liệu khác. MASH cần phải (1) có khả năng làm việc với các mô hình dữ liệu (data models) của từng dự án cũng như có khả năng tích hợp với các quy trình phân tích (analysis workflows) của các dự án đó; (2) được thiết kế nhằm thích ứng một cách linh hoạt nhất với các thay đổi về mô hình dữ liệu và quy trình phân tích của dự án; (3) cung cấp các thành phần giao diện (front-end) cho phép nhập/xuất/hiển thị dữ liệu phù hợp với từng dự án cũng như các thành phần nền tảng (back-end) cho phép đánh chỉ mục/lưu trữ/quản lý/bảo mật dữ liệu với số lượng và kích thước lớn, trong đó từng file có thể lên đến terabyte và tổng dung lượng có thể lên đến petabyte hay thậm chí exabyte; (4) được thực hiện (implement) dựa trên các công nghệ mã nguồn mở tiên tiến nhất hiện nay, đảm bảo tính khả chuyển, có thể mở rộng, và có thể tái tạo trong việc quản lý, phân tích dữ liệu lớn; và (5) có thể triển khai (deploy) trên hệ thống máy tính của doanh nghiệp (on-premise) hoặc điện toán đám mây (cloud-based).

MASH giúp cho việc quản lý, phân tích, chia sẻ, khám phá, trực quan hóa dữ liệu một cách dễ dàng, thuận tiện và nhanh chóng. MASH cho phép người dùng (các nhà nghiên cứu tin sinh, y sinh, khoa học dữ liệu, bác sỹ, sinh viên, …) khai thác, tìm kiếm, và phân tích dữ liệu ngay trên trang web của hệ thống, qua đó người dùng tiết kiệm được thời gian và chi phí để thực hiện nghiên cứu. Ngoài ra người dùng cũng có thể tải lên hệ thống những dữ liệu mà họ có, tận dụng những tài nguyên và dịch vụ của hệ thống để thực hiện phân tích, cũng như chia sẻ dữ liệu tới cộng đồng. Thông qua MASH, người dùng có thể thực hiện các phân tích chuyên môn qua những tính năng đã được cung cấp sẵn mà không cần biết tới các kỹ thuật lập trình, trực quan hóa và phân tích dữ liệu chuyên sâu. MASH được phát triển và triển khai với nhiều lớp bảo mật, giúp hệ thống đảm bảo được tính toàn vẹn và tính bảo mật của dữ liệu cũng như đảm bảo riêng tư người dùng.