Việt Nam là nước đông dân thứ 15 trên thế giới. Tuy nhiên, các nghiên cứu di truyền cho người Việt chủ yếu dựa trên các thông tin di truyền từ các cơ sở dữ liệu gen hiện có với chỉ một số ít thông tin về người Việt. Do đó, việc xây dựng cơ sở dữ liệu về gen cho người Việt là vô cùng cần thiết, góp phần diễn giải đúng các biến dị di truyền đặc trưng cho quần thể người Việt.

Trong dự án này, VinBigdata tập trung vào xây dựng cơ sở dữ liệu về gen cho  người  Việt  ở  quy  mô  lớn  nhất  hiện  nay.  Hệ  gen  của  tổng  cộng  1000  người  Việt  sẽ  được  giải  mã  toàn  bộ  sử  dụng  công  nghệ  giải  trình  tự  tiên  tiến của Illumina với độ phân giải 30x. Dữ liệu trình tự này sau đó sẽ được phân tích để xác định các biến dị di truyền gồm các biến dị đơn điểm (SNV), các biến dị chèn xoá ngắn (Indel) và các biến dị lớn (structural). Dữ liệu này sẽ là nền tảng cho các nghiên cứu tương quan trên toàn hệ gen, cho các bệnh di truyền và thuốc dựa trên gen, mở đường cho nghiên cứu và ứng dụng trong Y học chính xác tại Việt Nam.