Xây dựng hạ tầng dữ liệu: Tầm nhìn và giải pháp

Chiều ngày 5/7, tham dự tọa đàm “Hạ tầng dữ liệu và tính toán”, TS. Võ Sỹ Nam (Trưởng phòng Tin Y Sinh ứng dụng, Viện Nghiên cứu Dữ liệu lớn VinBigdata) đã có phần tham luận “Xây dựng hạ tầng dữ liệu: Tầm nhìn và giải pháp.”

Ngày 5/7 vừa qua đã diễn ra tọa đàm quảng bá chiến lược quốc gia về nghiên cứu, phát triển và ứng dụng trí tuệ nhân tạo, với chủ đề “Hạ tầng dữ liệu và tính toán”. Chương trình có sự tham gia của các diễn giả là chuyên gia hàng đầu trong lĩnh vực dữ liệu, AI, đến từ viện nghiên cứu, trường đại học, doanh nghiệp và đại diện lãnh đạo Bộ Khoa học và Công nghệ, chuyên gia Australia. Góp mặt tại sự kiện, TS. Võ Sỹ Nam (Trưởng phòng Tin Y Sinh ứng dụng, VinBigdata) trình bày về tầm nhìn và giải pháp xây dựng hạ tầng dữ liệu.

TS. Võ Sỹ Nam tham dự tọa đàm với phần trình bày về “Xây dựng hạ tầng dữ liệu: Tầm nhìn và giải pháp.”

Cụ thể, tại tham luận, TS. Nam đã phân tích tầm quan trọng của việc chia sẻ dữ liệu – bài học từ đại dịch Covid-19; thực trạng xây dựng hạ tầng dữ liệu mở, cũng như nền tảng quản lý, phân tích, chia sẻ dữ liệu y sinh lớn nhất Việt Nam hiện nay – VinGen Data Portal.

Theo đó, về hạ tầng dữ liệu, TS. Nam cho biết, chất lượng dữ liệu là then chốt trong nghiên cứu AI bởi 80% công việc hiện nay là xử lý dữ liệu. Sự bùng nổ dữ liệu toàn cầu cũng đưa đến một số vấn đề, trong đó có kỷ nguyên dữ liệu mở.

“Hạ tầng dữ liệu cần một kế hoạch dài hạn để xây dựng, duy trì và phát triển. Hiện nay, dữ liệu không những bùng nổ theo cấp số nhân mà theo hàm mũ, và kỉ nguyên dữ liệu mở đã bắt đầu.” TS. Võ Sỹ Nam khẳng định việc chia sẻ dữ liệu đã được thực hiện từ trước đây, ở một số quốc gia lớn. Đến nay, các doanh nghiệp tư nhân, tổ chức học thuật cũng đưa ra nguồn dữ liệu mở quy mô lớn, được dán nhãn và mô tả đầy đủ. Tại Việt Nam, một số chương trình cũng đã được triển khai, nhằm kết hợp với nguồn lực công và tư, tổ chức học thuật, doanh nghiệp trong việc xây dựng cổng dữ liệu quốc gia.

Tuy nhiên, thách thức chính của hạ tầng dữ liệu là hiệu năng hệ thống vì khối lượng tính toán lớn, tốn tài nguyên, cần cập nhật dữ liệu, và vấn đề đồng nhất dữ liệu. Một số giải pháp được tiến sĩ đề xuất bao gồm thích ứng với kỷ nguyên mở, xây dựng kế hoạch dài hạn thậm chí 20-30 năm; đồng thời đảm bảo chất lượng và toàn vẹn của dữ liệu qua thời gian (dữ liệu tinh chỉnh không bị mất mát so với dữ liệu gốc), sử dụng công cụ để theo dõi sai lệch trong luồng dữ liệu.

Đặc biệt, dẫn chứng về hạ tầng dữ liệu, TS. Võ Sỹ Nam giới thiệu VinGen Data Portal là nền tảng quản lý, phân tích dữ liệu y sinh có quy mô lớn nhất Việt Nam. “Hiện nay cổng dữ liệu này có gần 5 nghìn GB dữ liệu, 10 máy tính toán, hơn 1000 lõi tính toán, việc phân tích dữ liệu bao gồm dán nhãn, tinh chỉnh”, TS. Nam cho biết. Dự kiến cuối tháng 7 tới đây, hệ thống VinGen Data Portal sẽ được hoàn chỉnh với đầy đủ dữ liệu của 1000 hệ gen người Việt khỏe, sẵn sàng để cộng đồng truy cập, phục vụ công tác nghiên cứu y sinh trong và ngoài nước.

TS. Võ Sỹ Nam hiện là Chuyên gia Nghiên cứu Tin sinh học, Trưởng phòng Tin Y sinh Ứng dụng, Viện Nghiên cứu Dữ liệu lớn Vingroup (VinBigdata). TS. Nam cùng cộng sự phụ trách nghiên cứu và phát triển các hệ thống phân tích và chú giải dữ liệu y sinh học quy mô lớn, cũng như các mô hình dự đoán nguy cơ bệnh, tác dụng phụ của thuốc, hướng tới xây dựng những giải pháp hỗ trợ chẩn đoán và điều trị bệnh. Trong số các dự án anh cùng đội ngũ đang thực hiện, Hệ thống Phân tích, Quản lý và chia sẻ dữ liệu y sinh lớn nhất Việt Nam VinGen Data Portal (https://genome.vinbigdata.org/) đã được công bố từ tháng 12/2020. Hệ thống lưu trữ hơn 1200 TeraByte dữ liệu và gần 5000 mẫu sinh học liên quan đến dự án giải mã 1000 hệ gen người Việt và các dự án ứng dụng khác.

Cộng đồng quan tâm có thể theo dõi tọa đàm tại đây.

(Nguồn tham khảo: VnExpress)

Chia sẻ:
Share on facebook
Share on twitter
Share on linkedin

Tin liên quan