VinBigdata chia sẻ 100 giờ dữ liệu tiếng nói cho cộng đồng

Nhằm góp phần xây dựng sân chơi hữu ích cho cộng đồng nghiên cứu về Xử lý ngôn ngữ và tiếng nói ở Việt Nam, Viện Nghiên cứu Dữ liệu lớn VinBigdata đóng góp 100 giờ dữ liệu tiếng nói tiếng Việt, hỗ trợ VLSP tổ chức ASR challenge 2020.

Cụ thể, 100 giờ dữ liệu tiếng nói được thu thập từ các nguồn mở và phiên âm thủ công với độ chính xác 96% do VinBigdata chia sẻ sẽ được dùng làm dữ liệu huấn luyện (training dataset), giúp các đội trẻ phát triển mô hình ASR (Tự động nhận dạng tiếng nói) cho tiếng Việt. Kết quả của mô hình sẽ được đánh giá bởi Word error rate (WER) – thang đo quốc tế đối với hệ thống nhận dạng tiếng nói và dịch máy. Cộng đồng có thể tải bộ dữ liệu ASR tại đây.

ASR challenge nằm trong hội thảo quốc tế thường niên của cộng đồng VLSP (Vietnamese Language and Speech Processing). Năm nay, VLSP 2020 dự kiến được tổ chức trong tháng 12 tại Hà Nội. Kể từ năm 2012, cộng đồng VLSP đã có các hoạt động thường niên nhằm cùng nhau chia sẻ các kết quả nghiên cứu ứng dụng và các công cụ, tài nguyên trong lĩnh vực xử lí ngôn ngữ, đồng thời xây dựng kế hoạch phát triển cộng đồng. Các hội thảo thường niên thu hút hàng trăm người tham gia, gần 5000 thành viên gia nhập diễn đàn Facebook của cộng đồng VLSP.

Bên cạnh bộ dữ liệu dành cho ASR, VinBigdata cũng chia sẻ 01 bộ dữ liệu dành cho Dịch máy (Machine Translation) từ tiếng Anh sang tiếng Việt trong domain NEWS. Dữ liệu đào tạo bao gồm hai bộ ngữ liệu: Ngữ liệu song ngữ và ngữ liệu đơn ngữ. Ngữ liệu song ngữ gồm tập dữ liệu trong domain NEWS (kích thước 20,000 mẫu với 80% trong tập đào tạo, 10% trong tập phát triển và 10% trong tập thử nghiệm); và các tập dữ liệu ngoài miền domain (kích thước khoảng 4 triệu mẫu, chẳng hạn như openSub (3.5M), ted-like (55k), evbcorpus (45k), wiki-alt (20k) và tập dữ liệu cơ bản (8.8k)). Kho ngữ liệu đơn ngữ ở định dạng UTF-8 và bao gồm 2 triệu mẫu thu thập từ dữ liệu web tiếng Việt.

Tải bộ ngữ liệu song ngữ tại đây.

Tải bộ dữ liệu đơn ngữ tại đây.