VIỆN CÔNG NGHỆ THÔNG TIN

Hội thảo tham vấn về ViGen – xây dựng bộ dữ liệu mở cho tiếng Việt

07/10/2025

Chiều ngày 02/10/2025, tại Trung tâm Đổi mới sáng tạo Quốc gia, Khu Công nghệ Cao Hòa Lạc đã diễn ra Hội thảo tham vấn về xây dựng bộ dữ liệu mở cho tiếng việt phục vụ nghiên cứu, phát triển và ứng dụng trí tuệ nhân tạo. Hội thảo lần này có sự tham gia của Đại sứ quán Hoa Kỳ và Thụy Điển tại Việt Nam đồng hành cùng Trung tâm Đổi mới Sáng tạo Quốc gia (NIC) và Tập đoàn Meta, tổ chức “AI for Vietnam” và Viện Công nghệ thông tin (Viện CNTT) - Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

Dự án ViGen ra đời từ sự hợp tác giữa Tập đoàn Meta, Trung tâm Đổi mới sáng tạo Quốc gia (NIC) và Quỹ AI for Vietnam (AI for Vietnam Foundation – AIV), với mục tiêu xây dựng bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao, quy mô lớn. Mục đích chính của dự án là giải quyết một trong những thách thức lớn nhất của AI tại Việt Nam: thiếu dữ liệu tiếng Việt chất lượng cao, nhằm xây dựng một nền tảng dữ liệu mở cho AI mang bản sắc Việt. Hiện tại, dữ liệu tiếng Việt chỉ chiếm một phần rất nhỏ trong các bộ dữ liệu đào tạo AI toàn cầu, dẫn đến việc các mô hình AI chưa thực sự hiểu sâu sắc về văn hóa, ngữ cảnh và cách diễn đạt đặc trưng của người Việt.

ViGen được kỳ vọng sẽ trở thành "mạch nguồn" nuôi dưỡng và phát triển các mô hình ngôn ngữ lớn (LLMs) được bản địa hóa, giúp AI trở nên thông minh và phù hợp hơn với nhu cầu của người Việt. Việc tạo ra bộ dữ liệu mở theo giấy phép ODC-By 1.0 cho phép cộng đồng, từ doanh nghiệp, trường đại học đến các lập trình viên, có thể tự do sử dụng, chia sẻ và phát triển cho mọi mục đích, kể cả thương mại.

Dự án không chỉ là nỗ lực của một vài tổ chức mà còn là sự chung tay của cả cộng đồng. Người dân, các nhà nghiên cứu, nhà phát triển và doanh nghiệp Việt Nam có thể trực tiếp tham gia đóng góp bằng cách tải dữ liệu lên hệ thống, qua đó góp phần xây dựng một nền tảng AI mở và có trách nhiệm. Sự thành công của ViGen sẽ giúp Việt Nam nâng cao vị thế trên bản đồ AI toàn cầu, đồng thời biến AI trở thành một công cụ mạnh mẽ, phục vụ cho sự phát triển kinh tế và xã hội của đất nước.

Trao biên bản ghi nhớ hợp tác chính thức

AI được hiểu với 2 thành phần chính:
i) Mô hình AI mô phỏng cấu trúc não bộ và cách thức suy nghĩ con người;
ii) Dữ liệu và kiến thức được nạp vào, thông qua huấn luyện “não bộ” đó.
Viện CNTT tự hào là đơn vị đầu tiên ở Việt Nam tiếp cận, triển khai và xây dựng hạ tầng công nghệ AI ở cả 2 thành phần này.

Thứ nhất, với hạ tầng AI/ML tiên tiến hàng đầu Việt Nam, Viện CNTT đã kế thừa mô hình “não bộ” ngôn ngữ lớn của tập đoàn Meta Platform là LLaMA (Large Language Model by Meta AI) version 3.0, tiếp tục tiền huấn luyện với dữ liệu tiếng Việt với qui mô tới 70 tỉ tham số và để nguồn mở cho hệ sinh thái AI tại Việt Nam. Đây là khâu có tính nền tảng cho hệ sinh thái vì tạo ra mô hình ngôn ngữ lớn nền tảng cho tiếng Việt (Foundation LLM).

Thứ hai, để bản địa hóa tạo AI chủ quyền Việt Nam, các não bộ nguồn mở (dù là LLaMA của Meta, DeepSeek hay Qwen của Alibaba Cloud…) đều cần dữ liệu và kiến thức thuần Việt, phù hợp văn hóa, phong tục tập quán và đạo đức của Việt Nam nạp vào. Đây chính là vai trò của Dự án ViGen. Viện CNTT với kinh nghiệm triển khai công nghệ “não bộ” nguồn mở, qui mô lớn đã trở thành đối tác chiến lược công nghệ và hạ tầng hỗ trợ lưu trữ, tính toán cho Dự án ViGen.

Lịch làm việc

Thư viện ảnh

Thư viện Video

Sản phẩm

Hội thảo tham vấn về ViGen – xây dựng bộ dữ liệu mở cho tiếng Việt

Các tin khác