Dự án ViGen là dự án trọng điểm thuộc Chương trình Thách thức đổi mới sáng tạo 2025 do Tập đoàn Meta phối hợp cùng Trung tâm Đổi mới sáng tạo Quốc Gia (NIC), Bộ Tài chính tổ chức. Dự án khởi nguồn từ sự hợp tác ba bên giữa Tập đoàn Meta, NIC và Tổ chức “AI for VietNam”. Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam cùng NVIDIA, Viettel là những đối tác chiến lược trong việc triển khai dự án.
Dự án ViGen khởi nguồn từ hợp tác ba bên giữa Tập đoàn Meta, Trung tâm Đổi mới Sáng tạo Quốc gia (NIC) và Quỹ Trí tuệ Nhân tạo cho Việt Nam (AI for Vietnam Foundation - AIV). Trong đó, AIV là đối tác triển khai dự án với những hỗ trợ về kỹ thuật và tài chính từ Tập đoàn Meta. NIC đóng vai trò là đơn vị chủ quản, điều phối và, bảo đảm dự án phù hợp chiến lược với các mục tiêu quốc gia của Việt Nam. Các đối tác khác bao gồm Tập đoàn NVIDIA và Viện Công nghệ thông tin (Viện Hàn lâm Khoa học và Công nghệ Việt Nam).
Dự án ViGen được thiết kế để thúc đẩy sự phát triển AI tại Việt Nam và mở ra các ứng dụng AI mang tính đột phá nhằm thúc đẩy tăng trưởng kinh tế và nâng cao chất lượng cuộc sống của người dân. Thông qua việc xây dựng một hệ sinh thái đa dạng gồm các bộ dữ liệu và công cụ nguồn mở chất lượng cao dành cho việc huấn luyện và đánh giá các mô hình AI, dự án bảo đảm rằng các hệ thống AI có thể hiểu và tạo ra nội dung bằng tiếng Việt một cách tự nhiên trong mọi lĩnh vực, từ giao tiếp hàng ngày đến các ứng dụng mang tính tiên tiến, chuyên sâu.
Trong buổi họp báo giới thiệu chương trình diễn ra sáng ngày 14/3/2025, PGS. TS. Nguyễn Trường Thắng, Viện trưởng Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công nghệ Việt Nam cho biết hiện nay chỉ một số ít mô hình AI nền tảng được công bố bởi vài tập đoàn công nghệ lớn vì họ có đủ tiềm lực tài chính, hạ tầng siêu tính toán AI và các mô hình ngôn ngữ lớn (Large Language Model – LLMs) để huấn luyện các bộ dữ liệu cực lớn. Một số ví dụ điển hình như: Chat GPT (Open AI), Gemini (Google), Grok (xAI) hay LLaMA (Meta); và gần đây là DeepSeek (Trung Quốc). Tuy nhiên, hầu hết các mô hình này là nguồn đóng, có bản quyền - không cho phép chúng ta tùy chỉnh mô hình LLM (não bộ trong các công cụ AI này) cũng như phần lớn các dữ liệu đều bằng tiếng Anh. LLaMA được Meta cung cấp dưới dạng nguồn mở - Chúng ta có thể tùy chỉnh “não bộ” này và huấn luyện lại nó với các bộ dữ liệu chuyên biệt của tiếng Việt nhằm nâng cao thiên hướng tiếng Việt của công cụ AI này. Viện CNTT là đơn vị sở hữu hạ tầng siêu tính toán AI mạnh hàng đầu Việt Nam với dòng chip tiên tiến Nvidia GPU A100 80GB. Với hạ tầng này, Viện CNTT đã chủ động tùy chỉnh LLaMA 3.0 và 3.1 với qui mô lớn nhất được triển khai tại Việt Nam (70 tỉ tham số - 70B) nhằm huấn luyện thêm tiếng Việt cho LLaMA trong năm 2023-2024. Kinh nghiệm của Viện CNTT trong vận hành nền tảng công nghệ chip AI của Nvidia, huấn luyện mô hình LLaMA qui mô trung bình (70B) với ngữ liệu tiếng Việt là duy nhất tại Việt Nam. Mối quan hệ hợp tác công nghệ giữa Viện CNTT và các tập đoàn Nvidia, Meta được làm sâu sắc trong các chuyến công tác tới trụ sở các tập đoàn này tại Silicon Valley trong giai đoạn 2023-2024. Đây là cơ sở để Meta, NIC và Nvidia tiếp nhận Viện CNTT là đối tác chiến lược trong Dự án ViGen.
Lễ khởi động Dự án ViGen với đại diện các đối tác chiến lược (PGS. TS. Nguyễn Trường Thắng – Viện trưởng Viện CNTT – thứ hai từ phải qua)
Thông tin chi tiết về Dự án ViGen có tại các đường link:
Các chuyến thăm làm việc tại trụ sở Nvidia và Meta Platforms có tại đây: