Ngày 25/12/2023, Câu lạc Nhà báo Khoa học và Công nghệ Việt Nam đã long trọng tổ chức công bố 10 sự kiện khoa học công nghệ nổi bật trong năm 2023 thuộc các lĩnh vực cơ chế chính sách, khoa học tự nhiên, khoa học xã hội và nhân văn, khoa học ứng dụng, tôn vinh nhà khoa học và hợp tác quốc tế. Điểm đặc biệt trong năm nay là sự đánh giá ghi nhận của Ban Tổ chức đối với phần mềm “Ứng dụng mô hình ngôn ngữ lớn trong phần mềm dịch ngôn ngữ hiếm” của Phòng Khoa học Dữ liệu và Ứng dụng - Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam được vinh dự đứng trong danh sách top 10 sự kiện lần này.
Nguyên nhân của sự ra đời phần mềm “Ứng dụng mô hình ngôn ngữ lớn trong phần mềm dịch ngôn ngữ hiếm”
Đối với bài toán dịch ngôn ngữ tự động, chất lượng của các phần mềm thương mại và dịch vụ số như Google Translate, được đánh giá khá cao. Tuy nhiên chúng chủ yếu dịch những câu đơn lẻ và ngắn. Đối với yêu cầu dịch một đoạn văn bản dài kết hợp tham chiếu ngữ cảnh thực tế, những phần mềm này lại chưa đáp ứng được kỳ vọng của người dùng. Ngoài ra, những sản phẩm dịch thuật thương mại yêu cầu khách hàng phải trả tiền theo thời gian sử dụng thực tiễn hoặc theo số lượng câu dịch cụ thể. Chất lượng văn bản dịch cũng rất tốt đối với những ngôn ngữ giàu tài nguyên được số hóa như tiếng Anh, tiếng Pháp, tiếng Trung… Tuy nhiên với những cặp ngôn ngữ hiếm, nghèo tài nguyên như Việt - Lào, Việt - Khmer, Việt - Thái, Việt - Malaysia và Việt – Indonesia thì hầu như chưa có phần mềm dịch tự động nào làm được. Thêm một vấn đề nữa là hệ thống dịch tự động được sử dụng phổ biến nhất là khả năng thích ứng miền chuyên biệt (domain-specific). Chúng có thể dịch tốt cho miền ngôn ngữ chung, phổ thông phục vụ đại chúng (general public) nhưng chất lượng dịch rất kém trong các miền ngôn ngữ mang tính chuyên môn như y tế, luật pháp, an ninh…
Xuất phát từ mong muốn cho ra đời một sản phẩm có trí tuệ của người Việt - "Made in Viet Nam", tiếp cận và làm chủ được các tiến bộ mới nhất của lĩnh vực trí tuệ nhân tạo (AI) là công nghệ trí tuệ nhân tạo tạo sinh (Generative AI) cùng mô hình ngôn ngữ lớn (LLMs – Large Language Models) từ sự xuất hiện của ChatGPT do OpenAI phát triển, nhóm nghiên cứu thuộc Phòng Khoa học Dữ Liệu & Ứng dụng, trực thuộc Viện Công nghệ thông tin gồm các chuyên gia như: PGS. TS. Nguyễn Việt Anh, ThS. Đào Quang Toàn, ThS. Bùi Minh Thành, ThS. Vũ Thị Nhạn, ThS. Vũ Thị Lan Anh… đã chung tay nghiên cứu và cho ra đời phần mềm dịch ngôn ngữ lấy tiếng Việt làm trung tâm. Phần mềm có khả năng dịch thuật hai chiều giữa tiếng Việt và các ngôn ngữ khác, trong đó, bước đầu nghiên cứu và ứng dụng thành công đối với các ngôn ngữ nghèo tài nguyên của khu vực Đông Nam Á với chất lượng tương đương với các sản phẩm dịch thuật thương mại nổi tiếng trên thế giới.
Để có thể thử nghiệm mô hình AI dùng cho dịch 2 chiều, với số lượng cặp câu tương ứng giữa 2 ngôn ngữ rất lớn, năng lực tính toán phải rất mạnh để có thể tiền huấn luyện (Pre-trained Transformer), đạt được mô hình thô ban đầu với dữ liệu ngôn ngữ lớn. Dựa trên hạ tầng tính toán AI Cloud Data Center mạnh nhất Việt Nam hiện nay với dòng chip Nvidia GPU A100 80GB, vấn đề dữ liệu lớn của quá trình tiền xử lý mô hình AI trở nên đơn giản và nhanh chóng cho ra kết quả mô hình thô này. Đây là công đoạn vất vả và khó khăn nhất, chi phí lớn nhất đối với công nghệ AI nói chung, Generative AI nói riêng. Từ mô hình thô có được trong quá trình tiền huấn luyện, các kỹ thuật tinh chỉnh mô hình, cắt tỉa và tối ưu tính toán để cho mô hình nhỏ gọn lại mà vẫn đảm bảo độ chính xác được nhóm nghiên cứu bổ sung, phù hợp với đặc thù của mỗi cặp ngôn ngữ cần dịch 2 chiều. Quá trình tinh chỉnh mô hình do vậy không cần năng lực tính toán quá mạnh. Dù vậy, chip A100 cũng hỗ trợ đắc lực cho nhóm nghiên cứu thử nghiệm, triển khai và đánh giá hiệu quả cho nhiều giải pháp kỹ thuật tinh chỉnh mô hình một cách nhanh chóng và hiệu quả; cũng như tích hợp lên dịch vụ đám mây (Cloud-based service) cho khách hàng trải nghiệm và sử dụng.
Lãnh đạo Viện CNTT trong buổi lễ công bố 10 sư kiện KHCN nổi bật năm 2023
Những kỳ vọng mà phần mềm hướng tới
PGS. TS. Nguyễn Việt Anh trưởng nhóm nghiên cứu cho biết, kiến trúc tổng thể của hệ thống dịch máy dựa trên công nghệ Transformer hiện đại. Để cho ra kết quả dịch chuẩn xác nhất, nhóm nghiên cứu đã áp dụng rất nhiều kỹ thuật khác nhau để làm giàu bộ dữ liệu. Bao gồm kỹ thuật dịch ngược (back-translation), kỹ thuật học chuyển giao, kỹ thuật xoay trục (pivoting) xung quanh một ngôn ngữ phổ biến, …
Một kỹ thuật rất tiên tiến khác nữa cũng được áp dụng để cải thiện chất lượng dịch. Đó là mô hình được huấn luyện đồng thời cho nhiều cặp ngôn ngữ. Các ngôn ngữ giàu tài nguyên được huấn luyện trước, sau đó "tri thức" ngôn ngữ sẽ được chuyển giao cho các ngôn ngữ nghèo tài nguyên, từ đó sẽ giúp cải tiến hiệu suất của mô hình dịch cho các ngôn ngữ này.
PGS. TS. Nguyễn Việt Anh cũng chia sẻ thêm: Mô hình dịch này được xây dựng dựa trên mô hình Pre-trained thường có kích thước rất lớn. Do đó cần nhiều tài nguyên tính toán như bộ nhớ RAM, chip GPU kết hợp bộ vi xử lý CPU phục vụ tính toán AI/ML khi triển khai thực tế. Trong mô hình GPT (Generative Pre-trained Transformer), hệ thống dịch ngôn ngữ của Viện CNTT có khoảng 40 tỷ tham số. Như một phần tham khảo, phiên bản ChatGPT của OpenAI ra đời cuối năm 2022 sử dụng mô hình GPT-3.5 có khoảng 175 tỷ tham số.
Mô hình dịch ngôn ngữ có qui mô rất lớn có thể ảnh hưởng tới tốc độ thực thi mô hình (execution) trên môi trường có năng lực tính toán hạn chế. Do vậy, việc tối ưu mô hình thông qua một số kỹ thuật như lượng tử hóa trong số (weights quantization), dung hòa các lớp nút mạng nơ-ron trong mô hình (layers fusion), sắp xếp thứ tự xử lý các thành phần của câu đầu vào (batch reordering),… để tăng tốc độ thực thi và giảm bộ nhớ sử dụng trên CPU và GPU.
Dù độ phức tạp của tham số giữa 2 mô hình chỉ cách nhau khoảng 4 lần (175 tỷ/40 tỷ), thách thức công nghệ và chi phí vận hành đối với 2 bài toán khác nhau vô cùng lớn. Dung lượng dữ liệu của ChatGPT lớn hơn nhiều so với dữ liệu của mô hình dịch ngôn ngữ của Viện CNTT. Do đó, hạ tầng tính toán để ChatGPT tiền huấn luyện mô hình với dữ liệu của họ theo số liệu công khai có qui mô gấp khoảng 200 lần hệ thống siêu tính toán AI/ML tại Viện CNTT. Chưa kể, thời gian để huấn luyện ra được mô hình thô của ChatGPT đòi hỏi hệ thống chạy liên tục vài tháng liền trên hạ tầng đó. Do đó, chi phí vận hành của OpenAI cho ChatGPT là hàng triệu USD/ngày (bao gồm chi phí đầu tư hạ tầng cực lớn, chi phí nhân lực và năng lượng để vận hành hệ thống). Việc này là khả thi với sự hỗ trợ tài chính và hạ tầng tính toán từ tập đoàn Microsoft.
Dựa trên kết quả khả quan về công nghệ và hạ tầng tính toán AI/ML, phần mềm dịch đa ngôn ngữ này được kỳ vọng sẽ cải tiến, tối ưu giải pháp công nghệ để hướng tới nhóm ngôn ngữ thậm chí “vô cùng nghèo” tài nguyên là ngôn ngữ của cộng đồng các dân tộc thiểu số tại Việt Nam.