Nhằm thúc đẩy việc tạo lập, sử dụng và khai thác dữ liệu khoa học và công nghệ mở cũng như khuyến khích sự quan tâm và tham gia của các nhà nghiên cứu trong việc chia sẻ dữ liệu khoa học và công nghệ dùng chung, ngày 21/6/2022 tại TP. Hồ Chí Minh, Cục Thông tin KH&CN quốc gia phối hợp với Viện Công nghệ thông tin, Viện Hàn Lâm khoa học và công nghệ Việt Nam, Viện Nghiên cứu dữ liệu lớn, Quỹ Đổi mới sáng tạo VinGroup tổ chức Hội thảo " Dữ liệu nghiên cứu mở phục vụ chia sẻ, dùng chung trong kỷ nguyên số". Tham dự Hội thảo có ông Trần Đắc Hiến, Cục trưởng Cục Thông tin KH&CN quốc gia, ông Nguyễn Long Giang, Phó viện trưởng Viện CNTT, Viện Hàn Lâm khoa học và công nghệ Việt Nam và trên 50 đại biểu là các nhà khoa học trong nhiều lĩnh vực khác nhau đến từ các viện nghiên cứu, trường đại học trên cả nước.
Phát biểu khai mạc Hội thảo, ông Trần Đắc Hiến nêu tổng quan về hiện trạng chia sẻ dữ liệu nghiên cứu tại Việt Nam trong xu thế bùng nổ về dữ liệu nhanh chóng trong nước cũng như quốc tế. Trong đó, ông nhấn mạnh đến việc sử dụng nguồn dữ liệu trung gian trong quá trình nghiên cứu còn đang bị bỏ ngỏ. Ông nêu ra các đánh giá và mong muốn nhận được các đóng góp ý kiến cũng như sự tham gia của cộng đồng nghiên cứu khoa học.
Ông Trần Đắc Hiến, Cục trưởng Cục Thông tin KH&CN quốc gia, phát biểu khai mạc Hội thảo
Tiếp đến, ông Đào Mạnh Thắng, Phó Cục trưởng Cục Thông tin KH&CN quốc gia có tham luận về hiện trạng chia sẻ, dùng chung dữ liệu nghiên cứu mở từ góc độ của cơ quan quản lý. Mỗi năm, ngành khoa học và công nghệ đã đầu tư kinh phí không nhỏ để thực hiện các nhiệm vụ khoa học và công nghệ. Kết quả từ các nghiên cứu đã phần nào thay đổi diện mạo trong đời sống kinh tế-xã hội, tuy nhiên việc thu thập, quản lý, lưu giữ và công bố thông tin về các nhiệm vụ khoa học và công nghệ nói chung, các nhiệm vụ khoa học và công nghệ sử dụng ngân sách nói riêng còn nhiều hạn chế.
Ông Đào Mạnh Thắng, Phó Cục trưởng Cục Thông tin KH&CN quốc gia, trình bày tham luận tại Hội thảo
Theo ông Đào Mạnh Thắng, hiện nay các dữ liệu thu thập được chỉ thể hiện dưới dạng thuyết minh nhiệm vụ, bài báo đăng tạp chí, tham luận tại các hội nghị, hội thảo, các báo cáo kết quả nghiên cứu đều chỉ ở dạng text thông thường. Đó mới là thành quả cuối cùng được công bố trong quá trình nghiên cứu, còn lại tất cả các dữ liệu trung gian bao gồm: số liệu điều tra, khảo sát, thu thập phát sinh trong quá trình nghiên cứu, các file ảnh, video, các thí nghiệm thực tế, các mô hình quan trắc, các mã nguồn, ứng dụng mẫu trong CNTT… hầu hết đều chưa được nhắc tới và chưa thu thập được. Ông cũng đưa ra đề xuất phát triển các ứng dụng lưu trữ và khai phá dữ liệu phát sinh trong quá trình nghiên cứu, tạo cơ sở thiết lập hạng tầng chia sẻ dữ liệu mở nhằm cung cấp thông tin khoa học công nghệ một cách công khai, minh bạch, hiệu quả cho toàn xã hội.
PSG.TS. Bùi Thu Lâm, học viện Kỹ thuật Mật mã chia sẻ chủ đề Hiện trạng chia sẻ, dùng chung dữ liệu nghiên cứu ở Việt Nam. Ông cho biết: Việt Nam đã đạt được một số kết quả bước đầu về xây dựng hạ tầng dữ liệu, các cơ sở dữ liệu quốc gia đang được tạo lập rất mạnh mẽ. Tuy nhiên nhìn chung hạ tầng dữ liệu còn chưa đồng bộ, rời rạc, nguồn dữ liệu mở còn hạn chế. Chưa có hạ tầng dữ liệu quốc gia kết nối, liên thông, chia sẻ cho cộng đồng tổ chức, cá nhân, doanh nghiệp phục vụ nghiên cứu, phát triển. Hơn nữa, dữ liệu chưa đồng nhất, chưa đồng bộ, chất lượng dữ liệu chưa cao.
PGS.TS. Thoại Nam, Đại học Quốc gia TP. Hồ Chí Minh: chia sẻ dữ liệu là chìa khóa cho thành công. Ông giới thiệu một số ví dụ và các bài toán về chia sẻ dữ liệu nghiên cứu, cũng như Kinh nghiệm của HPC Lab – ĐHBK-ĐHQG-HCM trong việc triển khai Lab và dự án Làng Thông Minh (Smart Village)
Nền tảng quản trị dữ liệu nghiên cứu mở phục vụ chia sẻ, dùng chung
Là diễn giả trong phiên báo cáo, TS. Đinh Văn Dũng, Viện CNTT, ĐHQG HN có bài chia sẻ về Nền tảng quản trị dữ liệu nghiên cứu khoa học và công nghệ mở phục vụ chia sẻ, dùng chung ở quy mô quốc gia. Ông cho rằng cách thức chia sẻ dữ liệu theo kiểu cũ thu hút được ít dữ liệu. Liệu chúng ta có thể làm được một nền tảng ảo hóa, có tốc độ xử lý rất nhanh một luồng dữ liệu lớn, phát sinh liên tục.
Ông Trần Đắc Hiến, Cục trưởng Cục thông tin KH&CN quốc gia, giải đáp các thắc mắc của đại biểu: khó khăn nhất của việc tạo lập dữ liệu là sự chia sẻ.
TS. Võ Sỹ Nam, VinBigData&Genestory giới thiệu hệ thống lưu trữ dữ liệu Gene của VinBigData và cách thức kết nối, chia sẻ dữ liệu Gene với hệ thống chia sẻ dữ liệu nghiên cứu mở.
Sang đến phần thảo luận, các diễn giả nhận được nhiều câu hỏi, chia sẻ từ các đại biểu.
Các nhà nghiên cứu đặt câu hỏi về chia sẻ và khai thác dữ liệu nghiên cứu. TS. Nguyễn Thị Hương, ĐH KHXH&NV chia sẻ về nguồn dữ liệu nghiên cứu tại cơ sở và mong muốn tham gia chia sẻ dữ liệu
Ông Đào Mạnh Thắng giải đáp thắc mắc về nền tảng và cách thức chia sẻ dữ liệu nghiên cứu của Cục thông tin