"Dự báo Fulbright" và sự liêm chính trong ngành khoa học

Vào đầu tháng 7, khi tình hình dịch bệnh ở TP HCM đang có dấu hiệu phức tạp, với số ca nhiễm trong cộng đồng liên tục tăng cao, một thông tin đã được nhiều báo chí đăng tải, đó là 2 nhóm nghiên cứu của Đại học Fulbright và nhóm nghiên cứu Tech4Covid dự báo dịch đã gần đạt đỉnh vào cuối tháng 6, đầu tháng 7, và sẽ kết thúc vào cuối tháng 8.

Diễn biến của dịch bệnh suốt gần 2 tháng qua đã chứng minh dự báo này sai một cách trầm trọng, nó sai tới mức thậm chí không thể coi là một dự báo đúng nghĩa theo tiêu chuẩn khoa học, dù cố hạ thấp tiêu chuẩn đó tới đâu.

Cụ thể, nhóm Fulbright dự báo tới đầu tháng 8 chỉ còn rải rác vài ca/ngày nếu thực hiện nghiêm chỉ thị 10. Sau gần 1 tháng của deadline, tới ngày 24 tháng 8, số ca nhiễm ở TP HCM vẫn ở mức 4.627 ca, dù đã liên tiếp tăng mức siết chặt các biện pháp từ chỉ thị 16, giờ giới nghiêm, thậm chí đưa quân đội vào hỗ trợ chống dịch.

Đáng chú ý, sau đó, tiến sĩ Vũ Thành Tự Anh - người đứng đầu nhóm Fulbright, đã lên Facebook giải thích rằng đây không phải dự báo của Fulbright, mà là của 2 nhóm độc lập của 2 đại học bên Úc. Tuy nhiên ngay trên fanpage của Đại học Fulbright vào ngày 2/7, đơn vị này thừa nhận đây chính là nghiên cứu của nhóm Fulbright (bài viết này hiện đã bị xoá khỏi fanpage Fulbright, nhưng vẫn còn lưu trên Google cache và có thể xem lại bằng vài thủ thuật đơn giản).

Sẽ không phải vấn đề to tát gì, nếu tiến sĩ Tự Anh không nằm trong Tổ tư vấn chính sách phòng dịch, chống dịch của TP HCM với vai trò tổ trưởng. Trong 8 thành viên của tổ tư vấn, có tới 3 người đến từ Đại học Fulbright. “Dự báo Fulbright” có lẽ không chỉ đơn thuần là một thảm hoạ khoa học đáng hổ thẹn, mà nó còn liên quan tới sự liêm chính đối với những người làm khoa học, vì với sự bất nhất trong các tuyên bố trên Facebook, thì hoặc tiến sĩ Tự Anh, hoặc trường Fulbright, đã nói sai sự thật.

Tất nhiên có thể lý giải cho sự sai lệch khủng khiếp của kết quả dự báo là do dữ liệu đầu vào thiếu chính xác vì hạn chế trong xét nghiệm hoặc chậm cập nhật lên hệ thống, tuy nhiên khoa học thống kê từ khi ra đời đã tính tới sự bất cập này. Theo quan điểm tần số luận của Quetelet, các chênh lệch đơn giản được xử lý như là sai số. Thống kê hiện đại là kết quả của sự hợp nhất những thực tiễn khoa học và hành chính, mà các mô hình dự báo chính là những phái sinh của ngành xác suất thống kê. Các mô hình đều có độ nhiễu, và độ nhiễu đó trong tập dữ liệu quan sát, chính là một phần của khoa học dự báo.

Trong một bài thi trắc nghiệm, có các thuật toán để loại bỏ những tờ được “khoanh bừa”, trong một cuộc điều tra, có những quy tắc rất khắt khe trong chọn mẫu để đảm bảo tính khách quan. Trong khoa học dữ liệu, xử lý các điểm ngoại lai (outliners) là bước bắt buộc trước khi chạy bất kỳ mô hình nào trên SPSS.

Người làm những công việc liên quan tới số liệu, thống kê có một câu nằm lòng: “Garbage in means garbage out”, cho số liệu “rác” vào đầu vào thì sẽ nhận “rác” ở đầu ra. Vì thế xử lý số liệu (hay làm sạch data) là công việc đầu tiên phải làm, và nó hoàn toàn là trách nhiệm của người dùng số liệu để đưa ra các mô hình dự báo.

Không thể đổ lỗi cho số liệu kém khả tín để biện minh cho việc dự báo bị sai lệch, điều này cũng giống như một đầu bếp đổ cho món bít tết có mùi lạ vì thịt bò do chính tay mình chọn không được tươi ngon. Là người đứng đầu một trường đại học về Hành chính công, sẽ rất ngạc nhiên nếu tiến sĩ Tự Anh cùng nhóm nghiên cứu của mình không biết về những điều này.

Công cụ để dự báo dịch bệnh là các mô hình toán dịch tễ, nó nhất quán từ khi Bernoulli đề xuất năm 1776 cho đến nay, các mô hình cải tiến đều phải dựa trên nền tảng đó.

Từ Mỹ và châu Âu, cho đến Ấn Độ, Trung Quốc, Singapore hay nhiều quốc gia khác, khi dự báo dịch đều xây dựng các mô hình toán học rất hiện đại chạy trên máy tính, nhưng vẫn phải dựa vào mô hình SIR kinh điển, chưa một nhà khoa học nào thoát ra khỏi công cụ này.

Dự báo có thể đúng, có thể sai, nhưng cơ sở khoa học để dự báo thì bắt buộc phải theo nguyên tắc, đến thời điểm hiện tại chưa có phương pháp nào khác.

Không biết nhóm tư vấn đã sử dụng thuật toán nào, vì đọc các báo cáo không hề thấy toát lên có sử dụng thuật toán của mô hình SIR, không thấy các nội dung mang tính dịch tễ; mà chỉ thấy vài biểu đồ và đồ thị của hàm số tuyến tính đơn giản. Với những gì đã thể hiện ở báo cáo của Fulbright, thì người có chút kiến thức toán và chút kiến thức dịch tễ học, ngay từ đầu, không khó để nhận ra dự báo sẽ xảy ra sai sót lớn, thậm chí là nghiêm trọng.

Bất kể viện lý do gì, nhóm nghiên cứu Fulbright đã thất bại hoàn toàn trong việc dự báo một vấn đề sinh tử đối với người dân TP HCM, và ít nhất, họ nợ người dân thành phố này một lời xin lỗi. Chúng ta đều biết không thể thắng cuộc chiến này mà không có sự giúp sức của khoa học, nhưng cần phải làm gì, khi khoa học thoát ly khỏi sự độc lập, duy lý, phi vụ lợi và liêm chính, thậm chí đôi khi, có kết quả dự báo sai với thực tế hơn 1000 lần?