Trong thời đại công nghệ số, trí tuệ nhân tạo (AI) đang góp phần ngày càng rõ rệt hơn vào cách mạng hóa nghiên cứu khoa học, đặc biệt trong lĩnh vực sinh học phân tử và kỹ thuật protein.
Một trong những bước tiến vượt bậc được ghi nhận gần đây là nghiên cứu do TS Thomas Hayes và các cộng sự thực hiện. Nghiên cứu bao gồm việc sử dụng mô hình ngôn ngữ AI tạo sinh ESM3 để mô phỏng tiến hóa sinh học kéo dài 500 triệu năm.
Thành quả của nghiên cứu đã tạo ra một protein phát quang hoàn toàn mới, có thể mở ra kỷ nguyên mới cho các ứng dụng khoa học và công nghệ.
AI tạo ra đột phá trong kỹ thuật protein
Về cơ bản, ESM3 là một mô hình ngôn ngữ AI tạo sinh đa phương thức, được thiết kế để xử lý và tích hợp thông tin từ trình tự, cấu trúc và chức năng protein.
Tuy nhiên, không giống như các mô hình trước đây chỉ tập trung vào trình tự protein, ESM3 sử dụng bảng chữ cái mã hóa các đặc tính của protein, từ đó cung cấp khả năng “tư duy” toàn diện hơn.
Nhờ đó, nghiên cứu đã thành công tạo ra một protein phát quang với trình tự di truyền hoàn toàn khác biệt so với bất kỳ protein phát quang nào đã biết trước đây.
Điều này tương tự như việc AI mô phỏng hàng trăm triệu năm tiến hóa tự nhiên để tìm ra các giải pháp mới. Tại đó, không gian protein là một “vũ trụ” khổng lồ với vô số khả năng, và cách tiếp cận của ESM3 giúp khám phá những góc khuất của vũ trụ này nhanh hơn, hiệu quả hơn.
Theo nhóm nghiên cứu, ESM3 được huấn luyện trên dữ liệu khổng lồ bao gồm 3,15 tỷ trình tự protein, 236 triệu cấu trúc protein, và 539 triệu protein có chú thích chức năng. Kết quả, dữ liệu cho ra 771 tỷ đoạn mã riêng biệt, với khả năng xử lý lên đến 98 tỷ tham số.
Đáng chú ý, ESM3 đã được phát hành công khai dưới dạng beta thông qua API. Điều này cho phép các nhà khoa học sử dụng hệ thống để thiết kế protein một cách tự do theo nhiều mục đích khác nhau.
Ứng dụng thực tế và khả năng tiếp cận
Protein phát quang mới do ESM3 tạo ra không chỉ là minh chứng cho khả năng của mô hình này, mà còn mở ra các ứng dụng thực tế đa dạng.
Điển hình như trong y học, protein phát quang có thể được sử dụng làm công cụ chẩn đoán hoặc điều trị. Trong lĩnh vực môi trường, chúng có thể được ứng dụng trong việc theo dõi và xử lý các chất ô nhiễm.
Nghiên cứu này cũng cho thấy tiềm năng của AI trong việc thúc đẩy các giới hạn khoa học. Khả năng tích hợp các công cụ này vào các dự án nghiên cứu cũng mang đến nhiều lợi ích, như không chỉ tiết kiệm thời gian mà còn tối ưu hóa kết quả, giảm chi phí phát triển và đẩy nhanh quá trình đưa các giải pháp khoa học vào ứng dụng thực tế.
Các nhà nghiên cứu kỳ vọng, trong tương lai, sự kết hợp giữa AI và sinh học có thể giúp giải quyết các thách thức toàn cầu, từ bệnh tật, ô nhiễm môi trường đến an ninh lương thực.