Không ai nghĩ được rằng một mạng xã hội với quy mô như Facebook lại có thể “sập”. Ấy vậy mà vào lúc 22h30 ngày hôm qua (theo giờ Việt Nam), Facebook kèm theo hàng loạt dịch vụ khác như Messenger, Instagram hay WhatsApp đã đồng loạt ngừng hoạt động và không thể truy cập. Đặc biệt, sự cố này không chỉ xảy ra trong giây lát, mà nó đã kéo dài tới gần 7 giờ đồng hồ. Điều này đã gây ảnh hưởng nghiêm trọng tới người dùng trên toàn thế giới.
Vậy, rốt cục thì chuyện gì đã xảy ra?
Mặc dù Facebook không công bố lý do cụ thể tại sao hệ thống của mình gặp vấn đề, nhưng các chuyên gia tại CloudFlare đã đưa ra một bài giải thích tương đối chi tiết. Nói về CloudFlare, đây là một công ty trong lĩnh vực mạng lưới phân phối nội dung (CDN), nổi tiếng với gói dịch vụ cho phép các website có thể vận hành ngay cả trong trường hợp bị tấn công hay máy chủ gặp vấn đề. Ngoài ra, CloudFlare cũng đang vận hành DNS 1.1.1.1 và công cụ VPN WARP+.
BGP: Cốt lõi khiến Facebook gặp vấn đề
Bản chất của mạng Internet là việc kết nối một chiếc máy tính này với một chiếc máy tính khác. Ví dụ, khi bạn truy cập vào Facebook, bạn đang kết nối máy tính của mình với máy chủ của Facebook để trao đổi dữ liệu. Quá trình chiếc máy tính của bạn “tìm đường” đến máy chủ Facebook được gọi là định tuyến (routing).
BGP, viết tắt của Border Gateway Protocol, là một cơ chế giúp cho các hệ thống mạng lớn có thể trao đổi thông tin định tuyến. Các router (bộ định tuyến) lớn trên thế giới đều có một danh sách thường xuyên được cập nhật về những “đường đi” dành cho các gói tin. Hãy tưởng tượng nó giống như một tấm bản đồ chỉ dẫn khi bạn đang lạc lối ở trong một trung tâm thương mại rộng lớn vậy.
BGP giống như một tấm bản đồ chỉ dẫn mà bạn thường gặp ở các trung tâm thương mại
Và ở thời điểm Facebook sập, đội ngũ của CloudFlare đã nhận thấy BGP của Facebook đã được cập nhật để loại bỏ các định tuyến đến máy chủ của dịch vụ này. Nó giống như việc tấm bản đồ ở trung tâm thương mại bị gỡ bỏ, và hàng loạt người kéo đến nhưng không biết đi đâu. Nói một cách khác, Facebook đã biến mất khỏi Internet.
BGP của Facebook được cập nhật định tuyến ở thời điểm mạng xã hội này gặp trục trặc
Chính việc BGP của Facebook gặp trục trặc đã khiến cho DNS (Domain Name Resolver), hay Hệ thống phân giải tên miền, không thể hoàn thành nhiệm vụ của nó là chuyển tên miền facebook.com thành địa chỉ IP. Trong trường hợp bạn chưa biết, DNS có nhiệm vụ phân giải địa chỉ tên miền như facebook.com trở thành địa chỉ IP của máy chủ, như 157.240.211.35. Do BGP của Facebook không còn khả năng định tuyến, vậy nên nó khiến cho DNS thất bại trong việc tìm ra địa chỉ IP của Facebook.
Vậy tại sao BGP của Facebook lại sập?
Đến đây, bạn đã hiểu về BGP và cơ chế hoạt động của chúng. Nhưng, rốt cục tại sao BGP của Facebook lại gặp vấn đề? Chẳng phải Facebook có một đội ngũ rất chuyên nghiệp hay sao?
Trên Reddit, một người dùng tự xưng là đang làm việc trong đội ngũ xử lý sự cố của Facebook đã đưa ra một vài thông tin “behind the scene” về vụ việc này.
Cụ thể, anh này cho biết BGP của Facebook gặp vấn đề sau một thay đổi cấu hình hệ thống. Thế nhưng, vấn đề của hệ thống mạng của Facebook nghiêm trọng tới mức nó không thể giải quyết được bằng quản lý từ xa, mà yêu cầu các admin phải có mặt trực tiếp tại datacenter.
Thế nhưng, những người đang “trực” tại datacenter của Facebook lại không đủ kiến thức và quyền hạn để khắc phục sự cố. Vì vậy, các kỹ sư của Facebook đã tốn nhiều thời gian hơn thường lệ để đưa các dịch vụ của hãng này quay trở lại hoạt động. Được biết, Facebook đã tiến hành cắt giảm đội ngũ trực tại datacenter do ảnh hưởng của dịch COVID-19.
Sau khi tiết lộ những thông tin trên, tài khoản Reddit của người dùng này đã bị xoá.