Sự Cố Nghiêm Trọng Làm Tê Liệt Server Matrix.org, Hàng Triệu Người Dùng Toàn Cầu Mất Liên Lạc

Tóm tắt sự việc

Sự cố: Server trung tâm Matrix.org ngừng hoạt động hoàn toàn kể từ ngày 2 tháng 9 năm 2025 do lỗi RAID nghiêm trọng.

Quy mô: Hàng triệu người dùng toàn cầu không thể gửi hoặc nhận tin nhắn qua nền tảng nhắn tin phi tập trung này.

Khắc phục: Đội ngũ kỹ thuật đang thực hiện quá trình phục hồi dữ liệu 55TB và replay lại 17 giờ traffic.

Thời gian dự kiến: Dịch vụ có thể mất vài ngày để khôi phục hoàn toàn.

Thiệt hại: Không có dữ liệu bị mất nhưng gián đoạn dịch vụ nghiêm trọng.


Cập nhật liên tục tại: https://mastodon.matrix.org/@matrixhttps://status.matrix.org/


Matrix.org – Nền Tảng Nhắn Tin Phi Tập Trung Quan Trọng Toàn Cầu

Matrix là giao thức nhắn tin mã nguồn mở phi tập trung, cho phép các tổ chức và cá nhân vận hành server riêng nhưng vẫn có thể giao tiếp với nhau. Khác với các ứng dụng nhắn tin truyền thống như WhatsApp hay Telegram chỉ dựa vào một server trung tâm, Matrix hoạt động theo mô hình liên bang tương tự như email.

Ứng dụng phổ biến nhất của giao thức Matrix là Element, một nền tảng nhắn tin tương tự Discord hoặc Slack. Người dùng chính của Matrix bao gồm các chính phủ (Pháp, Đức, Ukraine), doanh nghiệp công nghệ lớn (Mozilla, KDE, Wikimedia Foundation), tổ chức y tế như TI Messenger tại Đức, cộng đồng mã nguồn mở và hàng triệu người dùng cá nhân quan tâm đến quyền riêng tư.

Diễn Biến Chi Tiết Của Sự Cố

Ngày 2 tháng 9, 2025

Sự cố bắt đầu vào lúc 11:17 UTC (18:17 giờ Việt Nam) khi database phụ của Matrix.org mất file system do lỗi RAID. Tình hình tiếp tục xấu đi khi database chính cũng ngừng hoạt động vào lúc 17:26 UTC (00:26 ngày 3/9 giờ Việt Nam).

Matrix Foundation đã chính thức xác nhận sự cố nghiêm trọng chỉ vài phút sau đó thông qua trang status chính thức và các kênh truyền thông xã hội.

Ngày 3 tháng 9, 2025

Ban đầu, đội ngũ kỹ thuật đã cố gắng khôi phục database thông qua bản sao lưu “point-in-time” từ buổi tối hôm trước, nhưng nỗ lực này đã thất bại. Kinh nghiệm từ sự cố tham nhũng PostgreSQL vào tháng 7 năm 2025 đã khiến đội ngũ trở nên cực kỳ thận trọng.

Neil Johnson, Giám đốc Kỹ thuật tại Element, đã giải thích với The Register rằng sự cố bắt đầu từ một bài tập nâng cấp lưu trữ thường lệ đã đi sai hướng. “Một loạt các sự việc đã xảy ra đúng vào thời điểm tồi tệ nhất, dẫn đến tình huống mà chúng ta thấy hiện tại,” ông Johnson cho biết.

Quy Mô Ảnh Hưởng Toàn Cầu

Người Dùng Bị Ảnh Hưởng

Sự cố này đã ảnh hưởng nghiêm trọng đến hàng triệu người dùng trên toàn thế giới sử dụng Matrix.org làm homeserver chính. Các nhóm bị ảnh hưởng bao gồm sinh viên, nhà phát triển phần mềm trong các cộng đồng mã nguồn mở, và các tổ chức nhỏ chưa có homeserver riêng.

Tất cả tin nhắn gửi đến những người dùng Matrix.org hiện đang được xếp hàng chờ và sẽ được gửi khi dịch vụ khôi phục.

Người Dùng Không Bị Ảnh Hưởng

Một trong những ưu điểm của kiến trúc phi tập trung Matrix được thể hiện rõ ràng trong sự cố này. Các tổ chức có homeserver riêng như chính phủ, khách hàng Element Enterprise, TI Messenger trong ngành y tế Đức, và các homeserver tự vận hành của trường đại học đều hoạt động bình thường.

Quá Trình Khắc Phục Phức Tạp

Thử Nghiệm Đầu Tiên Thất Bại

Matrix.org đã từng trải qua một sự cố tham nhũng cơ sở dữ liệu PostgreSQL vào tháng 7 năm 2025, khiến việc tham gia phòng chat và gửi tin nhắn gặp trục trặc. Kinh nghiệm này đã khiến đội ngũ kỹ thuật trở nên cực kỳ cẩn trọng khi khôi phục dữ liệu.

Đội ngũ Matrix.org đã báo cáo: “Chúng tôi không thể khôi phục file system database chính về trạng thái mà chúng tôi tự tin chạy như một database chính, đặc biệt là với kinh nghiệm về tình trạng tham nhũng database PostgreSQL diễn ra từ từ.”

Giải Pháp Toàn Diện

Giải pháp cuối cùng được lựa chọn là khôi phục hoàn toàn từ snapshot 55TB, sau đó replay lại 17 giờ traffic. Tại thời điểm viết bài, đội ngũ đã hoàn thành việc khôi phục snapshot và các bản sao lưu tăng dần, và đang chuẩn bị thực hiện replay traffic.

Tác Động Và Ý Nghĩa

Chứng Minh Ưu Điểm Hệ Thống Phi Tập Trung

Mặc dù gây ra sự cố nghiêm trọng, tình huống này đã chứng minh một cách rõ ràng những ưu điểm của kiến trúc phi tập trung. Một homeserver ngừng hoạt động, dù quan trọng như Matrix.org, không ảnh hưởng đến toàn bộ mạng lưới.

Sự cố này đã làm nổi bật tầm quan trọng của việc các tổ chức đầu tư vào homeserver riêng để đảm bảo tự chủ và không phụ thuộc vào một nhà cung cấp duy nhất.

Bài Học Về Cơ Sở Hạ Tầng

Sự cố đã lộ ra những điểm yếu trong chiến lược backup và monitoring của Matrix.org. Tuy nhiên, Johnson đã đảm bảo rằng sẽ không có dữ liệu nào bị mất và cuối cùng tất cả tin nhắn sẽ được gửi đi.

Matrix Trong Bối Cảnh Toàn Cầu

Matrix đang trở thành tiêu chuẩn mới cho giao tiếp bảo mật, với Ukraine sử dụng Element cho quân đội, Pháp triển khai cho toàn bộ công chức, và Đức áp dụng trong y tế và giáo dục. Liên minh châu Âu cũng đang cân nhắc việc chọn Matrix làm giao thức giao tiếp chính thức.

Khuyến Nghị Và Tương Lai

Cho Người Dùng

Người dùng hiện tại được khuyến nghị kiên nhẫn chờ đợi việc khôi phục dịch vụ. Về lâu dài, việc cân nhắc sử dụng homeserver riêng hoặc của tổ chức có thể giúp tránh phụ thuộc hoàn toàn vào Matrix.org.

Cho Các Tổ Chức

Sự cố này nhấn mạnh tầm quan trọng của việc đầu tư vào homeserver riêng để đảm bảo tự chủ và kiểm soát dữ liệu. Các tổ chức cũng nên có chiến lược liên bang và không phụ thuộc hoàn toàn vào một nhà cung cấp.

Cho Matrix Foundation

Tổ chức cần cải thiện hệ thống backup redundancy, phân tán database ra nhiều vị trí địa lý, và nâng cấp hệ thống giám sát để phát hiện sớm các vấn đề tiềm ẩn.

Thông Tin Cập Nhật

Matrix Foundation đang cung cấp thông tin cập nhật thường xuyên thông qua trang status chính thức tại https://status.matrix.org/ và tài khoản Mastodon tại https://mastodon.matrix.org/@matrix.

Dịch vụ dự kiến sẽ được khôi phục hoàn toàn trong vài ngày tới, với cam kết không có dữ liệu nào bị mất trong quá trình này.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *