Internet sẽ tồn tại vĩnh viễn?
Trong thời đại kỹ thuật số ngày nay, nhiều người vẫn có quan niệm rằng thông tin trên internet sẽ tồn tại vĩnh viễn. Tuy nhiên, một nghiên cứu mới của Trung tâm Nghiên cứu Pew đã phá vỡ quan niệm này, chỉ ra rằng internet ngày càng trở nên nhất thời hơn.
Thống kê đáng báo động
Theo báo cáo của Pew về "sự xuống cấp kỹ thuật số", 38% các trang web hiện hữu vào năm 2013 không còn có thể truy cập được vào tháng 10/2023. Thậm chí, một phần tư số trang web tồn tại trong giai đoạn đó đã hoàn toàn biến mất. Nghiên cứu dựa trên mẫu gần một triệu trang do tổ chức lưu trữ phi lợi nhuận Common Crawl ghi lại.
Trung tâm nghiên cứu Pew phân tích một lựa chọn ngẫu nhiên các URL được thu thập bởi kho lưu trữ web Common Crawl (n = 999,989) và kiểm tra bằng mã phản hồi trang và DNS. Các trang web được định nghĩa là không thể truy cập nếu chúng trả về mã trạng thái 204. 400, 404 410, 500. 501, 502, 503, 523 hoặc không trả lại mã trạng thái hợp lệ "Khi nội dung trực tuyến biến mất". Nguồn: Trung tâm nghiên cứu Pew
Sự suy giảm chất lượng thông tin "Sự xuống cấp kỹ thuật số" này đã làm giảm đáng kể tính hữu ích của các trang tin tức, chính phủ và Wikipedia. Cụ thể, 21% trang web chính phủ, 23% trang tin tức có ít nhất một liên kết bị hỏng. Tỷ lệ trang Wikipedia bằng tiếng Anh có liên kết hỏng trong phần tài liệu tham khảo lên tới 54%.
Vấn đề của Twitter (X)
Ngoài website, tình trạng này còn trầm trọng hơn trên nền tảng mạng xã hội Twitter (vào thời điểm khảo sát). Trong số 4,8 triệu tweet được Pew thu thập từ ngày 8/3 đến 27/4/2022, 18% không còn hiển thị công khai sau 2 tháng rưỡi. Nguyên nhân chủ yếu là do các tài khoản đằng sau bị ẩn hoặc xóa.
Đáng chú ý, các tweet bằng tiếng Thổ Nhĩ Kỳ và Ả Rập có tỷ lệ biến mất cao hơn, lần lượt là 49% và 42% trong thời gian nghiên cứu. Ngay cả những tweet từ tài khoản có tiểu sử hay ảnh đại diện mặc định cũng dễ bị xóa hơn.
Tuy nhiên, báo cáo cũng ghi nhận 6% tweet biến mất rồi lại xuất hiện trở lại trên không gian công khai, do chủ tài khoản chuyển đổi qua lại giữa chế độ công khai và riêng tư hoặc vì Twitter khôi phục lại tài khoản.
Tại sao chuyện này đang xảy ra?
Báo cáo ngắn của Pew không đề cập lý do tại sao có quá nhiều nội dung biến mất nhanh chóng như vậy, nhưng có thể thấy một lượng lớn thông tin mất đi vì hai lý do phổ biến: Ấn phẩm chuyển sang hệ thống quản lý nội dung mới mà không duy trì các liên kết được tạo theo CMS cũ hoặc bản thân ấn phẩm sẽ ngừng hoạt động.
Đôi khi, một trang tin tức đóng cửa hoặc đình chỉ hoạt động một cách đột ngột, điều này khiến các nhà báo mới bị thất nghiệp phải vật lộn để chia sẻ công việc của họ với các nhà tuyển dụng tiềm năng trong tương lai.
Trước thực trạng "xuống cấp kỹ thuật số", các kho lưu trữ web như Common Crawl và Internet Archive đóng vai trò quan trọng khi có thể cung cấp bản sao của những trang web đã bị xóa. Nhiều bài viết trên Wikipedia cũng chỉ đến cả liên kết gốc và bản sao trên Internet Archive để đảm bảo khả năng truy cập lâu dài.
Internet Archive còn lưu trữ các tweet, giúp người dùng có thể duyệt lại những nội dung đã biến mất, chẳng hạn như các tweet của tài khoản @ElonJet chia sẻ dữ liệu chuyến bay của máy bay riêng của Elon Musk. Người dùng cũng có thể tải về kho lưu trữ tweet của mình từ X và đăng tải lên các nền tảng lưu trữ để đảm bảo khả năng truy cập trong tương lai.
Có thể nói, nghiên cứu của Pew đặt ra một thực tế đáng suy ngẫm rằng internet không phải là nơi lưu trữ thông tin vĩnh viễn. Sự ra đi của các trang web và nội dung mạng xã hội cho thấy tầm quan trọng của việc lưu trữ thông tin số một cách an toàn và bền vững hơn trong tương lai.
Theo tạp chí Điện tử và Ứng dụng