وبسایت Internet Archive که یکی از حیاتیترین کتابخانهها در فضای سایبری است به دستاوردی رسیده که حتی تصورش هم دشوار است. پس از نزدیک به ۳۰ سال تلاش طاقتفرسا، این نهاد غیرانتفاعی توانسته یک تریلیونمین صفحه وب خود را بایگانی کند. به گزارش Popsci، این لحظه، نقطه عطفی مهم در تاریخ تلاشهای حفاظت دیجیتال به...
وبسایت Internet Archive که یکی از حیاتیترین کتابخانهها در فضای سایبری است به دستاوردی رسیده که حتی تصورش هم دشوار است. پس از نزدیک به ۳۰ سال تلاش طاقتفرسا، این نهاد غیرانتفاعی توانسته یک تریلیونمین صفحه وب خود را بایگانی کند.
«کانال تلگرام اخبار جدید را حتما دنبال کنید»
به گزارش Popsci، این لحظه، نقطه عطفی مهم در تاریخ تلاشهای حفاظت دیجیتال به شمار میرود؛ بهویژه در زمانی که اینترنت هم به بخشی جداییناپذیر از زندگی روزمره تبدیل و هم بهطور فزایندهای ناپایدار شده و پیمایش آن دشوار است. اینترنت مزایای زیادی دارد، اما ماندگاری هرگز یکی از آنها نبوده است.
محتوای دیجیتال ذاتاً زودگذر است و معمولاً تنها تا زمانی باقی میماند که کسی مایل به نگهداری آن باشد. در سال ۲۰۱۹، MySpace که زمانی یکی از محبوبترین شبکههای اجتماعی اولیه اینترنت بود اعلام کرد یک خطای پیشبینینشده در انتقال سرورها باعث شد تمام آپلودهای کاربران بین سالهای ۲۰۰۳ تا ۲۰۱۵ بهطور تصادفی حذف شود. در یک شب، حدود ۵۰ میلیون آهنگ از ۱۴ میلیون هنرمند در فضای مجازی ناپدید شد.

وبسایت Internet Archive تلاش میکند از تکرار چنین لحظاتی جلوگیری کند. این سازمان از سال ۱۹۹۶ در پی ایجاد «یک مرجع دائمی از تکامل اینترنت» بوده است؛ عمدتاً از طریق استفاده از خزندههای وب که تا حد امکان وبسایتهای عمومی را شناسایی و ذخیره میکنند. داوطلبان نیز با بارگذاری نسخههای چاپی، موسیقیها و فایلهای صوتی کمیاب و دیگر قالبهای رسانهای در این فرایند مشارکت دارند.
پس از نزدیک به سه دهه، این آرشیو بیش از ۸۶۶ میلیارد صفحه وب، ۴۱ میلیون متن و میلیونها شکل دیگر از محتوای دیجیتال را ذخیره کرده است. در مجموع، روزانه حدود ۵۰۰ میلیون وبسایت جدید به آن افزوده میشود و تاکنون حدود ۱۰۰ هزار ترابایت اطلاعات گردآوری شده است؛ حجمی معادل پر کردن کامل حافظه ۵۰ هزار آیفون ردهبالای موجود در بازار.
Internet Archive با فشارهای فزایندهای از سوی وب جهانیِ بهسرعت در حال تغییر است. شرکتهای فناوری که برای آموزش سامانههای هوش مصنوعی با یکدیگر رقابت میکنند، در حال جستوجوی گسترده در فضای آنلاین برای یافتن مجموعهدادههای جدید هستند. در نتیجه، بسیاری از شرکتهای بزرگ رسانهای از جمله نیویورکتایمز و گاردین محتوای جدیدتر خود را از دسترس آرشیو خارج نگه میدارند تا از استفاده آن در سامانههای هوش مصنوعی مولد جلوگیری کنند.