СЕТЬ ПОПАЛА В АРХИВ
Понадобившуюся вам книгу можно найти в библиотеке - документ отыщется в соответствующем архиве. А где найти сайт, который закрылся несколько лет назад?
Как и человеческая жизнь, сеть преходяща, сайты возникают и исчезают. И часто никому до этого нет никакого дела, даже родителям - создателям сайтов. До сих пор идея архивирования Сети казалась безумной и бесполезной. Но ведь существуют же хранилища для информации на "бумажных носителях" - библиотеки, чем Интернет хуже?
Идея архивировать Интернет приходила в голову многим, но воплотить ее в жизнь удалось лишь Брюстру Кайлу - одному из подвижников Интернета, создающему сетевой архив с 1996 года. По его собственным словам, к тому времени он осознал необходимость сохранения "постоянных записей исторически значимых ресурсов для людей". Кайл отлично знал размеры стоящей перед ним задачи, ведь в 1991 году он создал один из краеугольных камней Сети - систему WAIS (Wide Area Information Servers). В прошлом году к пониманию того, что необходимо сохранять хотя бы часть сайтов, пришли и в Британской библиотеке. Но ее специалисты постарались поставить себе чисто локальную задачу, не претендующую на всеохватность, и решают ее привычными им "библиотечными" методами.
В США партнерами Брюстра Кайла стали библиотека конгресса США и Смитсоновский институт. Библиотека конгресса известна тем, что собирает все где-либо издаваемые книги. К архивированию Сети был применен аналогичный принцип. Надо отметить, что в конце 90-х архивировать страницы было значительно проще - большинство из них достаточно просты. Сейчас страницы, как правило, динамические, "собираемые" на сервере отдельно для каждого пользователя. С ними у "архивариуса" возникают проблемы, приходится отсекать формы и скрипты, да и изображения сохраняются далеко не всегда.
По состоянию на октябрь прошлого года было заархивировано 10 миллиардов интернет-страниц, что составило 100 терабайт данных. Каждый месяц к этому прибавляется еще по 10 терабайт. Интернет-архив собирает практически все страницы, что попадаются ему под руку. Если вы заглянете на www.archive.org, то, возможно, найдете и свою домашнюю страничку.
Проект "Домен UK" Британской библиотеки куда более камерный. И возник он из желания сохранить предвыборные баталии, которые достойны своей летописи, в том числе и электронной. Для этих целей было выбрано 79 сайтов, посвященных выборам, которые легли в основу британского интернет-архива. Эта работа - отбор и архивация - была осуществлена практически вручную: британского библиотекаря предпочли американскому роботу. Сейчас принято решение о придании этой системе постоянного статуса, а список избранных увеличен до 10 тысяч сайтов. Впрочем, на расширение архива необходимо дополнительно 600 тысяч фунтов стерлингов. Участники проекта собираются прочесывать раз в полгода избранные сайты и, если сочтут необходимым, архивировать их.
Американский и британский подходы к архивации Интернета демонстрируют полярное отношение к Сети. С одной стороны, ценным объявляется все, даже то, что сегодня нам кажется мусором. С другой стороны, высокообразованные члены общества составляют своеобразные "закладки", за которые не стыдно перед будущими поколениями. Первый путь исключительно "политкорректен", второй опирается на европейское представление о культуре.
Всеобъемлющий архив не только весьма сложная технически и дорогая затея (американским налогоплательщикам она уже обошлась в 100 млн. долларов), но также и недостижимая. В него попадают не все сайты (можно запретить роботу архивировать сайт), а по требованию владельца ресурса он также может быть удален из архива.
Российские специалисты больше склоняются к британскому подходу сохранения Рунета. По мнению технического директора РБК Максима Филамофитского, в Сети слишком много трэша - мусорной информации, которая недостойна централизованного хранения. К "избранным", по его мнению, стоит отнести в первую очередь сетевые СМИ, однако те должны сами позаботиться о том, чтобы их информация попадала в централизованный архив. Здесь прослеживается четкая аналогия с государственной библиотекой: она собирает все официально вышедшие книги, но не ставит перед собой цель собрать рецепты домохозяек или подростковые дневники. Техническая сторона архивирования довольно проста, и новые технологии создания сайтов призваны помочь, а не мешать, как в американском случае. Владелец ресурса, пожелавший передавать с него информацию "на вечное хранение", должен встроить в него специальный код, ориентированный на робота-архивариуса, который позволял бы создавать компактную и удобную для использования базу данных.
Альберт Бертяков, старший консультант Департамента бизнес-консалтинга TopS BI, сравнивает задачу создания интернет-архива с созданием корпоративного хранилища документов, часто называемого также хранилищем знаний или хранилищем контента, а под копированием страниц в такие хранилища - поиск и сохранение в документной базе релевантной информации из открытых онлайновых публикаций. "Главная сложность состоит в оценке соответствия найденного в Интернете документа сфере интересов владельца или организатора базы знаний", - считает он.
Лучше всего решить эту проблему может человек - эксперт в определенной области знаний. Сейчас уже существуют программные системы, относящиеся к так называемой категории knowledge mining ("извлечение" или "добыча" знаний), которые в первом приближении могут проводить анализ документа и на основании заранее сформулированных правил давать оценку соответствия найденного документа более глубоким критериям поиска, чем просто наличие заданных слов.
Пока в России нет даже намеков на создание архива Рунета. Программа "Электронная Россия" не предусматривает этого, да и выделения бюджетных ассигнований на него ждать не стоит (Британская библиотека ожидает сейчас 600 тыс. фунтов стерлингов на расширение своей программы). Однако если проект возникнет, то он будет сочетать в себе британский и американский варианты - архивироваться сайты будут выборочно, но сам процесс в значительной степени будет автоматизирован. Ну а пока сохранение дело Рунета лишь в наших руках, каждый должен сохранить свой маленький кусочек - когда-нибудь да пригодится.
По информации "Итогов", Compulenta.ru, Cnews.ru, HPC.ru
Ведущий рубрики Василий Черный, редактор Анатолий Воронин, e-mail: hi-tech@7days.ru, 14, стр. 74-75, Итоги
09.04.2002
|