СЕТЬ ПОПАЛА В АРХИВ
Понадобившуюся вам книгу можно найти в библиотеке - документ отыщется в соответствующем архиве. А где найти сайт, который закрылся несколько лет назад?
Как и человеческая жизнь, сеть преходяща, сайты возникают и исчезают. И часто никому до этого нет никакого дела, даже родителям - создателям сайтов. До сих пор идея архивирования Сети казалась безумной и бесполезной. Но ведь существуют же хранилища для информации на "бумажных носителях" - библиотеки, чем Интернет хуже?
Идея архивировать Интернет приходила в голову многим, но воплотить ее в жизнь удалось лишь Брюстру Кайлу - одному из подвижников Интернета, создающему сетевой архив с 1996 года. По его собственным словам, к тому времени он осознал необходимость сохранения "постоянных записей исторически значимых ресурсов для людей". Кайл отлично знал размеры стоящей перед ним задачи, ведь в 1991 году он создал один из краеугольных камней Сети - систему WAIS (Wide Area Information Servers). В прошлом году к пониманию того, что необходимо сохранять хотя бы часть сайтов, пришли и в Британской библиотеке. Но ее специалисты постарались поставить себе чисто локальную задачу, не претендующую на всеохватность, и решают ее привычными им "библиотечными" методами. В США партнерами Брюстра Кайла стали библиотека конгресса США и Смитсоновский институт. Библиотека конгресса известна тем, что собирает все где-либо издаваемые книги. К архивированию Сети был применен аналогичный принцип. Надо отметить, что в конце 90-х архивировать страницы было значительно проще - большинство из них достаточно просты. Сейчас страницы, как правило, динамические, "собираемые" на сервере отдельно для каждого пользователя. С ними у "архивариуса" возникают проблемы, приходится отсекать формы и скрипты, да и изображения сохраняются далеко не всегда. По состоянию на октябрь прошлого года было заархивировано 10 миллиардов интернет-страниц, что составило 100 терабайт данных. Каждый месяц к этому прибавляется еще по 10 терабайт. Интернет-архив собирает практически все страницы, что попадаются ему под руку. Если вы заглянете на www.archive.org, то, возможно, найдете и свою домашнюю страничку. Проект "Домен UK" Британской библиотеки куда более камерный. И возник он из желания сохранить предвыборные баталии, которые достойны своей летописи, в том числе и электронной. Для этих целей было выбрано 79 сайтов, посвященных выборам, которые легли в основу британского интернет-архива. Эта работа - отбор и архивация - была осуществлена практически вручную: британского библиотекаря предпочли американскому роботу. Сейчас принято решение о придании этой системе постоянного статуса, а список избранных увеличен до 10 тысяч сайтов. Впрочем, на расширение архива необходимо дополнительно 600 тысяч фунтов стерлингов. Участники проекта собираются прочесывать раз в полгода избранные сайты и, если сочтут необходимым, архивировать их. Американский и британский подходы к архивации Интернета демонстрируют полярное отношение к Сети. С одной стороны, ценным объявляется все, даже то, что сегодня нам кажется мусором. С другой стороны, высокообразованные члены общества составляют своеобразные "закладки", за которые не стыдно перед будущими поколениями. Первый путь исключительно "политкорректен", второй опирается на европейское представление о культуре. Всеобъемлющий архив не только весьма сложная технически и дорогая затея (американским налогоплательщикам она уже обошлась в 100 млн. долларов), но также и недостижимая. В него попадают не все сайты (можно запретить роботу архивировать сайт), а по требованию владельца ресурса он также может быть удален из архива. Российские специалисты больше склоняются к британскому подходу сохранения Рунета. По мнению технического директора РБК Максима Филамофитского, в Сети слишком много трэша - мусорной информации, которая недостойна централизованного хранения. К "избранным", по его мнению, стоит отнести в первую очередь сетевые СМИ, однако те должны сами позаботиться о том, чтобы их информация попадала в централизованный архив. Здесь прослеживается четкая аналогия с государственной библиотекой: она собирает все официально вышедшие книги, но не ставит перед собой цель собрать рецепты домохозяек или подростковые дневники. Техническая сторона архивирования довольно проста, и новые технологии создания сайтов призваны помочь, а не мешать, как в американском случае. Владелец ресурса, пожелавший передавать с него информацию "на вечное хранение", должен встроить в него специальный код, ориентированный на робота-архивариуса, который позволял бы создавать компактную и удобную для использования базу данных. Альберт Бертяков, cтарший консультант Департамента бизнес-консалтинга TopS BI, сравнивает задачу создания интернет-архива с созданием корпоративного хранилища документов, часто называемого также хранилищем знаний или хранилищем контента, а под копированием страниц в такие хранилища - поиск и сохранение в документной базе релевантной информации из открытых онлайновых публикаций. "Главная сложность состоит в оценке соответствия найденного в Интернете документа сфере интересов владельца или организатора базы знаний", - считает он. Лучше всего решить эту проблему может человек - эксперт в определенной области знаний. Сейчас уже существуют программные системы, относящиеся к так называемой категории knowledge mining ("извлечение" или "добыча" знаний), которые в первом приближении могут проводить анализ документа и на основании заранее сформулированных правил давать оценку соответствия найденного документа более глубоким критериям поиска, чем просто наличие заданных слов. Пока в России нет даже намеков на создание архива Рунета. Программа "Электронная Россия" не предусматривает этого, да и выделения бюджетных ассигнований на него ждать не стоит (Британская библиотека ожидает сейчас 600 тыс. фунтов стерлингов на расширение своей программы). Однако если проект возникнет, то он будет сочетать в себе британский и американский варианты - архивироваться сайты будут выборочно, но сам процесс в значительной степени будет автоматизирован. Ну а пока сохранение дело Рунета лишь в наших руках, каждый должен сохранить свой маленький кусочек - когда-нибудь да пригодится. Ведущий рубрики Василий Черный, редактор Анатолий Воронин, е-mail: hi-tech@7days.ru По информации "Итогов", Compulenta.ru, Cnews.ru, HPC.ru
ВРЕЗ: ONLINE IBM объявила о заключении стратегического альянса с компаниями Sony и Toshiba. В ближайшие 4 года IBM должна разработать высокопроизводительные чипы с низким энергопотреблением, рассчитанные на использование в бытовых устройствах. Также эти компании заявили о разработке операционной системы для домашних пользователей. В Новосибирске началась коммерческая эксплуатация Novosoft Mobile Instant Messenger (MIM), этот сервис позволяет владельцам сотовых телефонов обмениваться сообщениями с пользователями ICQ. Агентство Масми (Москва) объявило о результатах исследования "Интернет Монитор". В частности, выявлено, что за второе полугодие 2001 года аудитория Интернета повзрослела и к тому же значительно увеличилось число женщин-пользователей. Проведенные исследования показали, что Xbox и GameCube не смогут догнать Sony Playstation 2 по числу проданных приставок по крайней мере до 2005 года, когда на рынке должно появиться очередное поколение игровых консолей. По данным международной маркетинговой компании GfK, 42 процента карманных компьютеров, проданных в Европе в декабре и январе, принадлежит Palm, Inc. В предыдущем периоде доля КПК с брэндом Palm составляла 37,6 процента. Также Palm готовит к выходу пятую версию своей операционный системы, скриншот которой приведен ниже.
No. 14 (304), Журнал "Итоги"
08.04.2002
|