Зачем Спектр Работы процесс Вообще Заказ Карта сайта Почта

«Электронная Россия: проблемы и перспективы»
Интернет-конференция

Обзор публикаций СМИ о ФЦП «Электронная Россия»


СЕТЬ ПОПАЛА В АРХИВ

Понадобившуюся вам книгу можно найти в библиотеке - документ отыщется в соответствующем архиве. А где найти сайт, который закрылся несколько лет назад?

Как и человеческая жизнь, сеть преходяща, сайты возникают и исчезают. И часто никому до этого нет никакого дела, даже родителям - создателям сайтов. До сих пор идея архивирования Сети казалась безумной и бесполезной. Но ведь существуют же хранилища для информации на "бумажных носителях" - библиотеки, чем Интернет хуже?

Идея архивировать Интернет приходила в голову многим, но воплотить ее в жизнь удалось лишь Брюстру Кайлу - одному из подвижников Интернета, создающему сетевой архив с 1996 года. По его собственным словам, к тому времени он осознал необходимость сохранения "постоянных записей исторически значимых ресурсов для людей". Кайл отлично знал размеры стоящей перед ним задачи, ведь в 1991 году он создал один из краеугольных камней Сети - систему WAIS (Wide Area Information Servers). В прошлом году к пониманию того, что необходимо сохранять хотя бы часть сайтов, пришли и в Британской библиотеке. Но ее специалисты постарались поставить себе чисто локальную задачу, не претендующую на всеохватность, и решают ее привычными им "библиотечными" методами.

В США партнерами Брюстра Кайла стали библиотека конгресса США и Смитсоновский институт. Библиотека конгресса известна тем, что собирает все где-либо издаваемые книги. К архивированию Сети был применен аналогичный принцип. Надо отметить, что в конце 90-х архивировать страницы было значительно проще - большинство из них достаточно просты. Сейчас страницы, как правило, динамические, "собираемые" на сервере отдельно для каждого пользователя. С ними у "архивариуса" возникают проблемы, приходится отсекать формы и скрипты, да и изображения сохраняются далеко не всегда.

По состоянию на октябрь прошлого года было заархивировано 10 миллиардов интернет-страниц, что составило 100 терабайт данных. Каждый месяц к этому прибавляется еще по 10 терабайт. Интернет-архив собирает практически все страницы, что попадаются ему под руку. Если вы заглянете на www.archive.org, то, возможно, найдете и свою домашнюю страничку.

Проект "Домен UK" Британской библиотеки куда более камерный. И возник он из желания сохранить предвыборные баталии, которые достойны своей летописи, в том числе и электронной. Для этих целей было выбрано 79 сайтов, посвященных выборам, которые легли в основу британского интернет-архива. Эта работа - отбор и архивация - была осуществлена практически вручную: британского библиотекаря предпочли американскому роботу. Сейчас принято решение о придании этой системе постоянного статуса, а список избранных увеличен до 10 тысяч сайтов. Впрочем, на расширение архива необходимо дополнительно 600 тысяч фунтов стерлингов. Участники проекта собираются прочесывать раз в полгода избранные сайты и, если сочтут необходимым, архивировать их.

Американский и британский подходы к архивации Интернета демонстрируют полярное отношение к Сети. С одной стороны, ценным объявляется все, даже то, что сегодня нам кажется мусором. С другой стороны, высокообразованные члены общества составляют своеобразные "закладки", за которые не стыдно перед будущими поколениями. Первый путь исключительно "политкорректен", второй опирается на европейское представление о культуре.

Всеобъемлющий архив не только весьма сложная технически и дорогая затея (американским налогоплательщикам она уже обошлась в 100 млн. долларов), но также и недостижимая. В него попадают не все сайты (можно запретить роботу архивировать сайт), а по требованию владельца ресурса он также может быть удален из архива.

Российские специалисты больше склоняются к британскому подходу сохранения Рунета. По мнению технического директора РБК Максима Филамофитского, в Сети слишком много трэша - мусорной информации, которая недостойна централизованного хранения. К "избранным", по его мнению, стоит отнести в первую очередь сетевые СМИ, однако те должны сами позаботиться о том, чтобы их информация попадала в централизованный архив. Здесь прослеживается четкая аналогия с государственной библиотекой: она собирает все официально вышедшие книги, но не ставит перед собой цель собрать рецепты домохозяек или подростковые дневники. Техническая сторона архивирования довольно проста, и новые технологии создания сайтов призваны помочь, а не мешать, как в американском случае. Владелец ресурса, пожелавший передавать с него информацию "на вечное хранение", должен встроить в него специальный код, ориентированный на робота-архивариуса, который позволял бы создавать компактную и удобную для использования базу данных.

Альберт Бертяков, старший консультант Департамента бизнес-консалтинга TopS BI, сравнивает задачу создания интернет-архива с созданием корпоративного хранилища документов, часто называемого также хранилищем знаний или хранилищем контента, а под копированием страниц в такие хранилища - поиск и сохранение в документной базе релевантной информации из открытых онлайновых публикаций. "Главная сложность состоит в оценке соответствия найденного в Интернете документа сфере интересов владельца или организатора базы знаний", - считает он.

Лучше всего решить эту проблему может человек - эксперт в определенной области знаний. Сейчас уже существуют программные системы, относящиеся к так называемой категории knowledge mining ("извлечение" или "добыча" знаний), которые в первом приближении могут проводить анализ документа и на основании заранее сформулированных правил давать оценку соответствия найденного документа более глубоким критериям поиска, чем просто наличие заданных слов.

Пока в России нет даже намеков на создание архива Рунета. Программа "Электронная Россия" не предусматривает этого, да и выделения бюджетных ассигнований на него ждать не стоит (Британская библиотека ожидает сейчас 600 тыс. фунтов стерлингов на расширение своей программы). Однако если проект возникнет, то он будет сочетать в себе британский и американский варианты - архивироваться сайты будут выборочно, но сам процесс в значительной степени будет автоматизирован. Ну а пока сохранение дело Рунета лишь в наших руках, каждый должен сохранить свой маленький кусочек - когда-нибудь да пригодится.

По информации "Итогов", Compulenta.ru, Cnews.ru, HPC.ru


Ведущий рубрики Василий Черный, редактор Анатолий Воронин, e-mail: hi-tech@7days.ru, 14, стр. 74-75, Итоги
09.04.2002
Материалы по теме:
Конференция
Минсвязи России
ФЦП «Электронная Россия»
Текст ФЦП
Биография Короткова А.В.
СМИ о ФЦП «Электронная Россия»
Eiioa?aioee:
Eoeei A.I. Oiieiiii?aiiiai ii i?aaai ?aeiaaea a ?O
Eoeeia A.I.
28.05.2004
Iieoaa?aiei A.N. Iieiiii?iiai i?aanoaaeoaey I?aceaaioa ?O a OOI
Iieoaa?aiei A.N.
28.05.2004
Iaeeiaa E.I. I?aanaaaoaey OAN II
Iaeeiaie E.I.
03.03.2004
?eiaeaa A.O. I?aanaaaoaey AAN ?O
?eiaeaaa A.O.
19.02.2004
Ii?icia A.I. Ieieno?a iooae niiauaiey ?O
Ii?iciaa A.I.
27.01.2004
?oeia A.A. I?aanaaaoaey Eiieoaoa ii a?a?aoo e iaeiaai AA ?O
?oeiaa A.A.
04.12.2003
Ci?ueei A.A. I?aanaaaoaey Eiinoeoooeiiiiai Noaa ?O
Ci?ueeia A.A.
26.11.2003
Aoeaaa A.E. Ieieno?a ?O ii iaeiaai e nai?ai
Aoeaaaa A.E.
11.11.2003
Iaioeeiaa Y.A. I?aanaaaoaey Eiiennee ii i?aaai ?aeiaaea i?e
I?aceaaioa ?O
Iaioeeiaie Y.A.
04.11.2003
Aca?ia ?. O. Noaon-nae?aoa?y - caianoeoaey i?aanaaaoaey AOE
Aca?iaa ?.O.
30.09.2003
Einoeeia E. A. I?aanaaaoaey OEOA
Einoeeiaa E.A.
26.08.2003
Naaiaie?ee A.A. ?aeoi?a IAO
Naaiaie?aai A.A.
29.05.2003
Nae N. E. ?oeiaiaeoaey ?incaieaaano?a
Nay N.E.
28.05.2003
O?aoeeiaa O.E. ?oeiaiaeoaey ONOI ?innee
O?aoeeiaie O.E.
20.05.2003
Nieieei  A.E. I?aanaaaoaey Aineiinoaoa ?innee
Nieieeia A.E.
14.05.2003
Eaaaaaa  A.I. I?aanaaaoaey Aa?oiaiiai noaa ?O
Eaaaaaaa A.I.
13.05.2003

  Ana eiioa?aioee »
Минсвязи России
Рамблер
НПП Гарант-Сервис
Гарант-Интернет
Журнал Законодательство

Rating@Mail.ru

© 2001-2002 Гарант-Интернет
Воспроизведение (целиком или частями) материалов сайта www.garweb.ru
допускается только со ссылкой на источник информации