Скачивание сайта программой WGET

    Независимые исследования. Трансцендентальная медитация. Программа Сидхи.
      Литература
        Техническая информация

 <<Ранее   
 

Техническая информация

Скачивание сайта программой WGET

 

 О чем здесь вообще идет речь

Если вы работаете с интернетом через телефон, то вам будет удобнее скачать сайт к себе на компьютер, отключиться от сети и потом в спокойной оффлайновой обстановке, долгими зимними вечерами его изучить. Особенно это касается библиотеки.

Далее мы попробуем разобраться, как это можно сделать ценой относительно малой крови.

 Трагедия «чайника»

О, конечно, как я вас понимаю. Почти на всех сайтах, когда вы кликаете на картинку "Скачать всю книгу", то получаете ее в архивированном виде. Мы сталкивались с подобным решением настолько часто, что уже успели привыкнуть считать это единственно правильным решением. Осознавая это, я понимаю, что скорее всего огорчу вас, ибо - ЗДЕСЬ ВСЕ БУДЕТ ИНАЧЕ! Увы, но мы не можем себе позволить, формируя сайт, закачивать одну и ту же информацию по нескольку раз, пусть даже и в архивном виде. Зато мы можем дать вам небольшую программку, которая умеет качественно делать локальную копию с любого сайта в интернете (или почти любого). Однако, она, будучи для вас абсолютно новой, потребует времени и внимания, чтобы вам к ней привыкнуть и с ней подружиться.

 Утешение «чайника»

Понимая те сложности (скорее психологические, чем технические), с которыми вам предстоит столкнуться, мне тут подумалось максимально упростить ваше первое знакомство с этой программкой. Хотя, возможно, это все равно будет сложнее, чем скачать архив, но, надеюсь, все же довольно просто (по крайней мере вам не придется изучать архиваторы ;-) ).

 Это надо сделать только в самый первый раз

Для начала, скачайте мини-дистрибутив программы Wget (296 Кб). БЕЗ ЭТОЙ ПРОГРАММЫ ВСЕ ОПИСАННОЕ ДАЛЕЕ РАБОТАТЬ НЕ БУДЕТ. Если впоследствии вы захотите получше разобраться, как эта программа работает, чтобы ее использовать, то документацию на английском можно найти здесь (120 Кб).

Скачав файл программы, его надо запустить (это еще часто называется "Открыть файл" или "Запустить файл"). Программа молча установится на ваш компьютер. Может даже показаться, что ничего не произошло. (Информация для особенно любопытных - это будет каталог <Диск>:\Program Files\unx\, где <Диск> - это ваш системный диск, на котором установлена Windows.).

 Как скачивать информацию с данного сайта

Это делается довольно просто. Вкратце это звучит так: кликнув на коробку с бантиков, вы можете скачать файл с расширением BAT. Запустив его (точно так же как все остальные программы) вы инициируете закачку выбранной части сайта в каталог, где этот батник находится.

Далее расписываем по шагам:

  1. Определитесь, в каком каталоге вы хотите сохранить копию сайта;
  2. Когда вы кликаете на коробку с бантиком, и вылетает окошо, жмите кнопку "ОК";
  3. Браузер предложит сохранить или открыть файл, с расширением BAT. Этот файл будет управлять скачкой. Говорим ему "Сохранить" и выбираем каталог, определенный в п.1;
  4. Когда файл сохранится (очень быстро), откройте этот каталог любой из программ (проводник, far, нортон командер и т.п.);
  5. Запустите этот файл, как если бы он был программой (программа wget на этот момент должна уже быть установлена). Например в проводнике по нему надо дважды щелкнуть мышкой;
  6. Начнется закачка сайта/книги. По окончании вы получите уведомление о завершении.
  7. Если все прошло хорошо, то вы увидите каталог tm-sidhi.narod.ru. В нем находятся файлы и подкаталоги сайта;
  8. Если есть ошибки, то посмотрите файл wget.log, который лежит там же, где и BAT-файл см.п.1; попробуйте разобраться;
  9. Если ничего не получается, то пришите письма - адреса на сайте.
  10. Ну, а если все получилось, то самое время отключиться от интернета, и приступить к чтению.

Фуф 8-)

Прошу прощения за въедливось, но опыт показал, очень многие даже весьма умные люди не понимают часто самых простых вещей. Поэтому пришлось говорить не о простом, а о примитивном.

 Ааааааааа!!! У меня ничего не получается!

Хотя мне и трудно представить, ЧТО тут может не получиться, но люди все разные, и опыт тоже разный. Самое лучшее, что можно сделать в такой ситуации - это прислать письмо, в котором описать: что вы сделали, что ожидали увидеть, и что получилось. Обязательно пришлите мне файл wget.log, который будет лежать там же, где и скаченный файл. Мы попробуем разобраться, решить задачу и подправить этот текст, чтобы вслед-идущим было проще. Самым неконструктивным из всех возможных действий будет обидеться, молчать, ничего не делать, а заодно предоставить всем остальным наступать на те же грабли.

 А как мне теперь все таки скачать книжечку?

Если вы только что пытались скачать часть сайта, то просто вернитесь на страницу и повторите попытку. Только на этот раз нажмите кнопку "ОК". И помните о том, что только что прочитали.

 Краткая информация о программе Wget (не для «чайников»)

Программа wget.exe предназначена для того, чтобы без вашего особого участия скачивать большие количества файлов из интернета. Внизу предложены два варианта ее использования на данном сайте (хотя существуют еще десятки других): с помощью первого можно выкачать весь сайт; и с помощью второго можно выкачать избранную книгу из библиотеки. В последнем случае, укажите страницу оглавления выбранной вами книги. Выполнять эту команду надо из каталога на вашем компьютере, в который вы хотите выкачать сайт. По оканчании в файле wget.log будет находится информация о том, какие страницы были закачены, и какие ошибки возникли в процессе. Если эти варианты выкачки вас по каким-либо причинам не устраивают, то прочтите описание флагов и попробуйте самостоятельно придумать, как настроить работу этой программы под вашу задачу (предпочтительно) или пишите - разберемся вместе.

Для того, чтобы полностью скачать сайт, используйте следующую команду (здесь и далее, сайт будет скачан в каталог, из которого программа была запущена):

wget.exe -c -p -r -l0 -np -N -k -nv http://tm-sidhi.narod.ru/tm/index.html 2>wget.log

Если нужно скачать не весь сайт, а только какую-то его часть (в данном случае книгу "Дао Пуха"), то используйте такую команду:

wget.exe -c -p -r -l1 -np -N -k -nv http://tm-sidhi.narod.ru/tm/library/pooh/index.html 2>wget.log

Если вы работаете с интернетом через прокси сервер или через FireWall, то к списку указанных опций (перед адресом страницы) надо добавить еще и такие:

--proxy-user=xxx --proxy-passwd=yyy --execute="http_proxy=server:port"
Где ххх - это логин (если нужен)
yyy - это пароль для данного логина (если нужен)
server - имя прокси сервера или FireWall-а (узнать у администратора)
port - порт, через который работает прокси сервер или FireWall (узнать у администратора)

Страницы сайта будут выкачены с банерами. Если вы хотите от них избавиться, то из выкаченных файлов надо удалить все что стоит до строки "<!-- Начало страницы tm-sidhi.narod.ru -->" и все, что стоит после строки "<!-- Конец страницы tm-sidhi.narod.ru -->". Процесс удаления может быть автоматизирован (если вам позволяет это сделать ваш опыт), и здесь не рассматривается.

Информация для любознательных:
-cДополучать частично полученные файлы (если был обрыв связи во время предудущей закачки).
-pПолучить картинки, звуки и другие объекты для выкаченных страниц.
-rПолучать также страницы, на которые ссылаются выкаченные страницы (начиная от указанной).
-l0Получать все страницы в приделах сайта (при условии, что их можно получить идя по линкам начиная от указанной страницы).
-l1Получать только те и только те страницы, на которые ссылается указанная страница (указанная страница получается всегда).
-l2Получать только те, на которые ссылается указанная страница и страницы, на которые ссылаются эти страницы.
-l3Получать страницы на 3 уровня вглубь и т.п.
-npФильтр. Получать только те файлы, которые находятся в каталоге первой страницы и его подкаталогах. Из-за этого флага будут закачены не все картинки, но если его убрать, то придется скачивать сразу весь сайт.
-NПолучать файлы только, если они позднее датой, чем уже имеющиеся. С помощью этого флага можно обновлять вашу локальную версию сайта. Выкачиваться будут только изменения с момента последней закачки (даже, если изменился только дизайн).
-kСделать все абсолютные пути относительными (с помощью каталога ".." (перейти на уровень выше). Иначе будет нельзя воспользоваться меню внизу страницы.
-nvВ журнал пишется краткая информация об обработанных страницах.
-hВыдать список всех флагов с объяснением их назначения (пример сохранения в файл help.txt ==> wget -h >help.txt)

 <<Ранее   
 

[В начало] [Помоги себе сам] [Литература] [Исследования] [Разное] [Карта сайта] [Поиск] [А поговорить!] [Гостевая книга] [Наши друзья] [Контакты]



     
Сайт создан в системе uCoz