Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
||
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[18.224.39.32] |
|
Сообщ.
#1
,
|
|
|
Здравствуйте, Господа!
Не знаю где создать подобную тему, потому сунул ее сюда. Если ей тут не место - модеры, извините. Собственно, получил от начальства вводную: вытащить целиком почивший сайт. http://web.archive.org/web/20121126153752/....linertrade.ru/ Его нужно скачать целиком, что бы можно было запихнуть в... например в Апач. Крайне желательно, что бы нормализовались все ссылки, что бы не было следов от WebArchive. Бился с wget (Linux), но что-то не выходит. Мне нужно скачать последний сейв, а wget качает все сейвы. Пробовал кучу разных програм, но выходит ерунда. Господа, подскажите, пожалуйста, чем и как все это выкачать? |
Сообщ.
#2
,
|
|
|
...раньше помогал offline explorer, уровень вложенности можно задавать.
Цитата а это уже к качалке не относится. что бы не было следов от WebArchive |
Сообщ.
#3
,
|
|
|
Цитата raxp @ ...раньше помогал offline explorer teleport еще был |
Сообщ.
#4
,
|
|
|
Offlain Explorer, Teleport Pro, еще какие-то невнятные качалки с задачей не справились.
Лучше всех справился wget. Кто бы сомневался... Другое дело, что wget не понимает разумной достаточности. Вместо архива за конкретную дату он льет все. Мало того, он не брезгует и соседние архивы сайтов прихватить. Нужно вовремя его останавливать. Еще не приятный момент: слитый сайт с web.archeive.org придется очень капитально редактировать. Все ссылки придется нормализовывать. Нужно написать соответствующий скрипт и натравить на архив. В противном случае, придется каждую ссылку редактировать вручную. |
Сообщ.
#5
,
|
|
|
...не надо ля-ля, все качалки работают приблизительно одинаково. А про редактирование в конечном итоге вам уже намекал, что к качалкам это не относится, им что подсунул, то и качают с заданным уровнем вложенности.
Цитата что как раз и говорит о его невнятности. то wget не понимает разумной достаточности |
Сообщ.
#6
,
|
|
|
Скажите как правильно ввести команду "wget", чтобы скачать сайт?
Пробовал несколько вариантов, что-то несколько файлов скачивает, а дальше никак |
Сообщ.
#7
,
|
|
|
voroch, зависит от того, что именно ты от него хочешь. У него порядка пятидесяти ключей, задающих поведение. Вместе с виндовым портом идёт описание в виде html-файла.
|
Сообщ.
#8
,
|
|
|
В принципе задача такая же как и в первом посте
Пробовал разные комбинации ключей, получаю только следующую структуру папок и один файл wayback.archive.org/web/20160305194439/http:/site.ru/index.html Offlain Explorer вообще скачивает какую-то кучу непонятных папок и получается полусайт |
Сообщ.
#9
,
|
|
|
wget -rHpk http://example.org/
|
Сообщ.
#10
,
|
|
|
Таже беда...
Только на создавал ещё кучу папок с названием сайтов и в каждой лежит robots.txt. Наверное мой сайт ссылается на эти сайты или ещё что... А для моего сайт создал папку с файлом wayback.archive.org/web/20160305194439/http:/site.ru/index.html |
Сообщ.
#11
,
|
|
|
Можно для восстановления сайта из веб архива попробовать вот этот сервис — https://ru.archivarix.com/
Сайт получается сразу готовый для загрузки на хостинг — вся структура сохраняется. |