Скачать целиком сайт с web.archive.org -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [18.224.39.32]

Новое голосование

Скачать целиком сайт с web.archive.org , не получается!

HighMan

Сообщ. #1 , 10.10.14, 14:14

Senior Member

Профиль · PM

Рейтинг (т): 13

Здравствуйте, Господа!
Не знаю где создать подобную тему, потому сунул ее сюда. Если ей тут не место - модеры, извините.
Собственно, получил от начальства вводную: вытащить целиком почивший сайт.
http://web.archive.org/web/20121126153752/....linertrade.ru/
Его нужно скачать целиком, что бы можно было запихнуть в... например в Апач.
Крайне желательно, что бы нормализовались все ссылки, что бы не было следов от WebArchive.
Бился с wget (Linux), но что-то не выходит. Мне нужно скачать последний сейв, а wget качает все сейвы.
Пробовал кучу разных програм, но выходит ерунда.
Господа, подскажите, пожалуйста, чем и как все это выкачать? :wall:

raxp	Сообщ. #2 , 10.10.14, 16:45
Full Member Профиль · PM Рейтинг (т): 19	...раньше помогал offline explorer, уровень вложенности можно задавать. Цитата что бы не было следов от WebArchive а это уже к качалке не относится. Сообщение отредактировано: raxp - 10.10.14, 16:46

Besha	Сообщ. #3 , 10.10.14, 16:53
котэ Профиль · PM Поощрения: 6 Dgm Рейтинг (т): 114	Цитата raxp @ 10.10.14, 16:45 ...раньше помогал offline explorer teleport еще был

HighMan

Сообщ. #4 , 11.10.14, 20:03

Senior Member

Профиль · PM

Рейтинг (т): 13

Offlain Explorer, Teleport Pro, еще какие-то невнятные качалки с задачей не справились.
Лучше всех справился wget. Кто бы сомневался...
Другое дело, что wget не понимает разумной достаточности. Вместо архива за конкретную дату он льет все. Мало того, он не брезгует и соседние архивы сайтов прихватить. Нужно вовремя его останавливать.
Еще не приятный момент: слитый сайт с web.archeive.org придется очень капитально редактировать. Все ссылки придется нормализовывать. Нужно написать соответствующий скрипт и натравить на архив. В противном случае, придется каждую ссылку редактировать вручную.

Сообщение отредактировано: HighMan - 11.10.14, 20:05

raxp

Сообщ. #5 , 12.10.14, 07:22

Full Member

Профиль · PM

Рейтинг (т): 19

...не надо ля-ля, все качалки работают приблизительно одинаково. А про редактирование в конечном итоге вам уже намекал, что к качалкам это не относится, им что подсунул, то и качают с заданным уровнем вложенности.

Цитата

то wget не понимает разумной достаточности

что как раз и говорит о его невнятности.

Сообщение отредактировано: raxp - 12.10.14, 07:23

voroch	Сообщ. #6 , 12.05.16, 14:15
Newbie Профиль · PM Рейтинг (т): нет	Скажите как правильно ввести команду "wget", чтобы скачать сайт? Пробовал несколько вариантов, что-то несколько файлов скачивает, а дальше никак Сообщение отредактировано: voroch - 12.05.16, 14:17

amk	Сообщ. #7 , 12.05.16, 15:21
Guru Профиль · PM Поощрения: 4 Dgm Рейтинг (т): 268	voroch, зависит от того, что именно ты от него хочешь. У него порядка пятидесяти ключей, задающих поведение. Вместе с виндовым портом идёт описание в виде html-файла.

voroch

Сообщ. #8 , 13.05.16, 04:28

Newbie

Профиль · PM

Рейтинг (т): нет

В принципе задача такая же как и в первом посте

Пробовал разные комбинации ключей, получаю только следующую структуру папок и один файл
wayback.archive.org/web/20160305194439/http:/site.ru/index.html

Offlain Explorer вообще скачивает какую-то кучу непонятных папок и получается полусайт

Идеал	Сообщ. #9 , 13.05.16, 04:52
Unregistered	wget -rHpk http://example.org/

voroch	Сообщ. #10 , 13.05.16, 06:41
Newbie Профиль · PM Рейтинг (т): нет	Таже беда... Только на создавал ещё кучу папок с названием сайтов и в каждой лежит robots.txt. Наверное мой сайт ссылается на эти сайты или ещё что... А для моего сайт создал папку с файлом wayback.archive.org/web/20160305194439/http:/site.ru/index.html

archivarix	Сообщ. #11 , 02.10.17, 17:03
Newbie Профиль · PM Рейтинг (т): нет	Можно для восстановления сайта из веб архива попробовать вот этот сервис — https://ru.archivarix.com/ Сайт получается сразу готовый для загрузки на хостинг — вся структура сохраняется.

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0272 ] [ 16 queries used ] [ Generated: 26.04.24, 08:49 GMT ]