На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
  
> Скачать целиком сайт с web.archive.org , не получается!
    Здравствуйте, Господа!
    Не знаю где создать подобную тему, потому сунул ее сюда. Если ей тут не место - модеры, извините.
    Собственно, получил от начальства вводную: вытащить целиком почивший сайт.
    http://web.archive.org/web/20121126153752/....linertrade.ru/
    Его нужно скачать целиком, что бы можно было запихнуть в... например в Апач.
    Крайне желательно, что бы нормализовались все ссылки, что бы не было следов от WebArchive.
    Бился с wget (Linux), но что-то не выходит. Мне нужно скачать последний сейв, а wget качает все сейвы.
    Пробовал кучу разных програм, но выходит ерунда.
    Господа, подскажите, пожалуйста, чем и как все это выкачать? :wall:
      ...раньше помогал offline explorer, уровень вложенности можно задавать.

      Цитата
      что бы не было следов от WebArchive
      а это уже к качалке не относится.
      Сообщение отредактировано: raxp -
        Цитата raxp @
        ...раньше помогал offline explorer

        teleport еще был :)
          Offlain Explorer, Teleport Pro, еще какие-то невнятные качалки с задачей не справились.
          Лучше всех справился wget. Кто бы сомневался...
          Другое дело, что wget не понимает разумной достаточности. Вместо архива за конкретную дату он льет все. Мало того, он не брезгует и соседние архивы сайтов прихватить. Нужно вовремя его останавливать.
          Еще не приятный момент: слитый сайт с web.archeive.org придется очень капитально редактировать. Все ссылки придется нормализовывать. Нужно написать соответствующий скрипт и натравить на архив. В противном случае, придется каждую ссылку редактировать вручную.
          Сообщение отредактировано: HighMan -
            ...не надо ля-ля, все качалки работают приблизительно одинаково. А про редактирование в конечном итоге вам уже намекал, что к качалкам это не относится, им что подсунул, то и качают с заданным уровнем вложенности.

            Цитата
            то wget не понимает разумной достаточности
            что как раз и говорит о его невнятности.
            Сообщение отредактировано: raxp -
              Скажите как правильно ввести команду "wget", чтобы скачать сайт?
              Пробовал несколько вариантов, что-то несколько файлов скачивает, а дальше никак
              Сообщение отредактировано: voroch -
                voroch, зависит от того, что именно ты от него хочешь. У него порядка пятидесяти ключей, задающих поведение. Вместе с виндовым портом идёт описание в виде html-файла.
                  В принципе задача такая же как и в первом посте

                  Пробовал разные комбинации ключей, получаю только следующую структуру папок и один файл
                  wayback.archive.org/web/20160305194439/http:/site.ru/index.html

                  Offlain Explorer вообще скачивает какую-то кучу непонятных папок и получается полусайт
                    wget -rHpk http://example.org/
                      Таже беда...
                      Только на создавал ещё кучу папок с названием сайтов и в каждой лежит robots.txt.
                      Наверное мой сайт ссылается на эти сайты или ещё что...

                      А для моего сайт создал папку с файлом wayback.archive.org/web/20160305194439/http:/site.ru/index.html
                        Можно для восстановления сайта из веб архива попробовать вот этот сервис — https://ru.archivarix.com/
                        Сайт получается сразу готовый для загрузки на хостинг — вся структура сохраняется.
                        0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
                        0 пользователей:


                        Рейтинг@Mail.ru
                        [ Script execution time: 0,0265 ]   [ 16 queries used ]   [ Generated: 28.03.24, 08:06 GMT ]