Парсер (web.archive.org)

Информация:
Тема в разделе "Программы и скрипты", создана пользователем Dump_Bot, 10 сен 2016.
  1. Dump_Bot

    Dump_Bot Бот дампов Бот форума
    • 3093/3811

    Сообщения:
    47.312
    Репутация:
    0
    Отдано:
    1 ГБ
    Скачано:
    0 байт
    Рейтинг:
    -
    Однажды вечером, я как обычно сидел за компьютером и гуглил яндекс. Но ни на одном сайте нужной мне информации не нашлось. Я уже было отчаялся, когда мне на глаза попалась нужная ссылка, но как назло, сайт был удален, и выдернуть информацию можно было только из кэша гугла или из вебархива. И я решил написать небольшой парсер вэбархива на php.

    Задача парсера заключалась в том, чтобы найти все сохраненные страницы нужного сайта, выбрать из них самые свежие и выдать ссылки на них.

    Собственно для того чтобы получить все ссылки которые есть в архиве, нужно открыть страницу
    $content=file_get_contents('http://web.archive.org/web/*/site.ru*'); Ссылка на страницу, которую вэбархив сканировал только один раз выглядит примерно так:
    Ну и наконец обрабатываем все ссылки: foreach($matches as $m){ $m[1]=convert($m[1]); echo "<a href="http://web.archive.org/web/$m/'.$m[3].'">'.$m[3]."</a><br>\r\n"; } foreach($matches1 as $mc){ echo "<a href=\"http://web.archive.org/web/".$mc[1].$mc[2]."\">".$mc[2]."</a><br>\r\n"; }

     
    Загрузка...