База сайтов Яндекс каталога (Март, 2015)

Информация:
Тема в разделе "Базы и каталоги", создана пользователем Collab_Bot, 18 сен 2016.
Этап:
Набор участников
Цена:
118.00 RUB
Участников:
0 из 10
Организатор:
Отсутствует
0%
Расчетный взнос:
16 RUB
  • (Основной список пока пуст)

  1. Collab_Bot

    Collab_Bot Бот рескладчин Бот форума
    • 3063/3811

    Сообщения:
    80.997
    Репутация:
    0
    Отдано:
    1 ГБ
    Скачано:
    0 байт
    Рейтинг:
    -
    Предлагаю скинуться на актуальную версию базы ЯК.



    Продается, свежая база сайтов Яндекс каталога (Сентябрь, 2015)

    Что вы получите:

    База предоставляется в виде одного .xls файла разбитого на листы/категории.

    Основная категория - количество уникальных URL адресов:

    Hi-Tech - 10822 (-22)
    Работа - 1016 (-16)
    Учёба - 10955 (+48)
    Дом - 34288 (+1486)
    Общество - 5760 (+12)
    Развлечения - 4993 (-498)
    Отдых - 9935 (+357)
    Культура - 16769 (-120)
    Спорт - 6734 (-101)
    СМИ - 4231 (-74)
    Бизнес - 48738 (-259)
    Справки - 3935 (-130)
    Авто - 5738 (+35)
    Порталы - 793 (-11)
    Универсальное - 1000

    Дополнительная выборка:

    Новые сайты - 1000
    Мобильный ЯК - 1321 (-91)

    Новые и снятые с публикации URL адреса:

    Новые - 6154
    Снятые с публикации - 6613

    Всего (URL адресов):основной ЯК- 165707 (+707),мобильный ЯК- 1321 (-91).

    В скобках указаны изменения, по сравнению с предыдущим обновлением базы.
    [​IMG]

    Описание полей в таблице:

    1. Название категории в Яндекс каталоге, вида: категория/подкатегория/субкатегория/... полный уровень вложенности
    2. Количество сайтов присутствующих в данной категории на момент парсинга
    3. URL адрес категории в ЯК
    4. URL адрес сайта
    5. ТИц сайта (по яндекс бару)
    6. Google PageRank сайта
    7. Присвоенный регион (по яндекс бару)
    8. Присвоенная тематика (по яндекс бару)
    9. Название сайта в каталоге
    10. Описание сайта в каталоге
    11. Ссылка на скриншот сайта в каталоге
    12. Ссылка на Whois данные сайта (для поддоменов и различных экзотических доменных зон ссылка может быть некорректна)

    Особенности:

    - С целью уменьшения количества дублей в процессе парсинга были исключены ссылки на категории, содержащие в себе /synt2/ и /geo/
    - База почищена на дубли (по полному совпадению URL адреса). Дубли вычищаются в пределах основной категории (например, Hi-Tech) начиная от самых маленьких и заканчивая самыми крупными категориями/подкатегориями. Размер категории определяется по количеству сайтов присутствующих в данной категории на момент парсинга.
    - Дополнительно предоставляется нечищеный на дубли вариант базы в .txt формате. Помимо наличия дублей в таком варианте отсутствуют следующие параметры: ТИц, PageRank, Присвоенный регион и тематика, Ссылка на whois.
    - Добавлены списки новых и снятых с публикации сайтов в .txt формате (только URL адреса). Списки составлялись путем проверки каждого URL адреса из предыдущей выборки на предмет наличия его в новой выборке и наоборот. Эта информация не может быть на 100% верна, так как сайты могут временно сниматься с публикации и возвращаться обратно.

    Обновление базы:

    Обновление раз в три месяца или чаще. Обновление платное – всем ранее купившим базу скидка 50% от стоимости базы на момент обновления.

    Стоимость базы: 12 WMZ



    Это рескладчина на
    Ознакомьтесь с правилами проведения и участия в рескладчинах!
     
    Загрузка...