Earn money with your rx pharmacy traffic!
Заработок в интернете

Хотите знать, как заработать в интернете? Ответы ищите ниже.

Посты тут ↓

Как легко напарсить базу сайтов/блогов

Как напарсить базу сайтов / блоговЕсли вам вдруг понадобилась база сайтов, например стэнд-алон блогов, то ее можно найти на каком-нибудь форуме, но обычно такие базы не раздают бесплатно, а продают. Можно напарсить базу самостоятельно, если умеете программировать, а если не умеете или не охота, то вот вам бесплатный простой способ напарсить базу сайтов без всякого программирования.

Для парсинга базы нам понадобятся 2 программы:

  1. Download Master (бесплатная).
  2. Extract Link (скачать). Программа не требует установки, просто скачиваете и запускаете.

Допустим, нам нужна база блогов. Покажу на примере рейтинга блогов, как ее получить.

1. Прокручиваем страницу рейтинга вниз и копируем ссылку на последнюю страницу:

blograte

2. Открываем Download Master и добавляем группу закачек:

downloadmaster1

3. Вставляем скопированный урл последней страницы, заменяем «111» на «$» и говорим, что переменная должна меняться от 0 до 111, нажимаем ОК, потом еще раз:

downloadmaster2

4. Выбираем, куда сохранить html-файлы и начинаем закачку:

downloadmaster3

5. После того, как все html-страницы сохранились, нам нужно выдрать из них ссылки на блоги, для этого используем Extract Link. Нажимаем кнопку «New Search», выбираем папку с сохраненными html-страницами, на вкладке Option отметьте галочками «Remove duplicate results» и «Remove duplicate base», на вкладке Exclude/Exclude Text напишите построчно feedburner.com и blograte.ru, чтобы в базе было меньше ненужных урлов:

extract1

6. После парсинга html-страниц получим список урлов, встречающихся на сохраненных страницах. У меня получилось 3343 урлов вместо 3337 (6 ссылок на главной странице лишние). Результат сохраняете в txt или excel-файл:

result

7. Получили базу менее чем за 10 минут. Остается использовать ее по назначению :)

Аналогично можно парсить выдачу поисковиков, различные каталоги и рейтинги.

// Интернет-магазин проекторов FineBuy продает проекторы optoma, Acer, Benq, Epson, Lg и другие марки по выгодным ценам. Предусмотрена доставка по России.
// На сайте OnlyDvdRip можно совершенно бесплатно скачать боевики и любые другие фильмы без регистрации. Большинство фильмов в качестве DVDRip.

Рекомендую также:
» Что нужно, чтобы начать зарабатывать в интернете
» Не пойму откуда переходы
» Моё новое место работы


Не пользуетесь RSS — подпишитесь на обновления

09.09.2009 | Рубрики: Полезный софт, Советы |

Комментарии (32)

  1. Дмитрий пишет:

    У меня что-то не совем получилось.
    Попробую ещё, возможно я что то не так делаю. Подписался на комменты на всякий случай и если что хотелось бы помощи

  2. dimok пишет:

    плохой пример. у меня в рейтинг есть opml файлик – там список всех блогов в xml формате. и не надо ничего качать :)

  3. Dekus пишет:

    Закачать все использовать не пробовали? Эффект тот же. Только списки в Даунлоад мастере чистить надо

  4. Evgen пишет:

    Неплохо, надо попробывать

  5. Сергей Жилин пишет:

    dimok, ну почему же? Этот xml еще же распарсить надо, для новичков это проблема. Я предложил самый простой способ.

    Dekus, про “закачать все” не понял. Не вижу такого в программе.

  6. Leon пишет:

    Спасибо интересный способ, я раньше чтобы выкачать какой-то каталог заказывал скрипт)) и не знал что так можно

  7. Алтайский блогер пишет:

    А потом в SeoQuake и сортировка по тИЦ или PR. Я по другому делал только, скачивал ompl файл и делал пару движений в EditPlus.

  8. Илюха пишет:

    Неплохо, но у меня с первого раза что-то криво получилось как то.

  9. Заводской раб пишет:

    А потом сделать дор про SEO? а вы как используете напарсенные блоги?

  10. Сергей Жилин пишет:

    Заводской раб, напарсенные блоги можно использовать для спама :)

  11. Alex Leo пишет:

    “можно использовать для спама ))” … хе-хе или взять бесплатные красивые ленточки и авто наполнять сайты )

  12. Taiska пишет:

    Что-то не выходит! Винда ошибку при установке дает…(

  13. Nataly пишет:

    интерестный способ грабинга, я использовала скрипт, и парсила гугль по ключевой фразе

  14. роман пишет:

    Спасибо интересный способ, и не знал что так можно

  15. Тимофей пишет:

    Ваще кУл всё работает база ваще реальная получилась токо надо через SeoQuake по тИЦ и ПР отсортировать и оставить лучшее. база ваще реальная получается

  16. PRamzes пишет:

    Только что попробовал – работает. Не задумывался, что можно так Download Master использовать. Оказывается можно :)

  17. Алексей пишет:

    А зачем их парсить? все равно сделать рассылку комментариев не получится, на всех блогах разный контент, мало того – движок может быть разным.

  18. Admirus пишет:

    Очень помогло чем просто так заходить. Хорошо когда есть разные способы и тем более простые

  19. Шерхан пишет:

    У меня что-то не совем получилось.
    Попробую ещё, возможно я что то не так делаю.

  20. Marinya пишет:

    Что-то не выходит! А где собака зарыта не пойму (((

  21. TimNet пишет:

    спс. очень интерессный способ.

  22. Lavren пишет:

    Респектище! Очень удобно получается.

  23. zombinator пишет:

    Неплохо, коротко , ясно и без галимых призывов че нить купить…После такого можно поверить, что честный заработок в интернете таки существует. Большое спасибо за статью, реально облегчило жизнь.

  24. Заводской раб пишет:

    Хороший способ, он как раз нужен мне

  25. Алексей пишет:

    Спасибо интересный способ

  26. Николай пишет:

    Попробую таким методом напарсить, обычно я алсабом пользуюсь.

  27. ammen пишет:

    Я teleport-ом пользуюсь, все двумя кликами делается.

  28. Alex Pavlov пишет:

    Зачем так сложно-то?
    Сабмайтером гораздо проще.
    Да и быстрее…

  29. Road пишет:

    Согласен Сабмайтером гораздо проще

  30. Яков пишет:

    Попробывал этот способ. Всё отлично получилось 4600 блогов. Вот только бы автоматически распознавало в ссылках noindex и nofollow. Было бы класно.

  31. Yliv пишет:

    Благодарю за интересную статью!

  32. Владислав пишет:

    Внесу в Закладки, а там посмотрим, как сказал поэт – парсить или не парсить.

Оставить комментарий

Имя

E-Mail (не публикуется)

Сайт