В следующем видео
http://youtu.be/WHxmLxpGXTs процесс скоростного парсинга
1. Выбор сайта ( донора).
2. Сбор адресов e-mail (но мы же против спама).
Поэтому
1. Анализ структуры.
2. Ввод тегов, между которым содержаться требуемые данные
3. Мелкие подстройки (автоматизация перевода кликом мыши

- замена на тег ^p )
4. Результат на экране - данные в DB (Access)
Краткое ревью:
— сбор всех страниц в одну;
— сбор разбросанных на страницах таблиц в одну;
— сбор конкретной повторяющейся ячейки в одну;
— сбор извлечение изображений из табличек или повторяющихся страничек в директорию;
— извлечение указанных однородных объектов в ячейки;
Более того:
— экранирование области поиска между тегами (например: < b></b>, < tr>< td> и даже это3 и еще вот это4 и так далее);
— одновременная работа 50 потоков;
— использование HTTP прокси по импортируемому из файла списку;
— список плохих ссылок (404 ошибок) и автоматическая перезагрузка (для сбивчивого пинга);
— возможность ввода диапозона;
— выбор методов GET или POST;
— скрытие (тунелирование) трафика;
— автозамены объектов на ходу;
— ограничитель частей ссылок для запрета сайтов;
— круговой обход ссылок в пределах домена (url, сайта);
— извлечение объектов, содержащих промежуточное значение альфы @;
— кодировки языка UTF-8 и др (кириллица, английский);
— инструменты автоматизации приведения кода в 1 строку, облегчающий работу;
— ограничитель таймаута обхода;
— браузер логин и пароль;
— установка приоритета;
— + в бонус автогенератор чисел, автосборщик, подборщик и сортировщик списков — супер инструмент для профессионалов!;
— модуль макросов для подстановки сложных объектов (типа & pref=xxx& pref2=yyy& pref3=zzz и т.д.);
— фиксация ограничителя символов при неожиданных случаях;
— множество количество полей (столбцов)
ГЛАВНОЕ!
Индивидуальные подстройки каждому клиенту.
Настройка под конкретные сайты.
Сохранение проекта собранный ссылок (автозапаковка).