Skip to content

Методы

Надо спиздить контент с одного сайта. Готовую БД они не отдадут(

Был бы программистом - написал бы скрипт парсера на каком-нибудь пыхапэ, распарсил бы нужный сайтег и запихнул нужное в файлег формата csv.

Увы, в следствии скудоумия будем грабить сайт wget'ом, благо там в ссылках есть названия той хуйни которую надо запихнуть в csv. Потом из лога wget-a grep'ом выдираем ссылочки, парсим их sed'ом и пихаем в csv =)

Как парсить то что находится не в названиях ссылочек а в телах страничек - увы, пока не придумал.

Leave a Reply

Your email address will not be published. Required fields are marked *

π