February 2013 – бложек

Парсим сайт при помощи lynx, grep, sed, awk и такой-то матери

writer2013.02.202021.01.24Leave a comment

И так. Нам нужна некая база.

В следствии того что мы не программисты и скудоумие не позволяет написать парсер на пыхе или петоне - извратился следующим образом:

Скачал сайт:

wget -v -c -R ico,jpg,png,js,css,gif,php --html-extension --output-file=grabber.log -r -l0 -k http://www.адрес-сайта/откуда-грабим-что-то

То что нужно парсить имеет следующий вид и валяется в html файлах (пикча кликабельна):

Сам скрипт парсера выглядит примерно так:

# !/bin/sh
find . -type f | while read i
do

if grep -q "specifications" "$i"
then

a=`links -html-tables 0 -dump "$i" | grep -i "Model:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
b=`links -html-tables 0 -dump "$i" | grep -i "Year:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
c=`links -html-tables 0 -dump "$i" | grep -i "Category:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
d=`links -html-tables 0 -dump "$i" | grep -i "Dry weight:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
e=`links -html-tables 0 -dump "$i" | grep -i "Cooling system:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
f=`links -html-tables 0 -dump "$i" | grep -i "Top speed:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
g=`links -html-tables 0 -dump "$i" | grep -i "Displacement:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`

echo \"$a\"";"\"$b\"";"\"$c\"";"\"$d\"";"\"$e\"";"\"$f\"";"\"$g\"

else
echo ""
fi

done

И запускаеццо вот так: ./parser.sh > motobase.csv

После чего, понимая что мы реализовали хитрый план, ходим курить, пьем чай и всячески радуемся, пока парсер работает.

Ну а потом делаем с готовой базой то что хотели.

Методы

writer2013.02.192021.01.24Leave a comment

Надо спиздить контент с одного сайта. Готовую БД они не отдадут(

Был бы программистом - написал бы скрипт парсера на каком-нибудь пыхапэ, распарсил бы нужный сайтег и запихнул нужное в файлег формата csv.

Увы, в следствии скудоумия будем грабить сайт wget'ом, благо там в ссылках есть названия той хуйни которую надо запихнуть в csv. Потом из лога wget-a grep'ом выдираем ссылочки, парсим их sed'ом и пихаем в csv =)

Как парсить то что находится не в названиях ссылочек а в телах страничек - увы, пока не придумал.