И так. Нам нужна некая база.
В следствии того что мы не программисты и скудоумие не позволяет написать парсер на пыхе или петоне - извратился следующим образом:
Скачал сайт:
wget -v -c -R ico,jpg,png,js,css,gif,php --html-extension --output-file=grabber.log -r -l0 -k http://www.адрес-сайта/откуда-грабим-что-то
То что нужно парсить имеет следующий вид и валяется в html файлах (пикча кликабельна):
Сам скрипт парсера выглядит примерно так:
# !/bin/sh find . -type f | while read i do if grep -q "specifications" "$i" then a=`links -html-tables 0 -dump "$i" | grep -i "Model:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'` b=`links -html-tables 0 -dump "$i" | grep -i "Year:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'` c=`links -html-tables 0 -dump "$i" | grep -i "Category:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'` d=`links -html-tables 0 -dump "$i" | grep -i "Dry weight:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'` e=`links -html-tables 0 -dump "$i" | grep -i "Cooling system:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'` f=`links -html-tables 0 -dump "$i" | grep -i "Top speed:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'` g=`links -html-tables 0 -dump "$i" | grep -i "Displacement:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'` echo \"$a\"";"\"$b\"";"\"$c\"";"\"$d\"";"\"$e\"";"\"$f\"";"\"$g\" else echo "" fi done
И запускаеццо вот так: ./parser.sh > motobase.csv
После чего, понимая что мы реализовали хитрый план, ходим курить, пьем чай и всячески радуемся, пока парсер работает.
Ну а потом делаем с готовой базой то что хотели.