Skip to content

И так. Нам нужна некая база.

В следствии того что мы не программисты и скудоумие не позволяет написать парсер на пыхе или петоне - извратился следующим образом:

Скачал сайт:

wget -v -c -R ico,jpg,png,js,css,gif,php --html-extension --output-file=grabber.log -r -l0 -k http://www.адрес-сайта/откуда-грабим-что-то

То что нужно парсить имеет следующий вид и валяется в html файлах (пикча кликабельна):

catalog

Сам скрипт парсера выглядит примерно так:

 

# !/bin/sh
find . -type f | while read i
do

if grep -q "specifications" "$i"
then

a=`links -html-tables 0 -dump "$i" | grep -i "Model:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
b=`links -html-tables 0 -dump "$i" | grep -i "Year:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
c=`links -html-tables 0 -dump "$i" | grep -i "Category:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
d=`links -html-tables 0 -dump "$i" | grep -i "Dry weight:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
e=`links -html-tables 0 -dump "$i" | grep -i "Cooling system:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
f=`links -html-tables 0 -dump "$i" | grep -i "Top speed:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`
g=`links -html-tables 0 -dump "$i" | grep -i "Displacement:"| awk -F":" '{ print $2 }' | sed 's/^[\s ]*//'`

echo \"$a\"";"\"$b\"";"\"$c\"";"\"$d\"";"\"$e\"";"\"$f\"";"\"$g\"

else
echo ""
fi

done

И запускаеццо вот так: ./parser.sh > motobase.csv

После чего, понимая что мы реализовали хитрый план, ходим курить, пьем чай и всячески радуемся, пока парсер работает.

Ну а потом делаем с готовой базой то что хотели.

Надо спиздить контент с одного сайта. Готовую БД они не отдадут(

Был бы программистом - написал бы скрипт парсера на каком-нибудь пыхапэ, распарсил бы нужный сайтег и запихнул нужное в файлег формата csv.

Увы, в следствии скудоумия будем грабить сайт wget'ом, благо там в ссылках есть названия той хуйни которую надо запихнуть в csv. Потом из лога wget-a grep'ом выдираем ссылочки, парсим их sed'ом и пихаем в csv =)

Как парсить то что находится не в названиях ссылочек а в телах страничек - увы, пока не придумал.

На работе пытались при помощи приложений для ведроида искать названия песен которые играют.

Гражданку не все могут найти, БГ тоже не очень ищется.

Вот это тоже не нашел =)

...continue reading "Приложения для поиска музыки"

[timba@timba ~]$ uptime

10:39:47 up 23 years, 10:39, 1 user, load average: 0.71, 0.79, 0.75

Так то.

А еще мне Тина прислала фоточге подарков которые меня дожидаюццо в Киеве.

Это футболка и диск с новым альбомом Кошки Сашки :

Футболку буду носить не снимая =)

 

 

Когда йа через годик куплю себе мотоцикл, йа паставлю иво в гараш, буду крутить болты и гайки, а весной пайеду в Киеф.

Нахуйячил тут маршрут:

Карта путешествия в Киев

500 км и счастьерадость. Но это потом, в следующем году

А в этому году тоже счастьеродость - в марте в Киев!

Там меня дожидаюцца футболка и диск с альбомом Кошки Сашки. Спасибо, Тина ^___^

Встретил одноклассницу с которой не виделись 8 или 9 лет.

ВНЕЗАПНО.

Школу не люблю, поэтому встреча с одноклассницей преподнесла двуякие ощущения.

Вроде как и охуенне, как была няшкой так и осталась, а вроде как и школу вспомнил. Растерялся, что-то буркнул и пошел домой.

 

Быстро блять время летит.

 

 

Понадобилось сделать ротацию бэкапов, т.к. 10 гб яндекс диска, сука, забиваются бэкапами, а руками чистить - не наш метод.

Надо делать MOVE, DELETE и MKDIR юзая методы протокола WebDAV

Готовых решений нет, так что юзаем curl и справку по API от яши

Примеры того что получилось:

...continue reading "Бэкапы и API Яндекс.Диска"

Скачал новый шаблон для вордпресс, паправил. Здравствуй новый бложег =)

Впервые оставил в шаблоне нетронутыми копирайты автора и переводчика.

Кушать хочется всем, пусть и им шекелей немножко нападает.

http://www.wpbot.ru/ - наше всё.

π