Skip to content

Парсинг реестра запрещенных сайтов zapret-info.gov.ru

Вот тут, я ранее писал про собственно выгрузку базы Роскомнадзора.

Теперь пришло время офигительных парсеров :)

 

Скрипт для парсинга (Скрипты, как парсинга, так и выгрузки - не мои, я просто немного переделал то что нашел в интернетах.):

#!/usr/bin/env python

from xml.dom.minidom import *

xml = parse('dump.xml')
name = xml.getElementsByTagName('ip')

for node in name:
            print node.childNodes[0].nodeValue

Скрипт для запихивания в крон:

#!/bin/bash
cd /usr/local/zapret-info/
./zapret_checker.py && ./dumpparse.py | sort|uniq > blocklist.txt

В cron можно запихнуть так:

01 1 * * * * zapret-info /usr/local/zapret-info/zapret-checker.sh | mail -s 'Roskomnadzor blacklist import' zapret-info

 

Соответственно в /etc/aliases должен быть алиас для адреса zapret-info
На выходе получаем файл с ip адресами, которые уже потом пихаем в то место, где будем ограничивать доступ юзверей (прокси, ACL какого-либо оборудования, etc)

Leave a Reply

Your email address will not be published. Required fields are marked *

π