Автор Тема: Фильтрация контента в школах (вопросы организации и т.п.)  (Прочитано 45101 раз)

Оффлайн SuperVisor

  • Участник
  • *
  • Сообщений: 778
  • разочарован в KDE
поставил Dansguardian - все работает, фильтрует, настраивается с полпинка, планирую на уровне района распространять черные списки и списки плохих слов и т.д. Но есть две странности, которые не могу победить:

1. Не работает поиск в Яндексе. Вообще. Firefox пишет что-то про бесконечные перенаправления.
2. Не могу сделать белый список и пускать только туда, просто со временем расширять его
3. service dansguardian restart ведет себя очень странно - то нормально перезапустится, то ругается при запуске, что кто-то уже занял порт 8080. ребутаю сквид, потом стартую dansguardian - все норм.
4. Пробовал запрещать домены ".ru .com .net. org" - да, не пускает на сайты из этих зон, но, прекрасно заходит на mail.ru, только картинки с него не грузит.
В логах либо тишина, либо denied, но при этом трафик от дается. Может я мучаюсь с настройками, а это бага? :)

Оффлайн HAW

  • Участник
  • *
  • Сообщений: 1 247
3. service dansguardian restart ведет себя очень странно
dansguardian -r

Оффлайн Istorik

  • Участник
  • *
  • Сообщений: 117
  • Alt Linux 5.0.1
Как сделать большие (15 мб 3 шт.) черные списки который не будут вешать сервер?
или из за чего redirect_program может гробить весь squip?
скорее всего у вас не хватает количества редиректоров, или они не совсем корректно работают.
в том то и дело что при добавление первого squid уже не запускаются
 
#!/usr/bin/perl

$0 = 'redirect' ;
$| = 1 ;

open (IN_FILE, "/srv/share/squid/bad_url.txt") || die $!;
my @tmp_data = <IN_FILE>;
chomp @tmp_data;
push @banners, map { qr /\Q$_\E/ }  grep { ! /^\s*$/ } @tmp_data;
close IN_FILE;

while (<>) {
    ($url, $who, $ident, $method) = /^(\S+) (\S+) (\S+) (\S+)$/ ;
    $url = 'http://mail.my_domain.ru/zaglushka.jpg'
        if grep ($url=~/$_/i, @banners) ;
    print "$url $who $ident $method\n" ;
}
Omnia me mecum porto

Оффлайн fce

  • Участник
  • *
  • Сообщений: 249
  • ALT Linux, XBMC live, Ubuntu, Kubuntu, Android
    • Dansguardian+
поставил Dansguardian - все работает, фильтрует, настраивается с полпинка, планирую на уровне района распространять черные списки и списки плохих слов и т.д. Но есть две странности, которые не могу победить:

1. Не работает поиск в Яндексе. Вообще. Firefox пишет что-то про бесконечные перенаправления.
2. Не могу сделать белый список и пускать только туда, просто со временем расширять его
3. service dansguardian restart ведет себя очень странно - то нормально перезапустится, то ругается при запуске, что кто-то уже занял порт 8080. ребутаю сквид, потом стартую dansguardian - все норм.
4. Пробовал запрещать домены ".ru .com .net. org" - да, не пускает на сайты из этих зон, но, прекрасно заходит на mail.ru, только картинки с него не грузит.
В логах либо тишина, либо denied, но при этом трафик от дается. Может я мучаюсь с настройками, а это бага? :)

нет никаких странностей, и поиск в Яндексе превосходно работает, Dansguardian в режим белого списка очень просто переключается, порт 8080 может быть действительно занят, например веб-интерфейсом.
Mail.ru скорее всего где-то в белом списке, не обязательно в доменном, может в файловом.
« Последнее редактирование: 24.08.2010 19:05:24 от fce »
Безвыходных ситуаций не бывает, есть ситуации в которые нет входа. На каждого компьютерного гения найдётся свой хакер с винтом.

Оффлайн fce

  • Участник
  • *
  • Сообщений: 249
  • ALT Linux, XBMC live, Ubuntu, Kubuntu, Android
    • Dansguardian+
Как сделать большие (15 мб 3 шт.) черные списки который не будут вешать сервер?
или из за чего redirect_program может гробить весь squip?
скорее всего у вас не хватает количества редиректоров, или они не совсем корректно работают.
в том то и дело что при добавление первого squid уже не запускаются
 
#!/usr/bin/perl

$0 = 'redirect' ;
$| = 1 ;

open (IN_FILE, "/srv/share/squid/bad_url.txt") || die $!;
my @tmp_data = <IN_FILE>;
chomp @tmp_data;
push @banners, map { qr /\Q$_\E/ }  grep { ! /^\s*$/ } @tmp_data;
close IN_FILE;

while (<>) {
    ($url, $who, $ident, $method) = /^(\S+) (\S+) (\S+) (\S+)$/ ;
    $url = 'http://mail.my_domain.ru/zaglushka.jpg'
        if grep ($url=~/$_/i, @banners) ;
    print "$url $who $ident $method\n" ;
}

Проверьте права доступа к редиректору, соответственно к файлу /srv/share/squid/bad_url.txt, группа и владелец должны быть Squid и Squid, соответственно (по-умолчанию такие в Squid), права на чтение + для редиректора должен быть установлен бит исполняемости, не мешает также проверить права доступа на каталог /srv/share/squid.
скорее всего ваши проблемы именно с этим связаны,
насчет быстродействия:
1. в программе используется алгоритм последовательного поиска, он самый медленный из всех алгоритмов поиска.
Безвыходных ситуаций не бывает, есть ситуации в которые нет входа. На каждого компьютерного гения найдётся свой хакер с винтом.

Оффлайн Istorik

  • Участник
  • *
  • Сообщений: 117
  • Alt Linux 5.0.1
Да действительно права были не те.
Запустил но радовался не долга. Инет стал жутко тормозить и сервер тоже. (АМД х2 3Гб опер.)
Omnia me mecum porto

Оффлайн fce

  • Участник
  • *
  • Сообщений: 249
  • ALT Linux, XBMC live, Ubuntu, Kubuntu, Android
    • Dansguardian+
Да действительно права были не те.
Запустил но радовался не долга. Инет стал жутко тормозить и сервер тоже. (АМД х2 3Гб опер.)
Возможно, не хватает количества редиректоров, или слишком большие списки, перл может ворочать списки сколь угодно большие, но при последовательном поиске это занимает очень много  времени, есть смысл посмотреть другие редиректоры, например на С,   избыток регулярных выражений тоже может нагружать процессор на 99%, смотрите вывод top, если процессы редиректоров занимают более половины загрузки процессора, надо использовать вместо редиректора, специализированную программу, например bfilter(для рекламы). Иначе постоянный завис обеспечен.
Есть вариант для фильтрации рекламы, у нас везде firefox, для него есть превосходный плагин Adblock Plus, а на некоторых форумах мне посоветовали кэшировать рекламу, а не резать, поскольку всю рекламу все равно не удалишь. А так как плагин браузера сравнительно хорошо справляется со своей задачей, то кеширование наиболее простой вариант. Единственно, что делать с браузерами не имеющих такого плагина....... для windows снова bfilter, handycache.........
« Последнее редактирование: 25.08.2010 13:02:35 от fce »
Безвыходных ситуаций не бывает, есть ситуации в которые нет входа. На каждого компьютерного гения найдётся свой хакер с винтом.

Оффлайн Istorik

  • Участник
  • *
  • Сообщений: 117
  • Alt Linux 5.0.1
Нашёл причину не работы у меня логина, точнее не корректную работу логина. На x32 дома все работает стабильно, а вот на работе х64 и там какой то косяк. Не хотел бы ставить на работе 32 =(

Админы уточните это только у меня кривые руки или ошибка в сборке. Alt linux 5 server
Omnia me mecum porto

Оффлайн Alukardd

  • Участник
  • *
  • Сообщений: 197
Цитата: Istorik
На x32 дома все работает стабильно, а вот на работе х64 и там какой то косяк. Не хотел бы ставить на работе 32 =(
почему вы не хотите ставить 32х разрядную систему на работе? зачем вам нужна х64 система? Вы производите точнейшие вычисления с плавающей точкой? Или мб у вас используется софт использующий инструкции присущие 64х разрядным процессорам, который даёт вам существенный прирост в производительности?
Если ни что из выше перечисленного вам не мешает, а имхо, даю 99% именно так, то ставьте х32 и не парьте мозги себе и окружающим!

А по поводу того, что у вас на х32 работает, а на х64 нет это мб просто ваши догадки - т.к. системы вы ставили и настраивали независимо, не смотря на то, что конфиги могут быть одинаковы вы могли сделать какие-либо дополнительные настройки, что и привело к тому что вы сейчас имеете...
« Последнее редактирование: 25.08.2010 23:13:40 от Alukardd »
Debian Lenny 6.0, Ubuntu 10.04 Lucid Lynx

Оффлайн SuperVisor

  • Участник
  • *
  • Сообщений: 778
  • разочарован в KDE
3. service dansguardian restart ведет себя очень странно
dansguardian -r

Спасибо, не знал

Оффлайн Istorik

  • Участник
  • *
  • Сообщений: 117
  • Alt Linux 5.0.1
Цитата: Istorik
А по поводу того, что у вас на х32 работает, а на х64 нет это мб просто ваши догадки - т.к. системы вы ставили и настраивали независимо, не смотря на то, что конфиги могут быть одинаковы вы могли сделать какие-либо дополнительные настройки, что и привело к тому что вы сейчас имеете...
В том то и дело что оба варианта только поставлены и ни каких настроек кроме включения squid не было. По тому и прошу еще где проверить.
Omnia me mecum porto

Оффлайн Alukardd

  • Участник
  • *
  • Сообщений: 197
Istorik
Меня интересует ваш ответ на первую часть моего сообщения...
Debian Lenny 6.0, Ubuntu 10.04 Lucid Lynx

Оффлайн Istorik

  • Участник
  • *
  • Сообщений: 117
  • Alt Linux 5.0.1
Istorik
Меня интересует ваш ответ на первую часть моего сообщения...

Уже поставил. Не помогло =( значит на это все влияют другие силы
Omnia me mecum porto

Оффлайн fce

  • Участник
  • *
  • Сообщений: 249
  • ALT Linux, XBMC live, Ubuntu, Kubuntu, Android
    • Dansguardian+
fce
Да я например не особо горю желанием писать регулярные выражения. по крайней ПОКА у меня есть дела по насущнее... Но если вы хотите написать столь полезный продукт или просто помочь, то могу скинуть вам те 15Мб списки, а точнее вообще всё что когда-то прислал РЦОКиИТ кажется...
Наконец нашел время посмотреть те списки, с помощью 67 подобранных слов отсеялось 51 процент списка порно, к сожалению пока мало свободного времени, планирую составить своеобразный рейтинг частоты использования этих слов в именах доменах, чтобы соответственно сначала искать наиболее употребляемые.

Что касается списков частей сайтов, то их доменные имена думаю надо занести в черный список, а все остальное очистить,
ведь если на сайте есть раздел с такими материалами, то такой сайт явно не для детей, а использование таких списков очень сильно тормозит squid, поскольку вероятность того что дети зайдут на этот сайт есть, а что именно в этот раздел или страницу практически нулевая.

Насчет программы думаю сделать следующим образом:
Набор регулярных выражений, прописать в squid в отдельном файле.
Затем программа следуя этому набору, перебирает новый список, на соответствие регулярным выражениям, в результате получается список содержащий имена доменов не попадающих под действие регулярных выражений,
а далее список перебирается на наличие повторов с уже существующем.
Единственно только вот как этот перебор организовать, последовательным поиском долго, бинарным, или используя базу данных?
Безвыходных ситуаций не бывает, есть ситуации в которые нет входа. На каждого компьютерного гения найдётся свой хакер с винтом.

Оффлайн Alukardd

  • Участник
  • *
  • Сообщений: 197
Цитата: fce
Насчет программы думаю сделать следующим образом:
Набор регулярных выражений, прописать в squid в отдельном файле.
Затем программа следуя этому набору, перебирает новый список, на соответствие регулярным выражениям, в результате получается список содержащий имена доменов не попадающих под действие регулярных выражений,
а далее список перебирается на наличие повторов с уже существующем.
Единственно только вот как этот перебор организовать, последовательным поиском долго, бинарным, или используя базу данных?
лучше все регулярные выражения так же как и я вам скинул делить на категории... А для проверки в голову приходит только последовательная проверка скриптом(perl наверное) на соответствие строки регулярным выражениям и в случае отсутствия заносить адрес в новый файл...

Цитата: fce
аконец нашел время посмотреть те списки, с помощью 67 подобранных слов отсеялось 51 процент списка порно, к сожалению пока мало свободного времени, планирую составить своеобразный рейтинг частоты использования этих слов в именах доменах, чтобы соответственно сначала искать наиболее употребляемые.
буду рад увидеть их. и думаю не только я!  :D
Debian Lenny 6.0, Ubuntu 10.04 Lucid Lynx