fce
Да я например не особо горю желанием писать регулярные выражения. по крайней ПОКА у меня есть дела по насущнее... Но если вы хотите написать столь полезный продукт или просто помочь, то могу скинуть вам те 15Мб списки, а точнее вообще всё что когда-то прислал РЦОКиИТ кажется...
Наконец нашел время посмотреть те списки, с помощью 67 подобранных слов отсеялось 51 процент списка порно, к сожалению пока мало свободного времени, планирую составить своеобразный рейтинг частоты использования этих слов в именах доменах, чтобы соответственно сначала искать наиболее употребляемые.
Что касается списков частей сайтов, то их доменные имена думаю надо занести в черный список, а все остальное очистить,
ведь если на сайте есть раздел с такими материалами, то такой сайт явно не для детей, а использование таких списков очень сильно тормозит squid, поскольку вероятность того что дети зайдут на этот сайт есть, а что именно в этот раздел или страницу практически нулевая.
Насчет программы думаю сделать следующим образом:
Набор регулярных выражений, прописать в squid в отдельном файле.
Затем программа следуя этому набору, перебирает новый список, на соответствие регулярным выражениям, в результате получается список содержащий имена доменов не попадающих под действие регулярных выражений,
а далее список перебирается на наличие повторов с уже существующем.
Единственно только вот как этот перебор организовать, последовательным поиском долго, бинарным, или используя базу данных?