Автор Тема: Что менее накладно: поиск файла в директории или поиск строки в файле ? (Прочитано 946 раз)

ksa · « : 07.04.2016 18:55:37 »

Вопрос по практической части. Что накладнее (и, соответственно, дольше): искать файл по определенному имени в каталоге (утилитой find) либо искать определенную строку в файле (искать с помощью, например, grep или sed) ? Подозреваю, что второй вариант. Но все же хотелось бы получить больше информации на этот счет, если кто имеет, что сказать по этому поводу.
Грубо говоря, если определенную информацию (определенного объема) представить в двух ниже перечисленных вариантах, то какой из вариантов поиска (обозначенных выше) будет быстрее ?
1) куча файлов в директории
2) файл с кучей строк, равной количеству файлов в первом случае

ruslandh · « **Ответ #1 :** 07.04.2016 19:20:47 »

Теоретически одно и то-же - каталог - это-же тот-же файл. Правда при рекурсивном поиске, когда меняются имена каталогов, быстрее искать в одном файле.

ksa · « **Ответ #2 :** 07.04.2016 19:29:04 »

Цитата: ruslandh от 07.04.2016 19:20:47

Правда при рекурсивном поиске, когда меняются имена каталогов, быстрее искать в одном файле.

Каталог один и имя имеет постоянное. Теоретически я все это и так понимаю. Мне крайне интересны практические наблюдения по этой части. Мог бы и сам поставить эксперимент, но не хочется тратить на это время (которое можно потратить на компоненты hcl), возможно, что кто-то уже имеет некие практические выкладки и мог бы поделиться результатами.

ASte · « **Ответ #3 :** 07.04.2016 23:11:29 »

все ниженаписанное - мое ИМХО.
Если искомые данные представлены короткой строкой, а описывает она некий значительный по сравнению с "ключевой" строкой объем данных то у нас будет файл с коротким именем и некоторым содержимым.
Утилите find понадобится прочитать с диска только сам каталог и искать в нем короткую строку среди коротких. Но искать штатно мы сможем только по имени файла.
Если же все строки находятся в файле, и "ключевой" является только часть длинной строки, то для поиска искомой подстроки утилите grep придется считать весть файл и искать подстроку в каждой длинной строке. Т.е прочитать и обработать понадобится больше байт. Но искать сможем любую подстроку в "большой" строке.
В этих условиях теоретически поиск в каталоге должен быть быстрее.

Практически, я не думаю что будет заметна разница на малых объемах данных (малом количестве файлов), при больших объемах - оба варианта будут заметно проигрывать базе данных с поиском по индексированному полю.

Мое мнение - если объем данных предполагается небольшим (полагаю в пределах нескольких тысяч или десятков тысяч записей) делать как удобнее и проще, если данных предполагается обрабатывать много - я бы рекомендовал подумать об использовании какой-либо БД, или хотя-бы нагенерить фейковых случайных тестовых данных и проверить что производительности хватит на такой объем.

Speccyfighter · « **Ответ #4 :** 08.04.2016 03:44:51 »

Шут его знает...
Так как-то, скорость поиска (время в секундах):

locate:

Форум сообществаАльт Линукс

Автор Тема: Что менее накладно: поиск файла в директории или поиск строки в файле ? (Прочитано 946 раз)

Форум сообщества
Альт Линукс