Автор Тема: Обсуждение и предложения по реализации базы данных проб оборудования  (Прочитано 47030 раз)

Оффлайн sb

  • Модератор глобальный
  • *****
  • Сообщений: 8 999
Само собой разумеется, что, если вдруг какие-либо логи кому-то понадобятся, то все эти нюансы будут вырезаться из вывода, как уже сейчас вырезаются строки комментариев при запросе логов.
Понятное дело, что это всё будет только там, где это не влияет на суть выводимой информации и никак не поможет (имеются ввиду вырезаемые данные) в решении каких-то совершенно конкретных задач. В противном случае я просто не стану реализовывать доступ к этой информации, пока не будет найдено третье решение, которое учтёт все замечания. Как один из возможных гипотетических вариантов тут это передача своего архива представителям разработчика для разбора полётов, после чего они обязуются настрочить комментарий к этой пробе и добавить его на сервис. Либо временный доступ либо что-то ещё. Все эти задачи требуют какого-то конкретного решения в то время, когда ещё не до конца оформлены некоторые внутренние структуры сервиса.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 104
На этом фоне sysreport.ip-addr и sysreport.ip-route выглядят вовсе ахтунгом. Они-то зачем ?
Спросите legion@ как причастного к разработке system-report, который используется для сбора информации.
Для техподдержки это часто может быть важно. Утилита же не для сбора базы делалась. А тут стоит просто удалить перед упаковкой то, что не нужно в явном виде для анализа железа. Информация про ip не нужна, думаю, на 100%.
Это вы ещё росовскую базу не видели - там пробы завязаны на мак адреса и они прямо на основной странице пробы видны.
Не видел. Но и не Росу обсуждаем. :-)

Откуда мне знать, что реально нужно пользователям сервиса ? Поэтому имеем то, что имеем за неимением других предложений.
Ну вот предложение, провести ревизию и зачистить перед формированием архива то, что не требуется в явном виде, а там явно много лишнего. Если syslog/kernel не используется, то удалить, если же есть задумка по использованию, то попробовать зачистить всё, что похоже на MAC-адреса и постараться аналогично с серийниками поступить. Строку из Xorg.0.log зачистить sed-ом - там hostname, кажется, на предопределённой позиции всегда. Да и вообще всю строку можно удалить - она /proc/version фактически дублирует. Ещё архив стоит паковать от tmp.<bla-bla>, а не с полным путём с username.
« Последнее редактирование: 21.12.2017 19:53:32 от asy »

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 104
На, как минимум, e2k нет dmi совсем и мне, честно говоря, не совсем улыбается делать поместный парсер, который будет зависеть от архитектуры присылаемых данных
Понимаю, но ноги потребности знать откуда-то про BIOS растут вот отсюда https://bugzilla.altlinux.org/17971. То есть, в итоге, проблема устранена обновлением BIOS материнки. Модель материнки, соответственно, тоже хотелось бы видеть. Кстати, в пробе 72, в комментарии, ссылка на баг, который, вероятно, тоже зависит от BIOS.
« Последнее редактирование: 21.12.2017 20:10:15 от asy »

Оффлайн sb

  • Модератор глобальный
  • *****
  • Сообщений: 8 999
Для техподдержки это часто может быть важно. Утилита же не для сбора базы делалась. А тут стоит просто удалить перед упаковкой то, что не нужно в явном виде для анализа железа. Информация про ip не нужна, думаю, на 100%.
Ну вот предложение, провести ревизию и зачистить перед формированием архива то, что не требуется в явном виде, а там явно много лишнего. Если syslog/kernel не используется, то удалить, если же есть задумка по использованию, то попробовать зачистить всё, что похоже на MAC-адреса и постараться аналогично с серийниками поступить. Строку из Xorg.0.log зачистить sed-ом - там hostname, кажется, на предопределённой позиции всегда. Да и вообще всю строку можно удалить - она /proc/version фактически дублирует.
Так нельзя исключать вариант, что сервис будет использоваться для техподдержки (он и сейчас фактически используется для этого, но в более, так сказать, простом виде на форуме и прочих сетях желающими на добровольных началах). А данные по ip и прочим вещам (я там ещё конкретно не смотрел, что именно там собирается), если они не содержат адресов из белого диапазона, вполне можно использовать для диагностики проблем с настройкой (ну это как дополнение к решению хардварных и околохардварных вопросов). Удалять же специально предварительно ничего не буду, т.к. данные в любом случае не покинут их места расположения без явного программирования этой возможности, но при всём этом они весьма заметно повышают уникальность архива.
Ещё архив стоит паковать от tmp.<bla-bla>, а не с полным путём с username.
Это тоже относится к уникальности (поскольку, как надо всегда помнить, сервис автономен и он сравнивает пробы в автоматическом режиме на лету так сказать), поэтому и рандомный tmp и имя пользователя, которое в любом разе за пределы сервиса не выйдет.
На, как минимум, e2k нет dmi совсем и мне, честно говоря, не совсем улыбается делать поместный парсер, который будет зависеть от архитектуры присылаемых данных
Понимаю, но ноги потребности знать откуда-то про BIOS растут вот отсюда https://bugzilla.altlinux.org/17971. То есть, в итоге, проблема устранена обновлением BIOS материнки. Модель материнки, соответственно, тоже хотелось бы видеть.
Так что-то ещё припоминается в плане биосов, которые "обновляли, обновляли, да не выбновляли". Хорошо, подумаю над этим вариантом (не придётся повторно что-то заливать, просто информация добавится на страницу с данными), но думаю это сделать вместе с вынужденным переписыванием части функционала с шела на php, поэтому не совсем быстро будет (плюс там ещё в todo удаление из базы числится, а это завязано вообще на всё практически, как бы не пришлось ещё кучу мест переписать).
Для пользователя же сервиса плюс в том, что пока идёт переписывание, сервисом можно без проблем пользоваться, т.к. отработка нового функционала идёт на дубле.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 104
которое в любом разе за пределы сервиса не выйдет.
Ломают даже банки. Так что хранить информацию, утечка которой может быть чревата, а нужность для целевого использования под большим вопросом, не следует. Одно дело отправка данных system-report в техподдержку, когда проблема есть, другое - просто хранить эти же данные, когда человек решил поделится списком хорошо работающего оборудования и не просил решать проблемы. Вот как оценивать уникальность... Можно хэш на основе каких-то серийных номеров генерить и сравнивать.
« Последнее редактирование: 21.12.2017 20:18:48 от asy »

Оффлайн sb

  • Модератор глобальный
  • *****
  • Сообщений: 8 999
Вот как оценивать уникальность... Можно хэш на основе каких-то серийных номеров генерить и сравнивать.
Ломают даже банки.
Это давно пройденный этап - хэши ломают, а с грядущим увеличением доступной мощности ИИ (в том числе и квантовых ферм в ближайшей перспективе) все эти хэши будут, вероятно, сломаны. Есть только один способ сохранить статус-кво: ничего не собирать и свернуть разработку (кстати, не самый плохой вариант).
Так что хранить информацию, утечка которой может быть чревата, а нужность для целевого использования под большим вопросом, не следует. Одно дело отправка данных system-report в техподдержку, когда проблема есть, другое - просто хранить эти же данные, когда человек решил поделится списком хорошо работающего оборудования и не просил решать проблемы.
Обналичивание какой конкретно информации (кроме маков) может нанести непоправимый вред ? В базе росы уже публично доступны все логи без исключения (разве что только там недоступны, где они не попали в пробу). Я не говорю, что так надо делать, но так есть (на форумах и т.п. также повсеместно выкладывают логи xorg со всеми издержками, и не только логи xorg). Значит, страхи несколько преувеличены, хотя я не сторонник раскрывать какой конкретно лотерейный билет в виде мак адреса (или ip адреса из белого пула) выиграл тот или иной конкретный пользователь.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 104
Обналичивание какой конкретно информации (кроме маков) может нанести непоправимый вред ?
Как минимум реальные IP-адреса и настоящие имена хостов. Интернет большой, и некоторое количество школоло может просто ради интереса попробовать полазить. А зная версии ядра и установленных пакетов ещё и эксплойты известные попробовать. И к известному username пароль попробовать подобрать.

Оффлайн sb

  • Модератор глобальный
  • *****
  • Сообщений: 8 999
И к известному username пароль попробовать подобрать.
Без белого ip это вряд ли получится. А он недоступен как минимум.
Как минимум реальные IP-адреса и настоящие имена хостов. Интернет большой, и некоторое количество школоло может просто ради интереса попробовать полазить.
Ну то да, да и боты не дремлют. Основной упор в разработке на простоту и минимализм: все потенциальные узкие места легко обозримы, все решения просты и незамысловаты. В процессе обсуждения возникла ещё одна мысль по дополнительной безопасности хранения собранных данных, которая укладывается в общее построение сервиса. Пожалуй, что можно попробовать реализовать тоже. Это максимально осложнит доступ к данным и в то же самое время упростит некоторые вещи и даже немного ускорит работу сервиса.
Вот как обсуждение сервиса способствует его развитию.
А от фильтрации вывода я как не отказывался изначально, так отказываться не собираюсь. Остаётся только продумать сам механизм.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 104
И к известному username пароль попробовать подобрать.
Без белого ip это вряд ли получится. А он недоступен как минимум.
Так я про хранение этой информации и потенциальную возможность её утечки. И при том, что нужность её для пробы где-то около нуля: если кому-то для оказания помощи надо будет зайти на хост, можно владельца хоста спросить дополнительно. А ещё я хочу закинуть пробу с хоста, где ip-addr имеет объём 364448b, а ip-route - 157763b. И, в общем-то, не хочется закидывать с этими файлами. syslog/kernel/warnings оттуда не хочется закидывать тоже, так как там -j LOG пишется от iptables, опять же, с MAC и IP.

Кстати, а может ключ для игнорирования файлов добавить ? Можно даже сделать его строкой параметров, которые просто передаются в tar, чтобы самостоятельно не разбирать.
« Последнее редактирование: 21.12.2017 21:16:39 от asy »

Оффлайн sb

  • Модератор глобальный
  • *****
  • Сообщений: 8 999
И при том, что нужность её для пробы где-то около нуля: если кому-то для оказания помощи надо будет зайти на хост, можно владельца хоста спросить дополнительно.
Так доступ на хост, если на то дело пошло, тоже может быть чреват (недавние случаи в корпоративной среде по развертыванию ферм по добыче из воздуха всяких тугриков). В этом случае передача помощнику архива равнозначна подобному риску, но избавляет владельца машины от рисков прямого физического доступа и по-прежнему может позволить решить большую часть проблем просто помедитировав над логами.
Так я про хранение этой информации и потенциальную возможность её утечки.
Да, утечки случаются, но последнее время об этом как-то не слышно, значит, уровень защищенности достаточно высокий в прикладной части (без учета алгоритмов шифрования). Иногда много выгоднее использовать социальную инженерию или просто неосведомленность пользователей, чем ломать/искать дыры и ими пользоваться.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 104
Да учечки случаются, но последнее время об этом как-то не слышно
Но зачем хранить потенциально опасную и, при этом, совершенно ненужную информацию ? В каком месте сетевая информация важна для пробы железа ? Как, кстати, и список установленных пакетов (кроме ядра).

Оффлайн sb

  • Модератор глобальный
  • *****
  • Сообщений: 8 999
Как, кстати, и список установленных пакетов (кроме ядра).
Ну вот есть проблема, например, с дровами. Человек что-то не понял, сделал не так, как надо, не установил какой-то пакет. Заглядываешь в список пакетов и видишь, чего не доставлено. Не надо его просить открыть терминал и что-то там набирать. Всё уже собрано и доступно (пока не доступно, но может быть доступно - жду случая и реального юзкейса, чтобы можно было сделать доступным список именно по востребованности).
В каком месте сетевая информация важна для пробы железа ?
Уже писал - проблемы с соединением, настройкой. Достаточно посмотреть эти данные и в большинстве случаев понять, где и в чём ошибка. Человеку можно терминал не запускать, т.к. он уже запустил system-report и тот собрал эти настройки. Понятно, что всё можно не показывать (это как сейчас на сервисах показывают не полный номер банковской карты или номер телефона со звездочками на части цифр).
Но зачем хранить потенциально опасную и, при этом, совершенно ненужную информацию ?
Практика показывает, что эта информация может быть нужной, потенциальные риски уже обсудили и там всё более-менее понятно. И что делать для недопущения утечек тоже примерно понятно. Я же не буду каждому отправляющему задавать вопрос: а вот вы хотите отправить эти данные или нет, а эти, а вон те ? Человеку просто надоест и он не будет пользоваться подобными вещами, а сервис потеряет потенциальную востребованность. Соцсети, кстати говоря, собирают номера телефонов, но это особо не беспокоит, т.к. даже в аккаунте номер показывается не полностью. Безопасность это отдельная тема и отдельный фронт приложения усилий. И он применим для любой ситуации. Но если так подходить, тогда не нужны эти соцсети, банковские системы и прочие сервисы, хранящие более приватную, чем ip адреса информацию.

Оффлайн sb

  • Модератор глобальный
  • *****
  • Сообщений: 8 999
Так я про хранение этой информации и потенциальную возможность её утечки.
Увы, но дыры могут быть, к слову сказать, вот прямо сейчас в процессорах (аппаратной части) https://forum.altlinux.org/index.php?topic=13216.msg321614#msg321614. И тут по идее туши свет сразу, потому что доступ к сетевому интерфейсу имеется и что там может это чудо от интела наворотить наверняка никто не знает (даже интел, если они накосячили в коде, оставив проблему по безопасности). Именно в силу этого используется старое железо, где подобного совершенно точно нет. И это один из моментов по безопасности. Можно сказать, что нагнетаю и сгущаю краски. Но в наш век закрытых и вшитых в железо блобов ошибка или закладка в них может обойтись слишком дорого.

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 104
Так я про хранение этой информации и потенциальную возможность её утечки.
Увы, но дыры могут быть, к слову сказать, вот прямо сейчас в процессорах
По-этому ещё раз вопрос: зачем собирать и хранить ненужную, но потенциально опасную информацию ? Зачем лишняя точка для возникновения ненужных проблем ?

Оффлайн sb

  • Модератор глобальный
  • *****
  • Сообщений: 8 999
По-этому ещё раз вопрос: зачем собирать и хранить ненужную, но потенциально опасную информацию ? Зачем лишняя точка для возникновения ненужных проблем ?
А ещё я хочу закинуть пробу с хоста, где ip-addr имеет объём 364448b, а ip-route - 157763b. И, в общем-то, не хочется закидывать с этими файлами. syslog/kernel/warnings оттуда не хочется закидывать тоже, так как там -j LOG пишется от iptables, опять же, с MAC и IP.
Кстати, а может ключ для игнорирования файлов добавить ? Можно даже сделать его строкой параметров, которые просто передаются в tar, чтобы самостоятельно не разбирать.
Так накидайте список того, что по-вашему отправлять не стоит (в одном месте чтобы было собрано). Только имейте ввиду один момент: это будет сделано не опционально, а по умолчанию, бишь без ключей и для всех пользователей с версией system-report, поддерживающей такую возможность (придётся ещё и версию разбирать, чтобы понять, что этот ключ можно применить по исключению).