Автор Тема: Поражённый grep`ом {РЕШЕНО}  (Прочитано 1390 раз)

Оффлайн Kirikekeks

  • Полу-попутчик, полу-мудрец, полу-невежда, полу-подлец...
  • Участник
  • *
  • Сообщений: 314
Поражённый grep`ом {РЕШЕНО}
« : 01.08.2015 08:47:34 »
Доброго дня всеведующие!
До сего момента я сохраняю основные документы в .ods формате. Но тут почитал о grep и возникла мысль все документы из жизни офисов перевести в формат, осязаемый grep. Ну текстовые - точно. Посоветуйте:
- в какой формат рациональнее перевести текстовые документы, что бы и  grep  читает  и офисные приложения открывают .xml? .docx? .html?
Хотелось бы использовать мощь grepa и иметь возможность легко вернуть документ в .doc формат.
Хочется обойти все грабли и узнать чужие ошибки.
- а если формат существует, то какую утилиту использовать для массовой конвертации?

Учше!

Предыстория: искал в /home/ старый файлик в котором использовалось слово "сказка". Рекурсивно грепнул. Получил мгновенно все книги .fb2, в которых это слово используется. 
« Последнее редактирование: 07.09.2015 11:22:26 от Kirikekeks »
Ламер

Оффлайн flint1975

  • Участник
  • *
  • Сообщений: 1 443
Re: Поражённый grep`ом
« Ответ #1 : 27.08.2015 07:27:26 »
Собственно, идея очень здравая - но мне мнится, что это TEX/LATEX ! А вот как конвертить - вопрос!

Оффлайн asy

  • alt linux team
  • ***
  • Сообщений: 8 368
Re: Поражённый grep`ом
« Ответ #2 : 27.08.2015 08:56:34 »
Open Document - это xml, запакованный zip-ом. И картинки, отдельными файлами, в том же zip-е.

Оффлайн Kirikekeks

  • Полу-попутчик, полу-мудрец, полу-невежда, полу-подлец...
  • Участник
  • *
  • Сообщений: 314
Re: Поражённый grep`ом
« Ответ #3 : 27.08.2015 23:03:16 »
Доброго дня!
вообще то ответов целых два:
http://dag.wiee.rs/home-made/unoconv/
и
http://www.destructio.ru/2013/07/doc-docx-terminal-processing/
и даже
https://help.libreoffice.org/Common/Starting_the_Software_With_Parameters/ru
к этой теме обязательно вернусь, но занят отдыхом чрезмерно.
Ламер

Оффлайн Kirikekeks

  • Полу-попутчик, полу-мудрец, полу-невежда, полу-подлец...
  • Участник
  • *
  • Сообщений: 314
Re: Поражённый grep`ом
« Ответ #4 : 07.09.2015 08:18:55 »
Мне оказался доступным такой вариант:
утиллита catdoc бодро переводит *.doc формат в txt.
for file in *.doc; do catdoc -m120 $file > $file.txt; done
которая приводит все файлы в папке в следующий вид:
Спойлер
agreement.doc
agreement.doc.txt
AminoTabs.doc
AminoTabs.doc.txt
ArginineAKGCaps.doc
ArginineAKGCaps.doc.txt
BCAA.doc
BCAA.doc.txt
BCAATabs.doc
BCAATabs.doc.txt
Carnitine2000.doc
Carnitine2000.doc.txt
CarnitineCaps.doc
CarnitineCaps.doc.txt
catdoc→txt.sh
catdoc-v.txt
Creation.doc
Creation.doc.txt
Glution.doc
Glution.doc.txt
invent14.8.ods
Price.doc
Price.doc.txt
с весьма достойным качеством.

Так же приятным бонусом в ней xls2csv и отдельно установить xlsx2csv, что позволяет грепать ряд эксель файлов, ну например постоянно забываю как русские и английские функции в exel и давно держу справочник функций, переведённый в текст он очень быстро помогает найти нужное:
 grep -R прописн ~/CatDoc/
/home/CatDoc/Exel.fun.txt:"PROPER","ПРОПНАЧ","Делает прописной первую букву в каждом слове текста."
/home/CatDoc/Exel.fun.txt:"UPPER","ПРОПИСН","Делает все буквы в тексте прописными."
можно с успехом применять в справочниках замены номенклатур, что создаются для ВПР и прочее.

Удовлетворён
« Последнее редактирование: 07.09.2015 11:07:23 от Kirikekeks »
Ламер

Оффлайн Kirikekeks

  • Полу-попутчик, полу-мудрец, полу-невежда, полу-подлец...
  • Участник
  • *
  • Сообщений: 314
Re: Поражённый grep`ом
« Ответ #5 : 07.09.2015 11:19:56 »
Open Document - это xml,
Коль так, то нашёл конвертеры xml2, xmlto c которыми можно прочитать odf. Просто пока хватает catdoc ибо все внешние форматы M$
Ламер