А какие есть варианты с извлечением текста из странного pdf ? okular, acroread, xpdf его вполне себе показывают по-русски. но вот попытка скопировать текст приводит к тому, что в буфер попадает что-то вроде
Ñåãîäíÿ î÷åâèäíà
Есть идеи ?
Очевидно, нужен какой-то преобразователь в текст, который не учитывает кодировку (её потом можно и подобрать). Сейчас же кодировка просто портится...