Автор Тема: Графический интерфейс распознавания текста  (Прочитано 7668 раз)

Оффлайн Skull

  • Глобальный модератор
  • *****
  • Сообщений: 19 926
    • Домашняя страница
    • Email
В Сизифе и 5.0 бранче появилась программа cuneiform-qt — графическая программа, использующая движок оптического распознавания символов Cuneiform. Теперь для распознавания текста не нужно запускать процесс из командной строки. Автор — ваш покорный слуга. Принимаются замечания и пожелания (лучше после прочтения TODO. Версии для других бранчей появятся попозже и в дальнейшем — сразу после выхода новой версии.

Домашняя страница проекта: http://www.altlinux.org/Cuneiform-Q

Снимок экрана:
Андрей Черепанов (cas@)

NotHAM

  • Гость
Цитата:  "из TODO"
Значок приложения
Контекстные меню действий для KDE ...

А в Gnome-XFCE работать будет нормально ...?

Оффлайн KPETuH

  • Завсегдатай
  • *
  • Сообщений: 1 162
    • SG
Я так понимаю распознает пока только текст? Как дело с картинками в тексте и с таблицами? какие языки поддерживает? Интересует английский, немецкий, итальянский.
Мой небосклон и чист, и ясен,
И полон радужных картин...  Не потому что мир прекрасен,  А потому, что я - KPETuH

Оффлайн coretech

  • Завсегдатай
  • *
  • Сообщений: 193
Интерфейс - это прекрасно, но сама программа cuneiform лажает просто безбожно. Чтобы быть распознанным, текст на картинке должен быть БОЛЬШИМ (не меньше 15 кегля) и не соседствовать с чисто графическими элементами, иначе получится полная белиберда. Для практического использования пока не годится, увы.

Drool

  • Гость
Есть замечания к спеку, критичные для не x86_64, еще сделаю локализацию, если не против ;) Сделаю - свисну.

Оффлайн Const

  • Глобальный модератор
  • *****
  • Сообщений: 2 653
  • Даже у плохого модератора есть свои плюсы…
Интерфейс - это прекрасно, но сама программа cuneiform лажает просто безбожно. Чтобы быть распознанным, текст на картинке должен быть БОЛЬШИМ (не меньше 15 кегля) и не соседствовать с чисто графическими элементами, иначе получится полная белиберда. Для практического использования пока не годится, увы.
извините, конечно, но размер шрифта на растровой картинке зависит не от его кегля, а от dpi растрового устройства вывода.

Оффлайн dvpartizan

  • Завсегдатай
  • *
  • Сообщений: 51
В TODO. Добавить бы ещё значки страниц слева, как в файнридере.

Оффлайн coretech

  • Завсегдатай
  • *
  • Сообщений: 193
Интерфейс - это прекрасно, но сама программа cuneiform лажает просто безбожно. Чтобы быть распознанным, текст на картинке должен быть БОЛЬШИМ (не меньше 15 кегля) и не соседствовать с чисто графическими элементами, иначе получится полная белиберда. Для практического использования пока не годится, увы.
извините, конечно, но размер шрифта на растровой картинке зависит не от его кегля, а от dpi растрового устройства вывода.
Это понятно. Просто я распознавал текст со скриншота OO Writer, где был текст данного кегля при масштабе 100%.

Оффлайн Const

  • Глобальный модератор
  • *****
  • Сообщений: 2 653
  • Даже у плохого модератора есть свои плюсы…
а dpi=96?  ;)
Просто для интереса отсканируйте текст 15 кегля сканером хотя бы с разрешением 300 dpi и сопоставьте эти картинки поточечно. Думаю, сделаете массу открытий для себя.

Оффлайн coretech

  • Завсегдатай
  • *
  • Сообщений: 193
а dpi=96?  ;)
Просто для интереса отсканируйте текст 15 кегля сканером хотя бы с разрешением 300 dpi и сопоставьте эти картинки поточечно. Думаю, сделаете массу открытий для себя.
Ладно-ладно, я понял свою ошибку, давайте остановимся на формулировке "для распознавания скриншотов не годится"?  ;)

Оффлайн Skull

  • Глобальный модератор
  • *****
  • Сообщений: 19 926
    • Домашняя страница
    • Email
Ладно-ладно, я понял свою ошибку, давайте остановимся на формулировке "для распознавания скриншотов не годится"?  ;)
Если очень большой шрифт, то годится. ;)
Андрей Черепанов (cas@)

Оффлайн Skull

  • Глобальный модератор
  • *****
  • Сообщений: 19 926
    • Домашняя страница
    • Email
В TODO. Добавить бы ещё значки страниц слева, как в файнридере.
Это подразумевается в поддержке многостраничных TIFF.
Андрей Черепанов (cas@)

Оффлайн Const

  • Глобальный модератор
  • *****
  • Сообщений: 2 653
  • Даже у плохого модератора есть свои плюсы…
Опередил, Андрей, пока я считал ;)
Экранный шрифт размером порядка 50 точек будет соответствовать набумажному шрифту 11-12 кегля, отсканированному с разрешением 300dpi

Оффлайн dvpartizan

  • Завсегдатай
  • *
  • Сообщений: 51
В TODO. Добавить бы ещё значки страниц слева, как в файнридере.
Это подразумевается в поддержке многостраничных TIFF.
И только? А если я несколько jpg-гов засуну распозавать, или, дай-то Аллах, будет сканирование работать, насканирую несколько страниц?

Оффлайн Skull

  • Глобальный модератор
  • *****
  • Сообщений: 19 926
    • Домашняя страница
    • Email
И только? А если я несколько jpg-гов засуну распозавать, или, дай-то Аллах, будет сканирование работать, насканирую несколько страниц?
Пакетный режим в TODO прописан. Вообще реально скрестить мою программу со ScanTailor (есть в ALT) — тогда можно обработку делать там, а у меня только пакетное распознавание.
Андрей Черепанов (cas@)