Какие сейчас есть локальные OCR

Любые обсуждения, не нарушающие правил форума.

Модератор: Модераторы

Ответить
sts
энтузиаст
Сообщения: 519
Зарегистрирован: 04.04.2008 12:15:44
Откуда: Тольятти

Какие сейчас есть локальные OCR

Сообщение sts »

Понадобилось вдруг найти текст в djvu, файл большой со страницами на разворот, чет современные сервисы не тянут, да и качество у них унылое на тестовых страничках, вообще есть сейчас проги для распознавания текста?
Аватара пользователя
Alexander
энтузиаст
Сообщения: 864
Зарегистрирован: 18.12.2005 18:10:00
Откуда: оттуда
Контактная информация:

Re: Какие сейчас есть локальные OCR

Сообщение Alexander »

Думаю, что редкий OCR может воспринять djvu напрямую (к сожалению) и скорее всего нужно преобразовывать формат.
Готовые есть, но качество распознавания вряд ли совсем хорошее (да и достижимо ли оно?):
https://www.linuxlinks.com/ocrtools/
https://www.baeldung.com/linux/ocr-tools
Ну и поиск по репозиторию своего дистрибутива пакетов со словом "OCR".

Когда-то пытался сделать OCR на основе ИИ, но дальше тестов дело не пошло. Там много чего делать и доделывать надо.
Но раз вопрос задан - выкладываю что есть на данный момент, а вдруг пригодится:
http://soft.self-made-free.ru/IIOCRRUEXT_001.txz
sts
энтузиаст
Сообщения: 519
Зарегистрирован: 04.04.2008 12:15:44
Откуда: Тольятти

Re: Какие сейчас есть локальные OCR

Сообщение sts »

Alexander писал(а):а вдруг пригодится
ого, спасибо

Добавлено спустя 8 минут 19 секунд:
Alexander писал(а):Готовые есть, но качество распознавания вряд ли совсем хорошее (да и достижимо ли оно?):
в томто и дело, такое ощущение возникло что сейчас 1999 год, вроде начитаешься про ии, ожидаешь нормального результата, а нет, надо править и сильно, и главное нет интерактивной возможности влиять на результат.
delphius
постоялец
Сообщения: 131
Зарегистрирован: 18.03.2020 12:40:11

Re: Какие сейчас есть локальные OCR

Сообщение delphius »

Alexander писал(а):Готовые есть, но качество распознавания вряд ли совсем хорошее (да и достижимо ли оно?):
djvu -> pdf
https://github.com/kcroker/dpsprep
pdf -> ocr'ed pdf
https://github.com/docling-project/docling-serve
Ответить