Какие сейчас есть локальные OCR
Модератор: Модераторы
Какие сейчас есть локальные OCR
Понадобилось вдруг найти текст в djvu, файл большой со страницами на разворот, чет современные сервисы не тянут, да и качество у них унылое на тестовых страничках, вообще есть сейчас проги для распознавания текста?
- Alexander
- энтузиаст
- Сообщения: 864
- Зарегистрирован: 18.12.2005 18:10:00
- Откуда: оттуда
- Контактная информация:
Re: Какие сейчас есть локальные OCR
Думаю, что редкий OCR может воспринять djvu напрямую (к сожалению) и скорее всего нужно преобразовывать формат.
Готовые есть, но качество распознавания вряд ли совсем хорошее (да и достижимо ли оно?):
https://www.linuxlinks.com/ocrtools/
https://www.baeldung.com/linux/ocr-tools
Ну и поиск по репозиторию своего дистрибутива пакетов со словом "OCR".
Когда-то пытался сделать OCR на основе ИИ, но дальше тестов дело не пошло. Там много чего делать и доделывать надо.
Но раз вопрос задан - выкладываю что есть на данный момент, а вдруг пригодится:
http://soft.self-made-free.ru/IIOCRRUEXT_001.txz
Готовые есть, но качество распознавания вряд ли совсем хорошее (да и достижимо ли оно?):
https://www.linuxlinks.com/ocrtools/
https://www.baeldung.com/linux/ocr-tools
Ну и поиск по репозиторию своего дистрибутива пакетов со словом "OCR".
Когда-то пытался сделать OCR на основе ИИ, но дальше тестов дело не пошло. Там много чего делать и доделывать надо.
Но раз вопрос задан - выкладываю что есть на данный момент, а вдруг пригодится:
http://soft.self-made-free.ru/IIOCRRUEXT_001.txz
Re: Какие сейчас есть локальные OCR
ого, спасибоAlexander писал(а):а вдруг пригодится
Добавлено спустя 8 минут 19 секунд:
в томто и дело, такое ощущение возникло что сейчас 1999 год, вроде начитаешься про ии, ожидаешь нормального результата, а нет, надо править и сильно, и главное нет интерактивной возможности влиять на результат.Alexander писал(а):Готовые есть, но качество распознавания вряд ли совсем хорошее (да и достижимо ли оно?):
Re: Какие сейчас есть локальные OCR
djvu -> pdfAlexander писал(а):Готовые есть, но качество распознавания вряд ли совсем хорошее (да и достижимо ли оно?):
https://github.com/kcroker/dpsprep
pdf -> ocr'ed pdf
https://github.com/docling-project/docling-serve
