Распознавание сканированных PD... Заметка

Распознавание сканированных PDF для RAG с помощью EasyOCR: бесплатный OCR дает вам слова, а не документ

Enterprise Document Intelligence [Vol.1 #5 quinquies] - Тот же отсканированный PDF 1974 года, два движка. EasyOCR восстанавливает текст. Docling восстанавливает текст + разделы + рисунки. Структурный разрыв делает один вывод пригодным для дальнейшего использования, а другой — плоской строкой.