RSS на пути к науке о данных - Medium
Подписаться
Распознавание сканированных PDF для RAG с помощью EasyOCR: бесплатный OCR дает вам слова, а не документ
Enterprise Document Intelligence [Vol.1 #5 quinquies] - Тот же отсканированный PDF 1974 года, два движка. EasyOCR восстанавливает текст. Docling восстанавливает текст + разделы + рисунки. Структурный разрыв делает один вывод пригодным для дальнейшего использования, а другой — плоской строкой.