RSS Towards Data Science - Medium フォロー EasyOCRでRAGのためにスキャン済みPDFを解析:無料OCRは文書ではなく単語を提供する Enterprise Document Intelligence [Vol.1 #5quinquies] - 同じ1974年のスキャンされたPDF、2つのエンジン。EasyOCRはテキストを復元します。Doclingはテキスト+セクション+図を復元します。構造的なギャップにより、一方の出力は下流で利用可能になり、もう一方はフラットな文字列になります。 Parse Scanned PDFs for RAG with EasyOCR: Free OCR Gives You Words, Not a Document towardsdatascience.com