فهرست منبع

fix: ocr issue

Timothy J. Baek 1 سال پیش
والد
کامیت
b88c64f80e
2فایلهای تغییر یافته به همراه2 افزوده شده و 1 حذف شده
  1. 1 1
      backend/apps/rag/main.py
  2. 1 0
      backend/requirements.txt

+ 1 - 1
backend/apps/rag/main.py

@@ -425,7 +425,7 @@ def get_loader(filename: str, file_content_type: str, file_path: str):
     ]
 
     if file_ext == "pdf":
-        loader = PyPDFLoader(file_path)
+        loader = PyPDFLoader(file_path, extract_images=True)
     elif file_ext == "csv":
         loader = CSVLoader(file_path)
     elif file_ext == "rst":

+ 1 - 0
backend/requirements.txt

@@ -35,6 +35,7 @@ openpyxl
 pyxlsb
 xlrd
 rapidocr-onnxruntime
+opencv-python-headless
 
 faster-whisper