فهرست منبع

Fix: Tika 3.1.0.0 sends a lot of blank lines which degrades the RAG results, strip them.

Iván Baldo 1 ماه پیش
والد
کامیت
115e46a6a2
1فایلهای تغییر یافته به همراه1 افزوده شده و 1 حذف شده
  1. 1 1
      backend/open_webui/retrieval/loaders/main.py

+ 1 - 1
backend/open_webui/retrieval/loaders/main.py

@@ -105,7 +105,7 @@ class TikaLoader:
 
 
         if r.ok:
         if r.ok:
             raw_metadata = r.json()
             raw_metadata = r.json()
-            text = raw_metadata.get("X-TIKA:content", "<No text content found>")
+            text = raw_metadata.get("X-TIKA:content", "<No text content found>").strip()
 
 
             if "Content-Type" in raw_metadata:
             if "Content-Type" in raw_metadata:
                 headers["Content-Type"] = raw_metadata["Content-Type"]
                 headers["Content-Type"] = raw_metadata["Content-Type"]