Spaces:

Segizu
/

Face_Recognition

Build error

App Files Files Community

Segizu commited on 15 days ago

Commit

14e3122

1 Parent(s): c177ec8

metadata v12

Browse files

Files changed (1) hide show

app.py +15 -27

app.py CHANGED Viewed

@@ -22,12 +22,6 @@ EMBEDDINGS_FILE = EMBEDDINGS_DIR / "embeddings.pkl"
 # ✅ Cargar dataset desde metadata.csv (con URLs absolutas)
 dataset = load_dataset("csv", data_files="metadata.csv")
-dataset = dataset["train"].cast_column("image", HfImage(decode=True))
-# Debug dataset loading
-print("Dataset columns:", dataset.column_names)
-print("Dataset features:", dataset.features)
-print("First item:", dataset[0])
 # 🔄 Preprocesar imagen para Facenet
 def preprocess_image(img: Image.Image) -> np.ndarray:
@@ -48,36 +42,30 @@ def build_database():
     # Debug: Print dataset structure
     print("Dataset structure:", dataset.features)
-    print("First item structure:", dataset[0])
     print("Dataset type:", type(dataset))
-    print("Dataset item type:", type(dataset[0]))
-    for i in range(0, len(dataset), batch_size):
-        batch = dataset[i:i + batch_size]
-        print(f"📦 Procesando lote {i // batch_size + 1}/{(len(dataset) + batch_size - 1) // batch_size}")
         for j, item in enumerate(batch):
             try:
                 print(f"Debug - Processing item {i+j}")
                 print(f"Debug - Item type: {type(item)}")
-                print(f"Debug - Item keys: {item.keys() if isinstance(item, dict) else 'Not a dict'}")
-                # Skip if item is not in the expected format
-                if not isinstance(item, dict):
-                    print(f"⚠️ Skipping item {i+j} - Not a dictionary")
-                    continue
-                if "image" not in item:
-                    print(f"⚠️ Skipping item {i+j} - No image key")
                     continue
-                img = item["image"]
-                print(f"Debug - Image type: {type(img)}")
-                # Skip if image is not a PIL Image
-                if not isinstance(img, Image.Image):
-                    print(f"⚠️ Skipping item {i+j} - Not a PIL Image")
-                    continue
                 # Ensure image is in RGB mode
                 img = img.convert("RGB")
@@ -89,7 +77,7 @@ def build_database():
                 )[0]["embedding"]
                 database.append((f"image_{i+j}", img, embedding))
-                print(f"✅ Procesada imagen {i+j+1}/{len(dataset)}")
                 del img_processed
                 gc.collect()

 # ✅ Cargar dataset desde metadata.csv (con URLs absolutas)
 dataset = load_dataset("csv", data_files="metadata.csv")
 # 🔄 Preprocesar imagen para Facenet
 def preprocess_image(img: Image.Image) -> np.ndarray:
     # Debug: Print dataset structure
     print("Dataset structure:", dataset.features)
+    print("First item structure:", dataset["train"][0])
     print("Dataset type:", type(dataset))
+    print("Dataset item type:", type(dataset["train"][0]))
+    for i in range(0, len(dataset["train"]), batch_size):
+        batch = dataset["train"][i:i + batch_size]
+        print(f"📦 Procesando lote {i // batch_size + 1}/{(len(dataset['train']) + batch_size - 1) // batch_size}")
         for j, item in enumerate(batch):
             try:
                 print(f"Debug - Processing item {i+j}")
                 print(f"Debug - Item type: {type(item)}")
+                print(f"Debug - Item content: {item}")
+                # Get the image URL
+                image_url = item["image"]
+                if not isinstance(image_url, str) or not image_url.startswith("http"):
+                    print(f"⚠️ Skipping item {i+j} - Invalid URL format")
                     continue
+                # Download and process the image
+                response = requests.get(image_url, timeout=10)
+                response.raise_for_status()
+                img = Image.open(BytesIO(response.content))
                 # Ensure image is in RGB mode
                 img = img.convert("RGB")
                 )[0]["embedding"]
                 database.append((f"image_{i+j}", img, embedding))
+                print(f"✅ Procesada imagen {i+j+1}/{len(dataset['train'])}")
                 del img_processed
                 gc.collect()