make-stockimage-dataset

Sleeping

App Files Files Community

Deadmon commited on Mar 21

Commit

def6f3f

verified ·

1 Parent(s): b700ceb

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -40

app.py CHANGED Viewed

@@ -38,21 +38,21 @@ API_CONFIGS = {
         "headers": {"Authorization": "klHADHclpse2e2xSP9h747AgfE1Rx0wioemGhXYtedjZzvJ1WBUKwz7g"},
         "image_key": "src.medium",
         "result_key": "photos",
-        "delay": 2  # Pexels rate limit: 200/hour free tier (~1 request every 18s, using 2s for safety)
     },
     "unsplash": {
         "base_url": "https://api.unsplash.com/search/photos",
         "headers": {"Authorization": "Client-ID UKkhpD_Rs5-s1gIlVX28iNs_8E4ysPhQniyIpDpKUnU"},
         "image_key": "urls.small",
         "result_key": "results",
-        "delay": 2  # Unsplash rate limit: 50/hour free tier (~1 request every 72s, using 2s for safety)
     },
     "pixabay": {
         "base_url": "https://pixabay.com/api/",
         "headers": {},
         "image_key": "webformatURL",
         "result_key": "hits",
-        "delay": 1  # Pixabay has higher limits (5000/hour), so 1s is fine
     }
 }
@@ -69,7 +69,7 @@ def load_used_pages():
     return data
 def save_used_pages(data):
-    """Save the used pages tracking file."""
     with open(TRACKING_FILE, "w") as f:
         json.dump(data, f)
@@ -96,6 +96,7 @@ def fetch_image_urls(api_name, category, num_images):
     pages = get_available_pages(num_pages_needed, api_name)
     if not pages:
         return []
     image_urls = []
@@ -108,11 +109,15 @@ def fetch_image_urls(api_name, category, num_images):
             url = f"{config['base_url']}?query={category.lower()}&per_page={ITEMS_PER_PAGE}&page={page}"
         try:
             time.sleep(config.get("delay", 0))  # Respect API rate limits
             response = requests.get(url, headers=config["headers"])
             response.raise_for_status()
             data_response = response.json()
             # Validate response contains expected key
             if config["result_key"] not in data_response or not data_response[config["result_key"]]:
                 logger.warning(f"No {config['result_key']} found for page {page} from {api_name}")
@@ -125,29 +130,39 @@ def fetch_image_urls(api_name, category, num_images):
                 image_url = item.get(config["image_key"])
                 if image_url:
                     page_urls.append(image_url)
             if page_urls:
                 image_urls.extend(page_urls)
                 data["used_pages"].setdefault(api_name, []).append(page)
                 save_used_pages(data)
                 logger.info(f"Successfully fetched {len(page_urls)} images from page {page} for {api_name}")
         except requests.exceptions.RequestException as e:
             logger.error(f"Error fetching page {page} from {api_name}: {e}")
-            if response.status_code == 401:
-                logger.error(f"401 Unauthorized for {api_name}. Check your API key.")
-            elif response.status_code == 400:
-                logger.error(f"400 Bad Request for {api_name}. Check parameters or API key.")
-            elif response.status_code == 429:
-                logger.error(f"429 Rate Limit Exceeded for {api_name}. Wait before retrying.")
-            if page in data["used_pages"].get(api_name, []):
-                data["used_pages"][api_name].remove(page)
-                save_used_pages(data)
-                logger.info(f"Removed failed page {page} from {api_name}")
             break
     return image_urls[:num_images]
 def download_images(image_urls):
     """Download images from the provided URLs and save to IMAGES_DIR."""
     if os.path.exists(IMAGES_DIR):
         shutil.rmtree(IMAGES_DIR)
     os.makedirs(IMAGES_DIR, exist_ok=True)
@@ -156,20 +171,22 @@ def download_images(image_urls):
     image_paths = []
     for idx, url in enumerate(image_urls, 1):
         try:
-            response = requests.get(url, stream=True)
             response.raise_for_status()
             image_path = os.path.join(IMAGES_DIR, f"img{idx}.jpg")
             with open(image_path, "wb") as f:
                 for chunk in response.iter_content(chunk_size=8192):
                     if chunk:
                         f.write(chunk)
-            Image.open(image_path).verify()
             downloaded_count += 1
             image_paths.append(image_path)
-            print(f"Downloaded {idx}/{len(image_urls)}: {url}")
         except Exception as e:
-            print(f"Error downloading {url}: {e}")
     return downloaded_count, image_paths
 def create_zip_file(selected_image_paths):
@@ -190,11 +207,13 @@ def process_and_display(api_name, category, num_images):
     image_urls = fetch_image_urls(api_name, category, num_images)
     if not image_urls:
-        return "No unique images available today or API limit reached. Check logs for details.", None, [], [None] * TOTAL_IMAGES, [False] * TOTAL_IMAGES
     downloaded_count, image_paths = download_images(image_urls)
     if downloaded_count == 0:
-        return "No images were successfully downloaded.", None, [], [None] * TOTAL_IMAGES, [False] * TOTAL_IMAGES
     status = f"Successfully downloaded {downloaded_count}/{num_images} images from {api_name}. Select images to include in ZIP below."
     image_outputs = [image_paths[i] if i < len(image_paths) else None for i in range(TOTAL_IMAGES)]
@@ -372,23 +391,4 @@ with gr.Blocks(title="Stock Photo Downloader", css=css) as demo:
             zip_path,
             image_paths,
             *[gr.Image(value=img, visible=img is not None, label=f"Image {i+1}", height=150, width=150) if img else gr.Image(value=None, visible=False) for i, img in enumerate(image_outs)],
-            *[gr.Checkbox(value=chk, visible=i < len(image_paths), label=f"Image {i+1}", scale=0) for i, chk in enumerate(checkbox_outs)]
-        )
-    def on_submit(image_paths, *checkbox_states):
-        status, zip_path = process_zip_submission(image_paths, *checkbox_states)
-        return status, gr.File(value=zip_path, visible=True) if zip_path else gr.File(visible=False)
-    download_button.click(
-        fn=on_download,
-        inputs=[api_input, category_input, num_images_input],
-        outputs=[status_output, zip_output, image_paths_state] + image_outputs + checkbox_outputs
-    )
-    submit_button.click(
-        fn=on_submit,
-        inputs=[image_paths_state] + checkbox_outputs,
-        outputs=[status_output, zip_output]
-    )
-demo.launch()

         "headers": {"Authorization": "klHADHclpse2e2xSP9h747AgfE1Rx0wioemGhXYtedjZzvJ1WBUKwz7g"},
         "image_key": "src.medium",
         "result_key": "photos",
+        "delay": 2
     },
     "unsplash": {
         "base_url": "https://api.unsplash.com/search/photos",
         "headers": {"Authorization": "Client-ID UKkhpD_Rs5-s1gIlVX28iNs_8E4ysPhQniyIpDpKUnU"},
         "image_key": "urls.small",
         "result_key": "results",
+        "delay": 2
     },
     "pixabay": {
         "base_url": "https://pixabay.com/api/",
         "headers": {},
         "image_key": "webformatURL",
         "result_key": "hits",
+        "delay": 1
     }
 }
     return data
 def save_used_pages(data):
+    """Save the used_pages tracking file."""
     with open(TRACKING_FILE, "w") as f:
         json.dump(data, f)
     pages = get_available_pages(num_pages_needed, api_name)
     if not pages:
+        logger.error(f"No available pages for {api_name}")
         return []
     image_urls = []
             url = f"{config['base_url']}?query={category.lower()}&per_page={ITEMS_PER_PAGE}&page={page}"
         try:
+            logger.info(f"Fetching from {api_name} URL: {url}")
             time.sleep(config.get("delay", 0))  # Respect API rate limits
             response = requests.get(url, headers=config["headers"])
             response.raise_for_status()
             data_response = response.json()
+            # Log the raw response for debugging
+            logger.debug(f"{api_name} response: {json.dumps(data_response, indent=2)}")
             # Validate response contains expected key
             if config["result_key"] not in data_response or not data_response[config["result_key"]]:
                 logger.warning(f"No {config['result_key']} found for page {page} from {api_name}")
                 image_url = item.get(config["image_key"])
                 if image_url:
                     page_urls.append(image_url)
+                else:
+                    logger.warning(f"No {config['image_key']} found in item: {item}")
             if page_urls:
                 image_urls.extend(page_urls)
                 data["used_pages"].setdefault(api_name, []).append(page)
                 save_used_pages(data)
                 logger.info(f"Successfully fetched {len(page_urls)} images from page {page} for {api_name}")
+            else:
+                logger.warning(f"No valid image URLs found on page {page} for {api_name}")
         except requests.exceptions.RequestException as e:
             logger.error(f"Error fetching page {page} from {api_name}: {e}")
+            if "response" in locals():
+                if response.status_code == 401:
+                    logger.error(f"401 Unauthorized for {api_name}. Check your API key.")
+                elif response.status_code == 400:
+                    logger.error(f"400 Bad Request for {api_name}. Check parameters or API key.")
+                elif response.status_code == 429:
+                    logger.error(f"429 Rate Limit Exceeded for {api_name}. Wait before retrying.")
+                if page in data["used_pages"].get(api_name, []):
+                    data["used_pages"][api_name].remove(page)
+                    save_used_pages(data)
+                    logger.info(f"Removed failed page {page} from {api_name}")
             break
+    logger.info(f"Total image URLs fetched from {api_name}: {len(image_urls)}")
     return image_urls[:num_images]
 def download_images(image_urls):
     """Download images from the provided URLs and save to IMAGES_DIR."""
+    if not image_urls:
+        logger.error("No image URLs provided to download")
+        return 0, []
     if os.path.exists(IMAGES_DIR):
         shutil.rmtree(IMAGES_DIR)
     os.makedirs(IMAGES_DIR, exist_ok=True)
     image_paths = []
     for idx, url in enumerate(image_urls, 1):
         try:
+            logger.info(f"Downloading image {idx}/{len(image_urls)}: {url}")
+            response = requests.get(url, stream=True, timeout=10)
             response.raise_for_status()
             image_path = os.path.join(IMAGES_DIR, f"img{idx}.jpg")
             with open(image_path, "wb") as f:
                 for chunk in response.iter_content(chunk_size=8192):
                     if chunk:
                         f.write(chunk)
+            Image.open(image_path).verify()  # Verify it's a valid image
             downloaded_count += 1
             image_paths.append(image_path)
+            logger.info(f"Downloaded {idx}/{len(image_urls)}: {url}")
         except Exception as e:
+            logger.error(f"Error downloading {url}: {e}")
+    logger.info(f"Total images downloaded: {downloaded_count}")
     return downloaded_count, image_paths
 def create_zip_file(selected_image_paths):
     image_urls = fetch_image_urls(api_name, category, num_images)
     if not image_urls:
+        logger.error(f"No images fetched from {api_name} for category {category}")
+        return f"No unique images available from {api_name} today or API limit reached. Check logs for details.", None, [], [None] * TOTAL_IMAGES, [False] * TOTAL_IMAGES
     downloaded_count, image_paths = download_images(image_urls)
     if downloaded_count == 0:
+        logger.error(f"No images downloaded from {api_name}")
+        return f"No images were successfully downloaded from {api_name}.", None, [], [None] * TOTAL_IMAGES, [False] * TOTAL_IMAGES
     status = f"Successfully downloaded {downloaded_count}/{num_images} images from {api_name}. Select images to include in ZIP below."
     image_outputs = [image_paths[i] if i < len(image_paths) else None for i in range(TOTAL_IMAGES)]
             zip_path,
             image_paths,
             *[gr.Image(value=img, visible=img is not None, label=f"Image {i+1}", height=150, width=150) if img else gr.Image(value=None, visible=False) for i, img in enumerate(image_outs)],
+            *[gr.Chec