Spaces:

Chris4K
/

Events

Sleeping

App Files Files Community

Chris4K commited on Dec 6, 2024

Commit

415d65e

verified ·

1 Parent(s): 70989a1

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -29

app.py CHANGED Viewed

@@ -11,10 +11,18 @@ import icalendar
 import uuid
 import re
 import json
 # Hugging Face imports
-from transformers import AutoModelForCausalLM, AutoTokenizer
-import torch
 class EventScraper:
     def __init__(self, urls, timezone='Europe/Berlin'):
@@ -39,25 +47,69 @@ class EventScraper:
         # Model and tokenizer will be loaded on first use
         self.model = None
         self.tokenizer = None
     def setup_llm(self):
         """Setup Hugging Face LLM for event extraction"""
-        if self.model is not None and self.tokenizer is not None:
-            return
         try:
-            model_name = "meta-llama/Llama-3.2-3B-Instruct"
-            self.tokenizer = AutoTokenizer.from_pretrained(model_name)
-            self.model = AutoModelForCausalLM.from_pretrained(
-                model_name,
-                torch_dtype=torch.float16,
-                return_dict_in_generate=False,
-                device_map='auto'
-            )
         except Exception as e:
-            gr.Warning(f"LLM Setup Error: {str(e)}")
             raise
     def fetch_webpage_content(self, url):
         """Fetch webpage content"""
         try:
@@ -160,17 +212,8 @@ class EventScraper:
                 # Generate prompt
                 prompt = self.generate_event_extraction_prompt(text_content)
-                # Tokenize and generate
-                inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
-                outputs = self.model.generate(
-                    inputs.input_ids,
-                    max_new_tokens=12000,
-                    do_sample=True,
-                    temperature=0.9
-                )
-                # Decode response
-                response = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
                 # Parse events
                 parsed_events = self.parse_llm_response(response)
@@ -250,7 +293,7 @@ def scrape_events_with_urls(urls):
     if not url_list:
         gr.Warning("Please provide at least one valid URL.")
-        return [], ""
     try:
         # Initialize scraper
@@ -269,7 +312,7 @@ def scrape_events_with_urls(urls):
     except Exception as e:
         gr.Warning(f"Error in event scraping: {str(e)}")
-        return [], ""
 # Create Gradio Interface
 def create_gradio_app():
@@ -287,9 +330,9 @@ def create_gradio_app():
         with gr.Row():
             with gr.Column():
-                events_output = gr.Textbox(label="Extracted Events (JSON)" )
             with gr.Column():
-                ical_output = gr.Textbox(label="iCal Export")
         scrape_btn.click(
             fn=scrape_events_with_urls,
@@ -298,6 +341,7 @@ def create_gradio_app():
         )
         gr.Markdown("**Note:** Requires an internet connection and may take a few minutes to process.")
     return demo

 import uuid
 import re
 import json
+import os
 # Hugging Face imports
+try:
+    from transformers import AutoModelForCausalLM, AutoTokenizer
+    import torch
+    TRANSFORMERS_AVAILABLE = True
+except ImportError:
+    TRANSFORMERS_AVAILABLE = False
+# Hugging Face Inference Client
+from huggingface_hub import InferenceClient
 class EventScraper:
     def __init__(self, urls, timezone='Europe/Berlin'):
         # Model and tokenizer will be loaded on first use
         self.model = None
         self.tokenizer = None
+        self.client = None
     def setup_llm(self):
         """Setup Hugging Face LLM for event extraction"""
+        # Try local model first
+        if TRANSFORMERS_AVAILABLE:
+            try:
+                model_name = "meta-llama/Llama-3.2-3B-Instruct"
+                self.tokenizer = AutoTokenizer.from_pretrained(model_name)
+                self.model = AutoModelForCausalLM.from_pretrained(
+                    model_name,
+                    torch_dtype=torch.float16,
+                    return_dict_in_generate=False,
+                    device_map='auto'
+                )
+                return
+            except Exception as local_err:
+                gr.Warning(f"Local model setup failed: {str(local_err)}")
+        # Fallback to Inference Client
         try:
+            # Try to get Hugging Face token from environment
+            hf_token = os.getenv('HF_TOKEN')
+            # Setup Inference Client
+            if hf_token:
+                self.client = InferenceClient(
+                    model="meta-llama/Llama-3.2-3B-Instruct",
+                    token=hf_token
+                )
+            else:
+                # Public model access without token
+                self.client = InferenceClient(
+                    model="meta-llama/Llama-3.2-3B-Instruct"
+                )
         except Exception as e:
+            gr.Warning(f"Inference Client setup error: {str(e)}")
             raise
+    def generate_with_model(self, prompt):
+        """Generate text using either local model or inference client"""
+        if self.model and self.tokenizer:
+            # Use local model
+            inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
+            outputs = self.model.generate(
+                inputs.input_ids,
+                max_new_tokens=12000,
+                do_sample=True,
+                temperature=0.9
+            )
+            return self.tokenizer.decode(outputs[0], skip_special_tokens=True)
+        elif self.client:
+            # Use Inference Client
+            return self.client.text_generation(
+                prompt,
+                max_new_tokens=12000,
+                temperature=0.9
+            )
+        else:
+            raise ValueError("No model or client available for text generation")
     def fetch_webpage_content(self, url):
         """Fetch webpage content"""
         try:
                 # Generate prompt
                 prompt = self.generate_event_extraction_prompt(text_content)
+                # Generate response
+                response = self.generate_with_model(prompt)
                 # Parse events
                 parsed_events = self.parse_llm_response(response)
     if not url_list:
         gr.Warning("Please provide at least one valid URL.")
+        return "", ""
     try:
         # Initialize scraper
     except Exception as e:
         gr.Warning(f"Error in event scraping: {str(e)}")
+        return "", ""
 # Create Gradio Interface
 def create_gradio_app():
         with gr.Row():
             with gr.Column():
+                events_output = gr.Textbox(label="Extracted Events (JSON)", lines=10)
             with gr.Column():
+                ical_output = gr.Textbox(label="iCal Export", lines=10)
         scrape_btn.click(
             fn=scrape_events_with_urls,
         )
         gr.Markdown("**Note:** Requires an internet connection and may take a few minutes to process.")
+        gr.Markdown("Set HF_TOKEN environment variable for authenticated access.")
     return demo