Spaces:

abdullahalioo
/

aiapp

Sleeping

App Files Files Community

abdullahalioo commited on 16 days ago

Commit

a6a8da7

verified ·

1 Parent(s): d6be5f7

Update main.py

Browse files

Files changed (1) hide show

main.py +34 -20

main.py CHANGED Viewed

@@ -1,3 +1,4 @@
 from fastapi import FastAPI, Request
 from pydantic import BaseModel
 from fastapi.middleware.cors import CORSMiddleware
@@ -5,14 +6,19 @@ from fastapi.responses import StreamingResponse
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 import asyncio
 # FastAPI app
 app = FastAPI()
-# CORS Middleware (so JS from browser can access it)
 app.add_middleware(
     CORSMiddleware,
-    allow_origins=["*"],  # Change "*" to your frontend URL for better security
     allow_credentials=True,
     allow_methods=["*"],
     allow_headers=["*"],
@@ -23,14 +29,20 @@ class Question(BaseModel):
     question: str
 # Load the model and tokenizer
-model_name = "Qwen/Qwen2.5-7B-Instruct"  # Use Qwen2.5-7B-Instruct (adjust for VL if needed)
-tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(
-    model_name,
-    torch_dtype=torch.float16,  # Use float16 for GPU memory efficiency
-    device_map="auto",  # Automatically map to GPU/CPU
-    trust_remote_code=True
-)
 async def generate_response_chunks(prompt: str):
     try:
@@ -41,9 +53,8 @@ async def generate_response_chunks(prompt: str):
         ]
         inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
-        # Asynchronous generator to yield tokens as they are generated
         async def stream_tokens():
-            # Generate tokens one by one
             for output in model.generate(
                 inputs,
                 max_new_tokens=512,
@@ -53,26 +64,29 @@ async def generate_response_chunks(prompt: str):
                 pad_token_id=tokenizer.eos_token_id,
                 return_dict_in_generate=True,
                 output_scores=False,
-                streaming=True  # Enable streaming in model.generate (if supported)
             ):
-                # Decode the latest token
-                token_id = output.sequences[0][-1]  # Get the last generated token
                 token_text = tokenizer.decode([token_id], skip_special_tokens=True)
                 if token_text:
                     yield token_text
-                    await asyncio.sleep(0.01)  # Small delay to control streaming speed
-                else:
-                    # Handle special tokens or empty outputs
-                    continue
         return stream_tokens()
     except Exception as e:
         yield f"Error occurred: {e}"
 @app.post("/ask")
 async def ask(question: Question):
     return StreamingResponse(
         generate_response_chunks(question.question),
         media_type="text/plain"
-    )

 from fastapi import FastAPI, Request
 from pydantic import BaseModel
 from fastapi.middleware.cors import CORSMiddleware
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 import asyncio
+import logging
+# Set up logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
 # FastAPI app
 app = FastAPI()
+# CORS Middleware (for frontend access)
 app.add_middleware(
     CORSMiddleware,
+    allow_origins=["*"],  # Update to specific frontend URL in production
     allow_credentials=True,
     allow_methods=["*"],
     allow_headers=["*"],
     question: str
 # Load the model and tokenizer
+model_name = "Qwen/Qwen2.5-7B-Instruct"
+try:
+    logger.info(f"Loading model {model_name}...")
+    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        torch_dtype=torch.float16,
+        device_map="auto",
+        trust_remote_code=True
+    )
+    logger.info("Model loaded successfully.")
+except Exception as e:
+    logger.error(f"Failed to load model: {e}")
+    raise
 async def generate_response_chunks(prompt: str):
     try:
         ]
         inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt").to(model.device)
+        # Asynchronous generator to yield tokens
         async def stream_tokens():
             for output in model.generate(
                 inputs,
                 max_new_tokens=512,
                 pad_token_id=tokenizer.eos_token_id,
                 return_dict_in_generate=True,
                 output_scores=False,
+                streaming=True
             ):
+                token_id = output.sequences[0][-1]
                 token_text = tokenizer.decode([token_id], skip_special_tokens=True)
                 if token_text:
                     yield token_text
+                    await asyncio.sleep(0.01)  # Control streaming speed
+            logger.info("Streaming completed.")
         return stream_tokens()
     except Exception as e:
+        logger.error(f"Error during generation: {e}")
         yield f"Error occurred: {e}"
 @app.post("/ask")
 async def ask(question: Question):
+    logger.info(f"Received question: {question.question}")
     return StreamingResponse(
         generate_response_chunks(question.question),
         media_type="text/plain"
+    )
+@app.get("/")
+async def root():
+    return {"message": "Orion AI Chat API is running!"}