Spaces:

petertill
/

cordia-api

Sleeping

App Files Files Community

cordia-api / app.py

petertill

Update app.py

491f951 verified about 1 month ago

raw

history blame contribute delete

3.4 kB

	from fastapi import FastAPI, HTTPException
	from pydantic import BaseModel
	from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
	import uvicorn
	import os

	app = FastAPI()
	API_KEY = os.environ.get("API_KEY")

	try:
	model = AutoModelForCausalLM.from_pretrained("petertill/cordia-a6")
	tokenizer = AutoTokenizer.from_pretrained("petertill/cordia-a6")
	pipe = pipeline("text-generation", model=model, tokenizer=tokenizer)
	print("Model and tokenizer loaded successfully!")

	class Message(BaseModel):
	role: str # "system", "user", or "assistant"
	content: str

	class GenerateRequest(BaseModel):
	system_prompt : str
	messages: list[Message]
	key: str
	max_length: int = 1024
	temperature: float = 0.7

	class TokenUsage(BaseModel):
	prompt_tokens: int
	completion_tokens: int
	total_tokens: int

	class GenerateResponse(BaseModel):
	generated_text: str
	usage: TokenUsage

	@app.post("/generate", response_model=GenerateResponse)
	async def generate(request: GenerateRequest):
	if request.key != API_KEY:
	raise HTTPException(status_code=401, detail="Unauthorized")

	try:
	# Format messages into a prompt format the model expects
	formatted_prompt = ""
	formatted_prompt += f"<\|system\|>\n{request.system_prompt}</s>\n"
	for message in request.messages:
	if message.role == "system":
	formatted_prompt += f"<system>\n{message.content}\n</system>\n"
	elif message.role == "user":
	formatted_prompt += f"<user>\n{message.content}\n</user>\n"
	elif message.role == "assistant":
	formatted_prompt += f"<assistant>\n{message.content}\n</assistant>\n"

	# Add final assistant prefix for generation
	formatted_prompt += "<assistant>\n"

	# Count tokens in the prompt
	prompt_tokens = len(tokenizer.encode(formatted_prompt))

	output = pipe(
	formatted_prompt,
	#max_length=request.max_length,
	#temperature=request.temperature,
	do_sample=True,
	return_full_text=True # Make sure we get the full text
	)[0]['generated_text']

	# Extract only the newly generated assistant response
	response_text = output.split("<assistant>\n")[-1].split("</assistant>")[0]

	# Count tokens in the completion
	full_output_tokens = len(tokenizer.encode(output))
	completion_tokens = full_output_tokens - prompt_tokens

	usage = TokenUsage(
	prompt_tokens=prompt_tokens,
	completion_tokens=completion_tokens,
	total_tokens=prompt_tokens + completion_tokens
	)

	return GenerateResponse(generated_text=response_text,usage=usage)
	except Exception as e:
	raise HTTPException(status_code=500, detail=str(e))
	#try:
	#output = pipe(request.prompt)[0]['generated_text']
	#return GenerateResponse(generated_text=output)
	#except Exception as e:
	#

	except Exception as e:
	print(f"Error: {e}")

	if __name__ == "__main__":
	uvicorn.run(app, host="0.0.0.0", port=7860)