protocol-api-mirror

Sleeping

App Files Files Community

muryshev commited on Feb 14

Commit

9347ad1

1 Parent(s): 212f451

update

Browse files

Files changed (7) hide show

llm/common.py +0 -1
llm/deepinfra_api.py +37 -0
llm/llm_api.py +37 -0
main.py +17 -27
models/text_request.py +5 -0
prompts/getsummary.py +36 -0
routes/summary.py +17 -0

llm/common.py CHANGED Viewed

@@ -1,6 +1,5 @@
 from pydantic import BaseModel, Field
 from typing import Optional, List, Protocol
-from abc import ABC, abstractmethod
 class LlmPredictParams(BaseModel):
     """

 from pydantic import BaseModel, Field
 from typing import Optional, List, Protocol
 class LlmPredictParams(BaseModel):
     """

llm/deepinfra_api.py CHANGED Viewed

@@ -1,9 +1,15 @@
 import json
 from typing import Optional, List
 import httpx
 from transformers import AutoTokenizer
 from llm.common import LlmParams, LlmApi
 class DeepInfraApi(LlmApi):
     """
     Класс для работы с API vllm.
@@ -184,3 +190,34 @@ class DeepInfraApi(LlmApi):
             response = await client.post(f"{self.params.url}/v1/openai/chat/completions", headers=super().create_headers(), json=request, timeout=httpx.Timeout(connect=5.0, read=60.0, write=180, pool=10))
             if response.status_code == 200:
                 return response.json()["choices"][0]["message"]["content"]

 import json
 from typing import Optional, List
 import httpx
+import logging
 from transformers import AutoTokenizer
 from llm.common import LlmParams, LlmApi
+logging.basicConfig(
+    level=logging.DEBUG,
+    format="%(asctime)s - %(message)s",
+)
 class DeepInfraApi(LlmApi):
     """
     Класс для работы с API vllm.
             response = await client.post(f"{self.params.url}/v1/openai/chat/completions", headers=super().create_headers(), json=request, timeout=httpx.Timeout(connect=5.0, read=60.0, write=180, pool=10))
             if response.status_code == 200:
                 return response.json()["choices"][0]["message"]["content"]
+            else:
+                logging.info(f"Request {prompt} failed: status code {response.status_code}")
+                logging.info(response.text)
+    async def trim_prompt(self, prompt: str, system_prompt: str = None):
+        result = await self.tokenize(prompt)
+        result_system = None
+        system_prompt_length = 0
+        if system_prompt is not None:
+            result_system = await self.tokenize(system_prompt)
+            if result_system is not None:
+                system_prompt_length = len(result_system["result"])
+        # в случае ошибки при токенизации, вернем исходную строку безопасной длины
+        if result["result"] is None or (system_prompt is not None and result_system is None):
+            return prompt[int(self.params.context_length / 3)]
+        #вероятно, часть уходит на форматирование чата, надо проверить
+        max_length = result["max_length"] - len(result["result"]) - system_prompt_length - self.params.predict_params.n_predict
+        detokenized_str = await self.detokenize(result["result"][:max_length])
+        # в случае ошибки при детокенизации, вернем исходную строку безопасной длины
+        if detokenized_str is None:
+            return prompt[self.params.context_length / 3]
+        return detokenized_str

llm/llm_api.py ADDED Viewed

	@@ -0,0 +1,37 @@

+import os
+from threading import Lock
+from llm.common import LlmParams, LlmPredictParams
+from llm.deepinfra_api import DeepInfraApi
+class LlmApi:
+    _instance = None
+    _lock = Lock()
+    def __new__(cls):
+        with cls._lock:
+            if cls._instance is None:
+                cls._instance = super(LlmApi, cls).__new__(cls)
+                cls._instance._initialize()
+        return cls._instance
+    def _initialize(self):
+        LLM_API_URL = os.getenv("LLM_API_URL", "https://api.deepinfra.com")
+        LLM_API_KEY = os.getenv("DEEPINFRA_API_KEY", "")
+        LLM_NAME = os.getenv("LLM_NAME", "meta-llama/Llama-3.3-70B-Instruct-Turbo")
+        TOKENIZER_NAME = os.getenv("TOKENIZER_NAME", "unsloth/Llama-3.3-70B-Instruct")
+        default_llm_params = LlmParams(
+            url=LLM_API_URL,
+            api_key=LLM_API_KEY,
+            model=LLM_NAME,
+            tokenizer=TOKENIZER_NAME,
+            context_length=130000,
+            predict_params=LlmPredictParams(
+                temperature=0.15, top_p=0.95, min_p=0.05, seed=42,
+                repetition_penalty=1.2, presence_penalty=1.1, n_predict=6000
+            )
+        )
+        self.api = DeepInfraApi(default_llm_params)
+    def get_api(self):
+        return self.api

main.py CHANGED Viewed

@@ -1,6 +1,5 @@
 from fastapi import FastAPI, Request, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
-from pydantic import BaseModel
 import json
 import re
 import os
@@ -10,27 +9,15 @@ from llm import prompts
 from prompts import gettable
 from dotenv import load_dotenv
 import uvicorn
 # Загрузка переменных окружения из файла .env
 load_dotenv()
-LLM_API_URL = os.getenv("LLM_API_URL", "https://api.deepinfra.com")
-LLM_API_KEY = os.getenv("DEEPINFRA_API_KEY", "")
-LLM_NAME = os.getenv("LLM_NAME", "meta-llama/Llama-3.3-70B-Instruct-Turbo")
-TOKENIZER_NAME = os.getenv("TOKENIZER_NAME", "unsloth/Llama-3.3-70B-Instruct")
-default_llm_params = LlmParams(
-    url=LLM_API_URL,
-    api_key=LLM_API_KEY,
-    model=LLM_NAME,
-    tokenizer=TOKENIZER_NAME,
-    context_length=130000,
-    predict_params=LlmPredictParams(
-        temperature=0.15, top_p=0.95, min_p=0.05, seed=42,
-        repetition_penalty=1.2, presence_penalty=1.1, n_predict=6000
-    )
-)
-llm_api = DeepInfraApi(default_llm_params)
 app = FastAPI()
@@ -41,21 +28,28 @@ app.add_middleware(
     allow_methods=["*"]
 )
-class TextRequest(BaseModel):
-    text: str
-    projects: list[str] = []
 async def trim_prompt(prompt: str, system_prompt: str):
     result = await llm_api.tokenize(prompt+system_prompt)
-    result_system = await llm_api.tokenize(system_prompt)
     # в случае ошибки при токенизации, вернем исходную строку безопасной длины
     if result["result"] is None or result_system is None:
         return prompt[llm_api.params.context_length / 3]
     #вероятно, часть уходит на форматирование чата, надо проверить
-    max_length = result["max_length"] - len(result["result"]) - len(result_system["result"]) - llm_api.params.predict_params.n_predict
     detokenized_str = await llm_api.detokenize(result["result"][:max_length])
@@ -133,10 +127,6 @@ async def generate_response(prompt):
     prompt = await trim_prompt(prompt)
     return await llm_api.predict(prompt)
-@app.post("/getsummary")
-async def getsummary_route(request: TextRequest):
-    return {"result": await generate_response(prompts.GET_SUMMARY.format(text=request.text))}
 @app.post("/cleantext")
 async def cleantext_route(request: TextRequest):
     return {"result": await generate_response(prompts.CLEAN_TEXT.format(text=request.text))}

 from fastapi import FastAPI, Request, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 import json
 import re
 import os
 from prompts import gettable
 from dotenv import load_dotenv
 import uvicorn
+from models.text_request import TextRequest
+from llm.llm_api import LlmApi
+from routes.summary import router as summary_router
 # Загрузка переменных окружения из файла .env
 load_dotenv()
+llm_api = LlmApi().get_api()
 app = FastAPI()
     allow_methods=["*"]
 )
+app.include_router(summary_router)
 async def trim_prompt(prompt: str, system_prompt: str):
     result = await llm_api.tokenize(prompt+system_prompt)
+    result_system = None
+    system_prompt_length = 0
+    if system_prompt is not None:
+        result_system = await llm_api.tokenize(system_prompt)
+        if result_system is not None:
+            system_prompt_length = len(result_system["result"])
     # в случае ошибки при токенизации, вернем исходную строку безопасной длины
     if result["result"] is None or result_system is None:
         return prompt[llm_api.params.context_length / 3]
     #вероятно, часть уходит на форматирование чата, надо проверить
+    max_length = result["max_length"] - len(result["result"]) - system_prompt_length - llm_api.params.predict_params.n_predict
     detokenized_str = await llm_api.detokenize(result["result"][:max_length])
     prompt = await trim_prompt(prompt)
     return await llm_api.predict(prompt)
 @app.post("/cleantext")
 async def cleantext_route(request: TextRequest):
     return {"result": await generate_response(prompts.CLEAN_TEXT.format(text=request.text))}

models/text_request.py ADDED Viewed

	@@ -0,0 +1,5 @@

+from pydantic import BaseModel
+class TextRequest(BaseModel):
+    text: str
+    projects: list[str] = []

prompts/getsummary.py ADDED Viewed

	@@ -0,0 +1,36 @@

+USER_PROMPT = """Привет! Твоя задача – кратко и четко пересказать текст расшифровки аудио с речью одного или нескольких человек.
+Входные данные:
+Тебе будет предоставлен объемный текст. У меня нет времени читать его целиком, поэтому:
+Самостоятельно выдели в тексте ключевые смыслы и идеи.
+Представь их в виде пронумерованного списка.
+Пример списка:.
+1. Документы находятся в обработке...
+2. Директор компании поручил устранить неполадки с кулером...
+3. Требуется подготовить письмо в проектную организацию для уточнения сроков...
+И так далее.
+Если в каком-то пункте встречаются подпункты, оформляй их с помощью знака - .
+Например:
+4. Всем сотрудником компании необходимо в индивидуальном порядке приобрести:
+- Теплые шапки
+- Рукавицы
+- Шерстяные носки
+Избегай:
+- Канцеляризмов и штампов
+- Приветствий и прощаний
+- Описательных и вводных конструкций
+- Использования любых символов латинского алфавита, если они не являются частью цитаты одного из спикеров
+Требования к формату:
+Используй официально-деловой стиль.
+Отвечай только на РУССКОМ языке.
+Чем короче и информативнее получится итоговый список, тем лучше.
+Каждый пункт списка должен быть максимально емким.
+Пиши про вещи, которые происходили в рамках совещания, только в прошедшем времени.
+Теперь, пожалуйста, обработай этот текст:
+{text}"""
+CONVERT_SUMMARY_TO_TEXT = """
+Пожалуйста, преврати этот список тезисов в последовательный текст, излагающий суть совещания!
+Постарайся не упустить ничего важного. Сохраняй официально-деловой стиль, не здоровайся и не прощайся.
+Текст должен быть написан на русском языке.
+Список тезисов:
+{summary}"""

routes/summary.py ADDED Viewed

	@@ -0,0 +1,17 @@

+from fastapi import APIRouter
+from models.text_request import TextRequest
+from prompts import getsummary
+from llm.llm_api import LlmApi
+router = APIRouter(prefix="", tags=["summary"])
+@router.post("/getsummary")
+async def getsummary_route(request: TextRequest):
+    llm_api = LlmApi().get_api()
+    trimmed_summary_prompt = await llm_api.trim_prompt(getsummary.USER_PROMPT.format(text=request.text))
+    response_summary = await llm_api.predict(trimmed_summary_prompt)
+    trimmed_convert_prompt = await llm_api.trim_prompt(getsummary.CONVERT_SUMMARY_TO_TEXT.format(summary=response_summary))
+    response_final = await llm_api.predict(trimmed_convert_prompt)
+    return {"result": response_final}