protocol-api-mirror

Sleeping

App Files Files Community

muryshev commited on Feb 12

Commit

2ccde67

1 Parent(s): be938bc

Добавлен токенизатор для корректной обрезки запроса.

Browse files

Files changed (6) hide show

Dockerfile +20 -8
llm/common.py +2 -0
llm/deepinfra_api.py +33 -2
llm/vllm_api.py +1 -1
main.py +61 -3
prompts/gettable.py +46 -43

Dockerfile CHANGED Viewed

@@ -3,15 +3,14 @@ FROM python:3.10-slim-bullseye
 # Set Python to use unbuffered mode
 ENV PYTHONUNBUFFERED=1
 ENV PATH="/var/www/.local/bin:${PATH}"
 # Create a non-root user
 RUN useradd -m -u 1000 -U -s /bin/bash myuser
-# Install dependencies
-RUN apt-get update && \
-    apt-get install -y --no-install-recommends python3-pip python3-dev && \
     rm -rf /var/lib/apt/lists/*
 # Set the working directory in the container
@@ -26,12 +25,25 @@ RUN chown -R myuser:myuser /var/www
 USER myuser
 # Copy the current directory contents into the container at /var/www
-COPY . /var/www
-RUN pip install --user -r requirements.txt
 # Expose the port
-EXPOSE 7860
 # Run FastAPI app with Uvicorn
-CMD uvicorn main:app --host 0.0.0.0 --port 7860

 # Set Python to use unbuffered mode
 ENV PYTHONUNBUFFERED=1
 ENV PATH="/var/www/.local/bin:${PATH}"
 # Create a non-root user
 RUN useradd -m -u 1000 -U -s /bin/bash myuser
+# Install system dependencies
+RUN apt-get update && apt-get install -y --no-install-recommends \
+    python3-pip python3-dev git && \
     rm -rf /var/lib/apt/lists/*
 # Set the working directory in the container
 USER myuser
 # Copy the current directory contents into the container at /var/www
+COPY --chown=myuser:myuser . /var/www
+# Install dependencies
+RUN pip install --no-cache-dir -r requirements.txt && \
+    pip install --no-cache-dir transformers sentencepiece
+# Define tokenizer name
+ARG TOKENIZER_NAME=unsloth/Llama-3.3-70B-Instruct
+ENV TOKENIZER_NAME=${TOKENIZER_NAME}
+ARG APP_PORT=7860
+ENV APP_PORT=${APP_PORT}
+# Download the tokenizer and store it in the image
+RUN python -c "from transformers import AutoTokenizer; \
+    AutoTokenizer.from_pretrained('${TOKENIZER_NAME}')"
 # Expose the port
+EXPOSE ${APP_PORT}
 # Run FastAPI app with Uvicorn
+CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", APP_PORT]

llm/common.py CHANGED Viewed

@@ -31,11 +31,13 @@ class LlmParams(BaseModel):
     """
     url: str
     model: Optional[str] = Field(None, description="Предполагается, что для локального API этот параметр не будет указываться, т.к. будем брать первую модель из списка потому, что модель доступна всего одна. Для deepinfra такой подход не подойдет и модель нужно задавать явно.")
     type: Optional[str] = None
     default: Optional[bool] = None
     template: Optional[str] = None
     predict_params: Optional[LlmPredictParams] = None
     api_key: Optional[str] = None
 class LlmApiProtocol(Protocol):
     async def tokenize(self, prompt: str) -> Optional[dict]:

     """
     url: str
     model: Optional[str] = Field(None, description="Предполагается, что для локального API этот параметр не будет указываться, т.к. будем брать первую модель из списка потому, что модель доступна всего одна. Для deepinfra такой подход не подойдет и модель нужно задавать явно.")
+    tokenizer: Optional[str]  = Field(None, description="При использовании стороннего API, не поддерживающего токенизацию, будет использован AutoTokenizer для модели из этого поля. Используется в случае, если название модели в API не совпадает с оригинальным названием на Huggingface.")
     type: Optional[str] = None
     default: Optional[bool] = None
     template: Optional[str] = None
     predict_params: Optional[LlmPredictParams] = None
     api_key: Optional[str] = None
+    context_length: Optional[int] = None
 class LlmApiProtocol(Protocol):
     async def tokenize(self, prompt: str) -> Optional[dict]:

llm/deepinfra_api.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import json
 from typing import Optional, List
 import httpx
 from llm.common import LlmParams, LlmApi
 class DeepInfraApi(LlmApi):
@@ -11,6 +12,9 @@ class DeepInfraApi(LlmApi):
     def __init__(self, params: LlmParams):
         super().__init__()
         super().set_params(params)
     async def get_models(self) -> List[str]:
         """
@@ -70,10 +74,37 @@ class DeepInfraApi(LlmApi):
         return actual_prompt
     async def tokenize(self, prompt: str) -> Optional[dict]:
-        raise NotImplementedError("This function is not supported.")
     async def detokenize(self, tokens: List[int]) -> Optional[str]:
-        raise NotImplementedError("This function is not supported.")
     async def create_request(self, prompt: str, system_prompt: str = None) -> dict:
         """

 import json
 from typing import Optional, List
 import httpx
+from transformers import AutoTokenizer
 from llm.common import LlmParams, LlmApi
 class DeepInfraApi(LlmApi):
     def __init__(self, params: LlmParams):
         super().__init__()
         super().set_params(params)
+        print('Tokenizer initialization.')
+        self.tokenizer = AutoTokenizer.from_pretrained(params.tokenizer if params.tokenizer is not None else params.model)
+        print(f"Tokenizer initialized for model {params.model}.")
     async def get_models(self) -> List[str]:
         """
         return actual_prompt
     async def tokenize(self, prompt: str) -> Optional[dict]:
+        """
+        Токенизирует входной текстовый промпт.
+        Args:
+            prompt (str): Текст, который нужно токенизировать.
+        Returns:
+            dict: Словарь с токенами и их количеством или None в случае ошибки.
+        """
+        try:
+            tokens = self.tokenizer.encode(prompt, add_special_tokens=True)
+            return {"result": tokens, "num_tokens": len(tokens), "max_length": self.params.context_length}
+        except Exception as e:
+            print(f"Tokenization error: {e}")
+            return None
     async def detokenize(self, tokens: List[int]) -> Optional[str]:
+        """
+        Детокенизирует список токенов обратно в строку.
+        Args:
+            tokens (List[int]): Список токенов, который нужно преобразовать в текст.
+        Returns:
+            str: Восстановленный текст или None в случае ошибки.
+        """
+        try:
+            text = self.tokenizer.decode(tokens, skip_special_tokens=True)
+            return text
+        except Exception as e:
+            print(f"Detokenization error: {e}")
+            return None
     async def create_request(self, prompt: str, system_prompt: str = None) -> dict:
         """

llm/vllm_api.py CHANGED Viewed

@@ -109,7 +109,7 @@ class LlmApi(LlmApi):
                 if response.status_code == 200:
                     data = response.json()
                     if "tokens" in data:
-                        return {"tokens": data["tokens"], "maxLength": data.get("max_model_len")}
                 elif response.status_code == 404:
                     print("Tokenization endpoint not found (404).")
                 else:

                 if response.status_code == 200:
                     data = response.json()
                     if "tokens" in data:
+                        return {"tokens": data["tokens"], "max_length": data.get("max_model_len")}
                 elif response.status_code == 404:
                     print("Tokenization endpoint not found (404).")
                 else:

main.py CHANGED Viewed

@@ -17,14 +17,17 @@ load_dotenv()
 LLM_API_URL = os.getenv("LLM_API_URL", "https://api.deepinfra.com")
 LLM_API_KEY = os.getenv("DEEPINFRA_API_KEY", "")
 LLM_NAME = os.getenv("LLM_NAME", "meta-llama/Llama-3.3-70B-Instruct-Turbo")
 default_llm_params = LlmParams(
     url=LLM_API_URL,
     api_key=LLM_API_KEY,
     model=LLM_NAME,
     predict_params=LlmPredictParams(
         temperature=0.15, top_p=0.95, min_p=0.05, seed=42,
-        repetition_penalty=1.2, presence_penalty=1.1, max_tokens=6000
     )
 )
 llm_api = DeepInfraApi(default_llm_params)
@@ -42,10 +45,58 @@ class TextRequest(BaseModel):
     text: str
     projects: list[str] = []
 @app.post("/extracttable")
 async def extracttable_route(request: TextRequest):
     prompt = gettable.USER_PROMPT.format(query=request.text)
-    response = await llm_api.predict(prompt[:150000], system_prompt=gettable.SYSTEM_PROMPT)
     result = {"response": None, "error": None, "raw": response}
@@ -63,6 +114,12 @@ async def extracttable_route(request: TextRequest):
     try:
         result["response"] = json.loads(json_str)
         result["raw"] = prefix.strip()
     except json.JSONDecodeError as e:
         result["error"] = f"Ошибка декодирования JSON: {e}"
@@ -73,7 +130,8 @@ def health():
     return {"status": "ok"}
 async def generate_response(prompt):
-    return await llm_api.predict(prompt[:150000])
 @app.post("/getsummary")
 async def getsummary_route(request: TextRequest):

 LLM_API_URL = os.getenv("LLM_API_URL", "https://api.deepinfra.com")
 LLM_API_KEY = os.getenv("DEEPINFRA_API_KEY", "")
 LLM_NAME = os.getenv("LLM_NAME", "meta-llama/Llama-3.3-70B-Instruct-Turbo")
+TOKENIZER_NAME = os.getenv("TOKENIZER_NAME", "unsloth/Llama-3.3-70B-Instruct")
 default_llm_params = LlmParams(
     url=LLM_API_URL,
     api_key=LLM_API_KEY,
     model=LLM_NAME,
+    tokenizer=TOKENIZER_NAME,
+    context_length=130000,
     predict_params=LlmPredictParams(
         temperature=0.15, top_p=0.95, min_p=0.05, seed=42,
+        repetition_penalty=1.2, presence_penalty=1.1, n_predict=6000
     )
 )
 llm_api = DeepInfraApi(default_llm_params)
     text: str
     projects: list[str] = []
+async def trim_prompt(prompt: str, system_prompt: str):
+    result = await llm_api.tokenize(prompt+system_prompt)
+    result_system = await llm_api.tokenize(system_prompt)
+    # в случае ошибки при токенизации, вернем исходную строку безопасной длины
+    if result["result"] is None or result_system is None:
+        return prompt[llm_api.params.context_length / 3]
+    #вероятно, часть уходит на форматирование чата, надо проверить
+    max_length = result["max_length"] - len(result["result"]) - len(result_system["result"]) - llm_api.params.predict_params.n_predict
+    detokenized_str = await llm_api.detokenize(result["result"][:max_length])
+    # в случае ошибки при детокенизации, вернем исходную строку безопасной длины
+    if detokenized_str is None:
+        return prompt[llm_api.params.context_length / 3]
+    return detokenized_str
+def validate_json_format(data):
+    """ Проверяет, соответствует ли JSON ожидаемому формату. """
+    if not isinstance(data, list):
+        return "JSON должен быть списком объектов."
+    # Возможно, в дальнейшем стоит описать менее детально, пока так для отладки
+    for item in data:
+        if not isinstance(item, dict):
+            return "Элементы списка должны быть объектами (dict)."
+        if "name" not in item or "data" not in item:
+            return "Каждый объект должен содержать ключи 'name' и 'data'."
+        if not isinstance(item["name"], str):
+            return "'name' должен быть строкой."
+        if not isinstance(item["data"], dict):
+            return "'data' должен быть объектом (dict)."
+        if "columns" not in item["data"] or "rows" not in item["data"]:
+            return "'data' должен содержать 'columns' и 'rows'."
+        if not isinstance(item["data"]["columns"], list) or not all(isinstance(col, str) for col in item["data"]["columns"]):
+            return "'columns' должен быть списком строк."
+        if not isinstance(item["data"]["rows"], list) or not all(isinstance(row, list) for row in item["data"]["rows"]):
+            return "'rows' должен быть списком списков."
+    return None  # Ошибок нет
 @app.post("/extracttable")
 async def extracttable_route(request: TextRequest):
     prompt = gettable.USER_PROMPT.format(query=request.text)
+    system_prompt=gettable.SYSTEM_PROMPT
+    prompt = await trim_prompt(prompt, system_prompt)
+    response = await llm_api.predict(prompt, system_prompt=system_prompt)
     result = {"response": None, "error": None, "raw": response}
     try:
         result["response"] = json.loads(json_str)
         result["raw"] = prefix.strip()
+        validation_error = validate_json_format(result["response"])
+        if validation_error:
+            result["error"] = validation_error
+        else:
+            result["response"] = result["response"]
+            result["raw"] = prefix.strip()
     except json.JSONDecodeError as e:
         result["error"] = f"Ошибка декодирования JSON: {e}"
     return {"status": "ok"}
 async def generate_response(prompt):
+    prompt = await trim_prompt(prompt)
+    return await llm_api.predict(prompt)
 @app.post("/getsummary")
 async def getsummary_route(request: TextRequest):

prompts/gettable.py CHANGED Viewed

@@ -33,7 +33,8 @@ SYSTEM_PROMPT="""
 (2) 'пункт 2'
 (3) 'пункт 3'
 (4) 'пункт 4'
-(5) JSON 'пункт 5'"
 ####
 Далее будет пример номер 1. Не используй данные из примера, он указывает только на логику твоей работы
 ####
@@ -47,25 +48,19 @@ SYSTEM_PROMPT="""
 (4) Заборный 6-723 - это судя по всему объект, что имеет статус 'реализация'. ДСГ 4 - это объект, что имеет длину 8 и ширину 2, которая измеряется в метрах. Штраб - что-то, что имеет напряжение 150. ЗТТ - аббревиатура, которая имеет в качестве параметров давление 1 - 150 и давление 2 - 206.4 (это с плавающей запятой значение). ЛКТР - это что-то, что находится в стадии 'в завершении'.
 (5) Нужно не забыть каждое числовое значение написать в числовом формате. И не забыть о показателях с точкой.
 (6) JSON
-{
-"Заборный 6-723":{
-"Статус": "реализация"
-},
-"ДСГ 4":{
-"Длина, в метрах":"8",
-"Ширина, в метрах":"2"
-},
-"Штраб":{
-"Напряжение":"150"
-},
-"ЗТТ":{
-"Давление 1":"150",
-"Давление 2":"206.4"
-},
-"ЛКТР":{
-"Статус":"в завершении"
-}
-}
 ####
 Далее будет пример номер 2. Не используй данные из примера, он указывает только на логику твоей работы
 ####
@@ -79,21 +74,15 @@ SYSTEM_PROMPT="""
 (4) В данной записи есть только объект "труба", у которого есть два экземпляра в массиве. Параметрами являются номер, длина, сечение и давление воды. Не ясно единиц измерения данных параметров. Обе трубы имеют номер по ГОСТ 3. Первая труба имеет длину 7, сечение 8 и давление 70.69 (это число с плавающей точкой). Вторая труба имеет длину 6, сечение как у первой 8, давление 106.
 (5) Нужно не забыть каждое числовое значение написать в числовом формате. И не забыть о показателях с точкой.
 (6) JSON
-{
-"Труба":[{
-"Номер по ГОСТ":"3",
-"Длина": "7",
-"Сечение":"8",
-"Давление":"70.69"
-},
-{
-"Номер по ГОСТ":"3",
-"Длина":"6",
-"Сечение":"8",
-"Давление":"106"
-}
-]
-}
 ####
 Далее будет пример номер 3. Не используй данные из примера, он указывает только на логику твоей работы
 ####
@@ -107,17 +96,31 @@ SYSTEM_PROMPT="""
 (4) В данной записи есть параметр города цвет - белый. А также показатели температуры погоды, не понятна система отсчёта, но погода считается в градусах. Записано что погода -5. Количество детей 8 штук. И статус детей - они "играют в снежки".
 (5) Нужно не забыть каждое числовое значение написать в числовом формате.
 (6) JSON
-{
-"Город":{
-"Цвет": "белый"
 },
-"Погода":{
-"Температура, градус":"-5"
 },
-"Дети":{
-"Количество":"8"
-"Статус":"Играют в снежки"
 }
 ####
 Далее будет настоящая запись, которую требуется разобрать.
 ####

 (2) 'пункт 2'
 (3) 'пункт 3'
 (4) 'пункт 4'
+(5) 'пункт 5'
+(6) JSON 'пункт 6'"
 ####
 Далее будет пример номер 1. Не используй данные из примера, он указывает только на логику твоей работы
 ####
 (4) Заборный 6-723 - это судя по всему объект, что имеет статус 'реализация'. ДСГ 4 - это объект, что имеет длину 8 и ширину 2, которая измеряется в метрах. Штраб - что-то, что имеет напряжение 150. ЗТТ - аббревиатура, которая имеет в качестве параметров давление 1 - 150 и давление 2 - 206.4 (это с плавающей запятой значение). ЛКТР - это что-то, что находится в стадии 'в завершении'.
 (5) Нужно не забыть каждое числовое значение написать в числовом формате. И не забыть о показателях с точкой.
 (6) JSON
+[{
+    name: "Датчики",
+    data: {
+        columns: ["Наименование", "Статус", "Длина, в метрах", "Ширина, в метрах", "Напряжение", "Давление 1", "Давление 2"],
+        rows: [
+            ["Заборный 6-723", "реализация", null, null, null, null, null],
+            ["ДСГ 4", null, 8, 2, null, null, null],
+            ["Штраб", null, null, null, 150, null, null],
+            ["ЗТТ", null, null, null, null, 150, 206.4],
+            ["ЛКТР", "в завершении", null, null, null, null, null]
+        ]
+    }
+}]
 ####
 Далее будет пример номер 2. Не используй данные из примера, он указывает только на логику твоей работы
 ####
 (4) В данной записи есть только объект "труба", у которого есть два экземпляра в массиве. Параметрами являются номер, длина, сечение и давление воды. Не ясно единиц измерения данных параметров. Обе трубы имеют номер по ГОСТ 3. Первая труба имеет длину 7, сечение 8 и давление 70.69 (это число с плавающей точкой). Вторая труба имеет длину 6, сечение как у первой 8, давление 106.
 (5) Нужно не забыть каждое числовое значение написать в числовом формате. И не забыть о показателях с точкой.
 (6) JSON
+[{
+name: "Труба",
+data: {
+    columns: ["Номер по ГОСТ", "Длина", "Сечение", "Давление"],
+    rows: [
+        [3, 7, 8, 70.69],
+        [3, 6, 8, 106],
+    ]
+}]
 ####
 Далее будет пример номер 3. Не используй данные из примера, он указывает только на логику твоей работы
 ####
 (4) В данной записи есть параметр города цвет - белый. А также показатели температуры погоды, не понятна система отсчёта, но погода считается в градусах. Записано что погода -5. Количество детей 8 штук. И статус детей - они "играют в снежки".
 (5) Нужно не забыть каждое числовое значение написать в числовом формате.
 (6) JSON
+[{
+name: "Город",
+data: {
+    columns: ["Цвет"],
+    rows: [
+        ["белый"]
+    ]
 },
+{
+name: "Погода",
+data: {
+    columns: ["Температура, градус"],
+    rows: [
+        [-5]
+    ]
 },
+{
+name: "Дети",
+data: {
+    columns: ["К��личество", "Статус"],
+    rows: [
+        [8, "Играют в снежки"]
+    ]
 }
+]
 ####
 Далее будет настоящая запись, которую требуется разобрать.
 ####