protocol-api-mirror

Sleeping

App Files Files Community

muryshev commited on Feb 7

Commit

ecf21a8

1 Parent(s): 527698c

Migration to deepinfra

Browse files

Files changed (8) hide show

.gitignore +8 -0
app.py +83 -168
llm/common.py +69 -0
llm/deepinfra_api.py +151 -0
llm/prompts.py +98 -0
llm/vllm_api-sync.py +375 -0
llm/vllm_api.py +317 -0
requirements +1 -2

.gitignore ADDED Viewed

	@@ -0,0 +1,8 @@

+*.bat
+__pycache__
+.cache
+.local
+.nv
+*.bash_history
+*.zip
+.env

app.py CHANGED Viewed

@@ -1,14 +1,22 @@
 from flask import Flask, request, Response, jsonify
-from huggingface_hub import InferenceClient
 from flask_cors import CORS
 import json
-import requests
 import re
-import uuid
-client = InferenceClient("mistralai/Mixtral-8x7B-Instruct-v0.1")
-summary_prompt = '<s>[INST]Ты ассистент. Отвечаешь на русском языке. Сформируй краткое изложение следующего текста: {}[/INST]'
 def format_prompt(message, history):
   prompt = "<s>"
@@ -37,196 +45,134 @@ def split_text(text):
         result.append(current_chunk.strip())
     return result
-def call_api(prompt_text):
-    url = "https://muryshev-mixtral-api-protocol.hf.space/completion?bypass_too_many_requests="+str(uuid.uuid4())
-    payload = {"prompt": prompt_text, "temperature": 0, "seed": 42, "repeat_penalty": 1, "top_p": 0.95, "stream": False, "n_predict": 2000}
-    try:
-        response = requests.post(url, json=payload)
-        response.raise_for_status()  # Raise an exception for 4xx or 5xx status codes
-        result = response.json().get('content', '') # Extract the text result from the JSON response
-        print(result)
-        return result
-    except requests.exceptions.RequestException as e:
-        print("Error:", e)
-        return None
-def generate(
-    prompt, history=[], temperature=0, max_new_tokens=2000, top_p=0.95, repetition_penalty=1.0,
-):
-    return call_api(prompt)
-    temperature = float(temperature)
-    if temperature < 1e-2:
-        temperature = 1e-2
-    top_p = float(top_p)
-    generate_kwargs = dict(
-        temperature=temperature,
-        max_new_tokens=max_new_tokens,
-        top_p=top_p,
-        repetition_penalty=repetition_penalty,
-        do_sample=True,
-        seed=42,
-    )
-    #formatted_prompt = format_prompt(prompt, history)
-    #stream = client.text_generation(prompt, **generate_kwargs, stream=True, details=False, return_full_text=False)
-    response = client.text_generation(prompt, **generate_kwargs, stream=False, details=False, return_full_text=False)
-    print(response)
-    return response
-    #output = ""
-    #for response in stream:
-    #    yield response.token.text.encode('utf-8')
 app = Flask(__name__)
 CORS(app)
 @app.route('/health', methods=['GET'])
 def health():
     return jsonify({"status": "ok"})
-@app.route('/completion', methods=['POST'])
-def completion_route():
-    data = request.get_json()
-    prompt = data.get('prompt', '')
-    #truncated_prompt = prompt[:32768]
-    return Response(generate(prompt[:52768]), content_type='text/plain; charset=utf-8', status=200, direct_passthrough=True)
 @app.route('/getsummary', methods=['POST'])
-def getsummary_route():
     data = request.get_json()
     text = data.get('text', '')
-    # pages = split_text(text)
-    # result = ''
-    # for page in pages:
-    #     summary_prompt = f'''''<s>[INST]Исправь в тексте, сделанным роботом при транскрибации аудиозаписи совещания, плохо-читаемые предложения. Проверь каждое предложение на согласованность падежей, окончаний, на наличие и правильное использование предлогов, в реплике каждого спикера исправь пунктуацию, чтобы смысл и был четкий и понятный, также удали дискурсивные слова, не несущие смысла, сделай текст аккуратным и легко читабельным и пиши только на русском языке: {page}[/INST]'
-    #     response = generate(summary_prompt[:52000])
-    #     result = result + '\n'+response
-    summary_prompt = f'<s>[INST]Исправь в тексте, сделанным роботом при транскрибации аудиозаписи совещания, плохо-читаемые предложения. Проверь каждое предложение на согласованность падежей, окончаний, на наличие и правильное использование предлогов, в реплике каждого спикера исправь пунктуацию, чтобы смысл и был четкий и понятный, также удали дискурсивные слова, не несущие смысла, сделай текст аккуратным и легко читабельным и пиши только на русском языке: {text}[/INST]'
-    result = generate(summary_prompt[:52000])
-    return jsonify({'result': result})
 @app.route('/cleantext', methods=['POST'])
-def cleantext_route():
     data = request.get_json()
     text = data.get('text', '')
-    summary_prompt = f'<s>[INST]Ты мой помощник. Ты отвечаешь только на русском языке. Сформируй краткое изложение следующего текста: {text}[/INST]'
-    response = generate(summary_prompt[:52000])
     return jsonify({'result': response})
 @app.route('/getfollowup', methods=['POST'])
-def getfollowup_route():
     data = request.get_json()
     text = data.get('text', '')
-    summary_prompt = f'<s>[INST]Ты мой помощник. Ты отвечаешь только на русском языке. Выпиши из текста нумерованным списком обсуждаемые темы и у каждой темы сделай подпунктами обсуждаемые вопросы. Текст: {text}[/INST]'
-    response = generate(summary_prompt[:52000])
     return jsonify({'result': response})
 @app.route('/getagenda', methods=['POST'])
-def getagenda_route():
     data = request.get_json()
     text = data.get('text', '')
-    summary_prompt = f'<s>[INST]Ты мой помощник. Ты отвечаешь только на русском языке. Выпиши из текста в виде списка какие задачи были поставлены для конкретных исполнителей с указанием сроков, если это возможно определить. Если задача есть в списке, то не добавляй идентичную. Текст: {text}[/INST]'
-    response = generate(summary_prompt[:52000])
     return jsonify({'result': response})
 @app.route('/gethighlights', methods=['POST'])
-def gethighlights_route():
     data = request.get_json()
     text = data.get('text', '')
-    summary_prompt = f'<s>[INST]Ты мой помощник. Ты отвечаешь только на русском языке. Сформируй на основе текста два нумерованных списка: 1. какие проблемы были озвучены в тексте 2. какие предложения были сформулированы. Текст: {text}[/INST]'
-    response = generate(summary_prompt[:52000])
     return jsonify({'result': response})
 @app.route('/getprojectinfo', methods=['POST'])
-def getprojectinfo_route():
     data = request.get_json()
     text = data.get('text', '')
     main_prompts = []
-    prompt1 = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
-Найди в тексте ИМЕНА СОБСТВЕННЫЕ участников обсуждения. Кто говорил во вре��я совещания?
-Формат ответа: "Участники: *здесь ФИО говорящих из текста*". Если имя говорящего не указано, то отвечай так: "не указано".
-Текст совещания: "{text}"[/INST]''')
-    prompt2 = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
-Представь, что ты лучший в мире смысловик и копирайтер.
-Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
-Каков ход совещания в этом тексте?
-Формат ответа: "Повестка встречи: *здесь текст*".
-Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
-Скрипт: {text}[/INST]''')
-    main_prompts.append(prompt1)
-    main_prompts.append(prompt2)
     main_info =''
     for i in main_prompts:
-        result = generate(i[:52000])
         if result is None:
             return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
         main_info += '\n\n'+result+'\n\n'
     final = main_info
     final = final.replace("Конец ответа", "")
-    #final = final.replace('\n', ' ')
     final = final.replace('</s>', '')
     final = final.strip()
     return jsonify({'result': final})
 @app.route('/getprojectlist', methods=['POST'])
-def getprojectlist_route():
     data = request.get_json()
     text = data.get('text', '')
     main_prompts = []
-    prompt1 = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
-Найди в тексте ИМЕНА СОБСТВЕННЫЕ участников обсуждения. Кто говорил во время совещания?
-Формат ответа: "Участники: *здесь ФИО говорящих из текста*". Если имя говорящего не указано, то отвечай так: "не указано".
-Текст совещания: "{text}"[/INST]''')
-    prompt2 = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
-Представь, что ты лучший в мире смысловик и копирайтер.
-Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
-Каков ход совещания в этом тексте?
-Формат ответа: "Повестка встречи: *здесь текст*".
-Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
-Скрипт: {text}[/INST]''')
-    main_prompts.append(prompt1)
-    main_prompts.append(prompt2)
     main_info =''
     for i in main_prompts:
-        result = generate(i[:52000])
         if result is None:
             return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
         main_info += '\n\n'+result+'\n\n'
     proj_prompt = []
-    prompt = (f'''<s>[INST]Вы отвечаете только на РУССКОМ языке.
-1. Найти все упоминания слов "проект" или "проекты" в тексте.
-2. Прочитать контекст вокруг упоминаний слова "проект" или "проекты" и определить, какие проекты упоминаются.
-3. Составить список названий проектов, которые были найдены в тексте.
-Используй только такой формат ответа: "Проект №: *суть кратко*". Конец ответа.
-Ты больше ничего не говоришь, не комментируешь, не добавляешь.
-Текст: {text}[/INST]''')
-    proj_prompt.append(prompt)
     list_of_projects =''
     for i in proj_prompt:
-        result = generate(i[:52000])
         if result is None:
             return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
         list_of_projects += result
@@ -235,7 +181,7 @@ def getprojectlist_route():
     proj  = [delimiter+x for x in list_of_projects.split(delimiter) if x]
     proj = proj[1:]
-    proj_ = []
     for i in proj:
         a = i.replace("Проект №", "")
         a = a.replace("Конец ответа", "")
@@ -244,21 +190,16 @@ def getprojectlist_route():
         a = a.replace('\n', ' ')
         a = a.replace('</s>', ' ')
         a = a.strip()
-        proj_.append(a)
     check_prompts = []
-    checking = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке. Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
-У меня есть список проектов. Такие проекты имеются в тексте и являются основными? Список проектов: {proj_}.
-Ты обязательно используешь ТОЛЬКО такой формат ответа:
-"Да: Проект № *название проекта*." ИЛИ "Нет, такого проекта нет".
-Ты больше ничего не говоришь, не комментируешь, не добавляешь.
-Текст: {text}[/INST]''')
     check_prompts.append(checking)
     real_projects = ''
     for i in check_prompts:
-        result = generate(i[:52000])
         if result is None:
             return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
         real_projects += result
@@ -267,7 +208,7 @@ def getprojectlist_route():
     return jsonify({'result': real_projects_list})
 @app.route('/getprojectdetails', methods=['POST'])
-def getinfobyproject_route():
     data = request.get_json()
     text = data.get('text', '')
     real_projects_list = data.get('projects', {})
@@ -275,43 +216,17 @@ def getinfobyproject_route():
     project_prompts = {}
     if real_projects_list:
         for i in real_projects_list:
-            if not i or i.strip() == "":  # This checks for None, empty string, and strings with only spaces
                 continue
-            prompt_aim = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке. Представь, что ты лучший в мире смысловик и копирайтер.
-    Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
-    Опираясь на данный текст, определи цель ЭТОГО проекта: {i}.  Выбирай и анализируй информацию только об ЭТОМ проекте.
-    Формат ответа: "Проект: *название проекта*. Цель этого проекта: *здесь текст*".
-    Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
-    Текст: {text}[/INST]''')
-            gk = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке. Представь, что ты лучший в мире смысловик и копирайтер.
-    Сделай глубокий вдох и, думая шаг за шагом, ответь на вопрос: Какие преимущества (выгоду) получит группа компаний по итогам этого проекта: {i}.
-    Формат ответа: "По факту реализации проекта Группа Компаний Получит: *здесь текст*".
-    Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
-    Скрипт: {text}[/INST]''')
-            budget = (f'<s>[INST]Ты всегда отвечаешь на РУССКОМ языке. +\
-    Найди в тексте информацию о бюджете этого проекта: {i} . +\
-    Формат ответа: "Бюджет проекта: *здесь цифра*". Если бюджет проекта не указан, то отвечай так: "Бюджет: Такой информации нет."+\
-    Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке. +\
-    Скрипт: {text}[/INST]')
-            ec_ef = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
-    Поразмышляй об этом тексте. Как ты думаешь, в чем заключается экономический эффект (экономические преимущества) для компании от этого проекта: {i}. Выбирай и анализируй информацию только об ЭТОМ проекте.
-    Формат ответа: "Экономический эффект от проекта: *здесь ответ на вопрос*".
-    Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
-    Скрипт: {text}[/INST]''')
-            deadline = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
-    Найди в тексте дату, когда должен быть реализован ЭТОТ проект: {i}. Выбирай и анализируй информацию только об ЭТОМ проекте: {i}.
-    Формат ответа: "Срок реализации: *здесь текст*".
-    Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
-    Скрипт: {text}[/INST]''')
-            new_plan = (f'<s>[INST]Ты всегда отвечаешь на РУССКОМ языке! Только на русском языке. Выбирай и анализируй информацию на русском языке только об ЭТОМ проекте: {i} .+\
-    Представь, что ты лучший в мире смысловик и копирайтер. +\
-    Сделай глубокий вдох и, думая шаг за шагом, ответь на русском языке на вопрос: Какие действия участники решили предпринять, чтобы отлично выполнить проект?+\
-    Используй такой формат ответа: "Решения: *текст*". Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь! Ищи ответ в тексте: {text}. Отвечай на русском языке!!! [/INST]')
-            conclusion = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке. Поразмышляй о тексте.
-    Какой вывод заключили участники относительно ЭТОГО проекта: {i}.
-    Используй такой формат ответа: "Вывод: *Тут описывается принятое решение.*." Конец ответа.
-    Текст: {text}[/INST]''')
             p = [prompt_aim, gk, budget, ec_ef, deadline, new_plan, conclusion]
             project_prompts[i] = {}
             project_prompts[i]['prompts'] = p
@@ -322,7 +237,7 @@ def getinfobyproject_route():
     final = {}
     for project_name, project in project_prompts.items():
         for prompt in project['prompts']:
-            result = generate(prompt[:52000])
             if result is not None:
                 final[project_name] = final.get(project_name, '') + '\n\n'+result + '\n\n'
         final[project_name] = final[project_name].replace("Конец ответа", "")

 from flask import Flask, request, Response, jsonify
 from flask_cors import CORS
 import json
 import re
+import os
+from llm.common import LlmParams, LlmPredictParams
+from llm.deepinfra_api import DeepInfraApi
+from llm import prompts
+from dotenv import load_dotenv
+# Загрузка переменных окружения из файла .env
+load_dotenv()
+LLM_API_URL = os.getenv("LLM_API_URL", "https://api.deepinfra.com")
+LLM_API_KEY = os.getenv("DEEPINFRA_API_KEY", "")
+LLM_NAME = os.getenv("LLM_NAME", "meta-llama/Llama-3.3-70B-Instruct-Turbo")
+default_llm_params = LlmParams(url=LLM_API_URL,api_key=LLM_API_KEY, model=LLM_NAME, predict_params=LlmPredictParams(temperature=0.15, top_p=0.95, min_p=0.05, seed=42, repetition_penalty=1.2, presence_penalty=1.1, max_tokens=6000))
+llm_api = DeepInfraApi(default_llm_params)
 def format_prompt(message, history):
   prompt = "<s>"
         result.append(current_chunk.strip())
     return result
 app = Flask(__name__)
 CORS(app)
+@app.route('/extracttable', methods=['POST'])
+async def extracttable_route():
+    data = request.get_json()
+    text = data.get('text', '')
+    prompt = prompts.LLM_PROMPT_EXTRACT_TABLE.format(query = text)
+    response = await llm_api.predict(prompt[:150000])
+    result = {"response": None, "error": None, "raw": response}  # По умолчанию сохраняем всю строку
+    if "JSON: " not in response:
+        result["error"] = "Строка не содержит 'JSON: '"
+        return result
+    prefix, json_str = response.split("JSON: ", 1)
+    json_str = json_str.strip()
+    if not json_str:
+        result["error"] = "После 'JSON: ' отсутствует JSON"
+        return result
+    try:
+        result["response"] = json.loads(json_str)
+        result["raw"] = prefix.strip()  # Остаток перед "JSON: "
+    except json.JSONDecodeError as e:
+        result["error"] = f"Ошибка декодирования JSON: {e}"
+    return jsonify(result)
 @app.route('/health', methods=['GET'])
 def health():
     return jsonify({"status": "ok"})
 @app.route('/getsummary', methods=['POST'])
+async def getsummary_route():
     data = request.get_json()
     text = data.get('text', '')
+    prompt = prompts.GET_SUMMARY.format(text=text)
+    response = await llm_api.predict(prompt[:150000])
+    return jsonify({'result': response})
 @app.route('/cleantext', methods=['POST'])
+async def cleantext_route():
     data = request.get_json()
     text = data.get('text', '')
+    prompt = prompts.CLEAN_TEXT.format(text=text)
+    response = await llm_api.predict(prompt[:150000])
     return jsonify({'result': response})
 @app.route('/getfollowup', methods=['POST'])
+async def getfollowup_route():
     data = request.get_json()
     text = data.get('text', '')
+    prompt = prompts.GET_FOLLOWUP.format(text=text)
+    response = await llm_api.predict(prompt[:150000])
     return jsonify({'result': response})
 @app.route('/getagenda', methods=['POST'])
+async def getagenda_route():
     data = request.get_json()
     text = data.get('text', '')
+    prompt = prompts.GET_AGENDA.format(text=text)
+    response = await llm_api.predict(prompt[:150000])
     return jsonify({'result': response})
 @app.route('/gethighlights', methods=['POST'])
+async def gethighlights_route():
     data = request.get_json()
     text = data.get('text', '')
+    prompt = prompts.GET_HIGHLIGHTS.format(text=text)
+    response = await llm_api.predict(prompt[:150000])
     return jsonify({'result': response})
 @app.route('/getprojectinfo', methods=['POST'])
+async def getprojectinfo_route():
     data = request.get_json()
     text = data.get('text', '')
     main_prompts = []
+    main_prompts.append(prompts.GET_PROJECT_INFO_NAMES.format(text=text))
+    main_prompts.append(prompts.GET_PROJECT_INFO_AGENDA.format(text=text))
     main_info =''
     for i in main_prompts:
+        result = await llm_api.predict(i[:150000])
         if result is None:
             return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
         main_info += '\n\n'+result+'\n\n'
     final = main_info
     final = final.replace("Конец ответа", "")
     final = final.replace('</s>', '')
     final = final.strip()
     return jsonify({'result': final})
 @app.route('/getprojectlist', methods=['POST'])
+async def getprojectlist_route():
     data = request.get_json()
     text = data.get('text', '')
     main_prompts = []
+    main_prompts.append(prompts.GET_PROJECT_INFO_NAMES.format(text=text))
+    main_prompts.append(prompts.GET_PROJECT_INFO_AGENDA.format(text=text))
     main_info =''
     for i in main_prompts:
+        result = await llm_api.predict(i[:150000])
         if result is None:
             return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
         main_info += '\n\n'+result+'\n\n'
     proj_prompt = []
+    proj_prompt.append(prompts.GET_PROJECT_LIST.format(text=text))
     list_of_projects =''
     for i in proj_prompt:
+        result = await llm_api.predict(i[:150000])
         if result is None:
             return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
         list_of_projects += result
     proj  = [delimiter+x for x in list_of_projects.split(delimiter) if x]
     proj = proj[1:]
+    projects = []
     for i in proj:
         a = i.replace("Проект №", "")
         a = a.replace("Конец ответа", "")
         a = a.replace('\n', ' ')
         a = a.replace('</s>', ' ')
         a = a.strip()
+        projects.append(a)
     check_prompts = []
+    checking = prompts.GET_PROJECT_LIST_CHECK_PROJECT.format(text=text, projects=projects)
     check_prompts.append(checking)
     real_projects = ''
     for i in check_prompts:
+        result = await llm_api.predict(i[:150000])
         if result is None:
             return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
         real_projects += result
     return jsonify({'result': real_projects_list})
 @app.route('/getprojectdetails', methods=['POST'])
+async def getinfobyproject_route():
     data = request.get_json()
     text = data.get('text', '')
     real_projects_list = data.get('projects', {})
     project_prompts = {}
     if real_projects_list:
         for i in real_projects_list:
+            if not i or i.strip() == "":
                 continue
+            prompt_aim = prompts.GET_PROJECT_DETAILS_AIM.format(text=text, project=i)
+            gk = prompts.GET_PROJECT_DETAILS_VALUE.format(text=text, project=i)
+            budget = prompts.GET_PROJECT_DETAILS_BUDGET.format(text=text, project=i)
+            ec_ef = prompts.GET_PROJECT_DETAILS_ECO_EFFECT.format(text=text, project=i)
+            deadline = prompts.GET_PROJECT_DETAILS_DEADLINE.format(text=text, project=i)
+            new_plan = prompts.GET_PROJECT_DETAILS_NEW_PLAN.format(text=text, project=i)
+            conclusion = prompts.GET_PROJECT_DETAILS_CONCLUSION.format(text=text, project=i)
             p = [prompt_aim, gk, budget, ec_ef, deadline, new_plan, conclusion]
             project_prompts[i] = {}
             project_prompts[i]['prompts'] = p
     final = {}
     for project_name, project in project_prompts.items():
         for prompt in project['prompts']:
+            result = await llm_api.predict(prompt[:150000])
             if result is not None:
                 final[project_name] = final.get(project_name, '') + '\n\n'+result + '\n\n'
         final[project_name] = final[project_name].replace("Конец ответа", "")

llm/common.py ADDED Viewed

	@@ -0,0 +1,69 @@

+from pydantic import BaseModel, Field
+from typing import Optional, List, Protocol
+from abc import ABC, abstractmethod
+class LlmPredictParams(BaseModel):
+    """
+    Параметры для предсказания LLM.
+    """
+    system_prompt: Optional[str] = Field(None, description="Системный промпт.")
+    user_prompt: Optional[str] = Field(None, description="Шаблон промпта для передачи от роли user.")
+    n_predict: Optional[int] = None
+    temperature: Optional[float] = None
+    top_k: Optional[int] = None
+    top_p: Optional[float] = None
+    min_p: Optional[float] = None
+    seed: Optional[int] = None
+    repeat_penalty: Optional[float] = None
+    repeat_last_n: Optional[int] = None
+    retry_if_text_not_present: Optional[str] = None
+    retry_count: Optional[int] = None
+    presence_penalty: Optional[float] = None
+    frequency_penalty: Optional[float] = None
+    n_keep: Optional[int] = None
+    cache_prompt: Optional[bool] = None
+    stop: Optional[List[str]] = None
+class LlmParams(BaseModel):
+    """
+    Основные параметры для LLM.
+    """
+    url: str
+    model: Optional[str] = Field(None, description="Предполагается, что для локального API этот параметр не будет указываться, т.к. будем брать первую модель из списка потому, что модель доступна всего одна. Для deepinfra такой подход не подойдет и модель нужно задавать явно.")
+    type: Optional[str] = None
+    default: Optional[bool] = None
+    template: Optional[str] = None
+    predict_params: Optional[LlmPredictParams] = None
+    api_key: Optional[str] = None
+class LlmApiProtocol(Protocol):
+    async def tokenize(self, prompt: str) -> Optional[dict]:
+        ...
+    async def detokenize(self, tokens: List[int]) -> Optional[str]:
+        ...
+    async def trim_sources(self, sources: str, user_request: str, system_prompt: str = None) -> dict:
+        ...
+    async def predict(self, prompt: str) -> str:
+        ...
+class LlmApi:
+    """
+    Базовый клас для работы с API LLM.
+    """
+    params: LlmParams = None
+    def __init__(self):
+        self.params = None
+    def set_params(self, params: LlmParams):
+        self.params = params
+    def create_headers(self) -> dict[str, str]:
+        headers = {"Content-Type": "application/json"}
+        if self.params.api_key is not None:
+            headers["Authorization"] = self.params.api_key
+        return headers

llm/deepinfra_api.py ADDED Viewed

	@@ -0,0 +1,151 @@

+import json
+from typing import Optional, List
+import httpx
+from llm.common import LlmParams, LlmApi
+class DeepInfraApi(LlmApi):
+    """
+    Класс для работы с API vllm.
+    """
+    def __init__(self, params: LlmParams):
+        super().__init__()
+        super().set_params(params)
+    async def get_models(self) -> List[str]:
+        """
+        Выполняет GET-запрос к API для получения списка доступных моделей.
+        Возвращает:
+            list[str]: Список идентификаторов моделей.
+                       Если произошла ошибка или данные недоступны, возвращается пустой список.
+        Исключения:
+            Все ошибки HTTP-запросов логируются в консоль, но не выбрасываются дальше.
+        """
+        try:
+            async with httpx.AsyncClient() as client:
+                response = await client.get(f"{self.params.url}/v1/openai/models", headers=super().create_headers())
+                if response.status_code == 200:
+                    json_data = response.json()
+                    return [item['id'] for item in json_data.get('data', [])]
+        except httpx.RequestError as error:
+            print('Error fetching models:', error)
+        return []
+    def create_messages(self, prompt: str) -> List[dict]:
+        """
+        Создает сообщения для LLM на основе переданного промпта и системного промпта (если он задан).
+        Args:
+            prompt (str): Пользовательский промпт.
+        Returns:
+            list[dict]: Список сообщений с ролями и содержимым.
+        """
+        actual_prompt = self.apply_llm_template_to_prompt(prompt)
+        messages = []
+        if self.params.predict_params and self.params.predict_params.system_prompt:
+            messages.append({"role": "system", "content": self.params.predict_params.system_prompt})
+        messages.append({"role": "user", "content": actual_prompt})
+        return messages
+    def apply_llm_template_to_prompt(self, prompt: str) -> str:
+        """
+        Применяет шаблон LLM к переданному промпту, если он задан.
+        Args:
+            prompt (str): Пользовательский промпт.
+        Returns:
+            str: Промпт с примененным шаблоном (или оригинальный, если шаблон отсутствует).
+        """
+        actual_prompt = prompt
+        if self.params.template is not None:
+            actual_prompt = self.params.template.replace("{{PROMPT}}", actual_prompt)
+        return actual_prompt
+    async def tokenize(self, prompt: str) -> Optional[dict]:
+        raise NotImplementedError("This function is not supported.")
+    async def detokenize(self, tokens: List[int]) -> Optional[str]:
+        raise NotImplementedError("This function is not supported.")
+    async def create_request(self, prompt: str) -> dict:
+        """
+        Создает запрос для предсказания на основе параметров LLM.
+        Args:
+            prompt (str): Промпт для запроса.
+        Returns:
+            dict: Словарь с параметрами для выполнения запроса.
+        """
+        request = {
+            "stream": False,
+            "model": self.params.model,
+        }
+        predict_params = self.params.predict_params
+        if predict_params:
+            if predict_params.stop:
+                non_empty_stop = list(filter(lambda o: o != "", predict_params.stop))
+                if non_empty_stop:
+                    request["stop"] = non_empty_stop
+            if predict_params.n_predict is not None:
+                request["max_tokens"] = int(predict_params.n_predict or 0)
+            request["temperature"] = float(predict_params.temperature or 0)
+            if predict_params.top_k is not None:
+                request["top_k"] = int(predict_params.top_k)
+            if predict_params.top_p is not None:
+                request["top_p"] = float(predict_params.top_p)
+            if predict_params.min_p is not None:
+                request["min_p"] = float(predict_params.min_p)
+            if predict_params.seed is not None:
+                request["seed"] = int(predict_params.seed)
+            if predict_params.n_keep is not None:
+                request["n_keep"] = int(predict_params.n_keep)
+            if predict_params.cache_prompt is not None:
+                request["cache_prompt"] = bool(predict_params.cache_prompt)
+            if predict_params.repeat_penalty is not None:
+                request["repetition_penalty"] = float(predict_params.repeat_penalty)
+            if predict_params.repeat_last_n is not None:
+                request["repeat_last_n"] = int(predict_params.repeat_last_n)
+            if predict_params.presence_penalty is not None:
+                request["presence_penalty"] = float(predict_params.presence_penalty)
+            if predict_params.frequency_penalty is not None:
+                request["frequency_penalty"] = float(predict_params.frequency_penalty)
+        request["messages"] = self.create_messages(prompt)
+        return request
+    async def trim_sources(self, sources: str, user_request: str, system_prompt: str = None) -> dict:
+        raise NotImplementedError("This function is not supported.")
+    async def predict(self, prompt: str) -> str:
+        """
+        Выполняет запрос к API и возвращает результат.
+        Args:
+            prompt (str): Входной текст для предсказания.
+        Returns:
+            str: Сгенерированный текст.
+        """
+        async with httpx.AsyncClient() as client:
+            request = await self.create_request(prompt)
+            response = await client.post(f"{self.params.url}/v1/openai/chat/completions", headers=super().create_headers(), json=request)
+            if response.status_code == 200:
+                return response.json()["choices"][0]["message"]["content"]

llm/prompts.py ADDED Viewed

	@@ -0,0 +1,98 @@

+LLM_PROMPT_EXTRACT_TABLE = """
+Обработай текст, верни json после слова "JSON:":
+{query}"""
+GET_SUMMARY = 'Исправь в тексте, сделанным роботом при транскрибации аудиозаписи совещания, плохо-читаемые предложения. Проверь каждое предложение на согласованность падежей, окончаний, на наличие и правильное использование предлогов, в реплике каждого спикера исправь пунктуацию, чтобы смысл и был четкий и понятный, также удали дискурсивные слова, не несущие смысла, сделай текст аккуратным и легко читабельным и пиши только на русском языке: {text}'
+CLEAN_TEXT = """
+Ты мой помощник. Ты отвечаешь только на русском языке. Сформируй краткое изложение следующего текста: {text}
+"""
+GET_FOLLOWUP = """
+Ты мой помощник. Ты отвечаешь только на русском языке. Выпиши из текста нумерованным списком обсуждаемые темы и у каждой темы сделай подпунктами обсуждаемые вопросы. Текст: {text}
+"""
+GET_AGENDA = """
+Ты мой помощник. Ты отвечаешь только на русском языке. Выпиши из текста в виде списка какие задачи были поставлены для конкретных исполнителей с указанием сроков, если это возможно определить. Если задача есть в списке, то не добавляй идентичную. Текст: {text}
+"""
+GET_HIGHLIGHTS = """
+Ты мой помощник. Ты отвечаешь только на русском языке. Сформируй на основе текста два нумерованных списка: 1. какие проблемы были озвучены в тексте 2. какие предложения были сформулированы. Текст: {text}
+"""
+GET_PROJECT_INFO_NAMES = """
+Ты всегда отвечаешь на РУССКОМ языке.
+Найди в тексте ИМЕНА СОБСТВЕННЫЕ участников обсуждения. Кто говорил во время совещания?
+Формат ответа: "Участники: *здесь ФИО говорящих из текста*". Если имя говорящего не указано, то отвечай так: "не указано".
+Текст совещания: "{text}"
+"""
+GET_PROJECT_INFO_AGENDA = """
+Ты всегда отвечаешь на РУССКОМ языке.
+Представь, что ты лучший в мире смысловик и копирайтер.
+Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
+Каков ход совещания в этом тексте?
+Формат ответа: "Повестка встречи: *здесь текст*".
+Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
+Скрипт: {text}
+"""
+GET_PROJECT_LIST = """
+Вы отвечаете только на РУССКОМ языке.
+1. Найти все упоминания слов "проект" или "проекты" в тексте.
+2. Прочитать контекст вокруг упоминаний слова "проект" или "проекты" и определить, какие проекты упоминаются.
+3. Составить список названий проектов, которые были найдены в тексте.
+Используй только такой формат ответа: "Проект №: *суть кратко*". Конец ответа.
+Ты больше ничего не говоришь, не комментируешь, не добавляешь.
+Текст: {text}
+"""
+GET_PROJECT_LIST_CHECK_PROJECT = """
+Ты всегда отвечаешь на РУССКОМ языке. Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
+У меня есть список проектов. Такие проекты имеются в тексте и являются основными? Список проектов: {projects}.
+Ты обязательно используешь ТОЛЬКО такой формат ответа:
+"Да: Проект № *название проекта*." ИЛИ "Нет, такого проекта нет".
+Ты больше ничего не говоришь, не комментируешь, не добавляешь.
+Текст: {text}
+"""
+GET_PROJECT_DETAILS_AIM = """Ты всегда отвечаешь на РУССКОМ языке. Представь, что ты лучший в мире смысловик и копирайтер.
+Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
+Опираясь на данный текст, определи цель ЭТОГО проекта: {project}.  Выбирай и анализируй информацию только об ЭТОМ проекте.
+Формат ответа: "Проект: *название проекта*. Цель этого проекта: *здесь текст*".
+Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
+Текст: {text}"""
+GET_PROJECT_DETAILS_VALUE = """Ты всегда отвечаешь на РУССКОМ языке. Представь, что ты лучший в мире смысловик и копирайтер.
+Сделай глубокий вдох и, думая шаг за шагом, ответь на вопрос: Какие преимущества (выгоду) получит группа компаний по итогам этого проекта: {project}.
+Формат ответа: "По факту реализации проекта Группа Компаний Получит: *здесь текст*".
+Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
+Скрипт: {text}"""
+GET_PROJECT_DETAILS_BUDGET = """Ты всегда отвечаешь на РУССКОМ языке.
+Найди в тексте информацию о бюджете этого проекта: {project} .
+Формат ответа: "Бюджет проекта: *здесь цифра*". Если бюджет проекта не указан, то отвечай так: "Бюджет: Такой информации нет."
+Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
+Скрипт: {text}"""
+GET_PROJECT_DETAILS_ECO_EFFECT = """Ты всегда отвечаешь на РУССКОМ языке.
+Поразмышляй об этом тексте. Как ты думаешь, в чем заключается экономический эффект (экономические преимущества) для компании от этого проекта: {project}. Выбирай и анализируй информацию только об ЭТОМ проекте.
+Формат ответа: "Экономический эффект от проекта: *здесь ответ на вопрос*".
+Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
+Скрипт: {text}"""
+GET_PROJECT_DETAILS_DEADLINE = """Ты всегда отвечаешь на РУССКОМ языке.
+Найди в тексте дату, когда должен быть реализован ЭТОТ проект: {project}. Выбирай и анализируй информацию только об ЭТОМ проекте: {project}.
+Формат ответа: "Срок реализации: *здесь текст*".
+Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
+Скрипт: {text}"""
+GET_PROJECT_DETAILS_NEW_PLAN = """Ты всегда отвечаешь на РУССКОМ языке! Только на русском языке. Выбирай и анализируй информацию на русском языке только об ЭТОМ проекте: {project} .
+Представь, что ты лучший в мире смысловик и копирайтер.
+Сделай глубокий вдох и, думая шаг за шагом, ответь на русском языке на вопрос: Какие действия участники решили предпринять, чтобы отлично выполнить проект?
+Используй такой формат ответа: "Решения: *текст*". Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь! Ищи ответ в тексте: {text}. Отвечай на русском языке!!!"""
+GET_PROJECT_DETAILS_CONCLUSION = """Ты всегда отвечаешь на РУССКОМ языке. Поразмышляй о тексте.
+Какой вывод заключили участники относительно ЭТОГО проекта: {project}.
+Используй такой формат ответа: "Вывод: *Тут описывается принятое решение.*." Конец ответа.
+Текст: {text}"""

llm/vllm_api-sync.py ADDED Viewed

	@@ -0,0 +1,375 @@

+import json
+import os
+import requests
+from typing import Optional, List, Any
+from pydantic import BaseModel, Field
+class LlmPredictParams(BaseModel):
+    """
+    Параметры для предсказания LLM.
+    """
+    system_prompt: Optional[str] = Field(None, description="Системный промпт.")
+    user_prompt: Optional[str] = Field(None, description="Шаблон промпта для передачи от роли user.")
+    n_predict: Optional[int] = None
+    temperature: Optional[float] = None
+    top_k: Optional[int] = None
+    top_p: Optional[float] = None
+    min_p: Optional[float] = None
+    seed: Optional[int] = None
+    repeat_penalty: Optional[float] = None
+    repeat_last_n: Optional[int] = None
+    retry_if_text_not_present: Optional[str] = None
+    retry_count: Optional[int] = None
+    presence_penalty: Optional[float] = None
+    frequency_penalty: Optional[float] = None
+    n_keep: Optional[int] = None
+    cache_prompt: Optional[bool] = None
+    stop: Optional[List[str]] = None
+class LlmParams(BaseModel):
+    """
+    Основные параметры для LLM.
+    """
+    url: str
+    type: Optional[str] = None
+    default: Optional[bool] = None
+    template: Optional[str] = None
+    predict_params: Optional[LlmPredictParams] = None
+class LlmApi:
+    """
+    Класс для работы с API vllm.
+    """
+    params: LlmParams = None
+    def __init__(self, params: LlmParams):
+        self.params = params
+    def get_models(self) -> list[str]:
+        """
+        Выполняет GET-запрос к API для получения списка доступных моделей.
+        Возвращает:
+            list[str]: Список идентификаторов моделей.
+                       Если произошла ошибка или данные недоступны, возвращается пустой список.
+        Исключения:
+            Все ошибки HTTP-запросов логируются в консоль, но не выбрасываются дальше.
+        """
+        try:
+            response = requests.get(f"{self.params.url}/v1/models", headers={"Content-Type": "application/json"})
+            if response.status_code == 200:
+                json_data = response.json()
+                result = [item['id'] for item in json_data.get('data', [])]
+                return result
+        except requests.RequestException as error:
+            print('OpenAiService.getModels error:')
+            print(error)
+        return []
+    def create_messages(self, prompt: str) -> list[dict]:
+        """
+        Создает сообщения для LLM на основе переданного промпта и системного промпта (если он задан).
+        Args:
+            prompt (str): Пользовательский промпт.
+        Returns:
+            list[dict]: Список сообщений с ролями и содержимым.
+        """
+        actual_prompt = self.apply_llm_template_to_prompt(prompt)
+        messages = []
+        if self.params.predict_params and self.params.predict_params.system_prompt:
+            messages.append({"role": "system", "content": self.params.predict_params.system_prompt})
+        messages.append({"role": "user", "content": actual_prompt})
+        return messages
+    def apply_llm_template_to_prompt(self, prompt: str) -> str:
+        """
+        Применяет шаблон LLM к переданному промпту, если он задан.
+        Args:
+            prompt (str): Пользовательский промпт.
+        Returns:
+            str: Промпт с примененным шаблоном (или оригинальный, если шаблон отсутствует).
+        """
+        actual_prompt = prompt
+        if self.params.template is not None:
+            actual_prompt = self.params.template.replace("{{PROMPT}}", actual_prompt)
+        return actual_prompt
+    def tokenize(self, prompt: str) -> Optional[dict]:
+        """
+        Выполняет токенизацию переданного промпта.
+        Args:
+            prompt (str): Промпт для токенизации.
+        Returns:
+            Optional[dict]: Словарь с токенами и максимальной длиной модели, если запрос успешен.
+                            Если запрос неуспешен, возвращает None.
+        """
+        model = self.get_models()[0] if self.get_models() else None
+        if not model:
+            print("No models available for tokenization.")
+            return None
+        actual_prompt = self.apply_llm_template_to_prompt(prompt)
+        request_data = {
+            "model": model,
+            "prompt": actual_prompt,
+            "add_special_tokens": False,
+        }
+        try:
+            response = requests.post(
+                f"{self.params.url}/tokenize",
+                json=request_data,
+                headers={"Content-Type": "application/json"},
+            )
+            if response.ok:
+                data = response.json()
+                if "tokens" in data:
+                    return {"tokens": data["tokens"], "maxLength": data.get("max_model_len")}
+            elif response.status_code == 404:
+                print("Tokenization endpoint not found (404).")
+            else:
+                print(f"Failed to tokenize: {response.status_code}")
+        except requests.RequestException as e:
+            print(f"Request failed: {e}")
+        return None
+    def detokenize(self, tokens: List[int]) -> Optional[str]:
+        """
+        Выполняет детокенизацию переданных токенов.
+        Args:
+            tokens (List[int]): Список токенов для детокенизации.
+        Returns:
+            Optional[str]: Строка, полученная в результате детокенизации, если запрос успешен.
+                           Если запрос неуспешен, возвращает None.
+        """
+        model = self.get_models()[0] if self.get_models() else None
+        if not model:
+            print("No models available for detokenization.")
+            return None
+        request_data = {"model": model, "tokens": tokens or []}
+        try:
+            response = requests.post(
+                f"{self.params.url}/detokenize",
+                json=request_data,
+                headers={"Content-Type": "application/json"},
+            )
+            if response.ok:
+                data = response.json()
+                if "prompt" in data:
+                    return data["prompt"].strip()
+            elif response.status_code == 404:
+                print("Detokenization endpoint not found (404).")
+            else:
+                print(f"Failed to detokenize: {response.status_code}")
+        except requests.RequestException as e:
+            print(f"Request failed: {e}")
+        return None
+    def create_request(self, prompt: str) -> dict:
+        """
+        Создает запрос для предсказания на основе параметров LLM.
+        Args:
+            prompt (str): Промпт для запроса.
+        Returns:
+            dict: Словарь с параметрами для выполнения запроса.
+        """
+        llm_params = self.params
+        models = self.get_models()
+        if not models:
+            raise ValueError("No models available to create a request.")
+        model = models[0]
+        request = {
+            "stream": True,
+            "model": model,
+        }
+        predict_params = llm_params.predict_params
+        if predict_params:
+            if predict_params.stop:
+                # Фильтруем пустые строки в stop
+                non_empty_stop = list(filter(lambda o: o != "", predict_params.stop))
+                if non_empty_stop:
+                    request["stop"] = non_empty_stop
+            if predict_params.n_predict is not None:
+                request["max_tokens"] = int(predict_params.n_predict or 0)
+            request["temperature"] = float(predict_params.temperature or 0)
+            if predict_params.top_k is not None:
+                request["top_k"] = int(predict_params.top_k)
+            if predict_params.top_p is not None:
+                request["top_p"] = float(predict_params.top_p)
+            if predict_params.min_p is not None:
+                request["min_p"] = float(predict_params.min_p)
+            if predict_params.seed is not None:
+                request["seed"] = int(predict_params.seed)
+            if predict_params.n_keep is not None:
+                request["n_keep"] = int(predict_params.n_keep)
+            if predict_params.cache_prompt is not None:
+                request["cache_prompt"] = bool(predict_params.cache_prompt)
+            if predict_params.repeat_penalty is not None:
+                request["repetition_penalty"] = float(predict_params.repeat_penalty)
+            if predict_params.repeat_last_n is not None:
+                request["repeat_last_n"] = int(predict_params.repeat_last_n)
+            if predict_params.presence_penalty is not None:
+                request["presence_penalty"] = float(predict_params.presence_penalty)
+            if predict_params.frequency_penalty is not None:
+                request["frequency_penalty"] = float(predict_params.frequency_penalty)
+        # Генерируем сообщения
+        request["messages"] = self.create_messages(prompt)
+        return request
+    def trim_sources(self, sources: str, user_request: str, system_prompt: str = None) -> dict:
+        """
+        Обрезает текст источников, чтобы уложиться в допустимое количество токенов.
+        Args:
+            sources (str): Текст источников.
+            user_request (str): Запрос пользователя с примененным шаблоном без текста источников.
+            system_prompt (str): Системный промпт, если нужен.
+        Returns:
+            dict: Словарь с результатом, количеством токенов до и после обрезки.
+        """
+        # Токенизация текста источников
+        sources_tokens_data = self.tokenize(sources)
+        if sources_tokens_data is None:
+            raise ValueError("Failed to tokenize sources.")
+        max_token_count = sources_tokens_data.get("maxLength", 0)
+        # Токены системного промпта
+        system_prompt_token_count = 0
+        if system_prompt is not None:
+            system_prompt_tokens = self.tokenize(system_prompt)
+            system_prompt_token_count = len(system_prompt_tokens["tokens"]) if system_prompt_tokens else 0
+        # Оригинальное количество токенов
+        original_token_count = len(sources_tokens_data["tokens"])
+        # Токенизация пользовательского промпта
+        aux_prompt = self.apply_llm_template_to_prompt(user_request)
+        aux_tokens_data = self.tokenize(aux_prompt)
+        aux_token_count = len(aux_tokens_data["tokens"]) if aux_tokens_data else 0
+        # Максимально допустимое количество токенов для источников
+        max_length = (
+            max_token_count
+            - (self.params.predict_params.n_predict or 0)
+            - aux_token_count
+            - system_prompt_token_count
+        )
+        max_length = max(max_length, 0)
+        # Обрезка токенов источников
+        if "tokens" in sources_tokens_data:
+            sources_tokens_data["tokens"] = sources_tokens_data["tokens"][:max_length]
+            detokenized_prompt = self.detokenize(sources_tokens_data["tokens"])
+            if detokenized_prompt is not None:
+                sources = detokenized_prompt
+            else:
+                sources = sources[:max_length]
+        else:
+            sources = sources[:max_length]
+        # Возврат результата
+        return {
+            "result": sources,
+            "originalTokenCount": original_token_count,
+            "slicedTokenCount": len(sources_tokens_data["tokens"]),
+        }
+    def predict(self, prompt: str) -> str:
+        """
+        Выполняет SSE-запрос к API и возвращает собранный результат как текст.
+        Args:
+            prompt (str): Входной текст для предсказания.
+        Returns:
+            str: Сгенерированный текст.
+        Raises:
+            Exception: Если запрос завершился ошибкой.
+        """
+        # Создание запроса
+        request = self.create_request(prompt)
+        print(f"Predict request. Url: {self.params.url}")
+        response = requests.post(
+            f"{self.params.url}/v1/chat/completions",
+            headers={"Content-Type": "application/json"},
+            json=request,
+            stream=True  # Для обработки SSE
+        )
+        if not response.ok:
+            raise Exception(f"Failed to generate text: {response.text}")
+        # Обработка SSE-ответа
+        generated_text = ""
+        for line in response.iter_lines(decode_unicode=True):
+            if line.startswith("data: "):
+                try:
+                    data = json.loads(line[len("data: "):].strip())
+                    # Проверка завершения генерации
+                    if data == "[DONE]":
+                        break
+                    # Получение текста из ответа
+                    if "choices" in data and data["choices"]:
+                        token_value = data["choices"][0].get("delta", {}).get("content", "")
+                        generated_text += token_value.replace("</s>", "")
+                except json.JSONDecodeError:
+                    continue  # Игнорирование строк, которые не удалось декодировать
+        return generated_text

llm/vllm_api.py ADDED Viewed

	@@ -0,0 +1,317 @@

+import json
+from typing import Optional, List
+import httpx
+from llm.common import LlmParams, LlmApi
+class LlmApi(LlmApi):
+    """
+    Класс для работы с API vllm.
+    """
+    def __init__(self, params: LlmParams):
+        super().__init__()
+        super().set_params(params)
+    async def get_models(self) -> List[str]:
+        """
+        Выполняет GET-запрос к API для получения списка доступных моделей.
+        Возвращает:
+            list[str]: Список идентификаторов моделей.
+                       Если произошла ошибка или данные недоступны, возвращается пустой список.
+        Исключения:
+            Все ошибки HTTP-запросов логируются в консоль, но не выбрасываются дальше.
+        """
+        try:
+            async with httpx.AsyncClient() as client:
+                response = await client.get(f"{self.params.url}/v1/models", headers=super().create_headers())
+                if response.status_code == 200:
+                    json_data = response.json()
+                    return [item['id'] for item in json_data.get('data', [])]
+        except httpx.RequestError as error:
+            print('Error fetching models:', error)
+        return []
+    async def get_model(self) -> str:
+        model = None
+        if self.params.model is not None:
+            model = self.params.model
+        else:
+            models = await self.get_models()
+            model = models[0] if models else None
+        if model is None:
+            raise Exception("No model name provided and no models available.")
+        return model
+    def create_messages(self, prompt: str) -> List[dict]:
+        """
+        Создает сообщения для LLM на основе переданного промпта и системного промпта (если он задан).
+        Args:
+            prompt (str): Пользовательский промпт.
+        Returns:
+            list[dict]: Список сообщений с ролями и содержимым.
+        """
+        actual_prompt = self.apply_llm_template_to_prompt(prompt)
+        messages = []
+        if self.params.predict_params and self.params.predict_params.system_prompt:
+            messages.append({"role": "system", "content": self.params.predict_params.system_prompt})
+        messages.append({"role": "user", "content": actual_prompt})
+        return messages
+    def apply_llm_template_to_prompt(self, prompt: str) -> str:
+        """
+        Применяет шаблон LLM к переданному промпту, если он задан.
+        Args:
+            prompt (str): Пользовательский промпт.
+        Returns:
+            str: Промпт с примененным шаблоном (или оригинальный, если шаблон отсутствует).
+        """
+        actual_prompt = prompt
+        if self.params.template is not None:
+            actual_prompt = self.params.template.replace("{{PROMPT}}", actual_prompt)
+        return actual_prompt
+    async def tokenize(self, prompt: str) -> Optional[dict]:
+        """
+        Выполняет токенизацию переданного промпта.
+        Args:
+            prompt (str): Промпт для токенизации.
+        Returns:
+            Optional[dict]: Словарь с токенами и максимальной длиной модели, если запрос успешен.
+                            Если запрос неуспешен, возвращает None.
+        """
+        actual_prompt = self.apply_llm_template_to_prompt(prompt)
+        request_data = {
+            "model": self.get_model(),
+            "prompt": actual_prompt,
+            "add_special_tokens": False,
+        }
+        try:
+            async with httpx.AsyncClient() as client:
+                response = await client.post(
+                    f"{self.params.url}/tokenize",
+                    json=request_data,
+                    headers=super().create_headers(),
+                )
+                if response.status_code == 200:
+                    data = response.json()
+                    if "tokens" in data:
+                        return {"tokens": data["tokens"], "maxLength": data.get("max_model_len")}
+                elif response.status_code == 404:
+                    print("Tokenization endpoint not found (404).")
+                else:
+                    print(f"Failed to tokenize: {response.status_code}")
+        except httpx.RequestError as e:
+            print(f"Request failed: {e}")
+        return None
+    async def detokenize(self, tokens: List[int]) -> Optional[str]:
+        """
+        Выполняет детокенизацию переданных токенов.
+        Args:
+            tokens (List[int]): Список токенов для детокенизации.
+        Returns:
+            Optional[str]: Строка, полученная в результате детокенизации, если запрос успешен.
+                           Если запрос неуспешен, возвращает None.
+        """
+        request_data = {"model": self.get_model(), "tokens": tokens or []}
+        try:
+            async with httpx.AsyncClient() as client:
+                response = await client.post(
+                    f"{self.params.url}/detokenize",
+                    json=request_data,
+                    headers=super().create_headers(),
+                )
+                if response.status_code == 200:
+                    data = response.json()
+                    if "prompt" in data:
+                        return data["prompt"].strip()
+                elif response.status_code == 404:
+                    print("Detokenization endpoint not found (404).")
+                else:
+                    print(f"Failed to detokenize: {response.status_code}")
+        except httpx.RequestError as e:
+            print(f"Request failed: {e}")
+        return None
+    async def create_request(self, prompt: str) -> dict:
+        """
+        Создает запрос для предсказания на основе параметров LLM.
+        Args:
+            prompt (str): Промпт для запроса.
+        Returns:
+            dict: Словарь с параметрами для выполнения запроса.
+        """
+        model = self.get_model()
+        request = {
+            "stream": True,
+            "model": model,
+        }
+        predict_params = self.params.predict_params
+        if predict_params:
+            if predict_params.stop:
+                non_empty_stop = list(filter(lambda o: o != "", predict_params.stop))
+                if non_empty_stop:
+                    request["stop"] = non_empty_stop
+            if predict_params.n_predict is not None:
+                request["max_tokens"] = int(predict_params.n_predict or 0)
+            request["temperature"] = float(predict_params.temperature or 0)
+            if predict_params.top_k is not None:
+                request["top_k"] = int(predict_params.top_k)
+            if predict_params.top_p is not None:
+                request["top_p"] = float(predict_params.top_p)
+            if predict_params.min_p is not None:
+                request["min_p"] = float(predict_params.min_p)
+            if predict_params.seed is not None:
+                request["seed"] = int(predict_params.seed)
+            if predict_params.n_keep is not None:
+                request["n_keep"] = int(predict_params.n_keep)
+            if predict_params.cache_prompt is not None:
+                request["cache_prompt"] = bool(predict_params.cache_prompt)
+            if predict_params.repeat_penalty is not None:
+                request["repetition_penalty"] = float(predict_params.repeat_penalty)
+            if predict_params.repeat_last_n is not None:
+                request["repeat_last_n"] = int(predict_params.repeat_last_n)
+            if predict_params.presence_penalty is not None:
+                request["presence_penalty"] = float(predict_params.presence_penalty)
+            if predict_params.frequency_penalty is not None:
+                request["frequency_penalty"] = float(predict_params.frequency_penalty)
+        request["messages"] = self.create_messages(prompt)
+        return request
+    async def trim_sources(self, sources: str, user_request: str, system_prompt: str = None) -> dict:
+        """
+        Обрезает текст источников, чтобы уложиться в допустимое количество токенов.
+        Args:
+            sources (str): Текст источников.
+            user_request (str): Запрос пользователя с примененным шаблоном без текста источников.
+            system_prompt (str): Системный промпт, если нужен.
+        Returns:
+            dict: Словарь с результатом, количеством токенов до и после обрезки.
+        """
+        # Токенизация текста источников
+        sources_tokens_data = await self.tokenize(sources)
+        if sources_tokens_data is None:
+            raise ValueError("Failed to tokenize sources.")
+        max_token_count = sources_tokens_data.get("maxLength", 0)
+        # Токены системного промпта
+        system_prompt_token_count = 0
+        if system_prompt is not None:
+            system_prompt_tokens = await self.tokenize(system_prompt)
+            system_prompt_token_count = len(system_prompt_tokens["tokens"]) if system_prompt_tokens else 0
+        # Оригинальное количество токенов
+        original_token_count = len(sources_tokens_data["tokens"])
+        # Токенизация пользовательского промпта
+        aux_prompt = self.apply_llm_template_to_prompt(user_request)
+        aux_tokens_data = await self.tokenize(aux_prompt)
+        aux_token_count = len(aux_tokens_data["tokens"]) if aux_tokens_data else 0
+        # Максимально допустимое количество токенов для источников
+        max_length = (
+            max_token_count
+            - (self.params.predict_params.n_predict or 0)
+            - aux_token_count
+            - system_prompt_token_count
+        )
+        max_length = max(max_length, 0)
+        # Обрезка токенов источников
+        if "tokens" in sources_tokens_data:
+            sources_tokens_data["tokens"] = sources_tokens_data["tokens"][:max_length]
+            detokenized_prompt = await self.detokenize(sources_tokens_data["tokens"])
+            if detokenized_prompt is not None:
+                sources = detokenized_prompt
+            else:
+                sources = sources[:max_length]
+        else:
+            sources = sources[:max_length]
+        # Возврат результата
+        return {
+            "result": sources,
+            "originalTokenCount": original_token_count,
+            "slicedTokenCount": len(sources_tokens_data["tokens"]),
+        }
+    async def predict(self, prompt: str) -> str:
+        """
+        Выполняет запрос к API с поддержкой потокового вывода (SSE) и возвращает результат.
+        Args:
+            prompt (str): Входной текст для предсказания.
+        Returns:
+            str: Сгенерированный текст.
+        """
+        async with httpx.AsyncClient() as client:
+            # Формируем тело запроса
+            request = await self.create_request(prompt)
+            # Начинаем потоковый запрос
+            async with client.stream("POST", f"{self.params.url}/v1/chat/completions", json=request) as response:
+                if response.status_code != 200:
+                    # Если ошибка, читаем ответ для получения подробностей
+                    error_content = await response.aread()
+                    raise Exception(f"API error: {error_content.decode('utf-8')}")
+                # Для хранения результата
+                generated_text = ""
+                # Асинхронное чтение построчно
+                async for line in response.aiter_lines():
+                    if line.startswith("data: "):  # SSE-сообщения начинаются с "data: "
+                        try:
+                            # Парсим JSON из строки
+                            data = json.loads(line[len("data: "):].strip())
+                            if data == "[DONE]":  # Конец потока
+                                break
+                            if "choices" in data and data["choices"]:
+                                # Получаем текст из текущего токена
+                                token_value = data["choices"][0].get("delta", {}).get("content", "")
+                                generated_text += token_value
+                        except json.JSONDecodeError:
+                            continue  # Игнорируем строки, которые не удается декодировать
+            return generated_text.strip()

requirements CHANGED Viewed

@@ -1,4 +1,3 @@
 flask
 flask-cors
-huggingface_hub
-requests

 flask
 flask-cors
+python-dotenv