Spaces:
Sleeping
Sleeping
Migration to deepinfra
Browse files- .gitignore +8 -0
- app.py +83 -168
- llm/common.py +69 -0
- llm/deepinfra_api.py +151 -0
- llm/prompts.py +98 -0
- llm/vllm_api-sync.py +375 -0
- llm/vllm_api.py +317 -0
- requirements +1 -2
.gitignore
ADDED
@@ -0,0 +1,8 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
*.bat
|
2 |
+
__pycache__
|
3 |
+
.cache
|
4 |
+
.local
|
5 |
+
.nv
|
6 |
+
*.bash_history
|
7 |
+
*.zip
|
8 |
+
.env
|
app.py
CHANGED
@@ -1,14 +1,22 @@
|
|
1 |
from flask import Flask, request, Response, jsonify
|
2 |
-
from huggingface_hub import InferenceClient
|
3 |
from flask_cors import CORS
|
4 |
import json
|
5 |
-
import requests
|
6 |
import re
|
7 |
-
import
|
|
|
|
|
|
|
|
|
8 |
|
9 |
-
|
|
|
10 |
|
11 |
-
|
|
|
|
|
|
|
|
|
|
|
12 |
|
13 |
def format_prompt(message, history):
|
14 |
prompt = "<s>"
|
@@ -37,196 +45,134 @@ def split_text(text):
|
|
37 |
result.append(current_chunk.strip())
|
38 |
return result
|
39 |
|
40 |
-
def call_api(prompt_text):
|
41 |
-
url = "https://muryshev-mixtral-api-protocol.hf.space/completion?bypass_too_many_requests="+str(uuid.uuid4())
|
42 |
-
payload = {"prompt": prompt_text, "temperature": 0, "seed": 42, "repeat_penalty": 1, "top_p": 0.95, "stream": False, "n_predict": 2000}
|
43 |
-
|
44 |
-
try:
|
45 |
-
response = requests.post(url, json=payload)
|
46 |
-
response.raise_for_status() # Raise an exception for 4xx or 5xx status codes
|
47 |
-
result = response.json().get('content', '') # Extract the text result from the JSON response
|
48 |
-
print(result)
|
49 |
-
return result
|
50 |
-
except requests.exceptions.RequestException as e:
|
51 |
-
print("Error:", e)
|
52 |
-
return None
|
53 |
-
|
54 |
-
def generate(
|
55 |
-
prompt, history=[], temperature=0, max_new_tokens=2000, top_p=0.95, repetition_penalty=1.0,
|
56 |
-
):
|
57 |
-
return call_api(prompt)
|
58 |
-
temperature = float(temperature)
|
59 |
-
if temperature < 1e-2:
|
60 |
-
temperature = 1e-2
|
61 |
-
top_p = float(top_p)
|
62 |
-
|
63 |
-
generate_kwargs = dict(
|
64 |
-
temperature=temperature,
|
65 |
-
max_new_tokens=max_new_tokens,
|
66 |
-
top_p=top_p,
|
67 |
-
repetition_penalty=repetition_penalty,
|
68 |
-
do_sample=True,
|
69 |
-
seed=42,
|
70 |
-
)
|
71 |
-
|
72 |
-
#formatted_prompt = format_prompt(prompt, history)
|
73 |
-
|
74 |
-
#stream = client.text_generation(prompt, **generate_kwargs, stream=True, details=False, return_full_text=False)
|
75 |
-
response = client.text_generation(prompt, **generate_kwargs, stream=False, details=False, return_full_text=False)
|
76 |
-
print(response)
|
77 |
-
return response
|
78 |
-
#output = ""
|
79 |
-
|
80 |
-
#for response in stream:
|
81 |
-
# yield response.token.text.encode('utf-8')
|
82 |
|
83 |
app = Flask(__name__)
|
84 |
CORS(app)
|
85 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
86 |
@app.route('/health', methods=['GET'])
|
87 |
def health():
|
88 |
return jsonify({"status": "ok"})
|
89 |
|
90 |
-
@app.route('/completion', methods=['POST'])
|
91 |
-
def completion_route():
|
92 |
-
data = request.get_json()
|
93 |
-
prompt = data.get('prompt', '')
|
94 |
-
#truncated_prompt = prompt[:32768]
|
95 |
-
return Response(generate(prompt[:52768]), content_type='text/plain; charset=utf-8', status=200, direct_passthrough=True)
|
96 |
-
|
97 |
@app.route('/getsummary', methods=['POST'])
|
98 |
-
def getsummary_route():
|
99 |
data = request.get_json()
|
100 |
text = data.get('text', '')
|
101 |
-
# pages = split_text(text)
|
102 |
-
# result = ''
|
103 |
-
# for page in pages:
|
104 |
-
# summary_prompt = f'''''<s>[INST]Исправь в тексте, сделанным роботом при транскрибации аудиозаписи совещания, плохо-читаемые предложения. Проверь каждое предложение на согласованность падежей, окончаний, на наличие и правильное использование предлогов, в реплике каждого спикера исправь пунктуацию, чтобы смысл и был четкий и понятный, также удали дискурсивные слова, не несущие смысла, сделай текст аккуратным и легко читабельным и пиши только на русском языке: {page}[/INST]'
|
105 |
-
# response = generate(summary_prompt[:52000])
|
106 |
-
# result = result + '\n'+response
|
107 |
|
108 |
-
|
109 |
-
|
110 |
-
return jsonify({'result':
|
111 |
|
112 |
@app.route('/cleantext', methods=['POST'])
|
113 |
-
def cleantext_route():
|
114 |
data = request.get_json()
|
115 |
text = data.get('text', '')
|
116 |
|
117 |
-
|
118 |
-
response =
|
119 |
-
|
120 |
return jsonify({'result': response})
|
121 |
|
122 |
@app.route('/getfollowup', methods=['POST'])
|
123 |
-
def getfollowup_route():
|
124 |
data = request.get_json()
|
125 |
text = data.get('text', '')
|
126 |
|
127 |
-
|
128 |
-
response =
|
129 |
-
|
130 |
return jsonify({'result': response})
|
131 |
|
132 |
@app.route('/getagenda', methods=['POST'])
|
133 |
-
def getagenda_route():
|
134 |
data = request.get_json()
|
135 |
text = data.get('text', '')
|
136 |
|
137 |
-
|
138 |
-
response =
|
139 |
-
|
140 |
return jsonify({'result': response})
|
141 |
|
142 |
@app.route('/gethighlights', methods=['POST'])
|
143 |
-
def gethighlights_route():
|
144 |
data = request.get_json()
|
145 |
text = data.get('text', '')
|
146 |
|
147 |
-
|
148 |
-
response =
|
149 |
-
|
150 |
return jsonify({'result': response})
|
151 |
|
152 |
|
153 |
@app.route('/getprojectinfo', methods=['POST'])
|
154 |
-
def getprojectinfo_route():
|
155 |
data = request.get_json()
|
156 |
text = data.get('text', '')
|
157 |
|
158 |
main_prompts = []
|
159 |
-
|
160 |
-
|
161 |
-
Формат ответа: "Участники: *здесь ФИО говорящих из текста*". Если имя говорящего не указано, то отвечай так: "не указано".
|
162 |
-
Текст совещания: "{text}"[/INST]''')
|
163 |
-
|
164 |
-
prompt2 = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
|
165 |
-
Представь, что ты лучший в мире смысловик и копирайтер.
|
166 |
-
Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
|
167 |
-
Каков ход совещания в этом тексте?
|
168 |
-
Формат ответа: "Повестка встречи: *здесь текст*".
|
169 |
-
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
170 |
-
Скрипт: {text}[/INST]''')
|
171 |
-
main_prompts.append(prompt1)
|
172 |
-
main_prompts.append(prompt2)
|
173 |
|
174 |
main_info =''
|
175 |
for i in main_prompts:
|
176 |
-
result =
|
177 |
if result is None:
|
178 |
return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
|
179 |
main_info += '\n\n'+result+'\n\n'
|
180 |
|
181 |
final = main_info
|
182 |
final = final.replace("Конец ответа", "")
|
183 |
-
#final = final.replace('\n', ' ')
|
184 |
final = final.replace('</s>', '')
|
185 |
final = final.strip()
|
186 |
return jsonify({'result': final})
|
187 |
|
188 |
|
189 |
@app.route('/getprojectlist', methods=['POST'])
|
190 |
-
def getprojectlist_route():
|
191 |
data = request.get_json()
|
192 |
text = data.get('text', '')
|
193 |
|
194 |
main_prompts = []
|
195 |
-
|
196 |
-
|
197 |
-
Формат ответа: "Участники: *здесь ФИО говорящих из текста*". Если имя говорящего не указано, то отвечай так: "не указано".
|
198 |
-
Текст совещания: "{text}"[/INST]''')
|
199 |
-
|
200 |
-
prompt2 = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
|
201 |
-
Представь, что ты лучший в мире смысловик и копирайтер.
|
202 |
-
Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
|
203 |
-
Каков ход совещания в этом тексте?
|
204 |
-
Формат ответа: "Повестка встречи: *здесь текст*".
|
205 |
-
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
206 |
-
Скрипт: {text}[/INST]''')
|
207 |
-
main_prompts.append(prompt1)
|
208 |
-
main_prompts.append(prompt2)
|
209 |
|
210 |
main_info =''
|
211 |
for i in main_prompts:
|
212 |
-
result =
|
213 |
if result is None:
|
214 |
return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
|
215 |
main_info += '\n\n'+result+'\n\n'
|
216 |
|
217 |
proj_prompt = []
|
218 |
-
|
219 |
-
1. Найти все упоминания слов "проект" или "проекты" в тексте.
|
220 |
-
2. Прочитать контекст вокруг упоминаний слова "проект" или "проекты" и определить, какие проекты упоминаются.
|
221 |
-
3. Составить список названий проектов, которые были найдены в тексте.
|
222 |
-
Используй только такой формат ответа: "Проект №: *суть кратко*". Конец ответа.
|
223 |
-
Ты больше ничего не говоришь, не комментируешь, не добавляешь.
|
224 |
-
Текст: {text}[/INST]''')
|
225 |
-
proj_prompt.append(prompt)
|
226 |
|
227 |
list_of_projects =''
|
228 |
for i in proj_prompt:
|
229 |
-
result =
|
230 |
if result is None:
|
231 |
return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
|
232 |
list_of_projects += result
|
@@ -235,7 +181,7 @@ def getprojectlist_route():
|
|
235 |
proj = [delimiter+x for x in list_of_projects.split(delimiter) if x]
|
236 |
proj = proj[1:]
|
237 |
|
238 |
-
|
239 |
for i in proj:
|
240 |
a = i.replace("Проект №", "")
|
241 |
a = a.replace("Конец ответа", "")
|
@@ -244,21 +190,16 @@ def getprojectlist_route():
|
|
244 |
a = a.replace('\n', ' ')
|
245 |
a = a.replace('</s>', ' ')
|
246 |
a = a.strip()
|
247 |
-
|
248 |
|
249 |
check_prompts = []
|
250 |
|
251 |
-
checking = (
|
252 |
-
У меня есть список проектов. Такие проекты имеются в тексте и являются основными? Список проектов: {proj_}.
|
253 |
-
Ты обязательно используешь ТОЛЬКО такой формат ответа:
|
254 |
-
"Да: Проект № *название проекта*." ИЛИ "Нет, такого проекта нет".
|
255 |
-
Ты больше ничего не говоришь, не комментируешь, не добавляешь.
|
256 |
-
Текст: {text}[/INST]''')
|
257 |
check_prompts.append(checking)
|
258 |
|
259 |
real_projects = ''
|
260 |
for i in check_prompts:
|
261 |
-
result =
|
262 |
if result is None:
|
263 |
return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
|
264 |
real_projects += result
|
@@ -267,7 +208,7 @@ def getprojectlist_route():
|
|
267 |
return jsonify({'result': real_projects_list})
|
268 |
|
269 |
@app.route('/getprojectdetails', methods=['POST'])
|
270 |
-
def getinfobyproject_route():
|
271 |
data = request.get_json()
|
272 |
text = data.get('text', '')
|
273 |
real_projects_list = data.get('projects', {})
|
@@ -275,43 +216,17 @@ def getinfobyproject_route():
|
|
275 |
project_prompts = {}
|
276 |
if real_projects_list:
|
277 |
for i in real_projects_list:
|
278 |
-
if not i or i.strip() == "":
|
279 |
continue
|
280 |
|
281 |
-
prompt_aim = (
|
282 |
-
|
283 |
-
|
284 |
-
|
285 |
-
|
286 |
-
|
287 |
-
|
288 |
-
|
289 |
-
Формат ответа: "По факту реализации проекта Группа Компаний Получит: *здесь текст*".
|
290 |
-
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
291 |
-
Скрипт: {text}[/INST]''')
|
292 |
-
budget = (f'<s>[INST]Ты всегда отвечаешь на РУССКОМ языке. +\
|
293 |
-
Найди в тексте информацию о бюджете этого проекта: {i} . +\
|
294 |
-
Формат ответа: "Бюджет проекта: *здесь цифра*". Если бюджет проекта не указан, то отвечай так: "Бюджет: Такой информации нет."+\
|
295 |
-
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке. +\
|
296 |
-
Скрипт: {text}[/INST]')
|
297 |
-
ec_ef = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
|
298 |
-
Поразмышляй об этом тексте. Как ты думаешь, в чем заключается экономический эффект (экономические преимущества) для компании от этого проекта: {i}. Выбирай и анализируй информацию только об ЭТОМ проекте.
|
299 |
-
Формат ответа: "Экономический эффект от проекта: *здесь ответ на вопрос*".
|
300 |
-
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
301 |
-
Скрипт: {text}[/INST]''')
|
302 |
-
deadline = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке.
|
303 |
-
Найди в тексте дату, когда должен быть реализован ЭТОТ проект: {i}. Выбирай и анализируй информацию только об ЭТОМ проекте: {i}.
|
304 |
-
Формат ответа: "Срок реализации: *здесь текст*".
|
305 |
-
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
306 |
-
Скрипт: {text}[/INST]''')
|
307 |
-
new_plan = (f'<s>[INST]Ты всегда отвечаешь на РУССКОМ языке! Только на русском языке. Выбирай и анализируй информацию на русском языке только об ЭТОМ проекте: {i} .+\
|
308 |
-
Представь, что ты лучший в мире смысловик и копирайтер. +\
|
309 |
-
Сделай глубокий вдох и, думая шаг за шагом, ответь на русском языке на вопрос: Какие действия участники решили предпринять, чтобы отлично выполнить проект?+\
|
310 |
-
Используй такой формат ответа: "Решения: *текст*". Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь! Ищи ответ в тексте: {text}. Отвечай на русском языке!!! [/INST]')
|
311 |
-
conclusion = (f'''<s>[INST]Ты всегда отвечаешь на РУССКОМ языке. Поразмышляй о тексте.
|
312 |
-
Какой вывод заключили участники относительно ЭТОГО проекта: {i}.
|
313 |
-
Используй такой формат ответа: "Вывод: *Тут описывается принятое решение.*." Конец ответа.
|
314 |
-
Текст: {text}[/INST]''')
|
315 |
p = [prompt_aim, gk, budget, ec_ef, deadline, new_plan, conclusion]
|
316 |
project_prompts[i] = {}
|
317 |
project_prompts[i]['prompts'] = p
|
@@ -322,7 +237,7 @@ def getinfobyproject_route():
|
|
322 |
final = {}
|
323 |
for project_name, project in project_prompts.items():
|
324 |
for prompt in project['prompts']:
|
325 |
-
result =
|
326 |
if result is not None:
|
327 |
final[project_name] = final.get(project_name, '') + '\n\n'+result + '\n\n'
|
328 |
final[project_name] = final[project_name].replace("Конец ответа", "")
|
|
|
1 |
from flask import Flask, request, Response, jsonify
|
|
|
2 |
from flask_cors import CORS
|
3 |
import json
|
|
|
4 |
import re
|
5 |
+
import os
|
6 |
+
from llm.common import LlmParams, LlmPredictParams
|
7 |
+
from llm.deepinfra_api import DeepInfraApi
|
8 |
+
from llm import prompts
|
9 |
+
from dotenv import load_dotenv
|
10 |
|
11 |
+
# Загрузка переменных окружения из файла .env
|
12 |
+
load_dotenv()
|
13 |
|
14 |
+
LLM_API_URL = os.getenv("LLM_API_URL", "https://api.deepinfra.com")
|
15 |
+
LLM_API_KEY = os.getenv("DEEPINFRA_API_KEY", "")
|
16 |
+
LLM_NAME = os.getenv("LLM_NAME", "meta-llama/Llama-3.3-70B-Instruct-Turbo")
|
17 |
+
|
18 |
+
default_llm_params = LlmParams(url=LLM_API_URL,api_key=LLM_API_KEY, model=LLM_NAME, predict_params=LlmPredictParams(temperature=0.15, top_p=0.95, min_p=0.05, seed=42, repetition_penalty=1.2, presence_penalty=1.1, max_tokens=6000))
|
19 |
+
llm_api = DeepInfraApi(default_llm_params)
|
20 |
|
21 |
def format_prompt(message, history):
|
22 |
prompt = "<s>"
|
|
|
45 |
result.append(current_chunk.strip())
|
46 |
return result
|
47 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
48 |
|
49 |
app = Flask(__name__)
|
50 |
CORS(app)
|
51 |
|
52 |
+
@app.route('/extracttable', methods=['POST'])
|
53 |
+
async def extracttable_route():
|
54 |
+
data = request.get_json()
|
55 |
+
text = data.get('text', '')
|
56 |
+
|
57 |
+
prompt = prompts.LLM_PROMPT_EXTRACT_TABLE.format(query = text)
|
58 |
+
response = await llm_api.predict(prompt[:150000])
|
59 |
+
|
60 |
+
result = {"response": None, "error": None, "raw": response} # По умолчанию сохраняем всю строку
|
61 |
+
|
62 |
+
if "JSON: " not in response:
|
63 |
+
result["error"] = "Строка не содержит 'JSON: '"
|
64 |
+
return result
|
65 |
+
|
66 |
+
prefix, json_str = response.split("JSON: ", 1)
|
67 |
+
json_str = json_str.strip()
|
68 |
+
|
69 |
+
if not json_str:
|
70 |
+
result["error"] = "После 'JSON: ' отсутствует JSON"
|
71 |
+
return result
|
72 |
+
|
73 |
+
try:
|
74 |
+
result["response"] = json.loads(json_str)
|
75 |
+
result["raw"] = prefix.strip() # Остаток перед "JSON: "
|
76 |
+
except json.JSONDecodeError as e:
|
77 |
+
result["error"] = f"Ошибка декодирования JSON: {e}"
|
78 |
+
|
79 |
+
return jsonify(result)
|
80 |
+
|
81 |
@app.route('/health', methods=['GET'])
|
82 |
def health():
|
83 |
return jsonify({"status": "ok"})
|
84 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
85 |
@app.route('/getsummary', methods=['POST'])
|
86 |
+
async def getsummary_route():
|
87 |
data = request.get_json()
|
88 |
text = data.get('text', '')
|
|
|
|
|
|
|
|
|
|
|
|
|
89 |
|
90 |
+
prompt = prompts.GET_SUMMARY.format(text=text)
|
91 |
+
response = await llm_api.predict(prompt[:150000])
|
92 |
+
return jsonify({'result': response})
|
93 |
|
94 |
@app.route('/cleantext', methods=['POST'])
|
95 |
+
async def cleantext_route():
|
96 |
data = request.get_json()
|
97 |
text = data.get('text', '')
|
98 |
|
99 |
+
prompt = prompts.CLEAN_TEXT.format(text=text)
|
100 |
+
response = await llm_api.predict(prompt[:150000])
|
|
|
101 |
return jsonify({'result': response})
|
102 |
|
103 |
@app.route('/getfollowup', methods=['POST'])
|
104 |
+
async def getfollowup_route():
|
105 |
data = request.get_json()
|
106 |
text = data.get('text', '')
|
107 |
|
108 |
+
prompt = prompts.GET_FOLLOWUP.format(text=text)
|
109 |
+
response = await llm_api.predict(prompt[:150000])
|
|
|
110 |
return jsonify({'result': response})
|
111 |
|
112 |
@app.route('/getagenda', methods=['POST'])
|
113 |
+
async def getagenda_route():
|
114 |
data = request.get_json()
|
115 |
text = data.get('text', '')
|
116 |
|
117 |
+
prompt = prompts.GET_AGENDA.format(text=text)
|
118 |
+
response = await llm_api.predict(prompt[:150000])
|
|
|
119 |
return jsonify({'result': response})
|
120 |
|
121 |
@app.route('/gethighlights', methods=['POST'])
|
122 |
+
async def gethighlights_route():
|
123 |
data = request.get_json()
|
124 |
text = data.get('text', '')
|
125 |
|
126 |
+
prompt = prompts.GET_HIGHLIGHTS.format(text=text)
|
127 |
+
response = await llm_api.predict(prompt[:150000])
|
|
|
128 |
return jsonify({'result': response})
|
129 |
|
130 |
|
131 |
@app.route('/getprojectinfo', methods=['POST'])
|
132 |
+
async def getprojectinfo_route():
|
133 |
data = request.get_json()
|
134 |
text = data.get('text', '')
|
135 |
|
136 |
main_prompts = []
|
137 |
+
main_prompts.append(prompts.GET_PROJECT_INFO_NAMES.format(text=text))
|
138 |
+
main_prompts.append(prompts.GET_PROJECT_INFO_AGENDA.format(text=text))
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
139 |
|
140 |
main_info =''
|
141 |
for i in main_prompts:
|
142 |
+
result = await llm_api.predict(i[:150000])
|
143 |
if result is None:
|
144 |
return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
|
145 |
main_info += '\n\n'+result+'\n\n'
|
146 |
|
147 |
final = main_info
|
148 |
final = final.replace("Конец ответа", "")
|
|
|
149 |
final = final.replace('</s>', '')
|
150 |
final = final.strip()
|
151 |
return jsonify({'result': final})
|
152 |
|
153 |
|
154 |
@app.route('/getprojectlist', methods=['POST'])
|
155 |
+
async def getprojectlist_route():
|
156 |
data = request.get_json()
|
157 |
text = data.get('text', '')
|
158 |
|
159 |
main_prompts = []
|
160 |
+
main_prompts.append(prompts.GET_PROJECT_INFO_NAMES.format(text=text))
|
161 |
+
main_prompts.append(prompts.GET_PROJECT_INFO_AGENDA.format(text=text))
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
162 |
|
163 |
main_info =''
|
164 |
for i in main_prompts:
|
165 |
+
result = await llm_api.predict(i[:150000])
|
166 |
if result is None:
|
167 |
return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
|
168 |
main_info += '\n\n'+result+'\n\n'
|
169 |
|
170 |
proj_prompt = []
|
171 |
+
proj_prompt.append(prompts.GET_PROJECT_LIST.format(text=text))
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
172 |
|
173 |
list_of_projects =''
|
174 |
for i in proj_prompt:
|
175 |
+
result = await llm_api.predict(i[:150000])
|
176 |
if result is None:
|
177 |
return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
|
178 |
list_of_projects += result
|
|
|
181 |
proj = [delimiter+x for x in list_of_projects.split(delimiter) if x]
|
182 |
proj = proj[1:]
|
183 |
|
184 |
+
projects = []
|
185 |
for i in proj:
|
186 |
a = i.replace("Проект №", "")
|
187 |
a = a.replace("Конец ответа", "")
|
|
|
190 |
a = a.replace('\n', ' ')
|
191 |
a = a.replace('</s>', ' ')
|
192 |
a = a.strip()
|
193 |
+
projects.append(a)
|
194 |
|
195 |
check_prompts = []
|
196 |
|
197 |
+
checking = prompts.GET_PROJECT_LIST_CHECK_PROJECT.format(text=text, projects=projects)
|
|
|
|
|
|
|
|
|
|
|
198 |
check_prompts.append(checking)
|
199 |
|
200 |
real_projects = ''
|
201 |
for i in check_prompts:
|
202 |
+
result = await llm_api.predict(i[:150000])
|
203 |
if result is None:
|
204 |
return jsonify({'error': 'Сервер LLM временно недоступен. Попробуйте повторить запрос через несколько минут.'})
|
205 |
real_projects += result
|
|
|
208 |
return jsonify({'result': real_projects_list})
|
209 |
|
210 |
@app.route('/getprojectdetails', methods=['POST'])
|
211 |
+
async def getinfobyproject_route():
|
212 |
data = request.get_json()
|
213 |
text = data.get('text', '')
|
214 |
real_projects_list = data.get('projects', {})
|
|
|
216 |
project_prompts = {}
|
217 |
if real_projects_list:
|
218 |
for i in real_projects_list:
|
219 |
+
if not i or i.strip() == "":
|
220 |
continue
|
221 |
|
222 |
+
prompt_aim = prompts.GET_PROJECT_DETAILS_AIM.format(text=text, project=i)
|
223 |
+
gk = prompts.GET_PROJECT_DETAILS_VALUE.format(text=text, project=i)
|
224 |
+
budget = prompts.GET_PROJECT_DETAILS_BUDGET.format(text=text, project=i)
|
225 |
+
ec_ef = prompts.GET_PROJECT_DETAILS_ECO_EFFECT.format(text=text, project=i)
|
226 |
+
deadline = prompts.GET_PROJECT_DETAILS_DEADLINE.format(text=text, project=i)
|
227 |
+
new_plan = prompts.GET_PROJECT_DETAILS_NEW_PLAN.format(text=text, project=i)
|
228 |
+
conclusion = prompts.GET_PROJECT_DETAILS_CONCLUSION.format(text=text, project=i)
|
229 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
230 |
p = [prompt_aim, gk, budget, ec_ef, deadline, new_plan, conclusion]
|
231 |
project_prompts[i] = {}
|
232 |
project_prompts[i]['prompts'] = p
|
|
|
237 |
final = {}
|
238 |
for project_name, project in project_prompts.items():
|
239 |
for prompt in project['prompts']:
|
240 |
+
result = await llm_api.predict(prompt[:150000])
|
241 |
if result is not None:
|
242 |
final[project_name] = final.get(project_name, '') + '\n\n'+result + '\n\n'
|
243 |
final[project_name] = final[project_name].replace("Конец ответа", "")
|
llm/common.py
ADDED
@@ -0,0 +1,69 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
from pydantic import BaseModel, Field
|
2 |
+
from typing import Optional, List, Protocol
|
3 |
+
from abc import ABC, abstractmethod
|
4 |
+
|
5 |
+
class LlmPredictParams(BaseModel):
|
6 |
+
"""
|
7 |
+
Параметры для предсказания LLM.
|
8 |
+
"""
|
9 |
+
system_prompt: Optional[str] = Field(None, description="Системный промпт.")
|
10 |
+
user_prompt: Optional[str] = Field(None, description="Шаблон промпта для передачи от роли user.")
|
11 |
+
n_predict: Optional[int] = None
|
12 |
+
temperature: Optional[float] = None
|
13 |
+
top_k: Optional[int] = None
|
14 |
+
top_p: Optional[float] = None
|
15 |
+
min_p: Optional[float] = None
|
16 |
+
seed: Optional[int] = None
|
17 |
+
repeat_penalty: Optional[float] = None
|
18 |
+
repeat_last_n: Optional[int] = None
|
19 |
+
retry_if_text_not_present: Optional[str] = None
|
20 |
+
retry_count: Optional[int] = None
|
21 |
+
presence_penalty: Optional[float] = None
|
22 |
+
frequency_penalty: Optional[float] = None
|
23 |
+
n_keep: Optional[int] = None
|
24 |
+
cache_prompt: Optional[bool] = None
|
25 |
+
stop: Optional[List[str]] = None
|
26 |
+
|
27 |
+
|
28 |
+
class LlmParams(BaseModel):
|
29 |
+
"""
|
30 |
+
Основные параметры для LLM.
|
31 |
+
"""
|
32 |
+
url: str
|
33 |
+
model: Optional[str] = Field(None, description="Предполагается, что для локального API этот параметр не будет указываться, т.к. будем брать первую модель из списка потому, что модель доступна всего одна. Для deepinfra такой подход не подойдет и модель нужно задавать явно.")
|
34 |
+
type: Optional[str] = None
|
35 |
+
default: Optional[bool] = None
|
36 |
+
template: Optional[str] = None
|
37 |
+
predict_params: Optional[LlmPredictParams] = None
|
38 |
+
api_key: Optional[str] = None
|
39 |
+
|
40 |
+
class LlmApiProtocol(Protocol):
|
41 |
+
async def tokenize(self, prompt: str) -> Optional[dict]:
|
42 |
+
...
|
43 |
+
async def detokenize(self, tokens: List[int]) -> Optional[str]:
|
44 |
+
...
|
45 |
+
async def trim_sources(self, sources: str, user_request: str, system_prompt: str = None) -> dict:
|
46 |
+
...
|
47 |
+
async def predict(self, prompt: str) -> str:
|
48 |
+
...
|
49 |
+
|
50 |
+
class LlmApi:
|
51 |
+
"""
|
52 |
+
Базовый клас для работы с API LLM.
|
53 |
+
"""
|
54 |
+
params: LlmParams = None
|
55 |
+
|
56 |
+
def __init__(self):
|
57 |
+
self.params = None
|
58 |
+
|
59 |
+
def set_params(self, params: LlmParams):
|
60 |
+
self.params = params
|
61 |
+
|
62 |
+
def create_headers(self) -> dict[str, str]:
|
63 |
+
headers = {"Content-Type": "application/json"}
|
64 |
+
|
65 |
+
if self.params.api_key is not None:
|
66 |
+
headers["Authorization"] = self.params.api_key
|
67 |
+
|
68 |
+
return headers
|
69 |
+
|
llm/deepinfra_api.py
ADDED
@@ -0,0 +1,151 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import json
|
2 |
+
from typing import Optional, List
|
3 |
+
import httpx
|
4 |
+
from llm.common import LlmParams, LlmApi
|
5 |
+
|
6 |
+
class DeepInfraApi(LlmApi):
|
7 |
+
"""
|
8 |
+
Класс для работы с API vllm.
|
9 |
+
"""
|
10 |
+
|
11 |
+
def __init__(self, params: LlmParams):
|
12 |
+
super().__init__()
|
13 |
+
super().set_params(params)
|
14 |
+
|
15 |
+
async def get_models(self) -> List[str]:
|
16 |
+
"""
|
17 |
+
Выполняет GET-запрос к API для получения списка доступных моделей.
|
18 |
+
|
19 |
+
Возвращает:
|
20 |
+
list[str]: Список идентификаторов моделей.
|
21 |
+
Если произошла ошибка или данные недоступны, возвращается пустой список.
|
22 |
+
|
23 |
+
Исключения:
|
24 |
+
Все ошибки HTTP-запросов логируются в консоль, но не выбрасываются дальше.
|
25 |
+
"""
|
26 |
+
try:
|
27 |
+
async with httpx.AsyncClient() as client:
|
28 |
+
response = await client.get(f"{self.params.url}/v1/openai/models", headers=super().create_headers())
|
29 |
+
if response.status_code == 200:
|
30 |
+
json_data = response.json()
|
31 |
+
return [item['id'] for item in json_data.get('data', [])]
|
32 |
+
except httpx.RequestError as error:
|
33 |
+
print('Error fetching models:', error)
|
34 |
+
return []
|
35 |
+
|
36 |
+
def create_messages(self, prompt: str) -> List[dict]:
|
37 |
+
"""
|
38 |
+
Создает сообщения для LLM на основе переданного промпта и системного промпта (если он задан).
|
39 |
+
|
40 |
+
Args:
|
41 |
+
prompt (str): Пользовательский промпт.
|
42 |
+
|
43 |
+
Returns:
|
44 |
+
list[dict]: Список сообщений с ролями и содержимым.
|
45 |
+
"""
|
46 |
+
actual_prompt = self.apply_llm_template_to_prompt(prompt)
|
47 |
+
messages = []
|
48 |
+
if self.params.predict_params and self.params.predict_params.system_prompt:
|
49 |
+
messages.append({"role": "system", "content": self.params.predict_params.system_prompt})
|
50 |
+
messages.append({"role": "user", "content": actual_prompt})
|
51 |
+
return messages
|
52 |
+
|
53 |
+
def apply_llm_template_to_prompt(self, prompt: str) -> str:
|
54 |
+
"""
|
55 |
+
Применяет шаблон LLM к переданному промпту, если он задан.
|
56 |
+
|
57 |
+
Args:
|
58 |
+
prompt (str): Пользовательский промпт.
|
59 |
+
|
60 |
+
Returns:
|
61 |
+
str: Промпт с примененным шаблоном (или оригинальный, если шаблон отсутствует).
|
62 |
+
"""
|
63 |
+
actual_prompt = prompt
|
64 |
+
if self.params.template is not None:
|
65 |
+
actual_prompt = self.params.template.replace("{{PROMPT}}", actual_prompt)
|
66 |
+
return actual_prompt
|
67 |
+
|
68 |
+
async def tokenize(self, prompt: str) -> Optional[dict]:
|
69 |
+
raise NotImplementedError("This function is not supported.")
|
70 |
+
|
71 |
+
async def detokenize(self, tokens: List[int]) -> Optional[str]:
|
72 |
+
raise NotImplementedError("This function is not supported.")
|
73 |
+
|
74 |
+
async def create_request(self, prompt: str) -> dict:
|
75 |
+
"""
|
76 |
+
Создает запрос для предсказания на основе параметров LLM.
|
77 |
+
|
78 |
+
Args:
|
79 |
+
prompt (str): Промпт для запроса.
|
80 |
+
|
81 |
+
Returns:
|
82 |
+
dict: Словарь с параметрами для выполнения запроса.
|
83 |
+
"""
|
84 |
+
|
85 |
+
request = {
|
86 |
+
"stream": False,
|
87 |
+
"model": self.params.model,
|
88 |
+
}
|
89 |
+
|
90 |
+
predict_params = self.params.predict_params
|
91 |
+
if predict_params:
|
92 |
+
if predict_params.stop:
|
93 |
+
non_empty_stop = list(filter(lambda o: o != "", predict_params.stop))
|
94 |
+
if non_empty_stop:
|
95 |
+
request["stop"] = non_empty_stop
|
96 |
+
|
97 |
+
if predict_params.n_predict is not None:
|
98 |
+
request["max_tokens"] = int(predict_params.n_predict or 0)
|
99 |
+
|
100 |
+
request["temperature"] = float(predict_params.temperature or 0)
|
101 |
+
if predict_params.top_k is not None:
|
102 |
+
request["top_k"] = int(predict_params.top_k)
|
103 |
+
|
104 |
+
if predict_params.top_p is not None:
|
105 |
+
request["top_p"] = float(predict_params.top_p)
|
106 |
+
|
107 |
+
if predict_params.min_p is not None:
|
108 |
+
request["min_p"] = float(predict_params.min_p)
|
109 |
+
|
110 |
+
if predict_params.seed is not None:
|
111 |
+
request["seed"] = int(predict_params.seed)
|
112 |
+
|
113 |
+
if predict_params.n_keep is not None:
|
114 |
+
request["n_keep"] = int(predict_params.n_keep)
|
115 |
+
|
116 |
+
if predict_params.cache_prompt is not None:
|
117 |
+
request["cache_prompt"] = bool(predict_params.cache_prompt)
|
118 |
+
|
119 |
+
if predict_params.repeat_penalty is not None:
|
120 |
+
request["repetition_penalty"] = float(predict_params.repeat_penalty)
|
121 |
+
|
122 |
+
if predict_params.repeat_last_n is not None:
|
123 |
+
request["repeat_last_n"] = int(predict_params.repeat_last_n)
|
124 |
+
|
125 |
+
if predict_params.presence_penalty is not None:
|
126 |
+
request["presence_penalty"] = float(predict_params.presence_penalty)
|
127 |
+
|
128 |
+
if predict_params.frequency_penalty is not None:
|
129 |
+
request["frequency_penalty"] = float(predict_params.frequency_penalty)
|
130 |
+
|
131 |
+
request["messages"] = self.create_messages(prompt)
|
132 |
+
return request
|
133 |
+
|
134 |
+
async def trim_sources(self, sources: str, user_request: str, system_prompt: str = None) -> dict:
|
135 |
+
raise NotImplementedError("This function is not supported.")
|
136 |
+
|
137 |
+
async def predict(self, prompt: str) -> str:
|
138 |
+
"""
|
139 |
+
Выполняет запрос к API и возвращает результат.
|
140 |
+
|
141 |
+
Args:
|
142 |
+
prompt (str): Входной текст для предсказания.
|
143 |
+
|
144 |
+
Returns:
|
145 |
+
str: Сгенерированный текст.
|
146 |
+
"""
|
147 |
+
async with httpx.AsyncClient() as client:
|
148 |
+
request = await self.create_request(prompt)
|
149 |
+
response = await client.post(f"{self.params.url}/v1/openai/chat/completions", headers=super().create_headers(), json=request)
|
150 |
+
if response.status_code == 200:
|
151 |
+
return response.json()["choices"][0]["message"]["content"]
|
llm/prompts.py
ADDED
@@ -0,0 +1,98 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
LLM_PROMPT_EXTRACT_TABLE = """
|
2 |
+
Обработай текст, верни json после слова "JSON:":
|
3 |
+
{query}"""
|
4 |
+
|
5 |
+
GET_SUMMARY = 'Исправь в тексте, сделанным роботом при транскрибации аудиозаписи совещания, плохо-читаемые предложения. Проверь каждое предложение на согласованность падежей, окончаний, на наличие и правильное использование предлогов, в реплике каждого спикера исправь пунктуацию, чтобы смысл и был четкий и понятный, также удали дискурсивные слова, не несущие смысла, сделай текст аккуратным и легко читабельным и пиши только на русском языке: {text}'
|
6 |
+
|
7 |
+
CLEAN_TEXT = """
|
8 |
+
Ты мой помощник. Ты отвечаешь только на русском языке. Сформируй краткое изложение следующего текста: {text}
|
9 |
+
"""
|
10 |
+
|
11 |
+
GET_FOLLOWUP = """
|
12 |
+
Ты мой помощник. Ты отвечаешь только на русском языке. Выпиши из текста нумерованным списком обсуждаемые темы и у каждой темы сделай подпунктами обсуждаемые вопросы. Текст: {text}
|
13 |
+
"""
|
14 |
+
|
15 |
+
GET_AGENDA = """
|
16 |
+
Ты мой помощник. Ты отвечаешь только на русском языке. Выпиши из текста в виде списка какие задачи были поставлены для конкретных исполнителей с указанием сроков, если это возможно определить. Если задача есть в списке, то не добавляй идентичную. Текст: {text}
|
17 |
+
"""
|
18 |
+
|
19 |
+
GET_HIGHLIGHTS = """
|
20 |
+
Ты мой помощник. Ты отвечаешь только на русском языке. Сформируй на основе текста два нумерованных списка: 1. какие проблемы были озвучены в тексте 2. какие предложения были сформулированы. Текст: {text}
|
21 |
+
"""
|
22 |
+
|
23 |
+
GET_PROJECT_INFO_NAMES = """
|
24 |
+
Ты всегда отвечаешь на РУССКОМ языке.
|
25 |
+
Найди в тексте ИМЕНА СОБСТВЕННЫЕ участников обсуждения. Кто говорил во время совещания?
|
26 |
+
Формат ответа: "Участники: *здесь ФИО говорящих из текста*". Если имя говорящего не указано, то отвечай так: "не указано".
|
27 |
+
Текст совещания: "{text}"
|
28 |
+
"""
|
29 |
+
|
30 |
+
GET_PROJECT_INFO_AGENDA = """
|
31 |
+
Ты всегда отвечаешь на РУССКОМ языке.
|
32 |
+
Представь, что ты лучший в мире смысловик и копирайтер.
|
33 |
+
Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
|
34 |
+
Каков ход совещания в этом тексте?
|
35 |
+
Формат ответа: "Повестка встречи: *здесь текст*".
|
36 |
+
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
37 |
+
Скрипт: {text}
|
38 |
+
"""
|
39 |
+
|
40 |
+
GET_PROJECT_LIST = """
|
41 |
+
Вы отвечаете только на РУССКОМ языке.
|
42 |
+
1. Найти все упоминания слов "проект" или "проекты" в тексте.
|
43 |
+
2. Прочитать контекст вокруг упоминаний слова "проект" или "проекты" и определить, какие проекты упоминаются.
|
44 |
+
3. Составить список названий проектов, которые были найдены в тексте.
|
45 |
+
Используй только такой формат ответа: "Проект №: *суть кратко*". Конец ответа.
|
46 |
+
Ты больше ничего не говоришь, не комментируешь, не добавляешь.
|
47 |
+
Текст: {text}
|
48 |
+
"""
|
49 |
+
|
50 |
+
GET_PROJECT_LIST_CHECK_PROJECT = """
|
51 |
+
Ты всегда отвечаешь на РУССКОМ языке. Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
|
52 |
+
У меня есть список проектов. Такие проекты имеются в тексте и являются основными? Список проектов: {projects}.
|
53 |
+
Ты обязательно используешь ТОЛЬКО такой формат ответа:
|
54 |
+
"Да: Проект № *название проекта*." ИЛИ "Нет, такого проекта нет".
|
55 |
+
Ты больше ничего не говоришь, не комментируешь, не добавляешь.
|
56 |
+
Текст: {text}
|
57 |
+
"""
|
58 |
+
|
59 |
+
GET_PROJECT_DETAILS_AIM = """Ты всегда отвечаешь на РУССКОМ языке. Представь, что ты лучший в мире смысловик и копирайтер.
|
60 |
+
Сделай глубокий вдох и, думая шаг за шагом, выполни задание:
|
61 |
+
Опираясь на данный текст, определи цель ЭТОГО проекта: {project}. Выбирай и анализируй информацию только об ЭТОМ проекте.
|
62 |
+
Формат ответа: "Проект: *название проекта*. Цель этого проекта: *здесь текст*".
|
63 |
+
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
64 |
+
Текст: {text}"""
|
65 |
+
|
66 |
+
GET_PROJECT_DETAILS_VALUE = """Ты всегда отвечаешь на РУССКОМ языке. Представь, что ты лучший в мире смысловик и копирайтер.
|
67 |
+
Сделай глубокий вдох и, думая шаг за шагом, ответь на вопрос: Какие преимущества (выгоду) получит группа компаний по итогам этого проекта: {project}.
|
68 |
+
Формат ответа: "По факту реализации проекта Группа Компаний Получит: *здесь текст*".
|
69 |
+
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
70 |
+
Скрипт: {text}"""
|
71 |
+
|
72 |
+
GET_PROJECT_DETAILS_BUDGET = """Ты всегда отвечаешь на РУССКОМ языке.
|
73 |
+
Найди в тексте информацию о бюджете этого проекта: {project} .
|
74 |
+
Формат ответа: "Бюджет проекта: *здесь цифра*". Если бюджет проекта не указан, то отвечай так: "Бюджет: Такой информации нет."
|
75 |
+
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
76 |
+
Скрипт: {text}"""
|
77 |
+
|
78 |
+
GET_PROJECT_DETAILS_ECO_EFFECT = """Ты всегда отвечаешь на РУССКОМ языке.
|
79 |
+
Поразмышляй об этом тексте. Как ты думаешь, в чем заключается экономический эффект (экономические преимущества) для компании от этого проекта: {project}. Выбирай и анализируй информацию только об ЭТОМ проекте.
|
80 |
+
Формат ответа: "Экономический эффект от проекта: *здесь ответ на вопрос*".
|
81 |
+
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
82 |
+
Скрипт: {text}"""
|
83 |
+
|
84 |
+
GET_PROJECT_DETAILS_DEADLINE = """Ты всегда отвечаешь на РУССКОМ языке.
|
85 |
+
Найди в тексте дату, когда должен быть реализован ЭТОТ проект: {project}. Выбирай и анализируй информацию только об ЭТОМ проекте: {project}.
|
86 |
+
Формат ответа: "Срок реализации: *здесь текст*".
|
87 |
+
Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь. Отвечай на русском языке.
|
88 |
+
Скрипт: {text}"""
|
89 |
+
|
90 |
+
GET_PROJECT_DETAILS_NEW_PLAN = """Ты всегда отвечаешь на РУССКОМ языке! Только на русском языке. Выбирай и анализируй информацию на русском языке только об ЭТОМ проекте: {project} .
|
91 |
+
Представь, что ты лучший в мире смысловик и копирайтер.
|
92 |
+
Сделай глубокий вдох и, думая шаг за шагом, ответь на русском языке на вопрос: Какие действия участники решили предпринять, чтобы отлично выполнить проект?
|
93 |
+
Используй такой формат ответа: "Решения: *текст*". Ты больше ничего не говоришь, не комментируешь, не выражаешь свои мысли, вообще ничего больше не говоришь! Ищи ответ в тексте: {text}. Отвечай на русском языке!!!"""
|
94 |
+
|
95 |
+
GET_PROJECT_DETAILS_CONCLUSION = """Ты всегда отвечаешь на РУССКОМ языке. Поразмышляй о тексте.
|
96 |
+
Какой вывод заключили участники относительно ЭТОГО проекта: {project}.
|
97 |
+
Используй такой формат ответа: "Вывод: *Тут описывается принятое решение.*." Конец ответа.
|
98 |
+
Текст: {text}"""
|
llm/vllm_api-sync.py
ADDED
@@ -0,0 +1,375 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import json
|
2 |
+
import os
|
3 |
+
import requests
|
4 |
+
from typing import Optional, List, Any
|
5 |
+
from pydantic import BaseModel, Field
|
6 |
+
|
7 |
+
class LlmPredictParams(BaseModel):
|
8 |
+
"""
|
9 |
+
Параметры для предсказания LLM.
|
10 |
+
"""
|
11 |
+
system_prompt: Optional[str] = Field(None, description="Системный промпт.")
|
12 |
+
user_prompt: Optional[str] = Field(None, description="Шаблон промпта для передачи от роли user.")
|
13 |
+
n_predict: Optional[int] = None
|
14 |
+
temperature: Optional[float] = None
|
15 |
+
top_k: Optional[int] = None
|
16 |
+
top_p: Optional[float] = None
|
17 |
+
min_p: Optional[float] = None
|
18 |
+
seed: Optional[int] = None
|
19 |
+
repeat_penalty: Optional[float] = None
|
20 |
+
repeat_last_n: Optional[int] = None
|
21 |
+
retry_if_text_not_present: Optional[str] = None
|
22 |
+
retry_count: Optional[int] = None
|
23 |
+
presence_penalty: Optional[float] = None
|
24 |
+
frequency_penalty: Optional[float] = None
|
25 |
+
n_keep: Optional[int] = None
|
26 |
+
cache_prompt: Optional[bool] = None
|
27 |
+
stop: Optional[List[str]] = None
|
28 |
+
|
29 |
+
|
30 |
+
class LlmParams(BaseModel):
|
31 |
+
"""
|
32 |
+
Основные параметры для LLM.
|
33 |
+
"""
|
34 |
+
url: str
|
35 |
+
type: Optional[str] = None
|
36 |
+
default: Optional[bool] = None
|
37 |
+
template: Optional[str] = None
|
38 |
+
predict_params: Optional[LlmPredictParams] = None
|
39 |
+
|
40 |
+
class LlmApi:
|
41 |
+
"""
|
42 |
+
Класс для работы с API vllm.
|
43 |
+
"""
|
44 |
+
|
45 |
+
params: LlmParams = None
|
46 |
+
|
47 |
+
def __init__(self, params: LlmParams):
|
48 |
+
self.params = params
|
49 |
+
|
50 |
+
|
51 |
+
def get_models(self) -> list[str]:
|
52 |
+
"""
|
53 |
+
Выполняет GET-запрос к API для получения списка доступных моделей.
|
54 |
+
|
55 |
+
Возвращает:
|
56 |
+
list[str]: Список идентификаторов моделей.
|
57 |
+
Если произошла ошибка или данные недоступны, возвращается пустой список.
|
58 |
+
|
59 |
+
Исключения:
|
60 |
+
Все ошибки HTTP-запросов логируются в консоль, но не выбрасываются дальше.
|
61 |
+
"""
|
62 |
+
|
63 |
+
try:
|
64 |
+
response = requests.get(f"{self.params.url}/v1/models", headers={"Content-Type": "application/json"})
|
65 |
+
|
66 |
+
if response.status_code == 200:
|
67 |
+
json_data = response.json()
|
68 |
+
result = [item['id'] for item in json_data.get('data', [])]
|
69 |
+
return result
|
70 |
+
|
71 |
+
except requests.RequestException as error:
|
72 |
+
print('OpenAiService.getModels error:')
|
73 |
+
print(error)
|
74 |
+
|
75 |
+
return []
|
76 |
+
|
77 |
+
def create_messages(self, prompt: str) -> list[dict]:
|
78 |
+
"""
|
79 |
+
Создает сообщения для LLM на основе переданного промпта и системного промпта (если он задан).
|
80 |
+
|
81 |
+
Args:
|
82 |
+
prompt (str): Пользовательский промпт.
|
83 |
+
|
84 |
+
Returns:
|
85 |
+
list[dict]: Список сообщений с ролями и содержимым.
|
86 |
+
"""
|
87 |
+
actual_prompt = self.apply_llm_template_to_prompt(prompt)
|
88 |
+
messages = []
|
89 |
+
|
90 |
+
if self.params.predict_params and self.params.predict_params.system_prompt:
|
91 |
+
messages.append({"role": "system", "content": self.params.predict_params.system_prompt})
|
92 |
+
|
93 |
+
messages.append({"role": "user", "content": actual_prompt})
|
94 |
+
return messages
|
95 |
+
|
96 |
+
def apply_llm_template_to_prompt(self, prompt: str) -> str:
|
97 |
+
"""
|
98 |
+
Применяет шаблон LLM к переданному промпту, если он задан.
|
99 |
+
|
100 |
+
Args:
|
101 |
+
prompt (str): Пользовательский промпт.
|
102 |
+
|
103 |
+
Returns:
|
104 |
+
str: Промпт с примененным шаблоном (или оригинальный, если шаблон отсутствует).
|
105 |
+
"""
|
106 |
+
actual_prompt = prompt
|
107 |
+
if self.params.template is not None:
|
108 |
+
actual_prompt = self.params.template.replace("{{PROMPT}}", actual_prompt)
|
109 |
+
return actual_prompt
|
110 |
+
|
111 |
+
def tokenize(self, prompt: str) -> Optional[dict]:
|
112 |
+
"""
|
113 |
+
Выполняет токенизацию переданного промпта.
|
114 |
+
|
115 |
+
Args:
|
116 |
+
prompt (str): Промпт для токенизации.
|
117 |
+
|
118 |
+
Returns:
|
119 |
+
Optional[dict]: Словарь с токенами и максимальной длиной модели, если запрос успешен.
|
120 |
+
Если запрос неуспешен, возвращает None.
|
121 |
+
"""
|
122 |
+
model = self.get_models()[0] if self.get_models() else None
|
123 |
+
if not model:
|
124 |
+
print("No models available for tokenization.")
|
125 |
+
return None
|
126 |
+
|
127 |
+
actual_prompt = self.apply_llm_template_to_prompt(prompt)
|
128 |
+
request_data = {
|
129 |
+
"model": model,
|
130 |
+
"prompt": actual_prompt,
|
131 |
+
"add_special_tokens": False,
|
132 |
+
}
|
133 |
+
|
134 |
+
try:
|
135 |
+
response = requests.post(
|
136 |
+
f"{self.params.url}/tokenize",
|
137 |
+
json=request_data,
|
138 |
+
headers={"Content-Type": "application/json"},
|
139 |
+
)
|
140 |
+
|
141 |
+
if response.ok:
|
142 |
+
data = response.json()
|
143 |
+
if "tokens" in data:
|
144 |
+
return {"tokens": data["tokens"], "maxLength": data.get("max_model_len")}
|
145 |
+
elif response.status_code == 404:
|
146 |
+
print("Tokenization endpoint not found (404).")
|
147 |
+
else:
|
148 |
+
print(f"Failed to tokenize: {response.status_code}")
|
149 |
+
except requests.RequestException as e:
|
150 |
+
print(f"Request failed: {e}")
|
151 |
+
|
152 |
+
return None
|
153 |
+
|
154 |
+
def detokenize(self, tokens: List[int]) -> Optional[str]:
|
155 |
+
"""
|
156 |
+
Выполняет детокенизацию переданных токенов.
|
157 |
+
|
158 |
+
Args:
|
159 |
+
tokens (List[int]): Список токенов для детокенизации.
|
160 |
+
|
161 |
+
Returns:
|
162 |
+
Optional[str]: Строка, полученная в результате детокенизации, если запрос успешен.
|
163 |
+
Если запрос неуспешен, возвращает None.
|
164 |
+
"""
|
165 |
+
model = self.get_models()[0] if self.get_models() else None
|
166 |
+
if not model:
|
167 |
+
print("No models available for detokenization.")
|
168 |
+
return None
|
169 |
+
|
170 |
+
request_data = {"model": model, "tokens": tokens or []}
|
171 |
+
|
172 |
+
try:
|
173 |
+
response = requests.post(
|
174 |
+
f"{self.params.url}/detokenize",
|
175 |
+
json=request_data,
|
176 |
+
headers={"Content-Type": "application/json"},
|
177 |
+
)
|
178 |
+
|
179 |
+
if response.ok:
|
180 |
+
data = response.json()
|
181 |
+
if "prompt" in data:
|
182 |
+
return data["prompt"].strip()
|
183 |
+
elif response.status_code == 404:
|
184 |
+
print("Detokenization endpoint not found (404).")
|
185 |
+
else:
|
186 |
+
print(f"Failed to detokenize: {response.status_code}")
|
187 |
+
except requests.RequestException as e:
|
188 |
+
print(f"Request failed: {e}")
|
189 |
+
|
190 |
+
return None
|
191 |
+
|
192 |
+
def create_request(self, prompt: str) -> dict:
|
193 |
+
"""
|
194 |
+
Создает запрос для предсказания на основе параметров LLM.
|
195 |
+
|
196 |
+
Args:
|
197 |
+
prompt (str): Промпт для запроса.
|
198 |
+
|
199 |
+
Returns:
|
200 |
+
dict: Словарь с параметрами для выполнения запроса.
|
201 |
+
"""
|
202 |
+
llm_params = self.params
|
203 |
+
models = self.get_models()
|
204 |
+
if not models:
|
205 |
+
raise ValueError("No models available to create a request.")
|
206 |
+
model = models[0]
|
207 |
+
|
208 |
+
request = {
|
209 |
+
"stream": True,
|
210 |
+
"model": model,
|
211 |
+
}
|
212 |
+
|
213 |
+
predict_params = llm_params.predict_params
|
214 |
+
|
215 |
+
if predict_params:
|
216 |
+
if predict_params.stop:
|
217 |
+
# Фильтруем пустые строки в stop
|
218 |
+
non_empty_stop = list(filter(lambda o: o != "", predict_params.stop))
|
219 |
+
if non_empty_stop:
|
220 |
+
request["stop"] = non_empty_stop
|
221 |
+
|
222 |
+
if predict_params.n_predict is not None:
|
223 |
+
request["max_tokens"] = int(predict_params.n_predict or 0)
|
224 |
+
|
225 |
+
request["temperature"] = float(predict_params.temperature or 0)
|
226 |
+
|
227 |
+
if predict_params.top_k is not None:
|
228 |
+
request["top_k"] = int(predict_params.top_k)
|
229 |
+
|
230 |
+
if predict_params.top_p is not None:
|
231 |
+
request["top_p"] = float(predict_params.top_p)
|
232 |
+
|
233 |
+
if predict_params.min_p is not None:
|
234 |
+
request["min_p"] = float(predict_params.min_p)
|
235 |
+
|
236 |
+
if predict_params.seed is not None:
|
237 |
+
request["seed"] = int(predict_params.seed)
|
238 |
+
|
239 |
+
if predict_params.n_keep is not None:
|
240 |
+
request["n_keep"] = int(predict_params.n_keep)
|
241 |
+
|
242 |
+
if predict_params.cache_prompt is not None:
|
243 |
+
request["cache_prompt"] = bool(predict_params.cache_prompt)
|
244 |
+
|
245 |
+
if predict_params.repeat_penalty is not None:
|
246 |
+
request["repetition_penalty"] = float(predict_params.repeat_penalty)
|
247 |
+
|
248 |
+
if predict_params.repeat_last_n is not None:
|
249 |
+
request["repeat_last_n"] = int(predict_params.repeat_last_n)
|
250 |
+
|
251 |
+
if predict_params.presence_penalty is not None:
|
252 |
+
request["presence_penalty"] = float(predict_params.presence_penalty)
|
253 |
+
|
254 |
+
if predict_params.frequency_penalty is not None:
|
255 |
+
request["frequency_penalty"] = float(predict_params.frequency_penalty)
|
256 |
+
|
257 |
+
# Генерируем сообщения
|
258 |
+
request["messages"] = self.create_messages(prompt)
|
259 |
+
|
260 |
+
return request
|
261 |
+
|
262 |
+
|
263 |
+
def trim_sources(self, sources: str, user_request: str, system_prompt: str = None) -> dict:
|
264 |
+
"""
|
265 |
+
Обрезает текст источников, чтобы уложиться в допустимое количество токенов.
|
266 |
+
|
267 |
+
Args:
|
268 |
+
sources (str): Текст источников.
|
269 |
+
user_request (str): Запрос пользователя с примененным шаблоном без текста источников.
|
270 |
+
system_prompt (str): Системный промпт, если нужен.
|
271 |
+
|
272 |
+
Returns:
|
273 |
+
dict: Словарь с результатом, количеством токенов до и после обрезки.
|
274 |
+
"""
|
275 |
+
# Токенизация текста источников
|
276 |
+
sources_tokens_data = self.tokenize(sources)
|
277 |
+
if sources_tokens_data is None:
|
278 |
+
raise ValueError("Failed to tokenize sources.")
|
279 |
+
max_token_count = sources_tokens_data.get("maxLength", 0)
|
280 |
+
|
281 |
+
# Токены системного промпта
|
282 |
+
system_prompt_token_count = 0
|
283 |
+
|
284 |
+
if system_prompt is not None:
|
285 |
+
system_prompt_tokens = self.tokenize(system_prompt)
|
286 |
+
system_prompt_token_count = len(system_prompt_tokens["tokens"]) if system_prompt_tokens else 0
|
287 |
+
|
288 |
+
# Оригинальное количество токенов
|
289 |
+
original_token_count = len(sources_tokens_data["tokens"])
|
290 |
+
|
291 |
+
# Токенизация пользовательского промпта
|
292 |
+
aux_prompt = self.apply_llm_template_to_prompt(user_request)
|
293 |
+
aux_tokens_data = self.tokenize(aux_prompt)
|
294 |
+
|
295 |
+
aux_token_count = len(aux_tokens_data["tokens"]) if aux_tokens_data else 0
|
296 |
+
|
297 |
+
# Максимально допустимое количество токенов для источников
|
298 |
+
max_length = (
|
299 |
+
max_token_count
|
300 |
+
- (self.params.predict_params.n_predict or 0)
|
301 |
+
- aux_token_count
|
302 |
+
- system_prompt_token_count
|
303 |
+
)
|
304 |
+
max_length = max(max_length, 0)
|
305 |
+
|
306 |
+
# Обрезка токенов источников
|
307 |
+
if "tokens" in sources_tokens_data:
|
308 |
+
sources_tokens_data["tokens"] = sources_tokens_data["tokens"][:max_length]
|
309 |
+
detokenized_prompt = self.detokenize(sources_tokens_data["tokens"])
|
310 |
+
if detokenized_prompt is not None:
|
311 |
+
sources = detokenized_prompt
|
312 |
+
else:
|
313 |
+
sources = sources[:max_length]
|
314 |
+
else:
|
315 |
+
sources = sources[:max_length]
|
316 |
+
|
317 |
+
# Возврат результата
|
318 |
+
return {
|
319 |
+
"result": sources,
|
320 |
+
"originalTokenCount": original_token_count,
|
321 |
+
"slicedTokenCount": len(sources_tokens_data["tokens"]),
|
322 |
+
}
|
323 |
+
|
324 |
+
def predict(self, prompt: str) -> str:
|
325 |
+
"""
|
326 |
+
Выполняет SSE-запрос к API и возвращает собранный результат как текст.
|
327 |
+
|
328 |
+
Args:
|
329 |
+
prompt (str): Входной текст для предсказания.
|
330 |
+
|
331 |
+
Returns:
|
332 |
+
str: Сгенерированный текст.
|
333 |
+
|
334 |
+
Raises:
|
335 |
+
Exception: Если запрос завершился ошибкой.
|
336 |
+
"""
|
337 |
+
|
338 |
+
# Создание запроса
|
339 |
+
request = self.create_request(prompt)
|
340 |
+
|
341 |
+
print(f"Predict request. Url: {self.params.url}")
|
342 |
+
|
343 |
+
response = requests.post(
|
344 |
+
f"{self.params.url}/v1/chat/completions",
|
345 |
+
headers={"Content-Type": "application/json"},
|
346 |
+
json=request,
|
347 |
+
stream=True # Для обработки SSE
|
348 |
+
)
|
349 |
+
|
350 |
+
if not response.ok:
|
351 |
+
raise Exception(f"Failed to generate text: {response.text}")
|
352 |
+
|
353 |
+
# Обработка SSE-ответа
|
354 |
+
generated_text = ""
|
355 |
+
for line in response.iter_lines(decode_unicode=True):
|
356 |
+
if line.startswith("data: "):
|
357 |
+
try:
|
358 |
+
data = json.loads(line[len("data: "):].strip())
|
359 |
+
|
360 |
+
# Проверка завершения генерации
|
361 |
+
if data == "[DONE]":
|
362 |
+
break
|
363 |
+
|
364 |
+
# Получение текста из ответа
|
365 |
+
if "choices" in data and data["choices"]:
|
366 |
+
token_value = data["choices"][0].get("delta", {}).get("content", "")
|
367 |
+
generated_text += token_value.replace("</s>", "")
|
368 |
+
|
369 |
+
except json.JSONDecodeError:
|
370 |
+
continue # Игнорирование строк, которые не удалось декодировать
|
371 |
+
|
372 |
+
return generated_text
|
373 |
+
|
374 |
+
|
375 |
+
|
llm/vllm_api.py
ADDED
@@ -0,0 +1,317 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import json
|
2 |
+
from typing import Optional, List
|
3 |
+
|
4 |
+
import httpx
|
5 |
+
from llm.common import LlmParams, LlmApi
|
6 |
+
|
7 |
+
|
8 |
+
class LlmApi(LlmApi):
|
9 |
+
"""
|
10 |
+
Класс для работы с API vllm.
|
11 |
+
"""
|
12 |
+
|
13 |
+
def __init__(self, params: LlmParams):
|
14 |
+
super().__init__()
|
15 |
+
super().set_params(params)
|
16 |
+
|
17 |
+
async def get_models(self) -> List[str]:
|
18 |
+
"""
|
19 |
+
Выполняет GET-запрос к API для получения списка доступных моделей.
|
20 |
+
|
21 |
+
Возвращает:
|
22 |
+
list[str]: Список идентификаторов моделей.
|
23 |
+
Если произошла ошибка или данные недоступны, возвращается пустой список.
|
24 |
+
|
25 |
+
Исключения:
|
26 |
+
Все ошибки HTTP-запросов логируются в консоль, но не выбрасываются дальше.
|
27 |
+
"""
|
28 |
+
try:
|
29 |
+
async with httpx.AsyncClient() as client:
|
30 |
+
response = await client.get(f"{self.params.url}/v1/models", headers=super().create_headers())
|
31 |
+
if response.status_code == 200:
|
32 |
+
json_data = response.json()
|
33 |
+
return [item['id'] for item in json_data.get('data', [])]
|
34 |
+
except httpx.RequestError as error:
|
35 |
+
print('Error fetching models:', error)
|
36 |
+
return []
|
37 |
+
|
38 |
+
async def get_model(self) -> str:
|
39 |
+
model = None
|
40 |
+
if self.params.model is not None:
|
41 |
+
model = self.params.model
|
42 |
+
else:
|
43 |
+
models = await self.get_models()
|
44 |
+
model = models[0] if models else None
|
45 |
+
|
46 |
+
if model is None:
|
47 |
+
raise Exception("No model name provided and no models available.")
|
48 |
+
|
49 |
+
return model
|
50 |
+
|
51 |
+
def create_messages(self, prompt: str) -> List[dict]:
|
52 |
+
"""
|
53 |
+
Создает сообщения для LLM на основе переданного промпта и системного промпта (если он задан).
|
54 |
+
|
55 |
+
Args:
|
56 |
+
prompt (str): Пользовательский промпт.
|
57 |
+
|
58 |
+
Returns:
|
59 |
+
list[dict]: Список сообщений с ролями и содержимым.
|
60 |
+
"""
|
61 |
+
actual_prompt = self.apply_llm_template_to_prompt(prompt)
|
62 |
+
messages = []
|
63 |
+
if self.params.predict_params and self.params.predict_params.system_prompt:
|
64 |
+
messages.append({"role": "system", "content": self.params.predict_params.system_prompt})
|
65 |
+
messages.append({"role": "user", "content": actual_prompt})
|
66 |
+
return messages
|
67 |
+
|
68 |
+
def apply_llm_template_to_prompt(self, prompt: str) -> str:
|
69 |
+
"""
|
70 |
+
Применяет шаблон LLM к переданному промпту, если он задан.
|
71 |
+
|
72 |
+
Args:
|
73 |
+
prompt (str): Пользовательский промпт.
|
74 |
+
|
75 |
+
Returns:
|
76 |
+
str: Промпт с примененным шаблоном (или оригинальный, если шаблон отсутствует).
|
77 |
+
"""
|
78 |
+
actual_prompt = prompt
|
79 |
+
if self.params.template is not None:
|
80 |
+
actual_prompt = self.params.template.replace("{{PROMPT}}", actual_prompt)
|
81 |
+
return actual_prompt
|
82 |
+
|
83 |
+
async def tokenize(self, prompt: str) -> Optional[dict]:
|
84 |
+
"""
|
85 |
+
Выполняет токенизацию переданного промпта.
|
86 |
+
|
87 |
+
Args:
|
88 |
+
prompt (str): Промпт для токенизации.
|
89 |
+
|
90 |
+
Returns:
|
91 |
+
Optional[dict]: Словарь с токенами и максимальной длиной модели, если запрос успешен.
|
92 |
+
Если запрос неуспешен, возвращает None.
|
93 |
+
"""
|
94 |
+
|
95 |
+
actual_prompt = self.apply_llm_template_to_prompt(prompt)
|
96 |
+
request_data = {
|
97 |
+
"model": self.get_model(),
|
98 |
+
"prompt": actual_prompt,
|
99 |
+
"add_special_tokens": False,
|
100 |
+
}
|
101 |
+
|
102 |
+
try:
|
103 |
+
async with httpx.AsyncClient() as client:
|
104 |
+
response = await client.post(
|
105 |
+
f"{self.params.url}/tokenize",
|
106 |
+
json=request_data,
|
107 |
+
headers=super().create_headers(),
|
108 |
+
)
|
109 |
+
if response.status_code == 200:
|
110 |
+
data = response.json()
|
111 |
+
if "tokens" in data:
|
112 |
+
return {"tokens": data["tokens"], "maxLength": data.get("max_model_len")}
|
113 |
+
elif response.status_code == 404:
|
114 |
+
print("Tokenization endpoint not found (404).")
|
115 |
+
else:
|
116 |
+
print(f"Failed to tokenize: {response.status_code}")
|
117 |
+
except httpx.RequestError as e:
|
118 |
+
print(f"Request failed: {e}")
|
119 |
+
|
120 |
+
return None
|
121 |
+
|
122 |
+
async def detokenize(self, tokens: List[int]) -> Optional[str]:
|
123 |
+
"""
|
124 |
+
Выполняет детокенизацию переданных токенов.
|
125 |
+
|
126 |
+
Args:
|
127 |
+
tokens (List[int]): Список токенов для детокенизации.
|
128 |
+
|
129 |
+
Returns:
|
130 |
+
Optional[str]: Строка, полученная в результате детокенизации, если запрос успешен.
|
131 |
+
Если запрос неуспешен, возвращает None.
|
132 |
+
"""
|
133 |
+
|
134 |
+
request_data = {"model": self.get_model(), "tokens": tokens or []}
|
135 |
+
|
136 |
+
try:
|
137 |
+
async with httpx.AsyncClient() as client:
|
138 |
+
response = await client.post(
|
139 |
+
f"{self.params.url}/detokenize",
|
140 |
+
json=request_data,
|
141 |
+
headers=super().create_headers(),
|
142 |
+
)
|
143 |
+
if response.status_code == 200:
|
144 |
+
data = response.json()
|
145 |
+
if "prompt" in data:
|
146 |
+
return data["prompt"].strip()
|
147 |
+
elif response.status_code == 404:
|
148 |
+
print("Detokenization endpoint not found (404).")
|
149 |
+
else:
|
150 |
+
print(f"Failed to detokenize: {response.status_code}")
|
151 |
+
except httpx.RequestError as e:
|
152 |
+
print(f"Request failed: {e}")
|
153 |
+
|
154 |
+
return None
|
155 |
+
|
156 |
+
async def create_request(self, prompt: str) -> dict:
|
157 |
+
"""
|
158 |
+
Создает запрос для предсказания на основе параметров LLM.
|
159 |
+
|
160 |
+
Args:
|
161 |
+
prompt (str): Промпт для запроса.
|
162 |
+
|
163 |
+
Returns:
|
164 |
+
dict: Словарь с параметрами для выполнения запроса.
|
165 |
+
"""
|
166 |
+
model = self.get_model()
|
167 |
+
|
168 |
+
request = {
|
169 |
+
"stream": True,
|
170 |
+
"model": model,
|
171 |
+
}
|
172 |
+
|
173 |
+
predict_params = self.params.predict_params
|
174 |
+
if predict_params:
|
175 |
+
if predict_params.stop:
|
176 |
+
non_empty_stop = list(filter(lambda o: o != "", predict_params.stop))
|
177 |
+
if non_empty_stop:
|
178 |
+
request["stop"] = non_empty_stop
|
179 |
+
|
180 |
+
if predict_params.n_predict is not None:
|
181 |
+
request["max_tokens"] = int(predict_params.n_predict or 0)
|
182 |
+
|
183 |
+
request["temperature"] = float(predict_params.temperature or 0)
|
184 |
+
if predict_params.top_k is not None:
|
185 |
+
request["top_k"] = int(predict_params.top_k)
|
186 |
+
|
187 |
+
if predict_params.top_p is not None:
|
188 |
+
request["top_p"] = float(predict_params.top_p)
|
189 |
+
|
190 |
+
if predict_params.min_p is not None:
|
191 |
+
request["min_p"] = float(predict_params.min_p)
|
192 |
+
|
193 |
+
if predict_params.seed is not None:
|
194 |
+
request["seed"] = int(predict_params.seed)
|
195 |
+
|
196 |
+
if predict_params.n_keep is not None:
|
197 |
+
request["n_keep"] = int(predict_params.n_keep)
|
198 |
+
|
199 |
+
if predict_params.cache_prompt is not None:
|
200 |
+
request["cache_prompt"] = bool(predict_params.cache_prompt)
|
201 |
+
|
202 |
+
if predict_params.repeat_penalty is not None:
|
203 |
+
request["repetition_penalty"] = float(predict_params.repeat_penalty)
|
204 |
+
|
205 |
+
if predict_params.repeat_last_n is not None:
|
206 |
+
request["repeat_last_n"] = int(predict_params.repeat_last_n)
|
207 |
+
|
208 |
+
if predict_params.presence_penalty is not None:
|
209 |
+
request["presence_penalty"] = float(predict_params.presence_penalty)
|
210 |
+
|
211 |
+
if predict_params.frequency_penalty is not None:
|
212 |
+
request["frequency_penalty"] = float(predict_params.frequency_penalty)
|
213 |
+
|
214 |
+
request["messages"] = self.create_messages(prompt)
|
215 |
+
return request
|
216 |
+
|
217 |
+
async def trim_sources(self, sources: str, user_request: str, system_prompt: str = None) -> dict:
|
218 |
+
"""
|
219 |
+
Обрезает текст источников, чтобы уложиться в допустимое количество токенов.
|
220 |
+
|
221 |
+
Args:
|
222 |
+
sources (str): Текст источников.
|
223 |
+
user_request (str): Запрос пользователя с примененным шаблоном без текста источников.
|
224 |
+
system_prompt (str): Системный промпт, если нужен.
|
225 |
+
|
226 |
+
Returns:
|
227 |
+
dict: Словарь с результатом, количеством токенов до и после обрезки.
|
228 |
+
"""
|
229 |
+
# Токенизация текста источников
|
230 |
+
sources_tokens_data = await self.tokenize(sources)
|
231 |
+
if sources_tokens_data is None:
|
232 |
+
raise ValueError("Failed to tokenize sources.")
|
233 |
+
max_token_count = sources_tokens_data.get("maxLength", 0)
|
234 |
+
|
235 |
+
# Токены системного промпта
|
236 |
+
system_prompt_token_count = 0
|
237 |
+
|
238 |
+
if system_prompt is not None:
|
239 |
+
system_prompt_tokens = await self.tokenize(system_prompt)
|
240 |
+
system_prompt_token_count = len(system_prompt_tokens["tokens"]) if system_prompt_tokens else 0
|
241 |
+
|
242 |
+
# Оригинальное количество токенов
|
243 |
+
original_token_count = len(sources_tokens_data["tokens"])
|
244 |
+
|
245 |
+
# Токенизация пользовательского промпта
|
246 |
+
aux_prompt = self.apply_llm_template_to_prompt(user_request)
|
247 |
+
aux_tokens_data = await self.tokenize(aux_prompt)
|
248 |
+
|
249 |
+
aux_token_count = len(aux_tokens_data["tokens"]) if aux_tokens_data else 0
|
250 |
+
|
251 |
+
# Максимально допустимое количество токенов для источников
|
252 |
+
max_length = (
|
253 |
+
max_token_count
|
254 |
+
- (self.params.predict_params.n_predict or 0)
|
255 |
+
- aux_token_count
|
256 |
+
- system_prompt_token_count
|
257 |
+
)
|
258 |
+
max_length = max(max_length, 0)
|
259 |
+
|
260 |
+
# Обрезка токенов источников
|
261 |
+
if "tokens" in sources_tokens_data:
|
262 |
+
sources_tokens_data["tokens"] = sources_tokens_data["tokens"][:max_length]
|
263 |
+
detokenized_prompt = await self.detokenize(sources_tokens_data["tokens"])
|
264 |
+
if detokenized_prompt is not None:
|
265 |
+
sources = detokenized_prompt
|
266 |
+
else:
|
267 |
+
sources = sources[:max_length]
|
268 |
+
else:
|
269 |
+
sources = sources[:max_length]
|
270 |
+
|
271 |
+
# Возврат результата
|
272 |
+
return {
|
273 |
+
"result": sources,
|
274 |
+
"originalTokenCount": original_token_count,
|
275 |
+
"slicedTokenCount": len(sources_tokens_data["tokens"]),
|
276 |
+
}
|
277 |
+
|
278 |
+
async def predict(self, prompt: str) -> str:
|
279 |
+
"""
|
280 |
+
Выполняет запрос к API с поддержкой потокового вывода (SSE) и возвращает результат.
|
281 |
+
|
282 |
+
Args:
|
283 |
+
prompt (str): Входной текст для предсказания.
|
284 |
+
|
285 |
+
Returns:
|
286 |
+
str: Сгенерированный текст.
|
287 |
+
"""
|
288 |
+
async with httpx.AsyncClient() as client:
|
289 |
+
# Формируем тело запроса
|
290 |
+
request = await self.create_request(prompt)
|
291 |
+
|
292 |
+
# Начинаем потоковый запрос
|
293 |
+
async with client.stream("POST", f"{self.params.url}/v1/chat/completions", json=request) as response:
|
294 |
+
if response.status_code != 200:
|
295 |
+
# Если ошибка, читаем ответ для получения подробностей
|
296 |
+
error_content = await response.aread()
|
297 |
+
raise Exception(f"API error: {error_content.decode('utf-8')}")
|
298 |
+
|
299 |
+
# Для хранения результата
|
300 |
+
generated_text = ""
|
301 |
+
|
302 |
+
# Асинхронное чтение построчно
|
303 |
+
async for line in response.aiter_lines():
|
304 |
+
if line.startswith("data: "): # SSE-сообщения начинаются с "data: "
|
305 |
+
try:
|
306 |
+
# Парсим JSON из строки
|
307 |
+
data = json.loads(line[len("data: "):].strip())
|
308 |
+
if data == "[DONE]": # Конец потока
|
309 |
+
break
|
310 |
+
if "choices" in data and data["choices"]:
|
311 |
+
# Получаем текст из текущего токена
|
312 |
+
token_value = data["choices"][0].get("delta", {}).get("content", "")
|
313 |
+
generated_text += token_value
|
314 |
+
except json.JSONDecodeError:
|
315 |
+
continue # Игнорируем строки, которые не удается декодировать
|
316 |
+
|
317 |
+
return generated_text.strip()
|
requirements
CHANGED
@@ -1,4 +1,3 @@
|
|
1 |
flask
|
2 |
flask-cors
|
3 |
-
|
4 |
-
requests
|
|
|
1 |
flask
|
2 |
flask-cors
|
3 |
+
python-dotenv
|
|