Spaces:

aleksandrrnt
/

hakaton

Sleeping

App Files Files Community

aleksandrrnt commited on Mar 1

Commit

790e088

verified ·

1 Parent(s): 44cbb2e

Upload 11 files

Browse files

Files changed (10) hide show

.gitattributes +1 -0
app.py +54 -42
architecture.png +3 -0
info.md +15 -0
llm.py +35 -4
prompts.py +104 -28
rag.py +2 -6
requirements.txt +3 -1
summary.py +65 -0
team.md +4 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+architecture.png filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ from db import db
 from rag import process_query
 from llm import LLM
 from prompts import default_system_promot
 def init_db():
     with open("sources.txt", encoding="utf-8") as f:
@@ -12,43 +12,30 @@ def init_db():
     db.add(urls)
-MISTRAL_KEY=os.getenv('MISTRAL_API_KEY')
-MISTRAL_URL="https://api.mistral.ai/v1"
-OPENROUTER_KEY = os.getenv('OPENROUTER_API_KEY')
-OPENROUTER_URL = "https://openrouter.ai/api/v1"
-model_creds = {
-    'qwen2.5-vl-72b-instruct': {
-        "url": OPENROUTER_URL,
-        "key": OPENROUTER_KEY,
-        "model": "qwen/qwen2.5-vl-72b-instruct:free"
-    },
-    'deepseek_v3': {
-        "url": OPENROUTER_URL,
-        "key": OPENROUTER_KEY,
-        "model": "deepseek/deepseek-chat:free"
-    },
-    'llama-3.3-70b': {
-        "url": OPENROUTER_URL,
-        "key": OPENROUTER_KEY,
-        "model": "meta-llama/llama-3.3-70b-instruct:free"
-    },
-    'mistral': {
-        "url": MISTRAL_URL,
-        "key": MISTRAL_KEY,
-        "model": "mistral-small-latest"
-    }
-}
-def get_llm(model):
-    model_info = model_creds[model]
-    return LLM(model_info["url"], model_info["key"], model_info["model"])
 # Высота столбцов (в пикселях)
 COLUMN_HEIGHT = 280
@@ -106,22 +93,29 @@ def tab1():
         # with gr.Accordion('Результат:', open=True):
         #     result_output = gr.Markdown(value="Здесь будет представлен результат")
         # Группа с лейблом и рамкой
-        with gr.Column(elem_classes="markdown-group"):
-            gr.HTML("<div class='markdown-label'>Результат:</div>")  # Лейбл внутри рамки
-            with gr.Column(elem_classes="markdown-content"):
-                result_output = gr.Markdown(value="Здесь будет представлен результат", min_height=200)
         def respond(file, system_prompt, model, temperature, alpha):
             llm = get_llm(model)
             llm_response = process_query(file, system_prompt, llm, temperature, alpha)
-            return llm_response
         # Привязываем кнопку к функции обработки
         send_button.click(
             respond,
             inputs=[file_input, system_prompt_input, model, temperature, alpha],
-            outputs=result_output
         )
@@ -171,6 +165,23 @@ def tab2():
         markdown_output = gr.Markdown("Изначальное содержимое Markdown")
     dynamic_tab.select(get_sources, outputs=markdown_output)
 css = """
@@ -198,10 +209,11 @@ css = """
 # Интерфейс Gradio
 with gr.Blocks(css=css) as demo:
-    gr.Markdown("# Интерфейс для анализа пресейла")
     with gr.Tabs():
         tab1()
         tab2()
 init_db()

 from rag import process_query
 from llm import LLM
 from prompts import default_system_promot
+import re
 def init_db():
     with open("sources.txt", encoding="utf-8") as f:
     db.add(urls)
+def get_llm(model):
+    return LLM(model)
+def extract_json_and_clean_text(text):
+    # print(text)
+    # Регулярное выражение для поиска содержимого между <json> и </json>
+    pattern = r"(```json.*?```)"
+    # Ищем совпадения (re.DOTALL позволяет захватывать многострочные данные)
+    match = re.search(pattern, text, re.DOTALL)
+    if match:
+        # Извлекаем найденный JSON как строку
+        json_string = match.group(1).strip()
+        # Удаляем JSON блок из исходного текста
+        cleaned_text = re.sub(pattern, "", text, flags=re.DOTALL).strip()
+        return cleaned_text, json_string
+    else:
+        print("JSON блок не найден в тексте.")
+        return text.strip(), ""
 # Высота столбцов (в пикселях)
 COLUMN_HEIGHT = 280
         # with gr.Accordion('Результат:', open=True):
         #     result_output = gr.Markdown(value="Здесь будет представлен результат")
         # Группа с лейблом и рамкой
+        with gr.Row():
+            with gr.Column(elem_classes="markdown-group", scale=2):
+                gr.HTML("<div class='markdown-label'>Результат:</div>")  # Лейбл внутри рамки
+                with gr.Column(elem_classes="markdown-content"):
+                    result_output = gr.Markdown(value="Здесь будет представлен результат", min_height=200, show_copy_button=True)
+            with gr.Column(elem_classes="markdown-group", scale=1):
+                gr.HTML("<div class='markdown-label'>Json результат:</div>")  # Лейбл внутри рамки
+                with gr.Column(elem_classes="markdown-content"):
+                    json_output = gr.Markdown(value="Здесь будет представлен json", min_height=200, show_copy_button=True)
         def respond(file, system_prompt, model, temperature, alpha):
             llm = get_llm(model)
             llm_response = process_query(file, system_prompt, llm, temperature, alpha)
+            return extract_json_and_clean_text(llm_response)
         # Привязываем кнопку к функции обработки
         send_button.click(
             respond,
             inputs=[file_input, system_prompt_input, model, temperature, alpha],
+            outputs=[result_output, json_output]
         )
         markdown_output = gr.Markdown("Изначальное содержимое Markdown")
     dynamic_tab.select(get_sources, outputs=markdown_output)
+# Функция для чтения содержимого файла и возврата его как строки
+def read_file_content(file_path):
+    try:
+        with open(file_path, 'r', encoding='utf-8') as file:
+            content = file.read()
+        return content
+    except FileNotFoundError:
+        return "Файл не найден."
+    except Exception as e:
+        return f"Произошла ошибка: {str(e)}"
+def tab3():
+    with gr.Tab("Инфо"):
+        gr.Markdown(read_file_content('info.md'))
+        gr.Image("architecture.png")
+        gr.Markdown(read_file_content('team.md'))
 css = """
 # Интерфейс Gradio
 with gr.Blocks(css=css) as demo:
+    gr.Markdown("# Анализ тендерных заявок")
     with gr.Tabs():
         tab1()
         tab2()
+        tab3()
 init_db()

architecture.png ADDED Viewed

Git LFS Details

SHA256: a72d8fc5b8b0957c38b47af2af1e3190ad97a653bd1d3a0619f046677b89b241
Pointer size: 131 Bytes
Size of remote file: 123 kB

info.md ADDED Viewed

	@@ -0,0 +1,15 @@

+# Описание
+Цель – оценка релевантности тендерной заявки на соответствие нашему опыту
+Целевая аудитория – сотрудники отдела продаж
+Практическая ценность:
+* Ускорение обработки тендерной заявки
+* Скоринговая оценка заявки и указание потенциальных рисков
+* Подчеркивание сильных сторон для формирования предложения по продажам
+# Технологии
+* Large Language Models
+* ChromaDB
+* LLM провайдеры (OpenRouter, Mistral)
+* RAG (semantic+bm25)

llm.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import openai
 import logging
 logger = logging.getLogger("llm")
 logging.basicConfig(
@@ -8,14 +9,44 @@ logging.basicConfig(
     datefmt="%Y-%m-%d %H:%M:%S",
 )
 class LLM:
-    def __init__(self, url, key, model):
-        self.url = url
-        self.key = key
         self.client = openai.OpenAI(api_key=self.key, base_url=self.url)
-        self.model = model
     def chat(self, messages, temperature=0):
         logger.info("LLM call")

 import openai
 import logging
+import os
 logger = logging.getLogger("llm")
 logging.basicConfig(
     datefmt="%Y-%m-%d %H:%M:%S",
 )
+MISTRAL_KEY=os.getenv('MISTRAL_API_KEY')
+MISTRAL_URL="https://api.mistral.ai/v1"
+OPENROUTER_KEY = os.getenv('OPENROUTER_API_KEY')
+OPENROUTER_URL = "https://openrouter.ai/api/v1"
+model_creds = {
+    'qwen2.5-vl-72b-instruct': {
+        "url": OPENROUTER_URL,
+        "key": OPENROUTER_KEY,
+        "model": "qwen/qwen2.5-vl-72b-instruct:free"
+    },
+    'deepseek_v3': {
+        "url": OPENROUTER_URL,
+        "key": OPENROUTER_KEY,
+        "model": "deepseek/deepseek-chat:free"
+    },
+    'llama-3.3-70b': {
+        "url": OPENROUTER_URL,
+        "key": OPENROUTER_KEY,
+        "model": "meta-llama/llama-3.3-70b-instruct:free"
+    },
+    'mistral': {
+        "url": MISTRAL_URL,
+        "key": MISTRAL_KEY,
+        "model": "mistral-small-latest"
+    }
+}
 class LLM:
+    def __init__(self, model):
+        self.url = model_creds[model]["url"]
+        self.key = model_creds[model]["key"]
         self.client = openai.OpenAI(api_key=self.key, base_url=self.url)
+        self.model = model_creds[model]["model"]
     def chat(self, messages, temperature=0):
         logger.info("LLM call")

prompts.py CHANGED Viewed

@@ -1,48 +1,63 @@
 default_system_promot = """\
-Вы — AI-аналитик, оценивающий соответствие опыта компании входящим проектам. **Строго соблюдайте структуру и правила ниже.**
 ---
 ### **Инструкции**
 1. **Ключевые критерии оценки**:
-   - **Жесткие (обязательные)**:
-     - `Отрасль` (минимум 60% совпадения)
-     - `Технологии` (минимум 50% совпадения)
-   - **Гибкие (вторичные)**:
      - `Цели проекта` (соответствие бизнес-целям клиента)
      - `Решаемые задачи` (наличие аналогичных кейсов)
      - `Компетенции` (экспертиза в требуемой области)
      - `Сложность` (опыт работы с проектами аналогичного уровня)
 2. **Методология**:
-   - Для каждого критерия:
-     1. Рассчитайте % совпадения на основе данных.
-     2. Укажите **конкретные примеры** (название проекта, ID, описание связи).
    - **Формула скоринга**:
      ```
-     (Отрасль × 0.3) + (Технологии × 0.3) + (Цели × 0.2) + (Задачи × 0.1) + (Компетенции × 0.1)
      ```
-3. **Формат ответа**:
    ```markdown
-   ### Решение
-   **Вердикт:** [✅ Подходит / ⚠️ Условно подходит / ❌ Не подходит]
-   **Уверенность:** [High/Medium/Low]
-   **Скоринг:** X%
-   #### Анализ критериев
-   | Критерий         | Совпадение | Примеры из опыта                          |
-   |-------------------|------------|-------------------------------------------|
-   | Отрасль          | 75%        | Проект "RetailX" (ID: 45, e-commerce)     |
-   | Технологии       | 60%        | Проект "CloudFlow" (ID: 89, AWS, Python)  |
-   | Цели проекта     | 50%        | Проект "DataSafe" (ID: 12, оптимизация Big Data) |
-   | Решаемые задачи  | 80%        | Проект "LogistAI" (ID: 33, автоматизация склада) |
-   #### Рекомендации
-   - **Сильные стороны:**
-   - **Риски:**
-   - **Оптимизация:**
    ```
 ---
@@ -52,4 +67,65 @@ default_system_promot = """\
 - При **совпадении по целям <30%** → вердикт ⚠️, даже если скоринг высокий.
 - **Запрещено:**
   - Использовать данные вне контекста.
-  - Обобщения без ссылок на проекты (например, "у нас богатый опыт")."""

 default_system_promot = """\
+Вы — AI-аналитик в IT компании, оценивающий соответствие опыта компании входящим проектам. **Строго соблюдайте структуру и правила ниже.**
 ---
 ### **Инструкции**
 1. **Ключевые критерии оценки**:
+     - `Отрасль` (отрасль применения)
+     - `Технологии` (используемые программные продукты)
      - `Цели проекта` (соответствие бизнес-целям клиента)
      - `Решаемые задачи` (наличие аналогичных кейсов)
      - `Компетенции` (экспертиза в требуемой области)
      - `Сложность` (опыт работы с проектами аналогичного уровня)
 2. **Методология**:
+   - Для каждого критерия:
+     1. **Извлеките релевантные данные** из предоставленного описания опыта компании и входящих проектов.
+     2. Рассчитайте % совпадения на основе данных.
+     3. Укажите **конкретные примеры** (название проекта, url, описание связи).
+     4. Если критерий не отображен в документах, то не включай его для анализа. Отсутствие упоминания считай за полное соответствие 100%.
    - **Формула скоринга**:
      ```
+     (Отрасль × 0.2) + (Технологии × 0.2) + (Цели × 0.2) + (Задачи × 0.2) + (Компетенции × 0.2)
      ```
+3. **Правила использования данных**:
+   - Используйте **только предоставленные входные данные** для анализа.
+   - **Не используйте примеры из формата ответа**, если они не соответствуют входным данным.
+   - Если данных недостаточно для анализа, укажите это явно.
+4. **Формат ответа**:
    ```markdown
+  ### Решение
+  **Вердикт:** [✅ Подходит (80-100%) / ⚠️ Условно подходит (50-80%) / ❌ Не подходит (<50%)]
+  **Скоринг:** X%
+  #### Анализ критериев
+  | Критерий         | Совпадение | Примеры из опыта                          |  Риски           | Сильные стороны              |
+  |------------------|------------|-------------------------------------------|------------------|------------------------------|
+  | Отрасль          | X%         | Проект "Названи��" (описание связи, url) | риск (если есть) | сильные стороны (если есть)  |
+  | Технологии       | X%         | Проект "Название" (описание связи, url) | риск (если есть) | сильные стороны (если есть)  |
+  | Цели проекта     | X%         | Проект "Название" (описание связи, url) | риск (если есть) | сильные стороны (если есть)  |
+  | Решаемые задачи  | X%         | Проект "Название" (описание связи, url) | риск (если есть) | сильные стороны (если есть)  |
+  | Компетенции      | X%         | Проект "Название" (описание связи, url) | риск (если есть) | сильные стороны (если есть)  |
+  #### Рекомендации
+  - **Сильные стороны:**
+  - **Риски:**
+  - **Оптимизация:**
+   ```json
+   {
+   "score": скоринг,
+   "solution": вердикт,
+   "recommendations": рекомендации
+   }
+   ```
    ```
 ---
 - При **совпадении по целям <30%** → вердикт ⚠️, даже если скоринг высокий.
 - **Запрещено:**
   - Использовать данные вне контекста.
+  - Обобщения без ссылок на проекты (например, "у нас богатый опыт").
+  - Использовать примеры из формата ответа, если они не соответствуют входным данным."""
+summary_system_prompt = """\
+#### Инструкции
+1. **Цель**:
+   Проанализируйте входной файл с запросом на проект и извлеките информацию, которая может быть полезна для оценки соответствия опыта компании проекту. Результат будет использован как входные данные для анализа по следующим критериям:
+   - **Отрасль**
+   - **Технологии**
+   - **Цели проекта**
+   - **Решаемые задачи**
+   - **Компетенции**
+2. **Методология**:
+   - Сфокусируйтесь на ключевых разделах документа, таких как:
+     - Описание проекта
+     - Требования к технологиям
+     - Бизнес-цели
+     - Ожидаемые результаты
+     - Условия реализации
+   - Игнорируйте юридические формальности, такие как:
+     - Условия контракта
+     - Правовые обязательства
+     - Финансовые детали (если они не связаны с целями проекта)
+3. **Формат ответа**:
+   ```markdown
+   ### Извлеченные данные
+   #### Отрасль
+   - Описание: [текст]
+   - Ключевые слова: [список]
+   #### Технологии
+   - Описание: [текст]
+   - Ключевые технологии: [список]
+   #### Цели проекта
+   - Описание: [текст]
+   - Ключевые цели: [список]
+   #### Решаемые задачи
+   - Описание: [текст]
+   - Ключевые задачи: [список]
+   #### Компетенции
+   - Описание: [текст]
+   - Ключевые компетенции: [список]
+   #### Дополнительная информация
+   - Прочие важные детали: [текст]
+   ```
+4. **Правила извлечения данных**:
+   - Используйте только информацию из входного файла.
+   - Если какой-либо раздел отсутствует в документе, укажите это явно.
+   - Не добавляйте предположения или обобщения.
+   - Извлекайте только фактические данные, которые могут быть использованы для анализа.
+5. **Ограничения**:
+   - Не включайте юридические или финансовые детали, если они не связаны с ключевыми критериями.
+   - Не используйте примеры из шаблона о��вета, если они не соответствуют входным данным."""

rag.py CHANGED Viewed

@@ -1,5 +1,6 @@
 from db import db
 import logging
 logger = logging.getLogger("rag")
 logging.basicConfig(
@@ -24,12 +25,7 @@ message_template = """\
 def process_query(req_file, system_prompt, llm, temperature, alpha):
     logger.info("Process query")
-    if req_file is not None:
-        with open(req_file.name, 'r', encoding='utf-8') as f:
-            req_file_content = f.read()
-    else:
-        logger.warning("File is not loaded!")
-        req_file_content = ""
     logger.info("Retrive docs")

 from db import db
 import logging
+from summary import file_summary
 logger = logging.getLogger("rag")
 logging.basicConfig(
 def process_query(req_file, system_prompt, llm, temperature, alpha):
     logger.info("Process query")
+    req_file_content = file_summary(req_file)
     logger.info("Retrive docs")

requirements.txt CHANGED Viewed

@@ -2,4 +2,6 @@ gradio==5.17.0
 openai==1.63.2
 sentence-transformers==3.4.1
 chromadb==0.6.3
-rank-bm25==0.2.2

 openai==1.63.2
 sentence-transformers==3.4.1
 chromadb==0.6.3
+rank-bm25==0.2.2
+python-docx==1.1.2
+pypdf==5.3.0

summary.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import docx
+from pypdf import PdfReader
+from prompts import summary_system_prompt
+from llm import LLM
+import logging
+logger = logging.getLogger("summary")
+logging.basicConfig(
+    format="%(asctime)s %(levelname)-8s %(message)s",
+    level=logging.INFO,
+    datefmt="%Y-%m-%d %H:%M:%S",
+)
+def getTextFromDocx(filename):
+    doc = docx.Document(filename)
+    fullText = []
+    for para in doc.paragraphs:
+        fullText.append(para.text)
+    return '\n'.join(fullText)
+def getTextFromPDF(filename):
+    reader = PdfReader(filename)
+    text = ""
+    for page in reader.pages:
+        text += page.extract_text() + "\n"
+    return text
+def getTextFromFile(filename):
+    content = ""
+    if (filename.lower().endswith(".pdf")):
+        logger.info(f"pdf detected")
+        content = getTextFromPDF(filename)
+    elif (filename.lower().endswith(".docx")):
+        logger.info(f"docx detected")
+        content = getTextFromDocx(filename)
+    elif (filename.lower().endswith(".txt")):
+        logger.info(f"pdf detected")
+        with open(filename, 'r', encoding='utf-8') as f:
+            content = f.read()
+    return content
+# Функция для обработки запроса к LLM
+def file_summary(file):
+    logger.info(f"Start summarization")
+    # Чтение содержимого файлов
+    if file is not None:
+        file_content = getTextFromFile(file.name)
+    else:
+        logger.warning(f"Invalid input file")
+        file_content = ""
+    # Формирование сообщения для LLM
+    messages = [
+        {"role": "system", "content": summary_system_prompt},
+        {"role": "user", "content": f"Задание: {file_content}"}
+    ]
+    llm = LLM('mistral')
+    # Получение ответа от LLM
+    llm_response = llm.chat(messages).choices[0].message.content
+    logger.info(f"Finish summarization")
+    return llm_response

team.md ADDED Viewed

	@@ -0,0 +1,4 @@

+# Команда
+* Дитятина Татьяна
+* Зубчевский Виталий
+* Митенев Александр