Spaces:

M17idd
/

army

Running

File size: 7,031 Bytes

9fe2e05
9912747
9fe2e05
c9690b4
 
 
 
 
 
 
 
 
6564690
b877134
538588e
9923628
 
 
60897a5
e0ee9b0
c9690b4
60897a5
9fe2e05
c888a66
60897a5
c888a66
 
 
60897a5
 
e0ee9b0
c888a66
 
60897a5
 
c888a66
 
9fe2e05
c888a66
 
 
 
60897a5
 
c888a66
 
7b803ee
 
c888a66
60897a5
 
c888a66
 
 
 
 
 
60897a5
 
c888a66
60897a5
 
c888a66
 
 
 
 
 
 
60897a5
 
c888a66
f8d2d3e
 
c888a66
60897a5
 
c888a66
 
 
60897a5
 
 
 
 
9fe2e05
 
 
60897a5
 
e0ee9b0
c888a66
f8d2d3e
c888a66
e0ee9b0
c888a66
f8d2d3e
 
b457318
 
e0ee9b0
 
 
 
9fe2e05
 
e0ee9b0
 
9fe2e05
 
 
 
9912747
 
 
 
 
9fe2e05
e0ee9b0
 
 
6cd7c63
 
 
e0ee9b0
d7b5058
 
6cd7c63
 
d7b5058
 
6cd7c63
 
d7b5058
 
6cd7c63
d7b5058
 
 
b877134
d7b5058
 
9912747
 
 
b877134
9912747
 
 
 
d7b5058
 
 
 
e0ee9b0
6cd7c63
 
 
e0ee9b0
 
b877134
 
 
 
6cd7c63
9fe2e05
c9690b4
7ab91d0
 
 
7008417
9fe2e05
c9690b4
9fe2e05
 
 
 
 
 
 
 
 
 
 
 
 
c9690b4
 
 
9fe2e05
c9690b4
9fe2e05
 
 
 
 
 
 
 
c9690b4
 
9fe2e05
e0ee9b0
c9690b4
 
 
9fe2e05
c9690b4
9fe2e05
 
c9690b4
 
9fe2e05

import time
import tiktoken
import streamlit as st
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings.base import Embeddings
from langchain.vectorstores import FAISS
from langchain.indexes import VectorstoreIndexCreator
from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI
from typing import List
from together import Together


# from langchain.embeddings import TogetherEmbeddings
from langchain.schema import Document as LangchainDocument



st.set_page_config(page_title="چت‌ بات ارتش", page_icon="🪖", layout="wide")

st.markdown("""
    <style>
    @import url('https://fonts.googleapis.com/css2?family=Vazirmatn:wght@400;700&display=swap');
    html, body, [class*="css"] {
        font-family: 'Vazirmatn', Tahoma, sans-serif;
        direction: rtl;
        text-align: right;
    }
    .stApp {
        background: url("./military_bg.jpeg") no-repeat center center fixed;
        background-size: cover;
        backdrop-filter: blur(2px);
    }
    .stChatMessage {
        background-color: rgba(255,255,255,0.8);
        border: 1px solid #4e8a3e;
        border-radius: 12px;
        padding: 16px;
        margin-bottom: 15px;
        box-shadow: 0 4px 10px rgba(0,0,0,0.2);
        animation: fadeIn 0.4s ease-in-out;
    }
    .stTextInput > div > input, .stTextArea textarea {
        background-color: rgba(255,255,255,0.9) !important;
        border-radius: 8px !important;
        direction: rtl;
        text-align: right;
        font-family: 'Vazirmatn', Tahoma;
    }
    .stButton>button {
        background-color: #4e8a3e !important;
        color: white !important;
        font-weight: bold;
        border-radius: 10px;
        padding: 8px 20px;
        transition: 0.3s;
    }
    .stButton>button:hover {
        background-color: #3c6d30 !important;
    }
    .header-text {
        text-align: center;
        margin-top: 20px;
        margin-bottom: 40px;
        background-color: rgba(255, 255, 255, 0.75);
        padding: 20px;
        border-radius: 20px;
        box-shadow: 0 4px 12px rgba(0,0,0,0.2);
    }
    .header-text h1 {
        font-size: 42px;
        color: #2c3e50;
        margin: 0;
        font-weight: bold;
    }
    .subtitle {
        font-size: 18px;
        color: #34495e;
        margin-top: 8px;
    }
    @keyframes fadeIn {
        from { opacity: 0; transform: translateY(10px); }
        to { opacity: 1; transform: translateY(0); }
    }
    </style>
""", unsafe_allow_html=True)

col1, col2, col3 = st.columns([1, 1, 1])
with col2:
    st.image("army.png", width=240)

st.markdown("""
    <div class="header-text">
        <h1>چت‌ بات ارتش</h1>
        <div class="subtitle">دستیار هوشمند برای تصمیم‌گیری در میدان نبرد</div>
    </div>
""", unsafe_allow_html=True)


class TogetherEmbeddings(Embeddings):
    def __init__(self, model_name: str, api_key: str):
        self.model_name = model_name
        self.client = Together(api_key=api_key)

    def embed_documents(self, texts: List[str]) -> List[List[float]]:
        response = self.client.embeddings.create(model=self.model_name, input=texts)
        return [item.embedding for item in response.data]

    def embed_query(self, text: str) -> List[float]:
        return self.embed_documents([text])[0]

        
def count_tokens(text, model_name="gpt-3.5-turbo"):
    enc = tiktoken.encoding_for_model(model_name)
    return len(enc.encode(text))
    
@st.cache_resource
def get_pdf_index():
    with st.spinner('📄 در حال پردازش فایل PDF...'):
        loader = [PyPDFLoader('test1.pdf')]
        pages = []
        for l in loader:
            pages.extend(l.load())

        splitter_initial = RecursiveCharacterTextSplitter(
            chunk_size=124, 
            chunk_overlap=25
        )

        small_chunks = []
        for page in pages:
            text = page.page_content
            if len(text) > 124:
                small_chunks.extend(splitter_initial.split_text(text))
            else:
                small_chunks.append(text)

        final_chunks = []
        max_tokens = 2000

        for chunk in small_chunks:
            token_count = count_tokens(chunk, model_name="gpt-3.5-turbo")
            if token_count > max_tokens:
                splitter_token_safe = RecursiveCharacterTextSplitter(
                    chunk_size=1000,
                    chunk_overlap=100
                )
                smaller_chunks = splitter_token_safe.split_text(chunk)
                final_chunks.extend(smaller_chunks)
            else:
                final_chunks.append(chunk)

        documents = [LangchainDocument(page_content=text) for text in final_chunks]

        embeddings = TogetherEmbeddings(
            model_name="togethercomputer/m2-bert-80M-32k-retrieval",
            api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
        )

        # اینجا دیگه Vectorstore مستقیم میسازیم با FAISS
        vectordb = FAISS.from_documents(documents, embedding=embeddings)

        return vectordb

index = get_pdf_index()

llm = ChatOpenAI(
    base_url="https://api.together.xyz/v1",
    api_key='0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979',
    model="meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8"
)

chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type='stuff',
    retriever=index.vectorstore.as_retriever(),
    input_key='question'
)

if 'messages' not in st.session_state:
    st.session_state.messages = []

if 'pending_prompt' not in st.session_state:
    st.session_state.pending_prompt = None

for msg in st.session_state.messages:
    with st.chat_message(msg['role']):
        st.markdown(f"🗨️ {msg['content']}", unsafe_allow_html=True)

prompt = st.chat_input("چطور می‌تونم کمک کنم؟")

if prompt:
    st.session_state.messages.append({'role': 'user', 'content': prompt})
    st.session_state.pending_prompt = prompt
    st.rerun()

if st.session_state.pending_prompt:
    with st.chat_message('ai'):
        thinking = st.empty()
        thinking.markdown("🤖 در حال فکر کردن...")

        response = chain.run(f'question:پاسخ را فقط به زبان فارسی جواب بده {st.session_state.pending_prompt}')
        answer = response.split("Helpful Answer:")[-1].strip()
        if not answer:
            answer = "متأسفم، اطلاعات دقیقی در این مورد ندارم."

        thinking.empty()
        full_response = ""
        placeholder = st.empty()
        for word in answer.split():
            full_response += word + " "
            placeholder.markdown(full_response + "▌")
            time.sleep(0.03)

        placeholder.markdown(full_response)
        st.session_state.messages.append({'role': 'ai', 'content': full_response})
        st.session_state.pending_prompt = None