Spaces:

ramysaidagieb
/

project1

Sleeping

App Files Files Community

ramysaidagieb commited on 11 days ago

Commit

a1f3bda

verified ·

1 Parent(s): f396372

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -85

app.py CHANGED Viewed

@@ -1,98 +1,45 @@
 import gradio as gr
-import os
-import tempfile
-import shutil
-from langchain_community.document_loaders import PyMuPDFLoader, UnstructuredWordDocumentLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_community.embeddings import HuggingFaceEmbeddings
-from langchain_community.vectorstores import FAISS
-from langchain.chains import RetrievalQA
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 import torch
-EMBEDDING_MODEL_NAME = "CAMeL-Lab/bert-base-arabic-camelbert-mix"
-QA_MODEL_NAME = "mosaicml/mpt-7b-storywriter"
-embedding_model = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL_NAME)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-qa_tokenizer = AutoTokenizer.from_pretrained(QA_MODEL_NAME, trust_remote_code=True)
-qa_model = AutoModelForSeq2SeqLM.from_pretrained(QA_MODEL_NAME, trust_remote_code=True).to(device)
-vectordb = None
-def load_document(file_path):
-    ext = os.path.splitext(file_path)[1].lower()
-    if ext == ".pdf":
-        loader = PyMuPDFLoader(file_path)
-    elif ext in [".doc", ".docx"]:
-        loader = UnstructuredWordDocumentLoader(file_path)
-    else:
-        raise ValueError("صيغة الملف غير مدعومة.")
-    return loader.load()
-def train_from_documents(documents):
-    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-    texts = splitter.split_documents(documents)
-    vectorstore = FAISS.from_documents(texts, embedding_model)
-    return vectorstore
-def upload_files(files):
-    global vectordb
-    temp_dir = tempfile.mkdtemp()
-    all_docs = []
-    for file in files:
-        file_path = os.path.join(temp_dir, file.name)
-        with open(file_path, "wb") as f:
-            f.write(file.read())
-        docs = load_document(file_path)
-        all_docs.extend(docs)
-    vectordb = train_from_documents(all_docs)
-    shutil.rmtree(temp_dir)
-    return "✅ النظام جاهز للإجابة على أسئلتك!"
-def answer_question(question):
-    if vectordb is None:
-        return "⚠️ الرجاء رفع الملفات أولاً."
-    retriever = vectordb.as_retriever(search_kwargs={"k": 5})
-    qa_chain = RetrievalQA.from_chain_type(
-        llm=None,
-        retriever=retriever,
-        return_source_documents=True
-    )
-    relevant_docs = qa_chain.retriever.get_relevant_documents(question)
-    context = "\n".join(doc.page_content for doc in relevant_docs)
-    inputs = qa_tokenizer(
-        f"أجب بالعربية فقط بناءً على السياق التالي:\n{context}\nالسؤال: {question}",
-        return_tensors="pt",
-        truncation=True,
-        max_length=1024
-    ).to(device)
-    with torch.no_grad():
-        outputs = qa_model.generate(**inputs, max_length=300)
-    answer = qa_tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return answer
-with gr.Blocks(title="محاكاة دماغ المؤلف") as demo:
     with gr.Row():
-        with gr.Column():
-            gr.Markdown("## 📚 ارفع كتبك هنا")
-            file_uploader = gr.File(file_types=[".pdf", ".doc", ".docx"], file_count="multiple")
-            upload_button = gr.Button("🚀 ابدأ التدريب")
-            training_status = gr.Textbox(label="حالة التدريب", interactive=False)
-        with gr.Column():
-            gr.Markdown("## ❓ اطرح سؤالك")
-            question_input = gr.Textbox(label="سؤالك", placeholder="اكتب سؤالك هنا...")
-            ask_button = gr.Button("✉️ أرسل السؤال!")
-            answer_output = gr.Textbox(label="الإجابة", interactive=False)
-    upload_button.click(upload_files, inputs=[file_uploader], outputs=[training_status])
-    ask_button.click(answer_question, inputs=[question_input], outputs=[answer_output])
-demo.launch(share=True)

+# app.py
 import gradio as gr
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
 import torch
+# تحميل النموذج والمحول
+model_name = "csebuetnlp/mT5_small_arabic_qa"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model = model.to(device)
+def generate_answer(question, context):
+    input_text = f"سؤال: {question} سياق: {context}"
+    inputs = tokenizer(input_text, return_tensors="pt", padding=True).to(device)
+    output = model.generate(**inputs, max_length=256)
+    answer = tokenizer.decode(output[0], skip_special_tokens=True)
+    return answer
+def ask_question(question, context):
+    if not question.strip():
+        return "❌ الرجاء كتابة سؤال."
+    answer = generate_answer(question, context)
+    return f"✅ الإجابة: {answer}"
+with gr.Blocks(title="سؤال وجواب من الكتب") as demo:
+    gr.Markdown("""
+    # 📚 اسأل كتبك!
+    اطرح أي سؤال وسنبحث لك عن الجواب من محتوى الكتب بدقة وفهم!
+    """)
+    with gr.Row():
+        question = gr.Textbox(label="✍️ اكتب سؤالك هنا:", placeholder="مثال: ما معنى الذكاء الاصطناعي؟")
+    with gr.Row():
+        context = gr.Textbox(label="📖 اكتب أو الصق نص من كتابك هنا:", placeholder="انسخ فقرة أو أكثر من الكتاب...")
     with gr.Row():
+        ask_btn = gr.Button("🔍 احصل على الإجابة")
+    output = gr.Textbox(label="💬 الإجابة:")
+    ask_btn.click(fn=ask_question, inputs=[question, context], outputs=output)
+demo.launch()