Spaces:

ramysaidagieb
/

project1

Sleeping

App Files Files Community

ramysaidagieb commited on 10 days ago

Commit

b278fd0

verified ·

1 Parent(s): 0cb59dc

Upload 4 files

Browse files

Files changed (4) hide show

.gitignore +2 -0
README.md +19 -0
app.py +89 -0
requirements.txt +9 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ __pycache__/
2	+ *.pyc

README.md ADDED Viewed

	@@ -0,0 +1,19 @@

+---
+title: Arabic Author Brain QA
+emoji: "📚"
+colorFrom: blue
+colorTo: blue
+sdk: gradio
+sdk_version: "4.25.0"
+app_file: app.py
+pinned: false
+---
+# Arabic Author Brain QA
+Upload Arabic books in PDF, DOCX, or DOC format, and build an interactive Q&A bot that understands the ideas inside the books.
+## بالعربية
+ارفع كتبك بالعربية ودع النظام يتعلم منها ليجيب عن أسئلتك بناءً على الأفكار، وليس مجرد تكرار النصوص!

app.py ADDED Viewed

	@@ -0,0 +1,89 @@

+import gradio as gr
+import os
+import tempfile
+import shutil
+import pdfminer.high_level
+import docx
+import faiss
+import torch
+from transformers import AutoTokenizer, AutoModelForCausalLM
+from sentence_transformers import SentenceTransformer
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
+from langchain.vectorstores import FAISS
+device = "cuda" if torch.cuda.is_available() else "cpu"
+# تحميل النماذج
+embedding_model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2', device=device)
+qa_model_name = "aubmindlab/aragpt2-base"
+qa_tokenizer = AutoTokenizer.from_pretrained(qa_model_name)
+qa_model = AutoModelForCausalLM.from_pretrained(qa_model_name).to(device)
+# إعداد قاعدة البيانات
+index = None
+docs = []
+def extract_text(file_path):
+    if file_path.endswith('.pdf'):
+        with open(file_path, 'rb') as f:
+            return pdfminer.high_level.extract_text(f)
+    elif file_path.endswith('.docx') or file_path.endswith('.doc'):
+        doc = docx.Document(file_path)
+        return "\n".join([para.text for para in doc.paragraphs])
+    else:
+        raise ValueError("صيغة ملف غير مدعومة")
+def process_files(files):
+    global index, docs
+    all_text = ""
+    for file in files:
+        text = extract_text(file.name)
+        all_text += text + "\n"
+    # تقسيم النص إلى مقاطع
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    texts = text_splitter.split_text(all_text)
+    # إنشاء المتجهات
+    embeddings = embedding_model.encode(texts, show_progress_bar=True, convert_to_tensor=True)
+    index = faiss.IndexFlatL2(embeddings.shape[1])
+    index.add(embeddings.cpu().numpy())
+    docs = texts
+    return "✅ تم تحميل الكتب واستيعاب الأفكار! النظام جاهز للإجابة."
+def generate_answer(question):
+    global index, docs
+    if index is None:
+        return "❌ الرجاء رفع الكتب أولاً."
+    q_emb = embedding_model.encode([question])
+    D, I = index.search(q_emb, k=3)
+    context = "\n".join([docs[i] for i in I[0]])
+    # تجهيز الإدخال للنموذج
+    prompt = f"سؤال: {question}\n\nمحتوى ذو صلة:\n{context}\n\nالإجابة:"
+    inputs = qa_tokenizer(prompt, return_tensors='pt').to(device)
+    outputs = qa_model.generate(**inputs, max_new_tokens=300, pad_token_id=qa_tokenizer.eos_token_id)
+    answer = qa_tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return answer.split("الإجابة:")[-1].strip()
+with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # 🚀 أهلاً بك في محاكاة عقل المؤلف
+    ارفع كتبك واستعد للانطلاق في رحلة استكشاف الأفكار العميقة!
+    """)
+    with gr.Tab("📚 رفع الكتب للتدريب"):
+        upload = gr.File(file_types=['.pdf', '.docx', '.doc'], file_count='multiple')
+        train_button = gr.Button("🚀 ابدأ التدريب!")
+        train_output = gr.Textbox(label="🔵 حالة التدريب", interactive=False)
+    with gr.Tab("❓ اسأل الكتاب"):
+        question = gr.Textbox(label="اكتب سؤالك هنا...")
+        answer = gr.Textbox(label="الإجابة", interactive=False)
+        ask_button = gr.Button("✉️ أرسل السؤال!"")
+    train_button.click(process_files, inputs=[upload], outputs=[train_output])
+    ask_button.click(generate_answer, inputs=[question], outputs=[answer])
+demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,9 @@

+gradio
+transformers
+sentence-transformers
+pdfminer.six
+python-docx
+faiss-cpu
+langchain
+torch