M17idd commited on
Commit
ff663c0
·
verified ·
1 Parent(s): 162eb65

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +3 -3
app.py CHANGED
@@ -104,15 +104,15 @@ st.markdown("""
104
  """, unsafe_allow_html=True)
105
 
106
  # ----------------- لود PDF و ساخت ایندکس -----------------
107
- tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/gpt2-fa")
108
- tokenizer.pad_token = tokenizer.eos_token # یا می‌توانید این خط را برای توکن جدید فعال کنید: tokenizer.add_special_tokens({'pad_token': '[PAD]'})
109
 
110
  @st.cache_resource
111
  def get_pdf_index():
112
  with st.spinner('📄 در حال پردازش فایل PDF...'):
113
  pdf_loader = PyPDFLoader('test1.pdf')
114
  # embeddings = SentenceTransformer("Thomslionel/embedings")
115
- embeddings = HuggingFaceInstructEmbeddings(model_name="PartAI/Dorna-Llama3-8B-Instruct")
116
  index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders([pdf_loader])
117
  return index
118
 
 
104
  """, unsafe_allow_html=True)
105
 
106
  # ----------------- لود PDF و ساخت ایندکس -----------------
107
+ # tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/gpt2-fa")
108
+ # tokenizer.pad_token = tokenizer.eos_token # یا می‌توانید این خط را برای توکن جدید فعال کنید: tokenizer.add_special_tokens({'pad_token': '[PAD]'})
109
 
110
  @st.cache_resource
111
  def get_pdf_index():
112
  with st.spinner('📄 در حال پردازش فایل PDF...'):
113
  pdf_loader = PyPDFLoader('test1.pdf')
114
  # embeddings = SentenceTransformer("Thomslionel/embedings")
115
+ embeddings = HuggingFaceInstructEmbeddings(model_name="ai-forever/mGPT-13B")
116
  index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders([pdf_loader])
117
  return index
118