Spaces:

Daoneeee
/

task_Chatbot

Sleeping

Daoneeee commited on Nov 21, 2023

Commit

8bc6aeb

1 Parent(s): 01be4ae

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -17,13 +17,19 @@ import os
 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 def get_pdf_text(pdf_docs):
-    temp_dir = tempfile.TemporaryDirectory() # 임시 디렉토리를 생성합니다.
-    temp_filepath = os.path.join(temp_dir.name, pdf_docs.name) # 임시 파일 경로를 생성합니다.
-    with open(temp_filepath, "wb") as f:  # 임시 파일을 바이너리 쓰기 모드로 엽니다.
-        f.write(pdf_docs.getvalue()) # PDF 문서의 내용을 임시 파일에 씁니다.
-    pdf_loader = PyPDFLoader(temp_filepath) # PyPDFLoader를 사용해 PDF를 로드합니다.
-    pdf_doc = pdf_loader.load() # 텍스트를 추출합니다.
-    return pdf_doc # 추출한 텍스트를 반환합니다.
 # 과제
 # 아래 텍스트 추출 함수를 작성

 # PDF 문서로부터 텍스트를 추출하는 함수입니다.
 def get_pdf_text(pdf_docs):
+    temp_dir = tempfile.TemporaryDirectory()
+    temp_filepath = os.path.join(temp_dir.name, pdf_docs.name)
+    with open(temp_filepath, "wb") as f:
+        f.write(pdf_docs.getvalue())
+    pdf_loader = PyPDFLoader(temp_filepath)
+    pdf_doc = pdf_loader.load()
+    text_list = []  # 각 페이지의 텍스트를 저장할 리스트
+    for page_num in range(len(pdf_doc)):
+        text_list.append(pdf_doc.get_page_text(page_num))
+    return text_list
 # 과제
 # 아래 텍스트 추출 함수를 작성