Daoneeee commited on
Commit
8bc6aeb
·
1 Parent(s): 01be4ae

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +13 -7
app.py CHANGED
@@ -17,13 +17,19 @@ import os
17
 
18
  # PDF 문서로부터 텍스트를 추출하는 함수입니다.
19
  def get_pdf_text(pdf_docs):
20
- temp_dir = tempfile.TemporaryDirectory() # 임시 디렉토리를 생성합니다.
21
- temp_filepath = os.path.join(temp_dir.name, pdf_docs.name) # 임시 파일 경로를 생성합니다.
22
- with open(temp_filepath, "wb") as f: # 임시 파일을 바이너리 쓰기 모드로 엽니다.
23
- f.write(pdf_docs.getvalue()) # PDF 문서의 내용을 임시 파일에 씁니다.
24
- pdf_loader = PyPDFLoader(temp_filepath) # PyPDFLoader를 사용해 PDF를 로드합니다.
25
- pdf_doc = pdf_loader.load() # 텍스트를 추출합니다.
26
- return pdf_doc # 추출한 텍스트를 반환합니다.
 
 
 
 
 
 
27
 
28
  # 과제
29
  # 아래 텍스트 추출 함수를 작성
 
17
 
18
  # PDF 문서로부터 텍스트를 추출하는 함수입니다.
19
  def get_pdf_text(pdf_docs):
20
+ temp_dir = tempfile.TemporaryDirectory()
21
+ temp_filepath = os.path.join(temp_dir.name, pdf_docs.name)
22
+ with open(temp_filepath, "wb") as f:
23
+ f.write(pdf_docs.getvalue())
24
+ pdf_loader = PyPDFLoader(temp_filepath)
25
+ pdf_doc = pdf_loader.load()
26
+
27
+ text_list = [] # 각 페이지의 텍스트를 저장할 리스트
28
+
29
+ for page_num in range(len(pdf_doc)):
30
+ text_list.append(pdf_doc.get_page_text(page_num))
31
+
32
+ return text_list
33
 
34
  # 과제
35
  # 아래 텍스트 추출 함수를 작성