Spaces:

JJS0321
/

Industrial_AI_Engineering_Week8_Assignment

Sleeping

App Files Files Community

Industrial_AI_Engineering_Week8_Assignment / app.py

JJS0321

make app more beautiful

ce9c63c 7 days ago

raw

history blame contribute delete

4.29 kB

	import os
	import re
	import torch
	import traceback
	import gradio as gr
	from transformers import DonutProcessor, VisionEncoderDecoderModel

	# ─── 모델 로딩 ─────────────────────────────────────────────────────────
	MODEL_NAME = "naver-clova-ix/donut-base-finetuned-cord-v2"
	processor = DonutProcessor.from_pretrained(MODEL_NAME)
	model = VisionEncoderDecoderModel.from_pretrained(MODEL_NAME)

	device = "cuda" if torch.cuda.is_available() else "cpu"
	model.to(device)

	# ─── OCR 함수 ──────────────────────────────────────────────────────────
	def ocr_donut(image):
	try:
	if image is None:
	return {"error": "No image provided."}
	task_prompt = "<s_cord-v2>"
	decoder_input_ids = processor.tokenizer(
	task_prompt, add_special_tokens=False, return_tensors="pt"
	).input_ids.to(device)
	pixel_values = processor(image.convert("RGB"), return_tensors="pt").pixel_values.to(device)

	outputs = model.generate(
	pixel_values,
	decoder_input_ids=decoder_input_ids,
	max_length=model.config.decoder.max_position_embeddings,
	pad_token_id=processor.tokenizer.pad_token_id,
	eos_token_id=processor.tokenizer.eos_token_id,
	use_cache=True,
	bad_words_ids=[[processor.tokenizer.unk_token_id]],
	return_dict_in_generate=True,
	)

	seq = processor.batch_decode(outputs.sequences)[0]
	seq = seq.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
	seq = re.sub(r"<.*?>", "", seq, count=1).strip()
	return {"result": processor.token2json(seq)}

	except Exception:
	tb = traceback.format_exc()
	print(tb)
	return {"error": tb}

	# ─── CSS 스타일링 ────────────────────────────────────────────────────
	custom_css = """
	body { background: #f0f2f5; font-family: 'Segoe UI', Tahoma, sans-serif; }
	.gradio-container { max-width: 900px; margin: 40px auto; padding: 20px; }
	.header { text-align: center; margin-bottom: 30px; }
	.header h1 { font-size: 2.8rem; color: #333; margin: 0; }
	.header p { color: #666; margin-top: 8px; }

	.input-box, .output-box {
	background: #fff;
	border-radius: 8px;
	box-shadow: 0 2px 8px rgba(0,0,0,0.1);
	padding: 20px;
	}
	.input-box { margin-right: 10px; }
	.output-box { margin-left: 10px; }

	.gr-button {
	background: #5a8dee !important;
	color: #fff !important;
	border-radius: 6px !important;
	padding: 10px 20px !important;
	font-size: 1rem !important;
	margin-top: 10px !important;
	transition: background 0.2s ease;
	}
	.gr-button:hover { background: #3f6fcc !important; }

	.footer {
	text-align: center;
	margin-top: 30px;
	color: #999;
	font-size: 0.85rem;
	}
	"""

	# ─── Blocks 레이아웃 ──────────────────────────────────────────────────
	with gr.Blocks(css=custom_css, title="Donut OCR App") as demo:
	# 헤더
	gr.HTML(
	"""
	<div class="header">
	<h1>📄 Donut OCR</h1>
	<p>Industrial AI Engineering Week 8 Assignment</p>
	</div>
	"""
	)

	# 입력/출력 영역
	with gr.Row():
	with gr.Column(elem_classes="input-box"):
	image_input = gr.Image(type="pil", label="Upload Document Image")
	run_btn = gr.Button("Run OCR", elem_id="run-btn")
	with gr.Column(elem_classes="output-box"):
	result_box = gr.JSON(label="Output")

	# 버튼 클릭 연결
	run_btn.click(fn=ocr_donut, inputs=image_input, outputs=result_box)

	# 푸터
	gr.HTML(
	"""
	<div class="footer">
	<p>Powered by Naver Clova Donut</p>
	</div>
	"""
	)

	# Spaces 실행
	demo.launch(
	server_name="0.0.0.0",
	server_port=int(os.environ.get("PORT", 7860)),
	debug=True
	)