Spaces:

gdnjr5233-YOLOer
/

c2r

Running

App Files Files Community

c2r / app.py

gdnjr5233-YOLOer

Update app.py

7ef1cd9 verified 2 months ago

raw

history blame contribute delete

10.6 kB

	import re
	import time
	import torch
	import streamlit as st
	from transformers import T5ForConditionalGeneration, T5Tokenizer, GPT2LMHeadModel, GPT2Tokenizer
	from bert_score import score
	import tempfile

	# 模型加载（使用缓存加速）
	@st.cache_resource
	def load_models():
	device = 'cuda' if torch.cuda.is_available() else 'cpu'

	# 加载微调模型
	finetuned_model_path = "finetuned_model_v2/best_model"
	finetuned_tokenizer = T5Tokenizer.from_pretrained(finetuned_model_path)
	finetuned_model = T5ForConditionalGeneration.from_pretrained(finetuned_model_path).to(device)

	# 加载困惑度模型
	perplexity_model = GPT2LMHeadModel.from_pretrained("gpt2").to(device)
	perplexity_tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

	return finetuned_model, finetuned_tokenizer, perplexity_model, perplexity_tokenizer

	# 初始化session_state
	if 'processed' not in st.session_state:
	st.session_state.processed = False
	if 'translated_code' not in st.session_state:
	st.session_state.translated_code = []

	# 常量定义
	CUSTOM_TERMS = {
	"写入 CSV": "Запись в CSV",
	"CSV 表头": "Заголовок таблицы CSV",
	}
	prefix = 'translate to ru: '

	# 工具函数
	def calculate_perplexity(text):
	tokens = st.session_state.perplexity_tokenizer.encode(text, return_tensors='pt').to('cpu')
	with torch.no_grad():
	loss = st.session_state.perplexity_model(tokens, labels=tokens).loss
	return torch.exp(loss).item()

	def evaluate_translation(original, translated, scores):
	P, R, F1 = score([translated], [original], model_type="xlm-roberta-large", lang="ru")
	ppl = calculate_perplexity(translated)
	scores.append((F1.item(), ppl))

	# 翻译核心函数
	def translate_text(text, term_dict=None):
	preserved_paths = re.findall(r'[a-zA-Z]:\\[^ \u4e00-\u9fff]+', text)
	for i, path in enumerate(preserved_paths):
	text = text.replace(path, f"\|\|PATH_{i}\|\|")

	if term_dict:
	sorted_terms = sorted(term_dict.keys(), key=lambda x: len(x), reverse=True)
	pattern = re.compile('\|'.join(map(re.escape, sorted_terms)))
	text = pattern.sub(lambda x: term_dict[x.group()], text)

	src_text = prefix + text
	input_ids = st.session_state.finetuned_tokenizer(src_text, return_tensors="pt", max_length=512, truncation=True)
	generated_tokens = st.session_state.finetuned_model.generate(**input_ids.to('cpu'))
	result = st.session_state.finetuned_tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)

	translated = result[0]
	for i, path in enumerate(preserved_paths):
	translated = translated.replace(f"\|\|PATH_{i}\|\|", path)

	translated = re.sub(r'(\b[а-яА-ЯёЁ]+)(\.py\b)', lambda m: f"{m.group(1)} {m.group(2)}", translated)
	translated = re.sub(r'(?<=[а-яА-ЯёЁ])([.,!?])(?=\S)', r' \1', translated)
	return translated

	# 界面布局
	st.set_page_config(layout="wide", page_icon="📝", page_title="Python C2R Code Comment Translator")

	# 标题部分
	st.title("Python Chinese to Russian Code Comment Translator")
	st.subheader("Upload a Python file with Chinese comments", divider='rainbow')

	# 文件上传
	uploaded_file = st.file_uploader("Choose .py file", type=['py'], label_visibility='collapsed')

	# 添加开始翻译按钮 (修改点1)
	start_translation = st.button("开始翻译 / Start Translation")

	# 初始化模型
	if 'models_loaded' not in st.session_state:
	with st.spinner('Loading models...'):
	(finetuned_model, finetuned_tokenizer,
	perplexity_model, perplexity_tokenizer) = load_models()
	st.session_state.update({
	'finetuned_model': finetuned_model,
	'finetuned_tokenizer': finetuned_tokenizer,
	'perplexity_model': perplexity_model,
	'perplexity_tokenizer': perplexity_tokenizer,
	'models_loaded': True
	})

	# 处理上传文件 (修改点2：添加按钮触发逻辑)
	if uploaded_file and start_translation:
	st.session_state.processed = False # 重置处理状态
	st.session_state.translated_code = [] # 清空已翻译内容

	with st.spinner('Processing file...'):
	code_lines = [line.decode('utf-8-sig') if isinstance(line, bytes) else line
	for line in uploaded_file.readlines()]

	# 添加行号（去掉冒号）
	numbered_original = "\n".join([f"{i+1} {line.rstrip()}" for i, line in enumerate(code_lines)])
	numbered_translated = []

	# 创建两列布局
	col1, col2 = st.columns(2)

	# 原始代码框
	with col1:
	st.subheader("Original Python Code")
	original_content = st.session_state.original_content = numbered_original
	st.code(original_content, language='python')

	# 翻译代码框
	with col2:
	st.subheader("Real-time Translation")
	translated_box = st.empty()
	progress_bar = st.progress(0)
	status_text = st.empty()

	# 处理变量初始化
	translated_lines = []
	detected_count = 0
	translated_count = 0
	scores = []
	total_lines = len(code_lines)

	# 正则表达式模式
	pure_comment_pattern = re.compile(r'^(\s)#.?([\u4e00-\u9fff]+.*)')
	inline_comment_pattern = re.compile(r'(\s+#)\s([^#][\u4e00-\u9fff]+[^#]*)')
	multi_comment_pattern = re.compile(r'^(\s)(["\']{3})(.?)\2', re.DOTALL)

	# 逐行处理
	for idx, line in enumerate(code_lines):
	current_line = line.rstrip('\n')

	# 更新进度
	progress = (idx + 1) / total_lines
	progress_bar.progress(progress)
	status_text.markdown(f"Processing line {idx+1}/{total_lines} \| Content: `{current_line[:50]}...`")

	# 注释处理逻辑
	processed = False
	if pure_comment_pattern.search(line):
	detected_count += 1
	if match := pure_comment_pattern.match(line):
	indent, comment = match.groups()
	translated = translate_text(comment.strip(), CUSTOM_TERMS)
	evaluate_translation(comment, translated, scores)
	translated_lines.append(f"{indent}# {translated}\n")
	translated_count += 1
	processed = True

	if not processed and inline_comment_pattern.search(line):
	detected_count += 1
	if match := inline_comment_pattern.search(line):
	code_part = line[:match.start()]
	symbol, comment = match.groups()
	translated = translate_text(comment.strip(), CUSTOM_TERMS)
	evaluate_translation(comment, translated, scores)
	translated_lines.append(f"{code_part}{symbol} {translated}\n")
	translated_count += 1
	processed = True

	if not processed and (multi_match := multi_comment_pattern.match(line)):
	detected_count += 1
	if re.search(r'[\u4e00-\u9fff]', multi_match.group(3)):
	translated = translate_text(multi_match.group(3), CUSTOM_TERMS)
	evaluate_translation(multi_match.group(3), translated, scores)
	translated_lines.append(f"{multi_match.group(1)}{multi_match.group(2)}{translated}{multi_match.group(2)}\n")
	translated_count += 1
	processed = True

	if not processed:
	translated_lines.append(line)

	# 更新带行号的翻译结果（去掉冒号）
	numbered_translation = "\n".join([f"{i+1} {line.rstrip()}" for i, line in enumerate(translated_lines)])
	translated_box.code(numbered_translation, language='python')
	time.sleep(0.1)

	# 处理完成
	st.session_state.translated_code = translated_lines
	st.session_state.detected_count = detected_count
	st.session_state.translated_count = translated_count
	st.session_state.scores = scores
	st.session_state.processed = True

	# 清空进度状态
	progress_bar.empty()
	status_text.empty()

	# 显示统计信息
	if st.session_state.processed:
	st.divider()

	# 右侧统计布局
	with st.container():
	col_right = st.columns([1, 3])[1]

	with col_right:
	# 第一行指标
	col1, col2 = st.columns(2)
	with col1:
	st.metric("Detected Comments", st.session_state.detected_count)
	with col2:
	st.metric("Translated Comments", st.session_state.translated_count)

	# 第二行指标
	col3, col4 = st.columns(2)
	with col3:
	if st.session_state.scores:
	avg_bert = sum(f1 for f1, _ in st.session_state.scores) / len(st.session_state.scores)
	st.metric("Average BERTScore", f"{avg_bert:.4f}", help="Higher is better (0-1)")
	with col4:
	if st.session_state.scores:
	avg_ppl = sum(ppl for _, ppl in st.session_state.scores) / len(st.session_state.scores)
	st.metric("Average Perplexity", f"{avg_ppl:.4f}", help="Lower is better (Typical range: 1~100+, lower means better translation)")

	# 下载按钮（修改点3：调整位置到指标下方）
	cols = st.columns([1, 2, 1])
	with cols[1]:
	with tempfile.NamedTemporaryFile(suffix='.py', delete=False) as tmp:
	tmp.write("".join(st.session_state.translated_code).encode('utf-8'))

	with open(tmp.name, 'rb') as f:
	st.download_button(
	label="⬇️ Download Translated File",
	data=f,
	file_name=f"translated_{uploaded_file.name}",
	mime='text/x-python',
	use_container_width=False
	)