Spaces:

schroneko
/

demo-llm-jp-3-8x1.8b-instruct3

Running on Zero

App Files Files Community

username commited on Mar 27

Commit

09d8f0d

1 Parent(s): b782015

fix

Browse files

Files changed (2) hide show

app.py +0 -12
requirements.txt +0 -1

app.py CHANGED Viewed

@@ -3,16 +3,11 @@ import gradio as gr
 import spaces
 from transformers import AutoTokenizer, AutoModelForCausalLM
-# トークナイザーのロード（GPUは不要なのでグローバルにロード）
 tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-8x1.8b-instruct3")
-# グローバル変数としてモデルを定義（最初はNone）
 model = None
-# ZeroGPUで実行される関数（モデルロードに時間がかかる可能性があるため120秒に設定）
 @spaces.GPU(duration=120)
 def generate_text(system_prompt, user_input, max_length=512, temperature=0.7, top_p=0.95):
-    # モデルのロード（初回実行時のみ）
     global model
     if model is None:
         model = AutoModelForCausalLM.from_pretrained(
@@ -21,13 +16,11 @@ def generate_text(system_prompt, user_input, max_length=512, temperature=0.7, to
             torch_dtype=torch.bfloat16
         )
-    # チャット形式の入力を作成
     chat = [
         {"role": "system", "content": system_prompt},
         {"role": "user", "content": user_input},
     ]
-    # トークン化
     tokenized_input = tokenizer.apply_chat_template(
         chat,
         add_generation_prompt=True,
@@ -35,7 +28,6 @@ def generate_text(system_prompt, user_input, max_length=512, temperature=0.7, to
         return_tensors="pt"
     ).to(model.device)
-    # 生成
     with torch.no_grad():
         output = model.generate(
             tokenized_input,
@@ -46,12 +38,9 @@ def generate_text(system_prompt, user_input, max_length=512, temperature=0.7, to
             repetition_penalty=1.05,
         )[0]
-    # デコード
     generated_text = tokenizer.decode(output, skip_special_tokens=True)
     return generated_text
-# Gradioインターフェースの作成
 with gr.Blocks() as demo:
     gr.Markdown("# LLM-JP-3-8x1.8b-instruct3 デモ")
     gr.Markdown("国立情報学研究所が開発した日本語大規模言語モデル「LLM-JP-3」のデモです。ZeroGPUを使用しているため、初回実行時はGPUの割り当てに少し時間がかかることがあります。")
@@ -90,5 +79,4 @@ with gr.Blocks() as demo:
         inputs=[system_prompt, user_input]
     )
-# アプリの起動
 demo.launch()

 import spaces
 from transformers import AutoTokenizer, AutoModelForCausalLM
 tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-3-8x1.8b-instruct3")
 model = None
 @spaces.GPU(duration=120)
 def generate_text(system_prompt, user_input, max_length=512, temperature=0.7, top_p=0.95):
     global model
     if model is None:
         model = AutoModelForCausalLM.from_pretrained(
             torch_dtype=torch.bfloat16
         )
     chat = [
         {"role": "system", "content": system_prompt},
         {"role": "user", "content": user_input},
     ]
     tokenized_input = tokenizer.apply_chat_template(
         chat,
         add_generation_prompt=True,
         return_tensors="pt"
     ).to(model.device)
     with torch.no_grad():
         output = model.generate(
             tokenized_input,
             repetition_penalty=1.05,
         )[0]
     generated_text = tokenizer.decode(output, skip_special_tokens=True)
     return generated_text
 with gr.Blocks() as demo:
     gr.Markdown("# LLM-JP-3-8x1.8b-instruct3 デモ")
     gr.Markdown("国立情報学研究所が開発した日本語大規模言語モデル「LLM-JP-3」のデモです。ZeroGPUを使用しているため、初回実行時はGPUの割り当てに少し時間がかかることがあります。")
         inputs=[system_prompt, user_input]
     )
 demo.launch()

requirements.txt CHANGED Viewed

@@ -3,5 +3,4 @@ torch
 transformers
 tokenizers
 accelerate
-flash-attn
 gradio

 transformers
 tokenizers
 accelerate
 gradio