Spaces:

farmax
/

LLM_Sizing

Sleeping

App Files Files Community

farmax commited on Nov 9, 2024

Commit

dc16fd5

verified ·

1 Parent(s): 40bf649

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -2

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import argparse
 from tabulate import tabulate
@@ -96,5 +97,34 @@ def main(num_gpu, prompt_size, response_size, n_concurrent_request, avg_context_
             estimated_response_time = calc_estimated_response_time(prefill_time_per_token, generation_time_per_token, prompt_size, response_size)
             capacity_latency_table.append([model['name'], gpu['name'], f"{kv_cache_tokens}", f"{prefill_time_per_token:.3f} ms", f"{generation_time_per_token:.3f} ms", f"{estimated_response_time:.1f} s"])
     print(tabulate(capacity_latency_table, headers=['Model', 'GPU', 'KV Cache Tokens', 'Prefill Time', 'Generation Time', 'Estimated Response Time'], tablefmt='orgtbl'))
-if __name__ == '__main__':
-    main(num_gpu, prompt_size, response_size, n_concurrent_request, avg_context_window)

+import gradio as gr
 import argparse
 from tabulate import tabulate
             estimated_response_time = calc_estimated_response_time(prefill_time_per_token, generation_time_per_token, prompt_size, response_size)
             capacity_latency_table.append([model['name'], gpu['name'], f"{kv_cache_tokens}", f"{prefill_time_per_token:.3f} ms", f"{generation_time_per_token:.3f} ms", f"{estimated_response_time:.1f} s"])
     print(tabulate(capacity_latency_table, headers=['Model', 'GPU', 'KV Cache Tokens', 'Prefill Time', 'Generation Time', 'Estimated Response Time'], tablefmt='orgtbl'))
+def create_interface():
+    # Definiamo gli elementi dell'interfaccia
+    elements = [
+        gr.Number(label="Num GPU"),
+        gr.Slider(label="Prompt Size", value=4096, minimum=1, maximum=16384),
+        gr.Slider(label="Response Size", value=256, minimum=1, maximum=8192),
+        gr.Number(label="N Concurrent Request"),
+        gr.Slider(label="Avg Context Window", value=1024, minimum=1, maximum=65536)
+    ]
+    # Definiamo il titolo dell'interfaccia
+    title = "LLM Memory Footprint Estimator"
+    # Creiamo l'interfaccia Gradio
+    interface = gr.Interface(
+        fn=main,
+        inputs=elements,
+        outputs="tabulate",
+        title=title,
+        description="Estimate LLM Memory Footprint and Capacity"
+    )
+    return interface
+# Creiamo l'interfaccia
+interface = create_interface()
+# Avviamo il server Gradio
+if __name__ == "__main__":
+    interface.launch()