Spaces:

farmax
/

LLM_Sizing

Sleeping

farmax commited on Nov 9, 2024

Commit

40bf649

verified ·

1 Parent(s): 97d4fd5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -96,6 +96,5 @@ def main(num_gpu, prompt_size, response_size, n_concurrent_request, avg_context_
             estimated_response_time = calc_estimated_response_time(prefill_time_per_token, generation_time_per_token, prompt_size, response_size)
             capacity_latency_table.append([model['name'], gpu['name'], f"{kv_cache_tokens}", f"{prefill_time_per_token:.3f} ms", f"{generation_time_per_token:.3f} ms", f"{estimated_response_time:.1f} s"])
     print(tabulate(capacity_latency_table, headers=['Model', 'GPU', 'KV Cache Tokens', 'Prefill Time', 'Generation Time', 'Estimated Response Time'], tablefmt='orgtbl'))
 if __name__ == '__main__':
-    main()

             estimated_response_time = calc_estimated_response_time(prefill_time_per_token, generation_time_per_token, prompt_size, response_size)
             capacity_latency_table.append([model['name'], gpu['name'], f"{kv_cache_tokens}", f"{prefill_time_per_token:.3f} ms", f"{generation_time_per_token:.3f} ms", f"{estimated_response_time:.1f} s"])
     print(tabulate(capacity_latency_table, headers=['Model', 'GPU', 'KV Cache Tokens', 'Prefill Time', 'Generation Time', 'Estimated Response Time'], tablefmt='orgtbl'))
 if __name__ == '__main__':
+    main(num_gpu, prompt_size, response_size, n_concurrent_request, avg_context_window)