Spaces:

zhangchenxu
/

NanoV

Runtime error

zhangchenxu commited on 19 days ago

Commit

a1dddfb

1 Parent(s): c579716

update

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,11 +3,22 @@ import sys
 import gradio as gr
 from subprocess import Popen, PIPE
 # 设置环境变量
-MODEL_NAME = os.environ.get("MODEL_NAME", "NousResearch/Nous-Hermes-2-Yi-9B")
 API_PORT = int(os.environ.get("API_PORT", 8000))
 GRADIO_PORT = int(os.environ.get("GRADIO_PORT", 7860))
 # vLLM server进程
 vllm_process = None
@@ -16,6 +27,9 @@ def start_vllm_server():
     if vllm_process is not None:
         return "vLLM 服务已经在运行"
     # 构建启动命令
     cmd = [
         "vllm",
@@ -24,10 +38,22 @@ def start_vllm_server():
         "--host", "0.0.0.0",
         "--port", str(API_PORT),
         "--dtype", "auto",
-        "--max-model-len", "2048",  # 设置模型最大长度
-        "--gpu-memory-utilization", "0.9"  # 使用90%的GPU内存
     ]
     # 是否启用API密钥
     api_key = os.environ.get("API_KEY", "")
     if api_key:

 import gradio as gr
 from subprocess import Popen, PIPE
+# 检测是否有 GPU
+def check_gpu_available():
+    try:
+        import torch
+        return torch.cuda.is_available()
+    except ImportError:
+        return False
 # 设置环境变量
+MODEL_NAME = os.environ.get("MODEL_NAME", "zhangchenxu/TinyV-1.5B")  # 默认使用更小的模型
 API_PORT = int(os.environ.get("API_PORT", 8000))
 GRADIO_PORT = int(os.environ.get("GRADIO_PORT", 7860))
+# 检测 GPU
+HAS_GPU = check_gpu_available()
 # vLLM server进程
 vllm_process = None
     if vllm_process is not None:
         return "vLLM 服务已经在运行"
+    # 设置环境变量以帮助调试
+    os.environ["VLLM_LOGGING_LEVEL"] = "DEBUG"
     # 构建启动命令
     cmd = [
         "vllm",
         "--host", "0.0.0.0",
         "--port", str(API_PORT),
         "--dtype", "auto",
+        "--trust-remote-code"  # 信任远程代码，许多模型需要这个
     ]
+    # 根据是否有 GPU 添加不同的参数
+    if HAS_GPU:
+        cmd.extend([
+            "--device", "cuda",
+            "--max-model-len", "2048",
+            "--gpu-memory-utilization", "0.9"
+        ])
+    else:
+        cmd.extend([
+            "--device", "cpu",
+            "--max-model-len", "1024"  # CPU 模式使用更小的上下文长度以节省内存
+        ])
     # 是否启用API密钥
     api_key = os.environ.get("API_KEY", "")
     if api_key: