Spaces:

zhangchenxu
/

NanoV

Runtime error

App Files Files Community

zhangchenxu commited on 20 days ago

Commit

d813b23

1 Parent(s): 6c7be96

update

Browse files

Files changed (1) hide show

app.py +27 -277

app.py CHANGED Viewed

@@ -1,72 +1,48 @@
 import os
-import sys
 import gradio as gr
 from subprocess import Popen, PIPE
 import subprocess
 import logging
-# 配置日志
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
-# 检测是否有 GPU - 在Hugging Face Spaces环境中更可靠的方法
 def check_gpu_available():
     try:
-        # 方法1: 使用nvidia-smi命令检测
         nvidia_smi = subprocess.run(["nvidia-smi"], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
         logger.info(f"nvidia-smi 输出: {nvidia_smi.stdout}")
         if nvidia_smi.returncode == 0:
             logger.info("通过nvidia-smi命令检测到GPU")
             return True
-        # 方法2: 检查Hugging Face Space环境变量
         if os.environ.get("SPACE_RUNTIME_ARCH", "") == "gpu":
             logger.info("通过环境变量检测到GPU")
             return True
-        # 方法3: 如果上面方法都失败，尝试PyTorch
         import torch
         has_gpu = torch.cuda.is_available()
-        if has_gpu:
-            logger.info(f"通过PyTorch检测到GPU，设备数量: {torch.cuda.device_count()}")
-        else:
-            logger.info("PyTorch未检测到GPU")
         return has_gpu
     except Exception as e:
         logger.error(f"GPU检测失败: {str(e)}")
         return False
-# 设置环境变量
-MODEL_NAME = os.environ.get("MODEL_NAME", "zhangchenxu/TinyV-1.5B")  # 默认使用更小的模型
 API_PORT = int(os.environ.get("API_PORT", 8000))
 GRADIO_PORT = int(os.environ.get("GRADIO_PORT", 7860))
-# 其他配置选项
 USE_TRANSFORMERS_IMPL = os.environ.get("USE_TRANSFORMERS_IMPL", "true").lower() == "true"
 ENFORCE_EAGER = os.environ.get("ENFORCE_EAGER", "true").lower() == "true"
-# 检测 GPU
 HAS_GPU = check_gpu_available()
-logger.info(f"GPU检测结果: {'有GPU' if HAS_GPU else '无GPU'}")
-# 尝试强制设置为有GPU - 如果你确信环境中有GPU
 FORCE_GPU = os.environ.get("FORCE_GPU", "false").lower() == "true"
 if FORCE_GPU:
-    logger.info("强制启用GPU模式")
     HAS_GPU = True
-# vLLM server进程
 vllm_process = None
 def start_vllm_server():
     global vllm_process
     if vllm_process is not None:
         return "vLLM 服务已经在运行"
-    # 设置环境变量以帮助调试
     os.environ["VLLM_LOGGING_LEVEL"] = "DEBUG"
-    # 构建启动命令
     cmd = [
         "vllm",
         "serve",
@@ -74,78 +50,33 @@ def start_vllm_server():
         "--host", "0.0.0.0",
         "--port", str(API_PORT),
         "--dtype", "auto",
-        "--trust-remote-code",  # 信任远程代码，许多模型需要这个
-        "--disable-async-output-proc",  # 禁用异步输出处理，解决NotImplementedError
     ]
-    # 根据配置选项添加参数
     if ENFORCE_EAGER:
         cmd.append("--enforce-eager")
     if USE_TRANSFORMERS_IMPL:
         cmd.extend(["--model-impl", "transformers"])
-    # 根据是否有 GPU 添加不同的参数
     if HAS_GPU:
         logger.info("使用GPU模式启动vLLM")
-        cmd.extend([
-            "--device", "cuda",
-            "--max-model-len", "2048",
-            "--gpu-memory-utilization", "0.9"
-        ])
     else:
         logger.info("使用CPU模式启动vLLM")
-        cmd.extend([
-            "--device", "cpu",
-            "--max-model-len", "1024"  # CPU 模式使用更小的上下文长度以节省内存
-        ])
-    # 打印启动命令
-    cmd_str = " ".join(cmd)
-    logger.info(f"启动命令: {cmd_str}")
-    # 启动vLLM服务
-    try:
-        vllm_process = Popen(cmd, stdout=PIPE, stderr=PIPE, text=True)
-        return "vLLM 服务器已启动！请等待模型加载完成... (可能需要几分钟)"
-    except Exception as e:
-        error_msg = f"启动vLLM服务器时出错: {str(e)}"
-        logger.error(error_msg)
-        return error_msg
-    # 打印启动命令
-    cmd_str = " ".join(cmd)
-    logger.info(f"启动命令: {cmd_str}")
-    # 启动vLLM服务
-    try:
-        vllm_process = Popen(cmd, stdout=PIPE, stderr=PIPE, text=True)
-        return "vLLM 服务器已启动！请等待模型加载完成... (可能需要几分钟)"
-    except Exception as e:
-        error_msg = f"启动vLLM服务器时出错: {str(e)}"
-        logger.error(error_msg)
-        return error_msg
-    # 是否启用API密钥
-    api_key = os.environ.get("API_KEY", "")
-    if api_key:
-        cmd.extend(["--api-key", api_key])
-    # 打印启动命令
-    print(f"启动命令: {' '.join(cmd)}")
-    # 启动vLLM���务
     try:
         vllm_process = Popen(cmd, stdout=PIPE, stderr=PIPE, text=True)
         return "vLLM 服务器已启动！请等待模型加载完成..."
     except Exception as e:
         return f"启动vLLM服务器时出错: {str(e)}"
 def stop_vllm_server():
     global vllm_process
     if vllm_process is None:
         return "vLLM 服务未运行"
     vllm_process.terminate()
     vllm_process = None
     return "vLLM 服务已停止"
@@ -153,232 +84,51 @@ def stop_vllm_server():
 def check_server_status():
     if vllm_process is None:
         return "未运行"
     return_code = vllm_process.poll()
-    if return_code is None:
-        return "运行中"
-    else:
-        return f"已停止 (返回码: {return_code})"
 def get_server_logs():
     if vllm_process is None:
         return "服务未运行，无日志可显示"
-    # 检查进程是否仍在运行
     if vllm_process.poll() is not None:
         return f"服务已停止，返回码: {vllm_process.poll()}"
     try:
-        # 尝试从进程读取输出，但不会阻塞
-        output_lines = []
-        # 读取stderr (错误日志)
         while True:
             line = vllm_process.stderr.readline()
             if not line:
                 break
             output_lines.append(f"[ERROR] {line.strip()}")
-        # 读取stdout (标准输出)
         while True:
             line = vllm_process.stdout.readline()
             if not line:
                 break
             output_lines.append(line.strip())
-        if output_lines:
-            return "\n".join(output_lines)
-        else:
-            return "暂无新日志 (服务正在运行)"
     except Exception as e:
         return f"读取日志时出错: {str(e)}"
 def serve_test_ui():
-    """提供一个简单的测试UI"""
-    with gr.Blocks(title="vLLM OpenAI兼容API服务") as demo:
         with gr.Row():
             with gr.Column():
-                gr.Markdown("# vLLM OpenAI 兼容API服务控制面板")
-                # 系统信息
                 gpu_info = "已检测到" if HAS_GPU else "未检测到"
-                system_info = f"""
-                ## 系统信息
-                - GPU: {gpu_info}
-                - 运行环境: {'Hugging Face Space' if 'SPACE_ID' in os.environ else '本地环境'}
-                - 当前加载模型: `{MODEL_NAME}`
-                - API密钥: `{os.environ.get("API_KEY", "未设置")}`
-                """
-                gr.Markdown(system_info)
-                with gr.Row():
-                    start_btn = gr.Button("启动服务", variant="primary")
-                    stop_btn = gr.Button("停止服务", variant="stop")
                 status_text = gr.Textbox(label="服务状态", value="未运行", interactive=False)
                 refresh_btn = gr.Button("刷新状态")
-                logs_text = gr.Textbox(label="服务日志", interactive=False, lines=15)
                 logs_refresh_btn = gr.Button("刷新日志")
-                # 高级选项
-                with gr.Accordion("高级选项", open=False):
-                    model_input = gr.Textbox(label="模型名称", value=MODEL_NAME,
-                                            placeholder="输入模型名称，如 TinyLlama/TinyLlama-1.1B-Chat-v1.0")
-                    with gr.Row():
-                        force_gpu = gr.Checkbox(label="强制使用GPU模式", value=FORCE_GPU,
-                                               info="如果自动检测失败但您确定有GPU，请选中此项")
-                        use_transformers = gr.Checkbox(label="使用Transformers实现", value=USE_TRANSFORMERS_IMPL,
-                                                      info="使用Transformers实现而不是vLLM原生实现，可能更稳定但性能略低")
-                        enforce_eager = gr.Checkbox(label="强制Eager模式", value=ENFORCE_EAGER,
-                                                   info="强制使用PyTorch的Eager模式，避免CUDA图形相关问题")
-                    apply_btn = gr.Button("应用设置", variant="primary")
-                # API测试部分
-                gr.Markdown("## API 信息")
-                api_key = os.environ.get("API_KEY", "未设置")
-                api_info = gr.Markdown(f"""
-                API地址: `http://localhost:{API_PORT}/v1/...`
-                Hugging Face Space公开URL: 部署后查看Space详情获取
-                ## 测试命令
-                ```python
-                from openai import OpenAI
-                client = OpenAI(
-                    base_url="http://你的HF_SPACE_URL/v1",
-                    api_key="{api_key}",
-                )
-                completion = client.chat.completions.create(
-                  model="{MODEL_NAME}",
-                  messages=[
-                    {{"role": "user", "content": "Hello!"}}
-                  ]
-                )
-                print(completion.choices[0].message)
-                ```
-                """)
-        # 设置事件处理
-        start_btn.click(start_vllm_server, inputs=[], outputs=status_text)
-        stop_btn.click(stop_vllm_server, inputs=[], outputs=status_text)
-        refresh_btn.click(check_server_status, inputs=[], outputs=status_text)
-        logs_refresh_btn.click(get_server_logs, inputs=[], outputs=logs_text)
-        # 高级选项的事件处理
-        def apply_settings(model_name, force_gpu_mode, use_transformers_impl, enforce_eager_mode):
-            global MODEL_NAME, FORCE_GPU, HAS_GPU, USE_TRANSFORMERS_IMPL, ENFORCE_EAGER
-            changed = []
-            if model_name.strip() and model_name != MODEL_NAME:
-                MODEL_NAME = model_name.strip()
-                changed.append(f"模型已更改为: {MODEL_NAME}")
-            if force_gpu_mode != FORCE_GPU:
-                FORCE_GPU = force_gpu_mode
-                if FORCE_GPU:
-                    HAS_GPU = True
-                    changed.append("已强制启用GPU模式")
-                else:
-                    HAS_GPU = check_gpu_available()
-                    changed.append(f"已恢复自动检测，GPU状态: {'已检测到' if HAS_GPU else '未检测到'}")
-            if use_transformers_impl != USE_TRANSFORMERS_IMPL:
-                USE_TRANSFORMERS_IMPL = use_transformers_impl
-                changed.append(f"Transformers实现: {'已启用' if USE_TRANSFORMERS_IMPL else '已禁用'}")
-            if enforce_eager_mode != ENFORCE_EAGER:
-                ENFORCE_EAGER = enforce_eager_mode
-                changed.append(f"Eager模式: {'已启用' if ENFORCE_EAGER else '已禁用'}")
-            if changed:
-                return "\n".join(changed) + "\n\n设置已应用。如果服务正在运行，需要重启服务以使更改生效。"
-            else:
-                return "没有设置被更改"
-        apply_btn.click(
-            apply_settings,
-            inputs=[model_input, force_gpu, use_transformers, enforce_eager],
-            outputs=status_text
-        )
-        # 页面加载时不自动启动服务，只显示系统状态
-        demo.load(lambda: f"系统就绪。GPU状态: {'已检测到' if HAS_GPU else '未检测到'}", inputs=[], outputs=status_text)
-    return demoinyLlama-1.1B-Chat-v1.0")
-                    change_model_btn = gr.Button("更改模型")
-                    force_gpu = gr.Checkbox(label="强制使用GPU模式", value=FORCE_GPU,
-                                           info="如果自动检测失败但您确定有GPU，请选中此项")
-                # API测试部分
-                gr.Markdown("## API 信息")
-                api_key = os.environ.get("API_KEY", "未设置")
-                api_info = gr.Markdown(f"""
-                API地址: `http://localhost:{API_PORT}/v1/...`
-                Hugging Face Space公开URL: 部署后查看Space详情获取
-                ## 测试命令
-                ```python
-                from openai import OpenAI
-                client = OpenAI(
-                    base_url="http://你的HF_SPACE_URL/v1",
-                    api_key="{api_key}",
-                )
-                completion = client.chat.completions.create(
-                  model="{MODEL_NAME}",
-                  messages=[
-                    {{"role": "user", "content": "Hello!"}}
-                  ]
-                )
-                print(completion.choices[0].message)
-                ```
-                """)
-        # 设置事件处理
-        start_btn.click(start_vllm_server, inputs=[], outputs=status_text)
-        stop_btn.click(stop_vllm_server, inputs=[], outputs=status_text)
-        refresh_btn.click(check_server_status, inputs=[], outputs=status_text)
-        logs_refresh_btn.click(get_server_logs, inputs=[], outputs=logs_text)
-        # 高级选项的事件处理
-        def change_model(model_name):
-            global MODEL_NAME
-            if model_name.strip():
-                MODEL_NAME = model_name.strip()
-                return f"模型已更改为: {MODEL_NAME}"
-            return "模型名称不能为空"
-        def toggle_gpu_mode(force):
-            global HAS_GPU, FORCE_GPU
-            FORCE_GPU = force
-            if FORCE_GPU:
-                HAS_GPU = True
-                return "已强制启用GPU模式"
-            else:
-                HAS_GPU = check_gpu_available()
-                return f"已恢复自动检测，GPU检测结果: {'已检测到' if HAS_GPU else '未检测到'}"
-        change_model_btn.click(change_model, inputs=[model_input], outputs=status_text)
-        force_gpu.change(toggle_gpu_mode, inputs=[force_gpu], outputs=status_text)
-        # 页面加载时自动启动服务
-        demo.load(lambda: f"系统就绪。GPU状态: {'已检测到' if HAS_GPU else '未检测到'}", inputs=[], outputs=status_text)
     return demo
-# 启动测试UI
 if __name__ == "__main__":
-    # 创建并启动UI
     demo = serve_test_ui()
-    demo.queue().launch(server_name="0.0.0.0", server_port=GRADIO_PORT, share=True)

 import os
 import gradio as gr
 from subprocess import Popen, PIPE
 import subprocess
 import logging
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')
 logger = logging.getLogger(__name__)
 def check_gpu_available():
     try:
         nvidia_smi = subprocess.run(["nvidia-smi"], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
         logger.info(f"nvidia-smi 输出: {nvidia_smi.stdout}")
         if nvidia_smi.returncode == 0:
             logger.info("通过nvidia-smi命令检测到GPU")
             return True
         if os.environ.get("SPACE_RUNTIME_ARCH", "") == "gpu":
             logger.info("通过环境变量检测到GPU")
             return True
         import torch
         has_gpu = torch.cuda.is_available()
+        logger.info(f"通过PyTorch检测到GPU，设备数量: {torch.cuda.device_count()}" if has_gpu else "PyTorch未检测到GPU")
         return has_gpu
     except Exception as e:
         logger.error(f"GPU检测失败: {str(e)}")
         return False
+MODEL_NAME = os.environ.get("MODEL_NAME", "zhangchenxu/TinyV-1.5B")
 API_PORT = int(os.environ.get("API_PORT", 8000))
 GRADIO_PORT = int(os.environ.get("GRADIO_PORT", 7860))
 USE_TRANSFORMERS_IMPL = os.environ.get("USE_TRANSFORMERS_IMPL", "true").lower() == "true"
 ENFORCE_EAGER = os.environ.get("ENFORCE_EAGER", "true").lower() == "true"
 HAS_GPU = check_gpu_available()
 FORCE_GPU = os.environ.get("FORCE_GPU", "false").lower() == "true"
 if FORCE_GPU:
     HAS_GPU = True
 vllm_process = None
 def start_vllm_server():
     global vllm_process
     if vllm_process is not None:
         return "vLLM 服务已经在运行"
     os.environ["VLLM_LOGGING_LEVEL"] = "DEBUG"
     cmd = [
         "vllm",
         "serve",
         "--host", "0.0.0.0",
         "--port", str(API_PORT),
         "--dtype", "auto",
+        "--trust-remote-code",
+        "--disable-async-output-proc",
     ]
     if ENFORCE_EAGER:
         cmd.append("--enforce-eager")
     if USE_TRANSFORMERS_IMPL:
         cmd.extend(["--model-impl", "transformers"])
     if HAS_GPU:
         logger.info("使用GPU模式启动vLLM")
+        cmd.extend(["--device", "cuda", "--max-model-len", "2048", "--gpu-memory-utilization", "0.9"])
     else:
         logger.info("使用CPU模式启动vLLM")
+        cmd.extend(["--device", "cpu", "--max-model-len", "1024"])
+    logger.info(f"启动命令: {' '.join(cmd)}")
     try:
         vllm_process = Popen(cmd, stdout=PIPE, stderr=PIPE, text=True)
         return "vLLM 服务器已启动！请等待模型加载完成..."
     except Exception as e:
+        logger.error(f"启动vLLM服务器时出错: {str(e)}")
         return f"启动vLLM服务器时出错: {str(e)}"
 def stop_vllm_server():
     global vllm_process
     if vllm_process is None:
         return "vLLM 服务未运行"
     vllm_process.terminate()
     vllm_process = None
     return "vLLM 服务已停止"
 def check_server_status():
     if vllm_process is None:
         return "未运行"
     return_code = vllm_process.poll()
+    return "运行中" if return_code is None else f"已停止 (返回码: {return_code})"
 def get_server_logs():
     if vllm_process is None:
         return "服务未运行，无日志可显示"
     if vllm_process.poll() is not None:
         return f"服务已停止，返回码: {vllm_process.poll()}"
+    output_lines = []
     try:
         while True:
             line = vllm_process.stderr.readline()
             if not line:
                 break
             output_lines.append(f"[ERROR] {line.strip()}")
         while True:
             line = vllm_process.stdout.readline()
             if not line:
                 break
             output_lines.append(line.strip())
+        return "\n".join(output_lines) if output_lines else "暂无新日志"
     except Exception as e:
         return f"读取日志时出错: {str(e)}"
 def serve_test_ui():
+    with gr.Blocks(title="vLLM 控制面板") as demo:
         with gr.Row():
             with gr.Column():
+                gr.Markdown("# vLLM 控制面板")
                 gpu_info = "已检测到" if HAS_GPU else "未检测到"
+                gr.Markdown(f"**GPU:** {gpu_info}  \n**模型:** `{MODEL_NAME}`")
+                start_btn = gr.Button("启动服务")
+                stop_btn = gr.Button("停止服务")
                 status_text = gr.Textbox(label="服务状态", value="未运行", interactive=False)
                 refresh_btn = gr.Button("刷新状态")
+                logs_text = gr.Textbox(label="服务日志", interactive=False, lines=10)
                 logs_refresh_btn = gr.Button("刷新日志")
+                start_btn.click(start_vllm_server, outputs=status_text)
+                stop_btn.click(stop_vllm_server, outputs=status_text)
+                refresh_btn.click(check_server_status, outputs=status_text)
+                logs_refresh_btn.click(get_server_logs, outputs=logs_text)
+                demo.load(lambda: f"系统就绪。GPU状态: {'已检测到' if HAS_GPU else '未检测到'}", outputs=status_text)
     return demo
 if __name__ == "__main__":
     demo = serve_test_ui()
+    demo.queue().launch(server_name="0.0.0.0", server_port=GRADIO_PORT, share=True)