Model Card for xm-moe-medical
Model Details
Model Description
xm-moe-medical
是基于微软开源模型 Phi-3.5-MoE-instruct
微调的中文医学领域大模型,采用 Mixture of Experts(MoE)架构进行优化,以实现更高效的参数利用率和推理性能。该模型在医学问答、疾病诊断、药物推荐、临床辅助决策等任务上表现出色。通过 PEFT(参数高效微调)进行领域自适应训练,使其在医学领域数据上具备更强的推理和理解能力。
- 开发团队: XMindAI
- 资助方: XMindAI 内部研发
- 模型类型: 微调版 MoE 模型
- 语言: 中文(医学领域)
- 许可证: Apache 2.0
- 微调自:
microsoft/Phi-3.5-MoE-instruct
什么是 MoE(Mixture of Experts)?
MoE(专家混合)是一种动态路由机制,通过在推理过程中仅激活部分专家子模型,从而显著提升计算效率和模型容量。与传统全参数模型不同,MoE 模型在推理时仅使用模型参数的一小部分,有以下优势:
- 计算效率更高:通过仅激活少量专家参数,MoE 在计算资源消耗上更具优势,同时保持了模型的高表达能力。
- 可扩展性强:MoE 模型能够轻松扩展更多专家,提升模型容量,同时保持推理效率。
- 更好的泛化能力:通过专家专注于特定子任务或领域,MoE 能在多任务场景下实现更好的泛化性能。
在 Phi-3.5-MoE-instruct
中,模型采用了 8 专家架构,每次推理只激活 2 位专家,从而在保持计算效率的同时大幅度提升了模型的表现力和推理性能。
👉 了解更多关于 MoE
模型来源
- 模型仓库: xm-moe-medical
- 基模型: Phi-3.5-MoE-instruct
用途
直接使用
- 医学问答与对话:支持医学咨询、诊断建议、药物使用指导等任务。
- 临床辅助决策:提供疾病相关信息、检查建议和治疗方案。
- 健康科普与教育:生成医学知识相关的文章或回答健康问题。
下游应用
- 医疗文本摘要、分类与信息提取
- 面向患者或医护人员的医学聊天助手
- 药物推荐与交互作用检测
不适合的应用场景
- 非医学领域的泛化任务
- 高风险临床决策(如诊断或处方)——需由专业医师审核
- 使用医学数据进行偏见或歧视性生成
偏见、风险和局限性
已知局限性
- 医学专业性限制:模型在复杂医学推理任务上的表现仍受限于训练数据质量,可能存在错误或不完整的信息。
- 模型幻觉:可能生成不准确或不存在的医学信息。
- 时效性问题:模型可能无法反映最新的医学研究和指南。
推荐措施
- 将模型输出视为辅助参考,而非医疗建议。
- 在临床决策中使用时,需由医学专家进行审核。
- 避免将模型应用于高风险医疗决策场景。
使用示例
使用该模型进行医学问答:
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_name = "xmindai/xm-moe-medical"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")
# 医学问答示例
question = "患者出现持续性高烧,伴有寒战和盗汗,可能是什么疾病?"
inputs = tokenizer(question, return_tensors="pt").to("cuda")
output = model.generate(**inputs, max_length=512, do_sample=True, top_p=0.9, temperature=0.7)
print(tokenizer.decode(output[0], skip_special_tokens=True))
训练详情
训练数据
FreedomIntelligence/Medical-R1-Distill-Data-Chinese · Datasets at Hugging Face
训练过程
数据预处理
- 数据清洗:去除非医学相关数据、异常字符及无效样本。
- 数据增强:引入少样本数据增强(Few-shot)策略。
- 标注与对齐:进行医学专业领域的标注与对齐。
超参数
- 训练精度: bf16 mixed precision
- 批次大小: 32
- 学习率: 2e-5
- 微调方式: LoRA + MoE
- 训练时长: 约 40 小时
- 硬件配置: H100 80GB
结果摘要
- 在医学问答任务上表现优异,能够生成准确、相关性强的答案。
- 在临床辅助决策上具有较高的正确率,能够给出合理的检查和治疗建议。
- 药物推荐任务表现良好,但在药物交互检测中存在少量漏检。
环境影响
- 硬件类型: H100 v5 80GB
- 训练时间: 约 40 小时
- 云服务提供商: Azure
- 碳排放量: 约 60 kgCO2eq(基于估算)
技术规格
模型架构与目标
- MoE(专家混合)架构,启用专家参数选择机制以提高推理效率。
- 支持医学领域的多轮对话与推理能力。
基础设施
硬件
- Standard NC80adis H100 v5 (80 vcpu,640 GiB 内存)
- GPU: H100 v5
- 内存: 640GB
软件
- 框架: 🤗 Transformers, PEFT, PyTorch, unsloth
- PEFT 版本: 0.14.0
- Python 版本: 3.10
模型卡作者
- XMind 开发团队
- Downloads last month
- 2
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for xmindai/xm-moe-medical
Base model
microsoft/Phi-3.5-MoE-instruct