VenusFactory 预测模块使用指南

1. 简介

VenusFactory 预测模块允许研究人员使用训练好的模型对新的蛋白质序列进行功能预测，支持单序列快速预测和批量序列高效处理，为蛋白质功能研究和药物开发提供重要的计算辅助工具。预测模块与训练模块紧密集成，确保模型训练和预测过程的一致性，同时提供直观的用户界面，使生物学研究人员无需深入了解机器学习技术细节即可获取高质量的预测结果。

2. 预测界面概览

预测界面分为模型配置区域和两个主要功能标签页：单序列预测和批量预测。

2.1 模型配置区域

模型配置区域包含所有预测所需的基本参数设置，这些参数必须与训练模型时使用的参数保持一致：

Model Path：训练好的模型文件路径，通常是训练过程中保存的模型文件（如ckpt/model.pt）
Protein Language Model：预训练蛋白质语言模型选择，必须与训练时使用的模型相同
Evaluation Method：评估方法选择，包括freeze（冻结预训练模型）、full（完整微调）、ses-adapter（结构增强适配器）、plm-lora和plm-qlora（参数高效微调方法）
Pooling Method：池化方法选择，包括mean（平均池化）、attention1d（注意力池化）和light_attention（轻量级注意力池化）
Problem Type：问题类型选择，包括单标签分类、多标签分类和回归
Number of Labels：标签数量设置（分类问题）

当选择ses-adapter评估方法时，会显示额外的结构序列选项：

Structure Sequences：可选择foldseek_seq（FoldSeek生成的结构序列）和ss8_seq（8类二级结构序列）

2.2 预测功能标签页

预测模块提供两种预测模式，分别通过不同的标签页访问：

Sequence Prediction：单序列预测，适用于快速预测单个蛋白质序列的功能
Batch Prediction：批量预测，适用于同时预测多个蛋白质序列的功能

3. 单序列预测

单序列预测功能允许用户输入单个蛋白质序列并获取即时预测结果，适用于快速验证和探索性分析。

3.1 输入序列

在"Amino Acid Sequence"文本框中输入标准的氨基酸序列（使用单字母代码）。如果使用ses-adapter方法，还需要在相应的文本框中输入结构序列信息（FoldSeek序列和/或二级结构序列）。

3.2 执行预测

确认所有模型配置参数已正确设置
点击"Predict"按钮开始预测过程
系统会显示预测进度和状态信息
如需中止预测，点击"Abort"按钮

3.3 预测结果展示

预测完成后，结果会以表格形式显示：

单标签分类：显示预测的类别和各类别的概率分布
多标签分类：显示每个标签的预测结果（0/1）和概率值
回归：显示预测的数值结果

4. 批量预测

批量预测功能允许用户同时处理多个蛋白质序列，适用于大规模筛选和系统性分析。

4.1 准备输入文件

批量预测需要准备CSV格式的输入文件，文件应包含以下列：

aa_seq（必需）：氨基酸序列
id（可选）：序列标识符
foldseek_seq（可选，仅ses-adapter方法需要）：FoldSeek结构序列
ss8_seq（可选，仅ses-adapter方法需要）：二级结构序列

4.2 上传文件和配置批处理参数

点击"Upload CSV File"按钮上传准备好的CSV文件
上传后可以在"File Preview"区域预览文件内容
设置"Batch Size"参数，控制每批处理的序列数量（默认为8）
- 较大的批次可以加速预测过程，但需要更多内存/显存
- 对于长序列，建议使用较小的批次大小

4.3 执行批量预测

确认所有模型配置参数已正确设置
点击"Start Batch Prediction"按钮开始批量预测
系统会显示预测进度条和状态信息，包括：
- 总序列数量
- 当前处理进度
- 预计剩余时间
如需中止预测，点击"Abort"按钮

4.4 批量预测结果

预测完成后，结果会以表格形式显示，并提供以下功能：

结果摘要统计（如预测类别分布或数值统计）
完整的预测结果表格
"Download Predictions"按钮，用于下载CSV格式的完整预测结果

下载的CSV文件包含原始序列信息和对应的预测结果，可以使用其他分析工具进行进一步处理和可视化。