VenusFactory / src /web /manual /DownloadManual_ZH.md
2dogey's picture
Upload folder using huggingface_hub
8918ac7 verified
# VenusFactory 下载模块使用指南
## InterPro 元数据
**描述**: 从InterPro数据库下载蛋白质结构域信息
**数据源**: [InterPro数据库](https://www.ebi.ac.uk/interpro/)
**下载选项**:
- 单个ID: 下载特定InterPro结构域数据(例如IPR000001)
- 通过JSON: 使用包含多个InterPro条目的JSON文件进行批量下载
**输出格式**:
```
download/interpro_domain/
└── IPR000001/
├── detail.json # 详细蛋白质信息
├── meta.json # 元数据(包含编号和蛋白质计数)
└── uids.txt # 关联的UniProt ID列表
```
## RCSB 元数据
**描述**: 从RCSB蛋白质数据库下载结构元数据
**数据源**: [RCSB PDB](https://www.rcsb.org/)
**下载选项**:
- 单个ID: 下载特定PDB条目的元数据(例如1a0j)
- 通过文件: 使用包含PDB ID的文本文件进行批量下载
**输出格式**:
```
download/rcsb_metadata/
└── 1a0j.json # 包含结构元数据:
# - 分辨率
# - 实验方法
# - 出版物信息
# - 链信息
```
## UniProt 序列
**描述**: 从UniProt数据库下载蛋白质序列
**数据源**: [UniProt](https://www.uniprot.org/)
**下载选项**:
- 单个ID: 下载特定UniProt条目的序列(例如P00734)
- 通过文件: 使用包含UniProt ID的文本文件批量下载
- 合并选项: 将所有序列合并为单个FASTA文件
**输出格式**:
```
download/uniprot_sequences/
├── P00734.fasta # 单独FASTA文件(未合并时)
└── merged.fasta # 合并后的序列文件(启用合并选项时)
```
## RCSB 结构
**描述**: 从RCSB PDB下载3D结构文件
**数据源**: [RCSB PDB](https://www.rcsb.org/)
**下载选项**:
- 单个ID: 下载特定PDB条目的结构
- 通过文件: 使用包含PDB ID的文本文件批量下载
- 文件类型:
* cif: mmCIF格式(推荐)
* pdb: 传统PDB格式
* xml: PDBML/XML格式
* sf: 结构因子
* mr: NMR约束数据
- 解压选项: 自动解压下载文件
**输出格式**:
```
download/rcsb_structures/
├── 1a0j.pdb # 解压后的结构文件(启用解压时)
└── 1a0j.pdb.gz # 压缩的结构文件(未解压时)
```
## AlphaFold2 结构
**描述**: 从AlphaFold蛋白质结构数据库下载预测结构
**数据源**: [AlphaFold DB](https://alphafold.ebi.ac.uk/)
**下载选项**:
- 单个ID: 下载特定UniProt条目的结构
- 通过文件: 使用包含UniProt ID的文本文件批量下载
- 索引层级: 根据ID前缀组织子目录
**输出格式**:
```
download/alphafold2_structures/
└── P/ # 索引层级=1
└── P0/ # 索引层级=2
└── P00734.pdb # AlphaFold预测结构
```
## 通用功能
- **错误处理**: 所有组件支持生成错误日志文件
- **输出目录**: 可自定义输出路径
- **批处理**: 支持通过文件输入多个ID
- **进度跟踪**: 实时显示下载进度和状态更新
## 输入文件格式
1. **PDB ID列表**(用于RCSB下载):
```
1a0j
4hhb
1hho
```
2. **UniProt ID列表**(用于UniProt和AlphaFold):
```
P00734
P61823
Q8WZ42
```
3. **InterPro JSON**(用于批量InterPro下载):
```json
[
{
"metadata": {
"accession": "IPR000001"
}
},
{
"metadata": {
"accession": "IPR000002"
}
}
]
```
## 错误日志文件
启用错误日志后,失败记录将保存到输出目录的`failed.txt`:
```
P00734 - Download failed: 404 Not Found
1a0j - Connection timeout
```