File size: 3,802 Bytes
8918ac7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
# VenusFactory 下载模块使用指南

## InterPro 元数据
**描述**: 从InterPro数据库下载蛋白质结构域信息

**数据源**: [InterPro数据库](https://www.ebi.ac.uk/interpro/)

**下载选项**:
- 单个ID: 下载特定InterPro结构域数据(例如IPR000001)
- 通过JSON: 使用包含多个InterPro条目的JSON文件进行批量下载

**输出格式**:
```

download/interpro_domain/

└── IPR000001/

    ├── detail.json    # 详细蛋白质信息

    ├── meta.json      # 元数据(包含编号和蛋白质计数)

    └── uids.txt       # 关联的UniProt ID列表

```

## RCSB 元数据
**描述**: 从RCSB蛋白质数据库下载结构元数据

**数据源**: [RCSB PDB](https://www.rcsb.org/)

**下载选项**:
- 单个ID: 下载特定PDB条目的元数据(例如1a0j)
- 通过文件: 使用包含PDB ID的文本文件进行批量下载

**输出格式**:
```

download/rcsb_metadata/

└── 1a0j.json         # 包含结构元数据:

                     # - 分辨率

                     # - 实验方法

                     # - 出版物信息

                     # - 链信息

```

## UniProt 序列
**描述**: 从UniProt数据库下载蛋白质序列

**数据源**: [UniProt](https://www.uniprot.org/)

**下载选项**:
- 单个ID: 下载特定UniProt条目的序列(例如P00734)
- 通过文件: 使用包含UniProt ID的文本文件批量下载
- 合并选项: 将所有序列合并为单个FASTA文件

**输出格式**:
```

download/uniprot_sequences/

├── P00734.fasta      # 单独FASTA文件(未合并时)

└── merged.fasta      # 合并后的序列文件(启用合并选项时)

```

## RCSB 结构
**描述**: 从RCSB PDB下载3D结构文件

**数据源**: [RCSB PDB](https://www.rcsb.org/)

**下载选项**:
- 单个ID: 下载特定PDB条目的结构
- 通过文件: 使用包含PDB ID的文本文件批量下载
- 文件类型:
    * cif: mmCIF格式(推荐)
    * pdb: 传统PDB格式
    * xml: PDBML/XML格式
    * sf: 结构因子
    * mr: NMR约束数据
- 解压选项: 自动解压下载文件

**输出格式**:
```

download/rcsb_structures/

├── 1a0j.pdb          # 解压后的结构文件(启用解压时)

└── 1a0j.pdb.gz       # 压缩的结构文件(未解压时)

```

## AlphaFold2 结构
**描述**: 从AlphaFold蛋白质结构数据库下载预测结构

**数据源**: [AlphaFold DB](https://alphafold.ebi.ac.uk/)

**下载选项**:
- 单个ID: 下载特定UniProt条目的结构
- 通过文件: 使用包含UniProt ID的文本文件批量下载
- 索引层级: 根据ID前缀组织子目录

**输出格式**:
```

download/alphafold2_structures/

└── P/               # 索引层级=1

    └── P0/          # 索引层级=2

        └── P00734.pdb  # AlphaFold预测结构

```

## 通用功能
- **错误处理**: 所有组件支持生成错误日志文件
- **输出目录**: 可自定义输出路径
- **批处理**: 支持通过文件输入多个ID
- **进度跟踪**: 实时显示下载进度和状态更新

## 输入文件格式
1. **PDB ID列表**(用于RCSB下载):
```

1a0j

4hhb

1hho

```

2. **UniProt ID列表**(用于UniProt和AlphaFold):
```

P00734

P61823

Q8WZ42

```

3. **InterPro JSON**(用于批量InterPro下载):
```json

[

    {

        "metadata": {

            "accession": "IPR000001"

        }

    },

    {

        "metadata": {

            "accession": "IPR000002"

        }

    }

]

```

## 错误日志文件
启用错误日志后,失败记录将保存到输出目录的`failed.txt`:
```

P00734 - Download failed: 404 Not Found

1a0j - Connection timeout

```