VenusFactory / src /web /manual /DownloadManual_ZH.md
2dogey's picture
Upload folder using huggingface_hub
8918ac7 verified

A newer version of the Gradio SDK is available: 5.29.0

Upgrade

VenusFactory 下载模块使用指南

InterPro 元数据

描述: 从InterPro数据库下载蛋白质结构域信息

数据源: InterPro数据库

下载选项:

  • 单个ID: 下载特定InterPro结构域数据(例如IPR000001)
  • 通过JSON: 使用包含多个InterPro条目的JSON文件进行批量下载

输出格式:

download/interpro_domain/
└── IPR000001/
    ├── detail.json    # 详细蛋白质信息
    ├── meta.json      # 元数据(包含编号和蛋白质计数)
    └── uids.txt       # 关联的UniProt ID列表

RCSB 元数据

描述: 从RCSB蛋白质数据库下载结构元数据

数据源: RCSB PDB

下载选项:

  • 单个ID: 下载特定PDB条目的元数据(例如1a0j)
  • 通过文件: 使用包含PDB ID的文本文件进行批量下载

输出格式:

download/rcsb_metadata/
└── 1a0j.json         # 包含结构元数据:
                     # - 分辨率
                     # - 实验方法
                     # - 出版物信息
                     # - 链信息

UniProt 序列

描述: 从UniProt数据库下载蛋白质序列

数据源: UniProt

下载选项:

  • 单个ID: 下载特定UniProt条目的序列(例如P00734)
  • 通过文件: 使用包含UniProt ID的文本文件批量下载
  • 合并选项: 将所有序列合并为单个FASTA文件

输出格式:

download/uniprot_sequences/
├── P00734.fasta      # 单独FASTA文件(未合并时)
└── merged.fasta      # 合并后的序列文件(启用合并选项时)

RCSB 结构

描述: 从RCSB PDB下载3D结构文件

数据源: RCSB PDB

下载选项:

  • 单个ID: 下载特定PDB条目的结构
  • 通过文件: 使用包含PDB ID的文本文件批量下载
  • 文件类型:
    • cif: mmCIF格式(推荐)
    • pdb: 传统PDB格式
    • xml: PDBML/XML格式
    • sf: 结构因子
    • mr: NMR约束数据
  • 解压选项: 自动解压下载文件

输出格式:

download/rcsb_structures/
├── 1a0j.pdb          # 解压后的结构文件(启用解压时)
└── 1a0j.pdb.gz       # 压缩的结构文件(未解压时)

AlphaFold2 结构

描述: 从AlphaFold蛋白质结构数据库下载预测结构

数据源: AlphaFold DB

下载选项:

  • 单个ID: 下载特定UniProt条目的结构
  • 通过文件: 使用包含UniProt ID的文本文件批量下载
  • 索引层级: 根据ID前缀组织子目录

输出格式:

download/alphafold2_structures/
└── P/               # 索引层级=1
    └── P0/          # 索引层级=2
        └── P00734.pdb  # AlphaFold预测结构

通用功能

  • 错误处理: 所有组件支持生成错误日志文件
  • 输出目录: 可自定义输出路径
  • 批处理: 支持通过文件输入多个ID
  • 进度跟踪: 实时显示下载进度和状态更新

输入文件格式

  1. PDB ID列表(用于RCSB下载):
1a0j
4hhb
1hho
  1. UniProt ID列表(用于UniProt和AlphaFold):
P00734
P61823
Q8WZ42
  1. InterPro JSON(用于批量InterPro下载):
[
    {
        "metadata": {
            "accession": "IPR000001"
        }
    },
    {
        "metadata": {
            "accession": "IPR000002"
        }
    }
]

错误日志文件

启用错误日志后,失败记录将保存到输出目录的failed.txt:

P00734 - Download failed: 404 Not Found
1a0j - Connection timeout