A newer version of the Gradio SDK is available:
5.32.0
title: Mini-VLM Dataset Builder
emoji: 🎯
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.19.2
app_file: app.py
pinned: false
Mini-VLM Dataset Builder
Cette application permet de créer facilement des datasets de questions/réponses pour l'entraînement de modèles Vision-Langage (VLM).
⚠️ Important : Clés API requises
Pour utiliser cette application, vous devez avoir :
- Une clé API Google Gemini (obtenir ici)
- Un token Hugging Face avec permissions d'écriture (obtenir ici)
Ces clés sont à entrer directement dans l'interface de l'application. Elles ne sont jamais stockées et sont uniquement utilisées pour vos propres requêtes.
Fonctionnalités
- 📸 Upload multiple d'images et de PDFs
- 🤖 Analyse automatique avec Gemini
- ❓ Génération de questions/réponses
- 📁 Dataset structuré (train/validation/test)
- ⬆️ Upload sur votre compte Hugging Face
Utilisation
- Entrez votre clé API Google Gemini dans le champ dédié
- Entrez votre token Hugging Face dans le champ dédié
- Spécifiez le nom de votre dataset (format: votre-username/nom-du-dataset)
- Uploadez vos documents (PDF, PNG, JPG, JPEG)
- Cliquez sur "Créer le dataset"
Structure du dataset généré
Le dataset sera créé sur votre compte Hugging Face avec la structure suivante :
votre-username/nom-du-dataset/
├── train/
│ ├── images/
│ └── metadata.jsonl
├── validation/
│ ├── images/
│ └── metadata.jsonl
└── test/
├── images/
└── metadata.jsonl
Sécurité
- Les clés API sont utilisées uniquement pendant votre session
- Aucune clé n'est stockée sur le serveur
- Les données sont transmises de manière sécurisée
- Chaque utilisateur utilise ses propres identifiants
Licence
Apache License 2.0
🎨 Interface utilisateur moderne et intuitive
📊 Barre de progression en temps réel
📦 Installation
- Clonez le repository :
git clone https://huggingface.co/spaces/Marsouuu/mini-vlm-dataset-builder
cd mini-vlm-dataset-builder
- Installez les dépendances :
pip install -r requirements.txt
🚀 Utilisation
- Lancez l'application :
python app.py
Accédez à l'interface web dans votre navigateur (généralement à l'adresse
http://localhost:7860
)Dans l'interface :
- Entrez votre clé API Google Gemini
- Entrez votre token Hugging Face
- Choisissez un nom pour votre dataset
- Téléchargez vos images de documents
- Cliquez sur "Créer le dataset"
📁 Structure du dataset
Le dataset créé aura la structure suivante :
dataset_name/
├── train/
│ ├── images/
│ │ └── kid-page-{n}.png
│ └── metadata.jsonl
├── validation/
│ ├── images/
│ │ └── kid-page-{n}.png
│ └── metadata.jsonl
└── test/
├── images/
│ └── kid-page-{n}.png
└── metadata.jsonl
Chaque fichier metadata.jsonl
contient des entrées au format :
{
"image": "images/kid-page-{n}.png",
"query": "Question générée",
"answer": "Réponse générée",
"langue": "fr",
"page": 1,
"file_name": "images/kid-page-{n}.png"
}
🤝 Contribution
Les contributions sont les bienvenues ! N'hésitez pas à :
- Ouvrir une issue pour signaler un bug
- Proposer une amélioration via une pull request
- Partager vos idées d'amélioration
📝 Licence
Ce projet est sous licence MIT. Voir le fichier LICENSE
pour plus de détails.