metadata

title: Mini-VLM Dataset Builder
emoji: 🎯
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.19.2
app_file: app.py
pinned: false

Mini-VLM Dataset Builder

Cette application permet de créer facilement des datasets de questions/réponses pour l'entraînement de modèles Vision-Langage (VLM).

⚠️ Important : Clés API requises

Pour utiliser cette application, vous devez avoir :

Une clé API Google Gemini (obtenir ici)
Un token Hugging Face avec permissions d'écriture (obtenir ici)

Ces clés sont à entrer directement dans l'interface de l'application. Elles ne sont jamais stockées et sont uniquement utilisées pour vos propres requêtes.

Fonctionnalités

📸 Upload multiple d'images et de PDFs
🤖 Analyse automatique avec Gemini
❓ Génération de questions/réponses
📁 Dataset structuré (train/validation/test)
⬆️ Upload sur votre compte Hugging Face

Utilisation

Entrez votre clé API Google Gemini dans le champ dédié
Entrez votre token Hugging Face dans le champ dédié
Spécifiez le nom de votre dataset (format: votre-username/nom-du-dataset)
Uploadez vos documents (PDF, PNG, JPG, JPEG)
Cliquez sur "Créer le dataset"

Structure du dataset généré

Le dataset sera créé sur votre compte Hugging Face avec la structure suivante :

votre-username/nom-du-dataset/
├── train/
│   ├── images/
│   └── metadata.jsonl
├── validation/
│   ├── images/
│   └── metadata.jsonl
└── test/
    ├── images/
    └── metadata.jsonl

Sécurité

Les clés API sont utilisées uniquement pendant votre session
Aucune clé n'est stockée sur le serveur
Les données sont transmises de manière sécurisée
Chaque utilisateur utilise ses propres identifiants

Licence

Apache License 2.0

🎨 Interface utilisateur moderne et intuitive

📊 Barre de progression en temps réel

📦 Installation

Clonez le repository :

git clone https://huggingface.co/spaces/Marsouuu/mini-vlm-dataset-builder
cd mini-vlm-dataset-builder

Installez les dépendances :

pip install -r requirements.txt

🚀 Utilisation

Lancez l'application :

python app.py

Accédez à l'interface web dans votre navigateur (généralement à l'adresse http://localhost:7860)
Dans l'interface :
- Entrez votre clé API Google Gemini
- Entrez votre token Hugging Face
- Choisissez un nom pour votre dataset
- Téléchargez vos images de documents
- Cliquez sur "Créer le dataset"

📁 Structure du dataset

Le dataset créé aura la structure suivante :

dataset_name/
├── train/
│   ├── images/
│   │   └── kid-page-{n}.png
│   └── metadata.jsonl
├── validation/
│   ├── images/
│   │   └── kid-page-{n}.png
│   └── metadata.jsonl
└── test/
    ├── images/
    │   └── kid-page-{n}.png
    └── metadata.jsonl

Chaque fichier metadata.jsonl contient des entrées au format :

{
    "image": "images/kid-page-{n}.png",
    "query": "Question générée",
    "answer": "Réponse générée",
    "langue": "fr",
    "page": 1,
    "file_name": "images/kid-page-{n}.png"
}

🤝 Contribution

Les contributions sont les bienvenues ! N'hésitez pas à :

Ouvrir une issue pour signaler un bug
Proposer une amélioration via une pull request
Partager vos idées d'amélioration

📝 Licence

Ce projet est sous licence MIT. Voir le fichier LICENSE pour plus de détails.