martialroberge
Mise à jour pour utilisation avec clés API individuelles
3cb2c3b

A newer version of the Gradio SDK is available: 5.32.0

Upgrade
metadata
title: Mini-VLM Dataset Builder
emoji: 🎯
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 4.19.2
app_file: app.py
pinned: false

Mini-VLM Dataset Builder

Cette application permet de créer facilement des datasets de questions/réponses pour l'entraînement de modèles Vision-Langage (VLM).

⚠️ Important : Clés API requises

Pour utiliser cette application, vous devez avoir :

  1. Une clé API Google Gemini (obtenir ici)
  2. Un token Hugging Face avec permissions d'écriture (obtenir ici)

Ces clés sont à entrer directement dans l'interface de l'application. Elles ne sont jamais stockées et sont uniquement utilisées pour vos propres requêtes.

Fonctionnalités

  • 📸 Upload multiple d'images et de PDFs
  • 🤖 Analyse automatique avec Gemini
  • ❓ Génération de questions/réponses
  • 📁 Dataset structuré (train/validation/test)
  • ⬆️ Upload sur votre compte Hugging Face

Utilisation

  1. Entrez votre clé API Google Gemini dans le champ dédié
  2. Entrez votre token Hugging Face dans le champ dédié
  3. Spécifiez le nom de votre dataset (format: votre-username/nom-du-dataset)
  4. Uploadez vos documents (PDF, PNG, JPG, JPEG)
  5. Cliquez sur "Créer le dataset"

Structure du dataset généré

Le dataset sera créé sur votre compte Hugging Face avec la structure suivante :

votre-username/nom-du-dataset/
├── train/
│   ├── images/
│   └── metadata.jsonl
├── validation/
│   ├── images/
│   └── metadata.jsonl
└── test/
    ├── images/
    └── metadata.jsonl

Sécurité

  • Les clés API sont utilisées uniquement pendant votre session
  • Aucune clé n'est stockée sur le serveur
  • Les données sont transmises de manière sécurisée
  • Chaque utilisateur utilise ses propres identifiants

Licence

Apache License 2.0

🎨 Interface utilisateur moderne et intuitive

📊 Barre de progression en temps réel

📦 Installation

  1. Clonez le repository :
git clone https://huggingface.co/spaces/Marsouuu/mini-vlm-dataset-builder
cd mini-vlm-dataset-builder
  1. Installez les dépendances :
pip install -r requirements.txt

🚀 Utilisation

  1. Lancez l'application :
python app.py
  1. Accédez à l'interface web dans votre navigateur (généralement à l'adresse http://localhost:7860)

  2. Dans l'interface :

    • Entrez votre clé API Google Gemini
    • Entrez votre token Hugging Face
    • Choisissez un nom pour votre dataset
    • Téléchargez vos images de documents
    • Cliquez sur "Créer le dataset"

📁 Structure du dataset

Le dataset créé aura la structure suivante :

dataset_name/
├── train/
│   ├── images/
│   │   └── kid-page-{n}.png
│   └── metadata.jsonl
├── validation/
│   ├── images/
│   │   └── kid-page-{n}.png
│   └── metadata.jsonl
└── test/
    ├── images/
    │   └── kid-page-{n}.png
    └── metadata.jsonl

Chaque fichier metadata.jsonl contient des entrées au format :

{
    "image": "images/kid-page-{n}.png",
    "query": "Question générée",
    "answer": "Réponse générée",
    "langue": "fr",
    "page": 1,
    "file_name": "images/kid-page-{n}.png"
}

🤝 Contribution

Les contributions sont les bienvenues ! N'hésitez pas à :

  • Ouvrir une issue pour signaler un bug
  • Proposer une amélioration via une pull request
  • Partager vos idées d'amélioration

📝 Licence

Ce projet est sous licence MIT. Voir le fichier LICENSE pour plus de détails.