Spaces:

Elixir-AI
/

easy-financial-vlm-dataset-builder

Sleeping

App Files Files Community

martialroberge commited on Apr 6

Commit

b3c5c24

1 Parent(s): 7a7f712

Ajout de la model card et mise à jour de la licence

Browse files

Files changed (1) hide show

app.py +95 -3

app.py CHANGED Viewed

@@ -358,11 +358,103 @@ La réponse doit être uniquement le JSON, sans texte supplémentaire."""
                         with open(jsonl_path, 'a', encoding='utf-8') as f:
                             f.write(json.dumps(entry, ensure_ascii=False) + '\n')
             # Créer le fichier LICENSE
             with open(dataset_path / "LICENSE", 'w') as f:
-                f.write("""Apache License 2.0
-Copyright [yyyy] [name of copyright owner]
 Licensed under the Apache License, Version 2.0 (the "License");
 you may not use this file except in compliance with the License.
@@ -376,7 +468,7 @@ WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 See the License for the specific language governing permissions and
 limitations under the License.
 """)
             progress(0.9, desc="Upload du dataset sur Hugging Face...")
             try:

                         with open(jsonl_path, 'a', encoding='utf-8') as f:
                             f.write(json.dumps(entry, ensure_ascii=False) + '\n')
+            # Créer le fichier README.md (model card)
+            with open(dataset_path / "README.md", 'w', encoding='utf-8') as f:
+                f.write(f"""---
+license: apache-2.0
+task_categories:
+  - document-question-answering
+  - visual-question-answering
+language:
+  - fr
+tags:
+  - finance
+  - vlm
+  - document-ai
+  - question-answering
+pretty_name: {dataset_name.split('/')[-1]}
+size_categories:
+  - n<1K
+---
+# {dataset_name.split('/')[-1]}
+## Description
+Ce dataset a été créé pour l'entraînement de modèles Vision-Langage (VLM) spécialisés dans l'analyse de documents financiers. Il a été généré automatiquement en utilisant l'API Google Gemini pour analyser des documents financiers et produire des questions/réponses pertinentes en français.
+## Objectif
+L'objectif de ce dataset est de permettre l'entraînement de mini-modèles VLM spécialisés dans les tâches financières, en leur permettant d'atteindre des performances proches des grands modèles comme GPT-4V ou Gemini, mais avec une empreinte plus légère et une spécialisation métier.
+## Caractéristiques
+- **Langue** : Questions et réponses en français
+- **Domaine** : Finance et analyse de documents financiers
+- **Format** : Images (PNG) + métadonnées (JSONL)
+- **Types de questions** :
+  - Analyse quantitative (montants, ratios, variations)
+  - Analyse qualitative (stratégies, risques, opportunités)
+  - Questions négatives (informations non présentes)
+- **Structure** :
+  - Train (80%)
+  - Validation (10%)
+  - Test (10%)
+## Métadonnées
+Chaque entrée du dataset contient :
+- Un ID unique
+- Le chemin de l'image
+- Une question en français
+- La réponse correspondante
+- La langue source du document
+- Un indicateur de question négative
+## Génération
+Ce dataset a été généré automatiquement en utilisant :
+1. L'API Google Gemini pour l'analyse des documents
+2. Un prompt spécialisé pour la génération de questions/réponses financières
+3. Un système de validation pour assurer la qualité et la cohérence
+## Utilisation
+Ce dataset est particulièrement adapté pour :
+- L'entraînement de mini-modèles VLM spécialisés en finance
+- Le fine-tuning de modèles existants pour des tâches financières
+- L'évaluation de modèles sur des tâches de compréhension de documents financiers
+## Citation
+Si vous utilisez ce dataset, veuillez citer :
+```bibtex
+@misc{{dataset-{dataset_name.split('/')[-1]},
+  author       = {{Martial ROBERGE}},
+  title        = {{{dataset_name.split('/')[-1]}}},
+  year         = {{2024}},
+  publisher    = {{Hugging Face}},
+  organization = {{Lexia France}},
+  contact      = {{[email protected]}}
+}}
+```
+## Création
+Dataset créé par Martial ROBERGE (Lexia France) en utilisant [Mini-VLM Dataset Builder](https://huggingface.co/spaces/Marsouuu/french-visual-dataset-builder-v1).
+## Licence
+Ce dataset est distribué sous licence Apache 2.0.
+""")
             # Créer le fichier LICENSE
             with open(dataset_path / "LICENSE", 'w') as f:
+                f.write("""                    Apache License
+                    Version 2.0, January 2004
+                    http://www.apache.org/licenses/
+Copyright 2024 Martial ROBERGE - Lexia France
 Licensed under the Apache License, Version 2.0 (the "License");
 you may not use this file except in compliance with the License.
 See the License for the specific language governing permissions and
 limitations under the License.
 """)
             progress(0.9, desc="Upload du dataset sur Hugging Face...")
             try: