Spaces:

fioriclass
/

emotion_classifier

Sleeping

App Files Files Community

fioriclass commited on 14 days ago

Commit

a7790b3

1 Parent(s): ef3b361

maj cuml pour etre comme transformers

Browse files

Files changed (1) hide show

src/cuml_trainer.py +21 -14

src/cuml_trainer.py CHANGED Viewed

@@ -56,14 +56,18 @@ class CuMLTrainer(BaseTrainer, ABC):
         data = cudf.read_csv(self.data_path)
-        # Séparation des textes et des étiquettes
-        # Supposons que la colonne de texte est la première colonne qui n'est pas la colonne cible
-        text_column = [col for col in data.columns if col != self.target_column][0]
-        texts = data[text_column]  # Extraire la série de texte
-        labels = data[self.target_column].values
-        # Vectorisation des textes
-        X = self.vectorizer.fit_transform(texts)
         X_prepared = self._prepare_input_for_fit(X)
         # Entraînement du modèle
         self.classifier.fit(X_prepared, labels)
@@ -76,14 +80,17 @@ class CuMLTrainer(BaseTrainer, ABC):
         # Chargement des données (idéalement un jeu de test séparé)
         data = cudf.read_csv(self.data_path)
-        # Séparation des textes et des étiquettes
-        # Supposons que la colonne de texte est la première colonne qui n'est pas la colonne cible
-        text_column = [col for col in data.columns if col != self.target_column][0]
-        texts = data[text_column]  # Extraire la série de texte
-        y_true = data[self.target_column].values
         # Vectorisation et prédiction
-        X = self.vectorizer.transform(texts)
         X_prepared = self._prepare_input_for_predict(X)
         y_pred = self.classifier.predict(X_prepared)

         data = cudf.read_csv(self.data_path)
+        # Identification des colonnes de features (toutes sauf la cible)
+        feature_columns = [col for col in data.columns if col != self.target_column]
+        if not feature_columns:
+            raise ValueError("Aucune colonne de feature trouvée. Le dataset doit contenir au moins une colonne en plus de la colonne cible.")
+        # Concaténation des features (même si une seule, pour la cohérence et l'évolutivité)
+        # Convertit en string et ajoute un espace comme séparateur si plusieurs colonnes existent.
+        texts_concatenated = data[feature_columns].astype(str).agg(' '.join, axis=1)
+        labels = data[self.target_column].astype(self._get_label_dtype()).values # Assurer le bon dtype pour les labels
+        # Vectorisation des textes concaténés
+        X = self.vectorizer.fit_transform(texts_concatenated)
         X_prepared = self._prepare_input_for_fit(X)
         # Entraînement du modèle
         self.classifier.fit(X_prepared, labels)
         # Chargement des données (idéalement un jeu de test séparé)
         data = cudf.read_csv(self.data_path)
+        # Identification des colonnes de features (toutes sauf la cible)
+        feature_columns = [col for col in data.columns if col != self.target_column]
+        if not feature_columns:
+            raise ValueError("Aucune colonne de feature trouvée pour l'évaluation.")
+        # Concaténation des features
+        texts_concatenated = data[feature_columns].astype(str).agg(' '.join, axis=1)
+        y_true = data[self.target_column].astype(self._get_label_dtype()).values # Assurer le bon dtype
         # Vectorisation et prédiction
+        X = self.vectorizer.transform(texts_concatenated)
         X_prepared = self._prepare_input_for_predict(X)
         y_pred = self.classifier.predict(X_prepared)