In [1]:
import pandas as pd 
import requests 
import datetime as dt
import re
import json
from tqdm import tqdm
import os

from openai import OpenAI

#### SciencesPoC extract

In [2]:
df = pd.read_csv('extract_sciences_po.csv')

In [3]:
df

Unnamed: 0.1,Unnamed: 0,item_id,date_published,url,titre,description,type,author,section,subhead,premium,image_url
0,0,I4OEKQ6MHRBP3LQVVYDDXW6T6U,2024-10-07 15:33:34,https://www.liberation.fr/societe/familles/a-m...,Centre de loisirs à Marseille : sept plaintes ...,Une enquête pour violences sur mineurs et diff...,article,Caroline Delabroy,Familles,Justice,True,https://www.liberation.fr/resizer/E6tv2-_N7qhg...
1,1,LVA4MZBQOBECNPZD323NV6O7K4,2024-10-09 14:53:55,https://www.liberation.fr/sports/jeux-olympiqu...,JO de Paris 2024 : pour la santé mentale des a...,Avec la libération de la parole sur la santé m...,article,Marie Thimonnier,Jeux olympiques et paralympiques,Ecriture,True,https://www.liberation.fr/resizer/uAqwfrqGpk93...
2,2,4FAEHUUZ5ZFAJKLFEV2LT5CBAQ,2024-10-10 15:49:02,https://www.liberation.fr/international/afriqu...,"Au Burkina Faso, la conscription pour «punir d...",Au moins sept magistrats ont été réquisitionné...,article,Agnès Faivre,Afrique,Répression,False,https://www.liberation.fr/resizer/_A-QaSGPPcHu...
3,3,4S4G6BKFRNER3LB22CLPAEWWKY,2024-10-11 15:28:25,https://www.liberation.fr/economie/social/ferm...,Fermeture de l’usine automobile MA France : «O...,"Le 13 mai, l’entreprise sous-traitante de Stel...",article,Eléna Roney,Social,Lutte sociale,True,https://www.liberation.fr/resizer/6hlzuHlwTJFQ...
4,4,ZAFHRNAHJVC6THXRSBMCB4A24I,2024-10-09 10:55:05,https://www.liberation.fr/lifestyle/design/pre...,"Près de Rouen, jardiner dans «un jeu subtil av...",Imaginé par Patrick et Sylvie Quibel il y a tr...,article,"['Florian Bardou, envoyé spécial à Rouen', 'ph...",Design,Reportage,True,https://www.liberation.fr/resizer/goppJdUChU09...
...,...,...,...,...,...,...,...,...,...,...,...,...
511,516,AOT254SA2VDIDNF4YW7XPLWJ5E,2024-10-12 15:46:00,https://www.liberation.fr/culture/musique/char...,Charlie Dalin : «Mon oncle était le chanteur d...,"Charlie Dalin, skipper qui s’apprête à embarqu...",article,Alexis Bernier,Musique,Casque t'écoutes?,False,https://www.liberation.fr/resizer/Oum9ZxntR4pt...
512,517,GUOUKHLPFZBK7GVR5XU7MXVD5A,2024-10-12 16:32:37,https://www.liberation.fr/societe/droits-des-f...,Violences sexuelles : à la recherche de «co-vi...,"Avec un système de «matchs», le site Coabuse r...",article,Hélène Coutard,Droits des femmes,«Match»,True,https://www.liberation.fr/resizer/F5PeR7sIedRA...
513,518,5HT6C24ZBVDOBFXPLA4HNVOTT4,2024-10-12 16:33:57,https://www.liberation.fr/environnement/agricu...,"«Plus ils habitent près des champs, plus les t...","Des traces de pesticides, dont certains interd...",article,"[' LIBERATION', ' AFP']",Agriculture,Contamination,False,https://www.liberation.fr/resizer/VzMm-X_AuAhQ...
514,519,VLV6RSQ6U5E6XJ6AIRV26AEKO4,2024-10-12 16:43:33,https://www.liberation.fr/economie/annonces-de...,Annonces de la Chine contre la crise économiqu...,"Face aux problèmes structurels de l’économie, ...",article,Arnaud Vaulerin,Economie,Analyse,True,https://www.liberation.fr/resizer/ZKreJUwCgQPk...


#### Connect to Deepseek endpoint

In [4]:
save_path = 'save'
content_path = 'extract_sciences_po'


def retrieve_classifications(name, mapping_prompt):


    if os.path.exists(f"{save_path}/output_{name}.txt"):
        with open(f"{save_path}/output_{name}.txt", 'r') as f : 
            out_dict = json.loads(f.read())
        out_df = pd.DataFrame.from_dict(out_dict)
        out = out_dict
    else : 
        out_df = pd.DataFrame(columns = ['item_id', 'categorie_principale', 'categorie_secondaire'])
        out = []

    df_to_process = df.loc[~df.item_id.isin(out_df.item_id)]

    if mapping_prompt[name]['client']=='deepseek':
        client = OpenAI(api_key=os.environ["DEEPSEEK_API_KEY"], base_url="https://api.deepseek.com")
    else:
        client=OpenAI()

    df_to_process = df.loc[~df.item_id.isin(out_df.item_id)]


    with open(mapping_prompt[name]['path_prompt'], 'r') as f:
        prompt = f.read()

    with tqdm(total=df_to_process.shape[0]) as pbar:
        for i, row in df_to_process.iterrows():
            titre_brut = f"{row.item_id}_"+row.titre.lower().strip().replace(f"\xa0", ' ').replace(' : ', ':').replace(' ', '_').replace('/', '')
            
            with open(f'{content_path}/{titre_brut}.txt', 'r') as f:
                text = f.read()

            messages = [{"role": "system", "content": prompt},
                        {"role": "user", "content": text}]

            response = client.chat.completions.create(
                model="deepseek-chat",
                messages=messages,
                response_format={
                    'type': 'json_object'
                }
            )
            try : 
                cat_json = json.loads(response.choices[0].message.content)

                out.append({
                    'item_id':row.item_id, 
                    'categorie_principale': cat_json['categorie_principale'],
                    'categorie_secondaire': cat_json['categorie_secondaire'],
                })
                
                with open(f'{save_path}/output_{name}.txt', 'w+') as f : 
                    f.write(json.dumps(out))

            except Exception as e : 
                print(f'Error with article {row.item_id}')
                pass

            
            pbar.update(1)



In [5]:
with open('mapping_prompts.txt', 'r') as f : 
    mapping = json.loads(f.read())
retrieve_classifications('sans_titre_1', mapping)

KeyError: 'DEEPSEEK_API_KEY'

#### Ajouter images