|
import pandas as pd |
|
import numpy as np |
|
import os |
|
|
|
|
|
raw_data_path = "cleaned_mark_six.csv" |
|
processed_data_path = "processed_data.csv" |
|
|
|
|
|
if not os.path.exists(processed_data_path): |
|
print("📌 处理历史数据中...") |
|
|
|
|
|
df = pd.read_csv(raw_data_path) |
|
|
|
|
|
df.rename(columns={ |
|
'2': '中奖号码 2', '3': '中奖号码 3', '4': '中奖号码 4', |
|
'5': '中奖号码 5', '6': '中奖号码 6' |
|
}, inplace=True) |
|
|
|
|
|
df['日期'] = pd.to_datetime(df['日期'], errors='coerce') |
|
|
|
|
|
df['年份'] = df['日期'].dt.year |
|
df['月份'] = df['日期'].dt.month |
|
df['日期'] = df['日期'].dt.day |
|
|
|
|
|
num_cols = ['中奖号码 1', '中奖号码 2', '中奖号码 3', '中奖号码 4', '中奖号码 5', '中奖号码 6'] |
|
df['中奖号码均值'] = df[num_cols].mean(axis=1) |
|
|
|
|
|
df[['期号_年份', '期数']] = df['期号'].str.split('/', expand=True) |
|
df['期号_年份'] = df['期号_年份'].astype(int) |
|
df['期数'] = df['期数'].astype(int) |
|
df.drop(columns=['期号'], inplace=True) |
|
|
|
|
|
df.to_csv(processed_data_path, index=False) |
|
print(f"✅ 历史数据已处理并保存到 `{processed_data_path}`") |
|
else: |
|
print("✅ 处理后的数据已存在,跳过处理步骤") |
|
|
|
|
|
print("📌 数据预处理完成!") |
|
|