autocompra/autocompra3.py

80 lines
3.2 KiB
Python

import re
import pandas as pd
import os
from datetime import datetime, timedelta
from PyPDF2 import PdfReader
from collections import defaultdict
# Carpeta con tus tickets PDF
ticket_folder = "tickets"
def extract_data_from_pdf(file_path):
reader = PdfReader(file_path)
text = ""
for page in reader.pages:
text += page.extract_text() + "\n"
date_match = re.search(r"(\d{2}/\d{2}/\d{4})", text)
fecha = datetime.strptime(date_match.group(1), "%d/%m/%Y") if date_match else None
products = []
for line in text.splitlines():
match = re.match(r"\d*\s?(.*?)\s+(\d+,\d{2})\s+(\d+,\d{2})", line)
if match:
nombre = match.group(1).strip().upper()
unit_price = float(match.group(2).replace(",", "."))
total_price = float(match.group(3).replace(",", "."))
products.append((fecha, nombre, unit_price, total_price))
else:
match_simple = re.match(r"(.*?)\s+(\d+,\d{2})$", line)
if match_simple:
nombre = match_simple.group(1).strip().upper()
total_price = float(match_simple.group(2).replace(",", "."))
products.append((fecha, nombre, None, total_price))
return products
# Recolectar todos los productos de todos los tickets
datos = []
for file in os.listdir(ticket_folder):
if file.endswith(".pdf"):
path = os.path.join(ticket_folder, file)
datos.extend(extract_data_from_pdf(path))
# Crear DataFrame
columnas = ["fecha", "producto", "precio_unitario", "precio_total"]
df = pd.DataFrame(datos, columns=columnas)
df.dropna(subset=["fecha"], inplace=True)
# Normalizar nombres de producto
df["producto"] = df["producto"].str.upper().str.strip()
# Calcular el tiempo entre compras para cada producto
df["diferencia_dias"] = df.groupby("producto")["fecha"].diff().dt.days
# Calcular la frecuencia de compra (promedio de días entre compras)
frecuencia_compra = df.groupby("producto")["diferencia_dias"].mean().reset_index()
# Estimación de la duración de los productos (cuánto duran en casa)
# Suponemos que compras aproximadamente la misma cantidad cada vez.
# Si se desea una estimación más precisa, se pueden agregar más datos sobre cantidad.
frecuencia_compra["proxima_compra_estimado"] = df["fecha"].max() + pd.to_timedelta(frecuencia_compra["diferencia_dias"], unit="D")
# Ahora seleccionamos los productos que más frecuentemente compras
# y predecimos cuándo volverás a comprar basándonos en la frecuencia.
productos_estimados = frecuencia_compra.sort_values("diferencia_dias", ascending=True)
# Listar la compra estimada
productos_estimados["producto"] = productos_estimados["producto"].str.title() # Capitalizar el nombre del producto
productos_estimados["fecha_estimada_proxima_compra"] = productos_estimados["proxima_compra_estimado"].dt.strftime("%d/%m/%Y")
# Guardar la lista estimada de la compra
productos_estimados.to_csv("lista_compra_estimado.csv", index=False)
# Mostrar los primeros resultados
print("\n✅ Lista de la compra estimada para la próxima compra:")
print(productos_estimados[["producto", "diferencia_dias", "fecha_estimada_proxima_compra"]])
print("\n✅ Archivos generados:")
print("- lista_compra_estimado.csv")